Size: a a a

Natural Language Processing

2020 October 15

KS

Konstantin Smith in Natural Language Processing
Alex
Добрый вечер, подскажите, есть ли готовые решения  для извлечения из текстов таких характеристик, как различные физические величины: размеры, сила тока, напряжение, давление, объём и т.п.?
Pullenti есть специальный анализатор именно для этой задачи
источник

OR

Oleg Radchenko in Natural Language Processing
здравствуйте. подскажите, сталкивались ли вы с решением проблемы анализа связности текста? я имею в виду отсеивание явной бессмыслицы. может быть есть какие-то простые решения для этого?
источник

К

Кикбан in Natural Language Processing
Oleg Radchenko
здравствуйте. подскажите, сталкивались ли вы с решением проблемы анализа связности текста? я имею в виду отсеивание явной бессмыслицы. может быть есть какие-то простые решения для этого?
статистику распределения символов или N-грамм считать
источник

OR

Oleg Radchenko in Natural Language Processing
Кикбан
статистику распределения символов или N-грамм считать
уточню задачу. имеется в виду не набор символов а набор слов не имеющий смысла
источник

К

Кикбан in Natural Language Processing
Ооо, Смысл :) "на чешуе жестяной рыбы прочёл я звуки новых губ"
источник

OR

Oleg Radchenko in Natural Language Processing
Кикбан
Ооо, Смысл :) "на чешуе жестяной рыбы прочёл я звуки новых губ"
ну не настолько глубоко )
источник

OR

Oleg Radchenko in Natural Language Processing
я скорее просто про отсечение наборов несвязанных слов. но я вас понял, кажется что это малореализуемо
источник

FF

Futorio Franklin in Natural Language Processing
Oleg Radchenko
я скорее просто про отсечение наборов несвязанных слов. но я вас понял, кажется что это малореализуемо
Собрать распределение частоты биграмм слов
источник

К

Кикбан in Natural Language Processing
Oleg Radchenko
я скорее просто про отсечение наборов несвязанных слов. но я вас понял, кажется что это малореализуемо
думаю, профессионалы смогут предложить что-то более интересное - я с этим не сталкивался.
источник

OR

Oleg Radchenko in Natural Language Processing
Futorio Franklin
Собрать распределение частоты биграмм слов
интересный вариант, спасибо
источник

К

Кикбан in Natural Language Processing
Futorio Franklin
Собрать распределение частоты биграмм слов
Google Words вроде раздавал биграммы и N-граммы слов
источник

К

Кикбан in Natural Language Processing
Только слова существенно более вариативны, чем N-граммы, имхо даже после диких стеммеров сможет отлавливать только достаточно длинные тексты с бессмыслицей
источник

FF

Futorio Franklin in Natural Language Processing
Кикбан
Google Words вроде раздавал биграммы и N-граммы слов
Тут мне кажется, что сильно от домена зависит
источник

FF

Futorio Franklin in Natural Language Processing
Распределение в литературе и какой-нибудь профессиональной сфере будут отличаться
источник

OR

Oleg Radchenko in Natural Language Processing
у нас разговорная речь (
источник

OR

Oleg Radchenko in Natural Language Processing
но правда домен-ориентированная
источник

К

Кикбан in Natural Language Processing
в режиме поиска быстрых универсальных решений - можно прогнать через лемматизатор и определение частей речи. Потом сравнить распределение частей речи с эталонным распределением, для поиска аномалий.

"Пять глаголов подряд - что-то здесь не так" :)
источник

OR

Oleg Radchenko in Natural Language Processing
Кикбан
в режиме поиска быстрых универсальных решений - можно прогнать через лемматизатор и определение частей речи. Потом сравнить распределение частей речи с эталонным распределением, для поиска аномалий.

"Пять глаголов подряд - что-то здесь не так" :)
да, звучит разумно, спасибо
источник

К

Кикбан in Natural Language Processing
Это если подняться с уровня символов на уровень частей речи
источник

VG

Valeriy Grebenyuk in Natural Language Processing
Как разместить вакансию здесь?
источник