Size: a a a

Natural Language Processing

2021 September 23

Е

Егорка in Natural Language Processing
Не включаю, т.к. вы получаете две разные сущности, например: МММ и "МММ".
источник

🐙

🐙 in Natural Language Processing
Ну, в какой-то мере это - нормально, у нас же не entity linking, мы просто пытаемся понять, что кусок текста имеет некий класс :)
источник

🐙

🐙 in Natural Language Processing
Но да, имеет смысл 👌
источник

YB

Yuri Baburov in Natural Language Processing
0) нормализовать до пары (Тип, Нормализованное имя).
Для типов собрать датасет сокращений ООО=Обществ* с ограниченной ответственност* , ШИЗТ = Школа-интернат закрытого типа, ИНФС = * Инспекция федеральной налоговой службы * (там префиксы и суффиксы бывают, районы указывают) , Ну вы поняли.
1) собрать датасет компаний, матчить по нему. Эта информация публичная, но по запросу. Там для каждой компании есть краткое и полное название.
2) для дублирования, и на случай, когда в базе записи нет, использовать как раз fuzzy + tfidf + сетки + эвристики.
В общем, всё как всегда.
источник

NM

Nick Mikhailovsky in Natural Language Processing
Определение источников информации, распространяемой в соцсетях - важнейшая для информационных войн, и задачу решают ученые и прикладники в разных странах. На очередном научно-техническом вебинаре НТР и HITS ТГУ 28 сентября в 18:00 МСК Денис Катеренчук из CUNY будет рассказывать про определение влияния пользователя с помощью лингвистического анализа в соцсетях. В его работе используются методы, основанные на отличиях в стиле общения. Они-то и раскрывают информацию об авторах сообщения.

Регистрация: https://us02web.zoom.us/webinar/register/2816215991698/WN_tiWDqvq_SlyWgPpeEnsWfw
источник

AC

Alexander C in Natural Language Processing
Переслано от Alexander C
источник

AC

Alexander C in Natural Language Processing
сейчас идет
источник

AM

Alex Mak in Natural Language Processing
источник
2021 September 24

DD

David Dale in Natural Language Processing
Друзья, а кто из вас работает с pymystem3, как вы решали проблему того, что он регулярно кидает ошибку I/O operation on closed file?
источник

A

Andrey in Natural Language Processing
:( открытием нового экземпляра, т.е.

mystem = pymystem3.Mystem()

заново...
источник

A

Andrey in Natural Language Processing
эта ерунда из-за того, что pymystem обёртка, открывает пайп в ОС и косячит с ним видимо
источник

A

Anton in Natural Language Processing
Вопрос наверное глупый, но сходу не нашёл ответа на вопрос - как дообученную NER модель от deeppavlov запустить из докера?
Дообучил ner_rus_bert_torch на нижний регистр.
источник

DD

David Dale in Natural Language Processing
Ага, я так и догадался. Думал, может быть, кто-то уже разработал хак для того, чтобы она не косячила 🤔
источник

Д

Данил in Natural Language Processing
Модель LASER, получение эмбеддингов предложений. Подскажите, пожалуйста, если у нас в предложении встречаются и русские слова, и английские, как передать аргумент lang для этого предложения?
источник

SancheZz Мов in Natural Language Processing
Может лучше LABSE взять
источник

SancheZz Мов in Natural Language Processing
И не мучаться
источник

SancheZz Мов in Natural Language Processing
?
источник

Д

Данил in Natural Language Processing
хорошо, посмотрю, спасибо!
источник

SancheZz Мов in Natural Language Processing
У него фишка в том что слова про одно и тоже на разных языках имеют близкий эмбеддинг
источник

SancheZz Мов in Natural Language Processing
Ну естественно и фразы
источник