Size: a a a

Natural Language Processing

2021 July 17

KL

Kir L in Natural Language Processing
еще интересные особенности нашел
Если "Сергей работает в Озоне", то Озон извлекается как компания, а если "Это курьер Озона", то уже не видит организацию. Такие дела :-(
источник

KL

Kir L in Natural Language Processing
@alexkuk Александр, скажите, есть ли какие-то "твики" чуть улучшить извлечение организаций, может быть, сместить "голоса" модели с PER на ORG без обучения на своих данных? У нас короткие тексты, не новости. Вижу, что на длинных текстах работает значительно лучше.
источник

КМ

Кибер Медик... in Natural Language Processing
Мне кажется, что пора делать какой-то FAQ для чата, слишком много одинаковых вопросов стало
источник

Е

Егорка in Natural Language Processing
Не исправите. Либо, вы правы, смириться, либо иные модели рассмотреть.
источник

KL

Kir L in Natural Language Processing
попадались готовые модели для этого?
источник

d

dePuff in Natural Language Processing
Это NER
Можно гуглить, гитхабить по комбо NER + RU
источник

Е

Егорка in Natural Language Processing
В этих проектах найдете русские NER модели: Deeppavlov, Spacy, Stanza, Pullenty (статические правила)
источник

KL

Kir L in Natural Language Processing
понятно, что нер, не очень пока понял - реально найти именно готовые модели? Спейси.Ру умеет организации извлекать, или надо учить на том же NERUS'e?
источник

Е

Егорка in Natural Language Processing
Все, что я привел, работает из коробки
источник

KL

Kir L in Natural Language Processing
спасибо!
источник

Е

Егорка in Natural Language Processing
Ерунда вопрос
источник

KL

Kir L in Natural Language Processing
товарищи, а тут можно поспрашивать про диппавлова, или есть отдельный немертвый канал?
например, в глаза бросилась модель ner_dstc2
http://docs.deeppavlov.ai/en/master/features/models/ner.html#train-and-use-the-model

размер 626 КБ !!! а F1 приличный. Зачем тогда все остальное спрашивается ;(
источник

d

dePuff in Natural Language Processing
Скорость референса, как вариант

Завтраков же бесплатных не бывает )
источник

DD

David Dale in Natural Language Processing
У DP есть чатик отдельный https://t.me/DeepPavlovDreamDiscussions, можно там ещё спросить.
источник

DD

David Dale in Natural Language Processing
А так вообще датасет DSTC2 сам по себе простой, он про поиск ресторанов и сущности все ресторанные, в относительно небольшом количестве.
источник

Е

Егорка in Natural Language Processing
В первую очередь это не русский язык.
А во вторых вы сами всё поймёте, когда протестируйте на своих данных.
Датасет,на котором обучалась и тестировалась модель, может принципиально отличаться от ваших данных.
источник

KL

Kir L in Natural Language Processing
спасибо за пояснения!
источник

SS

Sergey Shulga in Natural Language Processing
народ, а подскажите варианты простого решения частной проблемы спелчекинга - в тексте слипаются односимвольные союзы\предлоги со следующим после них словом. Нужно провести сегментацию. Язык - русский, прилипают всегда спереди: "Взрослые идети", "иди сним"..
источник

SS

Sergey Shulga in Natural Language Processing
односимвольных в целом в русском мало, но дальше стопорнулся - как понять, что имеет место склейка, а не валидное слово. Первая мысль - частотный словарь, и если там нет, то явно имеем проблему, но может быть, что-то еще?
источник

DD

David Dale in Natural Language Processing
Частотный словарь слов - проще всего. Если там нет, можно перейти на уровень символов.
источник