Size: a a a

Natural Language Processing

2020 September 03

IK

Ilya Kazakov in Natural Language Processing
Roman
То есть, нужно дообучить модель или токенизатор? И как вообще это можно сделать? Понимаю,  что Берта можно зафайнтюнить для, например, классификации. Но если мне нужен от него только эмбеддер, то как тогда поступить?
Берёшь реализацию берта мультилингвального из официальной репы или какого-нибудь ruBert диппавлов. Читаешь внимательно инструкцию, как обучить language model на своём корпусе в их документации. Я не тюнил language model. Может быть, тут кто-то подскажет, насколько имеет смысл тюнить... Но если честно, оно тебе точно нужно? Ты уже понял, что готовые берты с их токенизаторами не знают про твои смайлы?
источник

v

viktor in Natural Language Processing
нужно входное имя с/без фамилией привести к нормальной форме
посмотрел на петровича и там все то же, но наоборот как мне показало
мб кто-то подскажет где есть что-то более-менее готовое?
к примеру, нером вытянул все персоны и их нужно привести к нормальной форме, если они не в ней
источник

VM

Valentin Malykh in Natural Language Processing
pymorphy2
источник

v

viktor in Natural Language Processing
его и использую, но чет не всегда ловит

язык русский, да и фио не особо иностранные
источник

vr

viktoria rein in Natural Language Processing
у Natasha нет такого?
источник

AK

Alexander Kukushkin in Natural Language Processing
Natasha такое умеет, там используется  Pymorphy
источник

YB

Yuri Baburov in Natural Language Processing
Кстати, подскажите, как вы находите сейчас:
1) ФИО (краткие и полные)
2) названия компаний
3) адреса
Интересует задача детекции этих сущностей в текстах.
источник

МП

Михаил Притугин... in Natural Language Processing
Есть в Natasha NamesExtractor
источник

МП

Михаил Притугин... in Natural Language Processing
Но он дико медленный
источник

МП

Михаил Притугин... in Natural Language Processing
Есть Tomita.Parser - он тоже медленный
Но его можно параллелить по ядрам
источник

МП

Михаил Притугин... in Natural Language Processing
Если данных немного - можно natasha юзать
источник

МП

Михаил Притугин... in Natural Language Processing
Он показал себя качественнее немного
источник

МП

Михаил Притугин... in Natural Language Processing
Адреса там тоже есть
источник

МП

Михаил Притугин... in Natural Language Processing
По компаниям там тоже есть базовое что-то
Выставляется тег ORG
Качество не проверял
источник

Р

Ромаша in Natural Language Processing
Михаил Притугин
Есть в Natasha NamesExtractor
и только если фио с большой буквы.
источник

V

Vlad in Natural Language Processing
Кстати, а насколько жизнеспособен такой костыль в применении Natasha для поиска ФИО в тексте после ASR, который полностью в нижнем регистре и без знаков препинания: если перед отправкой текста в Наташу искать тем же pymorphy2 существительные и тег "Name" и делать их с заглавной буквы - насколько это поможет или идея бредовая?
источник

V

Vlad in Natural Language Processing
О, ещё теги Surn и Patr подойдут: http://opencorpora.org/dict.php?act=gram
источник

Oℕ

Oleg ℕizhnik in Natural Language Processing
Здравствуйте, а есть где-то готовый словарь для склонения имён собственных (городов и стран) на русском, или какая-то библиотека на JVM
источник

NV

Nikita Vilunov in Natural Language Processing
Oleg ℕizhnik
Здравствуйте, а есть где-то готовый словарь для склонения имён собственных (городов и стран) на русском, или какая-то библиотека на JVM
источник

Oℕ

Oleg ℕizhnik in Natural Language Processing
спасибо, даже джавовые клоны уже посмотрел
очень нужно что-то что можно безболезненно использовать в JVM процессе
источник