Телеграмм чат группы natural_language_processing страница 819

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1994 membersпожаловаться на группу

2020 September 03

IK

Ilya Kazakov in Natural Language Processing

То есть, нужно дообучить модель или токенизатор? И как вообще это можно сделать? Понимаю, что Берта можно зафайнтюнить для, например, классификации. Но если мне нужен от него только эмбеддер, то как тогда поступить?

Берёшь реализацию берта мультилингвального из официальной репы или какого-нибудь ruBert диппавлов. Читаешь внимательно инструкцию, как обучить language model на своём корпусе в их документации. Я не тюнил language model. Может быть, тут кто-то подскажет, насколько имеет смысл тюнить... Но если честно, оно тебе точно нужно? Ты уже понял, что готовые берты с их токенизаторами не знают про твои смайлы?

источник

12:48пожаловаться #1

v

viktor in Natural Language Processing

нужно входное имя с/без фамилией привести к нормальной форме
посмотрел на петровича и там все то же, но наоборот как мне показало
мб кто-то подскажет где есть что-то более-менее готовое?
к примеру, нером вытянул все персоны и их нужно привести к нормальной форме, если они не в ней

источник

14:39пожаловаться #2

VM

Valentin Malykh in Natural Language Processing

pymorphy2

источник

14:44пожаловаться #3

v

viktor in Natural Language Processing

Valentin Malykh

pymorphy2

его и использую, но чет не всегда ловит

язык русский, да и фио не особо иностранные

источник

14:52пожаловаться #4

vr

viktoria rein in Natural Language Processing

у Natasha нет такого?

источник

15:07пожаловаться #5

AK

Alexander Kukushkin in Natural Language Processing

Natasha такое умеет, там используется Pymorphy

источник

15:40пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

Кстати, подскажите, как вы находите сейчас:
1) ФИО (краткие и полные)
2) названия компаний
3) адреса
Интересует задача детекции этих сущностей в текстах.

источник

16:23пожаловаться #7

МП

Михаил Притугин... in Natural Language Processing

Есть в Natasha NamesExtractor

источник

16:27пожаловаться #8

МП

Михаил Притугин... in Natural Language Processing

Но он дико медленный

источник

16:27пожаловаться #9

МП

Михаил Притугин... in Natural Language Processing

Есть Tomita.Parser - он тоже медленный
Но его можно параллелить по ядрам

источник

16:27пожаловаться #10

МП

Михаил Притугин... in Natural Language Processing

Если данных немного - можно natasha юзать

источник

16:28пожаловаться #11

МП

Михаил Притугин... in Natural Language Processing

Он показал себя качественнее немного

источник

16:28пожаловаться #12

МП

Михаил Притугин... in Natural Language Processing

Адреса там тоже есть

источник

16:29пожаловаться #13

МП

Михаил Притугин... in Natural Language Processing

По компаниям там тоже есть базовое что-то
Выставляется тег ORG
Качество не проверял

источник

16:30пожаловаться #14

Р

Ромаша in Natural Language Processing

Михаил Притугин

Есть в Natasha NamesExtractor

и только если фио с большой буквы.

источник

16:34пожаловаться #15

V

Vlad in Natural Language Processing

Кстати, а насколько жизнеспособен такой костыль в применении Natasha для поиска ФИО в тексте после ASR, который полностью в нижнем регистре и без знаков препинания: если перед отправкой текста в Наташу искать тем же pymorphy2 существительные и тег "Name" и делать их с заглавной буквы - насколько это поможет или идея бредовая?

источник

16:39пожаловаться #16

V

Vlad in Natural Language Processing

О, ещё теги Surn и Patr подойдут: http://opencorpora.org/dict.php?act=gram

opencorpora.org

OpenCorpora: открытый корпус русского языка

источник

16:40пожаловаться #17

Oℕ

Oleg ℕizhnik in Natural Language Processing

Здравствуйте, а есть где-то готовый словарь для склонения имён собственных (городов и стран) на русском, или какая-то библиотека на JVM

источник

17:12пожаловаться #18

NV

Nikita Vilunov in Natural Language Processing

Здравствуйте, а есть где-то готовый словарь для склонения имён собственных (городов и стран) на русском, или какая-то библиотека на JVM

https://pymorphy2.readthedocs.io/en/latest/internals/dict.html

источник

17:14пожаловаться #19

Oℕ

Oleg ℕizhnik in Natural Language Processing

https://pymorphy2.readthedocs.io/en/latest/internals/dict.html

спасибо, даже джавовые клоны уже посмотрел
очень нужно что-то что можно безболезненно использовать в JVM процессе

источник

17:16пожаловаться #20