Телеграмм чат группы natural_language_processing страница 842

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2106 membersпожаловаться на группу

2020 September 23

RD

Roman Demyanchuk in Natural Language Processing

Привет всем, я новичок в теме NLP

Подскажите пожалуйста, пишу rules по работе с адресами на украиском языке, рулы странным образом вообще не работают, подскажите пожалуйста, куда тут можно копать чтобы разобраться?

источник

16:12пожаловаться #1

е

ер п in Natural Language Processing

я новичок в нлп, где можно научиться проектам в нлп индустрии если я щас занят на работе в др сфере(дата инжинирнг)

источник

16:13пожаловаться #2

е

ер п in Natural Language Processing

ну то есть посл.тренды, как формализовать задачу из бизнес задачи, как метрику создать самому если надо, как в прод пушить модель?

источник

16:14пожаловаться #3

е

ер п in Natural Language Processing

в формате мастер класса, есть кто может онлайн мастер класс провести?

источник

16:14пожаловаться #4

AS

Alex Surname in Natural Language Processing

Roman Demyanchuk

Привет всем, я новичок в теме NLP

Подскажите пожалуйста, пишу rules по работе с адресами на украиском языке, рулы странным образом вообще не работают, подскажите пожалуйста, куда тут можно копать чтобы разобраться?

что такое rules?

источник

16:16пожаловаться #5

RD

Roman Demyanchuk in Natural Language Processing

правила которые мы описываем используя yargy

источник

16:17пожаловаться #6

AK

Alexander Kukushkin in Natural Language Processing

Roman Demyanchuk

Привет всем, я новичок в теме NLP

Подскажите пожалуйста, пишу rules по работе с адресами на украиском языке, рулы странным образом вообще не работают, подскажите пожалуйста, куда тут можно копать чтобы разобраться?

Yargy использует русские словари для Pymorphy. Возможно в этом проблема. Документация не помогла https://github.com/natasha/yargy#documentation? Видео https://www.youtube.com/watch?v=NQxzx0qYgK8?

источник

16:24пожаловаться #7

RD

Roman Demyanchuk in Natural Language Processing

есть интересная особенность, используя парсер наташи, он как-то пытается извлекать адреса до украинских букв

к примеру на обработку пересылаю такую строку:

вулиця Олександрівська

респонс от наташи летит такой:

{'name': 'Олександр', 'type_': None}

до украиской буквы і, после обрезает

то есть получается нельзя описать правила по работе с украинским на yargy?

источник

16:35пожаловаться #8

AK

Alexander Kukushkin in Natural Language Processing

Надо кастомизировать токенизатор, из коробки нет

источник

16:36пожаловаться #9

RD

Roman Demyanchuk in Natural Language Processing

то есть получается в данном кейсе я не кастомизирую?

источник

16:37пожаловаться #10

RD

Roman Demyanchuk in Natural Language Processing

(это как пример)

источник

16:37пожаловаться #11

D

D in Natural Language Processing

Roman Demyanchuk

есть интересная особенность, используя парсер наташи, он как-то пытается извлекать адреса до украинских букв

к примеру на обработку пересылаю такую строку:

вулиця Олександрівська

респонс от наташи летит такой:

{'name': 'Олександр', 'type_': None}

до украиской буквы і, после обрезает

то есть получается нельзя описать правила по работе с украинским на yargy?

можно в качестве костыля заменять i на буквы, которых нет в украинском, допустим ы ))

источник

16:37пожаловаться #12

RD

Roman Demyanchuk in Natural Language Processing

🙂

источник

16:38пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Roman Demyanchuk

то есть получается в данном кейсе я не кастомизирую?

он "i" не считает частью (русского) слова, и делит на два слова. за то, какие буквы в слова входят, отвечает токенизатор

источник

16:41пожаловаться #14

RD

Roman Demyanchuk in Natural Language Processing

как я понимаю токенизатор нужно править в исходнике yargy?

источник

16:42пожаловаться #15

KS

Konstantin Smith in Natural Language Processing

Попробуйте pullenti для адресов - украинский язык поддерживается.

источник

16:42пожаловаться #16

YB

Yuri Baburov in Natural Language Processing

Roman Demyanchuk

как я понимаю токенизатор нужно править в исходнике yargy?

да. найти, что там используется, и исправить.

источник

16:42пожаловаться #17

RD

Roman Demyanchuk in Natural Language Processing

это будет весело)

источник

16:43пожаловаться #18

OS

Oleg Sb in Natural Language Processing

Roman Demyanchuk

это будет весело)

вот пример кастомизации токенайзера https://pastebin.com/raw/rtKqrYks , в данном случае я убрал дефис из знаков пунктуации и добавил в правило для русских слов. То есть Орехово-Зуево токенайзер после этого изменения станет считать одним словом, а не тремя. Аналогично добавляется буква i

источник

16:44пожаловаться #19

RD

Roman Demyanchuk in Natural Language Processing

Oleg Sb

вот пример кастомизации токенайзера https://pastebin.com/raw/rtKqrYks , в данном случае я убрал дефис из знаков пунктуации и добавил в правило для русских слов. То есть Орехово-Зуево токенайзер после этого изменения станет считать одним словом, а не тремя. Аналогично добавляется буква i

окей, сейчас буду что-то с этим делать, большое спасибо за пример!

источник

16:46пожаловаться #20