Size: a a a

Natural Language Processing

2020 September 23

RD

Roman Demyanchuk in Natural Language Processing
Привет всем, я новичок в теме NLP

Подскажите пожалуйста, пишу rules по работе с адресами на украиском языке, рулы странным образом вообще не работают, подскажите пожалуйста, куда тут можно копать чтобы разобраться?
источник

е

ер п in Natural Language Processing
я новичок в нлп, где можно научиться проектам в нлп индустрии если я щас занят на работе в др сфере(дата инжинирнг)
источник

е

ер п in Natural Language Processing
ну то есть посл.тренды, как формализовать задачу из бизнес задачи, как метрику создать самому если надо, как в прод пушить модель?
источник

е

ер п in Natural Language Processing
в формате мастер класса, есть кто может онлайн мастер класс провести?
источник

AS

Alex Surname in Natural Language Processing
Roman Demyanchuk
Привет всем, я новичок в теме NLP

Подскажите пожалуйста, пишу rules по работе с адресами на украиском языке, рулы странным образом вообще не работают, подскажите пожалуйста, куда тут можно копать чтобы разобраться?
что такое rules?
источник

RD

Roman Demyanchuk in Natural Language Processing
правила которые мы описываем используя yargy
источник

AK

Alexander Kukushkin in Natural Language Processing
Roman Demyanchuk
Привет всем, я новичок в теме NLP

Подскажите пожалуйста, пишу rules по работе с адресами на украиском языке, рулы странным образом вообще не работают, подскажите пожалуйста, куда тут можно копать чтобы разобраться?
Yargy использует русские словари для Pymorphy. Возможно в этом проблема. Документация не помогла https://github.com/natasha/yargy#documentation? Видео https://www.youtube.com/watch?v=NQxzx0qYgK8?
источник

RD

Roman Demyanchuk in Natural Language Processing
есть интересная особенность, используя парсер наташи, он как-то пытается извлекать адреса до украинских букв

к примеру на обработку пересылаю такую строку:

вулиця Олександрівська


респонс от наташи летит такой:
{'name': 'Олександр', 'type_': None}


до украиской буквы і, после обрезает

то есть получается нельзя описать правила по работе с украинским на yargy?
источник

AK

Alexander Kukushkin in Natural Language Processing
Надо кастомизировать токенизатор, из коробки нет
источник

RD

Roman Demyanchuk in Natural Language Processing
то есть получается в данном кейсе я не кастомизирую?
источник

RD

Roman Demyanchuk in Natural Language Processing
(это как пример)
источник

D

D in Natural Language Processing
Roman Demyanchuk
есть интересная особенность, используя парсер наташи, он как-то пытается извлекать адреса до украинских букв

к примеру на обработку пересылаю такую строку:

вулиця Олександрівська


респонс от наташи летит такой:
{'name': 'Олександр', 'type_': None}


до украиской буквы і, после обрезает

то есть получается нельзя описать правила по работе с украинским на yargy?
можно в качестве костыля заменять i на буквы, которых нет в украинском, допустим ы ))
источник

RD

Roman Demyanchuk in Natural Language Processing
🙂
источник

YB

Yuri Baburov in Natural Language Processing
Roman Demyanchuk
то есть получается в данном кейсе я не кастомизирую?
он "i" не считает частью (русского) слова, и делит на два слова. за то, какие буквы в слова входят, отвечает токенизатор
источник

RD

Roman Demyanchuk in Natural Language Processing
как я понимаю токенизатор нужно править в исходнике yargy?
источник

KS

Konstantin Smith in Natural Language Processing
Попробуйте pullenti для адресов - украинский язык поддерживается.
источник

YB

Yuri Baburov in Natural Language Processing
Roman Demyanchuk
как я понимаю токенизатор нужно править в исходнике yargy?
да. найти, что там используется, и исправить.
источник

RD

Roman Demyanchuk in Natural Language Processing
это будет весело)
источник

OS

Oleg Sb in Natural Language Processing
Roman Demyanchuk
это будет весело)
вот пример кастомизации токенайзера https://pastebin.com/raw/rtKqrYks , в данном случае я убрал дефис из знаков пунктуации и добавил в правило для русских слов. То есть Орехово-Зуево токенайзер после этого изменения станет считать одним словом, а не тремя. Аналогично добавляется буква i
источник

RD

Roman Demyanchuk in Natural Language Processing
Oleg Sb
вот пример кастомизации токенайзера https://pastebin.com/raw/rtKqrYks , в данном случае я убрал дефис из знаков пунктуации и добавил в правило для русских слов. То есть Орехово-Зуево токенайзер после этого изменения станет считать одним словом, а не тремя. Аналогично добавляется буква i
окей, сейчас буду что-то с этим делать, большое спасибо за пример!
источник