Size: a a a

Natural Language Processing

2021 July 16

SancheZz Мов in Natural Language Processing
источник

d

dePuff in Natural Language Processing
Вы клёвые 👍

Мне нравится. Как сильно - узнаю в понедельник )
источник

В

Валентин👾 in Natural Language Processing
Здравствуйте, подскажите пожалуйста. В общем, использую библиотеку natasha для извлечения фамилий с инициалами из текста, но некоторые фамилии natasha не знает. У меня есть список всех нужных фамилий, которые могут встречаться. Можно ли как то дообучить наташу находить эти фамилии тоже?
источник

G

Gernar in Natural Language Processing
Там ярги парсер под капотом, ты можешь взять наташинские правила и свои просто добавить
источник

G

Gernar in Natural Language Processing
Придётся в коде порыться
источник

В

Валентин👾 in Natural Language Processing
Хм, может есть ещё какие-нибудь хорошие решения для поиска фамилий?
источник

G

Gernar in Natural Language Processing
Если уходить от правил, то только НЕР пилить
источник

G

Gernar in Natural Language Processing
Но кажется что в твоей ситуации реально проще разобраться как работает ярги парсер и допилить нужные фамилии
источник

В

Валентин👾 in Natural Language Processing
Хорошо, я посмотрю, что за ярги парсер
источник

Е

Егорка in Natural Language Processing
При такой постановке задачи, почему просто не производить поиск по словарю?
источник

В

Валентин👾 in Natural Language Processing
Боюсь, что будет долго, плюс фамилии могут быть в разных падежах
источник

Е

Егорка in Natural Language Processing
Явно быстрее чем машинное обучение. Ахо-Корасик + библиотека для падежей
источник

DD

David Dale in Natural Language Processing
Плюсую, у меня именно этот рецепт (просклонять с помощью pymorphy во все падежи и скомпилировать в ahocorasick) работал быстро с миллионами сущностей.
источник

LD

Lednik Dwarf in Natural Language Processing
Тогда можно заранее их просклонять
источник

G

Gernar in Natural Language Processing
Падежи просто добавить можно. Есть либы которые склоняют ФИО российские. Petrovich например
источник

N

Natalia in Natural Language Processing
ну вы преуменьшаете возможность генерации всех форм, это совсем не так уж сложно и много (например, у вас только ед.ч. будет нужно в основном)
источник

N

Natalia in Natural Language Processing
вообще юзать правила и словари не то чтобы зазорно :)
источник

В

Валентин👾 in Natural Language Processing
Знаю, что можно, но это и словарь в несколько раз увеличит. Боюсь, что поиск будет работать слишком долго
источник

В

Валентин👾 in Natural Language Processing
Переслано от Lednik Dwarf
Тогда можно заранее их просклонять
источник

В

Валентин👾 in Natural Language Processing
Переслано от Gernar
Падежи просто добавить можно. Есть либы которые склоняют ФИО российские. Petrovich например
источник