Size: a a a

Natural Language Processing

2021 July 01

MK

Max Kuznetsov in Natural Language Processing
начальные (конечные) элементы. так понятней
источник

Eg

Elena gisly in Natural Language Processing
встречала перевод leading whitespace как ведущие пробелы
источник

Eg

Elena gisly in Natural Language Processing
но в других контекстах как-то не очень
источник

MK

Max Kuznetsov in Natural Language Processing
гуглом переводили )
источник

Eg

Elena gisly in Natural Language Processing
ну это еще в относительно старых книжках встречается) или справке
источник

АН

Алексей Ничников... in Natural Language Processing
Всем привет!
Стоит задача сделать целеориентированного чат-бота, пытаюсь найти какой-нибудь фреймворк для логики (дерева или графа), чтобы было возможно в его узлы вставлять свои  классификаторы, может кто-то сталкивался и может порекомнедовать годный (на Python), гуглится rasa, но у него вроде строенные классификаторы.
источник

AS

Artem Snegirev in Natural Language Processing
Если ты про NLU пайплайн, то можно добавлять кастомные компоненты

Вот пример: https://blog.rasa.com/enhancing-rasa-nlu-with-custom-components/
источник

АН

Алексей Ничников... in Natural Language Processing
Да, про него. Спасибо за ссылку, буду смотреть. Пытался найти похожие на RASA библиотеки (может проще),  нашел еще Deeppavlov Go-Bot Framework и пожалуй все  что попалось (из опенсорсного и не уже готовых решений, типа Диалогфлоу). Удивлен, казалось, что должно быть много таких библиотек.
источник

DD

David Dale in Natural Language Processing
Я ещё могу посоветовать свою самоделку dialogic.
Я сделал эту либу для быстрого запуска мультиплатформенных чатботов (мессенджеры, соцсети, голосовые помощники).
Там не такой мощный NLP, как в Расе или Диппавлове, и в целом она рассчитана, что ты будешь писать довольно много собственного кода. И, в частности, можно подключать любые классификаторы или теггеры для своих задач.
Пример готового бота - https://github.com/avidale/alice-stopwatch или https://github.com/avidale/alice-stretching.
Документации у неё пока нет, но, если у вас будут вопросы, с удовольствием отвечу)
источник

АН

Алексей Ничников... in Natural Language Processing
Давид, спасибо. Буду изучать, появятся вопросы, обращусь.
источник

AS

Artem Snegirev in Natural Language Processing
Попробуй еще посмотреть botfront - это gui для rasa.

Правда с недавних пор этот проект больше не поддерживается, но для небольших проектов лучшего решения, которое работает из коробки и дает много фичей, я не видел.
источник

АН

Алексей Ничников... in Natural Language Processing
Спасибо!
источник

SS

Sergey Shulga in Natural Language Processing
Народ, что можете посоветовать под задачу relations extraction для русского? Я нашел несколько рабочих пейперов, которые можно переложить для русского,  но они рассчитаны только выявление единственного отношения между объектами, однако на практике чаще всего к одному объекту имеют отношение несколько других. По большому счету для русского вообще не нашел ни одной нормальной репы. Вообще не поднятая область?
источник
2021 July 02

D

Dmitry in Natural Language Processing
Всё сложно, например coreference resolution для русского нет (решается грязным хаком с переводом в англ.), поэтому и relation extraction такой себе получится.
источник

М

Майя in Natural Language Processing
Привет!

Подскажите, пожалуйста, как лучше подойти к проблеме извлечения ключ-значение из длинных pdf (10-20 страниц на английском). Структуризация по секция стандартная, а вот внутри секций информация неструктурированная (документы от разных фирм).

Я пока решила взять flair и тренировать NER для каждой секции отдельно классическим BIO. Потому что это кажется довольно простым решением.

Но ясно, что информация ещё о шрифте (bold, например) и относительном расположение элемента бы помогли модели.

Кто как решал похожие задачи?
источник

SL

Shelest Listjev in Natural Language Processing
Приветствую!

Скажите, пожалуйста, есть ли запись семинара air institute, где миколов выступал 30 июня?
источник

T

Timur in Natural Language Processing
1. Для учета координат есть LayoutLM (есть в transformers)
2. Если pdf -- не сканы, то можно вытащить инфу о шрифтах каким-нибудь pdfminer
источник

МС

Миркамал Самиев... in Natural Language Processing
Привет! Подскажите пожалуйста хороший спел чекер на питоне который можно использовать для русского языка. Pyspellchecker уже пробовал он медленно работает на средних датасетах.
источник

RP

Rodion Proskuryakov in Natural Language Processing
jamspell, быстрее пока не видел
источник

М

Майя in Natural Language Processing
Я использую PyMuPDF для извлечения текста, координат и шрифтов, но LayoutLM — думаю, не сильно подойдет, т.к. важен контекст слова для его классификации
источник