Size: a a a

Natural Language Processing

2021 September 02

AF

Alexander Fedorenko in Natural Language Processing
я  тоже использую аналогичное - MUSE, но отобрав с помощью его кандидатов по семантике, необходимо следовать еще и формальному (посимвольному) сходству строк.
тот же Левенштейн сам по себе показал себя плохо
источник

AF

Alexander Fedorenko in Natural Language Processing
спасибо. ушел смотреть)
источник

VS

Vyacheslav Sherkunov in Natural Language Processing
Добрый день! А может кто-нибудь посоветовать инструменты или библиотеки для извлечения сущностей и процессов из текста, причём именно неименнованых, а в целом, например заказ, функция и соответственно оформление заказа, выполнение функции и т.д.? Заранее спасибо!
источник

AF

Alexander Fedorenko in Natural Language Processing
у вас похоже на поиск ключевых слов. и никто не мешает использовать подход NER, только вместо имен - ваши ключевые слова
источник

Eg

Elena gisly in Natural Language Processing
Всем привет! Не сочтите за спам, но меня попросили распространить информацию про такое мероприятие: "IT-технологии для сохранения и развития языков коренных малочисленных народов Севера, Сибири и Дальнего Востока РФ" — пройдет оно *уже не только очно в Москве, но и онлайн* 16 сентября, организаторы ищут спикеров. Несмотря на название, приветствуются рассказы про технологии в отношении языков России в целом. Может, кому есть что рассказать и/ли есть желание пообщаться:) Пишите +7 967 912-08-90 (Николай) или мне, я перенаправлю).
источник

DP

Danylo Petrakivskyi in Natural Language Processing
Приветствую! Поделитесь, пожалуйста, опытом разработки автодополнения / прогнозирования клиентских текстовых запросов (для сферы e-commerce). Заранее спасибо!
источник

ВЧ

Василий Чесалов... in Natural Language Processing
Мне кажется, это больше похоже на суммаризацию текста - выделить наиболее важные предложения в тексте (TextRank), затем синтаксический разбор получившегося реферата, чтобы понять какие там сущности, и что с ними делается.
источник

VS

Vyacheslav Sherkunov in Natural Language Processing
Спасибо за идеи, буду изучать👍
источник

AF

Alexander Fedorenko in Natural Language Processing
вы можете и так рассматривать задачу.
ИМХО,  тот кто обратился за помощью, он спрашивал немного о другом
источник

ВЧ

Василий Чесалов... in Natural Language Processing
Ну, вот у меня есть коллекция нормативных документов моей организации, я хочу автоматизировать составление карты процессов. Либо я должен где-то найти список сущностей для типовых бизнес-процессов в близких отраслях, либо написать модель, которая сама предложит сущности и нарисует граф взаимосвязей между ними.
источник

V

Vadim in Natural Language Processing
Всем привет!
Нужен совет от сообщества)

Мне необходимо разработать ODQA для коллекции текстов на РУССКОМ языке. Сейчас смотрю в сторону DeepPavlov.

Подскажите, у кого-нибудь есть еще идеи относительно фреймворков и, может, есть под рукой примеры реализации?
источник

GF

Grigory Frantsuzov in Natural Language Processing
Есть на базе T5 от  @cointegrated
источник

GF

Grigory Frantsuzov in Natural Language Processing
или там не ODQA а SQUAD
источник

GF

Grigory Frantsuzov in Natural Language Processing
кажется второе и я ошибся
источник

DD

David Dale in Natural Language Processing
ODQA - это общий вид задачи "вопросы на произвольную тему".
У меня в T5 только кусочек пайплайна для решения этой задачи, который отвечает на вопрос по короткому абзацу текста.
Дополнительно нужна база знаний, откуда этот абзац можно вытаскивать, и поисковая система, чтобы его там находить.
источник

GF

Grigory Frantsuzov in Natural Language Processing
а у deepPavlov она на базе википедии?
источник

V

Vadim in Natural Language Processing
Да
источник

V

Vadim in Natural Language Processing
Это даже лучше - меньше мощностей будет задействовано.

А поисковую систему на чем лучше реализовать?
На ум приходят пока регулярки - они быстрые и бьют в лоб.
источник

DD

David Dale in Natural Language Processing
Классика - это даже не регулярки, а обратный индекс и какой-нибудь tfidf или bm25.
источник

DD

David Dale in Natural Language Processing
Хотя не, вру. Классика - это elastic и всё из коробки)
источник