Size: a a a

Natural Language Processing

2021 September 21

D

Daniel in Natural Language Processing
Преимущество только одно, java если ml делается (вдруг) на java. Омонимии напр. замок (устройство) и замок (строение) не различаются. Коллизии замок (от замокнуть под дождем) и замок (строение) - различаются
источник

AK

Anton Kolonin in Natural Language Processing
Сформирована программа воркшопа по интерепретируемой обработке естественного языка (INLP) в рамках конференции по общему искусственному интеллекту AGI-2021 в Калифорнии, США 15-18 октября 2021 года. Семинар пройдет онлайн и оффлайн, регистрация только на воркшоп онлайн - на сайте https://aigents.github.io/inlp/
источник

VS

Vyacheslav Sherkunov in Natural Language Processing
Добрый день! Подскажите пожалуйста по нескольким вопросам:
1. Есть ли какая-то модель обученая на извлечение бизнес-процессов из текста, либо какая-то технология?
2. Какой объем данных должен быть для адекватного обучения моделей, например если мы хотим сделать свой NER, то какой объём размеченного текста нам нужно будет, чтоб мы могли получить результат?
Буду признателен за подсказки и варианты.
источник
2021 September 22

SK

Sergey Kamenshchikov in Natural Language Processing
Привет. Мы стартап в области NLP. Ищем на аутсорса человека с опытом в Text Summarization (multidoc).
источник

SK

Sergey Kamenshchikov in Natural Language Processing
С перспективой конверсии в ко фаундера. Напишите, если интересно.
источник

Е

Егорка in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @MarioWinans кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@mr_B1onde, @nud1e, @Gofat, @stepvasya, @Roman_Yudichev
При поддержке Золота Бородача
источник

DS

Dmitry Spodarets in Natural Language Processing
Всем привет!
Сегодня вечером вместе с Андреем Латышем  из Provectus на вебинаре "From research to product with Hydrosphere" поговорим про превращение ML исследования в продукт с использованием Hydrosphere. Присоединяйтесь!
https://dataphoenix.info/webinar-the-a-z-of-data-from-research-to-product-with-hydrosphere/
источник

A

Alexander in Natural Language Processing
Коллеги, а как можно выделять именованые сущности по контексу? Т.е. я знаю слова которые идут перед ИС и после. Спасибо
источник

AK

Anton Kolonin in Natural Language Processing
источник

AM

Alex Mak in Natural Language Processing
Для тех, кто, возможно, будет решать подобную задачу после меня, гуглить (кэгглить, гитхабить) нужно fuzzy matching. Библиотеки соответствующие даже есть. FuzzyWuzzy (которая теперь TheFuzz https://github.com/seatgeek/thefuzz) или вот PolyFuzz https://github.com/MaartenGr/PolyFuzz , который через Flair даже трансформеры умеет. Но в целом, как я понял, бейзлайн (если тут можно употребить этот термин) - это использовать TfIdf. Хотя вот Майкрософт предлагает сетки учить: https://www.microsoft.com/en-us/research/uploads/prod/2019/04/Auto-EM.pdf
источник

A

Andrey in Natural Language Processing
ну и как сопоставить
ПАО "ММК", Магнитогорский Металлургический Комбинат и "Магнитку"?
источник

AM

Alex Mak in Natural Language Processing
Так в этом как раз мой вопрос и есть! ) Я пока 100% решения не нашел. Ищу. Делюсь просто тем, что пока нашел. Если у вас вдруг есть ответ, то буду рад, если поделитесь! )
источник

М

Марк in Natural Language Processing
Привет.
Коллеги подскажите, есть ли способ используя готовые реализации BPE сворачивать в один токен n-граммы слов.
Например: "менеджер по продажам" свернуть в 1 токен.
источник

AK

Anton Kolonin in Natural Language Processing
надежно только через настройку синонимов по каждой энтити
источник

AK

Anton Kolonin in Natural Language Processing
а "менеджер продаж" это другой токен будет?
источник

AM

Alex Mak in Natural Language Processing
Количество "энтитей" = количество юрлиц в РФ ;)
чо-та как-то я не уверен, что у меня есть мощности на разметку такого датасета
источник

М

Марк in Natural Language Processing
тут наверно уже 2 токена предпочтительно.
источник

AK

Anton Kolonin in Natural Language Processing
А иначе будут ошибки. Причем они будут даже если полный список будет, потому что омонимия будет по одноименным оошкам в разных регионах.
источник

AK

Anton Kolonin in Natural Language Processing
А где логика? Критерий свертки?
источник