Телеграмм чат группы natural_language

Мы подобную задачу решаем на Pullenti применительно к нормативным актам. Там тоже 3 случая: имеет право, должен и запрещено. Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр. Пока в стадии разработки, в открытом доступе это пока не выложено.

источник

11:23пожаловаться #8

A

Anna in Natural Language Processing

Привет. Решаю задачу Intent detection для open domain question answering.
Требуется определить unknown intent по низкому скору вероятного интента (или любым другим факторам).
Проблема в том, что этот скор получается высоким, больше 0.8.
По архитектуре сетки: Navec + BiLSTM + Attention + CRF(если нужен slot filling).
Пробовала использовать triplet loss, large margin cosine loss, local outlier factor, увеличивать кол-во слоёв/ attention, последние статьи на arxiv пробовала.
Если использовать bert, то в целом качество устраивает, но нужна сетка полегче.
Подскажите, пожалуйста, что ещё можно попробовать или в какую сторону двигаться.

источник

11:24пожаловаться #9

SМ

SancheZz Мов in Natural Language Processing

Anna

Привет. Решаю задачу Intent detection для open domain question answering.
Требуется определить unknown intent по низкому скору вероятного интента (или любым другим факторам).
Проблема в том, что этот скор получается высоким, больше 0.8.
По архитектуре сетки: Navec + BiLSTM + Attention + CRF(если нужен slot filling).
Пробовала использовать triplet loss, large margin cosine loss, local outlier factor, увеличивать кол-во слоёв/ attention, последние статьи на arxiv пробовала.
Если использовать bert, то в целом качество устраивает, но нужна сетка полегче.
Подскажите, пожалуйста, что ещё можно попробовать или в какую сторону двигаться.

Затюнить берт, задистиллить его

источник

11:26пожаловаться #10

SМ

SancheZz Мов in Natural Language Processing

Той же архитектурой с bilstm crf

источник

11:27пожаловаться #11

E

Eug in Natural Language Processing

Konstantin Smith

Мы подобную задачу решаем на Pullenti применительно к нормативным актам. Там тоже 3 случая: имеет право, должен и запрещено. Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр. Пока в стадии разработки, в открытом доступе это пока не выложено.

Спасибо за комментарий.
А как технически делается это: "Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр."?
Какие инструменты/подходы применяются?

источник

11:28пожаловаться #12

SP

Sebastian Pereira in Natural Language Processing

Eug

Добрый вечер!
Решаю такую задачу: есть шаблон документа №1 с формулировкой "Поставщик обязан восполнить недопоставленное количество товара в течение ___ дней." и шаблон №2 с формулировкой "Восполнение недопоставки Поставщиком не производится."
Надо определить, что документ с текстом "Восполнение недопоставленного количества Товара допускается лишь при наличии письменного согласия Покупателя." не относится ни к одному из приведённых шаблонов.
Подскажите, пожалуйста, в каком направлении двигаться.

Тут слишком много вариантов. 1-е задача решается регулярными выражениями, если у вас конечное количество таких шаблонов и оно не очень большое.

источник

11:30пожаловаться #13

SP

Sebastian Pereira in Natural Language Processing

Если шаблоны гибкие и вы хотите работать с контекстом («смыслом» в боооольших кавычках) шаблонов - смотрите в стороны а) fasttext - если нужны быстрая работа на проде б) трансформеры (Bert) если нужно хорошее качество

источник

11:32пожаловаться #14

SP

Sebastian Pereira in Natural Language Processing

Посмотрите на Natasha и Yargy если нужно что-то посредине.

источник

11:32пожаловаться #15

SP

Sebastian Pereira in Natural Language Processing

Eug

Спасибо за комментарий.
А как технически делается это: "Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр."?
Какие инструменты/подходы применяются?

Либо поиск ключевых слов (прямого совпадения) либо «гибкий поиск» если нужен контекст.

источник

11:33пожаловаться #16

E

Eug in Natural Language Processing

Sebastian Pereira

Если шаблоны гибкие и вы хотите работать с контекстом («смыслом» в боооольших кавычках) шаблонов - смотрите в стороны а) fasttext - если нужны быстрая работа на проде б) трансформеры (Bert) если нужно хорошее качество

Вы полагаете, использование эмбеддингов предложений что-то даст?
Здесь ведь требуется понимание смысла, который в эмбеддингах присутствует, но, как вы и написали, "в больших кавычках".
Насколько они "чувствительны" к вариантам "надо", "не надо", "возможно"?

В любом случае, спасибо за комментарий. Посмотрю Natasha и Yargy.

источник

11:38пожаловаться #17

A

Anna in Natural Language Processing

SancheZz Мов

Затюнить берт, задистиллить его

Спасибо, модель обучается в реальном времени, под каждый диалог строится своя модель и обучение никем не контролируется. fine tuning bert выходит очень ресурсозатратным (даже если заморозить большую часть слоёв и дотренировать оставшиеся, на CPU получается в 15-20 раз медленнее, а по качеству не сильно выигрывает) и сделать универсальную дистилляцию для любых диалогов пока не получилось.

источник

11:38пожаловаться #18

SМ

SancheZz Мов in Natural Language Processing

Ясно, действительно нужен ресурс и желательно не цпу

источник

11:39пожаловаться #19

SМ

SancheZz Мов in Natural Language Processing

Anna

Спасибо, модель обучается в реальном времени, под каждый диалог строится своя модель и обучение никем не контролируется. fine tuning bert выходит очень ресурсозатратным (даже если заморозить большую часть слоёв и дотренировать оставшиеся, на CPU получается в 15-20 раз медленнее, а по качеству не сильно выигрывает) и сделать универсальную дистилляцию для любых диалогов пока не получилось.

BiDAF, кажется так зовется, пробовали?

источник

11:39пожаловаться #20