Size: a a a

Natural Language Processing

2021 February 05

A

Artem in Natural Language Processing
Max Kuznetsov
Ребята из КАД очень активно борются с скрапингом. Правда есть вариант что скрапили К+. Но все равно интересно.
может в лс пообщаемся?)
источник

AK

Alexander Kukushkin in Natural Language Processing
Там покупали данные у Право ру
источник

A

Artem in Natural Language Processing
Alexander Kukushkin
Там покупали данные у Право ру
архивами?
источник

MK

Max Kuznetsov in Natural Language Processing
Artem
может в лс пообщаемся?)
Ok. Кому еще интересно присоединяйтесь.
источник

MK

Max Kuznetsov in Natural Language Processing
Alexander Kukushkin
Там покупали данные у Право ру
Мы год назад прикинули, что по ценам право.ру это будет стоить 60 млн. руб.
источник

A

Artem in Natural Language Processing
Max Kuznetsov
Мы год назад прикинули, что по ценам право.ру это будет стоить 60 млн. руб.
ну не
источник

A

Artem in Natural Language Processing
не вправе называть точные цифры но это не 60 млн
источник

KS

Konstantin Smith in Natural Language Processing
Eug
ну а как тут опишешь все формулировки, если тут про выделение сути: утверждение, отрицание или что-то третье
Мы подобную задачу решаем на Pullenti применительно к нормативным актам. Там тоже 3 случая: имеет право, должен и запрещено. Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр. Пока в стадии разработки, в открытом доступе это пока не выложено.
источник

A

Anna in Natural Language Processing
Привет. Решаю задачу Intent detection для open domain question answering.
Требуется определить unknown intent по низкому скору вероятного интента (или любым другим факторам).
Проблема в том, что этот скор получается высоким, больше 0.8.
По архитектуре сетки: Navec + BiLSTM + Attention + CRF(если нужен slot filling).
Пробовала использовать triplet loss, large margin cosine loss, local outlier factor, увеличивать кол-во слоёв/ attention, последние статьи на arxiv пробовала.
Если использовать bert, то в целом качество устраивает, но нужна сетка полегче.
Подскажите, пожалуйста, что ещё можно попробовать или в какую сторону двигаться.
источник

SancheZz Мов in Natural Language Processing
Anna
Привет. Решаю задачу Intent detection для open domain question answering.
Требуется определить unknown intent по низкому скору вероятного интента (или любым другим факторам).
Проблема в том, что этот скор получается высоким, больше 0.8.
По архитектуре сетки: Navec + BiLSTM + Attention + CRF(если нужен slot filling).
Пробовала использовать triplet loss, large margin cosine loss, local outlier factor, увеличивать кол-во слоёв/ attention, последние статьи на arxiv пробовала.
Если использовать bert, то в целом качество устраивает, но нужна сетка полегче.
Подскажите, пожалуйста, что ещё можно попробовать или в какую сторону двигаться.
Затюнить берт, задистиллить его
источник

SancheZz Мов in Natural Language Processing
Той же архитектурой с bilstm crf
источник

E

Eug in Natural Language Processing
Konstantin Smith
Мы подобную задачу решаем на Pullenti применительно к нормативным актам. Там тоже 3 случая: имеет право, должен и запрещено. Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр. Пока в стадии разработки, в открытом доступе это пока не выложено.
Спасибо за комментарий.
А как технически делается это: "Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр."?
Какие инструменты/подходы применяются?
источник

SP

Sebastian Pereira in Natural Language Processing
Eug
Добрый вечер!
Решаю такую задачу: есть шаблон документа №1 с формулировкой "Поставщик обязан восполнить недопоставленное количество товара в течение ___ дней." и шаблон №2 с формулировкой "Восполнение недопоставки Поставщиком не производится."
Надо определить, что документ с текстом "Восполнение недопоставленного количества Товара допускается лишь при наличии письменного согласия Покупателя." не относится ни к одному из приведённых шаблонов.
Подскажите, пожалуйста, в каком направлении двигаться.
Тут слишком много вариантов. 1-е задача решается регулярными выражениями, если у вас конечное количество таких шаблонов и оно не очень большое.
источник

SP

Sebastian Pereira in Natural Language Processing
Если шаблоны гибкие и вы хотите работать с контекстом («смыслом» в боооольших кавычках) шаблонов - смотрите в стороны а) fasttext - если нужны быстрая работа на проде б) трансформеры (Bert) если нужно хорошее качество
источник

SP

Sebastian Pereira in Natural Language Processing
Посмотрите на Natasha и Yargy если нужно что-то посредине.
источник

SP

Sebastian Pereira in Natural Language Processing
Eug
Спасибо за комментарий.
А как технически делается это: "Выделяем правовые нормы относительно этих типов предикатных групп для последующего сравнения, поиска противоречий и пр."?
Какие инструменты/подходы применяются?
Либо поиск ключевых слов (прямого совпадения) либо «гибкий поиск» если нужен контекст.
источник

E

Eug in Natural Language Processing
Sebastian Pereira
Если шаблоны гибкие и вы хотите работать с контекстом («смыслом» в боооольших кавычках) шаблонов - смотрите в стороны а) fasttext - если нужны быстрая работа на проде б) трансформеры (Bert) если нужно хорошее качество
Вы полагаете, использование эмбеддингов предложений что-то даст?
Здесь ведь требуется понимание смысла, который в эмбеддингах присутствует, но, как вы и написали, "в больших кавычках".
Насколько они "чувствительны" к вариантам "надо", "не надо", "возможно"?

В любом случае, спасибо за комментарий. Посмотрю Natasha и Yargy.
источник

A

Anna in Natural Language Processing
SancheZz Мов
Затюнить берт, задистиллить его
Спасибо, модель обучается в реальном времени, под каждый диалог строится своя модель и обучение никем не контролируется. fine tuning bert выходит очень ресурсозатратным (даже если заморозить большую часть слоёв и дотренировать оставшиеся, на CPU получается в 15-20 раз медленнее, а по качеству не сильно выигрывает) и сделать универсальную дистилляцию для любых диалогов пока не получилось.
источник

SancheZz Мов in Natural Language Processing
Ясно, действительно нужен ресурс и желательно не цпу
источник

SancheZz Мов in Natural Language Processing
Anna
Спасибо, модель обучается в реальном времени, под каждый диалог строится своя модель и обучение никем не контролируется. fine tuning bert выходит очень ресурсозатратным (даже если заморозить большую часть слоёв и дотренировать оставшиеся, на CPU получается в 15-20 раз медленнее, а по качеству не сильно выигрывает) и сделать универсальную дистилляцию для любых диалогов пока не получилось.
BiDAF,  кажется так зовется, пробовали?
источник