Size: a a a

Natural Language Processing

2021 August 27

KS

Konstantin Shitkov in Natural Language Processing
На хаггингфэйсе есть нормалайзер готовый в модельках
источник

DS

Dmitry Spodarets in Natural Language Processing
Всем привет!
В сентябре в рамках серии вебинаров “The A-Z of Data” от команды Data Phoenix приглашаю всех на следующие вебинары:
- 8 сентября - Deploying deep learning models with Kubernetes and Kubeflow - https://dataphoenix.info/webinar-deploying-deep-learning-models-with-kubernetes-and-kubeflow/
- 16 сентября - Re-usable pipelines for ML projects with DVC - https://dataphoenix.info/webinar-re-usable-pipelines-for-ml-projects/
- 22 сентября - From research to the product with Hydrosphere - https://dataphoenix.info/webinar-the-a-z-of-data-from-research-to-product-with-hydrosphere/
Буду рад видеть всех на наших трансляциях, присоединяйтесь 😉
источник

OS

Oleg Serikov in Natural Language Processing
источник

A

Anton in Natural Language Processing
А как можно её в колабе потестить?
источник

AS

Artem Sergeev in Natural Language Processing
источник

AS

Artem Sergeev in Natural Language Processing
Ну собственно, а мой-то вопрос  - что есть хорошего именно для выделения связей на русском? (NRE)
Можно сразу "построение графа знаний", т.к. я с этой целью интересуюсь.
источник

A

Anton in Natural Language Processing
👍🏻спасибо
источник

A

Anton in Natural Language Processing
Ничего, к сожалению, не встречал. Видимо не особо нужная бизнес задача
источник

AS

Artem Sergeev in Natural Language Processing
вероятно
И моё намерение - граф знаний и (вероятно) ответы на фактические вопросы по художественному произведению, только это подтверждает. Бизнесовой задача не выглядит :)
источник

A

Anton in Natural Language Processing
А какие ответы планировалось достать из произведения? Возможно подойдёт модель QA для такой задачи?
источник

Eg

Elena gisly in Natural Language Processing
может, диссертация Даниила Скоринкина будет полезной?
https://www.hse.ru/sci/diss/220995586
источник

AS

Artem Sergeev in Natural Language Processing
О вот это интересно. И как раз на примере "Войны и мира" с которой я и сам решил начать. Спасибо, изучу
источник

AS

Artem Sergeev in Natural Language Processing
Фактология по персонажам\событиям.
Вот допустим, у меня получилось взять "очень хороший ответ" у слегка файнтюненой на тексте "Войны и мира" ruGPT-3-medium с "затравкой" (забыл как это по-научному) на вопрос-ответ.

Вопрос: Какие были руки у князя Андрея? А какие у Пьера?
Ответ: У князя Андрея были тонкие, нежные, белые руки. У Пьера были толстые, сильные, грубые руки, и он ими работал.

Хотя, известная тема, что у Андрея "маленькие белые ручки", и что-то не помню, чтобы Пьер работал.

Была надежда на бОльшей модели поучить подольше и улучшить результат, но
а) я понял, что этот результат довольно случаен, другие схожие вопросы были сильно "в молоко".
б) текста 6.5МБ и ruGPT-3 large просто "уплывает" в воспроизведение кусков текста, хотя и хорошо связанных между собой. Что может быть и неплохо, но эти куски к сожалению не особо относятся к "заданному предмету", т.е. даже продолжение "Руки у князя Андрея были " не бьётся с реальными фактами в самом тексте. Ну и сама способность "брать контекст из затравки" сильно повреждается, конечно.

Я попозже наверное смогу подробнее описать свой опыт с ruGPT-3 на эту тему.

Она, на первый взгляд, феноменально хорошо делает QA по "абзацу текста" в затравке, без дообучения. Но тут проблема, какие именно части текста ей для этого презентовать, как их находить и т.п. Там опять же есть референсы, разнесённые в тексте. Если "он сказал" попадёт в затравку, то сеть б-м справится. Если нет, то, понятно, мимо. "Образ персонажа" скорее всего вообще сильно разнесён по тексту, непонятно как его собирать, если не в граф знаний.
источник

AS

Artem Sergeev in Natural Language Processing
ну и на граф сам по себе интересно смотреть, в контексте "знаний о тексте"
источник

AS

Artem Sergeev in Natural Language Processing
вот пример хорошего. Из такого контекста, искусственно слепленного из текста (+QA):

В Чёрной тетради записано, что Я, Саманта, дочь Паучьего сына Музея, не зная об этой жизни ничего, стреляла в Хитрого Койота, убившего моего отца на моих глазах. Теперь меня ждет испытание у духов. Кто бы сделал иное на моем месте. Я иду в Сердце Бури. Я, Энджи Музей, сижу и жду возвращения Саманты. Я молю духов о том, чтобы они были к ней милостивы. Саманта вышла!!!! Великий вождь Паучий сын Музей мечтал об объединении народов двух автобусов в священной горе Шайен. Но его трусливый и подлый брат Антибиотик предал его и коварно убил, оставив народы разделенными.

Large "берёт" такой вопрос:
Вопрос: Кто убийцы Паучьего сына?
Ответ: Антибиотик и Трусливый Койот.

Это прям неожиданно хорошо было.

При том что:
Вопрос: Кто убил Паучьего сына?
Ответ: Антибиотик.
(ну т.е. формулировка прошлого вопроса подсказала "искать ещё".

И:
Вопрос: Сколько было убийц Паучьего сына?
Ответ: Их было трое.
источник

AS

Artem Sergeev in Natural Language Processing
для сравнения ruBERT тренированный на QA тут "сыплется", практически на любой вопрос с "кто" (даже просто "Кто?") отвечая "Паучий сын".
источник

DD

David Dale in Natural Language Processing
GPT сильно фантазирует. Можно взять мою T5, я её обучал отвечать на вопросы на данных SberQUAD. Она не такая умная, как GPT, но и фантазирует меньше.
Естественно, для T5 нужно отобрать контекст, для этого обычно сиамские модели используют.
Ну и мою модель рекомендуется дообучить, т.к. исходно я её учил на 10 разных задач, и если пофайнтюнить только на одну, качество должно вырасти.
источник

BS

Bogdan Salyp in Natural Language Processing
Да, GPT очень сильно добавляет лишний контекст)
источник

AS

Artem Sergeev in Natural Language Processing
ну и кстати даже в "хорошем ответе" интернет-предобученный контекст про мультперсонажа "Хитрый Койот" (https://ru.wikipedia.org/wiki/Хитрый_койот_и_Дорожный_бегун) "продавил" предоставленный контекст, в котором "Трусливый Койот"
источник

AS

Artem Sergeev in Natural Language Processing
спасибо, я посмотрю. Меня GPT сильно покорила на первый взгляд мощью "затравок". Я например классификацию попробовал (всего на 2 класса правда), 8 примеров, без всякого дообучения - и хороший результат.
источник