Size: a a a

Natural Language Processing

2021 August 27

DD

David Dale in Natural Language Processing
Это правда, GPT круто работает без дообучения)
Но если данные есть, то всегда лучше модель дообучить.
источник

AS

Artem Sergeev in Natural Language Processing
ну тут я не понимаю, как провести грань. В моём примере она и "способность к обычному русскому языку" изрядно теряет, и "отвечать на вопросы по образцу из затравки". Ну т.е. ни в модель эти 6.5МБ текста не запихать "без разрушений", ни в 2048 токенов "контекста" он не влезет, конечно.
источник

DD

David Dale in Natural Language Processing
Так надо обучать не на тексте книги, а на образцах той задачи, которую хочется решать. В данном случае - на вопросах и ответах.
источник

GF

Grigory Frantsuzov in Natural Language Processing
А как выглядит датасет? Вопрос -/ потом ответ?
источник

DD

David Dale in Natural Language Processing
Датасет всегда должен выглядеть так, как будет выглядеть при применении модели.
В нашем случае, наверное, так: контекст + вопрос + ответ
источник

AS

Artem Sergeev in Natural Language Processing
Обсуждение интересное, я в дороге, буду урывками
источник

AS

Artem Sergeev in Natural Language Processing
Так но проблем не было с тем, чтобы "отвечать на вопросы". Т.е. ситуации "сеть не отвечает на вопросы", при определенных настройках генерации нет в принципе. Есть проблема с "откуда она берёт фактическую информацию" для ответа.

Не очень понятно, как тут "training set" на QA поможет. В нём должны будут содержаться готовые факты-вопросы-ответы? Но это не интересно, т.к. задача в извлечении фактов как раз из текста.
источник

AS

Artem Sergeev in Natural Language Processing
Если QA на "общие вопросы", т.е. по абзацу текста образец вопроса-ответа, то это тоже не самая большая проблема для меня сейчас. На вид Large GPT-3 с этим хорошо справляется без дообучения.

Проблему для меня представляет "сборка" нужного абзаца под вопрос, и я так понимаю, она стоит для любой QA модели.

Ну кроме "обученной на узкую тему"
источник

AS

Artem Sergeev in Natural Language Processing
Ну и дополнительная ценность в GPT в "готовой формулировке" ответа.
Т.е. Bert QA например, тоже может "неплохо отвечать" куском текста, о котором вопрос (статьи в wiki, например). Но это именно "кусок текста" он не всегда может быть принят как "ответ на вопрос на естественном языке".
источник

AS

Artem Sergeev in Natural Language Processing
У deeppavlov по-моему в последней версии демо вообще сделали, что он просто отмечает подходящее место в тексте.
источник

d

dePuff in Natural Language Processing
А я жду твою статью как пофайнтюнить T5 на всякое разное, чтобы она стала ещё умнее для финальной задачи
источник

AS

Artem Sergeev in Natural Language Processing
а сколько у неё параметров, кстати?
источник

DD

David Dale in Natural Language Processing
244M параметров.
источник

DD

David Dale in Natural Language Processing
Да, я помню про неё. Если назадаёшь наводящих вопросов к статье, буду благодарен)
источник

d

dePuff in Natural Language Processing
Если честно, мне для счастья нужен просто вариант в качестве отправной точки с которого можно начать.

А то жизнь коротка, а видеокарточек мало )
источник

d

dePuff in Natural Language Processing
То есть таски. Размер датасетов. Буст на финальной.

И я счастлив)
источник

DD

David Dale in Natural Language Processing
Понятно, нужна модель для поиска подходящего абзаца текста, который можно будет подставлять уже в GPT
Обычно это делается так:
1) весь текст книги разбивается на абзацы
2) каждый абзац переводится моделью А в какой-то вектор и складывается в индекс для быстрого поиска соседей
3) при поступлении вопроса, он переводится моделью Б в какой-то вектор, и для него ищутся ближайшие соседи в индексе
Потом мы текст каждого ближайшего соседа используем в качестве затравки.
Фишка тут в том, что на парах "абзац+вопрос" можно обучить модели А и Б совместно так, чтобы качество поиска было хорошее.
Если интересно, можем тут архитектуру таких моделей подробнее обсудить.
источник

AS

Artem Sergeev in Natural Language Processing
вот это прямо очень интересно, да

в индексном поиске я и завяз на текущий момент
источник

AS

Artem Sergeev in Natural Language Processing
и прямо на всю эту кучу задач?
Эх, я конечно, с тех пор как у меня 775M получилось зафайнтюнить в Колаб, уже губу и на 1.3G раскатал :)
источник

AS

Artem Sergeev in Natural Language Processing
ну и следующий этап, про который я думаю - набор знаний "внешность Андрея Болконского" разбросан по всему тексту книги. Задаче "опиши его внешность" соответствует множество абзацев. Ну то есть кажется можно не влезть в seq_length. И ведь место под ответ ещё оставить нужно.
источник