Телеграмм чат группы natural_language

Это правда, GPT круто работает без дообучения)
Но если данные есть, то всегда лучше модель дообучить.

16:55пожаловаться #1

ну тут я не понимаю, как провести грань. В моём примере она и "способность к обычному русскому языку" изрядно теряет, и "отвечать на вопросы по образцу из затравки". Ну т.е. ни в модель эти 6.5МБ текста не запихать "без разрушений", ни в 2048 токенов "контекста" он не влезет, конечно.

16:59пожаловаться #2

Так надо обучать не на тексте книги, а на образцах той задачи, которую хочется решать. В данном случае - на вопросах и ответах.

Grigory Frantsuzov in Natural Language Processing

17:00пожаловаться #3

А как выглядит датасет? Вопрос -/ потом ответ?

17:01пожаловаться #4

Датасет всегда должен выглядеть так, как будет выглядеть при применении модели.
В нашем случае, наверное, так: контекст + вопрос + ответ

17:01пожаловаться #5

Обсуждение интересное, я в дороге, буду урывками

17:13пожаловаться #6

Так но проблем не было с тем, чтобы "отвечать на вопросы". Т.е. ситуации "сеть не отвечает на вопросы", при определенных настройках генерации нет в принципе. Есть проблема с "откуда она берёт фактическую информацию" для ответа.

Не очень понятно, как тут "training set" на QA поможет. В нём должны будут содержаться готовые факты-вопросы-ответы? Но это не интересно, т.к. задача в извлечении фактов как раз из текста.

17:35пожаловаться #7

Если QA на "общие вопросы", т.е. по абзацу текста образец вопроса-ответа, то это тоже не самая большая проблема для меня сейчас. На вид Large GPT-3 с этим хорошо справляется без дообучения.

Проблему для меня представляет "сборка" нужного абзаца под вопрос, и я так понимаю, она стоит для любой QA модели.

Ну кроме "обученной на узкую тему"

17:41пожаловаться #8

Ну и дополнительная ценность в GPT в "готовой формулировке" ответа.
Т.е. Bert QA например, тоже может "неплохо отвечать" куском текста, о котором вопрос (статьи в wiki, например). Но это именно "кусок текста" он не всегда может быть принят как "ответ на вопрос на естественном языке".

17:54пожаловаться #9

У deeppavlov по-моему в последней версии демо вообще сделали, что он просто отмечает подходящее место в тексте.

17:58пожаловаться #10

dePuff in Natural Language Processing

А я жду твою статью как пофайнтюнить T5 на всякое разное, чтобы она стала ещё умнее для финальной задачи

18:16пожаловаться #11

а сколько у неё параметров, кстати?

18:55пожаловаться #12

244M параметров.

18:56пожаловаться #13

Да, я помню про неё. Если назадаёшь наводящих вопросов к статье, буду благодарен)

18:56пожаловаться #14

dePuff in Natural Language Processing

Если честно, мне для счастья нужен просто вариант в качестве отправной точки с которого можно начать.

А то жизнь коротка, а видеокарточек мало )

18:57пожаловаться #15

dePuff in Natural Language Processing

То есть таски. Размер датасетов. Буст на финальной.

И я счастлив)

18:58пожаловаться #16

Понятно, нужна модель для поиска подходящего абзаца текста, который можно будет подставлять уже в GPT
Обычно это делается так:
1) весь текст книги разбивается на абзацы
2) каждый абзац переводится моделью А в какой-то вектор и складывается в индекс для быстрого поиска соседей
3) при поступлении вопроса, он переводится моделью Б в какой-то вектор, и для него ищутся ближайшие соседи в индексе
Потом мы текст каждого ближайшего соседа используем в качестве затравки.
Фишка тут в том, что на парах "абзац+вопрос" можно обучить модели А и Б совместно так, чтобы качество поиска было хорошее.
Если интересно, можем тут архитектуру таких моделей подробнее обсудить.

19:01пожаловаться #17

вот это прямо очень интересно, да

в индексном поиске я и завяз на текущий момент

19:03пожаловаться #18

и прямо на всю эту кучу задач?
Эх, я конечно, с тех пор как у меня 775M получилось зафайнтюнить в Колаб, уже губу и на 1.3G раскатал :)

19:04пожаловаться #19

ну и следующий этап, про который я думаю - набор знаний "внешность Андрея Болконского" разбросан по всему тексту книги. Задаче "опиши его внешность" соответствует множество абзацев. Ну то есть кажется можно не влезть в seq_length. И ведь место под ответ ещё оставить нужно.