Size: a a a

Natural Language Processing

2021 July 24

SancheZz Мов in Natural Language Processing
Где-то mask mean pool
источник

SancheZz Мов in Natural Language Processing
Дело эксперимента попробовать тюнить с одним или с другим.
источник

SancheZz Мов in Natural Language Processing
На претрейн не претендуем
источник

SancheZz Мов in Natural Language Processing
Там cls
источник

EE

E E in Natural Language Processing
Все перебрать это для кэггл мастеров,  мне бы хотелось интуицию от какого выхода чего ждать...
источник

SancheZz Мов in Natural Language Processing
Да согласен
источник

SancheZz Мов in Natural Language Processing
Для этого мы сейчас и обсуждаем этом,чтобы до истины дойти)
источник

DD

David Dale in Natural Language Processing
По моим данным, они не такие уж и испорченные.
В этом блокноте я на 8 тасках сравнивал берты (без дообучения), на 5 для LaBSE оказались лучше CLS эмбеддинги, на 3 - mean.
Так что истина, похоже, в том, что более подходящий вариант нужно подбирать экспериментально)
источник

EE

E E in Natural Language Processing
А макс пулинг Не пробовали в принципе? Или хуже всегда?
источник

EE

E E in Natural Language Processing
Огонь.
источник

EE

E E in Natural Language Processing
Но там все без файнтьюна?
источник

DD

David Dale in Natural Language Processing
Да, всё без файнтюна.
Файнтюнить на все эти задачи я пока не пробовал, но моё предположение в том, что при достаточно долгом файнтюнинге результаты cls и mean примерно сравнялись бы.
Потому что, как ты правильно заметил, модель под ними лежит одна и та же, и ничего не мешает берту научиться в последнем слое то же самое усреднение проводить, складывая результаты в CLS токен.
источник

EE

E E in Natural Language Processing
На трейне да, не мешает.  Но генерализация может быть разная.
источник

EE

E E in Natural Language Processing
Вот кстати несвязанный вопрос.  Судя по всему при файтьюне все mlm дико переобучаются , полностью запоминают трейн. Наблюдал на разного размера трейне от 100 до 25 000 примеров. По классике надо бы бороться с этим - увеличивать дропауты хотя бы. Но вроде все забивают. Есть исследования на эту тему?
источник

EE

E E in Natural Language Processing
Если что,  я немного пробовал при файнтьюне Берта подбирать дропаут и wd - Не помогло. Но все же ощущение,  что как-то это неправильно 100% train acc.
источник

SS

Sergey Shulga in Natural Language Processing
@cointegrated а ты не оценивал оптимальную\предельную длину предложения или количество токенов для LaBSE-энкодера?
источник
2021 July 25

DB

Dmitry Borisov in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @Hakeemraa кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@drum_forrest_drum, @Titrom, @etkee, @solprogram, @ajtkulov
При поддержке Золота Бородача
источник

RP

Rodion Proskuryakov in Natural Language Processing
А что на тесте?
источник

SH

Sergiy Horef in Natural Language Processing
Добрый день,
Скажите, может кто-то знает как получить доступ к gpt-3?
Или же только ждать пока примут заявку на официальном сайте?
источник