Телеграмм чат группы natural_language

Коллеги, а подскажите для такого случая: есть пулл текстов домена и есть выборка целевого класса. Как из пулла насемплить негативных семплов, чтоб было правильно? Сейчас насемплил рандомно, но думаю, есть какие-то практики проверить, что модель не найдет какой-нибудь хитрый признак, который даст утечку.

Мой второй вариант - семплить рандомно много раз, смотреть дисперсию метрик.

источник

10:03пожаловаться #11

Orzhan Mikhail in Natural Language Processing

Есть разные подходы, общее название такой задачи PU learning. Пример использования для текстов https://aclanthology.org/2020.findings-emnlp.43.pdf

источник

14:45пожаловаться #12

МЕ

Максим Ермаков... in Natural Language Processing

Большое спасибо, не знал как это называется, буду знать теперь, о чём искать. Работа мне тоже очень в тему 👍

источник

14:49пожаловаться #13

Nikolay in Natural Language Processing

А ни у кого случайно текстового корпуса японского языка нет поделиться? Хочу модельку потренировать

источник

15:13пожаловаться #14

dePuff in Natural Language Processing

Ребята, а работал кто плотно с Pegasus?

Взял одну предобученную модельку с хаба huggingface, а она падала на длинных последовательностях

Выяснилось, что

model.config.max_position_embeddings = 60

Перебил его при загрузке модели на значение пожирнее и вроде всё даже работает на нужной мне задаче.

Есть подводные камни или обоснование почему оно не должно работать?
Теория, почему всё будет хорошо у меня самого есть )

источник

15:29пожаловаться #15

tonko 22 in Natural Language Processing

Есть подозрение что на каком-то слое типа tokenizer последовательность будет обрезаться. Можете проверить по размерности аутпута модели.

источник

15:33пожаловаться #16

dePuff in Natural Language Processing

Аутпут модели там 1024, если я правильно помню. И оригинальная училась на 1024

Тут её под задачу некую файнтюнили и резанули до 60, но только токенайзер и синусоинайзер в модельке)

источник

15:34пожаловаться #17

dePuff in Natural Language Processing

Длинные последовательности она выдаёт, не падает

источник

15:35пожаловаться #18

tonko 22 in Natural Language Processing

А, т.е. на выходе один эмбеддинг для последовательности получается? Тогда можно сравнить эмбеддинги для длинного и обрезанного варианта одной и той же последовательности.

источник

15:35пожаловаться #19

dePuff in Natural Language Processing

Разные. Она продолжает видеть и юзать слова из длинного хвоста

источник

15:36пожаловаться #20