Size: a a a

Natural Language Processing

2021 July 12

SancheZz Мов in Natural Language Processing
Эт мое репо старое
источник

SancheZz Мов in Natural Language Processing
Хек
источник

SancheZz Мов in Natural Language Processing
Это не лучшее решение а бейз
источник

SancheZz Мов in Natural Language Processing
Есть гораздо круче, ща найду ребят
источник

I

Ilya in Natural Language Processing
А у тебя есть?
источник

I

Ilya in Natural Language Processing
iemocap просто везде для измерения качества юзают
источник

SancheZz Мов in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
Топ1
источник

SancheZz Мов in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
Вся точность работы именно строится в спелчекере ,ты можешь хорошо найти кандидатов с заменой ошибки, но сам спелчекер ее не исправит
источник
2021 July 13

МЕ

Максим Ермаков... in Natural Language Processing
Коллеги, а подскажите для такого случая: есть пулл текстов домена и есть выборка целевого класса. Как из пулла насемплить негативных семплов, чтоб было правильно? Сейчас насемплил рандомно, но думаю, есть какие-то практики проверить, что модель не найдет какой-нибудь хитрый признак, который даст утечку.

Мой второй вариант - семплить рандомно много раз, смотреть дисперсию метрик.
источник

OM

Orzhan Mikhail in Natural Language Processing
Есть разные подходы, общее название такой задачи PU learning. Пример использования для текстов https://aclanthology.org/2020.findings-emnlp.43.pdf
источник

МЕ

Максим Ермаков... in Natural Language Processing
Большое спасибо, не знал как это называется, буду знать теперь, о чём искать. Работа мне тоже очень в тему 👍
источник

N

Nikolay in Natural Language Processing
А ни у кого случайно текстового корпуса японского языка нет поделиться? Хочу модельку потренировать
источник

d

dePuff in Natural Language Processing
Ребята, а  работал кто плотно  с Pegasus?

Взял одну предобученную модельку с хаба huggingface, а она падала на длинных последовательностях

Выяснилось, что
model.config.max_position_embeddings = 60
Перебил его при загрузке модели на значение пожирнее и вроде всё даже работает на нужной мне задаче.

Есть подводные камни или обоснование почему оно не должно работать?
Теория, почему всё будет хорошо у меня самого есть )
источник

t2

tonko 22 in Natural Language Processing
Есть подозрение что на каком-то слое типа tokenizer последовательность будет обрезаться. Можете проверить по размерности аутпута модели.
источник

d

dePuff in Natural Language Processing
Аутпут модели там 1024, если я правильно помню. И оригинальная училась на 1024

Тут её под задачу некую файнтюнили и резанули до 60, но только токенайзер и синусоинайзер в модельке)
источник

d

dePuff in Natural Language Processing
Длинные последовательности она выдаёт, не падает
источник

t2

tonko 22 in Natural Language Processing
А, т.е. на выходе один эмбеддинг для последовательности получается? Тогда можно сравнить эмбеддинги для длинного и обрезанного варианта одной и той же последовательности.
источник

d

dePuff in Natural Language Processing
Разные. Она продолжает видеть и юзать слова из длинного хвоста
источник