Size: a a a

Natural Language Processing

2020 September 01

T

Timur in Natural Language Processing
если без претрейна, то можно использовать char CNN как эмбеддер слова
источник

T

Timur in Natural Language Processing
или использовать BPE, а потом мерджить токены в слово
источник

DD

David Dale in Natural Language Processing
Евгений Томилов
Ворвусь со старым вопросом, но не может ли кто-нибудь подсказать ноутбуки или статьи, где на пальцах показывают, как делают с нуля POS-теггер и лемматизатор? Желательно на Питоне, но сойдёт и R.
Хочу всё же сделать руками их. Имею пока что корпус от НКРЯ, скинули мне всё же его.
в курсе NLP от самсунга на Степике на русском подробно разбирали POS-теггер на символьных CNN, можешь там посмотреть)
источник

ЕТ

Евгений Томилов... in Natural Language Processing
David Dale
в курсе NLP от самсунга на Степике на русском подробно разбирали POS-теггер на символьных CNN, можешь там посмотреть)
О, спасибо. Пока что я представляю себе это как если бы я разбил слова по n-граммам и уже их клал в классификатор.
источник

YB

Yuri Baburov in Natural Language Processing
Евгений Томилов
Предположим, я кидаю в этот классификатор слово, которое не встречалось в корпусе. =) И всё. Мне советовали посмотреть FastText в том числе.
Разбивай слова на фичи, не кидай целиком
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Yuri Baburov
Разбивай слова на фичи, не кидай целиком
Да, да, я об этом и говорю.
источник

BS

Bogdan Salyp in Natural Language Processing
Ребят, кто-нибудь использовал seq2seq на предобученных моделях с huggingface в целом или их либы transformers в частности?
Для bert у них есть предобученные только классификация последовательностей или next sentence модель, но она не подходит ко всем seq2seq задачам
источник

BS

Bogdan Salyp in Natural Language Processing
Задача - из предложения А на английском генерировать предложение B (например, менять стиль)
Датасет есть
источник

AZ

Alexander Zdorovets in Natural Language Processing
Bogdan Salyp
Ребят, кто-нибудь использовал seq2seq на предобученных моделях с huggingface в целом или их либы transformers в частности?
Для bert у них есть предобученные только классификация последовательностей или next sentence модель, но она не подходит ко всем seq2seq задачам
У huggingface есть класс EncoderDecoder, который берёт предобученные модели в качестве аргументов и инициализирует из них энкодер и декодер
Так же у них в репо есть папочка с разными примерами, есть там и примеры seq2seq,  в частности, если не ошибаюсь, саммаризация и перевод.
Но понятное дело, придётся пошаманить слегка с кодом, скорее всего
источник

VB

Vladimir Bougay in Natural Language Processing
Bogdan Salyp
Ребят, кто-нибудь использовал seq2seq на предобученных моделях с huggingface в целом или их либы transformers в частности?
Для bert у них есть предобученные только классификация последовательностей или next sentence модель, но она не подходит ко всем seq2seq задачам
Мой совет попробуйте T5, не надо циклиться на Берте
источник

AK

Aleksey Kulnevich in Natural Language Processing
посоветовал бы Bart, получше показывал результат, чем Т-5
источник

VB

Vladimir Bougay in Natural Language Processing
Aleksey Kulnevich
посоветовал бы Bart, получше показывал результат, чем Т-5
Зависит от задач и режима дообучения, но да тоже как вариант
источник

BS

Bogdan Salyp in Natural Language Processing
Спасибо, посмотрю
Там целый букет моделей, пока во всех не разобрался)
Меня интересуют именно предобученные, хотел сравнить со своим трансформером, обучавшимся с нуля
источник

ck

cnstntn kndrtv in Natural Language Processing
Немного юмора из теории графов: A lobster is a tree that reduces to a caterpillar when pruning all leaf nodes. Очень хотелось с кем-то поделиться своим безумием...
источник

NN

No Name in Natural Language Processing
источник

П

Павел in Natural Language Processing
cnstntn kndrtv
Немного юмора из теории графов: A lobster is a tree that reduces to a caterpillar when pruning all leaf nodes. Очень хотелось с кем-то поделиться своим безумием...
источник

РС

Роман Смагин... in Natural Language Processing
Всем привет
источник

E

Elena in Natural Language Processing
Bogdan Salyp
Задача - из предложения А на английском генерировать предложение B (например, менять стиль)
Датасет есть
BART и суммаризация подходит для этого. Есть библиотека Simple Transformers, в ней очень просто делать fine tuning предобученных моделей на своих данных.
источник

E

Elena in Natural Language Processing
Bogdan Salyp
Спасибо, посмотрю
Там целый букет моделей, пока во всех не разобрался)
Меня интересуют именно предобученные, хотел сравнить со своим трансформером, обучавшимся с нуля
Если попробовать уже готовое, то есть summarization в пайплайне от hugging face
источник

E

Elena in Natural Language Processing
Но там суммаризация обученная на новостях, если я не ошибаюсь
источник