Size: a a a

Natural Language Processing

2021 June 20

АЖ

Антон Жиянов... in Natural Language Processing
спасибо! никогда бы не подумал
источник

d

dePuff in Natural Language Processing
Есть шансы найти русскоязычных датасетов по парафразам лучше чем на paraphraser_ru?
источник

d

dePuff in Natural Language Processing
Если есть подходы по майнингу таковых кроме кластеризованных новостей и парсинга художественных переводов, тоже интересно
источник

АЖ

Антон Жиянов... in Natural Language Processing
А никто не пробовал DataSphere от Яндекса — как он в сравнении с колабом?
источник

🐙

🐙 in Natural Language Processing
Привет! В курсе самсунга на степике был семинар с NER на основе LSTM.
Какое моё понимание: в модель подаётся  строка произвольного размера, затем для каждого токена слева направо поочерёдно рассчитывается эмбеддинг, затем обновляется скрытое состояние LSTM (текущий эмбеддинг + предыдущие), затем всё подаётся в полносвязный слой, который выдаёт распределение вероятностей для тегов ner-разметки.

Попробовал под свою задачу - работает сносно, но заметно, что результат страдает из-за того, что во время предикта неизвестны токены справа.

Вопрос: можно ли сделать возможность учёта токенов справа не потеряв возможность подавать строку произвольной длины? С Bidirectional игрался, но там фиксированной длины строки подавал.
источник

d

dePuff in Natural Language Processing
Bidirectional сам по себе не вводит необходимости в фиксированной длине строк
источник

🐙

🐙 in Natural Language Processing
Да, правда. Я пробовал в своём кейсе включать bidirectional=True у LSTM слоя, оно работало (хоть я не совсем понял, как), но вроде как заметного буста не дало.
источник

d

dePuff in Natural Language Processing
Другой вопрос, что выравнивание нужно в пределах батча и с этими паддингами нужно что-то делать при чтении с конца )
источник

🐙

🐙 in Natural Language Processing
В кейсе из курса батчей небыло, всё по одному подавал и, в целом, не плохо :)
Я скорее ищу какой-нибудь хак, чтоб учесть токены справа, потому что если строка длинная, то, как мне кажется, преимущества я не получу.
Сейчас в мыслях что-то вроде "предсказывать для каждого токена метки на n позиций назад" - мы так и вперёд немного посмотрим, и слишком далеко не уйдём. Но хотелось бы ещё о каких-то более каноничных вещах послушать/почитать, прежде чем идти прикручивать сеть с вниманием и использовать скользящее окно фиксированной ширины с overlaps для работы с очень длинными предложениями :(
источник

d

dePuff in Natural Language Processing
Какой пункт в курсе NER посредством LSTM?
источник

🐙

🐙 in Natural Language Processing
семинар 7.1 если не ошибаюсь
источник

d

dePuff in Natural Language Processing
источник

d

dePuff in Natural Language Processing
Вот тут, какая глава? )
источник

🐙

🐙 in Natural Language Processing
5.3 аспектный сентимент
источник

d

dePuff in Natural Language Processing
Боюсь хак звучит как: смотрим, что за Берт показывает SOTA на данной задаче, а потом дистиллируем умный Берт в свою архитектуру )
источник

🐙

🐙 in Natural Language Processing
Так я в курсе что это можно бертом решать, но пока интересно LSTM улучшить, потому что у меня задача сама по себе проще чем NER, и результат сносный. Так то пейперы с бертом изначально и понаходил, а потом посмотрел семинар, потвикал код под свой случай - и, на удивление, заработало. :)
источник

d

dePuff in Natural Language Processing
Стакнуть 2-3 LSTM (GRU), добавить дропаутов, запустить в оптуне поиск гиперпараметров включая hidden_dim

Попробовать другие вектора
источник

🐙

🐙 in Natural Language Processing
🤔 а с контекстом справа что делаем?
источник

d

dePuff in Natural Language Processing
bidirectional=True

Там всё сделано 🤷🏼‍♂️
источник

VP

Vladimir P in Natural Language Processing
Это как jupyter lab, только в облаке. То есть можно в одном проекте несколько ноутбуков хранить и другие файлы. Поддерживается установка через pip, но остальные линуксовые команды действуют только в докерфайле. Можно прописать свой докерфайл для проекта, если надо сторонние библиотеки установить. Плюс файлы после бездействия не удаляются. Правда как загружать свои файлы по нормальному не разобрался. Я в докерфайле прописывал копирование файлов из Гугл диска.
Дополнительно они сделали возможность выбирать для ячейки на чем выполнять: на машине только с ЦПУ либо на машине с ГПУ.
По итогу можно запустить обучение и последующее сохранение весов, а потом заняться своими делами, потому что файл с весами точно останется в проекте.
источник