Телеграмм чат группы natural_language

Привет! В курсе самсунга на степике был семинар с NER на основе LSTM.
Какое моё понимание: в модель подаётся строка произвольного размера, затем для каждого токена слева направо поочерёдно рассчитывается эмбеддинг, затем обновляется скрытое состояние LSTM (текущий эмбеддинг + предыдущие), затем всё подаётся в полносвязный слой, который выдаёт распределение вероятностей для тегов ner-разметки.

Попробовал под свою задачу - работает сносно, но заметно, что результат страдает из-за того, что во время предикта неизвестны токены справа.

Вопрос: можно ли сделать возможность учёта токенов справа не потеряв возможность подавать строку произвольной длины? С Bidirectional игрался, но там фиксированной длины строки подавал.

источник

11:25пожаловаться #5

dePuff in Natural Language Processing

Bidirectional сам по себе не вводит необходимости в фиксированной длине строк

источник

11:34пожаловаться #6

🐙

🐙 in Natural Language Processing

Да, правда. Я пробовал в своём кейсе включать bidirectional=True у LSTM слоя, оно работало (хоть я не совсем понял, как), но вроде как заметного буста не дало.

источник

11:36пожаловаться #7

dePuff in Natural Language Processing

Другой вопрос, что выравнивание нужно в пределах батча и с этими паддингами нужно что-то делать при чтении с конца )

источник

11:44пожаловаться #8

🐙

🐙 in Natural Language Processing

В кейсе из курса батчей небыло, всё по одному подавал и, в целом, не плохо :)
Я скорее ищу какой-нибудь хак, чтоб учесть токены справа, потому что если строка длинная, то, как мне кажется, преимущества я не получу.
Сейчас в мыслях что-то вроде "предсказывать для каждого токена метки на n позиций назад" - мы так и вперёд немного посмотрим, и слишком далеко не уйдём. Но хотелось бы ещё о каких-то более каноничных вещах послушать/почитать, прежде чем идти прикручивать сеть с вниманием и использовать скользящее окно фиксированной ширины с overlaps для работы с очень длинными предложениями :(

источник

11:47пожаловаться #9

dePuff in Natural Language Processing

Какой пункт в курсе NER посредством LSTM?

источник

11:48пожаловаться #10

🐙

🐙 in Natural Language Processing

семинар 7.1 если не ошибаюсь

источник

11:48пожаловаться #11

dePuff in Natural Language Processing

https://stepik.org/course/54098/syllabus

Stepik: online education

Нейронные сети и обработка текста

Современные методы автоматической обработки текста -- это поиск по смыслу, машинный перевод, чат-боты, построение баз знаний... Как к этому подступиться? Больше практики! Авторы курса, эксперты Центра ИИ Samsung, доступным языком рассказывают, как начать работать с текстами при помощи нейросетей.

источник

11:49пожаловаться #12

dePuff in Natural Language Processing

Вот тут, какая глава? )

источник

11:49пожаловаться #13

🐙

🐙 in Natural Language Processing

5.3 аспектный сентимент

источник

11:50пожаловаться #14

dePuff in Natural Language Processing

Боюсь хак звучит как: смотрим, что за Берт показывает SOTA на данной задаче, а потом дистиллируем умный Берт в свою архитектуру )

источник

11:51пожаловаться #15

🐙

🐙 in Natural Language Processing

Так я в курсе что это можно бертом решать, но пока интересно LSTM улучшить, потому что у меня задача сама по себе проще чем NER, и результат сносный. Так то пейперы с бертом изначально и понаходил, а потом посмотрел семинар, потвикал код под свой случай - и, на удивление, заработало. :)

источник

11:52пожаловаться #16

dePuff in Natural Language Processing

Стакнуть 2-3 LSTM (GRU), добавить дропаутов, запустить в оптуне поиск гиперпараметров включая hidden_dim

Попробовать другие вектора

источник

11:55пожаловаться #17

🐙

🐙 in Natural Language Processing

🤔 а с контекстом справа что делаем?

источник

11:55пожаловаться #18

dePuff in Natural Language Processing

bidirectional=True

Там всё сделано 🤷🏼‍♂️

источник

11:56пожаловаться #19

Vladimir P in Natural Language Processing

Это как jupyter lab, только в облаке. То есть можно в одном проекте несколько ноутбуков хранить и другие файлы. Поддерживается установка через pip, но остальные линуксовые команды действуют только в докерфайле. Можно прописать свой докерфайл для проекта, если надо сторонние библиотеки установить. Плюс файлы после бездействия не удаляются. Правда как загружать свои файлы по нормальному не разобрался. Я в докерфайле прописывал копирование файлов из Гугл диска.
Дополнительно они сделали возможность выбирать для ячейки на чем выполнять: на машине только с ЦПУ либо на машине с ГПУ.
По итогу можно запустить обучение и последующее сохранение весов, а потом заняться своими делами, потому что файл с весами точно останется в проекте.

источник

11:56пожаловаться #20