Size: a a a

Natural Language Processing

2021 February 11

SK

Sasha Korovii in Natural Language Processing
Борис Добров
Нормальные новости имеют структуру "перевернутой пирамиды", все самое важное в  lead.
Для "просто" аннотации хватит 512 токенов.
Сложнее для аннотации по запросу.
То есть взять первые 512 токенов и прогнать через BERT?
источник

БД

Борис Добров... in Natural Language Processing
Тональность проще, если умеете ее готовить...
источник

d

dePuff in Natural Language Processing
Sasha Korovii
То есть взять первые 512 токенов и прогнать через BERT?
Угу, сравнить с затюненым логрегом и успокоиться )
источник

БД

Борис Добров... in Natural Language Processing
Если нужна тональность, сначала leed, затем остаток предложений с тональностью
источник

БД

Борис Добров... in Natural Language Processing
... по возможности, нужной.
Не забывая об особой обработке местоимений
источник

БД

Борис Добров... in Natural Language Processing
А потом уже  bert
источник

БД

Борис Добров... in Natural Language Processing
В целом, академическая проблема аннотирования в том, что адекватное тестирование очень сложное и дорогое. Критерии у пользователей слабые. То есть лепи самое простое и 80% пользователей будет довольно.
Особенно для новостей.
источник

SK

Sasha Korovii in Natural Language Processing
Борис Добров
Если нужна тональность, сначала leed, затем остаток предложений с тональностью
Спасибо очень большое, если есть какие-то другие рекомендации, буду очень рад.
источник

d

dePuff in Natural Language Processing
Sasha Korovii
Спасибо очень большое, если есть какие-то другие рекомендации, буду очень рад.
Забить на Берт)
источник

SK

Sasha Korovii in Natural Language Processing
dePuff
Забить на Берт)
Fasttext, и в продакшн ?
источник

БД

Борис Добров... in Natural Language Processing
А для оставшихся 20% без commonsence   не подходи.
источник

d

dePuff in Natural Language Processing
Sasha Korovii
Fasttext, и в продакшн ?
Можно и CNN поверх неконтексных
источник

d

dePuff in Natural Language Processing
В любом случае посмотреть, на конкретной задаче, а там Берт даёт что-то кроме счетов на электричество
источник

БД

Борис Добров... in Natural Language Processing
Надо сделать по простому, ну и bert,  сравнить и принять решегие
источник

БД

Борис Добров... in Natural Language Processing
Новости, они тоже разные
источник

SK

Sasha Korovii in Natural Language Processing
Борис Добров
Надо сделать по простому, ну и bert,  сравнить и принять решегие
ну меня сейчас fasttext, на моем старом датасетет accuracy 0.83
насобирал  побольше датасет и хочу попробовать BERT
источник

БД

Борис Добров... in Natural Language Processing
Критериев, я полагаю, кроме "хорошо и красиво", нет.
Поэтому   bert'ом просто подложиться.
источник

БД

Борис Добров... in Natural Language Processing
Accuracy в топку, согласие между людьми, думаю мегьше
источник

БД

Борис Добров... in Natural Language Processing
И будет ли обоснованием использовать bert при росте 5%
источник

БД

Борис Добров... in Natural Language Processing
Все дольше и дороже, gpu, потоков на порядки меньше
источник