Size: a a a

Natural Language Processing

2021 September 07

А

Анна in Natural Language Processing
Спасибо, проблема действительно в Й
Чем ее можно заменить?
источник

AN

Aydar Nasyrov in Natural Language Processing
Скрипт, который пройдется по датасету и все уберет
ИЛИ
Ручками убрать через встроенную функцию замены любого текстового редактора (shift ctrl F)
источник

AN

Aydar Nasyrov in Natural Language Processing
?
источник

А

Анна in Natural Language Processing
Это понятно, спасибо)
а НА что заменять? Вместо Й оставить И?
источник

А

Анна in Natural Language Processing
Да, все верно
источник

AN

Aydar Nasyrov in Natural Language Processing
на обычную "Й", которая будет одним символом, вместо двух
источник

МЕ

Максим Ермаков... in Natural Language Processing
Привет! Немного странный вопрос: мы когда эмбеддинги для слов получаем из BERT-like моделей, у нас в них при инференсе контекст текущего текста учитывается или это больше lookup по смыслу?
источник

KL

Kir L in Natural Language Processing
мне кажется - все эмбеддинги по определению - это учет контекста всегда
источник

KL

Kir L in Natural Language Processing
но вероятно я неправ, хз
источник

МЕ

Максим Ермаков... in Natural Language Processing
Просто вот при обучении - там да, понятно. А при инференсе?
источник

AS

Anton Shevchuk in Natural Language Processing
На этапе обучения берты как раз учатся делать контекстуальные эмбединги. Поэтому в разных контекстах подразумевается что одно и тоже слово будет иметь разный эмбеддинг
источник

МЕ

Максим Ермаков... in Natural Language Processing
Понял, благодарю 👍
источник

ИГ

Ильнур Гарипов... in Natural Language Processing
Таки Word2Vec к примеру не учитывает контекст. На инференсе это просто словарь слово->вектор
источник

KL

Kir L in Natural Language Processing
при инференсе да, но при обучении же учитывает
источник

A

Arthur in Natural Language Processing
Telegram
я обучала одну модель
Большой хороший пост про BERT word embeddings, и второй пост, где больше упор на получившиеся матрицы, которые поступают на вход модели. В них подробно описано, как BERT превращает входящие слова в token ids, зачем при этом нужны special tokens, как выглядят segment ids в случае разбиения текста на две части. Отдельно описывается работа токенайзера – есть ощущение, что далеко не все знают, что токенайзер не всегда бьет предложение по пробелам, и что в случае неизвестных берту слов генерируются сабтокены (например, 'embeddings' – ['em', '##bed', '##ding', '##s']). Дальше показывается, как выглядят хиддент стейты берта, какая у них размерность, за что каждое измерение отвечает, и как из последних хидден стейтов можно собрать эмбеддинги слов. Что приколько, автор первого поста показывает, как эмбеддинги одного и того же слова на практике отличаются в зависимости от контекста. Например, для слова bank:

bank vault    tensor([ 3.3596, -2.9805, -1.5421,  0.7065,  2.0031])
bank robber   tensor([ 2.7359, -2.5577, -1.3094…
источник

МЕ

Максим Ермаков... in Natural Language Processing
Очень полезно, спасибо 💪
источник

D

Dmitry in Natural Language Processing
Коллеги, а где вы тренируете свои модельки кроме своих железяк?
Хотелось бы понять кто какими облачными сервисами пользуется.
источник

SancheZz Мов in Natural Language Processing
Колаб, кекл, сберклауд
источник

D

Dmitry in Natural Language Processing
Колаб понятно, это наверное больше для тестов и исследований?
источник

OM

Orzhan Mikhail in Natural Language Processing
vast.ai (тоже для тестов и исследований)
источник