Телеграмм чат группы natural_language_processing страница 1421

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 September 07

А

Анна in Natural Language Processing

Спасибо, проблема действительно в Й
Чем ее можно заменить?

источник

09:29пожаловаться #1

AN

Aydar Nasyrov in Natural Language Processing

Скрипт, который пройдется по датасету и все уберет
ИЛИ
Ручками убрать через встроенную функцию замены любого текстового редактора (shift ctrl F)

источник

09:32пожаловаться #2

AN

Aydar Nasyrov in Natural Language Processing

?

источник

09:34пожаловаться #3

А

Анна in Natural Language Processing

Это понятно, спасибо)
а НА что заменять? Вместо Й оставить И?

источник

09:35пожаловаться #4

А

Анна in Natural Language Processing

Да, все верно

источник

09:35пожаловаться #5

AN

Aydar Nasyrov in Natural Language Processing

на обычную "Й", которая будет одним символом, вместо двух

источник

09:36пожаловаться #6

МЕ

Максим Ермаков... in Natural Language Processing

Привет! Немного странный вопрос: мы когда эмбеддинги для слов получаем из BERT-like моделей, у нас в них при инференсе контекст текущего текста учитывается или это больше lookup по смыслу?

источник

11:34пожаловаться #7

KL

Kir L in Natural Language Processing

мне кажется - все эмбеддинги по определению - это учет контекста всегда

источник

11:36пожаловаться #8

KL

Kir L in Natural Language Processing

но вероятно я неправ, хз

источник

11:36пожаловаться #9

МЕ

Максим Ермаков... in Natural Language Processing

Просто вот при обучении - там да, понятно. А при инференсе?

источник

11:37пожаловаться #10

AS

Anton Shevchuk in Natural Language Processing

На этапе обучения берты как раз учатся делать контекстуальные эмбединги. Поэтому в разных контекстах подразумевается что одно и тоже слово будет иметь разный эмбеддинг

источник

11:42пожаловаться #11

МЕ

Максим Ермаков... in Natural Language Processing

Понял, благодарю 👍

источник

11:43пожаловаться #12

ИГ

Ильнур Гарипов... in Natural Language Processing

Таки Word2Vec к примеру не учитывает контекст. На инференсе это просто словарь слово->вектор

источник

11:46пожаловаться #13

KL

Kir L in Natural Language Processing

при инференсе да, но при обучении же учитывает

источник

11:47пожаловаться #14

A

Arthur in Natural Language Processing

https://t.me/def_model_train/709

я обучала одну модель

Большой хороший пост про BERT word embeddings, и второй пост, где больше упор на получившиеся матрицы, которые поступают на вход модели. В них подробно описано, как BERT превращает входящие слова в token ids, зачем при этом нужны special tokens, как выглядят segment ids в случае разбиения текста на две части. Отдельно описывается работа токенайзера – есть ощущение, что далеко не все знают, что токенайзер не всегда бьет предложение по пробелам, и что в случае неизвестных берту слов генерируются сабтокены (например, 'embeddings' – ['em', '##bed', '##ding', '##s']). Дальше показывается, как выглядят хиддент стейты берта, какая у них размерность, за что каждое измерение отвечает, и как из последних хидден стейтов можно собрать эмбеддинги слов. Что приколько, автор первого поста показывает, как эмбеддинги одного и того же слова на практике отличаются в зависимости от контекста. Например, для слова bank:

bank vault tensor([ 3.3596, -2.9805, -1.5421, 0.7065, 2.0031])
bank robber tensor([ 2.7359, -2.5577, -1.3094…

источник

11:54пожаловаться #15

МЕ

Максим Ермаков... in Natural Language Processing

Очень полезно, спасибо 💪

источник

11:57пожаловаться #16

D

Dmitry in Natural Language Processing

Коллеги, а где вы тренируете свои модельки кроме своих железяк?
Хотелось бы понять кто какими облачными сервисами пользуется.

источник

12:08пожаловаться #17

SМ

SancheZz Мов in Natural Language Processing

Колаб, кекл, сберклауд

источник

12:10пожаловаться #18

D

Dmitry in Natural Language Processing

Колаб понятно, это наверное больше для тестов и исследований?

источник

12:13пожаловаться #19

OM

Orzhan Mikhail in Natural Language Processing

vast.ai (тоже для тестов и исследований)

источник

12:14пожаловаться #20