Телеграмм чат группы natural_language

Привет! ✋

Начал изучать Bert и хочу применить предобученную модельку в качестве embedder.

Для моей задачи необходимо использование специфичных для предметной области слов. Насколько я успел изучить, существуют два способа:
1) Расширить словарь новыми токенами в надежде на то, что модель адекватно для них построит вектора
2) Обучить модель с нуля

Вопрос: насколько вообще рабочий первый подход? Основная проблема в том, что нужно использовать модель для русского языка, при этом новые токены на английском
И есть ли еще какой способ решения проблемы? Например, дообучить каким-то образом модель на данных из предметной области.

источник

01:14пожаловаться #12

NS

Nikolay V. Shmyrev in Natural Language Processing

Roman

Привет! ✋

Начал изучать Bert и хочу применить предобученную модельку в качестве embedder.

Для моей задачи необходимо использование специфичных для предметной области слов. Насколько я успел изучить, существуют два способа:
1) Расширить словарь новыми токенами в надежде на то, что модель адекватно для них построит вектора
2) Обучить модель с нуля

Вопрос: насколько вообще рабочий первый подход? Основная проблема в том, что нужно использовать модель для русского языка, при этом новые токены на английском
И есть ли еще какой способ решения проблемы? Например, дообучить каким-то образом модель на данных из предметной области.

multilingual bert использовать

источник

01:36пожаловаться #13

M

Mike in Natural Language Processing

viktor

нашел пока вот такое – https://github.com/x88/i18nGeoNamesDB
вроде то что нужно

GitHub

x88/i18nGeoNamesDB

The largest geonames database of counties, regions and cities with translations. - x88/i18nGeoNamesDB

раньше мы брали базу из maps.me там почти все было дублировано на русском

источник

10:52пожаловаться #14

M

Mishanya in Natural Language Processing

Roman

Привет! ✋

Начал изучать Bert и хочу применить предобученную модельку в качестве embedder.

Для моей задачи необходимо использование специфичных для предметной области слов. Насколько я успел изучить, существуют два способа:
1) Расширить словарь новыми токенами в надежде на то, что модель адекватно для них построит вектора
2) Обучить модель с нуля

Вопрос: насколько вообще рабочий первый подход? Основная проблема в том, что нужно использовать модель для русского языка, при этом новые токены на английском
И есть ли еще какой способ решения проблемы? Например, дообучить каким-то образом модель на данных из предметной области.

Русский Берт содержит английские токены. В обучающее выборке встречались английские слова. Так что отдельно токенов досыпать не нужно. Просто английские слова будут на большее количество сабтокенов разбиваться. Ну и как предложено выше - мультиязычный всегда можно.

источник

11:40пожаловаться #15

VM

Valentin Malykh in Natural Language Processing

Valentin Malykh

всем привет, я начинаю собирать секцию NLP для будущего ДатаФеста, в этом году мест в секции больше и каждому докладчику есть возможность выделить больше времени, записывайтесь: https://cutt.ly/Zd84Edh

Google Docs

Подача доклада на секцию NLP

DataFest Online 20 сентября

всем привет, еще есть возможность запрыгнуть в уходящий поезд, подавайте заявки в форму и сразу готовьте короткое видео про свой доклад - видео про доклады нужны уже к понедельнику

источник

11:45пожаловаться #16

R

Roman in Natural Language Processing

Mishanya

Русский Берт содержит английские токены. В обучающее выборке встречались английские слова. Так что отдельно токенов досыпать не нужно. Просто английские слова будут на большее количество сабтокенов разбиваться. Ну и как предложено выше - мультиязычный всегда можно.

А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?

источник

12:15пожаловаться #17

IK

Ilya Kazakov in Natural Language Processing

Roman

А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?

это завиит от того, на каком корпусе обучался конкретый берт с конкретным токенизатором. Как понять, что токенизатор не пилит тови специфические "смйлы" и проч? Возьми этот самый токенизатор и натрави на строку с этими смайлами. Если ":D" не приваратилось в ":#D" или ": D", токенизатор в курсе про такую единицу как ":D", а если не в курсе, то файнтьюнинг на твоём корпусе с кучей таких смайлов тебе тоже даст результат.

источник

12:21пожаловаться #18

v

viktor in Natural Language Processing

Mike

раньше мы брали базу из maps.me там почти все было дублировано на русском

спс
а случаем у вас нет этого файла?
а то сходу не нашел где скачать их бд

источник

12:38пожаловаться #19

R

Roman in Natural Language Processing

Ilya Kazakov

это завиит от того, на каком корпусе обучался конкретый берт с конкретным токенизатором. Как понять, что токенизатор не пилит тови специфические "смйлы" и проч? Возьми этот самый токенизатор и натрави на строку с этими смайлами. Если ":D" не приваратилось в ":#D" или ": D", токенизатор в курсе про такую единицу как ":D", а если не в курсе, то файнтьюнинг на твоём корпусе с кучей таких смайлов тебе тоже даст результат.

То есть, нужно дообучить модель или токенизатор? И как вообще это можно сделать? Понимаю, что Берта можно зафайнтюнить для, например, классификации. Но если мне нужен от него только эмбеддер, то как тогда поступить?

источник

12:40пожаловаться #20