Size: a a a

Natural Language Processing

2020 September 02

E

Elena in Natural Language Processing
потому что они чувствительны к стоп-словам, знакам препинания и так далее
источник

E

Elena in Natural Language Processing
как понять? попробовать и сравнить
источник

IR

Ilkin Ramazanov in Natural Language Processing
Ну это понятно
источник

E

Elena in Natural Language Processing
мне лично tf-idf нравится больше, мне кажется, лучше передается отношение между значимыми словами и общими словами
источник

IR

Ilkin Ramazanov in Natural Language Processing
Думал может есть какой-то метод для этого
источник

IR

Ilkin Ramazanov in Natural Language Processing
Elena
мне лично tf-idf нравится больше, мне кажется, лучше передается отношение между значимыми словами и общими словами
Хмм советуешь его чаще юзать вместо сумочки ?
источник

E

Elena in Natural Language Processing
я советую попробовать и сравнить
источник

E

Elena in Natural Language Processing
опять же зависит тоже от классификатора
источник

IR

Ilkin Ramazanov in Natural Language Processing
Оки ясненько
источник

E

Elena in Natural Language Processing
с SVM лучше TF-IDF
источник

E

Elena in Natural Language Processing
возможно, какие-то модели лучше будут себя вести с bag of words
источник
2020 September 03

R

Roman in Natural Language Processing
Привет! ✋

Начал изучать Bert и хочу применить предобученную модельку в качестве embedder.

Для моей задачи необходимо использование специфичных для предметной области слов. Насколько я успел изучить, существуют два способа:
1) Расширить словарь новыми токенами в надежде на то, что модель адекватно для них построит вектора
2) Обучить модель с нуля

Вопрос: насколько вообще рабочий первый подход?  Основная проблема в том, что нужно использовать модель для русского языка, при этом новые токены на английском
И есть ли еще какой способ решения проблемы? Например, дообучить каким-то образом модель на данных из предметной области.
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Roman
Привет! ✋

Начал изучать Bert и хочу применить предобученную модельку в качестве embedder.

Для моей задачи необходимо использование специфичных для предметной области слов. Насколько я успел изучить, существуют два способа:
1) Расширить словарь новыми токенами в надежде на то, что модель адекватно для них построит вектора
2) Обучить модель с нуля

Вопрос: насколько вообще рабочий первый подход?  Основная проблема в том, что нужно использовать модель для русского языка, при этом новые токены на английском
И есть ли еще какой способ решения проблемы? Например, дообучить каким-то образом модель на данных из предметной области.
multilingual bert использовать
источник

M

Mike in Natural Language Processing
раньше мы брали базу из maps.me там почти все было дублировано на русском
источник

M

Mishanya in Natural Language Processing
Roman
Привет! ✋

Начал изучать Bert и хочу применить предобученную модельку в качестве embedder.

Для моей задачи необходимо использование специфичных для предметной области слов. Насколько я успел изучить, существуют два способа:
1) Расширить словарь новыми токенами в надежде на то, что модель адекватно для них построит вектора
2) Обучить модель с нуля

Вопрос: насколько вообще рабочий первый подход?  Основная проблема в том, что нужно использовать модель для русского языка, при этом новые токены на английском
И есть ли еще какой способ решения проблемы? Например, дообучить каким-то образом модель на данных из предметной области.
Русский Берт содержит английские токены. В обучающее выборке встречались английские слова. Так что отдельно токенов досыпать не нужно. Просто английские слова будут на большее количество сабтокенов разбиваться. Ну и как предложено выше - мультиязычный всегда можно.
источник

VM

Valentin Malykh in Natural Language Processing
Valentin Malykh
всем привет, я начинаю собирать секцию NLP для будущего ДатаФеста, в этом году мест в секции больше и каждому докладчику есть возможность выделить больше времени, записывайтесь: https://cutt.ly/Zd84Edh
всем привет, еще есть возможность запрыгнуть в уходящий поезд, подавайте заявки в форму и сразу готовьте короткое видео про свой доклад - видео про доклады нужны уже к понедельнику
источник

R

Roman in Natural Language Processing
Mishanya
Русский Берт содержит английские токены. В обучающее выборке встречались английские слова. Так что отдельно токенов досыпать не нужно. Просто английские слова будут на большее количество сабтокенов разбиваться. Ну и как предложено выше - мультиязычный всегда можно.
А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?
источник

IK

Ilya Kazakov in Natural Language Processing
Roman
А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?
это завиит от того, на каком корпусе обучался конкретый берт с конкретным токенизатором. Как понять, что токенизатор не пилит тови специфические "смйлы" и проч? Возьми этот самый токенизатор и натрави на строку с этими смайлами. Если ":D" не приваратилось в ":#D" или ": D", токенизатор в курсе про такую единицу как ":D", а если не в курсе, то файнтьюнинг на твоём корпусе с кучей таких смайлов тебе тоже даст результат.
источник

v

viktor in Natural Language Processing
Mike
раньше мы брали базу из maps.me там почти все было дублировано на русском
спс
а случаем у вас нет этого файла?
а то сходу не нашел где скачать их бд
источник

R

Roman in Natural Language Processing
Ilya Kazakov
это завиит от того, на каком корпусе обучался конкретый берт с конкретным токенизатором. Как понять, что токенизатор не пилит тови специфические "смйлы" и проч? Возьми этот самый токенизатор и натрави на строку с этими смайлами. Если ":D" не приваратилось в ":#D" или ": D", токенизатор в курсе про такую единицу как ":D", а если не в курсе, то файнтьюнинг на твоём корпусе с кучей таких смайлов тебе тоже даст результат.
То есть, нужно дообучить модель или токенизатор? И как вообще это можно сделать? Понимаю,  что Берта можно зафайнтюнить для, например, классификации. Но если мне нужен от него только эмбеддер, то как тогда поступить?
источник