Телеграмм чат группы natural_language_processing страница 876

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2186 membersпожаловаться на группу

2020 October 20

V

Vlad in Natural Language Processing

Кстати, тестировал недавно russtress - хороший пакет, из всего, что смог найти для расстановки ударений — он показал себя лучше всего.
Правда требует некоторых доработок, что бы можно было спокойно его использовать (возможно, чуть позже оформлю их проектом и залью на гит)

источник

18:01пожаловаться #1

КД

Константин Доричев... in Natural Language Processing

Алексей Пахомов

Извлечь из обычных словарей? Исходя из определения

Спасибо за идею, Алексей.
Посмотрел на словарь с

opencorpora.org

Но в нём не расставлены ударения. 🤷🏼‍♂️

источник

19:46пожаловаться #2

КД

Константин Доричев... in Natural Language Processing

Кстати, тестировал недавно russtress - хороший пакет, из всего, что смог найти для расстановки ударений — он показал себя лучше всего.
Правда требует некоторых доработок, что бы можно было спокойно его использовать (возможно, чуть позже оформлю их проектом и залью на гит)

Спасибо за наводку, Влад. Любопытно. Тоже потестирую.

источник

19:55пожаловаться #3

V

Vlad in Natural Language Processing

Константин Доричев

Спасибо за наводку, Влад. Любопытно. Тоже потестирую.

https://github.com/Desklop/russtress

Тут предварительная модифицированная версия, советую сразу ее смотреть)

Вот тут описал, что изменено/доработано: https://github.com/Desklop/russtress/blob/master/russtress/text_accentAPI.py#L101

Чуть позже обновлю полноценно, с рефакторингом кода)

источник

19:57пожаловаться #4

КД

Константин Доричев... in Natural Language Processing

https://github.com/Desklop/russtress

Тут предварительная модифицированная версия, советую сразу ее смотреть)

Вот тут описал, что изменено/доработано: https://github.com/Desklop/russtress/blob/master/russtress/text_accentAPI.py#L101

Чуть позже обновлю полноценно, с рефакторингом кода)

👍🏻 Благодарю!

источник

20:01пожаловаться #5

AK

Alexander Kukushkin in Natural Language Processing

Alexander C

https://youtu.be/lTM1tgYW72o выложили запись доклада

Задача NER. Hands-on experience

Прохор Гладких и Семен Сорокин

Слайды
https://drive.google.com/file/d/1lPEcZ9QvfMKY8w5HrmhBkCvLfsXOzs5o/view?usp=sharing

Про что расскажем
* Постановка классической задачи NER
* Эволюция SOTA решений
* Практические проблемы и как мы их решали: Кодировка IO/BIO/..., претренированные веса, длина сэмпла, пересечение сущностей, подтипы, супер-длинные сущности, структура документа, etc
* Наш опыт: BERT-based модели, SPERT, Elmo-based модели, Sentence level NER
* Следующий шаг: ImageNER

💻 Материалы докладов Sberloga:
https://www.notion.so/Sberloga-Data-Club-5c39a1a41f9e40798e0dbc567e332522

📢 Наши сообщества в Telegram:
🤖 Sberloga Data Club - Сообщество Data People https://t.me/sberlogadataclub
🤓 Sberloga with Graphs - Чат людей изучающих графы + совместное прохождение курса cs224w https://t.me/sberlogawithgraphs
🏃‍♂️ Sberloga Running Club - Чат для тех кто любит спорт. Организуем совместные беговые тренировки и участвуем в забегах. Мы любим спорт 💪 https://t.me/sberlogarunningclub
🗨️ Sberloga Talk Club - Чат Data…

Спасибо за доклад, посмотрел с карандашиком:
1. 15:08 BIO нужна чтобы различать слитные сущности. Например, в "поговорив с Машей Петя узнал" с IO нельзя разметить два имени
2. 17:54 Вообще, делать NER по предложения не очень хорошо. Например, есть "Надежда Ефимовна осталась одна. Надежда покинуть город последней", без контекста непонятно во втором предложении "Надежда" имя или нет.
3.1. 29:06 А как вы переходите от multilabel разметки с структуре. Например, от "требования МУП Рога и Копыта" к {..., side: {type: claim, org: {type: МУП, name: Рога и Копыта}}}. Спаны же могут как угодно лечь друг на друга
3.2. Как просклонять? Например, "при участии Ивановой А. А." -> {last: Иванова...}
3.3 Наверняка вместо "44.444 руб" нужно {amount: 44444, currency: rub}. Как это получить из разметки?
4. 35:25 Что такое dgx_bert? Что-то открытое?
5. 37:36 Ничесе, rubert не выиграл у bert-multilingual. У них разный словарь, размер одинаковый, больше русских сабтокенов. Там аккуратно подменяли эмбеддинги и дообучали, должно быть лучше качество.
6. 43:03 Есть дамп rospravosudie.com, там больше 1.5Гб
7. 47:53 В RoBERTa показали, что NSP не очень нужна
8. 57:01 Машинерию с multilabel и classification вы сами придумали или есть какая-то статья?

источник

20:26пожаловаться #6

AC

Alexander C in Natural Language Processing

Alexander Kukushkin

Спасибо за доклад, посмотрел с карандашиком:
1. 15:08 BIO нужна чтобы различать слитные сущности. Например, в "поговорив с Машей Петя узнал" с IO нельзя разметить два имени
2. 17:54 Вообще, делать NER по предложения не очень хорошо. Например, есть "Надежда Ефимовна осталась одна. Надежда покинуть город последней", без контекста непонятно во втором предложении "Надежда" имя или нет.
3.1. 29:06 А как вы переходите от multilabel разметки с структуре. Например, от "требования МУП Рога и Копыта" к {..., side: {type: claim, org: {type: МУП, name: Рога и Копыта}}}. Спаны же могут как угодно лечь друг на друга
3.2. Как просклонять? Например, "при участии Ивановой А. А." -> {last: Иванова...}
3.3 Наверняка вместо "44.444 руб" нужно {amount: 44444, currency: rub}. Как это получить из разметки?
4. 35:25 Что такое dgx_bert? Что-то открытое?
5. 37:36 Ничесе, rubert не выиграл у bert-multilingual. У них разный словарь, размер одинаковый, больше русских сабтокенов. Там аккуратно подменяли эмбеддинги и дообучали, должно быть лучше качество.
6. 43:03 Есть дамп rospravosudie.com, там больше 1.5Гб
7. 47:53 В RoBERTa показали, что NSP не очень нужна
8. 57:01 Машинерию с multilabel и classification вы сами придумали или есть какая-то статья?

Спасибо, за крутейший фидбек ! Я переслал вопросы коллегам, надеюсь они ответят .

источник

20:30пожаловаться #7

N

Natalia in Natural Language Processing

Константин Доричев

Спасибо за идею, Алексей.
Посмотрел на словарь с

opencorpora.org

Но в нём не расставлены ударения. 🤷🏼‍♂️

http://odict.ru/

источник

22:24пожаловаться #8

N

Natalia in Natural Language Processing

лучше, кажется, с ударениями нет ничего пока

источник

22:24пожаловаться #9

2020 October 21

КД

Константин Доричев... in Natural Language Processing

Natalia

лучше, кажется, с ударениями нет ничего пока

Благодарю, Наталья! 🌷

источник

10:46пожаловаться #10

КД

Константин Доричев... in Natural Language Processing

Гребенева Юлия Николаевна.
Словарь омонимов, омоформ и омографов русского языка.

источник

11:55пожаловаться #11

N

Natalia in Natural Language Processing

и без ударений, как примерно 95% русских словарей, просто прекрасно :)

источник

12:01пожаловаться #12

VI

Vitaly Ivanin in Natural Language Processing

Подскажите какой фреймворк сейчас лучше юзать на новом проекте для построения goal-oriented чат ботов, в котором все пути пользователя заданы в виде графа

источник

12:56пожаловаться #13

A

Ajay in Natural Language Processing

Is it possible to use sutime with spark NLP?

источник

14:59пожаловаться #14

SS

Sergey Sikorskiy in Natural Language Processing

Natalia

и без ударений, как примерно 95% русских словарей, просто прекрасно :)

Ударение есть в Викисловаре. Единственно, не понятно насколько он качественный.

источник

17:17пожаловаться #15

РС

Роман Смагин... in Natural Language Processing

Привет всем. Возможно, глупый вопрос, но ответьте, пожалуйста. Dialogflow бесплатный?

источник

17:20пожаловаться #16

KA

Katya Artemova in Natural Language Processing

Проблема с ударениями в том, что они зависят от контекста

источник

17:21пожаловаться #17

KA

Katya Artemova in Natural Language Processing

Если вы делаете pos tagging, то можно сходить и в викисловарь, все ок

источник

17:21пожаловаться #18

KA

Katya Artemova in Natural Language Processing

А rustress мы специально делали так, чтобы контекст и соответственно грамматическая информация из него учитывалась, а pos tagging был бы не нужен

источник

17:22пожаловаться #19

KA

Katya Artemova in Natural Language Processing

(Я соавтор rustress и очень радуюсь, когда вижу, что нашим проектом пользуются:))

источник

17:23пожаловаться #20