Size: a a a

Natural Language Processing

2020 October 20

V

Vlad in Natural Language Processing
Кстати, тестировал недавно russtress - хороший пакет, из всего, что смог найти для расстановки ударений — он показал себя лучше всего.
Правда требует некоторых доработок, что бы можно было спокойно его использовать (возможно, чуть позже оформлю их проектом и залью на гит)
источник

КД

Константин Доричев... in Natural Language Processing
Алексей Пахомов
Извлечь из обычных словарей? Исходя из определения
Спасибо за идею, Алексей.
Посмотрел на словарь с opencorpora.org
Но в нём не расставлены ударения. 🤷🏼‍♂️
источник

КД

Константин Доричев... in Natural Language Processing
Vlad
Кстати, тестировал недавно russtress - хороший пакет, из всего, что смог найти для расстановки ударений — он показал себя лучше всего.
Правда требует некоторых доработок, что бы можно было спокойно его использовать (возможно, чуть позже оформлю их проектом и залью на гит)
Спасибо за наводку, Влад. Любопытно. Тоже потестирую.
источник

V

Vlad in Natural Language Processing
Константин Доричев
Спасибо за наводку, Влад. Любопытно. Тоже потестирую.
https://github.com/Desklop/russtress

Тут предварительная модифицированная версия, советую сразу ее смотреть)

Вот тут описал, что изменено/доработано: https://github.com/Desklop/russtress/blob/master/russtress/text_accentAPI.py#L101

Чуть позже обновлю полноценно, с рефакторингом кода)
источник

КД

Константин Доричев... in Natural Language Processing
Vlad
https://github.com/Desklop/russtress

Тут предварительная модифицированная версия, советую сразу ее смотреть)

Вот тут описал, что изменено/доработано: https://github.com/Desklop/russtress/blob/master/russtress/text_accentAPI.py#L101

Чуть позже обновлю полноценно, с рефакторингом кода)
👍🏻 Благодарю!
источник

AK

Alexander Kukushkin in Natural Language Processing
Alexander C
https://youtu.be/lTM1tgYW72o выложили запись доклада
YouTube
Задача NER. Hands-on experience
Прохор Гладких и Семен Сорокин

Слайды
https://drive.google.com/file/d/1lPEcZ9QvfMKY8w5HrmhBkCvLfsXOzs5o/view?usp=sharing

Про что расскажем
* Постановка классической задачи NER
* Эволюция SOTA решений
* Практические проблемы и как мы их решали: Кодировка IO/BIO/..., претренированные веса, длина сэмпла, пересечение сущностей, подтипы, супер-длинные сущности, структура документа, etc
* Наш опыт: BERT-based модели, SPERT, Elmo-based модели, Sentence level NER
* Следующий шаг: ImageNER

💻 Материалы докладов Sberloga:
https://www.notion.so/Sberloga-Data-Club-5c39a1a41f9e40798e0dbc567e332522

📢 Наши сообщества в Telegram:
🤖 Sberloga Data Club - Сообщество Data People https://t.me/sberlogadataclub
🤓 Sberloga with Graphs - Чат людей изучающих графы + совместное прохождение курса cs224w https://t.me/sberlogawithgraphs
🏃‍♂️ Sberloga Running Club - Чат для тех кто любит спорт. Организуем совместные беговые тренировки и участвуем в забегах. Мы любим спорт 💪 https://t.me/sberlogarunningclub
🗨️ Sberloga Talk Club - Чат Data…
Спасибо за доклад, посмотрел с карандашиком:
1. 15:08 BIO нужна чтобы различать слитные сущности. Например, в "поговорив с Машей Петя узнал" с IO нельзя разметить два имени
2. 17:54 Вообще, делать NER по предложения не очень хорошо. Например, есть "Надежда Ефимовна осталась одна. Надежда покинуть город последней", без контекста непонятно во втором предложении "Надежда" имя или нет.
3.1. 29:06 А как вы переходите от multilabel разметки с структуре. Например, от "требования МУП Рога и Копыта" к {..., side: {type: claim, org: {type: МУП, name: Рога и Копыта}}}. Спаны же могут как угодно лечь друг на друга
3.2. Как просклонять? Например, "при участии Ивановой А. А." -> {last: Иванова...}
3.3 Наверняка вместо "44.444 руб" нужно {amount: 44444, currency: rub}. Как это получить из разметки?
4. 35:25 Что такое dgx_bert? Что-то открытое?
5. 37:36 Ничесе, rubert не выиграл у bert-multilingual. У них разный словарь, размер одинаковый, больше русских сабтокенов. Там аккуратно подменяли эмбеддинги и дообучали, должно быть лучше качество.
6. 43:03 Есть дамп rospravosudie.com, там больше 1.5Гб
7. 47:53 В RoBERTa показали, что NSP не очень нужна
8. 57:01 Машинерию с multilabel и classification вы сами придумали или есть какая-то статья?
источник

AC

Alexander C in Natural Language Processing
Alexander Kukushkin
Спасибо за доклад, посмотрел с карандашиком:
1. 15:08 BIO нужна чтобы различать слитные сущности. Например, в "поговорив с Машей Петя узнал" с IO нельзя разметить два имени
2. 17:54 Вообще, делать NER по предложения не очень хорошо. Например, есть "Надежда Ефимовна осталась одна. Надежда покинуть город последней", без контекста непонятно во втором предложении "Надежда" имя или нет.
3.1. 29:06 А как вы переходите от multilabel разметки с структуре. Например, от "требования МУП Рога и Копыта" к {..., side: {type: claim, org: {type: МУП, name: Рога и Копыта}}}. Спаны же могут как угодно лечь друг на друга
3.2. Как просклонять? Например, "при участии Ивановой А. А." -> {last: Иванова...}
3.3 Наверняка вместо "44.444 руб" нужно {amount: 44444, currency: rub}. Как это получить из разметки?
4. 35:25 Что такое dgx_bert? Что-то открытое?
5. 37:36 Ничесе, rubert не выиграл у bert-multilingual. У них разный словарь, размер одинаковый, больше русских сабтокенов. Там аккуратно подменяли эмбеддинги и дообучали, должно быть лучше качество.
6. 43:03 Есть дамп rospravosudie.com, там больше 1.5Гб
7. 47:53 В RoBERTa показали, что NSP не очень нужна
8. 57:01 Машинерию с multilabel и classification вы сами придумали или есть какая-то статья?
Спасибо, за крутейший фидбек ! Я переслал вопросы коллегам, надеюсь они ответят .
источник

N

Natalia in Natural Language Processing
Константин Доричев
Спасибо за идею, Алексей.
Посмотрел на словарь с opencorpora.org
Но в нём не расставлены ударения. 🤷🏼‍♂️
источник

N

Natalia in Natural Language Processing
лучше, кажется, с ударениями нет ничего пока
источник
2020 October 21

КД

Константин Доричев... in Natural Language Processing
Natalia
лучше, кажется, с ударениями нет ничего пока
Благодарю, Наталья! 🌷
источник

КД

Константин Доричев... in Natural Language Processing
источник

N

Natalia in Natural Language Processing
и без ударений, как примерно 95% русских словарей, просто прекрасно :)
источник

VI

Vitaly Ivanin in Natural Language Processing
Подскажите какой фреймворк сейчас лучше юзать на новом проекте для построения goal-oriented чат ботов, в котором все пути пользователя заданы в виде графа
источник

A

Ajay in Natural Language Processing
Is it possible to use sutime with spark NLP?
источник

SS

Sergey Sikorskiy in Natural Language Processing
Natalia
и без ударений, как примерно 95% русских словарей, просто прекрасно :)
Ударение есть в Викисловаре. Единственно, не понятно насколько он качественный.
источник

РС

Роман Смагин... in Natural Language Processing
Привет всем. Возможно, глупый вопрос, но ответьте, пожалуйста. Dialogflow бесплатный?
источник

KA

Katya Artemova in Natural Language Processing
Проблема с ударениями в том, что они зависят от контекста
источник

KA

Katya Artemova in Natural Language Processing
Если вы делаете pos tagging, то можно сходить и в викисловарь, все ок
источник

KA

Katya Artemova in Natural Language Processing
А rustress мы специально делали так, чтобы контекст и соответственно грамматическая информация из него учитывалась, а pos tagging был бы не нужен
источник

KA

Katya Artemova in Natural Language Processing
(Я соавтор rustress и очень радуюсь, когда вижу, что нашим проектом пользуются:))
источник