Size: a a a

Natural Language Processing

2020 October 15

VG

Valeriy Grebenyuk in Natural Language Processing
Кому написать?
источник

AK

Anton Kolonin in Natural Language Processing
Переслано от Anton Kolonin
К вопросу о важности N-gram в дистрибутивной семантике
источник

t

tkmwby in Natural Language Processing
Oleg Radchenko
уточню задачу. имеется в виду не набор символов а набор слов не имеющий смысла
https://github.com/zamgi/lingvo--LanguageDetector

пример, реализующий н-граммную модель
источник

V

Vladimir in Natural Language Processing
@yuri_baburov привет! Подскажи пожалуйста, твоя модель ru2 может извлекать NER, такие как ФИО?
источник

YB

Yuri Baburov in Natural Language Processing
Vladimir
@yuri_baburov привет! Подскажи пожалуйста, твоя модель ru2 может извлекать NER, такие как ФИО?
да.
https://github.com/natasha/naeval#ner , там есть докер с примером.
версию для 2.3 в течение ближайшей недели выложу, (пре-релиз без NER там уже лежит, версия с NER готова, могу индивидуально дать на тестирование.)
источник

V

Vladimir in Natural Language Processing
Yuri Baburov
да.
https://github.com/natasha/naeval#ner , там есть докер с примером.
версию для 2.3 в течение ближайшей недели выложу, (пре-релиз без NER там уже лежит, версия с NER готова, могу индивидуально дать на тестирование.)
Я бы затестил! =)
источник

AK

Alexander Kukushkin in Natural Language Processing
Yuri Baburov
да.
https://github.com/natasha/naeval#ner , там есть докер с примером.
версию для 2.3 в течение ближайшей недели выложу, (пре-релиз без NER там уже лежит, версия с NER готова, могу индивидуально дать на тестирование.)
Планируется добавлять в реестр Spacy? Заливать наработки в их репозиторий
источник

AC

Alexander C in Natural Language Processing
Привет
источник

AC

Alexander C in Natural Language Processing
У нас завтра будет семинар по NER , можно по зум смотреть. Но не могу кинуть сюда об'яву - бот запрещает
источник

AC

Alexander C in Natural Language Processing
источник

AC

Alexander C in Natural Language Processing
Вот в одс пост . Может кому интересно - присоединяйтесь .
источник

AK

Anton Kolonin in Natural Language Processing
Коллеги, кто еще подскажет словари "плохих" слов и N-gram для русского и английского вроде вот этого? https://github.com/odaykhovskaya/obscene_words_ru (спасибо @yuri_baburov )
источник

YB

Yuri Baburov in Natural Language Processing
Alexander Kukushkin
Планируется добавлять в реестр Spacy? Заливать наработки в их репозиторий
да. NERUS-релиз они должны взять и выложить себе. я напишу им, когда дотестирую NER.
релиз получился хороший по качеству, но там можно ещё чуть-чуть улучшить.
источник

YB

Yuri Baburov in Natural Language Processing
для английского гуглились раньше .
для n-грамм: toxic comments kaggle challengs, если хочется n-граммы посчитать, то на большом количестве текста можно посчитать разницу n-gram между токсичными комментариями и английского текста, отфильтровать по порогу (скажем, что частота "плохой" нграммы должна быть в 10 раз выше, чем в датасете нормальных *разговорных* текстов).
ещё есть ru-sentiment и twitter mokoron, но там очень шумный датасет и именно для фильтрации мата они не подходят (но слишком негативные ответы вполне могут засечь)
источник

AK

Anton Kolonin in Natural Language Processing
Yuri Baburov
для английского гуглились раньше .
для n-грамм: toxic comments kaggle challengs, если хочется n-граммы посчитать, то на большом количестве текста можно посчитать разницу n-gram между токсичными комментариями и английского текста, отфильтровать по порогу (скажем, что частота "плохой" нграммы должна быть в 10 раз выше, чем в датасете нормальных *разговорных* текстов).
ещё есть ru-sentiment и twitter mokoron, но там очень шумный датасет и именно для фильтрации мата они не подходят (но слишком негативные ответы вполне могут засечь)
источник

YB

Yuri Baburov in Natural Language Processing
Онлайн семинар по ML/DS от "SBERLOGA"  (https://www.youtube.com/c/SBERLOGA)
:watch: Пятница 16 октября 17.00 по Москве
:male-scientist: Доклад: Прохор Гладких и Семен Сорокин (Cбер): "Задача NER. Hands-on experience"
* Постановка классической задачи NER
* Эволюция SOTA решений
* Практические проблемы и как мы их решали: Кодировка IO/BIO/..., претренированные веса, длина сэмпла, пересечение сущностей, подтипы, супер-длинные сущности, структура документа, etc
* Наш опыт: BERT-based модели, SPERT, Elmo-based модели, Sentence level NER
* Следующий шаг: ImageNER
:speech_balloon: Ссылка на зум:
https://us02web.zoom.us/j/81647783013?pwd=cWNoWk0vSlR2bFdpTlhzSXJNY0RlQT09
Meeting ID: 816 4778 3013
Passcode: 646595
:memo: Дополнительная информация в телеграм чатах:  https://t.me/sberlogadataclub
https://t.me/sberlogawithgraphs
источник

AC

Alexander C in Natural Language Processing
Yuri Baburov
Онлайн семинар по ML/DS от "SBERLOGA"  (https://www.youtube.com/c/SBERLOGA)
:watch: Пятница 16 октября 17.00 по Москве
:male-scientist: Доклад: Прохор Гладких и Семен Сорокин (Cбер): "Задача NER. Hands-on experience"
* Постановка классической задачи NER
* Эволюция SOTA решений
* Практические проблемы и как мы их решали: Кодировка IO/BIO/..., претренированные веса, длина сэмпла, пересечение сущностей, подтипы, супер-длинные сущности, структура документа, etc
* Наш опыт: BERT-based модели, SPERT, Elmo-based модели, Sentence level NER
* Следующий шаг: ImageNER
:speech_balloon: Ссылка на зум:
https://us02web.zoom.us/j/81647783013?pwd=cWNoWk0vSlR2bFdpTlhzSXJNY0RlQT09
Meeting ID: 816 4778 3013
Passcode: 646595
:memo: Дополнительная информация в телеграм чатах:  https://t.me/sberlogadataclub
https://t.me/sberlogawithgraphs
🔥🔥🔥 спасибо!
источник

AK

Alexander Kukushkin in Natural Language Processing
Запись то будет?
источник

AC

Alexander C in Natural Language Processing
Alexander Kukushkin
Запись то будет?
Да, если накладок не будет.
источник

AC

Alexander C in Natural Language Processing
Там же где другие записи - ссылка вначале объявления. Через пару дней обычно
источник