Телеграмм чат группы natural_language

да.
https://github.com/natasha/naeval#ner , там есть докер с примером.
версию для 2.3 в течение ближайшей недели выложу, (пре-релиз без NER там уже лежит, версия с NER готова, могу индивидуально дать на тестирование.)

GitHub

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

источник

13:00пожаловаться #5

V

Vladimir in Natural Language Processing

Yuri Baburov

да.
https://github.com/natasha/naeval#ner , там есть докер с примером.
версию для 2.3 в течение ближайшей недели выложу, (пре-релиз без NER там уже лежит, версия с NER готова, могу индивидуально дать на тестирование.)

GitHub

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

Я бы затестил! =)

источник

13:30пожаловаться #6

AK

Alexander Kukushkin in Natural Language Processing

Yuri Baburov

да.
https://github.com/natasha/naeval#ner , там есть докер с примером.
версию для 2.3 в течение ближайшей недели выложу, (пре-релиз без NER там уже лежит, версия с NER готова, могу индивидуально дать на тестирование.)

GitHub

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

Планируется добавлять в реестр Spacy? Заливать наработки в их репозиторий

источник

14:08пожаловаться #7

AC

Alexander C in Natural Language Processing

Привет

источник

14:26пожаловаться #8

AC

Alexander C in Natural Language Processing

У нас завтра будет семинар по NER , можно по зум смотреть. Но не могу кинуть сюда об'яву - бот запрещает

источник

14:27пожаловаться #9

AC

Alexander C in Natural Language Processing

https://opendatascience.slack.com/archives/C04N3UMSL/p1602760807124800

источник

14:27пожаловаться #10

AC

Alexander C in Natural Language Processing

Вот в одс пост . Может кому интересно - присоединяйтесь .

источник

14:28пожаловаться #11

AK

Anton Kolonin in Natural Language Processing

Коллеги, кто еще подскажет словари "плохих" слов и N-gram для русского и английского вроде вот этого? https://github.com/odaykhovskaya/obscene_words_ru (спасибо @yuri_baburov )

GitHub

odaykhovskaya/obscene_words_ru

Корпус ненормативной лексики русского языка для нужд NLP. Любые исправления и дополнения приветствуются - odaykhovskaya/obscene_words_ru

источник

14:39пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

Alexander Kukushkin

Планируется добавлять в реестр Spacy? Заливать наработки в их репозиторий

да. NERUS-релиз они должны взять и выложить себе. я напишу им, когда дотестирую NER.
релиз получился хороший по качеству, но там можно ещё чуть-чуть улучшить.

источник

14:40пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Anton Kolonin

Коллеги, кто еще подскажет словари "плохих" слов и N-gram для русского и английского вроде вот этого? https://github.com/odaykhovskaya/obscene_words_ru (спасибо @yuri_baburov )

GitHub

odaykhovskaya/obscene_words_ru

Корпус ненормативной лексики русского языка для нужд NLP. Любые исправления и дополнения приветствуются - odaykhovskaya/obscene_words_ru

для английского гуглились раньше .
для n-грамм: toxic comments kaggle challengs, если хочется n-граммы посчитать, то на большом количестве текста можно посчитать разницу n-gram между токсичными комментариями и английского текста, отфильтровать по порогу (скажем, что частота "плохой" нграммы должна быть в 10 раз выше, чем в датасете нормальных *разговорных* текстов).
ещё есть ru-sentiment и twitter mokoron, но там очень шумный датасет и именно для фильтрации мата они не подходят (но слишком негативные ответы вполне могут засечь)

источник

14:54пожаловаться #14

AK

Anton Kolonin in Natural Language Processing

Yuri Baburov

для английского гуглились раньше .
для n-грамм: toxic comments kaggle challengs, если хочется n-граммы посчитать, то на большом количестве текста можно посчитать разницу n-gram между токсичными комментариями и английского текста, отфильтровать по порогу (скажем, что частота "плохой" нграммы должна быть в 10 раз выше, чем в датасете нормальных *разговорных* текстов).
ещё есть ru-sentiment и twitter mokoron, но там очень шумный датасет и именно для фильтрации мата они не подходят (но слишком негативные ответы вполне могут засечь)

Вот нашел: https://www.freewebheaders.com/full-list-of-bad-words-banned-by-google/

Free Web Headers

Full List of Bad Words and Swear Words Banned by Google | Free Web Headers

Google blacklisted Words for free download, copy and paste swear words list, offensive, curse, insulting, rude, vulgar, inappropriate, dirty words. For Facebook, Youtube, WordPress. CSV, Text, Comma-separated Text File. Multi-languages include English, American, French, Italian, Spanish, Indonesian.

источник

14:54пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

Alexander C

https://opendatascience.slack.com/archives/C04N3UMSL/p1602760807124800

Онлайн семинар по ML/DS от "SBERLOGA" (https://www.youtube.com/c/SBERLOGA)
:watch: Пятница 16 октября 17.00 по Москве
:male-scientist: Доклад: Прохор Гладких и Семен Сорокин (Cбер): "Задача NER. Hands-on experience"
* Постановка классической задачи NER
* Эволюция SOTA решений
* Практические проблемы и как мы их решали: Кодировка IO/BIO/..., претренированные веса, длина сэмпла, пересечение сущностей, подтипы, супер-длинные сущности, структура документа, etc
* Наш опыт: BERT-based модели, SPERT, Elmo-based модели, Sentence level NER
* Следующий шаг: ImageNER
:speech_balloon: Ссылка на зум:
https://us02web.zoom.us/j/81647783013?pwd=cWNoWk0vSlR2bFdpTlhzSXJNY0RlQT09
Meeting ID: 816 4778 3013
Passcode: 646595
:memo: Дополнительная информация в телеграм чатах: https://t.me/sberlogadataclub
https://t.me/sberlogawithgraphs

YouTube

SBERLOGA

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

источник

15:06пожаловаться #16

AC

Alexander C in Natural Language Processing

Yuri Baburov

Онлайн семинар по ML/DS от "SBERLOGA" (https://www.youtube.com/c/SBERLOGA)
:watch: Пятница 16 октября 17.00 по Москве
:male-scientist: Доклад: Прохор Гладких и Семен Сорокин (Cбер): "Задача NER. Hands-on experience"
* Постановка классической задачи NER
* Эволюция SOTA решений
* Практические проблемы и как мы их решали: Кодировка IO/BIO/..., претренированные веса, длина сэмпла, пересечение сущностей, подтипы, супер-длинные сущности, структура документа, etc
* Наш опыт: BERT-based модели, SPERT, Elmo-based модели, Sentence level NER
* Следующий шаг: ImageNER
:speech_balloon: Ссылка на зум:
https://us02web.zoom.us/j/81647783013?pwd=cWNoWk0vSlR2bFdpTlhzSXJNY0RlQT09
Meeting ID: 816 4778 3013
Passcode: 646595
:memo: Дополнительная информация в телеграм чатах: https://t.me/sberlogadataclub
https://t.me/sberlogawithgraphs

YouTube

SBERLOGA

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

🔥🔥🔥 спасибо!

источник

15:12пожаловаться #17

AK

Alexander Kukushkin in Natural Language Processing

Запись то будет?

источник

15:38пожаловаться #18

AC