Телеграмм чат группы natural_language_processing страница 799

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1882 membersпожаловаться на группу

2020 August 23

AL

Anton Lozhkov in Natural Language Processing

Alexander Kukushkin

Nerus — большой синтетический русскоязычный датасет
https://natasha.github.io/nerus

Месяц назад был пост про компактный NER из проекта Natasha https://natasha.github.io/ner. Получилось сжать модель в 75 раз, проиграть 1 процентный пункт SOTA BERT от DeepPavlov. Главный ингредиент там огромный синтетический датасет. Компактные модели начинают нормально работать только если обучить их на сотнях тысяч примеров. Мы публикуем архив в репозитории Nerus https://github.com/natasha/nerus, чтобы другие исследователи могли повторить и улучшить наше решении. Про качество разметки и Python-интерфейс в https://natasha.github.io/nerus.

В https://github.com/buriy/spacy-ru на Nerus обучают качественные русские модели для SpaCy, вроде бы получается даже лучше чем в Natasha.

natasha.github.io

Nerus — большой синтетический русскоязычный датасет

Разметка морфологии, синтаксиса, именованных сущностей

стоит еще упомянуть что где-то 3.5% синтаксических деревьев содержат циклы или больше одного root-а, поэтому могут озадачить парсеры conllu

источник

20:38пожаловаться #1

AL

Anton Lozhkov in Natural Language Processing

ну и морфологию надо дополнительно повалидировать, чтобы согласовать с синтаксисом :)

источник

20:38пожаловаться #2

DK

Denis Kirjanov in Natural Language Processing

стоит еще упомянуть что где-то 3.5% синтаксических деревьев содержат циклы или больше одного root-а, поэтому могут озадачить парсеры conllu

Это где такие деревья?) в нерусе?

источник

20:43пожаловаться #3

AL

Anton Lozhkov in Natural Language Processing

Это где такие деревья?) в нерусе?

ага

источник

20:43пожаловаться #4

AL

Anton Lozhkov in Natural Language Processing

ну на то он и серебряный корпус

источник

20:43пожаловаться #5

AK

Alexander Kukushkin in Natural Language Processing

стоит еще упомянуть что где-то 3.5% синтаксических деревьев содержат циклы или больше одного root-а, поэтому могут озадачить парсеры conllu

Угу, надо добавить

источник

21:04пожаловаться #6

AK

Alexander Kukushkin in Natural Language Processing

ну и морфологию надо дополнительно повалидировать, чтобы согласовать с синтаксисом :)

Это как?

источник

21:04пожаловаться #7

AL

Anton Lozhkov in Natural Language Processing

Alexander Kukushkin

Это как?

Например PUNCT-punct, ADV-advmod, DET-det

источник

21:32пожаловаться #8

AL

Anton Lozhkov in Natural Language Processing

Вот этим скриптом можно все баги поймать https://github.com/UniversalDependencies/tools/blob/master/validate.py

UniversalDependencies/tools

Various utilities for processing the data. Contribute to UniversalDependencies/tools development by creating an account on GitHub.

источник

21:32пожаловаться #9

AK

Alexander Kukushkin in Natural Language Processing

А да хорошая идея

источник

21:32пожаловаться #10

AW

Alex Wortega in Natural Language Processing

Коллеги, а как вы вытаскиваете стоп слова? Я пока дошел только до того что выкинул часть из самых популярных слов которые посчитал не несущими контентекстного смысла.

источник

23:51пожаловаться #11

AS

Alex Surname in Natural Language Processing

Коллеги, а как вы вытаскиваете стоп слова? Я пока дошел только до того что выкинул часть из самых популярных слов которые посчитал не несущими контентекстного смысла.

предварительно заданым списком

источник

23:55пожаловаться #12

AW

Alex Wortega in Natural Language Processing

предварительно заданым списком

Это понятно

источник

23:55пожаловаться #13

AW

Alex Wortega in Natural Language Processing

Но вы его как до дополняете?

источник

23:55пожаловаться #14

AS

Alex Surname in Natural Language Processing

ну я для английского вырезал все что меньше 3 букв

источник

23:56пожаловаться #15

DD

David Dale in Natural Language Processing

Коллеги, а как вы вытаскиваете стоп слова? Я пока дошел только до того что выкинул часть из самых популярных слов которые посчитал не несущими контентекстного смысла.

Крутые пацаны не вытаскивают стоп слова самостоятельно, а дают своим моделям выучить для них ничтожно маленькие веса.

источник

23:58пожаловаться #16

AW

Alex Wortega in Natural Language Processing

Крутые пацаны не вытаскивают стоп слова самостоятельно, а дают своим моделям выучить для них ничтожно маленькие веса.

Соре я обучаю на ноуте

источник

23:59пожаловаться #17

AW

Alex Wortega in Natural Language Processing

Dl для слабаков. Только мл только хардкор

источник

23:59пожаловаться #18

2020 August 24

DD

David Dale in Natural Language Processing

Соре я обучаю на ноуте

К логрегу моё высказывание тоже относится)

источник

00:00пожаловаться #19

AW

Alex Wortega in Natural Language Processing

)

источник

00:00пожаловаться #20