Size: a a a

Natural Language Processing

2020 October 22

OR

Oleg Ruban in Natural Language Processing
Yuri Baburov
нет. я spacy-ru делаю. SlovNet делает @alexkuk
речь в том сообщении шла про модели для spacy.
По Spacy, в чем принципиальное отличие в POS и NER от Наташи будет? И известно, на каком фреймворке предобученный SlovNet окажется?
источник

YB

Yuri Baburov in Natural Language Processing
Oleg Ruban
По Spacy, в чем принципиальное отличие в POS и NER от Наташи будет? И известно, на каком фреймворке предобученный SlovNet окажется?
SlovNetBert пока что медленнее на CPU, чем Spacy (который без трансформеров!), а SlovNet (который без берта) не на новостях очень слабый.
>И известно, на каком фреймворке SlovNet окажется?
а это непонятный мне вопрос.
источник

SS

Sergey Shulga in Natural Language Processing
@yuri_baburov когда планируешь 2.3 с NER выкатить?
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Shulga
@yuri_baburov когда планируешь 2.3 с NER выкатить?
всё очень сложно из-за завала по работе и из-за того, что я не смог с первого раза измерить метрику naeval на NER. прямо сейчас выложу версии с каким-то неплохим качеством NER, но чуть хуже рекордного качества прошлого года (впрочем, не факт, что вы заметите разницу ;) ). это назову бетой.
а доделка будет в течение ближайшей пары недель, как только смогу повторить метрику на NER и оптимизировать модель по ней.
источник

OR

Oleg Ruban in Natural Language Processing
Yuri Baburov
SlovNetBert пока что медленнее на CPU, чем Spacy (который без трансформеров!), а SlovNet (который без берта) не на новостях очень слабый.
>И известно, на каком фреймворке SlovNet окажется?
а это непонятный мне вопрос.
То есть Словнет с Бертом обучен только на новостных датасетах по типу Ленты и РИА?

А насчет того, на чем предобученный - имел в виду PyTorch или Tensorflow
источник

N

Natalia in Natural Language Processing
о, а на каких датасетах, кстати, для русского качество ner меряют?
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
о, а на каких датасетах, кстати, для русского качество ner меряют?
источник

SS

Sergey Shulga in Natural Language Processing
@yuri_baburov Юра, отлично,  я как раз опечаточник с пунктуатором докручу к этому моменту в пайплайн к себе
источник

YB

Yuri Baburov in Natural Language Processing
Oleg Ruban
То есть Словнет с Бертом обучен только на новостных датасетах по типу Ленты и РИА?

А насчет того, на чем предобученный - имел в виду PyTorch или Tensorflow
нет, он обучен на fiction + news .
>А насчет того, на чем предобученный - имел в виду PyTorch или Tensorflow
pytorch там под капотом, https://github.com/natasha/slovnet/search?q=torch
источник

N

Natalia in Natural Language Processing
спасибо, точно же!
там, кстати, полетела ссылка на BSNLP (лучше поменять на http://bsnlp.cs.helsinki.fi/bsnlp-2019/shared_task.html - @alexkuk? или отдельно в issues писать? :))
источник

OR

Oleg Ruban in Natural Language Processing
Yuri Baburov
нет, он обучен на fiction + news .
>А насчет того, на чем предобученный - имел в виду PyTorch или Tensorflow
pytorch там под капотом, https://github.com/natasha/slovnet/search?q=torch
источник

YS

Yaroslav Seliverstov in Natural Language Processing
Всем добрый вечер! Скажите, может кто делал что-то подобное но для русского языка?)
источник

YS

Yaroslav Seliverstov in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
это обычная задача NER
источник

YS

Yaroslav Seliverstov in Natural Language Processing
К сожалению ссылка на проекты в гит, только класс содержит, тебе не в встречались подобные проекты?
источник
2020 October 23

YB

Yuri Baburov in Natural Language Processing
Yaroslav Seliverstov
К сожалению ссылка на проекты в гит, только класс содержит, тебе не в встречались подобные проекты?
обычно все для своей компании делают такой NER, вряд ли кто будет публиковать.
источник

YS

Yaroslav Seliverstov in Natural Language Processing
Понял, я думал это типовая задачка)
источник

YB

Yuri Baburov in Natural Language Processing
Yaroslav Seliverstov
Понял, я думал это типовая задачка)
класс задач — типовой, а сама задача — коммерческая обычно
источник

YS

Yaroslav Seliverstov in Natural Language Processing
Я так понимаю они ее решают с помощью нейронки, а откуда они берут корпуса для обучения?
источник

AL

Anton Lozhkov in Natural Language Processing
Yaroslav Seliverstov
Я так понимаю они ее решают с помощью нейронки, а откуда они берут корпуса для обучения?
конкретно для резюме - либо собственная база, либо спарсить linkedin/hh.ru и найти поля из профиля в прикрепленных CV.pdf
источник