Телеграмм чат группы natural_language

2020 August 13

🐙

🐙 in Natural Language Processing

Ой, да, точно, именно он

источник

15:06пожаловаться #1

КМ

Кибер Медик... in Natural Language Processing

Yuri Baburov

чтобы модель понимала разные формы слов, тебе нужны вектора (или одинаковая лемматизация). в том примере есть как раз fasttext вектора.
встроенные вектора будут в релизе 2.3, можно взять модель https://github.com/buriy/spacy-ru/releases/tag/v2.3_pre1 , там уже есть вектора.
используй spacy.load('ru2_syntagrus') , т.к. они что-то там поменяли в лемматизаторе в v2.3 и надо апдейтить кастомный лемматизатор.

GitHub

Release POS & DEP model for spaCy 2.3 based on SynTagRus and navec · buriy/spacy-ru

POS & DEP model for spaCy 2.3: POS tagger and DEP (syntax analysis) models, trained on SynTagRus, using Navec vectors & pymorphy2 morphology.
Quality on SynTagRus-test:
POS | 95.31%
DEP UAS...

Привет, наконец руки дошли и у меня возникли проблемы, есть корпус текстов из 33к предложений, если обучаю в spacy пустую модель на 50 итерациях, ошибка постепенно снижается с четырехзначных значений, до двухзначных, а вот если импользовать твою модель, то ошибка просто запредельная 233к - 237к.

В meta.json указано, что NER пустой у модели, т.е. нет обученных сущностей. А почему такое запредельное значение ошибки? Мб это связано с объемом датасета? Что посоветуете?

Обучаю с помощью этого скрипта
https://spacy.io/usage/training#example-train-ner

источник

16:32пожаловаться #2

YB

Yuri Baburov in Natural Language Processing

Кибер Медик

Привет, наконец руки дошли и у меня возникли проблемы, есть корпус текстов из 33к предложений, если обучаю в spacy пустую модель на 50 итерациях, ошибка постепенно снижается с четырехзначных значений, до двухзначных, а вот если импользовать твою модель, то ошибка просто запредельная 233к - 237к.

В meta.json указано, что NER пустой у модели, т.е. нет обученных сущностей. А почему такое запредельное значение ошибки? Мб это связано с объемом датасета? Что посоветуете?

Обучаю с помощью этого скрипта
https://spacy.io/usage/training#example-train-ner

ну, как минимум, удалить модель NER (из meta.json, если там есть слово ner в списке моделей, и каталог заодно удалить), и пообучать ещё. а во-вторых, смотреть параметры обучения.
Если не подходит модель с векторами, то пробовать без векторов, да. Или взять модель ner из 2.1 за основу, с теми векторами, возможно, оно больше подойдёт. Кто-то тут успешно обучал вроде бы.

источник

16:37пожаловаться #3

КМ

Кибер Медик... in Natural Language Processing

Yuri Baburov

ну, как минимум, удалить модель NER (из meta.json, если там есть слово ner в списке моделей, и каталог заодно удалить), и пообучать ещё. а во-вторых, смотреть параметры обучения.
Если не подходит модель с векторами, то пробовать без векторов, да. Или взять модель ner из 2.1 за основу, с теми векторами, возможно, оно больше подойдёт. Кто-то тут успешно обучал вроде бы.

спасибо) в мете пустой список)
хотел еще спросить, почему в мастер ветке spacy-ru не последняя версия?) и какая там вообще версия?

источник

16:39пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

Кибер Медик

спасибо) в мете пустой список)
хотел еще спросить, почему в мастер ветке spacy-ru не последняя версия?) и какая там вообще версия?

потому что в августе тестирую 2.3 (там есть некоторые небольшие недоработки) и доделываю туда NER.
https://github.com/buriy/spacy-ru/tree/v2.3 вот ветка 2.3 .
а ветка для 2.1 , которая в мастере — стабильная и проверенная в бою.

GitHub

buriy/spacy-ru

Russian language models for spaCy. Contribute to buriy/spacy-ru development by creating an account on GitHub.

источник

16:41пожаловаться #5

КМ

Кибер Медик... in Natural Language Processing

Yuri Baburov

потому что в августе тестирую 2.3 (там есть некоторые небольшие недоработки) и доделываю туда NER.
https://github.com/buriy/spacy-ru/tree/v2.3 вот ветка 2.3 .
а ветка для 2.1 , которая в мастере — стабильная и проверенная в бою.

GitHub

buriy/spacy-ru

Russian language models for spaCy. Contribute to buriy/spacy-ru development by creating an account on GitHub.

понял, еще раз спасибо)

источник

16:42пожаловаться #6

A

Alexander in Natural Language Processing

Коллеги, тут кидали картинку. А что это за редактор?

источник

18:55пожаловаться #7

A

Alexander in Natural Language Processing

источник

18:55пожаловаться #8

D•

Dan • Captain in Natural Language Processing

Это не редактор, это сайт. Туда кидаешь код он тебе раскрашивает

источник

18:56пожаловаться #9

DK

Denis Kirjanov in Natural Language Processing

Dan • Captain

Это не редактор, это сайт. Туда кидаешь код он тебе раскрашивает

Text sublime же, не?

источник

18:58пожаловаться #10

D•

Dan • Captain in Natural Language Processing

https://carbon.now.sh/

carbon.now.sh

Carbon is the easiest way to create and share beautiful images of your source code.

источник

18:59пожаловаться #11

D•

Dan • Captain in Natural Language Processing

Denis Kirjanov

Text sublime же, не?

Нет.

источник

18:59пожаловаться #12

ck

cnstntn kndrtv in Natural Language Processing

очень на sublime похож. Для красивых скриншотов снипетов еще такое есть https://marketplace.visualstudio.com/items?itemName=pnp.polacode

Visualstudio

Polacode - Visual Studio Marketplace

Extension for Visual Studio Code - 📸 Polaroid for your code

источник

19:00пожаловаться #13

ck

cnstntn kndrtv in Natural Language Processing

похож на редактор, да не он - печаталка снипетов это

источник

19:01пожаловаться #14

MT

Mikhail Tikhomirov in Natural Language Processing

Крайне похож на sublime text

источник

19:13пожаловаться #15

D•

Dan • Captain in Natural Language Processing

Может быть потому что там цветовая краска monokai используется?

источник

19:13пожаловаться #16

MT

Mikhail Tikhomirov in Natural Language Processing

Поэтому и говорю, что похож :)

источник

19:14пожаловаться #17

RS

Ruslan Sabirov in Natural Language Processing

Привет!
Подскажите, пожалуйста, ресурсы/статьи по генерации альтернативных ответов к вопросам.
Предположим, нам дан отрывок текста, вопрос и правильный ответ на него (например, вопрос "Что построили в Париже в 1889 году?", ответ "Эйфелева башня"). Задача сгенерировать заведомо неправильные варианты ответов (например, Лувр, Версаль и т.п.)

источник

22:18пожаловаться #18

FF

Futorio Franklin in Natural Language Processing

Ruslan Sabirov

Привет!
Подскажите, пожалуйста, ресурсы/статьи по генерации альтернативных ответов к вопросам.
Предположим, нам дан отрывок текста, вопрос и правильный ответ на него (например, вопрос "Что построили в Париже в 1889 году?", ответ "Эйфелева башня"). Задача сгенерировать заведомо неправильные варианты ответов (например, Лувр, Версаль и т.п.)

Можно попробовать от ответа поискать близкие слова в w2v

источник

22:21пожаловаться #19

FF

Futorio Franklin in Natural Language Processing

Хотя адекватность может хромать

источник

22:22пожаловаться #20