Телеграмм чат группы natural_language

Но сложно.

19:39пожаловаться #1

A

Artem in Natural Language Processing

Да, нужно довольно много сделать вручную

19:40пожаловаться #2

A

Artem in Natural Language Processing

В целом, даже если просто разбить слова исходного корпуса на слоги и посчитать эмпирическое распределение onset'ов слогов, а дальше генерировать слова по слогам, а не по символам, то может выйти адекватно

Семинар: генерация имён и лозунгов с помощью RNN

19:44пожаловаться #3

М

Марк in Natural Language Processing

Евгений Томилов

Поясните, пожалуйста. Вот, есть у меня два набора имён: эльфийские, людоящеров и людские))0) Они сильно различаются на мой взгляд.
И я хочу сделать три модели, которые будут генерировать имя, похожее на один из трёх наборов.
Вопросы:
1) Я так понимаю, тут не особо подойдёт решение в лоб через цепи Маркова, потому что разная длина имён и всё такое;
2) Может, можно обойтись одной моделью?

Как вариант, код из курса.
https://stepik.org/lesson/262247/step/1?unit=243130

Stepik: online education

19:44пожаловаться #4

ЕТ

Семинар: генерация имён и лозунгов с помощью RNN

Марк

Как вариант, код из курса.
https://stepik.org/lesson/262247/step/1?unit=243130

Stepik: online education

Спасибо!

19:45пожаловаться #5

ЕТ

Artem

В целом, даже если просто разбить слова исходного корпуса на слоги и посчитать эмпирическое распределение onset'ов слогов, а дальше генерировать слова по слогам, а не по символам, то может выйти адекватно

Интересная идея, правда, я слабо относительно разбираюсь в моделировании языка пока что. Но так или иначе изучу заодно.

19:45пожаловаться #6

ЕТ

Простите, а может кто-нибудь посоветовать годную статью по генерации отдельных слов цепью Маркова? Я сейчас смотрю на кусок подхода fasttext, т.е. разбивание слов на n-граммы посимвольно. Но наверняка есть более интересный подход.

David Dale in Natural Language Processing

19:56пожаловаться #7

DD

Евгений Томилов

Простите, а может кто-нибудь посоветовать годную статью по генерации отдельных слов цепью Маркова? Я сейчас смотрю на кусок подхода fasttext, т.е. разбивание слов на n-граммы посимвольно. Но наверняка есть более интересный подход.

А а зачем какая-то отдельная статья для этого? Берёшь цепь и генерируешь)
Я писал три года назад пост про спелл-чекеры на коленке (и код к нему), оттуда вполне можно цепь Маркова взять.

А если хочется нейронку, есть вот такая в документации к pytorch.

20:02пожаловаться #8

ЕТ

David Dale

А а зачем какая-то отдельная статья для этого? Берёшь цепь и генерируешь)
Я писал три года назад пост про спелл-чекеры на коленке (и код к нему), оттуда вполне можно цепь Маркова взять.

А если хочется нейронку, есть вот такая в документации к pytorch.

Крайне благодарен! Отдельная статья — потому что 99% моего опыта в табличных данных и биостатистике. Пока что)

20:03пожаловаться #9

A

Anton in Natural Language Processing

Подскажите, как решается задача поиска иносказаний (детектировать слова в переносном смысле) в тексте? Домен: новостной

David Dale in Natural Language Processing

20:53пожаловаться #10

DD

Anton

Подскажите, как решается задача поиска иносказаний (детектировать слова в переносном смысле) в тексте? Домен: новостной

Звучит похоже на word sense disambiguation (эта задача хорошо гуглится).
Если у тебя уже есть тезаурус, в котором размечены многозначные слова, то можно выбрать смысл слова из имеющихся по контексту: например, посмотреть, к какому из смыслов ближе контекстные эмбеддинги этого слова или даже просто окружающие его слова. Ну и дальше, если каким-то образом выбрать один из смыслов слова как "основной", то употребления его во всех остальных смыслах, наверное, можно считать иносказаниями.

20:57пожаловаться #11

N

есть всяческие работы по идентификации метафор, можно туда ещё копать

21:05пожаловаться #12

N

https://www.aaai.org/ocs/index.php/SSS/SSS17/paper/viewPDFInterstitial/15244/14525

21:05пожаловаться #13

N

https://www.hse.ru/sci/diss/298496193

21:08пожаловаться #14

N

там прямо по тексту диссера и статей много чего найдётся и про методы, и вообще про примеры

21:12пожаловаться #15

N

https://github.com/ytsvetko/metaphor

GitHub

ytsvetko/metaphor

Cross-lingual metaphor detection. Contribute to ytsvetko/metaphor development by creating an account on GitHub.

21:14пожаловаться #16

A

Anton in Natural Language Processing

@cointegrated Natalia Спасибо!

Toemik Mnemonic in Natural Language Processing

21:16пожаловаться #17

TM

Yuri Baburov

Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.

Russian

Russian · spaCy Models Documentation (nightly)

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

Поздравляю!

Alex Wortega in Natural Language Processing

23:48пожаловаться #18

2021 January 21

AW

Yuri Baburov

Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.

Russian

Russian · spaCy Models Documentation (nightly)

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

Ухху!!

Liudmyla Slava in Natural Language Processing

00:23пожаловаться #19

LS

Yuri Baburov

Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.

Russian

Russian · spaCy Models Documentation (nightly)

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

Это очень круто 👍