Size: a a a

Natural Language Processing

2021 January 20

ЕТ

Евгений Томилов... in Natural Language Processing
Но сложно.
источник

A

Artem in Natural Language Processing
Да, нужно довольно много сделать вручную
источник

A

Artem in Natural Language Processing
В целом, даже если просто разбить слова исходного корпуса на слоги и посчитать эмпирическое распределение onset'ов слогов, а дальше генерировать слова по слогам, а не по символам, то может выйти адекватно
источник

М

Марк in Natural Language Processing
Евгений Томилов
Поясните, пожалуйста. Вот, есть у меня два набора имён: эльфийские, людоящеров и людские))0) Они сильно различаются на мой взгляд.
И я хочу сделать три модели, которые будут генерировать имя, похожее на один из трёх наборов.
Вопросы:
1) Я так понимаю, тут не особо подойдёт решение в лоб через цепи Маркова, потому что разная длина имён и всё такое;
2) Может, можно обойтись одной моделью?
Как вариант, код из курса.
https://stepik.org/lesson/262247/step/1?unit=243130
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Спасибо!
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Artem
В целом, даже если просто разбить слова исходного корпуса на слоги и посчитать эмпирическое распределение onset'ов слогов, а дальше генерировать слова по слогам, а не по символам, то может выйти адекватно
Интересная идея, правда, я слабо относительно разбираюсь в моделировании языка пока что. Но так или иначе изучу заодно.
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Простите, а может кто-нибудь посоветовать годную статью по генерации отдельных слов цепью Маркова? Я сейчас смотрю на кусок подхода fasttext, т.е. разбивание слов на n-граммы посимвольно. Но наверняка есть более интересный подход.
источник

DD

David Dale in Natural Language Processing
Евгений Томилов
Простите, а может кто-нибудь посоветовать годную статью по генерации отдельных слов цепью Маркова? Я сейчас смотрю на кусок подхода fasttext, т.е. разбивание слов на n-граммы посимвольно. Но наверняка есть более интересный подход.
А а зачем какая-то отдельная статья для этого? Берёшь цепь и генерируешь)
Я писал три года назад пост про спелл-чекеры на коленкекод к нему), оттуда вполне можно цепь Маркова взять.

А если хочется нейронку, есть вот такая в документации к pytorch.
источник

ЕТ

Евгений Томилов... in Natural Language Processing
David Dale
А а зачем какая-то отдельная статья для этого? Берёшь цепь и генерируешь)
Я писал три года назад пост про спелл-чекеры на коленкекод к нему), оттуда вполне можно цепь Маркова взять.

А если хочется нейронку, есть вот такая в документации к pytorch.
Крайне благодарен! Отдельная статья — потому что 99% моего опыта в табличных данных и биостатистике. Пока что)
источник

A

Anton in Natural Language Processing
Подскажите, как решается задача поиска иносказаний (детектировать слова в переносном смысле) в тексте? Домен: новостной
источник

DD

David Dale in Natural Language Processing
Anton
Подскажите, как решается задача поиска иносказаний (детектировать слова в переносном смысле) в тексте? Домен: новостной
Звучит похоже на word sense disambiguation (эта задача хорошо гуглится).
Если у тебя уже есть тезаурус, в котором размечены многозначные слова, то можно выбрать смысл слова из имеющихся по контексту: например, посмотреть, к какому из смыслов ближе контекстные эмбеддинги этого слова или даже просто окружающие его слова. Ну и дальше, если каким-то образом выбрать один из смыслов слова как "основной", то употребления его во всех остальных смыслах, наверное, можно считать иносказаниями.
источник

N

Natalia in Natural Language Processing
есть всяческие работы по идентификации метафор, можно туда ещё копать
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
там прямо по тексту диссера и статей много чего найдётся и про методы, и вообще про примеры
источник

N

Natalia in Natural Language Processing
источник

A

Anton in Natural Language Processing
@cointegrated Natalia Спасибо!
источник

TM

Toemik Mnemonic in Natural Language Processing
Yuri Baburov
Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.
Поздравляю!
источник
2021 January 21

AW

Alex Wortega in Natural Language Processing
Yuri Baburov
Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.
Ухху!!
источник

LS

Liudmyla Slava in Natural Language Processing
Yuri Baburov
Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.
Это очень круто 👍
источник