Size: a a a

Natural Language Processing

2021 February 02

ПП

Павлик Павлик... in Natural Language Processing
Natalia
так части речи вроде бы даже в примере ner не вызываются, только спан + тип сущности
ну это в общем.
хочется например вытащить все локации в отдельный список.
или понять что за часть речи adj...
источник

N

Natalia in Natural Language Processing
а что, непонятно, что это прилагательное?
источник

ПП

Павлик Павлик... in Natural Language Processing
ага
источник

N

Natalia in Natural Language Processing
это ж не теги из Penn Treebank
источник

N

Natalia in Natural Language Processing
ну там с шансами либо по pymorphy, либо по UD
источник

N

Natalia in Natural Language Processing
вот этот находила, да, плясала от него
источник

N

Natalia in Natural Language Processing
Natalia
ну там с шансами либо по pymorphy, либо по UD
в данном случае UD
источник

ВГ

Вадим Гилемзянов... in Natural Language Processing
Ребят, кто-нибудь находил датасеты с диалогами из сайтов знакомств?
источник

ni

n i in Natural Language Processing
Вадим Гилемзянов
Ребят, кто-нибудь находил датасеты с диалогами из сайтов знакомств?
Не совсем с сайта знакомств, но тематика такая же

https://tlk.s3.yandex.net/dataset/TlkPersonaChatRus.zip
источник

AA

Anton A in Natural Language Processing
Xenia Katasonova
Кто нибудь пробовал применять lda2vec?
С полгода назад пытались для задачи запустить... С одного репозитория под 3 питоном не хотело запускаться, с другого вроде запустилось но результаты немного странные выдавало
источник

XK

Xenia Katasonova in Natural Language Processing
Anton A
С полгода назад пытались для задачи запустить... С одного репозитория под 3 питоном не хотело запускаться, с другого вроде запустилось но результаты немного странные выдавало
Спасибо, вот тоже ничего не получается
источник

AA

Anton A in Natural Language Processing
Xenia Katasonova
Спасибо, вот тоже ничего не получается
посмотрел - последний вариант (который технически запустился но результаты как-то не очень сходились) был с пакетом pylda2vec
источник

AK

Alexander Kukushkin in Natural Language Processing
Технический доклад Олега Шляжко про то как именно СберДевайсы тренируют RuGPT3 https://youtu.be/GAWADIsBb0Y?t=5094

Выглядит разумным подход внимательно смотреть, что происходит в англоязычном NLP, адаптировать открытые результаты для русского. Архитектуры от OpenAI, фреймворк Microsoft DeepSpeed, Sparse Self-Attention как в OpenAI. Грубо говоря, мало кодить, с ресурсами меньше, чем у OpenAI получить результат как у OpenAI

- Снова расцвет мейнфреймов, вычисления дороже программистов
- https://youtu.be/GAWADIsBb0Y?t=5516 Путь от GPT2 Small до RuGPT3 XL https://huggingface.co/sberbank-ai/rugpt3xl
- Кристофари 200Гб Инфинибенд линки, почти линейный Data Parallel, работает пока модель оптимизатор и данные умещаются на одну GPU
- FP32 Adam 12 байт на вес, Mixed precision FP16 14 байт, Pure FP16 вроде у OpenAI непубличный 6 байт
- Мегабайты на батч, гигабайты на активации, V100 лимит ~2B весов для тренировки
- Megatron-LM, распределенное вычисление тензоров
- Microsoft ZERO, разложить состояние Adam по нескольким GPU
- Microsoft DeepSpeed, фреймворк с трюками выше
- DeepSpeed Offload, выгрузить часть в CPU RAM
источник

OK

Oleh Kutsenko in Natural Language Processing
Добрый день
Может кто подсказать возможно ли с помощью yargy (из natasha) сделать последовательное выделения, т.е. у меня есть ряд правил, предположим:
(name.interpretation(Inter.name), city.interpretation(Inter.city))
и текст: "Вася родился (много случайного текста) в городе Питер"
Есть ли какое то решение которое сможет сперва выделить тип "name" и после уже искать от найденного дальше при этом с возможностью записывать результат в одну сущность интерпретации?
источник

AK

Alexander Kukushkin in Natural Language Processing
Oleh Kutsenko
Добрый день
Может кто подсказать возможно ли с помощью yargy (из natasha) сделать последовательное выделения, т.е. у меня есть ряд правил, предположим:
(name.interpretation(Inter.name), city.interpretation(Inter.city))
и текст: "Вася родился (много случайного текста) в городе Питер"
Есть ли какое то решение которое сможет сперва выделить тип "name" и после уже искать от найденного дальше при этом с возможностью записывать результат в одну сущность интерпретации?
Хорошего способа нет, есть рабочий немного костыльный, два раза запустить парсер, сначала выделить кусочки, собрать из них новый текст, запустить расер ещё раз https://nbviewer.jupyter.org/github/natasha/yargy/blob/master/docs/cookbook.ipynb#%D0%9F%D1%80%D0%BE%D0%BF%D1%83%D1%81%D1%82%D0%B8%D1%82%D1%8C-%D1%87%D0%B0%D1%81%D1%82%D1%8C-%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0
источник

OK

Oleh Kutsenko in Natural Language Processing
но тогда интерпретацию нужно писать вручную?
источник

AK

Alexander Kukushkin in Natural Language Processing
Не, почему, когда запускаешь парсер второй раз, интерпретация работает как обычно, получается одна сущность
источник

VG

Valeriy Grebenyuk in Natural Language Processing
Поделитесь, пожалуйста, телеграм-каналами для размещения вакансий по NLP.
источник

N

Natalia in Natural Language Processing
кажется, тут когда-то кто-то про жанры спрашивал, тут вот в четверг будет семинар финский с докладчицей из Турку (один из основных NLP-центров Финляндии):
https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/digital-humanities-research-seminar-0
источник
2021 February 03

КМ

Крюков Максим... in Natural Language Processing
Подскажите с помощью чего можно найти семантическую близость в графе? Вершины графа название профессий.
источник