Size: a a a

Natural Language Processing

2020 October 16

🐙

🐙 in Natural Language Processing
Max Kuznetsov
Я начинаю думать. Переписать на   c, go и т.п., но надо начинать с pymorphy
Я возможно скажу банальность, но мне довольно кстати пришёлся прирост скорости при использовании pymorphy от банальной мемоизации (у меня узкая область, так что разнообразие требуемых лемм не слишком велико - какой смысл каждый раз искать и выводить все варианты, если всё равно их сравнивать никто не будет).
источник

МП

Михаил Притугин... in Natural Language Processing
Всем привет!
Можно ли что-то в natasha ускорять с помощью GPU?
источник

AK

Alexander Kukushkin in Natural Language Processing
Михаил Притугин
Всем привет!
Можно ли что-то в natasha ускорять с помощью GPU?
Slovnet часть Natasha, там внутренние модели работают на GPU. Но всё публичное API работает только на CPU
источник

МП

Михаил Притугин... in Natural Language Processing
А как заставить их использовать GPU?
источник

AK

Alexander Kukushkin in Natural Language Processing
Кого их? Модели из Slovnet? Запустить на тачке с GPU, должно работать само
источник

МП

Михаил Притугин... in Natural Language Processing
У меня локальная тачка с GPU
Сервер без
и на сервере чуть-чуть быстрее, хотя он не намного мощнее локальной
источник

МП

Михаил Притугин... in Natural Language Processing
Есть ощущение, что GPU не юзается
источник

AK

Alexander Kukushkin in Natural Language Processing
"Всё публичное API работает только на CPU"
источник

МП

Михаил Притугин... in Natural Language Processing
Публичное API же юзает внутренние модели
источник

МП

Михаил Притугин... in Natural Language Processing
Которые умеют в GPU
источник

AK

Alexander Kukushkin in Natural Language Processing
Юзает внутренние модели которые не умеют в GPU
источник

AK

Alexander Kukushkin in Natural Language Processing
Есть внутренние модели которые умеют и есть которые не умеют
источник

MK

Max Kuznetsov in Natural Language Processing
🐙
Я возможно скажу банальность, но мне довольно кстати пришёлся прирост скорости при использовании pymorphy от банальной мемоизации (у меня узкая область, так что разнообразие требуемых лемм не слишком велико - какой смысл каждый раз искать и выводить все варианты, если всё равно их сравнивать никто не будет).
Да, попробую, должно зайти, у меня к тому же очень большие объемы, поэтому быстрая библиотека просится. Можно мою грамматику переписать под другой парсер, а морфологию раскрыть а правила.
источник

AC

Alexander C in Natural Language Processing
Переслано от Vlad
коллеги, зум стартовал :) подключайтесь
источник

AC

Alexander C in Natural Language Processing
Yuri Baburov
Онлайн семинар по ML/DS от "SBERLOGA"  (https://www.youtube.com/c/SBERLOGA)
:watch: Пятница 16 октября 17.00 по Москве
:male-scientist: Доклад: Прохор Гладких и Семен Сорокин (Cбер): "Задача NER. Hands-on experience"
* Постановка классической задачи NER
* Эволюция SOTA решений
* Практические проблемы и как мы их решали: Кодировка IO/BIO/..., претренированные веса, длина сэмпла, пересечение сущностей, подтипы, супер-длинные сущности, структура документа, etc
* Наш опыт: BERT-based модели, SPERT, Elmo-based модели, Sentence level NER
* Следующий шаг: ImageNER
:speech_balloon: Ссылка на зум:
https://us02web.zoom.us/j/81647783013?pwd=cWNoWk0vSlR2bFdpTlhzSXJNY0RlQT09
Meeting ID: 816 4778 3013
Passcode: 646595
:memo: Дополнительная информация в телеграм чатах:  https://t.me/sberlogadataclub
https://t.me/sberlogawithgraphs
Была заминка
источник

AC

Alexander C in Natural Language Processing
Сейчас зум заработал
источник

AC

Alexander C in Natural Language Processing
Если кому интересно присоединяйтесь
источник

NK

Nikolay Karelin in Natural Language Processing
А запись потом будет?
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Да.
источник
2020 October 17

AK

Alexander Kukushkin in Natural Language Processing
ruGPT3
СберДевайсы https://sberdevices.ru/ в СберКлауде https://sbercloud.ru/ru/christofari натренировали что-то похожее на GPT3 для русского. В репозитории https://github.com/sberbank-ai/ru-gpts упоминается ruGPT2048, ruGPT2Large, ruGPTMedium2048, что из этого ruGPT3 не понял. Но претрейн в любом случае впечатляющий "170Gb data, two weeks on 8 DGX2 (128 GPUs)".

Пока, наверное, больше хайп, чем польза. Пост Татьяны Шавриной https://www.facebook.com/photo.php?fbid=1317127508626525&set=a.148218012184153&type=3&theater и соответствующие увлекательные конкурсы https://github.com/sberbank-ai/ruGPT3_essays, https://github.com/sberbank-ai/ruGPT3_demos
источник