Size: a a a

Natural Language Processing

2021 August 12

IS

Ivan Stankov in Natural Language Processing
Вы имеете ввиду запуск нескольких кластеров в облаке для перевода? Это, конечно, возможно, но мне задействовать свои 16 ядер хватило бы)

Конечно, если какой-то компонент модели не позволяет распаралеливать вот так вычисления, то прийдется делать что-то подобное с контейнерами
источник

AF

Alexander Fedorenko in Natural Language Processing
Никто не знает, хватило ли бы ваших 16 ядер или нет. Только факты смогут ответить, а не предположения)
источник

IS

Ivan Stankov in Natural Language Processing
Да, хватило бы) создавать кластер в облаке для такой единоразовой (кстати да, я не планирую каждый день по 320к текстов переводить) акции —немного слишком. Запустить перевод в 16 потоков локально было бы самым удобным вариантом
источник

AF

Alexander Fedorenko in Natural Language Processing
Вы уверены, что используемые вами программы, уместятся в один поток и сохранят ту же скорость?
источник

IS

Ivan Stankov in Natural Language Processing
Скорость будет меньше, используют, пока, всего один поток) если по факту использование 16 ядер даст восьмикратный прирост к скорости вычислений, то я не расстроюсь) (это очень пессимистичное ожидание)
источник

M

Max in Natural Language Processing
Добрый день!
Не подскажите, есть ли библиотеки для перевода числа в орфографическом виде (улица ленина три, квартира пять) в числовой (улица ленина 3, квартира 5)?
источник

OS

Oleg Serikov in Natural Language Processing
подозреваю пулленти
источник

DE

Dani El-Ayyass in Natural Language Processing
Друзья, всем привет!)

Я сегодня буду выступать с докладом в Sberloga, поэтому всех заинтересовавшихся приглашаю послушать 🙂
источник

DE

Dani El-Ayyass in Natural Language Processing
🚀 @SBERLOGA
👨‍🔬 Дани Эль-Айясс:  «Web-сервис для генерации текстовых эмбеддингов»
⌚️ Четверг 12 августа, 19.00 по Москве

Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.

В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.

Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.

У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.

Ссылка на репозиторий с сервисом: https://github.com/dayyass/muse-as-service

Ссылка на зум будет доступна через  тг чат https://t.me/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA  https://www.youtube.com/c/sberloga
источник

OR

Oleg Ruban in Natural Language Processing
всем привет)

В Наташе если закинуть "Cortex-A55" и подобные слова через дефис с буквами и цифрами, то при сегментации будет разбивать на 2 токена:  Cortex-A и 55. Подскажите, пожалуйста, как можно сделать так, чтобы это считалось одним словом?
источник

AF

Alexander Fedorenko in Natural Language Processing
для product matching MUSE, случаем,  не использовали?
источник

DE

Dani El-Ayyass in Natural Language Processing
Честно говоря, не доводилось, но если попробуете - дайти знать 🙂
источник

РА

Руслан Абдрахманов... in Natural Language Processing
Добрый день. Скажите, пожалуйста, есть библиотека для сравнения похожести фраз? С учетом смысла
источник

IS

I Sh in Natural Language Processing
источник

РА

Руслан Абдрахманов... in Natural Language Processing
Спасибо!
источник

ФЭ

Фукс Эдуард... in Natural Language Processing
Добрый день. Хочу сделать собеседника на rugpt3. Можно же обойтись без OpenAI (сбер же выложил свои модельки)? Где мне можно взять базы текстов, чтобы обучить модельку?
источник

AW

Alex Wortega in Natural Language Processing
В целом есть ruDialogGpt
источник

АШ

Арсений Шахматов... in Natural Language Processing
в simpletransformers есть готовое решение, можно просто данные в нужном виде подать и на любой из rugpt натренировать
источник

GF

Grigory Frantsuzov in Natural Language Processing
А датасеты?
источник

GF

Grigory Frantsuzov in Natural Language Processing
Есть deeppavlov
источник