Size: a a a

Natural Language Processing

2020 August 24

$

$○| in Natural Language Processing
Я тут на досуге пилю just4fun голосового ассистента, и столкнулся с тем, что если делать диалоговую систему на основе всяких dialogpt то программа получается весьма ресурсоемкой, и даже сотня юзеров уже здорово нагружают сервер. А на основе правил, и нечеткого поиска соответствия фраз программа выходит довольно глупой. Какие модели лучше использовать, чтобы вытягивать нормальное количество юзеров на нетоповом железе? Может что-то посоветуете?
источник

C

Constantin in Natural Language Processing
Можно ли как-нибудь редактировать модели udpipe ? Если да, то как? Конкретно: нужно поправить леммы и граммемы для некоторых слов.
источник

N

Natalia in Natural Language Processing
эммм, собственно модели типа никак (поправьте, если это вообще реально)? ну или же постобработку запиливать отдельным модулем
источник

N

Natalia in Natural Language Processing
ну то есть либо же искать, что там в train лежит для этих лемм-граммем, если уже там не то, то менять и переобучать свою модель
источник

OM

Orzhan Mikhail in Natural Language Processing
$○|
Я тут на досуге пилю just4fun голосового ассистента, и столкнулся с тем, что если делать диалоговую систему на основе всяких dialogpt то программа получается весьма ресурсоемкой, и даже сотня юзеров уже здорово нагружают сервер. А на основе правил, и нечеткого поиска соответствия фраз программа выходит довольно глупой. Какие модели лучше использовать, чтобы вытягивать нормальное количество юзеров на нетоповом железе? Может что-то посоветуете?
Вот тут ускорили bert в 30 раз с небольшой потерей точности: https://blog.roblox.com/2020/05/scaled-bert-serve-1-billion-daily-requests-cpus/ - может, какие-то из приёмов окажутся полезны
источник

ck

cnstntn kndrtv in Natural Language Processing
👋 посоветуйте фреймворк для goal-oriented текстового чат-бота?
Видится примерно так - form-filling, state tracking на правилах (так, мне кажется, проще контролировать), в одном из состояний - переключение на модель, например QA над Wiki.
Вызов API из стейтов (патамушта goal-oriented).
Языки - русский и возможность добавить позже другие (славянские, романские, индийские, китайские).
Хорошо бы визуальный интерфейс для непрограммистов (типа dialogue flow).
Ну и конечно open source😏
источник

ck

cnstntn kndrtv in Natural Language Processing
$○|
Я тут на досуге пилю just4fun голосового ассистента, и столкнулся с тем, что если делать диалоговую систему на основе всяких dialogpt то программа получается весьма ресурсоемкой, и даже сотня юзеров уже здорово нагружают сервер. А на основе правил, и нечеткого поиска соответствия фраз программа выходит довольно глупой. Какие модели лучше использовать, чтобы вытягивать нормальное количество юзеров на нетоповом железе? Может что-то посоветуете?
Bert можно завернуть в OpenVino. У них есть пример. Я пытался - результат точно не помню, вроде порядка х10 раз. Но не исключено, что я что-то неправильно сделал.
источник

$

$○| in Natural Language Processing
Спасибо
источник

DD

David Dale in Natural Language Processing
cnstntn kndrtv
👋 посоветуйте фреймворк для goal-oriented текстового чат-бота?
Видится примерно так - form-filling, state tracking на правилах (так, мне кажется, проще контролировать), в одном из состояний - переключение на модель, например QA над Wiki.
Вызов API из стейтов (патамушта goal-oriented).
Языки - русский и возможность добавить позже другие (славянские, романские, индийские, китайские).
Хорошо бы визуальный интерфейс для непрограммистов (типа dialogue flow).
Ну и конечно open source😏
Хороших опенсорс визуальных интерфейсов я не видел, а из приватных рекомендую aimylogic - знаю много весьма годных навыков Алисы, на нём написанных.
источник

N

Nikita in Natural Language Processing
Привет!
Подскажите, пожалуйста: хочется сравнивать записанные в свободной форме должности на похожесть. Например, хочется, чтобы "помощник режиссера монтажа" и "видеомонтажер" были очень похожи.
Можно, видимо, взять готовые эмбединги для слов, и смотреть на расстояние, но что делать, если должность состоит из нескольких слов? Просто усреднить? Или может всё-таки есть ещё какие-нибудь эффективные методы?
источник

AE

Arty Erokhin in Natural Language Processing
Можно взвесить эмбеддинги по idf к примеру
источник

V

Vic in Natural Language Processing
Ребята, кто разбирается в инстансах Амазон?
Пытаемся понять какой из них соответствует простому серверу на селектел с гпу(его хватает, проверено): Nvidia 1080 12гб, 16гб RAM, ос Убунту 18.04.
А описания там супер непонятные https://aws.amazon.com/ru/ec2/instance-types/#Accelerated_Computing

кажется похож g4dn.xlarge но не уверен, что скажете
источник

М

Марк in Natural Language Processing
Vic
Ребята, кто разбирается в инстансах Амазон?
Пытаемся понять какой из них соответствует простому серверу на селектел с гпу(его хватает, проверено): Nvidia 1080 12гб, 16гб RAM, ос Убунту 18.04.
А описания там супер непонятные https://aws.amazon.com/ru/ec2/instance-types/#Accelerated_Computing

кажется похож g4dn.xlarge но не уверен, что скажете
Вы именно EC2 хотите?
Что на нем крутиться будет? Обучение или инференс?
источник

V

Vic in Natural Language Processing
Марк
Вы именно EC2 хотите?
Что на нем крутиться будет? Обучение или инференс?
инференс сейчас.
не понял первый вопрос
источник

М

Марк in Natural Language Processing
У амазона для машинного обучения есть сервис SageMaker
источник

М

Марк in Natural Language Processing
источник

V

Vic in Natural Language Processing
Марк
У амазона для машинного обучения есть сервис SageMaker
мне нужно свой код поставить и свою модельку уже готовую в убунте как апи
источник

V

Vic in Natural Language Processing
тут среди списка есть и тот что я нашел на другой странице.
В общем вопрос какой из инстансов наиболее близок по мощности к видеокарте 1080 с 12гб, кажется это инстанс g4dn.xlarge где 16гб видеопамяти, но не вижу какая видекарта, сравнил на сайте, вроде похожа  https://versus.com/ru/nvidia-geforce-gtx-1080-ti-vs-nvidia-tesla-t4
источник

D

Dare in Natural Language Processing
Добрый день!
Каждое слово кодирую с помощью Fast Text: на выходе вектор размера (300,) для каждого слова
вопросы
1) как кодировать цифры в номере телефона (любые числа хорошо бы закодировать)
2)как кодировать незнакомые слова? игнорировать?
источник

М

Марк in Natural Language Processing
Vic
тут среди списка есть и тот что я нашел на другой странице.
В общем вопрос какой из инстансов наиболее близок по мощности к видеокарте 1080 с 12гб, кажется это инстанс g4dn.xlarge где 16гб видеопамяти, но не вижу какая видекарта, сравнил на сайте, вроде похожа  https://versus.com/ru/nvidia-geforce-gtx-1080-ti-vs-nvidia-tesla-t4
Да, этот инстанс вам должен подойти.
источник