Size: a a a

Natural Language Processing

2020 August 24

М

Марк in Natural Language Processing
Vic
тут среди списка есть и тот что я нашел на другой странице.
В общем вопрос какой из инстансов наиболее близок по мощности к видеокарте 1080 с 12гб, кажется это инстанс g4dn.xlarge где 16гб видеопамяти, но не вижу какая видекарта, сравнил на сайте, вроде похожа  https://versus.com/ru/nvidia-geforce-gtx-1080-ti-vs-nvidia-tesla-t4
В SageMaker Есть возможность добавить свою рукописную модель в качестве Docker контейнера и потом использовать её практически во всех амазоновских сервисах из коробки. Плюс там автоматом мониторинг, версионирование и много плюшек. Но скорее всего это будет значительно дороже простого EC2 инстанса.

https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-inference-code.html
источник

AK

Alexander Kukushkin in Natural Language Processing
Готовлю большой пост на Хабр про проект Natasha, pdf в приложении. Почитайте, пожалуйста, напишите если заметите какие-то ошибки. Текст во многом дублирует посты на natasha.github.io, но есть новые разделы: про Ipymarkup, про интерфейс библиотеки Natasha, плюс учтены коменты из этого чата, про кривую разметку Nerus https://t.me/natural_language_processing/19552, например
источник

AK

Alexander Kukushkin in Natural Language Processing
источник

SP

Sebastian Pereira in Natural Language Processing
Alexander Kukushkin
Готовлю большой пост на Хабр про проект Natasha, pdf в приложении. Почитайте, пожалуйста, напишите если заметите какие-то ошибки. Текст во многом дублирует посты на natasha.github.io, но есть новые разделы: про Ipymarkup, про интерфейс библиотеки Natasha, плюс учтены коменты из этого чата, про кривую разметку Nerus https://t.me/natural_language_processing/19552, например
Ок, читаю.
источник

A

Arthur in Natural Language Processing
Dare
Добрый день!
Каждое слово кодирую с помощью Fast Text: на выходе вектор размера (300,) для каждого слова
вопросы
1) как кодировать цифры в номере телефона (любые числа хорошо бы закодировать)
2)как кодировать незнакомые слова? игнорировать?
1) Зависит от того, как номер телефона разбивается на токены. Для чего вам нужно векторное представление телефонных номеров?
2) FastText умеет строить векторы незнакомых слов, усредняя векторы подслов.
источник

D

Dare in Natural Language Processing
Arthur
1) Зависит от того, как номер телефона разбивается на токены. Для чего вам нужно векторное представление телефонных номеров?
2) FastText умеет строить векторы незнакомых слов, усредняя векторы подслов.
1) я каждому слову  в итоге хочу навесить свой POS, каждому числу номера - B-Number или I-Number в зависимости от позиции в самом номере
2) да, точно, забыла про это, спасибо
источник

JG

Jack Golokhov in Natural Language Processing
Здравствуйте. Есть задача выделить адреса из текста. Причём заранее неизвестно сколько в тексте адресов. В общем случае больше одного. Адреса могут быть заданы с разной степенью детализации. Очевидным (допускаю что не лучшим) решением является посчитать кол-во объектов одного порядка: будь то страны, улицы и т.д. Есть ли в yargy (Наташе) уже что-то похожее на группировку по уровню? Например 0: [страна], 1: [край, область, республика] , 2: [район] и т.д.
источник

KL

Kir L in Natural Language Processing
группировки по-моему нет, надо самому сделать, но так даже интереснее!
источник

A

Arthur in Natural Language Processing
Dare
1) я каждому слову  в итоге хочу навесить свой POS, каждому числу номера - B-Number или I-Number в зависимости от позиции в самом номере
2) да, точно, забыла про это, спасибо
Как вы разбиваете на "слова" эти четыре номера: 8(800)555 35 35, 8-800-555-35-35, 88005553535 и 8 800 555 35 35?
источник

JG

Jack Golokhov in Natural Language Processing
Kir L
группировки по-моему нет, надо самому сделать, но так даже интереснее!
Да, сделать несложно. Опасаюсь чего-нибудь забыть. Но понял что придётся рискнуть. Спасибо.
источник

D

Dare in Natural Language Processing
Arthur
Как вы разбиваете на "слова" эти четыре номера: 8(800)555 35 35, 8-800-555-35-35, 88005553535 и 8 800 555 35 35?
у меня в базе возмоден только такой вариант 88005553535
каждая цифра в итоге размечается B-Number/ I-Number, если бы в базе были бы все остальные варианты, перечисленные вами, я думаю, что все знаки просто игнорировались бы, чистились на каком-то из этапов, потому что на вход и выход нужна последовательность чисел без каких-либо знаков междлу ними)
источник

A

Arthur in Natural Language Processing
Тогда откуда и в каком виде они приходят в fasttext?
источник

V

Vic in Natural Language Processing
Марк
В SageMaker Есть возможность добавить свою рукописную модель в качестве Docker контейнера и потом использовать её практически во всех амазоновских сервисах из коробки. Плюс там автоматом мониторинг, версионирование и много плюшек. Но скорее всего это будет значительно дороже простого EC2 инстанса.

https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-inference-code.html
Спасибо
источник

IP

Igor Panteleev in Natural Language Processing
Всем привет, а никто не встречал датасета по бизнес запросам или бизнес лексике? Например "Выручка по категориям", "Какая рентабельность по моим клиентам" и т.д., может на английском есть что-то такое

или может есть идеи как бы нагенерить такой датасет, не могу сообразить в какую сторону копать
источник

М

Марк in Natural Language Processing
Igor Panteleev
Всем привет, а никто не встречал датасета по бизнес запросам или бизнес лексике? Например "Выручка по категориям", "Какая рентабельность по моим клиентам" и т.д., может на английском есть что-то такое

или может есть идеи как бы нагенерить такой датасет, не могу сообразить в какую сторону копать
Именно вопросы, или любые тексты?
источник

KL

Kir L in Natural Language Processing
Igor Panteleev
Всем привет, а никто не встречал датасета по бизнес запросам или бизнес лексике? Например "Выручка по категориям", "Какая рентабельность по моим клиентам" и т.д., может на английском есть что-то такое

или может есть идеи как бы нагенерить такой датасет, не могу сообразить в какую сторону копать
если не секрет, NL2SQL делаете или что-то попроще?
на вопрос не отвечу, не встречал ( генерировали такое сами в режиме тестирования чат-бота, поделиться не могу, да и там про нефть все было.
источник

IP

Igor Panteleev in Natural Language Processing
Марк
Именно вопросы, или любые тексты?
да скорее короткие запросы (1 предложение), нежели тексты
источник

IP

Igor Panteleev in Natural Language Processing
Kir L
если не секрет, NL2SQL делаете или что-то попроще?
на вопрос не отвечу, не встречал ( генерировали такое сами в режиме тестирования чат-бота, поделиться не могу, да и там про нефть все было.
да именно, пришла в голову такая мысль, решил попробовать поиграться

а сколько человек генерили тестовые данные и сколько по времени примерно это вышло?)
источник

KL

Kir L in Natural Language Processing
да сложно сказать, скорее ~3 человека и часы, может пара десятков часов запросов. Это было растянуто во времени, чат бот получал новые фичи, запускалось тестирование, и так много подходов в течение полугода может. Ну, короче, у нас цели не было собрать лог, он собрался сам.
источник

IP

Igor Panteleev in Natural Language Processing
Понял, спасибо

А как итог, удалось реализовать рабочий вариант такого "переводчика"?
источник