Size: a a a

Natural Language Processing

2021 September 02

GF

Grigory Frantsuzov in Natural Language Processing
кстати очень хорошо работает
источник

GF

Grigory Frantsuzov in Natural Language Processing
но там часть с настройкой и установкой
источник

AS

Alex Surname in Natural Language Processing
sphinx
источник

AS

Artem Sergeev in Natural Language Processing
а есть какой-нибудь пример на elastic? Я что-то смотрел - там веб-сервер надо поднимать, как-то не очень понятно, есть ли способ "попробовать" на небольших объёмах.
источник

VA

Vadim Akhmetov in Natural Language Processing
Approximate Nearest Neighbors на эмбедингах?)
источник

GF

Grigory Frantsuzov in Natural Language Processing
Разверни контейнер
источник

V

Vadim in Natural Language Processing
Спасибо, что накидали мыслей!
Завтра буду пробовать)
источник

AF

Alexander Fedorenko in Natural Language Processing
по теме поиска, можно посмотреть в эту сторону https://www.sbert.net/examples/applications/semantic-search/README.html
у них два вида предобученных моделей для поиска симметричный (короткий запрос - короткий ответ) и не симметричный(короткий запрос- длинный ответ)
Поисковую систему можно организовать за 10-20 строк кода и все просто, мультиязычная,  с перспективой   файн тюннинга
источник

V

Vadim in Natural Language Processing
источник

ДК

Дарья К in Natural Language Processing
Всем привет!

Ищем опытного NLP-инженера (Python)со специализацией по обработке естественных языков, в частности, тематическому моделированию, с опытом работы с библиотеками Bert, Transformers и др.
Задачи:
- topic modeling на корпусе текстов, улучшение входных данных, тюнинг алгоритма;
- выявление синтаксических структур в текстах, написание алгоритмов обработки по синтаксическим шаблонам;
- развитие алгоритма анализа тональности текстов.

Задачи интересные, занятость проектная, цена договорная.

По всем вопросам пишите в лс @dashkams
источник

TM

Toemik Mnemonic in Natural Language Processing
Ребят, файнтюним  модельку на весьма субъективной обучающей выборке. попытка организовать wizard of Oz провалилась... в связи с этим вопрос есть ли некий ресурс открытых данных, например с логами  helpdesk, заказы еды/транспорта, юридические вопросы и т.д., горячих линий и тд
источник

AS

Artem Sergeev in Natural Language Processing
так это ведь небось какую-то виртуалку поднять нужно, GPU туда пробрасывать? На мой неопытный взгляд это примерно одной категории сложности с "поднять вэб-сервер". Точнее, выглядят даже пострашнее.
источник

GF

Grigory Frantsuzov in Natural Language Processing
нет, просто докер установить, самому elsticsearch не нужна видеокарта
источник

GF

Grigory Frantsuzov in Natural Language Processing
то есть это как бы "окружение под ключ" без виртуализации, а поверх основного ядра операционной системы
источник

GF

Grigory Frantsuzov in Natural Language Processing
там довольно понятно в документации написано
источник

AS

Artem Sergeev in Natural Language Processing
хм
пожалуй и правда почитаю, спасибо

но так-то теоретически я всё кручу в Colab пока, там с этим не забалуешь
источник

GF

Grigory Frantsuzov in Natural Language Processing
а, ну там- да
источник
2021 September 03

BR

Bogdan Rublev in Natural Language Processing
Коллеги, добрый день.
Ищу специалиста для небольшого проекта:

Рерайт новостных текстов с помощью нейронки и автонаполнение телеграм канала контентом 

Задача развернуть несколько готовых обученных моделей на моем сервере, для перевода, рерайта и суммаризации текста
Текст для рерайта будет поступать по RSS фиду со сторонних сайтов.

Модели для обработки текста 
1. Для перевода подключить API DeepL
2. Для суммаризации - https://github.com/IlyaGusev/summarus
3. Для рерайта - https://habr.com/ru/post/564916/

Публикация контента в телеграм канал
Бот должен публиковать  Обработанный текст и изображение из RSS если (оно есть) в телеграм канале. Бот подключён по Bot API

Постинг в телеграм должен происходить каждые 30 минут, если поступил новый материал в в очередь.

Админка для управления
Нужна админка для редактирования списков: RSS источников, Телеграм каналов, ботов. Админпанелб Желательно реализовать на Wordpress

1. Редактирование списка источников RSS

2. Редактирование списка каналов
Поля для ввода наименования Телеграм каналов 

3.Поле для подключения бота по Токену API

Таких потоков-проектов «источники+Каналы+бот» может быть множество и они должны быть независимы друг от друга

Напишите мне.
Буду рад вопросам, отвечаю всем оперативно
источник

AF

Alexander Fedorenko in Natural Language Processing
Посмотрел я эту  библиотеку https://pypi.org/project/textdistance/ и разочаровался в ней.
Дело в том, что параллельно с ней я смотрел еще и https://pypi.org/project/strsimpy/ и у обоих библиотеках есть метод типа
"Cosine similarity"  - https://en.wikipedia.org/wiki/Cosine_similarity
И вот занимаясь перебором имеющих методов, чтобы выбрать себе наиболее соответствующий, я обнаружил что textdistance не может дать мне как такие же хорошие результаты, как это делает strsimpy. Я проверял отбирая по минимальному значению, по максимальному, построил пример, выбрать близкую к тексту запроса из  заданного списка из трех строк. Причем с очевидным явным ответом.
strsimpy сразу указала на правильный вариант, а textdistance по минимуму и максимум указала на оба неверных результат, так ни разу и не выбрав очевидный правильный ответ.
В качестве подтверждения могу в личку предоставить скриншот блокнота с этим демонстрационным примером. Не стал выкладывать на общее обозрение, так как данные в примере не мои.
Так что выбирая библиотеку у которой 6.3К звезд, все равно стоит убедиться, что нужный вам метод в этой библиотеке работает корректно и именно так, как вы и ожидаете
источник

RS

Roman Samarev in Natural Language Processing
источник