Телеграмм чат группы natural_language

а есть какой-нибудь пример на elastic? Я что-то смотрел - там веб-сервер надо поднимать, как-то не очень понятно, есть ли способ "попробовать" на небольших объёмах.

источник

17:31пожаловаться #4

Vadim Akhmetov in Natural Language Processing

Approximate Nearest Neighbors на эмбедингах?)

источник

17:31пожаловаться #5

Grigory Frantsuzov in Natural Language Processing

Разверни контейнер

источник

17:32пожаловаться #6

Vadim in Natural Language Processing

Спасибо, что накидали мыслей!
Завтра буду пробовать)

источник

17:32пожаловаться #7

Alexander Fedorenko in Natural Language Processing

по теме поиска, можно посмотреть в эту сторону https://www.sbert.net/examples/applications/semantic-search/README.html
у них два вида предобученных моделей для поиска симметричный (короткий запрос - короткий ответ) и не симметричный(короткий запрос- длинный ответ)
Поисковую систему можно организовать за 10-20 строк кода и все просто, мультиязычная, с перспективой файн тюннинга

источник

18:03пожаловаться #8

Vadim in Natural Language Processing

ДК

Дарья К in Natural Language Processing

Всем привет!

Ищем опытного NLP-инженера (Python)со специализацией по обработке естественных языков, в частности, тематическому моделированию, с опытом работы с библиотеками Bert, Transformers и др.
Задачи:
- topic modeling на корпусе текстов, улучшение входных данных, тюнинг алгоритма;
- выявление синтаксических структур в текстах, написание алгоритмов обработки по синтаксическим шаблонам;
- развитие алгоритма анализа тональности текстов.

Задачи интересные, занятость проектная, цена договорная.

По всем вопросам пишите в лс @dashkams

источник

18:09пожаловаться #10

Toemik Mnemonic in Natural Language Processing

Ребят, файнтюним модельку на весьма субъективной обучающей выборке. попытка организовать wizard of Oz провалилась... в связи с этим вопрос есть ли некий ресурс открытых данных, например с логами helpdesk, заказы еды/транспорта, юридические вопросы и т.д., горячих линий и тд

источник

19:10пожаловаться #11

Artem Sergeev in Natural Language Processing

так это ведь небось какую-то виртуалку поднять нужно, GPU туда пробрасывать? На мой неопытный взгляд это примерно одной категории сложности с "поднять вэб-сервер". Точнее, выглядят даже пострашнее.

источник

20:40пожаловаться #12

Grigory Frantsuzov in Natural Language Processing

нет, просто докер установить, самому elsticsearch не нужна видеокарта

источник

20:52пожаловаться #13

Grigory Frantsuzov in Natural Language Processing

то есть это как бы "окружение под ключ" без виртуализации, а поверх основного ядра операционной системы

источник

20:53пожаловаться #14

Grigory Frantsuzov in Natural Language Processing

там довольно понятно в документации написано

источник

20:53пожаловаться #15

Artem Sergeev in Natural Language Processing

хм
пожалуй и правда почитаю, спасибо

но так-то теоретически я всё кручу в Colab пока, там с этим не забалуешь

источник

21:10пожаловаться #16

Grigory Frantsuzov in Natural Language Processing

а, ну там- да

источник

21:11пожаловаться #17

2021 September 03

Bogdan Rublev in Natural Language Processing

Коллеги, добрый день.
Ищу специалиста для небольшого проекта:

Рерайт новостных текстов с помощью нейронки и автонаполнение телеграм канала контентом

Задача развернуть несколько готовых обученных моделей на моем сервере, для перевода, рерайта и суммаризации текста
Текст для рерайта будет поступать по RSS фиду со сторонних сайтов.

Модели для обработки текста
1. Для перевода подключить API DeepL
2. Для суммаризации - https://github.com/IlyaGusev/summarus
3. Для рерайта - https://habr.com/ru/post/564916/

Публикация контента в телеграм канал
Бот должен публиковать Обработанный текст и изображение из RSS если (оно есть) в телеграм канале. Бот подключён по Bot API

Постинг в телеграм должен происходить каждые 30 минут, если поступил новый материал в в очередь.

Админка для управления
Нужна админка для редактирования списков: RSS источников, Телеграм каналов, ботов. Админпанелб Желательно реализовать на Wordpress

1. Редактирование списка источников RSS

2. Редактирование списка каналов
Поля для ввода наименования Телеграм каналов

3.Поле для подключения бота по Токену API

Таких потоков-проектов «источники+Каналы+бот» может быть множество и они должны быть независимы друг от друга

Напишите мне.
Буду рад вопросам, отвечаю всем оперативно

Freelancehunt

Переход по внешней ссылке на github.com

источник

09:48пожаловаться #18

Alexander Fedorenko in Natural Language Processing

Посмотрел я эту библиотеку https://pypi.org/project/textdistance/ и разочаровался в ней.
Дело в том, что параллельно с ней я смотрел еще и https://pypi.org/project/strsimpy/ и у обоих библиотеках есть метод типа
"Cosine similarity" - https://en.wikipedia.org/wiki/Cosine_similarity
И вот занимаясь перебором имеющих методов, чтобы выбрать себе наиболее соответствующий, я обнаружил что textdistance не может дать мне как такие же хорошие результаты, как это делает strsimpy. Я проверял отбирая по минимальному значению, по максимальному, построил пример, выбрать близкую к тексту запроса из заданного списка из трех строк. Причем с очевидным явным ответом.
strsimpy сразу указала на правильный вариант, а textdistance по минимуму и максимум указала на оба неверных результат, так ни разу и не выбрав очевидный правильный ответ.
В качестве подтверждения могу в личку предоставить скриншот блокнота с этим демонстрационным примером. Не стал выкладывать на общее обозрение, так как данные в примере не мои.
Так что выбирая библиотеку у которой 6.3К звезд, все равно стоит убедиться, что нужный вам метод в этой библиотеке работает корректно и именно так, как вы и ожидаете

PyPI

textdistance

Compute distance between the two texts.

источник

10:29пожаловаться #19

Roman Samarev in Natural Language Processing

https://github.com/matthieugomez/StringDistances.jl

GitHub

GitHub - matthieugomez/StringDistances.jl: String Distances in Julia

String Distances in Julia. Contribute to matthieugomez/StringDistances.jl development by creating an account on GitHub.

источник

10:37пожаловаться #20