Телеграмм чат группы natural_language_processing страница 1037

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2416 membersпожаловаться на группу

2021 January 29

AL

Alexey Lemeshevski in Natural Language Processing

https://www.gdeltproject.org/ 50k новостных сайтов на 100+ языках, обновление каждые 15 мин, выделение сущностей и событий, аналитика. Кроме текстовых новостей анализируются и видео-новости. Все это бесплатно.

Оо, круто) ...но всегда же есть задачи, не покрываемые типовым решением)

источник

23:48пожаловаться #1

2021 January 30

SM

Sergei Markoff in Natural Language Processing

https://www.youtube.com/watch?v=GAWADIsBb0Y — запись семинара

Семинар «Как съесть слона: обучение гигантских трансформерных моделей»

Нейросетевые трансформерные модели: GPT-3, ruGPT-3, T5/mT5, Switch Transformer, их обучение и использование. Особенности применения фреймворка Deep Speed. Тесты GLUE/SuperGLUE/Russian SuperGLUE. Создание систем машинного обучения/искусственного интеллекта на основе трансформерных моделей. Лекции Сергея Маркова, Татьяны Шавриной, Олега Шляжко, Александра Кукушкина.

источник

03:32пожаловаться #2

ZZ

Zigfrid Zvezdin in Natural Language Processing

В соседнем чатике выкладывали такой пример с использованием rugpt3: https://colab.research.google.com/drive/1tKNLiKhKEYnsQ8hvwTZxbCeoQxvRVI7y?usp=sharing

Google Colaboratory

А лучше сделать бинарно - {мой токен}/{не мой токен}, или лучше оставить все токены как есть (то есть будет около 1К разных токенов, мой встречается чаще всего)?

источник

07:59пожаловаться #3

T

TT in Natural Language Processing

Какие есть подходы/решения по выделению статистистически значимых слов, их сочетаний из списка фраз?

Положим, есть несколько десятков тысяч запросов пользователей в вольной форме. Нужно выделить части, наиболее часто встречающиеся, чтобы понять, что вообще в этом наборе люди чаще всего хотят)

источник

18:18пожаловаться #4

DI

Denis Izmaylov in Natural Language Processing

Dan • Captain

По блату поставлю на завтра :)

Обнял :) сейчас сделаем

источник

18:20пожаловаться #5

DD

David Dale in Natural Language Processing

Какие есть подходы/решения по выделению статистистически значимых слов, их сочетаний из списка фраз?

Положим, есть несколько десятков тысяч запросов пользователей в вольной форме. Нужно выделить части, наиболее часто встречающиеся, чтобы понять, что вообще в этом наборе люди чаще всего хотят)

Кажется, понятие "статистической значимости" тут не применимо. Статзначимостью называют ситуацию, когда есть нулевая гипотеза и её удается уверенно опровергнуть :)

А так вообще есть варианты в порядке усложнения:
- просто подсчитать частоту всех n-грамм и вывести топ самых частотных для каждого n;
- как-то разбить фразы на кусочки, кластеризовать, вывести центральные (самые близкие к соседям по кластеру) кусочки самых крупных кластеров;
- построить граф связанных друг с другом кусочков, посчитать на этом графе какую-то центральность, и вывести самые центральные кусочки.

В качестве кусочков можно использовать просто словные n-граммы, а можно - составляющие, полученные из синтаксического парсинга.

Ну или как вариант можно вообще не париться с алгоритмами, а просто случайно выбрать штук 50 запросов и прочитать все :)

источник

18:32пожаловаться #6

BS

Bogdan Salyp in Natural Language Processing

Смотрите что выложили https://huggingface.co/sberbank-ai/rugpt3xl

sberbank-ai/rugpt3xl · Hugging Face

We’re on a journey to solve and democratize artificial intelligence through natural language.

источник

19:12пожаловаться #7

BS

Bogdan Salyp in Natural Language Processing

Нейросеть «Сбера» ruGPT-3 стала вдвое «умнее» | cnews

«Сбер» продолжает развивать русскоязычную нейросеть ruGPT-3, которая способна генерировать очень сложные осмысленные тексты всего лишь по одному запросу на «человеческом» языке. С момента презентации нейросети на AI Journey 2020 количество её параметров выросло почти вдвое — с 760 млн до 1,3 млрд. Это огромный шаг вперёд в обработке естественного языка методами искусственного интеллекта в России.

GPT-3 — крупнейшая языковая модель в мире, разработанная компанией OpenAI для решения любых задач на английском языке. На русском языке, более сложном с точки зрения структуры, до появления ruGPT-3 аналогичных качественных моделей не существовало.

Отечественная GPT-3 постоянно обучается на суперкомпьютере Сбера «Кристофари» на гигантском массиве данных, так что её возможности растут с каждым днём

RuGPT-3 может не только создавать тексты любого профиля (новости, романы, стихи, пародии, техническую документацию и так далее), но также исправлять грамматические ошибки, вести диалоги и писать программный код. По сути, это прообраз общего, или сильного, искусственного интеллекта (Artificial General Intelligence, AGI), способного решать разноплановые задачи в различных сферах деятельности.

источник

19:13пожаловаться #8

AS

Alex Surname in Natural Language Processing

Нейросеть «Сбера» ruGPT-3 стала вдвое «умнее» | cnews

«Сбер» продолжает развивать русскоязычную нейросеть ruGPT-3, которая способна генерировать очень сложные осмысленные тексты всего лишь по одному запросу на «человеческом» языке. С момента презентации нейросети на AI Journey 2020 количество её параметров выросло почти вдвое — с 760 млн до 1,3 млрд. Это огромный шаг вперёд в обработке естественного языка методами искусственного интеллекта в России.

GPT-3 — крупнейшая языковая модель в мире, разработанная компанией OpenAI для решения любых задач на английском языке. На русском языке, более сложном с точки зрения структуры, до появления ruGPT-3 аналогичных качественных моделей не существовало.

Отечественная GPT-3 постоянно обучается на суперкомпьютере Сбера «Кристофари» на гигантском массиве данных, так что её возможности растут с каждым днём

RuGPT-3 может не только создавать тексты любого профиля (новости, романы, стихи, пародии, техническую документацию и так далее), но также исправлять грамматические ошибки, вести диалоги и писать программный код. По сути, это прообраз общего, или сильного, искусственного интеллекта (Artificial General Intelligence, AGI), способного решать разноплановые задачи в различных сферах деятельности.

максимум генератор спама

источник

19:14пожаловаться #9

BS

Bogdan Salyp in Natural Language Processing

По моему опыту с небольшим дообучением и комбинацией с другими нейронками работает хорошо

источник

19:18пожаловаться #10

BS

Bogdan Salyp in Natural Language Processing

Единственное что потеря контекста очень существенная, простые костыли не очень помогают (пробовал ключевые слова при генерации)

источник

19:19пожаловаться #11

AS

Alex Surname in Natural Language Processing

комбинации с другими нейронками это как?

источник

19:19пожаловаться #12

BS

Bogdan Salyp in Natural Language Processing

Для валидации генераций например

источник

19:20пожаловаться #13

BS

Bogdan Salyp in Natural Language Processing

Кто-то дообучал gpt с кастомными функциями ошибки? Или какими-то другими способами боролись с потерей контекста?

источник

19:20пожаловаться #14

ni

n i in Natural Language Processing

Кто-то дообучал gpt с кастомными функциями ошибки? Или какими-то другими способами боролись с потерей контекста?

https://github.com/huggingface/transfer-learning-conv-ai
Обучал вот так, правда small модель, получилось очень плохо, но на вопросно-ответной задаче с файнтюном работает отлично.

huggingface/transfer-learning-conv-ai

🦄 State-of-the-Art Conversational AI with Transfer Learning - huggingface/transfer-learning-conv-ai

источник

19:23пожаловаться #15

BS

Bogdan Salyp in Natural Language Processing

n i

https://github.com/huggingface/transfer-learning-conv-ai
Обучал вот так, правда small модель, получилось очень плохо, но на вопросно-ответной задаче с файнтюном работает отлично.

huggingface/transfer-learning-conv-ai

🦄 State-of-the-Art Conversational AI with Transfer Learning - huggingface/transfer-learning-conv-ai

Спасибо! Смотрю сейчас код
А в двух словах, что помогло сохранить контекст?

источник

19:27пожаловаться #16

BS

Bogdan Salyp in Natural Language Processing

loss = (lm_loss * args.lm_coef + mc_loss * args.mc_coef) / args.gradient_accumulation_steps

эта кастомная ошибка? или ещё что-то

источник

19:32пожаловаться #17

T

TT in Natural Language Processing

Кажется, понятие "статистической значимости" тут не применимо. Статзначимостью называют ситуацию, когда есть нулевая гипотеза и её удается уверенно опровергнуть :)

А так вообще есть варианты в порядке усложнения:
- просто подсчитать частоту всех n-грамм и вывести топ самых частотных для каждого n;
- как-то разбить фразы на кусочки, кластеризовать, вывести центральные (самые близкие к соседям по кластеру) кусочки самых крупных кластеров;
- построить граф связанных друг с другом кусочков, посчитать на этом графе какую-то центральность, и вывести самые центральные кусочки.

В качестве кусочков можно использовать просто словные n-граммы, а можно - составляющие, полученные из синтаксического парсинга.

Ну или как вариант можно вообще не париться с алгоритмами, а просто случайно выбрать штук 50 запросов и прочитать все :)

Спасибо большое за развернутый ответ! 👍
Что-нибудь из этого явно должно подойти.

источник

19:47пожаловаться #18

AM

Alex Mak in Natural Language Processing

Всем привет!
А можете подсказать группы в телеграме подобные этой (такие же активные и полезные), но по теме компьютерного зрения?

источник

22:03пожаловаться #19

AE

Anton Eryomin in Natural Language Processing

Коллеги, всем добрый вечер! А что сейчас чаще всего спрашивают на собесах по нлп? Так сказать какой джентельменакий минимум?

источник

22:08пожаловаться #20