Телеграмм чат группы natural_language

Ну вот, а внутри интереса -- "всё подряд", вы же не разделяете статьи по уровню, чтобы читать сначала более простые. Да на них и уровни нигде не написаны... И многие статьи примерно одного уровня...
Просто сеть дорого (и долго) обучать последовательно, batch size для текста кажется порядка миллиона. Если бы вы читали сразу миллион кусков статей, пусть даже по какой-то теме -- вас бы в дурку упекли, это да.
Ну а темы -- отдельный вопрос. Обучают на всём, потому что качество на отдельной теме обычно от этого не падает, и получают более полезную универсальную многофункциональную сеть. С GPT отдельный вопрос, конечно, там тему не так легко настроить при генерации. Но эта проблема тоже решаемая.

источник

17:01пожаловаться #5

YG

YURII GARASHKO in Natural Language Processing

Как бы оперирует человек с помощью дефолт системы мозга, древнейшего контура предназначенного для
выстраивания социальных отношений человека с племенем.
То есть это первую очередь образная система изначально с элементами иерархии
С которой постепенно увязывается и текстовые знаки

Если уж выстраивать аналогию с детьми.

источник

21:36пожаловаться #6

НК

Николай Карпенко... in Natural Language Processing

А чтобы в gpt добавить 100 мб нового текста, это можно дообучать или заново весь массив переобучать?

источник

23:12пожаловаться #7

AS

Alex Surname in Natural Language Processing

можно дообучать

источник

23:17пожаловаться #8

2020 December 06

МП

Михаил Притугин... in Natural Language Processing

Кто то знает библиотеки для работы с контекстами слов?
Что-то вроде получить по слову контекст, но основываясь только на определенном тексте

источник

15:30пожаловаться #9

V

Viacheslav in Natural Language Processing

Человек ещё совершает логические операции над познаний информацией, что приводит к критическому мышлению. Нейронки ТРИЗ не могут, там другой подход нужен.

источник

15:35пожаловаться #10

НК

Николай Карпенко... in Natural Language Processing

Михаил Притугин

Кто то знает библиотеки для работы с контекстами слов?
Что-то вроде получить по слову контекст, но основываясь только на определенном тексте

Elmo модели, не?

источник

15:54пожаловаться #11

НК

Николай Карпенко... in Natural Language Processing

В Natasha по умолчанию slovnet_bert активирован или как?

источник

15:56пожаловаться #12

AK

Alexander Kukushkin in Natural Language Processing

Николай Карпенко

В Natasha по умолчанию slovnet_bert активирован или как?

По умолчанию дистилированная модель

источник

16:19пожаловаться #13

НК

Николай Карпенко... in Natural Language Processing

а как включить bert?

источник

17:07пожаловаться #14

AK

Alexander Kukushkin in Natural Language Processing

Готовой инструкции нет. Вообще возможность использовать bert вариант именно в библиотеке natasha не предусматривался. Вы можете использовать модели напрямую через slovnet.

источник

17:34пожаловаться #15

V

Vic in Natural Language Processing

Viacheslav

Человек ещё совершает логические операции над познаний информацией, что приводит к критическому мышлению. Нейронки ТРИЗ не могут, там другой подход нужен.

могут, надо заточить

источник

18:05пожаловаться #16

V

Viacheslav in Natural Language Processing

Vic

могут, надо заточить

Ну это не тревиальная задача

источник

18:07пожаловаться #17

MK

Max Kuznetsov in Natural Language Processing

Sergei Markoff

Примерно то же, что я описывал тут https://habr.com/ru/company/sberbank/blog/524522/#comments
Ключевые отличие: 1) починены html-entities, 2) докинуты arXiv и Pubmed Central, 3) докинуты датасеты символьной логики кое-какие, 4) немного улучшена фильтрация, теперь она на основе оценки энтропии, в итоге выкинулся разный флуд и мусор.

Хабр

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Последнее десятилетие в области компьютерных технологий ознаменовалось началом новой «весны искусственного интеллекта». Впрочем, ситуацию в индустрии в наши дни...

Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.

источник

22:50пожаловаться #18

AW

Alex Wortega in Natural Language Processing

Max Kuznetsov

Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.

Было б прикольно сделать перекличку людей из Сбера. Я бы подкинул 2гб vc.ru

источник

23:35пожаловаться #19

2020 December 07

SM

Sergei Markoff in Natural Language Processing

Max Kuznetsov

Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.

Ещё можно докинуть.

источник

01:06пожаловаться #20