Size: a a a

Natural Language Processing

2020 December 05

ДС

Дмитрий Симаков... in Natural Language Processing
$○|
ясно же было что программы писать не начнет
Так простые пишет.
источник

$

$○| in Natural Language Processing
но теперь обычные тексты продолжает кусками кода
источник

$

$○| in Natural Language Processing
Дмитрий Симаков
Так простые пишет.
это бесполезно пока
источник

$

$○| in Natural Language Processing
в отличии от генерации текстов
источник

YB

Yuri Baburov in Natural Language Processing
$○|
в смысле все подряд
а как же внимание, интересы
Ну вот, а внутри интереса -- "всё подряд", вы же не разделяете статьи по уровню, чтобы читать сначала более простые. Да на них и уровни нигде не написаны... И многие статьи примерно одного уровня...
Просто сеть дорого (и долго) обучать последовательно, batch size для текста кажется порядка миллиона. Если бы вы читали сразу миллион кусков статей, пусть даже по какой-то теме -- вас бы в дурку упекли, это да.
Ну а темы -- отдельный вопрос. Обучают на всём, потому что качество на отдельной теме обычно от этого не падает, и получают более полезную универсальную многофункциональную сеть. С GPT отдельный вопрос, конечно, там тему не так легко настроить при генерации. Но эта проблема тоже решаемая.
источник

YG

YURII GARASHKO in Natural Language Processing
Как бы оперирует человек с помощью дефолт системы мозга, древнейшего контура предназначенного для
выстраивания социальных отношений человека с племенем.
То есть это первую очередь образная система изначально с элементами иерархии
С которой постепенно увязывается и текстовые знаки

Если уж выстраивать аналогию с детьми.
источник

НК

Николай Карпенко... in Natural Language Processing
А чтобы в  gpt добавить 100 мб нового текста, это можно дообучать или заново весь массив переобучать?
источник

AS

Alex Surname in Natural Language Processing
можно дообучать
источник
2020 December 06

МП

Михаил Притугин... in Natural Language Processing
Кто то знает библиотеки для работы с контекстами слов?
Что-то вроде получить по слову контекст, но основываясь только на определенном тексте
источник

V

Viacheslav in Natural Language Processing
Человек ещё совершает логические операции над познаний информацией, что приводит к критическому мышлению. Нейронки ТРИЗ не могут, там другой подход нужен.
источник

НК

Николай Карпенко... in Natural Language Processing
Михаил Притугин
Кто то знает библиотеки для работы с контекстами слов?
Что-то вроде получить по слову контекст, но основываясь только на определенном тексте
Elmo модели, не?
источник

НК

Николай Карпенко... in Natural Language Processing
В Natasha по умолчанию slovnet_bert активирован или как?
источник

AK

Alexander Kukushkin in Natural Language Processing
Николай Карпенко
В Natasha по умолчанию slovnet_bert активирован или как?
По умолчанию дистилированная модель
источник

НК

Николай Карпенко... in Natural Language Processing
а как включить bert?
источник

AK

Alexander Kukushkin in Natural Language Processing
Готовой инструкции нет. Вообще возможность использовать bert вариант именно в библиотеке natasha не предусматривался. Вы можете использовать модели напрямую через slovnet.
источник

V

Vic in Natural Language Processing
Viacheslav
Человек ещё совершает логические операции над познаний информацией, что приводит к критическому мышлению. Нейронки ТРИЗ не могут, там другой подход нужен.
могут, надо заточить
источник

V

Viacheslav in Natural Language Processing
Vic
могут, надо заточить
Ну это не тревиальная задача
источник

MK

Max Kuznetsov in Natural Language Processing
Sergei Markoff
Примерно то же, что я описывал тут https://habr.com/ru/company/sberbank/blog/524522/#comments
Ключевые отличие: 1) починены html-entities, 2) докинуты arXiv и Pubmed Central, 3) докинуты датасеты символьной логики кое-какие, 4) немного улучшена фильтрация, теперь она на основе оценки энтропии, в итоге выкинулся разный флуд и мусор.
Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.
источник

AW

Alex Wortega in Natural Language Processing
Max Kuznetsov
Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.
Было б прикольно сделать перекличку людей из Сбера. Я бы подкинул 2гб vc.ru
источник
2020 December 07

SM

Sergei Markoff in Natural Language Processing
Max Kuznetsov
Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.
Ещё можно докинуть.
источник