Size: a a a

Natural Language Processing

2020 December 05

EB

Evgeniy Blinov in Natural Language Processing
Грубо говоря, элементы из букваря используются в более высокоуровневых текстах повсеместно, но в букваре нет ссылок на какие-то научные работы. Если есть такая асимметрия, значит научная работа выше по иерархии, чем букварь.
источник

RS

Roman Samarev in Natural Language Processing
Evgeniy Blinov
Грубо говоря, элементы из букваря используются в более высокоуровневых текстах повсеместно, но в букваре нет ссылок на какие-то научные работы. Если есть такая асимметрия, значит научная работа выше по иерархии, чем букварь.
Букварь - это на для понимания, а для осваивания алфавита. Попробуйте открыть книгу на языке с незнакомым алфавитом. Например, хинди. До тех пор, пока не мозг не начнёт формировать слоги, имеющие звучание, ничего с чтением не получится. Даже запомнить новые буквы будет сложно. После некоторого времени, сможете прочитать любой текст и даже озвучить, но без понимания значения конкретных слов. В машинном обучении фазу букваря обычно вообще не учитывают.
источник

RS

Roman Samarev in Natural Language Processing
И, касаемо специальных текстов, они могут быть узко профессиональными и специализированными, но предельно простыми. Как плакат по сборке/разборке АК-47…. В расчёте на людей, только что научившихся читать….
источник

EB

Evgeniy Blinov in Natural Language Processing
Roman Samarev
И, касаемо специальных текстов, они могут быть узко профессиональными и специализированными, но предельно простыми. Как плакат по сборке/разборке АК-47…. В расчёте на людей, только что научившихся читать….
Я иллюстрировал букварем саму идею иерархичности.

Имелось ввиду, что если мы сделаем граф документов, то те документы, у которых будет больше входящих связей, чем исходящих, можно условно отнести к более низкоуровневому слою.
источник

EB

Evgeniy Blinov in Natural Language Processing
Разбив так документы на несколько слоев и двигаясь снизу вверх, мы сымитируем обучение человека в течение жизни.
источник

IK

Irina Krotova in Natural Language Processing
Alexander Kukushkin
Мне тут стало интересно провести инвентаризацию пабликов про NLP на русском. Дополняйте:
- https://t.me/natural_language_processing — этот чат, изначально чат пользователей проекта Natasha
- https://ods.ai/ #nlp
- https://t.me/dlinnlp2020spring https://t.me/dlinnlp https://t.me/dlinnlp_discuss — МФТИ
- https://t.me/nlp_seminar https://t.me/nlp_spb — Вышка
- https://t.me/NLP_weekly — ШАД
- https://t.me/nlp_ru
- https://t.me/towards_nlp
- https://t.me/Pullenti
- https://vk.com/mathlingvo
- https://www.facebook.com/dialogue21 — конференция Диалог
- https://t.me/liliyanews
@linguistics_library — не совсем про NLP, но тут много книг по лингвистике, в том числе компьютерной/квантитативной/корпусной. В основном с либгена. Но в целом там большая свалка, надо знать, что ищешь.
источник

НК

Николай Карпенко... in Natural Language Processing
У человека есть полочки, он всегда классифицирует. Если смешать все школьные учебники по русскому, математике, физике, литературе итд в один большой учебник, то это будет каша в понимании даже у человека с развитым интеллектом, то что ожидать от машины?
источник

EB

Evgeniy Blinov in Natural Language Processing
Николай Карпенко
У человека есть полочки, он всегда классифицирует. Если смешать все школьные учебники по русскому, математике, физике, литературе итд в один большой учебник, то это будет каша в понимании даже у человека с развитым интеллектом, то что ожидать от машины?
Есть такое, это уже горизонтальное разделение уровней, в противовес вертикальному
источник

EB

Evgeniy Blinov in Natural Language Processing
Правило, о котором говорил я, по идее должно соблюдаться внутри любого домена
источник

НК

Николай Карпенко... in Natural Language Processing
Иерархия знаний и данных необходимы.
источник

EB

Evgeniy Blinov in Natural Language Processing
Это как-то сейчас используется для обучения моделей вроде тех же GPT?
источник

НК

Николай Карпенко... in Natural Language Processing
напомни номер
источник

ДС

Дмитрий Симаков... in Natural Language Processing
При обучении сеток же есть проблема забывания старых задач. То есть повторив процедуру - учить на словарях, затем на простых текстах и так далее, модель, скорее всего, выучит только специализированные тексты.  И вроде как считается, что решение этой проблемы - один из шагов к AGI. Одно из потенциальных решений - использование баз знаний, но это направление только начало развиваться.
источник

YB

Yuri Baburov in Natural Language Processing
Ерунду вы говорите, бездумно перенося человеческий опыт.
Фаза букваря проходится сетью в первые 0.1% обучения, поэтому получается экономия на спичках. На качестве обучения нейросети curriculum learning или не сказывается, или сказывается в негативную (!) сторону.
У человека curriculum learning нужен потому что мозг со временем включает обучение новых областей. Вы ребёнка можете при этом ничему не учить, он сам всё равно научится (почти) всему, обучением мы лишь немного ускоряем процесс. В нейросетевом мире это как размораживать слои по очереди. На долю процента может ускорит ускорит сходимость, потому что 99% времени мы всё равно читаем всё подряд.
источник

$

$○| in Natural Language Processing
Yuri Baburov
Ерунду вы говорите, бездумно перенося человеческий опыт.
Фаза букваря проходится сетью в первые 0.1% обучения, поэтому получается экономия на спичках. На качестве обучения нейросети curriculum learning или не сказывается, или сказывается в негативную (!) сторону.
У человека curriculum learning нужен потому что мозг со временем включает обучение новых областей. Вы ребёнка можете при этом ничему не учить, он сам всё равно научится (почти) всему, обучением мы лишь немного ускоряем процесс. В нейросетевом мире это как размораживать слои по очереди. На долю процента может ускорит ускорит сходимость, потому что 99% времени мы всё равно читаем всё подряд.
в смысле все подряд
а как же внимание, интересы
источник

$

$○| in Natural Language Processing
если бы я всю Вики подряд прочел наверное санитары бы понадобились
источник

$

$○| in Natural Language Processing
Мне кажется что проблема обучения языковых моделей в отвратительном качестве датасетов
источник

$

$○| in Natural Language Processing
Вот зачем было в GPT 3 от Сбера пихать код
источник

$

$○| in Natural Language Processing
со stackoverflow или откуда там
источник

$

$○| in Natural Language Processing
ясно же было что программы писать не начнет
источник