Size: a a a

Natural Language Processing

2021 September 11

NR

Nikita Repeev in Natural Language Processing
Добрый день, может ли кто нибудь подсказать что можно почитать посмотреть на тему преобразования фраз естественного языка, вроде "наверное да", "наверное нет", "скорее всего да" и так далее, в вероятности которые говорящий неявно подразумевал? Где-то в памяти вроде мелькает что я подобное видел, но не уверен как искать.
источник

DD

David Dale in Natural Language Processing
Кажется, это очень сложная задача по двум причинам:
1) В разных социальных ситуациях и контекстах принято очень по-разному выражать степень уверенности. Для кого-то "скорее всего" - это любая вероятность больше 0.5, а другой человек будет так говорить, только если минимум на 95% уверен.
2) Люди вообще очень плохо интуитивно оценивают вероятности (см. исследования Канемана).

Поэтому если и заниматься таким, то калиброваться на конкретную предметную область.
источник

d

dePuff in Natural Language Processing
Мне жизненного опыта-то не всегда хватает и знания конкретного человека, чтобы перевести это в вероятности )
источник

NR

Nikita Repeev in Natural Language Processing
да, это я понимаю, мне интересно как раз как это происходит в каких нибудь конкретных условиях
источник

DD

David Dale in Natural Language Processing
Я погуглил "corpus of uncertainty estimates", нашел корпус BioScope - оценки неуверенности в медицинских статьях. Думаю, можно с него начать.
источник

NR

Nikita Repeev in Natural Language Processing
это тоже понятно, но в целом же можно предполагать что если встречаются такие слова как "да", "уверен", "абсолютно" и так далее в n-граммах без отрицаний то наверное вероятность повыше, я не жду от этого какой-то огромной точности, какая уж есть
источник

NR

Nikita Repeev in Natural Language Processing
спасибо!
источник

NR

Nikita Repeev in Natural Language Processing
диалоговые системы же отличают как то да от нет и от не знаю. уже лучше чем ничего
источник

ТЕ

Таёжный Ежи... in Natural Language Processing
Набрать текстов с такими неоднозначными ответами, разметить часть массива вручную, разметить остальное в несколько слоёв с помощью какой-нибудь Яндекс.Толоки, обобщить, радоваться результату.
источник

YB

Yuri Baburov in Natural Language Processing
Mammoth ("мамонт") неплохо переводил Ворд в текст в html
источник

МА

Максим Антонов... in Natural Language Processing
Ребят. Я взял сберовский gpt. Выполнил по существующему блокноту дообучение на предложенном наборе данных. Ну прикольно, нотоценить я это не могу. Там сочинения...

Взял выборку на 9000 сообщений из чата по определенной тематике. Запихнул в train.txt, взял выборку из 500 сообщений одного человека и запихнул в valid.txt. выполнил то же дообучение. Ожидал, что стиль будет похож на определенного человека. вопрос: ожидания верные? Действия верные?

Я начал проходить курс на степике, который мне вчера посоветовали, но руки-то чешутся... 😂
источник

МА

Максим Антонов... in Natural Language Processing
Просто генерируемый текст держит тематику чата, но вот стиль человека из Валид тхт - как будто легкий налет того стиля.
источник

AS

Artem Sergeev in Natural Language Processing
Стиль будет таким, как в именно в обучающей выборке, можно тренировать вообще без validation, т.к. последнее - заточка нейросети под "численно правильные" ответы. Что к стилю и массивам текстов слабо применимо.

Я тренировал на Толстом. Чем дольше обучаешь, тем больше "первоисточника" в выдаваемом. Через 4000 шагов обучения начал вообще плотно сыпать прямыми цитатами из текста.

Забавным образом, сберовцы встроили в обучение проверку промежуточных результатов в виде генерации на основе своей (и OpenAI) любимой фразы "Бразильские ученые открыли редкий вид карликовых единорогов, обитающих на западе Ютландии". Она начинает записываться в лог кажется с момента когда оценочная функция (забыл название) меньше 3. Я сделал, чтобы писала сразу. Оцените, как "проступает Толстой".

step 0
Бразильские ученые открыли редкий вид карликовых единорогов, обитающих на западе Ютландии, — в граничащей с Данией области Хольстебро, сообщает сайт BBC News. Ранее единственным видом карликового единорога был обитающий на юге Исландии низкорослый единорог, он считается подвидом местного вида — Valatogelige Fjordogtsfjordelig. Ученые сумели обнаружить среди десятков обитателей региона еще один, ранее неизвестный вид, который так и не был описан в научных книгах. Единороги были обнаружены в дикой природе в 2013 году. Тогда трехмесячный детеныш одной из самок был найден на пляже возле деревни Одда, где и велись наблюдения. Двум мальчикам удалось поймать и доставить в зоопарк Дании мать малыша. В ходе изучения ДНК было установлено, что малыш является единственным потомком дикого единороги на земле.

step 1,400
Бразильские ученые открыли редкий вид карликовых единорогов, обитающих на западе Ютландии. Раза два в год они возбуждают удивление всего света своим необычайным ростом и силой, – так же, как и медведем, который раз в семь больше медведя, и который живет 30 лет.

Но эти единороги не только не угрожают существованию нынешнего человечества, но на угрожающие действия своей разрушительной деятельностью не способны.

Единственное средство против них есть строгое наблюдение над их половым сближением и исключительное внимание к их физиологическим особенностям.

Единственное средство против единорогов есть строгое наблюдение над условиями их жизни в неволе, и наблюдения эти должны быть непрерывны.

Берегитесь, чтобы не быть захваченным этими единорогами! Они – ваши ближайшие.pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad..pad

step 1,500
Бразильские ученые открыли редкий вид карликовых единорогов, обитающих на западе Ютландии, - огромных, плоских, игреневых, серых с белым лбом и гривой, грациозно-звенящих рогов. Этот вид был открыт случайно во время охоты одного из немецких охотников. Введенный в заблуждение этим открытием, немец, желая отделаться от преследования, предложил за 2 тысячи рублей пари охотнику, стоявшему на часах у его шалаша, что он, если найдет и съест хотя одну лошадь, то получит 2 тысячи. Охотник, взявший с собой собаку, поскакал. Немец выиграл пари, но только вследствие того, что, как оказалось впоследствии, он нашел не одну, а две лошади, которые, очевидно, и были те самые, которых он искал. В апреле месяце, граф
источник

AS

Artem Sergeev in Natural Language Processing
ну и конечно
step 1,700
Бразильские ученые открыли редкий вид карликовых единорогов, обитающих на западе Ютландии. Единороги эти питаются наполовину соломой, наполовину зелеными яблоками и грушами и делают свои логовища в кучах на сене. Но как ни хороши эти единороги, они не могут соперничать с русскими, которые с начала осени до весны живут в соломенных шалашах и ни на минуту не задумываются о будущем урожае. Причина этого - в их маленьком росте, в их худобе и в том, что у них всегда опущен хвост, что придает их мордам еще более удивительную, несколько-хитрую, несколько-изучающую и даже несколько-шаловливую физиономию.
источник

МА

Максим Антонов... in Natural Language Processing
Шаги - это эпохи? Или нет?
источник

МА

Максим Антонов... in Natural Language Processing
Толстой жжжжжот 😂
источник

МА

Максим Антонов... in Natural Language Processing
И подскажите как готовить тюнинг датасет? В Примере есть теги s /s. Мне показалось, что они лишние. Судя по тому как он их в выдачу пихает
источник

МА

Максим Антонов... in Natural Language Processing
Просто построено предложения или абзацы?
источник

МА

Максим Антонов... in Natural Language Processing
*построчно
источник

AS

Artem Sergeev in Natural Language Processing
нет, это именно шаги (итерации). 4000 эпох - столько не живут :)
в эпоху шагов 800-1000 помещается у меня обычно.
источник