Size: a a a

Natural Language Processing

2020 September 10

VS

Valera Sarapas in Natural Language Processing
Да, понятно
источник

VS

Valera Sarapas in Natural Language Processing
Но сначала я хочу с метрикой определиться
источник

SK

Sergei Korolev in Natural Language Processing
Valera Sarapas
Да, понятно
зависит от того что нужно получить. можно попробовать самому написать немного классов, чтобы хоть немного сбалансировать
источник

БД

Борис Добров... in Natural Language Processing
Что париться, при прочих равных F1,  но обычно либо точность важнее, либо полнота. Это от бизнес-задачи идет
источник

VS

Valera Sarapas in Natural Language Processing
среднюю F1 по всем классам?
источник

БД

Борис Добров... in Natural Language Processing
Всегда  macro. Среднее по всем F1 отдельных классов
источник

БД

Борис Добров... in Natural Language Processing
Иначе зачем нужны малочастотные классы?
источник

БД

Борис Добров... in Natural Language Processing
Да, на всякий случай, если один документ только к одному классу, и каждый документ к какому-то классу.
То это не четыре полезных класса а три, один - это нерелевантно.
источник

IK

Ilya Kazakov in Natural Language Processing
Valera Sarapas
Посоветуйте какую метрику лучше выбрать.
Есть задача классификации комментариев. Датасет очень сильно не сбалансирован. Всего 4-ре класса. И распределение по классам примерно 700, 200, 40, 6.
Какую лучше выбрать метрику для оценки качества классификации?
В деньгах. Раз ты в продакшн катишь, значт должен понимать сколько стоят ошибки 1-го и 2-го рода на кажом классе. Считаешь эти ошибки, умножаешь на соответсвующую цену и, вуаля, интегральная метрика. Чем меньше, тем лучше ;)
источник

AT

Andrey Tatarinov in Natural Language Processing
^ все так
источник

IK

Ilya Kazakov in Natural Language Processing
Но есть одно но. Предикт твоей модели -- это случайная величина. У неё есть распределение. А выборка у тебя маленькая и оцениить распределение у тебя не получится. Поэтому, какую бы ты метрику не взял, на проде всё уедет скорее всего и далеко.
источник

IK

Ilya Kazakov in Natural Language Processing
Valera Sarapas
среднюю F1 по всем классам?
А лучше Mathew's Correlation Coefficient, он более суровый чем F1.
источник

A

Aragaer in Natural Language Processing
А вот у меня совершенно дурной нубский вопрос. Вот я решил написать нейросеточку, которая будет читать копи-пасту фискального чека, а выдавать список найденных товаров и их цен. На вход - реккурентно подаю эмбеддинги букв. А что на выходе требовать?
источник

FF

Futorio Franklin in Natural Language Processing
Aragaer
А вот у меня совершенно дурной нубский вопрос. Вот я решил написать нейросеточку, которая будет читать копи-пасту фискального чека, а выдавать список найденных товаров и их цен. На вход - реккурентно подаю эмбеддинги букв. А что на выходе требовать?
Похоже на задачу NER
источник

FF

Futorio Franklin in Natural Language Processing
на выходе тег сущности
источник

A

Aragaer in Natural Language Processing
то есть например для
Кол-во  Цена  Сумма  Скидка  Со скидкой
Шейка МясновЪ молодой бычок
1,262 кг  * 589,00 р  = 743,32 р  -0,00 р  = 743,32 р
Итого:    743,32 р  - 0,00 р  = 743,32 р
Начислено итого

12 КеГЛей

За граммы и миллилитры  12 КеГЛей

должно выдать список из одной пары - Шейка МясновЪ молодой бычок и 743,32 р
источник

A

Aragaer in Natural Language Processing
а уже потом у меня классификатор из имени достает категорию товара
источник

A

Aragaer in Natural Language Processing
то есть разбить на токены например по пробелам и для каждого токена тег по BIO (так вроде зовется)?
источник

FF

Futorio Franklin in Natural Language Processing
Да, мне кажется так можно попробовать сделать
источник

A

Aragaer in Natural Language Processing
Спасибо, попробую
источник