Спасибо! Возможно, не совсем точно описал проблему или не правильно понял ваше предложение, потому уточню. Датасет для обучения содержит много ситуаций, когда обращения одного смысла (тематики) размечены разными метками классов. Причина в изменения в классах, которые проводились ранее. Например, обращение тематики X сначала классифицировали как класс А, потом приняли решение из А выделить класс В и обращения тематики X относить к классу В и т.д. Вот и получается, что X может иметь метки А, В, С... Это снижает точность классификации. Вопрос - как получить датасет для обучения или (и) модель, которая максимально точно классифицирует обращения с учетом текущей схемы классификации?
Мне кажется, можно подумать в сторону примерно такой схемы:
1) Отщепляем от обучающей выборки достаточно свежую часть, внутри которой, насколько нам известно, разметка не менялась. Обучаем классификатор только на ней.
2) Размечаем этим классификатором более древнюю часть обучающей выборки, в которой разметка менялась
3) Придумываем какие-нибудь бизнес-правила для выбора, какой лейбл использовать для каждого наблюдения в старой части выборки: исторический (как его древние люди разметили), или синтетический (как его разметила моделька из пункта 1). Например: если историческая метка - А, классификатор предсказал вероятность класса А ниже порога 1 и вероятность класса B выше порога 2, то верить классификатору
. Можно вручную заполнить квадратную матрицу "какие классы могли быть переименованы в какие" и на неё ориентироваться.
4) Обучаем модель на обоих выборках: свежей (с исходной разметкой) и старой (с такой полусинтетической разметкой, полученной в пункте 3). Это совершенно не обязательно должна быть модель того же типа, что и на шаге 1.
Понятно, что шаг 3 требует кучи творчества, но, возможно, если с ним заморочится, то получится плюс-минус старую разметку актуализировать.
P.S. в каком-то смысле бизнес-правила из шага 3 - это тоже часть обучающего алгоритма, поэтому ОК их тюнить, максимизируя конечное качество всего пайплайна на валидационной выборке, если она, конечно, достаточно свежая, чтобы ей вообще можно было доверять.