делать сеть в которой есть 2 слоя в конце:
предпоследний слой с 100 000 классов, явно больше чем когда-либо будет нужно
последний слой с 1000 классов. при обьединении или разделении класса достаточно перетренировать только последний слой, или даже отдельные нейроны, если границы остальных классов не задеты
предпоследний слой можно тренировать с функцией ошибки на основе ортогональности (независимости, отсутствии корреляции классов) и на основе равнозначимости (простой случай - дропаут, средний - штраф за веса близкие к 1, сложный - считать корреляцию активности каждого из классов с активностью классов последнего слоя)
Спасибо! Возможно, не совсем точно описал проблему или не правильно понял ваше предложение, потому уточню. Датасет для обучения содержит много ситуаций, когда обращения одного смысла (тематики) размечены разными метками классов. Причина в изменения в классах, которые проводились ранее. Например, обращение тематики X сначала классифицировали как класс А, потом приняли решение из А выделить класс В и обращения тематики X относить к классу В и т.д. Вот и получается, что X может иметь метки А, В, С... Это снижает точность классификации. Вопрос - как получить датасет для обучения или (и) модель, которая максимально точно классифицирует обращения с учетом текущей схемы классификации?