Подскажите пожалуйста, у меня есть тренировочный датасет для классификации текста. Классов 5. Но датасет получается очень несбалансированным - в одном классе 2000 тыс строк, в другом 1500 а в третьем 400 например. Как обычно поступают в таких ситуациях? Не урезать же все до самого маленького?
можно посчитать веса классов class_weight
и добавить этот параметр при обучении
model.fit(X_train, Y_train, nb_epoch=5, batch_size=32, class_weight=class_weight)