долго насиловал алгоритм кластеризации который выдавал плохой результат.
Посмотрел отзывы, схожая проблема была и у других, написали что проблема недопрепросесинга.
попробовал макс мин, ничего хорошего.
Попробовал скейл, дало:
Numerical issues were encountered when centering the data and might not be solved. Dataset may contain too large values. You may need to prescale your features.
Numerical issues were encountered when scaling the data and might not be solved. The standard deviation of the data is probably very close to 0.
То есть разность маленькая очень. Это значит что дата не класстеризуемая ?
Или только в таком препроцесорном виде скорее всего что нет ?
tSNE красиво рисует разделение, а сама кластеризация на двух разных алгоритмах постоянно стремиться всех в один кластер запихнуть. Это прямой результат вот этого инсайта scale-a ?