Вопрос был в том, что если останавливаться по своей оценке и обучать на этом же свою оценку, то возникает положительная обратная связь, которая до добра не может довести.
Aleksey расскажет почему это работает на след неделе. (спойлер - порог настраивается исходя из честно доигранных позиций, предварительно оцененных, как проигрышные)