Дмитрий, а вы ознакомились с тем, как будет происходить оценка?
Вы рассуждаете в бинарных терминах. Три задания - значит это мало.
Но все работает не так. Представьте, что это конкурс художников и нужно оценить работы. Вы предпочтете, чтобы каждый нарисовал сто мелких работ, или все-таки одну большую?
В реальной жизни мы не решаем атомарные задачи, мы решаем комплексные. Именно поэтому в идею конкурса зашито то, что это должны быть сложные задачи, приближенные к боевым, а не тест с простыми задачками, на которые заранее известны ответы.
Далее нужно просто правильно и избыточно подойти к оценке результатов. В данном случае используется множественная p2p оценка с последующей интерпретацией результатов. Причем каждый участник конкурса при оценивании расставляет десять других работ друг относительно друга, а не просто выставляет им бинарный балл.
Методику обкатывали на продуктовых конкурсах уже два раза, прогоняя ее результат еще и через экспертную оценку. Могу сказать, что корреляция с экспертной очень высока.
Подробнее с методикой можно ознакомиться здесь:
https://telegra.ph/P2P-ocenka-i-kak-s-ee-pomoshchyu-budut-ocenivatsya-raboty-uchastnikov-konkursa-11-22Или с оригинальной статьей вот тут:
https://arxiv.org/pdf/1404.3656v1.pdf