https://habr.com/ru/company/otus/blog/529684/—
Существует распространенное мнение, что в процессах обработки больших данных есть два основных узких места, влияющих на производительность:
перетасовка данных, поскольку для ее выполнения требуется отправлять данные по сети;
дисковый ввод-вывод, поскольку доступ к данным на диске всегда намного медленнее, чем доступ к данным в ОЗУ.
....
В 2015 году в исследовании Кей Остерхаут (Kay Ousterhout) и др.¹ были проанализированы узкие места в заданиях Spark, и в результате выяснилось, что скорость их выполнения в большей степени определяется операциями, загружающими ЦП, а не вводом-выводом и передачей данных по сети
—