диагностировать может легко, тут спарк обычно не обманывает с месседжем в ошибках, но я вот до сих пор не знаю, а что с этим делать. сегодня есть перекос, завтра нет, после завтра перекос в трое больше будет.
еще имхо большая проблема что дурит спарк с сообщениями об ошибках. у нас постоянно сообщения, что таймауты в нетворке, хотя на самом деле в нетворке никаких проблем - таймауты из-за того что кому-то там не хватило процессора вовремя ответить, а ярн или спарк не стал ждать. особенно красиво это выглядит в связке с kudu