Телеграмм чат группы moscowspark страница 699

В ui есть лог по каждому потерянному воркеру, кидай пример. Если будет что то действительно экзотическое, найдем контакты в самом датабриксе, не вопрос

источник

21:54пожаловаться #10

Eugene Chipizubov in Moscow Spark

Просто пример, fair отстрелит и будет worker losr или нода здоровье потеряет, исход будет тот же

источник

21:55пожаловаться #11

Eugene Chipizubov in Moscow Spark

Короче с бухты барахты, никто тебе не скажет причину

источник

21:55пожаловаться #12

2021 June 16

Pavel in Moscow Spark

Всем привет, может кто-то знает в чем может быть проблема.
Запускаю спарк в local моде.
Код по сути две строчки на pyspark - прочитать паркет файл / сохранить этот же паркет файл без каких либо доп действий.
Файл 9млн строк и 250 колонок.
На 64 ядрах получается 64 таски, из которых 63 исполняются мгновенно, а 1 очень долго. На сколько я понимаю информацию из WebUI все данные обрабатываются в одной таске одним ядром.

источник

10:54пожаловаться #13

АБ

Артемий Богданов... in Moscow Spark

Не знаток спарка, но там как-то можно указывать партицирование входных данных, возможно тогда распараллелит

источник

10:56пожаловаться #14

Ilya Slesarev in Moscow Spark

Выглядит так, будто в одной партиции паркета все 9 миллионов строк

источник

10:57пожаловаться #15

Pavel in Moscow Spark

repartition всяко разно пытался использовать, и кол-во строк в одном partition смотрел, четко кол-во строк в датасете деленное на кол-во партиций
не помогает

источник

10:57пожаловаться #16

Nikita Blagodarnyy in Moscow Spark

А сколько партиций сразу после чтения получается?

источник

10:58пожаловаться #17

ММ

Максим Мартынов... in Moscow Spark

Покажи dag

источник

11:01пожаловаться #18

Pavel in Moscow Spark

Если читаю таким образом df = spark.read.parquet(path), то партиция получается одна, как раз таки с id=31, id таска такой же.

+-----------+-------+
|partitionId|  count|
+-----------+-------+
|         31|8960700|
+-----------+-------+

Если добавляю repartition(8), то 8 пратиций по равному кол-ву записей

+-----------+-------+
|partitionId|  count|
+-----------+-------+
|          4|1120087|
|          5|1120087|
|          3|1120087|
|          2|1120087|
|          6|1120088|
|          0|1120088|
|          1|1120088|
|          7|1120088|
+-----------+-------+

Но при любом из вариантов все выполняется в одной таске.

источник

11:06пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

Размер файла? Сжатие snappy?

источник

11:06пожаловаться #20