Size: a a a

2021 June 15

DT

Danz The Deadly in Moscow Spark
Как перевести это на спарковый?
источник

DT

Danz The Deadly in Moscow Spark
Возникают на этапах шафла и записи, у меня подозрение в нехватке памяти
источник

N

Nikita Blagodarnyy in Moscow Spark
А там нету что ли спарк юай?
источник

C

Combot in Moscow Spark
Sonja Cornelius has been banned! Reason: CAS ban.
источник

DT

Danz The Deadly in Moscow Spark
Есть, но причём здесь он
источник

ММ

Максим Мартынов... in Moscow Spark
Посмотреть в нем метрики и логи
источник

N

Nikita Blagodarnyy in Moscow Spark
при том, что там записаны логи. можно посмотреть, какие таски умерли и по какой причине.
источник

DT

Danz The Deadly in Moscow Spark
Я написал причину смерти
источник

DT

Danz The Deadly in Moscow Spark
Там ничего конкретного не написано, ни в логах драйвера, ни воркеров, поэтому я и спросил про тех, кто сталкивался с такой ошибкой в датабриксе
источник

EC

Eugene Chipizubov in Moscow Spark
В ui есть лог по каждому потерянному воркеру, кидай пример. Если будет что то действительно экзотическое, найдем контакты в самом датабриксе, не вопрос
источник

EC

Eugene Chipizubov in Moscow Spark
Просто пример, fair отстрелит и будет worker losr или нода здоровье потеряет, исход будет тот же
источник

EC

Eugene Chipizubov in Moscow Spark
Короче с бухты барахты, никто тебе не скажет причину
источник
2021 June 16

P

Pavel in Moscow Spark
Всем привет, может кто-то знает в чем может быть проблема.
Запускаю спарк в local моде.
Код по сути две строчки на pyspark - прочитать паркет файл / сохранить этот же паркет файл без каких либо доп действий.
Файл 9млн строк и 250 колонок.
На 64 ядрах получается 64 таски, из которых 63 исполняются мгновенно, а 1 очень долго. На сколько я понимаю информацию из WebUI все данные обрабатываются в одной таске одним ядром.
источник

АБ

Артемий Богданов... in Moscow Spark
Не знаток спарка, но там как-то можно указывать партицирование входных данных, возможно тогда распараллелит
источник

IS

Ilya Slesarev in Moscow Spark
Выглядит так, будто в одной партиции паркета все 9 миллионов строк
источник

P

Pavel in Moscow Spark
repartition всяко разно пытался использовать, и кол-во строк в одном partition смотрел, четко кол-во строк в датасете деленное на кол-во партиций
не помогает
источник

N

Nikita Blagodarnyy in Moscow Spark
А сколько партиций сразу после чтения получается?
источник

ММ

Максим Мартынов... in Moscow Spark
Покажи dag
источник

P

Pavel in Moscow Spark
Если читаю таким образом df = spark.read.parquet(path), то партиция получается одна, как раз таки с id=31, id таска такой же.
+-----------+-------+
|partitionId|  count|
+-----------+-------+
|         31|8960700|
+-----------+-------+

Если добавляю repartition(8), то 8 пратиций по равному кол-ву записей

+-----------+-------+
|partitionId|  count|
+-----------+-------+
|          4|1120087|
|          5|1120087|
|          3|1120087|
|          2|1120087|
|          6|1120088|
|          0|1120088|
|          1|1120088|
|          7|1120088|
+-----------+-------+

Но при любом из вариантов все выполняется в одной таске.
источник

ИК

Иван Калининский... in Moscow Spark
Размер файла? Сжатие snappy?
источник