Size: a a a

2021 June 16

DT

Danz The Deadly in Moscow Spark
Потому что не понятно, какой экзекьютор на каком воркере поднимается, какой у кого айпишник, когда какая таска и где упала, без того, чтоб перебирать все логи руками
источник

P

Pavel in Moscow Spark
Вы правы. Перезаписанный спарком даже в один партишн паркет прекрасно им читается и обрабатывается во все доступные ядра, в отличие от паркета записанного пандасом. Теперь причина ясна, спасибо.
источник

EC

Eugene Chipizubov in Moscow Spark
В уях я сортировал воркеры по статусу, их действительно много и не всегда это удобно, но все подобные отстрелы в том числе по дискам, я всегда находил.
Ещё разок, причин потери воркеров может быть много. С датабриксёрами ты получается раскопал один свой кейс.
И то судя по тексту причина названа на основе предположения, что не радует.
источник

DT

Danz The Deadly in Moscow Spark
Так и есть
источник
2021 June 17

МК

Михаил Королев... in Moscow Spark
Можно подробнее: почему из партиции более одного файла (или - когда больше одного файла)?
источник

ИК

Иван Калининский... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
начинается новая партиция - имеется в виду секция таблицы hive. конечно
источник

ИК

Иван Калининский... in Moscow Spark
в стандартном названии файла, записанного спарком, перед расширением есть суффикс .c000, в нем как раз будут номера файлов, записанных одним таском. Если все нули - это первый файл, почти всегда так и есть
источник

МК

Михаил Королев... in Moscow Spark
Спасибо - количество записей в файле, понятно
источник

N

Nikita Blagodarnyy in Moscow Spark
Я тут читаю доку от датабрикса и не могу понять, там ошибки или это я туповат? В разделе inner join for watermarking для событий задаётся ретеншон 10 и 20 секунд, а допустимое логическое временное окно между ними - 1 минута. Получается, они будут дропаться до возможного по логике джойна. И ещё в withWatermark написано 10 секунд, а в каментах к этой строке-1 минута.

https://docs.databricks.com/spark/latest/structured-streaming/examples.html?_ga=2.171317286.723057760.1623847257-786899134.1623070143#id1
источник

МК

Михаил Королев... in Moscow Spark
вот все-таки возвращаясь к теме разбиения файла на части (=партиции) при чтении: кластер, 5 узлов, csv файл 400M, все конфигурационные параметры (типа maxPartitionBytes и проч) - по дефолту. Читаю файл - получаю 7 партиций (строчки ровненько разложились по 1млн строк, последняя получила чуть меньше). Почему 7 ??? спарк 2.4.0
источник

DT

Danz The Deadly in Moscow Spark
spark.default.parallelism посмотри
источник

МК

Михаил Королев... in Moscow Spark
тоже по дефолту (кстати, как посмотреть - через getConf().getAll() его нету, из чего делаю заключение - дефолтное значение)
источник

GP

Grigory Pomadchin in Moscow Spark
sc.defaultParallelism
источник

МК

Михаил Королев... in Moscow Spark
2
источник

DT

Danz The Deadly in Moscow Spark
Ну если ровно по миллиону, то тут явно что-то нечисто
источник

DT

Danz The Deadly in Moscow Spark
Вероятно где-то настройка какая-то есть,
источник

DT

Danz The Deadly in Moscow Spark
Попробуй разложить карты таро
источник

МК

Михаил Королев... in Moscow Spark
вот я и думаю, что бы это могло быть... раньше вроде ровно получалось (типа 4 по количеству узлов), теперь - не понял когда и почему - стали такие странности вылезать. Я разберусь (со временем), отпишусь (если не забуду...) Но если идеи есть - буду рад
источник
2021 June 18

A

Alex in Moscow Spark
@mvkorolev хм, а где файл лежит?
может на hdfs с блок сайзом в 64 мб? тогда 400 мб это и есть 7 блоков приблизительно -> 7 партиций
источник