Телеграмм чат группы moscowspark страница 702

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1091 membersпожаловаться на группу

2021 June 16

DT

Danz The Deadly in Moscow Spark

Потому что не понятно, какой экзекьютор на каком воркере поднимается, какой у кого айпишник, когда какая таска и где упала, без того, чтоб перебирать все логи руками

источник

16:09пожаловаться #1

P

Pavel in Moscow Spark

Вы правы. Перезаписанный спарком даже в один партишн паркет прекрасно им читается и обрабатывается во все доступные ядра, в отличие от паркета записанного пандасом. Теперь причина ясна, спасибо.

источник

16:35пожаловаться #2

EC

Eugene Chipizubov in Moscow Spark

В уях я сортировал воркеры по статусу, их действительно много и не всегда это удобно, но все подобные отстрелы в том числе по дискам, я всегда находил.
Ещё разок, причин потери воркеров может быть много. С датабриксёрами ты получается раскопал один свой кейс.
И то судя по тексту причина названа на основе предположения, что не радует.

источник

17:06пожаловаться #3

DT

Danz The Deadly in Moscow Spark

Так и есть

источник

17:07пожаловаться #4

2021 June 17

МК

Михаил Королев... in Moscow Spark

Можно подробнее: почему из партиции более одного файла (или - когда больше одного файла)?

источник

08:50пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

https://t.me/hadoopusers/90161

iKaleeninskii in Data Engineers

Спарк запишет ровно столько файлов, сколько есть непустых партиций в RDD, склеивать их он совершенно точно не имеет возможности, зато имеет возможность разделять. Разделение будет произведено: 1. если начинается новая партиция 2. Начинается новый бакет 3. Превышено значение параметра maxRecordsPerFile

Взять итератор из другой партиции ни один файл коммитер, на который я смотел не может и не будет, потому что до того возможна подготовка для корректной записи в указанные партиции или бакеты. Значит, это делается кастомно, или своим FileFormatWriter (это объект, его нельзя унаследовать, но можно включить или просто взять его код), или постобработкой.

источник

08:52пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

начинается новая партиция - имеется в виду секция таблицы hive. конечно

источник

08:53пожаловаться #7

ИК

Иван Калининский... in Moscow Spark

в стандартном названии файла, записанного спарком, перед расширением есть суффикс .c000, в нем как раз будут номера файлов, записанных одним таском. Если все нули - это первый файл, почти всегда так и есть

источник

08:55пожаловаться #8

МК

Михаил Королев... in Moscow Spark

Спасибо - количество записей в файле, понятно

источник

09:01пожаловаться #9

N

Nikita Blagodarnyy in Moscow Spark

Я тут читаю доку от датабрикса и не могу понять, там ошибки или это я туповат? В разделе inner join for watermarking для событий задаётся ретеншон 10 и 20 секунд, а допустимое логическое временное окно между ними - 1 минута. Получается, они будут дропаться до возможного по логике джойна. И ещё в withWatermark написано 10 секунд, а в каментах к этой строке-1 минута.

https://docs.databricks.com/spark/latest/structured-streaming/examples.html?_ga=2.171317286.723057760.1623847257-786899134.1623070143#id1

Structured Streaming examples | Databricks on AWS

See examples of using Spark Structured Streaming with Cassandra, Azure Synapse Analytics, Python notebooks, and Scala notebooks in Databricks.

источник

14:07пожаловаться #10

МК

Михаил Королев... in Moscow Spark

вот все-таки возвращаясь к теме разбиения файла на части (=партиции) при чтении: кластер, 5 узлов, csv файл 400M, все конфигурационные параметры (типа maxPartitionBytes и проч) - по дефолту. Читаю файл - получаю 7 партиций (строчки ровненько разложились по 1млн строк, последняя получила чуть меньше). Почему 7 ??? спарк 2.4.0

источник

14:11пожаловаться #11

DT

Danz The Deadly in Moscow Spark

spark.default.parallelism посмотри

источник

14:15пожаловаться #12

МК

Михаил Королев... in Moscow Spark

тоже по дефолту (кстати, как посмотреть - через getConf().getAll() его нету, из чего делаю заключение - дефолтное значение)

источник

14:18пожаловаться #13

GP

Grigory Pomadchin in Moscow Spark

sc.defaultParallelism

источник

14:22пожаловаться #14

МК

Михаил Королев... in Moscow Spark

2

источник

14:23пожаловаться #15

DT

Danz The Deadly in Moscow Spark

Ну если ровно по миллиону, то тут явно что-то нечисто

источник

14:31пожаловаться #16

DT

Danz The Deadly in Moscow Spark

Вероятно где-то настройка какая-то есть,

источник

14:31пожаловаться #17

DT

Danz The Deadly in Moscow Spark

Попробуй разложить карты таро

источник

14:31пожаловаться #18

МК

Михаил Королев... in Moscow Spark

вот я и думаю, что бы это могло быть... раньше вроде ровно получалось (типа 4 по количеству узлов), теперь - не понял когда и почему - стали такие странности вылезать. Я разберусь (со временем), отпишусь (если не забуду...) Но если идеи есть - буду рад

источник

14:32пожаловаться #19

2021 June 18

A

Alex in Moscow Spark

@mvkorolev хм, а где файл лежит?
может на hdfs с блок сайзом в 64 мб? тогда 400 мб это и есть 7 блоков приблизительно -> 7 партиций

источник

13:41пожаловаться #20