Телеграмм чат группы moscowspark страница 603

Проблема в том, что экзекюторов 50 штук, а по факту работает один на который прилетает 25 гигов. В SQL view этого не понять. У меня несколько джоинов где примерно такой же объем данных.

источник

15:35пожаловаться #4

N

Nikita Blagodarnyy in Moscow Spark

Vokeven

Проблема в том, что экзекюторов 50 штук, а по факту работает один на который прилетает 25 гигов. В SQL view этого не понять. У меня несколько джоинов где примерно такой же объем данных.

посмотри распределения по ключам каждого джойна

источник

15:59пожаловаться #5

AS

Andrey Sutugin in Moscow Spark

Vokeven

Привет всем. Подскажите плз - как вы определяете какой из десятка джоинов, которые есть в расчете, делают вот такое?

Я ничего лучше не нашел, чем после каждой агрегации вызывать action, что бы понимать что конкретно происходит на каждом этапе.

источник

16:00пожаловаться #6

A

Antony in Moscow Spark

Andrey Sutugin

Я ничего лучше не нашел, чем после каждой агрегации вызывать action, что бы понимать что конкретно происходит на каждом этапе.

к сожалению так же делаю способа другого пока нету(

источник

16:24пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

Antony

к сожалению так же делаю способа другого пока нету(

Ждём обсерверов, видимо

источник

16:30пожаловаться #8

V

Vokeven in Moscow Spark

Andrey Sutugin

Я ничего лучше не нашел, чем после каждой агрегации вызывать action, что бы понимать что конкретно происходит на каждом этапе.

Да, решил тоже так делать. Пишу результат джойна в паркет-файл и смотрю он это или нет.

источник

16:47пожаловаться #9

A

Antony in Moscow Spark

Паша Финкельштейн

Ждём обсерверов, видимо

есть ссылки почитать про это?

источник

17:13пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

De facto new data quality measuring tool is coming to the core @ApacheSpark

#dq #monitoring #dataquality

http://apache-spark-developers-list.1001551.n3.nabble.com/Observable-Metrics-on-Spark-Datasets-td30953.html

Nabble

Apache Spark Developers List - Observable Metrics on Spark Datasets

Observable Metrics on Spark Datasets. Hi Spark-Devs, the observable metrics that have been added to the Dataset API in 3.0.0 are a great improvement over the Accumulator APIs that seem to have much...

источник

17:15пожаловаться #11

V

Vladislav Gotsulyak in Moscow Spark

Коллеги, привет!

Посоветуйте плиз, как можно наиболее эффективным образом загрузить таблицу из Hive в Green Plum размером в 10Гб Spark-ом?

Возник кейс, что стандартный механизм загрузки через метод write с jdbc-подключением + указанием конфига на numPartitions (5) и batchsize = ‘1000000’ приводит к тому, что джоба забила логи в Green Plum однострочными insert и почти положила сервак из-за этого, хотя планировалось загружать батчами по 1000000 строк.

Мб кто-то решал такую проблему и может посоветовать что-то?

источник

17:59пожаловаться #12

EC

Eugene Chipizubov in Moscow Spark

Vladislav Gotsulyak

Коллеги, привет!

Посоветуйте плиз, как можно наиболее эффективным образом загрузить таблицу из Hive в Green Plum размером в 10Гб Spark-ом?

Возник кейс, что стандартный механизм загрузки через метод write с jdbc-подключением + указанием конфига на numPartitions (5) и batchsize = ‘1000000’ приводит к тому, что джоба забила логи в Green Plum однострочными insert и почти положила сервак из-за этого, хотя планировалось загружать батчами по 1000000 строк.

Мб кто-то решал такую проблему и может посоветовать что-то?

Да

источник

18:05пожаловаться #13

EC

Eugene Chipizubov in Moscow Spark

Через pxf делаешь копию, потом exchange partitions

источник

18:06пожаловаться #14

EC

Eugene Chipizubov in Moscow Spark

Vladislav Gotsulyak

Коллеги, привет!

Посоветуйте плиз, как можно наиболее эффективным образом загрузить таблицу из Hive в Green Plum размером в 10Гб Spark-ом?

Возник кейс, что стандартный механизм загрузки через метод write с jdbc-подключением + указанием конфига на numPartitions (5) и batchsize = ‘1000000’ приводит к тому, что джоба забила логи в Green Plum однострочными insert и почти положила сервак из-за этого, хотя планировалось загружать батчами по 1000000 строк.

Мб кто-то решал такую проблему и может посоветовать что-то?

Jdbc для mpp нифига не стандарт

источник

18:07пожаловаться #15

EC

Eugene Chipizubov in Moscow Spark

К слову пришлось )

источник

18:07пожаловаться #16

V

Vladislav Gotsulyak in Moscow Spark

Eugene Chipizubov

Через pxf делаешь копию, потом exchange partitions