Size: a a a

2021 March 21

ПФ

Паша Финкельштейн... in Moscow Spark
источник
2021 March 22

V

Vokeven in Moscow Spark
Привет всем. Подскажите плз - как вы определяете какой из десятка джоинов, которые есть в расчете, делают вот такое?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Vokeven
Привет всем. Подскажите плз - как вы определяете какой из десятка джоинов, которые есть в расчете, делают вот такое?
В sql вью можно же смотреть за тем, скоро данных отсылается
источник

V

Vokeven in Moscow Spark
Проблема в том, что экзекюторов 50 штук, а по факту работает один на который прилетает 25 гигов. В SQL view этого не понять. У меня несколько джоинов где примерно такой же объем данных.
источник

N

Nikita Blagodarnyy in Moscow Spark
Vokeven
Проблема в том, что экзекюторов 50 штук, а по факту работает один на который прилетает 25 гигов. В SQL view этого не понять. У меня несколько джоинов где примерно такой же объем данных.
посмотри распределения по ключам каждого джойна
источник

AS

Andrey Sutugin in Moscow Spark
Vokeven
Привет всем. Подскажите плз - как вы определяете какой из десятка джоинов, которые есть в расчете, делают вот такое?
Я ничего лучше не нашел, чем после каждой агрегации вызывать action, что бы понимать что конкретно происходит на каждом этапе.
источник

A

Antony in Moscow Spark
Andrey Sutugin
Я ничего лучше не нашел, чем после каждой агрегации вызывать action, что бы понимать что конкретно происходит на каждом этапе.
к сожалению так же делаю способа другого пока нету(
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Antony
к сожалению так же делаю способа другого пока нету(
Ждём обсерверов, видимо
источник

V

Vokeven in Moscow Spark
Andrey Sutugin
Я ничего лучше не нашел, чем после каждой агрегации вызывать action, что бы понимать что конкретно происходит на каждом этапе.
Да, решил тоже так делать. Пишу результат джойна в паркет-файл и смотрю он это или нет.
источник

A

Antony in Moscow Spark
Паша Финкельштейн
Ждём обсерверов, видимо
есть ссылки почитать про это?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
De facto new data quality measuring tool is coming to the core @ApacheSpark

#dq #monitoring #dataquality

http://apache-spark-developers-list.1001551.n3.nabble.com/Observable-Metrics-on-Spark-Datasets-td30953.html
источник

V

Vladislav Gotsulyak in Moscow Spark
Коллеги, привет!

Посоветуйте плиз, как можно наиболее эффективным образом загрузить таблицу из Hive в Green Plum размером в 10Гб Spark-ом?

Возник кейс, что стандартный механизм загрузки через метод write с jdbc-подключением + указанием конфига на numPartitions (5) и batchsize = ‘1000000’ приводит к тому, что джоба забила логи в Green Plum однострочными insert и почти положила сервак из-за этого, хотя планировалось загружать батчами по 1000000 строк.

Мб кто-то решал такую проблему и может посоветовать что-то?
источник

EC

Eugene Chipizubov in Moscow Spark
Vladislav Gotsulyak
Коллеги, привет!

Посоветуйте плиз, как можно наиболее эффективным образом загрузить таблицу из Hive в Green Plum размером в 10Гб Spark-ом?

Возник кейс, что стандартный механизм загрузки через метод write с jdbc-подключением + указанием конфига на numPartitions (5) и batchsize = ‘1000000’ приводит к тому, что джоба забила логи в Green Plum однострочными insert и почти положила сервак из-за этого, хотя планировалось загружать батчами по 1000000 строк.

Мб кто-то решал такую проблему и может посоветовать что-то?
Да
источник

EC

Eugene Chipizubov in Moscow Spark
Через pxf делаешь копию, потом exchange partitions
источник

EC

Eugene Chipizubov in Moscow Spark
Vladislav Gotsulyak
Коллеги, привет!

Посоветуйте плиз, как можно наиболее эффективным образом загрузить таблицу из Hive в Green Plum размером в 10Гб Spark-ом?

Возник кейс, что стандартный механизм загрузки через метод write с jdbc-подключением + указанием конфига на numPartitions (5) и batchsize = ‘1000000’ приводит к тому, что джоба забила логи в Green Plum однострочными insert и почти положила сервак из-за этого, хотя планировалось загружать батчами по 1000000 строк.

Мб кто-то решал такую проблему и может посоветовать что-то?
Jdbc для mpp нифига не стандарт
источник

EC

Eugene Chipizubov in Moscow Spark
К слову пришлось )
источник

V

Vladislav Gotsulyak in Moscow Spark
Eugene Chipizubov
Через pxf делаешь копию, потом exchange partitions
ок, пойду гуглить, спасибо
источник

V

Vladislav Gotsulyak in Moscow Spark
Eugene Chipizubov
Через pxf делаешь копию, потом exchange partitions
А кроме как через external table есть варианты?
Этот вариант заказчику не подходит, требуется загрузить и создать физическую таблицу.
источник

EC

Eugene Chipizubov in Moscow Spark
Самый шустрый вариант это psql copy
источник

EC

Eugene Chipizubov in Moscow Spark
Ваш объем загрузит минуты за три в зависимости от нагрузки на мастер.
источник