Телеграмм чат группы moscowspark страница 249

Всем привет. Был ли у кого опыт запуска спарка в docker контейнерах в EMR? хочется запустить кластер в режиме step execution и засабмитить прилоежение в контейнере. Исходя из документации это возможно, если завернуть все окружение и зависимости в докер и указать

--conf spark.executorEnv.YARN_CONTAINER_RUNTIME_TYPE=docker

. Но jar/py для spark-submit все равно должен быть на s3 или на мастере. Возникает вопрос можно ли в контейнер поместить целиком все приложение?

источник

16:16пожаловаться #4

r

rubonz in Moscow Spark

Всем привет
может у кого есть боевой опыт работы co https://www.snowflake.com/?

Snowflake

The Cloud Data Platform | Snowflake | Enable the Most Critical Workloads

Snowflake is the only data platform built for the cloud for all your data and all your users. Mobilize your data to advance your business.

источник

23:35пожаловаться #5

2020 January 30

РП

Роман Пашкевич... in Moscow Spark

Коллеги, тупой вопрос возможно)

Есть таблица заголовков (300млн) и таблица позиций (2+ млрд строк).

При джойне этих таблиц по ключу и потом отборе по дате. (where ddate >= ''). Если запихать это в SQLContext Spark'a. То он сначала все поджойнит и потом выберет по дате. Или сначала таки заголовки по дате отберет, и потом джойн?

источник

10:41пожаловаться #6

RI

Rudnev Il’ya in Moscow Spark

Роман Пашкевич

Коллеги, тупой вопрос возможно)

Есть таблица заголовков (300млн) и таблица позиций (2+ млрд строк).

При джойне этих таблиц по ключу и потом отборе по дате. (where ddate >= ''). Если запихать это в SQLContext Spark'a. То он сначала все поджойнит и потом выберет по дате. Или сначала таки заголовки по дате отберет, и потом джойн?

Самый верный вариант посмотреть план запроса df.explain()

источник

10:44пожаловаться #7

PK

Pavel Klemenkov in Moscow Spark

Роман Пашкевич

Коллеги, тупой вопрос возможно)

Есть таблица заголовков (300млн) и таблица позиций (2+ млрд строк).

При джойне этих таблиц по ключу и потом отборе по дате. (where ddate >= ''). Если запихать это в SQLContext Spark'a. То он сначала все поджойнит и потом выберет по дате. Или сначала таки заголовки по дате отберет, и потом джойн?

Зависит от формата, из которого делается чтение. Если норм формат, то Каталист сделает predicate pushdown

источник

14:04пожаловаться #8

РП

Роман Пашкевич... in Moscow Spark

Pavel Klemenkov

Зависит от формата, из которого делается чтение. Если норм формат, то Каталист сделает predicate pushdown

Формат таблиц ORC, но вот партицирования нет.

источник

14:05пожаловаться #9

PK

Pavel Klemenkov in Moscow Spark

Роман Пашкевич

Формат таблиц ORC, но вот партицирования нет.

Пофиг, он же колоночный. Глянь Optimized logical plan, который в df.explain(True)

источник

14:07пожаловаться #10

РП

Роман Пашкевич... in Moscow Spark

Да, будем сегодня пробовать и план глянем. Hive вчера вечером барахлил, и при попытке такого джойна просто умирал. Сегодня решили попробовать сделать тоже самое, но через Спарк.

источник

14:09пожаловаться #11

АП

Алексей Пахомов... in Moscow Spark

rubonz

Всем привет
может у кого есть боевой опыт работы co https://www.snowflake.com/?

Snowflake

The Cloud Data Platform | Snowflake | Enable the Most Critical Workloads

Snowflake is the only data platform built for the cloud for all your data and all your users. Mobilize your data to advance your business.

Ща внедряю

источник

23:21пожаловаться #12