Телеграмм чат группы moscowspark страница 79

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2018 December 16

Alex D in Moscow Spark

Pavel Klemenkov

Да, я как раз этот пример приводил в хайлайтах 2.4.0

О как.
Павел, извини!
Слона то я и не приметил ...

источник

19:40пожаловаться #1

2018 December 18

Ninja in Moscow Spark

Привет. Скажите , пожалуйста, если я разношу в физической модели по 2 юнитам структуру

источник

19:43пожаловаться #2

Ninja in Moscow Spark

То мне можно уже в качестве значений для таргета во втором юните использовать только тот объект, для которого создана темповая таблица во втором юните с таргетом?

источник

19:45пожаловаться #3

Ninja in Moscow Spark

Я не могу обратиться к объектам других юнитов?

источник

19:45пожаловаться #4

Ninja in Moscow Spark

Так.. уточнение -выгрузка в hadoop через odi. Юниты в odi. Наверное не по адресу

источник

19:46пожаловаться #5

Ninja in Moscow Spark

Сори!

источник

19:47пожаловаться #6

Aleksander in Moscow Spark

Сори!

2018 December 20

Anton Alekseev in Moscow Spark

День добрый. Подскажите пожалуйста, это нормально что withColumn("result", col(1) * col(2) - col(3)) только 1 ядро на машинке утилизирует? Параллелить только через rdd?

источник

13:26пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Ненормально, надо проверять, что до этого и после этого написано, вызколумн - это мап, он работает параллельно

источник

13:29пожаловаться #9

Anton Alekseev in Moscow Spark

Евгений Глотов

Ненормально, надо проверять, что до этого и после этого написано, вызколумн - это мап, он работает параллельно

окей, покопаю, спасибо.

источник

13:30пожаловаться #10

Anton Alekseev in Moscow Spark

Поделитесь пожалуйста опытом. Если вы работали в AWS EMR подскажите, нуждались ли кластеры в какой либо тонкой настройке? Я использую такой конфиг для кластера в 5 машинок (из которых 4 воркера 4 цпу 32гб рам.)

spark maximizeResourceAllocation true
spark-defaults spark.dynamicAllocation.enabled true
spark-defaults spark.sql.shuffle.partitions 16
spark-defaults spark.sql.execution.arrow.enabled true
spark-defaults spark.default.parallelism 50
spark-env.export PYSPARK_PYTHON /home/hadoop/conda/bin/python3.5

источник

18:07пожаловаться #11

Eduard Vlasov in Moscow Spark

У нас presto на постоянном кластере, тюнил память

источник

18:09пожаловаться #12

Anton Alekseev in Moscow Spark

Ну и с такими конфигами меня совсем не радует скорость, хотя работаю с двумя фреймами по 13млн строк.

источник

18:09пожаловаться #13

Eduard Vlasov in Moscow Spark

Чтоб yarn и presto не дрались

источник

18:09пожаловаться #14

Artem Pichugin in Moscow Spark

По-моему, параллелизм слишком большой для такого кластера

источник

18:27пожаловаться #15

Anton Alekseev in Moscow Spark

Artem Pichugin

По-моему, параллелизм слишком большой для такого кластера

окей, попробую уменьшить.

источник

18:39пожаловаться #16

Artem Pichugin in Moscow Spark

https://umbertogriffo.gitbooks.io/apache-spark-best-practices-and-tuning/content/sparksqlshufflepartitions_draft.html - тут вот есть какие-то советы с расчетами, например

umbertogriffo.gitbook.io

Introduction

источник

18:40пожаловаться #17

Andrey Smirnov in Moscow Spark

Anton Alekseev

окей, попробую уменьшить.

Надо смотреть план запроса, остальное гадание по фото

источник

18:51пожаловаться #18

Anton Alekseev in Moscow Spark

Andrey Smirnov

Надо смотреть план запроса, остальное гадание по фото

Да оно понятно, как нормально смогу оформить вопрос так задам с дополнительной информацией, сейчас же основное было в настройке кластера emr, может он из коробки кривой))

источник

18:53пожаловаться #19

Sultanmurad Abduev in Moscow Spark

Всем привет! Кто-нибудь может помочь, выполняю такой код:

b = a.groupby('union_subject_uuid').agg(F.collect_list('main_info').alias('main_info'))

Выдает ошибку:

An error occurred while calling o885.agg.
: java.lang.NullPointerException

источник

21:50пожаловаться #20