Size: a a a

2018 December 16

AD

Alex D in Moscow Spark
Pavel Klemenkov
Да, я как раз этот пример приводил в хайлайтах 2.4.0
О как.
Павел, извини!
Слона то я и не приметил ...
источник
2018 December 18

N

Ninja in Moscow Spark
Привет. Скажите , пожалуйста, если я разношу в физической модели по 2 юнитам структуру
источник

N

Ninja in Moscow Spark
То мне можно уже в качестве значений для таргета во втором юните  использовать только тот объект, для которого создана темповая таблица во втором юните с таргетом?
источник

N

Ninja in Moscow Spark
Я не могу обратиться к объектам других юнитов?
источник

N

Ninja in Moscow Spark
Так.. уточнение -выгрузка в hadoop через odi. Юниты в odi. Наверное не по адресу
источник

N

Ninja in Moscow Spark
Сори!
источник

A

Aleksander in Moscow Spark
Ninja
Сори!
источник
2018 December 20

AA

Anton Alekseev in Moscow Spark
День добрый. Подскажите пожалуйста, это нормально что withColumn("result", col(1) * col(2) - col(3)) только 1 ядро на машинке утилизирует? Параллелить только через rdd?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ненормально, надо проверять, что до этого и после этого написано, вызколумн - это мап, он работает параллельно
источник

AA

Anton Alekseev in Moscow Spark
Евгений Глотов
Ненормально, надо проверять, что до этого и после этого написано, вызколумн - это мап, он работает параллельно
окей, покопаю, спасибо.
источник

AA

Anton Alekseev in Moscow Spark
Поделитесь пожалуйста опытом. Если вы работали в AWS EMR подскажите, нуждались ли кластеры в какой либо тонкой настройке? Я использую такой конфиг для кластера в 5 машинок (из которых 4 воркера 4 цпу 32гб рам.)
spark maximizeResourceAllocation true
spark-defaults spark.dynamicAllocation.enabled true
spark-defaults spark.sql.shuffle.partitions 16
spark-defaults spark.sql.execution.arrow.enabled true
spark-defaults spark.default.parallelism 50
spark-env.export PYSPARK_PYTHON /home/hadoop/conda/bin/python3.5
источник

EV

Eduard Vlasov in Moscow Spark
У нас presto на постоянном кластере, тюнил память
источник

AA

Anton Alekseev in Moscow Spark
Ну и с такими конфигами меня совсем не радует скорость, хотя работаю с двумя фреймами по 13млн строк.
источник

EV

Eduard Vlasov in Moscow Spark
Чтоб yarn и presto не дрались
источник

AP

Artem Pichugin in Moscow Spark
По-моему, параллелизм слишком большой для такого кластера
источник

AA

Anton Alekseev in Moscow Spark
Artem Pichugin
По-моему, параллелизм слишком большой для такого кластера
окей, попробую уменьшить.
источник

AP

Artem Pichugin in Moscow Spark
https://umbertogriffo.gitbooks.io/apache-spark-best-practices-and-tuning/content/sparksqlshufflepartitions_draft.html - тут вот есть какие-то советы с расчетами, например
источник

AS

Andrey Smirnov in Moscow Spark
Anton Alekseev
окей, попробую уменьшить.
Надо смотреть план запроса, остальное гадание по фото
источник

AA

Anton Alekseev in Moscow Spark
Andrey Smirnov
Надо смотреть план запроса, остальное гадание по фото
Да оно понятно, как нормально смогу оформить вопрос так задам с дополнительной информацией, сейчас же основное было в настройке кластера emr, может он из коробки кривой))
источник

SA

Sultanmurad Abduev in Moscow Spark
Всем привет! Кто-нибудь может помочь, выполняю такой код:

b = a.groupby('union_subject_uuid').agg(F.collect_list('main_info').alias('main_info'))

Выдает ошибку:

An error occurred while calling o885.agg.
: java.lang.NullPointerException
источник