Size: a a a

2021 May 29

ПФ

Паша Финкельштейн... in Moscow Spark
Ну можно же посмотреть план выполнения и что происходит всё это время
источник

ПФ

Паша Финкельштейн... in Moscow Spark
В целом мне звучит норм что он долго выполняется
источник

AS

Anton Solomonov in Moscow Spark
Ок. Понял. Просто, думал что что то не так. Hive же очень быстро должен отрабатывать запросы, вроде. 😊
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Почему это? Я никогда не видел чтобы он работал прямо быстро, например сравнимо с постгресом
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну и опять же, распредённая группировка скорее всего тупо упирается в огромное количество передачи данных по сети
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Шаффлы, прости господи
источник

N

Nail in Moscow Spark
Мне кажется что тут явный перекос в данных. Посмотрите на длительность самого долгого таска и 75перцентиля
источник

AS

Anton Solomonov in Moscow Spark
Спасибо 😊
источник

t

tenKe in Moscow Spark
300 лямов за 2,5 часа это сколько ядер у джобы?
источник

AS

Anton Solomonov in Moscow Spark
Вроде, 4 ядра
источник

t

tenKe in Moscow Spark
а памяти у воркеров?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Подожди, вот допустим там 1000 ядер и 100 машин. Это будет работать адски медленно же всё равно
источник

AS

Anton Solomonov in Moscow Spark
Хз 🤷‍♂️
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Даже если данные не перекошены
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Потому что тебе придётся пересылать со всех машин на все по сути
источник

t

tenKe in Moscow Spark
зависит от:
1) перекоса ключа
2) какой агрегат делается
3) spark.sql.shuffle.partitions
источник

AS

Anton Solomonov in Moscow Spark
Если читать данные из hive, обрабатывать их pyspark и потом сохранять в hive.
Разве это не буде Быстрее чем обычная sql база данных ?
источник

t

tenKe in Moscow Spark
первый HashAggregate до шафла происходит
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Да, но вот поможет ли он - это вопрос )
источник

AS

Anton Solomonov in Moscow Spark
Можете ещё подсказать: насколько быстрее click house по сравнению с orc hive ?
источник