Телеграмм чат группы moscowspark страница 615

10:02пожаловаться #4

ИК

Pavel Klemenkov

Всем привет. Вот такой вопрос. В RDD есть понятие known partitioner. И в джойнах одинаковые известные партишенеры не приводят к пересылкам. Но я никак не помогу понять, работает ли эта терминология для датафреймов? Поэкспериментировав понимаю, что вроде бы нет, Exchange оператору как будто бы плевать на это дело и опять же неясно, как вообще можно сравнить партишенеры двух датафреймов

В плане проверяется partitioning/distribution для обоих DF, потом каталист решает, что использовать по своему усмотрению, собственно партишенер RDD как экземпляр/класс в этой проверке не участвует. Довольно комплексный процесс, дело осложняется тем, что Distibution - sealed и не может быть расширен. С точки зрения нового партишенера для датафреймов не очень удобно, пришлось передавать распределение через аргумент, иначе он не сохраняется

10:07пожаловаться #5

IS

Иван Калининский

В плане проверяется partitioning/distribution для обоих DF, потом каталист решает, что использовать по своему усмотрению, собственно партишенер RDD как экземпляр/класс в этой проверке не участвует. Довольно комплексный процесс, дело осложняется тем, что Distibution - sealed и не может быть расширен. С точки зрения нового партишенера для датафреймов не очень удобно, пришлось передавать распределение через аргумент, иначе он не сохраняется

Можно чуть помедленнее, пожалуйста?
Если у нас два датафрейма имеют одну партишен колонку, то разве не просто без шафла их джоинить?
Почему это комплексный процесс?

N

Можно чуть помедленнее, пожалуйста?
Если у нас два датафрейма имеют одну партишен колонку, то разве не просто без шафла их джоинить?
Почему это комплексный процесс?

Разные значения этой колонки могут лежать на разных экзекьюторах/нодах. Чтобы шафла не было, мало простого совпадения колонки

10:12пожаловаться #7

ИК

Ilya Slesarev

Можно чуть помедленнее, пожалуйста?
Если у нас два датафрейма имеют одну партишен колонку, то разве не просто без шафла их джоинить?
Почему это комплексный процесс?

с тех пор, как появился RangePartitioner, всё стало несколько запутаннее)) И одной партишен-колонкой дело не ограничивалось никогда, нужно было совпадение числа партиций

10:13пожаловаться #8

IS

Резонно, понял

https://jaceklaskowski.gitbooks.io/mastering-spark-sql/content/spark-sql-bucketing.html

10:13пожаловаться #9

N

Nail in Moscow Spark

jaceklaskowski.gitbooks.io

Bucketing · The Internals of Spark SQL

10:14пожаловаться #10

N

Nail in Moscow Spark

Пример как избежать шафла

10:14пожаловаться #11

ИК

К тому же RangePartitioner и RoundRobinPartitioner не могут обеспечить совпадение ключей в партициях. Это делаеть только и исключительно HashPartitioner, а совпадение распределений проверяется через кейс-классы - наследники sealed trait Distribution

10:14пожаловаться #12

IS

https://jaceklaskowski.gitbooks.io/mastering-spark-sql/content/spark-sql-bucketing.html

Nail

jaceklaskowski.gitbooks.io

Bucketing · The Internals of Spark SQL

Крутая штука
Т.е. теория гласит, что если мы будем не "партишенить", а "бакетить", то без шафла сможем джоинить датафреймы?

10:18пожаловаться #13

ИК

Ilya Slesarev

Крутая штука
Т.е. теория гласит, что если мы будем не "партишенить", а "бакетить", то без шафла сможем джоинить датафреймы?

И вот, HashPartitioner настроен на то, чтобы быть совместимым с Hive bucketed table, но с Hive всё не очень складывается, зато в самом спарке работает неплохо. Поэтому спарковские бакетированные таблицы действительно не нужно шафлить, чтобы джойнить с произвольным датафреймом, потому что будет зашафлен этот датафрейм

10:20пожаловаться #14

IS

Иван Калининский

И вот, HashPartitioner настроен на то, чтобы быть совместимым с Hive bucketed table, но с Hive всё не очень складывается, зато в самом спарке работает неплохо. Поэтому спарковские бакетированные таблицы действительно не нужно шафлить, чтобы джойнить с произвольным датафреймом, потому что будет зашафлен этот датафрейм

Понял, спасибо!

10:20пожаловаться #15

IS

Новый день - новое знание

10:20пожаловаться #16

ИК

при условии совпадения ключей, конечно!