Телеграмм чат группы hadoopusers страница 4215

Да, вспоминаю. Походу, это я остановился на каком-то старом утверждении о неполноценности спарк cbo, надо вернуться и проверить. И на третьем спарке, типа не легаси)) А то я уже собирался кальцит гонять и думать, как бы его встроить

Но всё же, собранные статы хранятся в TBLPROPERTIES, гранулярные показатели туда не положить. Впрочем, это уже другой вопрос

источник

13:04пожаловаться #6

ИК

Иван Калининский... in Data Engineers

Норм, есть wholestage codegen. Правда не для всего, и иногда спарк его вообще отключает. Причина в размере генерируемого кода

источник

13:10пожаловаться #7

Alex in Data Engineers

@KaiNie_R
раньше были косяки что размер за 64кб у класса выскакивал, в итоге не компилировалось, сразу его фиксили
потом я видел фикс на разделение методов чтобы были меньше 8kb (на этом значении jit отключается для huge methods и остаётся только интерпретатор)

источник

13:11пожаловаться #8

Alex in Data Engineers

https://issues.apache.org/jira/browse/SPARK-29008

источник

13:14пожаловаться #9

Alex in Data Engineers

один из патчей

источник

13:14пожаловаться #10

Alex in Data Engineers

то есть вылеты за 8к всё ещё случаются, но уже значительно реже

источник

13:16пожаловаться #11

ИК

Иван Калининский... in Data Engineers

есть ютуб-видео нащёт разделения wholestage на методы нужного размера, я смотрел один раз и думал: «Во хардкор придумали, как это вообще можно сделать??»

источник

13:17пожаловаться #12

ЕГ

Евгений Глотов... in Data Engineers

Было дело😆👍

источник

13:17пожаловаться #13

ИК

Иван Калининский... in Data Engineers

и 100 полей сейчас дефолтный порог, выше которого кодоген отключается

источник

13:18пожаловаться #14

Сергей in Data Engineers

Понял, спасибо большое за инфу, буду знать, очень интересное обсуждение :)))

источник

13:18пожаловаться #15

Alex in Data Engineers

https://issues.apache.org/jira/browse/SPARK-21870
https://issues.apache.org/jira/browse/SPARK-28916

доп

а почему это проблема?

там в большинстве случаев раньше думали как клеить
а сейчас каждый экспрешен просто в свой метод запихнули

источник

13:18пожаловаться #16

Alex in Data Engineers

но видео я бы посмотрел, не видел =) только по комитам и тикетам и знаю

источник

13:19пожаловаться #17

ИК

Иван Калининский... in Data Engineers

но я пробовал, примерно 170 полей хорошо работают с кодогеном

источник

13:20пожаловаться #18

ИК

Иван Калининский... in Data Engineers

https://youtu.be/wVs1FZyKXMY

YouTube

Understanding and Improving Code Generation

Code generation is integral to Spark’s physical execution engine. When implemented, the Spark engine creates optimized bytecode at runtime improving performance when compared to interpreted execution. Spark has taken the next step with whole-stage codegen which collapses an entire query into a single function. However, as the generated function sizes increase, new problems arise. Complex queries can lead to code generated functions ranging from thousands to hundreds of thousands of lines of code. This can lead to many problems such as OOM errors due to compilation costs, exceptions from exceeding the 64KB method limit in Java, and performance regressions when JIT compilation is turned off for a function whose bytecode exceeds 8KB. With whole-stage codegen turned off, Spark is able to split these functions into smaller functions to avoid these problems, but then the improvements of whole-stage codegen are lost. This talk will go over the improvements that Workday has made to code generation to handle whole-stage…

источник

13:23пожаловаться #19

Oleg Ilinsky in Data Engineers

Привет!
А в spark 3.* каждый withColumn всё также превращается в отдельный Project stage в плане выполнения запроса или там как-то это всё соптимизировали?

источник

14:07пожаловаться #20