Size: a a a

2021 September 16

С

Сергей in Data Engineers
Пон, да я об этом
источник

С

Сергей in Data Engineers
ну т.е там в целом все норм у него внутри
источник

M

Mikhail in Data Engineers
OSGI? Не?
источник

A

Alex in Data Engineers
а при чём тут OSGI?
источник

С

Сергей in Data Engineers
видимо потому что я про Java заикнулся
источник

ИК

Иван Калининский... in Data Engineers
Да, вспоминаю. Походу, это я остановился на каком-то старом утверждении о неполноценности спарк cbo, надо вернуться и проверить. И на третьем спарке, типа не легаси)) А то я уже собирался кальцит гонять и думать, как бы его встроить

Но всё же, собранные статы хранятся в TBLPROPERTIES, гранулярные показатели туда не положить. Впрочем, это уже другой вопрос
источник

ИК

Иван Калининский... in Data Engineers
Норм, есть wholestage codegen. Правда не для всего, и иногда спарк его вообще отключает. Причина в размере генерируемого кода
источник

A

Alex in Data Engineers
@KaiNie_R
раньше были косяки что размер за 64кб у класса выскакивал, в итоге не компилировалось, сразу его фиксили
потом я видел фикс на разделение методов чтобы были меньше 8kb (на этом значении jit отключается для huge methods и остаётся только интерпретатор)
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
один из патчей
источник

A

Alex in Data Engineers
то есть вылеты за 8к всё ещё случаются, но уже значительно реже
источник

ИК

Иван Калининский... in Data Engineers
есть ютуб-видео нащёт разделения wholestage на методы нужного размера, я смотрел один раз и думал: «Во хардкор придумали, как это вообще можно сделать??»
источник

ЕГ

Евгений Глотов... in Data Engineers
Было дело😆👍
источник

ИК

Иван Калининский... in Data Engineers
и 100 полей сейчас дефолтный порог, выше которого кодоген отключается
источник

С

Сергей in Data Engineers
Понял, спасибо большое за инфу, буду знать, очень интересное обсуждение :)))
источник

A

Alex in Data Engineers
https://issues.apache.org/jira/browse/SPARK-21870
https://issues.apache.org/jira/browse/SPARK-28916

доп

а почему это проблема?

там в большинстве случаев раньше думали как клеить
а сейчас каждый экспрешен просто в свой метод запихнули
источник

A

Alex in Data Engineers
но видео я бы посмотрел, не видел =) только по комитам и тикетам и знаю
источник

ИК

Иван Калининский... in Data Engineers
но я пробовал, примерно 170 полей хорошо работают с кодогеном
источник

ИК

Иван Калининский... in Data Engineers
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
А в spark 3.* каждый withColumn всё также превращается в отдельный Project stage в плане выполнения запроса или там как-то это всё соптимизировали?
источник