Size: a a a

2021 May 13

N

Nikita Blagodarnyy in Moscow Spark
и что? был ключ (Москва, Хамовники) стал (Москва, Хамовники,199)
источник

N

Nikita Blagodarnyy in Moscow Spark
я понимаю смысл сделать 199 разных ключей (Москва, Хамовники,1) (Москва, Хамовники,2) (Москва, Хамовники,3) …(Москва, Хамовники,199). тогда они все на разные воркеры приедут.
источник

ИК

Иван Калининский... in Moscow Spark
Кринжатина какая-то(
По учебнику должно быть .groupBy(key, rand() * z).agg(…).groupBy(key).agg(…)
источник

NN

No Name in Moscow Spark
А, ну да ..
источник

SS

Sergey Sheremeta in Moscow Spark
где все синьоры? кто объяснит: ошибка это или глубокий алгоритмический финт?
источник

ИК

Иван Калининский... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
глубокая ошибка, наверное. Но синьоров действительно нужно найти!!
источник

N

Nikita Blagodarnyy in Moscow Spark
тут нужны принципалы.
источник

SS

Sergey Sheremeta in Moscow Spark
я этот ваш спарк вообще не понимаю. постоянно ищу подвох и хитрую логику в чужом коде... я один такой?
источник

ИК

Иван Калининский... in Moscow Spark
да что уж тут, надо скопировать этот код, сгенерить пару гигабайт данных с перекосом, и бенчмаркать, что получится
источник

PK

Pavel Klemenkov in Moscow Spark
Это ошибочный слайд. Забавно, что ровно неделю назад я его разбирал и обнаружил этот кринж ))
источник

N

Nikita Blagodarnyy in Moscow Spark
он причём на серьезных щщах рассказывает, что вот тут добавится рандомизация и все размажется более лутше. можно было бы подумать, что код горбатый вставили, но голосом тоже говорят «лит колумн».
источник

А

Алексей in Moscow Spark
наверно, это говорит о том, что в реально никто размазыванием не занимается
источник

А

Алексей in Moscow Spark
есть кто реально за этим следит, вместо подкинуть памяти экзекутору и чуть подождать?)
источник

PK

Pavel Klemenkov in Moscow Spark
Не-не, в другой его презентации я уже видел правильный кодец. Он, правда, касался skew join. Уверен, что в этом слайде просто глупая ошибка, которую сделали в спешке.
источник

ИК

Иван Калининский... in Moscow Spark
ну, если на пару суток зависнет, то да
источник

PK

Pavel Klemenkov in Moscow Spark
Так в настоящим skew бывает, что ты ждешь совсем не чуть ))
источник

N

Nikita Blagodarnyy in Moscow Spark
тут вот тоже ошибка. это разные запросы с разным смыслом.
источник

А

Алексей in Moscow Spark
вот в тему стар join, было бы удобно, чтобы такие подзапросы преобразовывались бы в физический набор констант для фильтрации факта
источник

ИК

Иван Калининский... in Moscow Spark
тут вроде же было, что col(«x»).isin() генерит немеряную кучу кода
источник