Size: a a a

2021 April 06

PK

Pavel Klemenkov in Moscow Spark
Паша Финкельштейн
Чатик, а вы знаете про конфу datalove, которая совсем скоро? https://datalove.konfy.care/
И вы только посомтрите какой там лайнап? Я не видел Холден уже больше года, например!
Круто! А на Moscow Spark Холден выступать отказалась ))
источник

ИК

Иван Калининский... in Moscow Spark
Паша Финкельштейн
Чатик, а вы знаете про конфу datalove, которая совсем скоро? https://datalove.konfy.care/
И вы только посомтрите какой там лайнап? Я не видел Холден уже больше года, например!
Знаю, @pomadchin постил. И я никогда не видел Карау))
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Pavel Klemenkov
Круто! А на Moscow Spark Холден выступать отказалась ))
У Оли длинные руки. Это с одной стороны конфа про бигдату, а с другой стороны Холден давно знает Оли по скала комьюнити
источник

ИК

Иван Калининский... in Moscow Spark
халявный билетик забрал^^
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Иван Калининский
халявный билетик забрал^^
ну один-то баксик можно было и закинуть
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но я рад )
источник

ИК

Иван Калининский... in Moscow Spark
Коллеги, кто знает, как ограничить шафл? Дело в том, что если надо перемешать действительно крупную таблицу, то я раньше делал по частям, по терабайту, хотя бы. Но это было, когда я использовал внешний API. Было несложно взять сто тысяч файлов, перемешать их, чтобы получить бакеты, записать в конечную директорию и так хоть 100500 раз, весь вопрос только во времени.
Теперь получается сложнее, потому что ShuffleDependency, которая создаётся для стейджа, совсем одна и я не вижу способа как-то её размножить. Может кто-то знает более-менее стандартный способ сделать partial shuffle?
источник

АЖ

Андрей Жуков... in Moscow Spark
Иван Калининский
халявный билетик забрал^^
а она же и так за донат
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Андрей Жуков
а она же и так за донат
так и есть. Ну я вот предлагаю хотя бы доллар-то закинуть. Ну или там десять, сколько не жалко короч
источник

АЖ

Андрей Жуков... in Moscow Spark
Паша Финкельштейн
так и есть. Ну я вот предлагаю хотя бы доллар-то закинуть. Ну или там десять, сколько не жалко короч
ну 10 на Холден не жалко!
источник

ПФ

Паша Финкельштейн... in Moscow Spark
ну я тут не берусь говорить кто себе может сколько позволить, я помню как у меня зарплата была 25к из которых 12 уходило на квартиру, а ещё 12 за неё давали родители…
источник

PK

Pavel Klemenkov in Moscow Spark
Андрей Жуков
ну 10 на Холден не жалко!
Не забудь потом купить новую книжку Холдена про Kubeflow ))
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Pavel Klemenkov
Не забудь потом купить новую книжку Холдена про Kubeflow ))
Кажется, Холден неправильно склонять )
источник

АЖ

Андрей Жуков... in Moscow Spark
Pavel Klemenkov
Не забудь потом купить новую книжку Холдена про Kubeflow ))
у меня подписота на ACM 🙂
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Олсо, кубефлоу — огонь
источник

ИК

Иван Калининский... in Moscow Spark
Паша Финкельштейн
так и есть. Ну я вот предлагаю хотя бы доллар-то закинуть. Ну или там десять, сколько не жалко короч
а, значит не поздно еще! Кинул немного
источник

PK

Pavel Klemenkov in Moscow Spark
Паша Финкельштейн
Кажется, Холден неправильно склонять )
One thing at a time… )
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Pavel Klemenkov
One thing at a time… )
Ну вот да, именно поэтому ;)
источник

ИК

Иван Калининский... in Moscow Spark
Иван Калининский
Коллеги, кто знает, как ограничить шафл? Дело в том, что если надо перемешать действительно крупную таблицу, то я раньше делал по частям, по терабайту, хотя бы. Но это было, когда я использовал внешний API. Было несложно взять сто тысяч файлов, перемешать их, чтобы получить бакеты, записать в конечную директорию и так хоть 100500 раз, весь вопрос только во времени.
Теперь получается сложнее, потому что ShuffleDependency, которая создаётся для стейджа, совсем одна и я не вижу способа как-то её размножить. Может кто-то знает более-менее стандартный способ сделать partial shuffle?
Продолжаю размышления, может есть абстракция типа RDD => Seq[RDD], и можно на каждый RDD применить полученную ShuffleDependency? Но в конечном итоге они снова должны стать одним RDD, что их Union-ом склеивать?
источник

GP

Grigory Pomadchin in Moscow Spark
Pavel Klemenkov
Круто! А на Moscow Spark Холден выступать отказалась ))
Да я ж звал тя ...
источник