Size: a a a

2021 April 26

N

Nikita Blagodarnyy in Moscow Spark
после zipa
источник

PK

Pavel Klemenkov in Moscow Spark
Cogroup - это типичный RDD хак, чтобы сделать copartitioned rdd для широких трансформаций. Для примеров смотри книгу Холден
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Спасибо!
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Спасибо!
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Осталось придумать зачем это в реальной жизни, но теперь это есть в kotlin-spark-api, спасибо коммьюнити )))
источник

N

Nikita Blagodarnyy in Moscow Spark
вот тута добавится вкладочка?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну SPIP никто не подтвердил — сказали что коммьюнити у нас нет
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Так что пока что нет, не в ближайшем будущем
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну тем не менее оно officially supported by JB
источник

PK

Pavel Klemenkov in Moscow Spark
Мне все ещё кажется, что cogroup имеет смысл только тогда, когда ты можешь явно управлять партишенером. Учитывая, что в dataframe и dataset api это невозможно, то нафиг оно и не нужно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
def cogroup[U, R](other: KeyValueGroupedDataset[K, U])(f: (K, Iterator[V], Iterator[U]) ⇒ TraversableOnce[R])(implicit arg0: Encoder[R]): Dataset[R]
источник

ПФ

Паша Финкельштейн... in Moscow Spark
То есть оно есть для датасетов
источник

PK

Pavel Klemenkov in Moscow Spark
Это хак работает только при минимум двух широких трансформациях подряд, типа join().groupby()
источник

ПФ

Паша Финкельштейн... in Moscow Spark
но не для датафрейма
источник

PK

Pavel Klemenkov in Moscow Spark
Я питонист, посыпаю голову пеплом
источник

GP

Grigory Pomadchin in Moscow Spark
они в целом против еще языков в репе
источник

GP

Grigory Pomadchin in Moscow Spark
R надюесь выпилят, он существенно тормозит их
источник

GP

Grigory Pomadchin in Moscow Spark
холден говорила об этом на скала лове
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Я знаю про R, даже в докладе об этом говорил. Вопрос в том, что поддержка ещё одного JVM языка заметно проще чем поддержка не-JVM
источник

GP

Grigory Pomadchin in Moscow Spark
проще то проше, но имх пусть живет в отдельной репе со своим лайвсайклом
источник