Телеграмм чат группы moscowspark страница 641

Мне все ещё кажется, что cogroup имеет смысл только тогда, когда ты можешь явно управлять партишенером. Учитывая, что в dataframe и dataset api это невозможно, то нафиг оно и не нужно

источник

19:23пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

def cogroup[U, R](other: KeyValueGroupedDataset[K, U])(f: (K, Iterator[V], Iterator[U]) ⇒ TraversableOnce[R])(implicit arg0: Encoder[R]): Dataset[R]

источник

19:23пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

То есть оно есть для датасетов

источник

19:24пожаловаться #12

Pavel Klemenkov in Moscow Spark

Это хак работает только при минимум двух широких трансформациях подряд, типа join().groupby()

источник

19:24пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

но не для датафрейма

источник

19:24пожаловаться #14

Pavel Klemenkov in Moscow Spark

Я питонист, посыпаю голову пеплом

источник

19:25пожаловаться #15

Grigory Pomadchin in Moscow Spark

они в целом против еще языков в репе

источник

20:13пожаловаться #16

Grigory Pomadchin in Moscow Spark

R надюесь выпилят, он существенно тормозит их

источник

20:14пожаловаться #17

Grigory Pomadchin in Moscow Spark

холден говорила об этом на скала лове

источник

20:14пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Я знаю про R, даже в докладе об этом говорил. Вопрос в том, что поддержка ещё одного JVM языка заметно проще чем поддержка не-JVM

источник

20:20пожаловаться #19

Grigory Pomadchin in Moscow Spark

проще то проше, но имх пусть живет в отдельной репе со своим лайвсайклом

источник

20:20пожаловаться #20