Телеграмм чат группы moscowspark страница 462

А как в agg потом передать scala функцию? Через RDD просто используется обычный код... А тут не понятно как сделать... Потому что мне нужно не просто sum делать или что-то подобное

источник

19:06пожаловаться #8

DZ

Dmitry Zuev in Moscow Spark

а что нужно?

источник

19:08пожаловаться #9

DZ

Dmitry Zuev in Moscow Spark

https://spark.apache.org/docs/latest/sql-ref-functions-udf-aggregate.html

источник

19:09пожаловаться #10

VM

Vladimir Morozov in Moscow Spark

Dmitry Zuev

а что нужно?

По спецефисечкому алгоритму склеить событие из нескольких сообщений...

источник

19:09пожаловаться #11

VM

Vladimir Morozov in Moscow Spark

Dmitry Zuev

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time

Тоже не совсем то, потому что идёт сборка только по времени... А это далеко не все по чему мне нужно сгруппировать

источник

19:13пожаловаться #12

DZ

Dmitry Zuev in Moscow Spark

sticker.webp

(26.14 Кб)

источник

19:14пожаловаться #13

DZ

Dmitry Zuev in Moscow Spark

это пример

источник

19:14пожаловаться #14

DZ

Dmitry Zuev in Moscow Spark

группируй как хош

источник

19:14пожаловаться #15

2020 October 08

ПФ

Паша Финкельштейн... in Moscow Spark

@krivdathetriewe @pklemenkov

источник

21:29пожаловаться #16

2020 October 09

AG

Alex Gorodnitskiy in Moscow Spark

привет, столкнулся с очень странной проблемой: spark dataframe сохраняю в csv и в некоторых местах значения в датафрейме заменяются на имя колонки, если же датафрейм сначала в пандас потом в csv, то все окей, и в hive тоже все нормально, может кто сталкивался с таким? Спарк 2.4, в гугле не гуглится

источник

13:15пожаловаться #17

AG

Alex Gorodnitskiy in Moscow Spark

Alex Gorodnitskiy

привет, столкнулся с очень странной проблемой: spark dataframe сохраняю в csv и в некоторых местах значения в датафрейме заменяются на имя колонки, если же датафрейм сначала в пандас потом в csv, то все окей, и в hive тоже все нормально, может кто сталкивался с таким? Спарк 2.4, в гугле не гуглится

ответ на свой вопрос: это битые значения и спарк их именем колонки заменяет, вот параметр за это отчевающий: columnNameOfCorruptRecord – allows renaming the new field having malformed string created by PERMISSIVE mode. This overrides spark.sql.columnNameOfCorruptRecord. If None is set, it uses the value specified in spark.sql.columnNameOfCorruptRecord.

источник

13:23пожаловаться #18

2020 October 12

VM

Vladimir Morozov in Moscow Spark

Всем привет
кто сталкился с Caused by: java.lang.ClassNotFoundException: kafka.DefaultSource
В spark-submit добавлено --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.0 что еще надо сделать что бы заработало?

источник

15:48пожаловаться #19

ME

Mikhail Epikhin in Moscow Spark

Vladimir Morozov

Всем привет
кто сталкился с Caused by: java.lang.ClassNotFoundException: kafka.DefaultSource
В spark-submit добавлено --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.0 что еще надо сделать что бы заработало?

Должно хватать

источник

15:50пожаловаться #20