Size: a a a

2020 October 02

K

KrivdaTheTriewe in Moscow Spark
а как попасть на спарк саммит?
источник

A

Anton Lebedevich in Moscow Spark
зрителем или докладчиком?
источник
2020 October 03

K

KrivdaTheTriewe in Moscow Spark
докладчиком
источник

R

Renarde in Moscow Spark
KrivdaTheTriewe
докладчиком
Перед каждым саммитом есть CFP - можно подать заявку, и если она будет одобрена - выступить
источник
2020 October 05

VM

Vladimir Morozov in Moscow Spark
Коллеги, подскажите как через Structured Streaming реазиловать reduceByKeyAndWindow ?
источник

DZ

Dmitry Zuev in Moscow Spark
groupBy
источник

DZ

Dmitry Zuev in Moscow Spark
источник

VM

Vladimir Morozov in Moscow Spark
А как в agg потом передать scala функцию? Через RDD просто используется обычный код... А тут не понятно как сделать... Потому что мне нужно не просто sum делать или что-то подобное
источник

DZ

Dmitry Zuev in Moscow Spark
а что нужно?
источник

DZ

Dmitry Zuev in Moscow Spark
источник

VM

Vladimir Morozov in Moscow Spark
Dmitry Zuev
а что нужно?
По спецефисечкому алгоритму склеить событие из нескольких сообщений...
источник

VM

Vladimir Morozov in Moscow Spark
Тоже не совсем то, потому что идёт сборка только по времени... А это далеко не все по чему мне нужно сгруппировать
источник

DZ

Dmitry Zuev in Moscow Spark
источник

DZ

Dmitry Zuev in Moscow Spark
это пример
источник

DZ

Dmitry Zuev in Moscow Spark
группируй как хош
источник
2020 October 08

ПФ

Паша Финкельштейн... in Moscow Spark
источник
2020 October 09

AG

Alex Gorodnitskiy in Moscow Spark
привет, столкнулся с очень странной проблемой: spark dataframe сохраняю в csv и в некоторых местах значения в датафрейме заменяются на имя колонки, если же датафрейм сначала в пандас потом в csv, то все окей, и в hive тоже все нормально, может кто сталкивался с таким? Спарк 2.4, в гугле не гуглится
источник

AG

Alex Gorodnitskiy in Moscow Spark
Alex Gorodnitskiy
привет, столкнулся с очень странной проблемой: spark dataframe сохраняю в csv и в некоторых местах значения в датафрейме заменяются на имя колонки, если же датафрейм сначала в пандас потом в csv, то все окей, и в hive тоже все нормально, может кто сталкивался с таким? Спарк 2.4, в гугле не гуглится
ответ на свой вопрос: это битые значения и спарк их именем колонки заменяет, вот параметр за это отчевающий: columnNameOfCorruptRecord – allows renaming the new field having malformed string created by PERMISSIVE mode. This overrides spark.sql.columnNameOfCorruptRecord. If None is set, it uses the value specified in spark.sql.columnNameOfCorruptRecord.
источник
2020 October 12

VM

Vladimir Morozov in Moscow Spark
Всем привет
кто сталкился с Caused by: java.lang.ClassNotFoundException: kafka.DefaultSource
В spark-submit добавлено --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.0 что еще надо сделать что бы заработало?
источник

ME

Mikhail Epikhin in Moscow Spark
Vladimir Morozov
Всем привет
кто сталкился с Caused by: java.lang.ClassNotFoundException: kafka.DefaultSource
В spark-submit добавлено --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.0 что еще надо сделать что бы заработало?
Должно хватать
источник