Size: a a a

2020 September 25

DG

Denis Gabaydulin in Moscow Spark
Vendor lock@hardware )
источник
2020 September 28

А

Алексей in Moscow Spark
Неудобно выходит, что Moscow Spark #10 будет одновременно с DE or DIE #4
источник

PK

Pavel Klemenkov in Moscow Spark
Да сейчас столько ивентов развелось, что я уже забил проверять.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Pavel Klemenkov
Да сейчас столько ивентов развелось, что я уже забил проверять.
Эвентов для дата инжиров?
источник

PK

Pavel Klemenkov in Moscow Spark
Паша Финкельштейн
Эвентов для дата инжиров?
Ну и около того, да
источник

KO

Konstantin Orzhekhov... in Moscow Spark
Pavel Klemenkov
Да сейчас столько ивентов развелось, что я уже забил проверять.
Согласен, какой-то канал агрегатора напрашивается. Если кто нибудь знает такой - дайте ссылку
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Konstantin Orzhekhovsky
Согласен, какой-то канал агрегатора напрашивается. Если кто нибудь знает такой - дайте ссылку
источник

LS

Lookuut Struchkov in Moscow Spark
Коллеги, есть способ шарить pipeline model между spark и pyspark?
источник

LS

Lookuut Struchkov in Moscow Spark
Lookuut Struchkov
Коллеги, есть способ шарить pipeline model между spark и pyspark?
Мету руками поменял 😬
источник
2020 September 29

ПФ

Паша Финкельштейн... in Moscow Spark
источник

K

KrivdaTheTriewe in Moscow Spark
о, мы как раз готовим доклад по zio
источник
2020 September 30

PK

Pavel Klemenkov in Moscow Spark
Всем привет, рассылка со ссылкой на Zoom (для самых быстрых) и YouTube live (вообще для всех) Moscow Spark #10 ушла в модерацию TimePad. Надеюсь, что до завтрашнего утра она прилетит всем зарегистрировавшимся! Увидимся завтра!
источник

PK

Pavel Klemenkov in Moscow Spark
YouTube live начнется на канале Moscow Spark ровно в 18:30. Приходите сами и друзей зовите https://www.youtube.com/channel/UCb5cNv__wJLSbbc1k7iXXeQ
источник

VM

Vladimir Morozov in Moscow Spark
Всем привет!

мне нужно реализовать следующий флоу:
1) получить сообщения из Kafka топика `raw
2) распарсить их в case class
3) отправить ошибки парсинга в Kafka топик error
4) Сделать reduceByKey для всего что спарсилось
5) Отправить результаты reduce в кафку в токик data
6) commit offset for Kafka topic raw
GOTO (1)


Модель данных (Scala):

sealed trait Message

case class ParsedMessage(...) extends Message
case class ParseError(raw: String, exception: Throwable) extends Message


Я попытался решить проблему двумя способами:
1)Через Spark RDD - не работает потому что после reduceByKey невозможно получить Kafka offset, rdd.asInstanceOf[HasOffsetRanges].offsetRanges падает, потому что после первого же RDD.map{...} из типа RDD теряется связь с кафкой
2)Я попытался прикрутить Structured streaming, в доках обещают что офсеты будут магически комитится самостоятельно, код на Scala:

.f
latMap {
   case raw: RawMessage =>
       implicit val mapperInfo: ProviderKey = ProviderKey(RawMessageParser.name, RawMessageParser.version, 0)

       Try(parse[List[ParsedMessage]](Left(raw.message))) match {
           case Success(msg) =>
               msg
           case Failure(ex) =>
               Seq(ParseError(raw.nxMessage, ex))
       }
}

Но он падает или на компиляции или на запске (зависит от того указывать тип переменной или нет)

foun
d   : org.apache.spark.sql.Dataset[Product with Serializable with Message]
required: org.apache.spark.sql.Dataset[Message]
Note: Product with Serializable with Message <: Message, but class Dataset is invariant in type T.

Ес
ли вопрос не сюда, то подскажите чат где могут теоретически помочь с данным вопросом
источник
2020 October 01

DZ

Dmitry Zuev in Moscow Spark
Vladimir Morozov
Всем привет!

мне нужно реализовать следующий флоу:
1) получить сообщения из Kafka топика `raw
2) распарсить их в case class
3) отправить ошибки парсинга в Kafka топик error
4) Сделать reduceByKey для всего что спарсилось
5) Отправить результаты reduce в кафку в токик data
6) commit offset for Kafka topic raw
GOTO (1)


Модель данных (Scala):

sealed trait Message

case class ParsedMessage(...) extends Message
case class ParseError(raw: String, exception: Throwable) extends Message


Я попытался решить проблему двумя способами:
1)Через Spark RDD - не работает потому что после reduceByKey невозможно получить Kafka offset, rdd.asInstanceOf[HasOffsetRanges].offsetRanges падает, потому что после первого же RDD.map{...} из типа RDD теряется связь с кафкой
2)Я попытался прикрутить Structured streaming, в доках обещают что офсеты будут магически комитится самостоятельно, код на Scala:

.f
latMap {
   case raw: RawMessage =>
       implicit val mapperInfo: ProviderKey = ProviderKey(RawMessageParser.name, RawMessageParser.version, 0)

       Try(parse[List[ParsedMessage]](Left(raw.message))) match {
           case Success(msg) =>
               msg
           case Failure(ex) =>
               Seq(ParseError(raw.nxMessage, ex))
       }
}

Но он падает или на компиляции или на запске (зависит от того указывать тип переменной или нет)

foun
d   : org.apache.spark.sql.Dataset[Product with Serializable with Message]
required: org.apache.spark.sql.Dataset[Message]
Note: Product with Serializable with Message <: Message, but class Dataset is invariant in type T.

Ес
ли вопрос не сюда, то подскажите чат где могут теоретически помочь с данным вопросом
Причем тут офсет?
источник

VM

Vladimir Morozov in Moscow Spark
Dmitry Zuev
Причем тут офсет?
если в случае с RDD его на закомитить, то после перезапуска всё начнёт читаться с начала
источник

DZ

Dmitry Zuev in Moscow Spark
А чем ДС не подходит?
источник

VM

Vladimir Morozov in Moscow Spark
ДС = ?
источник

N

Nickolay in Moscow Spark
Датасеты
источник

VM

Vladimir Morozov in Moscow Spark
Если не сложно - дайте пожалуйста менее односложный коментарий, со скидкой на то что я со спарком, всего лищь, второй месяц пытаюсь общаться
источник