Телеграмм чат группы moscowspark страница 78

lazy val rdd: RDD[T] = {
val objectType = exprEnc.deserializer.dataType
rddQueryExecution.toRdd.mapPartitions { rows =>
rows.map(_.get(0, objectType).asInstanceOf[T])
}
}

источник

15:25пожаловаться #10

t

tenKe in Moscow Spark

и на нем вотермарки не работают

источник

15:25пожаловаться #11

t

tenKe in Moscow Spark

а вот если в синке юзать data.queryExecution.toRdd, то все ок

источник

15:26пожаловаться #12

t

tenKe in Moscow Spark

sticker.webp

(29.16 Кб)

источник

15:27пожаловаться #13

t

tenKe in Moscow Spark

а, ну походу из-за этого:
@transient private lazy val rddQueryExecution: QueryExecution = {
val deserialized = CatalystSerde.deserialize[T](planWithBarrier)
sparkSession.sessionState.executePlan(deserialized)
}

источник

15:51пожаловаться #14

AD

Alex D in Moscow Spark

Andrey Sutugin

pr не к листенеру, листенер обычный(https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#reporting-metrics-programmatically-using-asynchronous-apis), но если делать кастомный sink, как онисено например здесь(https://github.com/jaceklaskowski/spark-structured-streaming-book/blob/master/spark-sql-streaming-demo-custom-sink-webui.adoc), то метрики работать не будут.
Вот пример, того что надо сделать в кстомном sink, что бы все заработало
https://github.com/sutugin/shc/blob/master/core/src/main/scala/org/apache/spark/sql/execution/streaming/HBaseStreamSinkProvider.scala#L29

GitHub

jaceklaskowski/spark-structured-streaming-book

The Internals of Spark Structured Streaming. Contribute to jaceklaskowski/spark-structured-streaming-book development by creating an account on GitHub.

спасибо за подробный ответ!

источник

19:37пожаловаться #15

2018 December 16

AD

Alex D in Moscow Spark

@tenKe @sutuginandrey
В Spark 2.4.0 проблемму кастомных синков для сохранения где либо решили штатно: https://stackoverflow.com/a/51319121

Stack Overflow

Avoiding multiple streaming queries

I have a structured streaming query which sinks to Kafka. This query has a complex aggregation logic.

I would like to sink the output DF of this query to multiple Kafka topics each partitioned on a

источник

17:15пожаловаться #16

AS

Andrey Sutugin in Moscow Spark

Alex D

@tenKe @sutuginandrey
В Spark 2.4.0 проблемму кастомных синков для сохранения где либо решили штатно: https://stackoverflow.com/a/51319121

Stack Overflow

Avoiding multiple streaming queries

I have a structured streaming query which sinks to Kafka. This query has a complex aggregation logic.

I would like to sink the output DF of this query to multiple Kafka topics each partitioned on a

не очень понял как это связано с кастомными синками... там вроде обсуждается проблема записи во множество синков...

источник

17:36пожаловаться #17

t

tenKe in Moscow Spark

Alex D

@tenKe @sutuginandrey
В Spark 2.4.0 проблемму кастомных синков для сохранения где либо решили штатно: https://stackoverflow.com/a/51319121

Stack Overflow

Avoiding multiple streaming queries

I have a structured streaming query which sinks to Kafka. This query has a complex aggregation logic.

I would like to sink the output DF of this query to multiple Kafka topics each partitioned on a

тут не совсем вопрос кастмомных синков решается, а скорее как на наделать кучу выходных стримов

источник

17:41пожаловаться #18

AD

Alex D in Moscow Spark

Andrey Sutugin

не очень понял как это связано с кастомными синками... там вроде обсуждается проблема записи во множество синков...

Имел ввиду, что теперь это можно использовать вместо
addBatch https://github.com/sutugin/shc/blob/master/core/src/main/scala/org/apache/spark/sql/execution/streaming/HBaseStreamSinkProvider.scala#L29
Написав:
streamingDF.writeStream.foreachBatch { (batchDF: DataFrame, batchId: Long) =>
batchDF.write.format("org.apache.spark.sql.execution.datasources.hbase").save(...)
}

GitHub

sutugin/shc

The Apache Spark - Apache HBase Connector is a library to support Spark accessing HBase table as external data source or sink. - sutugin/shc

источник

17:50пожаловаться #19

PK

Pavel Klemenkov in Moscow Spark

Alex D

Имел ввиду, что теперь это можно использовать вместо
addBatch https://github.com/sutugin/shc/blob/master/core/src/main/scala/org/apache/spark/sql/execution/streaming/HBaseStreamSinkProvider.scala#L29
Написав:
streamingDF.writeStream.foreachBatch { (batchDF: DataFrame, batchId: Long) =>
batchDF.write.format("org.apache.spark.sql.execution.datasources.hbase").save(...)
}

GitHub

sutugin/shc

The Apache Spark - Apache HBase Connector is a library to support Spark accessing HBase table as external data source or sink. - sutugin/shc

Да, я как раз этот пример приводил в хайлайтах 2.4.0

источник

19:04пожаловаться #20