Size: a a a

2020 February 04

K

KrivdaTheTriewe in Moscow Spark
Ну что , кто нибудь сделал уже пункт управления для стриминг жоб с фронтом красивым ?
источник

K

KrivdaTheTriewe in Moscow Spark
From Today, we have branch-3.0 as a tool of Feature Freeze.

    https://github.com/apache/spark/tree/branch-3.0

All open JIRA issues whose type is Improvement or New Feature and had 3.0.0 as a Target Version are changed accordingly first.

    - Most of them are re-targeted to 3.1.0.
    - Some of them are resolved according to the JIRA content.
    - Some unauthorized target versions are removed according to the community policy.

To sum up, we have no open Improvement/New Feature JIRA issues targeting 3.0.0 officially. For exceptional cases, we will discuss on them case by case during 3.0.0 QA phase.
источник

PK

Pavel Klemenkov in Moscow Spark
На Спарк саммите зарелизят видимо
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
как думаете спарк "достаточно умный" чтобы в таком коде

.groupByKey()
.mapValues(len)


считать длину сначала на каждой партиции и потом сложить их?

https://spark.apache.org/docs/latest/api/python/_modules/pyspark/rdd.html#RDD.groupByKey

или нужно самому вручную пилить aggregateByKey
?
источник

PK

Pavel Klemenkov in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
как думаете спарк "достаточно умный" чтобы в таком коде

.groupByKey()
.mapValues(len)


считать длину сначала на каждой партиции и потом сложить их?

https://spark.apache.org/docs/latest/api/python/_modules/pyspark/rdd.html#RDD.groupByKey

или нужно самому вручную пилить aggregateByKey
?
В Spark Core (RDD) никаких оптимизаторов нет. Хочешь оптимизацию - пиши на датафреймах/датасетах. Иначе - сам
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
ну просто вот по ссылке вроде показалось что есть, я просто код не вывез (буду вывозить сейчас)
источник

SS

Semyon Sinchenko in Moscow Spark
Фигню написал)
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Semyon Sinchenko
Фигню написал)
) а я уже начал имплементить
источник

AA

Anton Alekseev in Moscow Spark
и даже что-то получилось?)))
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
вот в reduce, reduceByKey, aggregate, aggregateByKey точно такая оптимизация есть
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
типа делаем reduce сначала на нодах а потом редьюс результатов на драйвере
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
но все эти функции присылают результат на драйвер а мне это не нужно, у меня он не влезет, мне нужно оставить в RDD
источник

DK

Daniel Kogan in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
но все эти функции присылают результат на драйвер а мне это не нужно, у меня он не влезет, мне нужно оставить в RDD
А как тогда вы результат хотите извлечь?
источник

DK

Daniel Kogan in Moscow Spark
Можно сделать любой редьюс, он пошафлит результат, но коллект на драйвер делать не будет
источник

DK

Daniel Kogan in Moscow Spark
Это не подходит?
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Daniel Kogan
Можно сделать любой редьюс, он пошафлит результат, но коллект на драйвер делать не будет
как?
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Daniel Kogan
А как тогда вы результат хотите извлечь?
ды я его просто сохраню в пикл saveAsPickle / потом прочту / либо сконверчу .toDF() .write.saveAsTable
источник

DK

Daniel Kogan in Moscow Spark
rdd.reduceByKey(...) а дальше просто писать в любую базу/диск
источник

DK

Daniel Kogan in Moscow Spark
Он не будет держать всю rdd физически на драйвере
источник

DK

Daniel Kogan in Moscow Spark
Будет записывать по партишенам, но пикл конечно не прокатит, его нельзя писать/читать по частям вроде бы
источник