Телеграмм чат группы moscowspark страница 255

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 February 04

K

KrivdaTheTriewe in Moscow Spark

Ну что , кто нибудь сделал уже пункт управления для стриминг жоб с фронтом красивым ?

источник

10:52пожаловаться #1

K

KrivdaTheTriewe in Moscow Spark

From Today, we have branch-3.0 as a tool of Feature Freeze.

https://github.com/apache/spark/tree/branch-3.0

All open JIRA issues whose type is Improvement or New Feature and had 3.0.0 as a Target Version are changed accordingly first.

- Most of them are re-targeted to 3.1.0.
- Some of them are resolved according to the JIRA content.
- Some unauthorized target versions are removed according to the community policy.

To sum up, we have no open Improvement/New Feature JIRA issues targeting 3.0.0 officially. For exceptional cases, we will discuss on them case by case during 3.0.0 QA phase.

apache/spark

Apache Spark - A unified analytics engine for large-scale data processing - apache/spark

источник

11:03пожаловаться #2

PK

Pavel Klemenkov in Moscow Spark

На Спарк саммите зарелизят видимо

источник

11:22пожаловаться #3

A🦕

Alexander Rodionov 🦕... in Moscow Spark

как думаете спарк "достаточно умный" чтобы в таком коде

.groupByKey()
.mapValues(len)

считать длину сначала на каждой партиции и потом сложить их?

https://spark.apache.org/docs/latest/api/python/_modules/pyspark/rdd.html#RDD.groupByKey

или нужно самому вручную пилить aggregateByKey
?

источник

13:09пожаловаться #4

PK

Pavel Klemenkov in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

как думаете спарк "достаточно умный" чтобы в таком коде

.groupByKey()
.mapValues(len)

считать длину сначала на каждой партиции и потом сложить их?

https://spark.apache.org/docs/latest/api/python/_modules/pyspark/rdd.html#RDD.groupByKey

или нужно самому вручную пилить aggregateByKey
?

В Spark Core (RDD) никаких оптимизаторов нет. Хочешь оптимизацию - пиши на датафреймах/датасетах. Иначе - сам

источник

13:11пожаловаться #5

A🦕

Alexander Rodionov 🦕... in Moscow Spark

ну просто вот по ссылке вроде показалось что есть, я просто код не вывез (буду вывозить сейчас)

источник

13:16пожаловаться #6

SS

Semyon Sinchenko in Moscow Spark

Фигню написал)

источник

13:28пожаловаться #7

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Semyon Sinchenko

Фигню написал)

) а я уже начал имплементить

источник

13:28пожаловаться #8

AA

Anton Alekseev in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

) а я уже начал имплементить

и даже что-то получилось?)))

источник

13:29пожаловаться #9

A🦕

Alexander Rodionov 🦕... in Moscow Spark

вот в reduce, reduceByKey, aggregate, aggregateByKey точно такая оптимизация есть

источник

13:32пожаловаться #10

A🦕

Alexander Rodionov 🦕... in Moscow Spark

типа делаем reduce сначала на нодах а потом редьюс результатов на драйвере

источник

13:33пожаловаться #11

A🦕

Alexander Rodionov 🦕... in Moscow Spark

но все эти функции присылают результат на драйвер а мне это не нужно, у меня он не влезет, мне нужно оставить в RDD

источник

13:34пожаловаться #12

DK

Daniel Kogan in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

но все эти функции присылают результат на драйвер а мне это не нужно, у меня он не влезет, мне нужно оставить в RDD

А как тогда вы результат хотите извлечь?

источник

13:36пожаловаться #13

DK

Daniel Kogan in Moscow Spark

Можно сделать любой редьюс, он пошафлит результат, но коллект на драйвер делать не будет

источник

13:37пожаловаться #14

DK

Daniel Kogan in Moscow Spark

Это не подходит?

источник

13:37пожаловаться #15

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Daniel Kogan

Можно сделать любой редьюс, он пошафлит результат, но коллект на драйвер делать не будет

как?

источник

13:38пожаловаться #16

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Daniel Kogan

А как тогда вы результат хотите извлечь?

ды я его просто сохраню в пикл saveAsPickle / потом прочту / либо сконверчу .toDF() .write.saveAsTable

источник

13:38пожаловаться #17

DK

Daniel Kogan in Moscow Spark

rdd.reduceByKey(...) а дальше просто писать в любую базу/диск

источник

13:39пожаловаться #18

DK

Daniel Kogan in Moscow Spark

Он не будет держать всю rdd физически на драйвере

источник

13:40пожаловаться #19

DK

Daniel Kogan in Moscow Spark

Будет записывать по партишенам, но пикл конечно не прокатит, его нельзя писать/читать по частям вроде бы

источник

13:41пожаловаться #20