Size: a a a

2020 January 22

DZ

Dmitry Zuev in Moscow Spark
источник

DZ

Dmitry Zuev in Moscow Spark
такое нужно?
источник

R

Renarde in Moscow Spark
Simon Osipov
Привет, вопрос:
Если я выдаю экзекьютору 3 гб и еще немного отсыпаю на overhead.
Затем кеширую какой-то нибудь df.

Cоответственно, на каждом экзекьюторе кешируется только та часть df, которая на нем есть, или на каждый экзекьютор приедет весь df, чтобы в памяти каждого экзекьютора был весь df?
Или я сильно запутался и ошибся?
если ты хочешь чтобы весь df был в памяти каждого экзекьютора (например у тебя есть словарик на 10 значений и ты хочешь быстрый broadcast hash join), то можно так же сделать не df.cache(), а broadcast(df)
источник

SO

Simon Osipov in Moscow Spark
ага, благодарю.
источник

R

Renarde in Moscow Spark
Simon Osipov
ага, благодарю.
Вот тут объяснение с картиночками:

https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram/
источник

SO

Simon Osipov in Moscow Spark
Супер
источник
2020 January 24

DS

Daniil Sazanov in Moscow Spark
привет, встречалось ли кому-нибудь что-то вроде сигнальной диаграммы записи спарком в greenplum?  из документации по v1.6 коннектора не до конца понятно, является ли master узким местом в данном сценарии
источник

DG

Denis Gabaydulin in Moscow Spark
Sergey Akopyan
Всем привет. Кто нибудь дружил spark со spring boot'ом ?
Я как то давно, в 2017 пробовал, с ходу не взлетело из-за конфликтов по транзитивным зависимостям. Задача была не супер приоритетная, но думаю можно было бы добить. А почему именно Spring? Можно взять что-то более легковесное. Netty например.
источник

SA

Sergey Akopyan in Moscow Spark
Тут больше хотелка не запуск в контейнере сервлетов, а в инфраструктуре спринг бута (ioc/di, cloud config что на самом деле можно решить без использования спринга). Ну и хотелось бы уйти от запуска через spark-submit.
источник

DZ

Dmitry Zuev in Moscow Spark
что не так с сабмитом?
источник

DG

Denis Gabaydulin in Moscow Spark
Внутри прикопан spark launcher можно запускать программно через него.
источник

DG

Denis Gabaydulin in Moscow Spark
IOC/DI я прикручивал, правда это был guice.
источник

DG

Denis Gabaydulin in Moscow Spark
И запускать джобы (вызывать actions) значительно лучше в уже запущенные контексты. Получается приличная экономия если много джобов бегают круглосуточно. Можно использовать глобал кеш опять же.
источник

DZ

Dmitry Zuev in Moscow Spark
что с этим не так?
источник

DZ

Dmitry Zuev in Moscow Spark
Переслано от Dmitry Zuev
источник

DG

Denis Gabaydulin in Moscow Spark
Denis Gabaydulin
IOC/DI я прикручивал, правда это был guice.
Но это такой сознательный выбор в пользу java, а не scala. Совмещать не очень.
источник

GP

Grigory Pomadchin in Moscow Spark
Dmitry Zuev
что с этим не так?
с ним все не так) да и надо экзекуторы горячими держать, в случае слишком разнородных джоб пользы никакой, только трудности конфигурирования оных
источник

DZ

Dmitry Zuev in Moscow Spark
а дружить с спрингом?
источник

DZ

Dmitry Zuev in Moscow Spark
самим
источник

GP

Grigory Pomadchin in Moscow Spark
Dmitry Zuev
а дружить с спрингом?
Зачем Спринг? Хочется специфичную апиху и запущеный контекст можно любой сервер написать и своё апи; будет и уже чем жоб сервер и удобнее
источник