Телеграмм чат группы moscowspark страница 512

Бесплатный вебинар «Разворачиваем приложение на Apache Spark в Kubernetes. Пошаговый рецепт» от Mail.ru Cloud Solutions

Cовременный DevOps-подход к работе со Spark, связанный с использованием Kubernetes, позволяет решать задачи изоляции рабочих сред, гибкого управления ресурсами и масштабирования. Популярные материалы останавливаются на запуске тестового приложения в K8s. В своем вебинаре мы идем дальше: даже начинающие научатся обрабатывать данные с помощью Spark в облаке.

На вебинаре мы вместе:
— Установим Kubernetes Operator for Apache Spark (Spark Operator);
— Запустим тестовый пример Spark-задачи/приложения;
— Соберем свой Docker-образ со Spark и кастомным приложением;
— Добавим необходимые библиотеки, креды для доступа к S3-хранилищу;
— Научимся читать из S3 и записывать в него.

По итогам вебинара вы получите готовый репозиторий с инструкцией и сможете самостоятельно повторить все действия, которые будут продемонстрированы в рамках вебинара.

Ждем вас в четверг, 4 февраля, онлайн.
Начало в 17:00 по Москве.

👉 Регистрируйтесь: https://vk.cc/bXkf3t

источник

22:39пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

Datamove

Спарк на кубе уже нормчик? Хорошему научат?

Так вот, у нас же даже доклад был на смартдате про это!

источник

23:13пожаловаться #8

2021 January 20

МН

Матвей Никонов... in Moscow Spark

Подскажите, пожалуйста, как лучше всего запустить кучу curl-ов и собрать их результаты в один DF?
Пробовал через parallel map-> запуск curl внутри; преобразование в DF-мы->reduce для объединения всех DF в один, но par.map стабильно вызывает ошибку java heap space.

источник

11:52пожаловаться #9

AK

Artem Kulbasov in Moscow Spark

Ну хип больше установи, не?

источник

12:02пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

Матвей Никонов

Подскажите, пожалуйста, как лучше всего запустить кучу curl-ов и собрать их результаты в один DF?
Пробовал через parallel map-> запуск curl внутри; преобразование в DF-мы->reduce для объединения всех DF в один, но par.map стабильно вызывает ошибку java heap space.

Лучше не делать этого курлом, а делать обычные запросы из джавы в seq и собирать их в df

источник

12:05пожаловаться #11

МН

Матвей Никонов... in Moscow Spark

Artem Kulbasov

Ну хип больше установи, не?

Слишком большая нехватка. Падает уже где-то на сотом curl, тогда как у меня их 18к, в дальнейшем может быть ещё больше.

источник

12:06пожаловаться #12

AK

Artem Kulbasov in Moscow Spark

Да, зачем тебе вообще курлы

источник

12:07пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

Ну или если это Пайтон - то реквестс и из результатов собрать df, но опасно

источник

12:09пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Или же ортогональный подход - сначала мы нормально собираем один файл из результатов курлов, а потом уже грузим его в df

источник

12:09пожаловаться #15

АЖ

Андрей Жуков... in Moscow Spark

Паша Финкельштейн

Или же ортогональный подход - сначала мы нормально собираем один файл из результатов курлов, а потом уже грузим его в df

вот я обычно так и делаю - нафиг оверхед в виде спарка?

источник

12:14пожаловаться #16

ПФ

Паша Финкельштейн... in Moscow Spark

Андрей Жуков

вот я обычно так и делаю - нафиг оверхед в виде спарка?

Можно распараллелить запрашивание по экзекьюторам

источник

12:14пожаловаться #17

t

tenKe in Moscow Spark

Андрей Жуков

вот я обычно так и делаю - нафиг оверхед в виде спарка?

++

с дф будут проблемы в таймаутами и т д. мильен курлов в интернет в один момент времени это вам не хухры мухры

источник

12:15пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

tenKe

++

с дф будут проблемы в таймаутами и т д. мильен курлов в интернет в один момент времени это вам не хухры мухры

Ну ладно "миллион". 10 экзекьюторов по 10 запросов одновременных

источник

12:17пожаловаться #19

K

KrivdaTheTriewe in Moscow Spark

Матвей Никонов

Подскажите, пожалуйста, как лучше всего запустить кучу curl-ов и собрать их результаты в один DF?
Пробовал через parallel map-> запуск curl внутри; преобразование в DF-мы->reduce для объединения всех DF в один, но par.map стабильно вызывает ошибку java heap space.

не использовать курл, а использовать библиотеку джавовую

источник

12:17пожаловаться #20