Size: a a a

2021 January 19

AK

Andrew Konstantinov in Moscow Spark
Боль без schéma registry(
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну да, я об этом и говорю
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но в смысле это нормальный путь достаточно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Сразу же возникает вопрос о рациональности использования pyspark тут, конечно, но если иначе никак - то иначе никак
источник

GP

Grigory Pomadchin in Moscow Spark
Интересно как такие попадают сюда
источник

D

Datamove in Moscow Spark
Спарк на кубе уже нормчик? Хорошему научат?
источник

D

Datamove in Moscow Spark
​​Бесплатный вебинар «Разворачиваем приложение на Apache Spark в Kubernetes. Пошаговый рецепт» от Mail.ru Cloud Solutions

Cовременный DevOps-подход к работе со Spark, связанный с использованием Kubernetes, позволяет решать задачи изоляции рабочих сред, гибкого управления ресурсами и масштабирования. Популярные материалы останавливаются на запуске тестового приложения в K8s. В своем вебинаре мы идем дальше: даже начинающие научатся обрабатывать данные с помощью Spark в облаке.

На вебинаре мы вместе:
— Установим Kubernetes Operator for Apache Spark (Spark Operator);
— Запустим тестовый пример Spark-задачи/приложения;
— Соберем свой Docker-образ со Spark и кастомным приложением;
— Добавим необходимые библиотеки, креды для доступа к S3-хранилищу;
— Научимся читать из S3 и записывать в него.

По итогам вебинара вы получите готовый репозиторий с инструкцией и сможете самостоятельно повторить все действия, которые будут продемонстрированы в рамках вебинара.

Ждем вас в четверг, 4 февраля, онлайн.
Начало в 17:00 по Москве.

👉 Регистрируйтесь: https://vk.cc/bXkf3t
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Datamove
Спарк на кубе уже нормчик? Хорошему научат?
Так вот, у нас же даже доклад был на смартдате про это!
источник
2021 January 20

МН

Матвей Никонов... in Moscow Spark
Подскажите, пожалуйста, как лучше всего запустить кучу curl-ов и собрать их результаты в один DF?
Пробовал через parallel map-> запуск curl внутри; преобразование в DF-мы->reduce для объединения всех DF в один, но par.map стабильно вызывает ошибку java heap space.
источник

AK

Artem Kulbasov in Moscow Spark
Ну хип больше установи, не?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Матвей Никонов
Подскажите, пожалуйста, как лучше всего запустить кучу curl-ов и собрать их результаты в один DF?
Пробовал через parallel map-> запуск curl внутри; преобразование в DF-мы->reduce для объединения всех DF в один, но par.map стабильно вызывает ошибку java heap space.
Лучше не делать этого курлом, а делать обычные запросы из джавы в seq и собирать их в df
источник

МН

Матвей Никонов... in Moscow Spark
Artem Kulbasov
Ну хип больше установи, не?
Слишком большая нехватка. Падает уже где-то на сотом curl, тогда как у меня их 18к, в дальнейшем может быть ещё больше.
источник

AK

Artem Kulbasov in Moscow Spark
Да, зачем тебе вообще курлы
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну или если это Пайтон - то реквестс и из результатов собрать df, но опасно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Или же ортогональный подход - сначала мы нормально собираем один файл из результатов курлов, а потом уже грузим его в df
источник

АЖ

Андрей Жуков... in Moscow Spark
Паша Финкельштейн
Или же ортогональный подход - сначала мы нормально собираем один файл из результатов курлов, а потом уже грузим его в df
вот я обычно так и делаю - нафиг оверхед в виде спарка?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Андрей Жуков
вот я обычно так и делаю - нафиг оверхед в виде спарка?
Можно распараллелить запрашивание по экзекьюторам
источник

t

tenKe in Moscow Spark
Андрей Жуков
вот я обычно так и делаю - нафиг оверхед в виде спарка?
++

с дф будут проблемы в таймаутами и т д. мильен курлов в интернет в один момент времени это вам не хухры мухры
источник

ПФ

Паша Финкельштейн... in Moscow Spark
tenKe
++

с дф будут проблемы в таймаутами и т д. мильен курлов в интернет в один момент времени это вам не хухры мухры
Ну ладно "миллион". 10 экзекьюторов по 10 запросов одновременных
источник

K

KrivdaTheTriewe in Moscow Spark
Матвей Никонов
Подскажите, пожалуйста, как лучше всего запустить кучу curl-ов и собрать их результаты в один DF?
Пробовал через parallel map-> запуск curl внутри; преобразование в DF-мы->reduce для объединения всех DF в один, но par.map стабильно вызывает ошибку java heap space.
не использовать курл, а использовать библиотеку  джавовую
источник