Size: a a a

2020 June 09

ЕГ

Евгений Глотов... in Moscow Spark
Вообще хорошая практика
источник

А

Алексей in Moscow Spark
Евгений Глотов
От мелких файлов можно избавиться, сделав перед сохранением репартишен
У меня sparksql запросы
источник

IV

Ilya Vanin in Moscow Spark
Евгений Глотов
От мелких файлов можно избавиться, сделав перед сохранением репартишен


И иногда красиво это припудрить .sortWithinPartitions()
источник

А

Алексей in Moscow Spark
Через sql это можно как то сделать?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну, можно бакетирование сделать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если у вас нет необходимости поддерживать доступность таблиц для хайва
источник

M

Mi in Moscow Spark
Алексей
Через sql это можно как то сделать?
DISTRIBUTE BY SORT BY вроде
источник

А

Алексей in Moscow Spark
Mi
DISTRIBUTE BY SORT BY вроде
Боюсь что запись n бакетов так же не будут грузить кластер, а занимать по времени также как запись n shuffle partition
источник

А

Алексей in Moscow Spark
Но я проверю, спасибо
источник
2020 June 10

AA

Anton Alekseev in Moscow Spark
Привет. Подскажите что почитать. Есть реализованный на pyspark пайплайн, в виде набора функций py, на выходе каждой функции структура питона и фрейм спарка, хочется при падении сессии и кластера, перезапустить расчеты с последнего удачного шага пайплайна. Можно например питоновскую структуру пиклить, а спарк фрейм сохранять на с3, и при новом запуске чекать, так сказать чекпоинты. Есть для этого готовые инструменты, чтобы не городить велосипед? Кстати, я так понял чекпоинты над рдд смысла использовать нет, если у тебя хдфс вместе с кластером с нуля рестартуют. (AWS EMR)
источник

DZ

Dmitry Zuev in Moscow Spark
есть, airflow
источник

T

T in Moscow Spark
Anton Alekseev
Привет. Подскажите что почитать. Есть реализованный на pyspark пайплайн, в виде набора функций py, на выходе каждой функции структура питона и фрейм спарка, хочется при падении сессии и кластера, перезапустить расчеты с последнего удачного шага пайплайна. Можно например питоновскую структуру пиклить, а спарк фрейм сохранять на с3, и при новом запуске чекать, так сказать чекпоинты. Есть для этого готовые инструменты, чтобы не городить велосипед? Кстати, я так понял чекпоинты над рдд смысла использовать нет, если у тебя хдфс вместе с кластером с нуля рестартуют. (AWS EMR)
есть datapipeline и stepfunctions
источник

AA

Anton Alekseev in Moscow Spark
Dmitry Zuev
есть, airflow
Да, но там это будет по сути так же выглядеть, что вы струткуру на выходе разбираете и сохраняете, при падении. Чекпоинтов не нашёл у них в доке, поправьте если не так + это в целом очень мощный инструмент, если пока не видишь необходимости в нем, стоит оверинженерить?
источник

DZ

Dmitry Zuev in Moscow Spark
как после падания сессии что-то делать то?
источник

AA

Anton Alekseev in Moscow Spark
Рестартанул кластер, засабмитил апп, вычитал с с3 последние удачные выходы элементов пайплайна, и пошёл дальше вести расчеты.
источник

DZ

Dmitry Zuev in Moscow Spark
и чем рестартить? руками?
источник

DZ

Dmitry Zuev in Moscow Spark
Сабмитеть тоже?
источник

AA

Anton Alekseev in Moscow Spark
Все это лямбдами уже делается и рулами.
источник

DZ

Dmitry Zuev in Moscow Spark
ну тогда б-г в п-мщ
источник

AA

Anton Alekseev in Moscow Spark
Я вас понял, по поводу айрфлоу, выглядит так что это все должно быть на нем, но имеется такая реализация, как я описал.
источник