Телеграмм чат группы moscowspark страница 384

Привет. Подскажите что почитать. Есть реализованный на pyspark пайплайн, в виде набора функций py, на выходе каждой функции структура питона и фрейм спарка, хочется при падении сессии и кластера, перезапустить расчеты с последнего удачного шага пайплайна. Можно например питоновскую структуру пиклить, а спарк фрейм сохранять на с3, и при новом запуске чекать, так сказать чекпоинты. Есть для этого готовые инструменты, чтобы не городить велосипед? Кстати, я так понял чекпоинты над рдд смысла использовать нет, если у тебя хдфс вместе с кластером с нуля рестартуют. (AWS EMR)

источник

11:11пожаловаться #10

DZ

Dmitry Zuev in Moscow Spark

есть, airflow

источник

11:16пожаловаться #11

T

T in Moscow Spark

Anton Alekseev

Привет. Подскажите что почитать. Есть реализованный на pyspark пайплайн, в виде набора функций py, на выходе каждой функции структура питона и фрейм спарка, хочется при падении сессии и кластера, перезапустить расчеты с последнего удачного шага пайплайна. Можно например питоновскую структуру пиклить, а спарк фрейм сохранять на с3, и при новом запуске чекать, так сказать чекпоинты. Есть для этого готовые инструменты, чтобы не городить велосипед? Кстати, я так понял чекпоинты над рдд смысла использовать нет, если у тебя хдфс вместе с кластером с нуля рестартуют. (AWS EMR)

есть datapipeline и stepfunctions

источник

11:18пожаловаться #12

AA

Anton Alekseev in Moscow Spark

Dmitry Zuev

есть, airflow

Да, но там это будет по сути так же выглядеть, что вы струткуру на выходе разбираете и сохраняете, при падении. Чекпоинтов не нашёл у них в доке, поправьте если не так + это в целом очень мощный инструмент, если пока не видишь необходимости в нем, стоит оверинженерить?

источник

11:20пожаловаться #13

DZ

Dmitry Zuev in Moscow Spark

как после падания сессии что-то делать то?

источник

11:21пожаловаться #14

AA

Anton Alekseev in Moscow Spark

Рестартанул кластер, засабмитил апп, вычитал с с3 последние удачные выходы элементов пайплайна, и пошёл дальше вести расчеты.

источник

11:22пожаловаться #15