Size: a a a

2018 July 02

FL

Fedor Lavrentyev in Moscow Spark
А, это было у MapReduce, число input split'ов на маппер
источник

FL

Fedor Lavrentyev in Moscow Spark
Чёрт
источник

AK

Alexander K. in Moscow Spark
хачили Спарк чтоб он blacklist делал на тупых executors
источник

AK

Alexander K. in Moscow Spark
а Амазон любит давать полу-битые ноды
источник

ЕГ

Евгений Глотов... in Moscow Spark
Alexander K.
хачили Спарк чтоб он blacklist делал на тупых executors
У нас так один раз все экзекуторы оказались в блэклисте, и в итоге ничего не работало)
источник

ЕГ

Евгений Глотов... in Moscow Spark
В запилине общая сессия когда висела на всех, перезапуск с изменением конфига конечно помог)
источник

AK

Alexander K. in Moscow Spark
У нас норм летело. Обычно при поднятии 200 нод примерно 1-3 были битые, мы их быстренько блеклистили и работали дальше
источник

PK

Pavel Klemenkov in Moscow Spark
Fedor Lavrentyev
А, это было у MapReduce, число input split'ов на маппер
Это тут при чем? Так и динамичесукю аллокацию контейнеров можно назвать тем, что тебе нужно.
источник

PK

Pavel Klemenkov in Moscow Spark
Ну, кстати, да. Возможно это и есть то, что тебе нужно
источник

SK

Sergey Karpov in Moscow Spark
Всем привет. Подскажите, пожалуйста, а как правильно реализуется обновление статичных объектов в spark structured streaming? Например если есть Pipeline c МЛ моделью или реддко обновляемый паркет.
источник

PK

Pavel Klemenkov in Moscow Spark
Sergey Karpov
Всем привет. Подскажите, пожалуйста, а как правильно реализуется обновление статичных объектов в spark structured streaming? Например если есть Pipeline c МЛ моделью или реддко обновляемый паркет.
Ты имеешь в виду, как обновить пайплайн, не перезапуская джоб?
источник

SK

Sergey Karpov in Moscow Spark
да. у меня есть спарк джоба в которой используется МЛ модель с предиктом. Спарк стримминг крутится.  Нужно как-то обновить модель
источник

SK

Sergey Karpov in Moscow Spark
или в таких случаях перезапускают стримминг?
источник

PK

Pavel Klemenkov in Moscow Spark
Не знаю способов динамического изменения дага, думаю, что только перезапуск.
источник

DU

Dmitry Ursegov in Moscow Spark
А план там вроде на каждый микробатч пересчитывается, проблема я так понимаю как статическую таблицу обновить
источник

K

KrivdaTheTriewe in Moscow Spark
источник

SK

Sergey Karpov in Moscow Spark
Dmitry нет. спарк при запуске формирует даг и туда зашивает путь к модели. И каждый микробатч  грузит туда модель (PipelineModel.load('hdfs://...')) по этому пути. Вопрос был в том, как изменить этот путь, после того как обучилась новая модель. Со статическими таблицами кажется что проще. потому что на каждый батч будет выполняться запрос к БД
источник

AK

Artem Kulbasov in Moscow Spark
У меня тоже
источник

AT

Andrey Tsibulskiy in Moscow Spark
Sergey Karpov
Dmitry нет. спарк при запуске формирует даг и туда зашивает путь к модели. И каждый микробатч  грузит туда модель (PipelineModel.load('hdfs://...')) по этому пути. Вопрос был в том, как изменить этот путь, после того как обучилась новая модель. Со статическими таблицами кажется что проще. потому что на каждый батч будет выполняться запрос к БД
Почему бы не хранить путь в бд или банально в файле , и переписывать его когда модель новая обучилась - самое примитивное решение . Обычно всякие репозитории моделей придумывают с хитрой логикой ...
источник

PK

Pavel Klemenkov in Moscow Spark
Andrey Tsibulskiy
Почему бы не хранить путь в бд или банально в файле , и переписывать его когда модель новая обучилась - самое примитивное решение . Обычно всякие репозитории моделей придумывают с хитрой логикой ...
Динамический путь никак не решит проблему обновления самого объекта-пайплайна.
источник