Коллеги, нужно ваше мнение/критика.
Как лучше раскатить Спарк в кубере, причем в 2-х вариантах работы:
1) Чтобы с юпитерхаба можно через toree или pyspark ядра работать интерактивно, с динамической аллокацией ресурсов и все такое.(такое видел, и даже делал, но с yarnом, а не кубом) Видел с кубом тоже так делают, немного работал, но мало, чтобы понять боли и плюсы.
2)Чтобы с airflow сабмитить джобы спарка в этот куб кластер.
Я думаю идти по пути настройки конфигов spark-defaults.conf для работы с кубом. Но куб в aws(eks) и опсы мне говорят, что там не все так просто, чтобы работать с ним извне кластера. Я вот не очень понимаю эту проблему, если честно(типа создал сервисную учетку, накинул прав в iam, прокинул серты в настройки спарка). Может кто сталкивался?
Поэтому раскатили standalone кластер спарка в кубере и предлагают работать с ним. Мне кажется, что это не очень рабочее решение. Типа скейлить воркеров будет не очень удобно. Но опять же, я со стендалон кластером работал 1 раз. Поэтому точно не могу понимать что не так будет. Поэтому может быть вы знаете плюсы и минусы такой реализации?
Итого 2 вопроса:
1) Какие есть трудности в настройке спарка с кубером, которы из под aws(eks)?
2) Какие есть плюсы и минусы standalone кластера спарка, который развернут в кубере, а дальше к этому кластеру будут ходить через shell и через сабмит?
Заранее благодарю!