Size: a a a

2018 July 25

K

KrivdaTheTriewe in Moscow Spark
там есть некоторые ограничения данного подхзода
источник

ИА

Иван Ахлестин... in Moscow Spark
Pavel Klemenkov
Я вот точно не помню, но мы в Рамблере яйца собирали и накатывали их через addfile. @akhlestin может подсказать лучше
Да, для стриминговых приложений так и сделано, деплоим на кластер яйцо с нашим кодом или отдельный скрипт. Только нужно помнить что питонячее окружение и либы должны соответствовать.
источник

ИА

Иван Ахлестин... in Moscow Spark
Anton Chern
То есть штатная версия остаётся, просто наказывается новая?
Мы некоторое время так и жили, сделали сборку клоудеры со spark2 и пока тестировались переключали $SPARK_HOME
источник

AC

Anton Chern in Moscow Spark
Всем спасибо за информацию!
источник
2018 July 26

VP

Valery Pilia in Moscow Spark
Anton Chern
Наш data engineer говорит, что это очень сложно и не хочет делать. А версия у нас 1.6.0, это боль. Нужна нормальная библиотека mllib и ml.
Извините, добавлю тут немного, вдруг пригодится.  Наверно, можно ещё на такой вариант посмотреть: берёте новый дистрибутив спарка и кладете на edge node, внутри описываете конфиг spark-defaults.conf и используете там spark.yarn.jars или archive, указывая путь на hdfs, куда кладете директорию jars из дистрибутива спарка. Из нового же дистра локально используете уже новый spark-submit. И всё - вы на новых зависимостях. Если хочется ещё красоты, то можно симлинки клаудерные для spark-submit, spark-shell переопределить на новый дистр на edge node.
источник

PK

Pavel Klemenkov in Moscow Spark
Эй, чат. А какой самый простой и дешевый способ поднимать on-demand spark-кластера в облаке? Ну, кроме, databricks
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Эй, чат. А какой самый простой и дешевый способ поднимать on-demand spark-кластера в облаке? Ну, кроме, databricks
Отвечает @pomadchin про Амазон
источник

VP

Valery Pilia in Moscow Spark
Databricks дёшево не было, по-моему, никогда почти.
источник

PK

Pavel Klemenkov in Moscow Spark
Valery Pilia
Databricks дёшево не было, по-моему, никогда почти.
Да, я имел в виду простоту и забыл про стоимость )
источник

AP

Alexander Piminov in Moscow Spark
AWS (EMR) существенно дешевле Databricks, тем более что Databricks включает плату за облако, где разворачивается. Да и запускать EMR несложно. Другое дело, что когда речь идет о long-term начинают проявляться чудеса vendor-lock.
источник

AS

Andrey Smirnov in Moscow Spark
+1 за EMR
источник

AM

Alex Modestov in Moscow Spark
А что по Azure? У них тоже есть варианты, или Майкрософт уступает амазонки?
источник

AM

Alex Modestov in Moscow Spark
Амазону
источник

ME

Mikhail Epikhin in Moscow Spark
Alex Modestov
А что по Azure? У них тоже есть варианты, или Майкрософт уступает амазонки?
источник

PK

Pavel Klemenkov in Moscow Spark
Alexander Piminov
AWS (EMR) существенно дешевле Databricks, тем более что Databricks включает плату за облако, где разворачивается. Да и запускать EMR несложно. Другое дело, что когда речь идет о long-term начинают проявляться чудеса vendor-lock.
А в чем это проявляется в случае амазона, например?
источник

GP

Grigory Pomadchin in Moscow Spark
Alex Modestov
А что по Azure? У них тоже есть варианты, или Майкрософт уступает амазонки?
Дерьмище
источник

GP

Grigory Pomadchin in Moscow Spark
Я пробовал авс ажуру и гугл; два последние ещё с кубером
источник

GP

Grigory Pomadchin in Moscow Spark
Из всех ток авс работает, остальное надо напильником постоянно
источник

GP

Grigory Pomadchin in Moscow Spark
Pavel Klemenkov
А в чем это проявляется в случае амазона, например?
Если тебе нужно он деманд, то там можно споты поднимать на емр тераформом
источник

GP

Grigory Pomadchin in Moscow Spark
м3.хларж за 6 центов к примеру
источник