Телеграмм чат группы moscowspark страница 51

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2018 July 25

KrivdaTheTriewe in Moscow Spark

там есть некоторые ограничения данного подхзода

источник

19:08пожаловаться #1

ИА

Иван Ахлестин... in Moscow Spark

Pavel Klemenkov

Я вот точно не помню, но мы в Рамблере яйца собирали и накатывали их через addfile. @akhlestin может подсказать лучше

Да, для стриминговых приложений так и сделано, деплоим на кластер яйцо с нашим кодом или отдельный скрипт. Только нужно помнить что питонячее окружение и либы должны соответствовать.

источник

19:15пожаловаться #2

ИА

Иван Ахлестин... in Moscow Spark

Anton Chern

То есть штатная версия остаётся, просто наказывается новая?

Мы некоторое время так и жили, сделали сборку клоудеры со spark2 и пока тестировались переключали $SPARK_HOME

источник

19:20пожаловаться #3

Anton Chern in Moscow Spark

Всем спасибо за информацию!

источник

19:20пожаловаться #4

2018 July 26

Valery Pilia in Moscow Spark

Anton Chern

Наш data engineer говорит, что это очень сложно и не хочет делать. А версия у нас 1.6.0, это боль. Нужна нормальная библиотека mllib и ml.

Извините, добавлю тут немного, вдруг пригодится. Наверно, можно ещё на такой вариант посмотреть: берёте новый дистрибутив спарка и кладете на edge node, внутри описываете конфиг spark-defaults.conf и используете там spark.yarn.jars или archive, указывая путь на hdfs, куда кладете директорию jars из дистрибутива спарка. Из нового же дистра локально используете уже новый spark-submit. И всё - вы на новых зависимостях. Если хочется ещё красоты, то можно симлинки клаудерные для spark-submit, spark-shell переопределить на новый дистр на edge node.

источник

12:32пожаловаться #5

Pavel Klemenkov in Moscow Spark

Эй, чат. А какой самый простой и дешевый способ поднимать on-demand spark-кластера в облаке? Ну, кроме, databricks

источник

14:51пожаловаться #6

KrivdaTheTriewe in Moscow Spark

Pavel Klemenkov

Эй, чат. А какой самый простой и дешевый способ поднимать on-demand spark-кластера в облаке? Ну, кроме, databricks

Отвечает @pomadchin про Амазон

источник

14:52пожаловаться #7

Valery Pilia in Moscow Spark

Databricks дёшево не было, по-моему, никогда почти.

источник

14:55пожаловаться #8

Pavel Klemenkov in Moscow Spark

Valery Pilia

Databricks дёшево не было, по-моему, никогда почти.

Да, я имел в виду простоту и забыл про стоимость )

источник

14:56пожаловаться #9

Alexander Piminov in Moscow Spark

AWS (EMR) существенно дешевле Databricks, тем более что Databricks включает плату за облако, где разворачивается. Да и запускать EMR несложно. Другое дело, что когда речь идет о long-term начинают проявляться чудеса vendor-lock.

источник

15:00пожаловаться #10

Andrey Smirnov in Moscow Spark

+1 за EMR

источник

15:01пожаловаться #11

Alex Modestov in Moscow Spark

А что по Azure? У них тоже есть варианты, или Майкрософт уступает амазонки?

источник

15:03пожаловаться #12

Alex Modestov in Moscow Spark

Амазону