Size: a a a

2019 August 27

SS

Semyon Sinchenko in Moscow Spark
В общем на вид прикольно, можно собрать поиграться с графовыми эмбеддингами (и понять, они все переписали сами или просто GraphX с его pregel дергают). Но в прод такое тянуть кажется ещё не скоро можно будет.
источник
2019 September 01

ES

Evgenia Shvareva in Moscow Spark
Добрый день! Ищу разработчика Apache Spark!
источник

t

tenKe in Moscow Spark
куда?
источник

GP

Grigory Pomadchin in Moscow Spark
Evgenia Shvareva
Добрый день! Ищу разработчика Apache Spark!
источник

t

tenKe in Moscow Spark
ну вот Гриша пришел ща все потрет(
источник

GP

Grigory Pomadchin in Moscow Spark
tenKe
ну вот Гриша пришел ща все потрет(
пока - нет; но потом - да
источник

GP

Grigory Pomadchin in Moscow Spark
источник

ES

Evgenia Shvareva in Moscow Spark
Благодарю!
источник
2019 September 02

M

Maskaev in Moscow Spark
да это же..... СПАМ!
источник

К

Костя in Moscow Spark
Всем привет, есть emr кластер (hive, oozie, hue, jupiterhub...) никто не сталкивался со следующей проблемой:
Через Jupiter и Hue инициализирую spark и spark.catalog.listTables() и spark.catalog.listDatabases() возвращают валидные списки.
Когда тоже самое делаю через Oozie с простым spark action - получаю пустой лист таблиц и default db, которая создается налету.
Пробовал изменять 'spark.sql.warehouse.dir' при инициализации спарка на тоже, что и в jupiter spark.conf.get('spark.sql.warehouse.dir').
В hive-site.xml hive.metastore.uris = thrift://ip-172-61-11-120.dev.local:9083 - ничего не изменилось, куда еще можно копнуть?
источник

M

Mikhail in Moscow Spark
Привет, чат! Поделитесь опытом кто как в стриминговых джобах обновляет static DataFrame. Есть задача джойнить поток из Кафки с батчевыми данными из БД. При этом желательно БД читать не чаще раза в день, поэтому данные после чтения кешируются в датафрейм. Но как правильно обновлять такой датафрейм без рестарта стриминговой джобы?
источник

GP

Grigory Pomadchin in Moscow Spark
Mikhail
Привет, чат! Поделитесь опытом кто как в стриминговых джобах обновляет static DataFrame. Есть задача джойнить поток из Кафки с батчевыми данными из БД. При этом желательно БД читать не чаще раза в день, поэтому данные после чтения кешируются в датафрейм. Но как правильно обновлять такой датафрейм без рестарта стриминговой джобы?
Видимо такой же вопрос в соседней группе инжей
источник

GP

Grigory Pomadchin in Moscow Spark
Что значит обновлять датафрейм?) он иммутабелен
источник

M

Mikhail in Moscow Spark
Grigory Pomadchin
Видимо такой же вопрос в соседней группе инжей
Не, там другой немного вопрос у комрада
источник

M

Mikhail in Moscow Spark
Grigory Pomadchin
Что значит обновлять датафрейм?) он иммутабелен
Вот именно) но подозреваю, что мой кейс не уникален. По дефолта при каждом микробатче дёргается БД, что совсем не гуд
источник

M

Mikhail in Moscow Spark
Нужно раз в день "обновлять" статичный датафрейм из БД свежим срезом
источник

GP

Grigory Pomadchin in Moscow Spark
а т.е. и логика должна быть что стрим улосвно говоря пытается читать из кеша, если не может, то дергает базу и по результатам работы как бы обновляет 'кеш'?
источник

M

Mikhail in Moscow Spark
Да, только если закешировать датафрейм после чтения из БД, то джоба уже больше никогда не обращается к БД (что не гуд, т.к. данные из БД нужно хотя бы раз в день обновлять), а если не кешировать, то данные из БД джоба начинает тягать на каждом микробатче (что тоже не гуд, т.к. незачем так часто и нагружает базу).
источник

AP

Alexander Piminov in Moscow Spark
Ты же можешь в начале обработки очередного микробатча по условию его раскэшировать и перечитать в кэш. Например, по времени или по количеству микробатчей.
источник

M

Mikhail in Moscow Spark
Типа периодически делать unpersist?
источник