Телеграмм чат группы moscowspark страница 176

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 August 27

SS

Semyon Sinchenko in Moscow Spark

В общем на вид прикольно, можно собрать поиграться с графовыми эмбеддингами (и понять, они все переписали сами или просто GraphX с его pregel дергают). Но в прод такое тянуть кажется ещё не скоро можно будет.

источник

18:29пожаловаться #1

2019 September 01

ES

Evgenia Shvareva in Moscow Spark

Добрый день! Ищу разработчика Apache Spark!

источник

14:13пожаловаться #2

t

tenKe in Moscow Spark

куда?

источник

14:15пожаловаться #3

GP

Grigory Pomadchin in Moscow Spark

Evgenia Shvareva

Добрый день! Ищу разработчика Apache Spark!

https://t.me/datajobs

Data Engineers related вакансии и обсуждение
Фид: https://t.me/datajobschannel
Для связи: @krivdathetriewe @pomadchin @optician_owl

источник

14:15пожаловаться #4

t

tenKe in Moscow Spark

ну вот Гриша пришел ща все потрет(

источник

14:16пожаловаться #5

GP

Grigory Pomadchin in Moscow Spark

ну вот Гриша пришел ща все потрет(

пока - нет; но потом - да

источник

14:16пожаловаться #6

GP

Grigory Pomadchin in Moscow Spark

источник

14:16пожаловаться #7

ES

Evgenia Shvareva in Moscow Spark

Grigory Pomadchin

https://t.me/datajobs

Data Engineers related вакансии и обсуждение
Фид: https://t.me/datajobschannel
Для связи: @krivdathetriewe @pomadchin @optician_owl

Благодарю!

источник

14:16пожаловаться #8

2019 September 02

M

Maskaev in Moscow Spark

да это же..... СПАМ!

источник

10:06пожаловаться #9

К

Костя in Moscow Spark

Всем привет, есть emr кластер (hive, oozie, hue, jupiterhub...) никто не сталкивался со следующей проблемой:
Через Jupiter и Hue инициализирую spark и spark.catalog.listTables() и spark.catalog.listDatabases() возвращают валидные списки.
Когда тоже самое делаю через Oozie с простым spark action - получаю пустой лист таблиц и default db, которая создается налету.
Пробовал изменять 'spark.sql.warehouse.dir' при инициализации спарка на тоже, что и в jupiter spark.conf.get('spark.sql.warehouse.dir').
В hive-site.xml hive.metastore.uris = thrift://ip-172-61-11-120.dev.local:9083 - ничего не изменилось, куда еще можно копнуть?

источник

10:28пожаловаться #10

M

Mikhail in Moscow Spark

Привет, чат! Поделитесь опытом кто как в стриминговых джобах обновляет static DataFrame. Есть задача джойнить поток из Кафки с батчевыми данными из БД. При этом желательно БД читать не чаще раза в день, поэтому данные после чтения кешируются в датафрейм. Но как правильно обновлять такой датафрейм без рестарта стриминговой джобы?

источник

13:34пожаловаться #11

GP

Grigory Pomadchin in Moscow Spark

Mikhail

Привет, чат! Поделитесь опытом кто как в стриминговых джобах обновляет static DataFrame. Есть задача джойнить поток из Кафки с батчевыми данными из БД. При этом желательно БД читать не чаще раза в день, поэтому данные после чтения кешируются в датафрейм. Но как правильно обновлять такой датафрейм без рестарта стриминговой джобы?

Видимо такой же вопрос в соседней группе инжей

источник

13:38пожаловаться #12

GP

Grigory Pomadchin in Moscow Spark

Что значит обновлять датафрейм?) он иммутабелен

источник

13:38пожаловаться #13

M

Mikhail in Moscow Spark

Grigory Pomadchin

Видимо такой же вопрос в соседней группе инжей

Не, там другой немного вопрос у комрада

источник

13:39пожаловаться #14

M

Mikhail in Moscow Spark

Grigory Pomadchin

Что значит обновлять датафрейм?) он иммутабелен

Вот именно) но подозреваю, что мой кейс не уникален. По дефолта при каждом микробатче дёргается БД, что совсем не гуд

источник

13:41пожаловаться #15

M

Mikhail in Moscow Spark

Нужно раз в день "обновлять" статичный датафрейм из БД свежим срезом

источник

13:42пожаловаться #16

GP

Grigory Pomadchin in Moscow Spark

а т.е. и логика должна быть что стрим улосвно говоря пытается читать из кеша, если не может, то дергает базу и по результатам работы как бы обновляет 'кеш'?

источник

13:45пожаловаться #17

M

Mikhail in Moscow Spark

Да, только если закешировать датафрейм после чтения из БД, то джоба уже больше никогда не обращается к БД (что не гуд, т.к. данные из БД нужно хотя бы раз в день обновлять), а если не кешировать, то данные из БД джоба начинает тягать на каждом микробатче (что тоже не гуд, т.к. незачем так часто и нагружает базу).

источник

14:04пожаловаться #18

AP

Alexander Piminov in Moscow Spark

Ты же можешь в начале обработки очередного микробатча по условию его раскэшировать и перечитать в кэш. Например, по времени или по количеству микробатчей.

источник

14:07пожаловаться #19

M

Mikhail in Moscow Spark

Типа периодически делать unpersist?

источник

14:08пожаловаться #20