Телеграмм чат группы moscowspark страница 399

ну если требования - конкретные компоненты и версии, а не сам по себе HDP - можно как раз посмотреть аренадата - если я помню правильно, там можно сделать кастомныю сборку из заданных компонентов и далее ее раскатать.

источник

16:29пожаловаться #5

ME

Mikhail Epikhin in Moscow Spark

ну это я и сам могу из апстрима собрать, bigtopом меня не испугаешь.

источник

16:34пожаловаться #6

ME

Mikhail Epikhin in Moscow Spark

просто проще взять такой же дистр как сейчас, чтобы не возится, не поддерживать и не тестировать лишний раз

источник

16:34пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Mikhail Epikhin

Привет, а кто чем поднимал HDP на aws / gcp / azure?
Чем пользовались? cloudbreak, terraform + marketplace? anything else?
Поделитесь опытом:)

В азуре по кнопке разворачивается типа свой дистрибутив на основе хдп, там версию можно выбрать

источник

21:32пожаловаться #8

DG

Denis Gabaydulin in Moscow Spark

Datamove

Привет!
На этих платформах есть haoop-on-demand, т.е. в AWS - EMR, в GCP - Dataproc, в азуре - тоже что-то - ими пользоваться предпочтительнее, для батчевых задач.
Cloudbreak - как я понимаю, требует лицензию?
terraform - может развернуть кластер в любом облаке, и это очень удобный инструмент, но не решает задачи развертывания HDP на нем. Может быть у него и есть маркетплейс для всего, но мне кажется приклеивать к нему установку HDP - лишнее, не в идеологии терраформа, как минимум.
Вообще, не знаю, стоит ли вкладывать время в автоматизацию развертывания кластера на HDP. Куча усилий, чтоб получить спарк 2.3? Я бы сейчас смотрел в сторону arenadata, кажется читал хорошее об автоматизации сборки и развертывания диструбутива

Во времена оны и ansible годился:
https://github.com/sherman/hdp (там правда для vagrant). Но тераформ наверное поудобнее будет.

GitHub

sherman/hdp

Contribute to sherman/hdp development by creating an account on GitHub.

источник

22:35пожаловаться #9

2020 June 27

ME

Mikhail Epikhin in Moscow Spark

Denis Gabaydulin

Во времена оны и ansible годился:
https://github.com/sherman/hdp (там правда для vagrant). Но тераформ наверное поудобнее будет.

GitHub

sherman/hdp

Contribute to sherman/hdp development by creating an account on GitHub.

я в личном проекте пользуюсь ansible, но я от него не в восторге:)

источник

12:03пожаловаться #10

2020 June 30

Ф

Фёдор in Moscow Spark

А можно неожиданных вопрос?

Нет ли у кого-нибудь хорошей подборки данных (обезличенных, тестовых или из публичных источников) для иллюстрации работы графовой бд?

Типа, какой-нибудь архив транзакций между юр.лицами, в которых можно фрод поискать. Или участие в публичных тендерах. Или связь компаний-руководителей-бенефициаров, чтоб на графе можно было б показать эти связи и аналитику сверху построить... Ну или любая другая подборка данных, которая лучше всего анализируется именно графами, а не классическими плоскими табличками.

Сорри за оффтопик...

источник

09:13пожаловаться #11

FR

Fred Redmond in Moscow Spark

Фёдор

А можно неожиданных вопрос?

Нет ли у кого-нибудь хорошей подборки данных (обезличенных, тестовых или из публичных источников) для иллюстрации работы графовой бд?

Типа, какой-нибудь архив транзакций между юр.лицами, в которых можно фрод поискать. Или участие в публичных тендерах. Или связь компаний-руководителей-бенефициаров, чтоб на графе можно было б показать эти связи и аналитику сверху построить... Ну или любая другая подборка данных, которая лучше всего анализируется именно графами, а не классическими плоскими табличками.

Сорри за оффтопик...

https://www.kaggle.com/wcukierski/enron-email-dataset

Kaggle

The Enron Email Dataset

500,000+ emails from 150 employees of the Enron Corporation

источник

09:25пожаловаться #12

Н

Никита in Moscow Spark

Привет, никто не знает каких-нибудь известных стратегий по разработке пайплана поддерживания исторической таблицы и акутальных значений по pk_id?
Историческая таблица, где будут храниться записи о любом изменении поля

источник

13:09пожаловаться #13

AS

Andrey Smirnov in Moscow Spark

Никита

Привет, никто не знает каких-нибудь известных стратегий по разработке пайплана поддерживания исторической таблицы и акутальных значений по pk_id?
Историческая таблица, где будут храниться записи о любом изменении поля

история есть в hbase, но на сколько она безграничная я не знаю

источник

13:24пожаловаться #14

M

Mi in Moscow Spark

Можно обойтись банально двумя таблицами historical и current и раз в день какой обновлять её через SQL

источник

13:25пожаловаться #15

Н

Никита in Moscow Spark

Mi

Можно обойтись банально двумя таблицами historical и current и раз в день какой обновлять её через SQL

Ну вот я как раз хочу такое реализовать, и думал может есть best practices

источник

13:28пожаловаться #16

D

Dima Kubitskiy in Moscow Spark

ну обычно просто логируют все изменения, и из этих логов историю изменений вытаскивают

источник

13:29пожаловаться #17

А

Алексей in Moscow Spark

в классических бд есть такие паттерны: https://en.wikipedia.org/wiki/Slowly_changing_dimension

Wikipedia

Slowly changing dimension

Dimensions in data management and data warehousing contain relatively static data about such entities as geographical locations, customers, or products. Data captured by Slowly Changing Dimensions (SCDs) change slowly but unpredictably, rather than according to a regular schedule.

источник

13:30пожаловаться #18

Н

Никита in Moscow Spark

Алексей

в классических бд есть такие паттерны: https://en.wikipedia.org/wiki/Slowly_changing_dimension

Wikipedia

Slowly changing dimension

Dimensions in data management and data warehousing contain relatively static data about such entities as geographical locations, customers, or products. Data captured by Slowly Changing Dimensions (SCDs) change slowly but unpredictably, rather than according to a regular schedule.

спасибо, вот это инетересно кажется

источник

13:34пожаловаться #19

2020 July 01

G

Gev in Moscow Spark

Народ. Может у кого есть опыт отображения данных из hdfs посредством rest api в web приложении? В общем - хотим смастерить собственное web application чтобы оно работало с hdfs через sparksql как с обычно базой.

источник

19:04пожаловаться #20