Size: a a a

2020 June 26

ME

Mikhail Epikhin in Moscow Spark
> Вообще, не знаю, стоит ли вкладывать время в автоматизацию развертывания кластера на HDP.
Полностью согласен, клиент требует hive 1.2 + hdp 2.6
источник

ME

Mikhail Epikhin in Moscow Spark
EOL 31 dec 2020 его конечно жее не смущает)))
источник

D

Datamove in Moscow Spark
я так и делал, в общем-то :) тогда, терраформа достаточно и это подходящий инструмент
источник

ME

Mikhail Epikhin in Moscow Spark
Ок, понял, у меня такое же мнение, просто хотел провалидировать его
источник

D

Datamove in Moscow Spark
ну если требования - конкретные компоненты и версии, а не сам по себе HDP - можно как раз посмотреть аренадата - если я помню правильно, там можно сделать кастомныю сборку из заданных компонентов и далее ее раскатать.
источник

ME

Mikhail Epikhin in Moscow Spark
ну это я и сам могу из апстрима собрать, bigtopом меня не испугаешь.
источник

ME

Mikhail Epikhin in Moscow Spark
просто проще взять такой же дистр как сейчас, чтобы не возится, не поддерживать и не тестировать лишний раз
источник

ЕГ

Евгений Глотов... in Moscow Spark
Mikhail Epikhin
Привет, а кто чем поднимал HDP на aws / gcp / azure?
Чем пользовались? cloudbreak, terraform + marketplace? anything else?
Поделитесь опытом:)
В азуре по кнопке разворачивается типа свой дистрибутив на основе хдп, там версию можно выбрать
источник

DG

Denis Gabaydulin in Moscow Spark
Datamove
Привет!
На этих платформах есть haoop-on-demand, т.е. в AWS - EMR, в GCP - Dataproc, в азуре - тоже что-то - ими пользоваться предпочтительнее, для батчевых задач.
Cloudbreak - как я понимаю, требует лицензию?
terraform - может развернуть кластер в любом облаке, и это очень удобный инструмент, но не решает задачи развертывания HDP на нем. Может быть у него и есть маркетплейс для всего, но мне кажется приклеивать к нему установку HDP - лишнее, не в идеологии терраформа, как минимум.
Вообще, не знаю, стоит ли вкладывать время в автоматизацию развертывания кластера на HDP. Куча усилий, чтоб получить спарк 2.3? Я бы сейчас смотрел в сторону arenadata, кажется читал хорошее об автоматизации сборки и развертывания диструбутива
Во времена оны и ansible годился:
https://github.com/sherman/hdp (там правда для vagrant). Но тераформ наверное поудобнее будет.
источник
2020 June 27

ME

Mikhail Epikhin in Moscow Spark
Denis Gabaydulin
Во времена оны и ansible годился:
https://github.com/sherman/hdp (там правда для vagrant). Но тераформ наверное поудобнее будет.
я в личном проекте пользуюсь ansible, но я от него не в восторге:)
источник
2020 June 30

Ф

Фёдор in Moscow Spark
А можно неожиданных вопрос?

Нет ли у кого-нибудь хорошей подборки данных (обезличенных, тестовых или из публичных источников) для иллюстрации работы графовой бд?

Типа, какой-нибудь архив транзакций между юр.лицами, в которых можно фрод поискать. Или участие в публичных тендерах. Или связь компаний-руководителей-бенефициаров, чтоб на графе можно было б показать эти связи и аналитику сверху построить... Ну или любая другая подборка данных, которая лучше всего анализируется именно графами, а не классическими плоскими табличками.

Сорри за оффтопик...
источник

FR

Fred Redmond in Moscow Spark
Фёдор
А можно неожиданных вопрос?

Нет ли у кого-нибудь хорошей подборки данных (обезличенных, тестовых или из публичных источников) для иллюстрации работы графовой бд?

Типа, какой-нибудь архив транзакций между юр.лицами, в которых можно фрод поискать. Или участие в публичных тендерах. Или связь компаний-руководителей-бенефициаров, чтоб на графе можно было б показать эти связи и аналитику сверху построить... Ну или любая другая подборка данных, которая лучше всего анализируется именно графами, а не классическими плоскими табличками.

Сорри за оффтопик...
источник

Н

Никита in Moscow Spark
Привет, никто не знает каких-нибудь известных стратегий по разработке пайплана поддерживания исторической таблицы и акутальных значений по pk_id?
Историческая таблица, где будут храниться записи о любом изменении поля
источник

AS

Andrey Smirnov in Moscow Spark
Никита
Привет, никто не знает каких-нибудь известных стратегий по разработке пайплана поддерживания исторической таблицы и акутальных значений по pk_id?
Историческая таблица, где будут храниться записи о любом изменении поля
история есть в hbase,  но на сколько она безграничная я не знаю
источник

M

Mi in Moscow Spark
Можно обойтись банально двумя таблицами historical и current и раз в день какой обновлять её через SQL
источник

Н

Никита in Moscow Spark
Mi
Можно обойтись банально двумя таблицами historical и current и раз в день какой обновлять её через SQL
Ну вот я как раз хочу такое реализовать, и думал может есть best practices
источник

D

Dima Kubitskiy in Moscow Spark
ну обычно просто логируют все изменения, и из этих логов историю изменений вытаскивают
источник

А

Алексей in Moscow Spark
в классических бд есть такие паттерны: https://en.wikipedia.org/wiki/Slowly_changing_dimension
источник

Н

Никита in Moscow Spark
спасибо, вот это инетересно кажется
источник
2020 July 01

G

Gev in Moscow Spark
Народ. Может у кого есть опыт отображения данных из hdfs посредством rest api в web приложении? В общем - хотим смастерить собственное web application чтобы оно работало с hdfs через sparksql как с обычно базой.
источник