Size: a a a

2020 July 08

AT

Al T in AWS_RU
ну тут несколько есть вещей который стоит учитывать..
источник

AT

Al T in AWS_RU
1) ценообразование, у спектрума и athena за сканированные данные, у глю по времени выполнения
источник

AT

Al T in AWS_RU
2) возможности трансформации данных разные. Глю может почти всё, спектрум как и все MPP может только то что можно сделать через SQL (ну и UDF для тех MPP которые его поддерживают)
источник

AT

Al T in AWS_RU
часто бывает так что трансформации все равно получаются гибридные, часть через ETL типа глю, часть через MPP типа спектрум
источник

AT

Al T in AWS_RU
и все это оркестрируется чем нибудь вроде airflow или step functions
источник

vk

victor kurguzov in AWS_RU
Al T
часто бывает так что трансформации все равно получаются гибридные, часть через ETL типа глю, часть через MPP типа спектрум
а кем вот это определяется - архитектором, разработчиками, девупсом?
источник

AT

Al T in AWS_RU
ну тем кто пришел и сказал, я знаю как сделать быстро дешево и работать будет - и забрал себе все деньги за работу... а должность - вторична ))
источник

AT

Al T in AWS_RU
везде по разному, очень многие разработчики тоже архитекторы вполне себе и девопсы
источник

AT

Al T in AWS_RU
лично я обычно пользуюсь правилом что если я могу использовать MPP и это не выходит очень дорого по бюджету, то я буду его использовать до тез пор пока могу - просто потому что это проще на мой взгляд чем в коде балансировать по нодам, ловить OOM и прочие радости
источник

vk

victor kurguzov in AWS_RU
Al а можешь пояснить такой момент из faq (имхо, очень невнятный фак)?
While the Redshift Spectrum feature is great for running queries against data in Amazon Redshift and S3, it really isn’t a fit for the types of use cases that enterprises typically ask from processing frameworks like Amazon EMR
окей RS нам нужен для супер-пупер сложной аналитики, а какие-такие юзкейсы нужны энтерпрайзам от EMR если сами aws пишут, что
With EMR you can run Petabyte-scale analysis
источник

AT

Al T in AWS_RU
ну на мой взгляд это как раз и имелось ввиду что я сказал что SQL как язык для трансформации данных, подходит не во всех случаях.
источник

AT

Al T in AWS_RU
в спектруме и в athena есть свои лимиты, и в общем-то джойны терабайтные оно может и не пережевать..
источник

AT

Al T in AWS_RU
сканы без джойнов там проще с лимитом, памяти нужно меньше
источник

AT

Al T in AWS_RU
обычно все таки весь датасет не сканируется а только новая порция и в большинстве случаев ресурсов должно хватать
источник

AT

Al T in AWS_RU
супер-пупер аналитика нужна в виде отчетов?
источник

AT

Al T in AWS_RU
или для BI/slice-and-dice/dashboarding?
источник

vk

victor kurguzov in AWS_RU
чтоб я знал) я пока воспылал лювоью и тягой к знаниям по БД исключительно в ознакомительных целях)
источник

vk

victor kurguzov in AWS_RU
спасибо за пояснения Al
источник

AT

Al T in AWS_RU
рад был помочь.. экосистема в аналитике сложная, мало кто разбирается супер детально во всех аспектах, потому что много всего очень,  применительно к амазон, если интересуетесь вот недавно выпустили analytics lens - https://docs.aws.amazon.com/whitepapers/latest/wellarchitected-analytics-lens/scenarios.html
источник

AT

Al T in AWS_RU
общие такие guidelines для основных подходов и задач
источник