Телеграмм чат группы aws

Нужно из Redshifta данные дёргать периодически. Сейчас просто через SELECT делается. Существуют ли какие-то нативные варианты? Чтобы взять и в RDS, например, что-то скопировать.

Я бы смотрел в сторону glue. Он может сделать каталог данных при помощи crawler (он поддерживает redshift через JDBC connector). Потом pyspark скрипт по расписанию и connection в RDS.

А эти данные в RDS долго хранятся? Может проще выгружать в S3 и потом использовать Athena с ODBC драйвером?

источник

10:39пожаловаться #5

AT

Al T in AWS_RU

Alexander Patrushev

Я бы смотрел в сторону glue. Он может сделать каталог данных при помощи crawler (он поддерживает redshift через JDBC connector). Потом pyspark скрипт по расписанию и connection в RDS.

А эти данные в RDS долго хранятся? Может проще выгружать в S3 и потом использовать Athena с ODBC драйвером?

если RDS PostgreSQL и периодически и не так чтобы огромный вагон данных то federated query почему бы и нет?

источник

10:40пожаловаться #6

MV

Maxim Vynogradov in AWS_RU

Подскажите, а что за странное поведение на S3 бакетах - нельзя создать бакет, пишет что он есть, но по факту его нету -

источник

13:10пожаловаться #7

MV

Maxim Vynogradov in AWS_RU

источник

13:10пожаловаться #8

MV

Maxim Vynogradov in AWS_RU

источник

13:10пожаловаться #9

AS

Alexey Stekov in AWS_RU

Maxim Vynogradov

потому что имя занято

источник

13:12пожаловаться #10

AG

Alexey Gravanov in AWS_RU

Maxim Vynogradov

Подскажите, а что за странное поведение на S3 бакетах - нельзя создать бакет, пишет что он есть, но по факту его нету -

имена s3 бакетов уникальны глобально. не только в регионе, но вообще, по всему миру. у всех пользователей.

источник

13:16пожаловаться #11

MV

Maxim Vynogradov in AWS_RU

Alexey Gravanov

имена s3 бакетов уникальны глобально. не только в регионе, но вообще, по всему миру. у всех пользователей.

сорри, туплю, спасибо
странно, что development-profile-photo ещё никто не занял

источник

13:16пожаловаться #12

AV

Alexander Valkov in AWS_RU

Alexander Patrushev

Я бы смотрел в сторону glue. Он может сделать каталог данных при помощи crawler (он поддерживает redshift через JDBC connector). Потом pyspark скрипт по расписанию и connection в RDS.

А эти данные в RDS долго хранятся? Может проще выгружать в S3 и потом использовать Athena с ODBC драйвером?

Данные не просто хранятся, они раздаются на чтение.

Думаю, есть ли преимущества по скорости у UNLOAD.

источник

13:22пожаловаться #13

AG

Alexey Gravanov in AWS_RU

Maxim Vynogradov

сорри, туплю, спасибо
странно, что development-profile-photo ещё никто не занял

я как-то пытался временный бакет создать, кое что попробовать. обнаружил, что пара десятков вариантов, которые я попробовал в первую очередь, типа asdasd, asdasdasd, asdasd123, asdasd123456 и подобных им - заняты :)

источник

13:22пожаловаться #14

AV

Alexander Valkov in AWS_RU

Alexander Patrushev

Я бы смотрел в сторону glue. Он может сделать каталог данных при помощи crawler (он поддерживает redshift через JDBC connector). Потом pyspark скрипт по расписанию и connection в RDS.

А эти данные в RDS долго хранятся? Может проще выгружать в S3 и потом использовать Athena с ODBC драйвером?

Athena чем лучше? По скорости не проигрывает разве? При частых запросах не дороже ли будет?

источник

13:24пожаловаться #15

AP

Alexander Patrushev in AWS_RU

Alexander Valkov

Athena чем лучше? По скорости не проигрывает разве? При частых запросах не дороже ли будет?

Если делать выгрузку через Unload в parquet и правильно папочки проименовать, то будет гораздо быстрее.

Лучше ещё тем, что не придётся иметь базу и все из этого вытекающее. Athena умеет сохранять результаты запроса на s3 и их можно повторно использовать.

Я вчера скидывал статью как Битрикс у себя построил аналитику.

Насчёт стоимости - тут только тест + расчёт исходя из цифр, а «частые запросы» к сожалению не точная метрика.

источник

13:31пожаловаться #16

AP

Alexander Patrushev in AWS_RU

https://habr.com/ru/company/bitrix/blog/516374/

Хабр

Как мы организовали высокоэффективное и недорогое DataLake и почему именно так

Мы живем в удивительное время, когда можно быстро и просто состыковать несколько готовых открытых инструментов, настроить их с «отключенным сознанием» по советам...

источник

13:32пожаловаться #17

AV

Alexander Valkov in AWS_RU

Alexander Patrushev

Если делать выгрузку через Unload в parquet и правильно папочки проименовать, то будет гораздо быстрее.

Лучше ещё тем, что не придётся иметь базу и все из этого вытекающее. Athena умеет сохранять результаты запроса на s3 и их можно повторно использовать.

Я вчера скидывал статью как Битрикс у себя построил аналитику.

Насчёт стоимости - тут только тест + расчёт исходя из цифр, а «частые запросы» к сожалению не точная метрика.

Так мне не для аналитики.

источник

13:32пожаловаться #18

AP

Alexander Patrushev in AWS_RU

Ну это ж название )
Многие задачи ML вообще решаются статистическими алгоритмами, но это все равно называют ML

источник

13:33пожаловаться #19

AP

Alexander Patrushev in AWS_RU

Athena это не база данных. Она хорошо читает данные, например экспорты из других структур. Поэтому я и задавал вопрос, про характер работы с этими данными.

источник

13:35пожаловаться #20