Телеграмм чат группы moscowspark страница 407

2020 July 15

SK

Но ведь в целом Спарк не про это, а про работу с разными источниками данных. Какая у вас задача что нужен именно метастор типа хайва?

Thrift?😅(почти hive) у него есть метастор

источник

11:04пожаловаться #1

GT

Gennady Timofeev in Moscow Spark

Паша Финкельштейн

https://delta.io/

Delta Lake

Delta Lake - Reliable Data Lakes at Scale

Delta Lake is an open-source storage layer that brings ACID transactions to Apache Spark™ and big data workloads.

Мы используем дельту, да только это же работа с файлами напрямую, так я и без дельты могу .save сделать. Сейчас у нас вся мета в глю, работаем как с таблицами хайва. Не то, чтобы это прям необходимость, но саентологи вроде заинтересованы, да и хочется более плавного перехода. Пока действительно вижу, что будем писать файлы и повесим внешние таблицы сверху, если нужно.

источник

11:04пожаловаться #2

R

Renarde in Moscow Spark

Gennady Timofeev

Мы используем дельту, да только это же работа с файлами напрямую, так я и без дельты могу .save сделать. Сейчас у нас вся мета в глю, работаем как с таблицами хайва. Не то, чтобы это прям необходимость, но саентологи вроде заинтересованы, да и хочется более плавного перехода. Пока действительно вижу, что будем писать файлы и повесим внешние таблицы сверху, если нужно.

внутри Databricks можно увязать delta таблички на Glue, возможно и снаружи тоже можно через манифесты:
https://databricks.com/blog/2019/09/03/transform-your-aws-data-lake-using-databricks-delta-and-aws-glue-data-catalog-service.html

Databricks

AWS Data Lake Delta Transformation Using AWS Glue

Learn how to use the AWS Glue Data Catalog with Databricks Runtime to seamlessly transform your AWS Data Lake into a reliable Delta Lake.

источник

11:08пожаловаться #3

ПФ

Паша Финкельштейн... in Moscow Spark

Так в том-то и дело что я не очень понимаю бизнес кейс

источник

11:08пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

Мне кажется что мы тут в XY problem - пытаемся решить конкретный вопрос, в то время как бизнес задача вообще может его не требовать

источник

11:08пожаловаться #5

ПФ

Паша Финкельштейн... in Moscow Spark

Sergej Khakhulin

Thrift?😅(почти hive) у него есть метастор

Это же rpc прост О_о Откуда там слой хранения?

источник

11:09пожаловаться #6

SK

Sergej Khakhulin in Moscow Spark

Паша Финкельштейн

Это же rpc прост О_о Откуда там слой хранения?

https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html

источник

11:10пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Паша Финкельштейн

Но ведь в целом Спарк не про это, а про работу с разными источниками данных. Какая у вас задача что нужен именно метастор типа хайва?

Зачем работать с разными источниками данных, чтобы сливать их хрен знает куда? Спарк - самый удобный способ интеграции данных в хранилище, но само хранилище тоже должно быть удобным, а удобнее sql metastore ещё пока ничего не придумали

источник

11:10пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Можно вроде прикрутить вместо дерби другие базы, чтоб на них спарк метастор крутился

источник

11:11пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

Sergej Khakhulin

https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html

А, ну так thrift jdbc :)

источник

11:12пожаловаться #10

SK

Sergej Khakhulin in Moscow Spark

Паша Финкельштейн

А, ну так thrift jdbc :)

Вопрос то был про метостор, в нем можно регать таблицы, и получать доступ через sparkSql

источник

11:13пожаловаться #11

GT

Gennady Timofeev in Moscow Spark

Renarde

внутри Databricks можно увязать delta таблички на Glue, возможно и снаружи тоже можно через манифесты:
https://databricks.com/blog/2019/09/03/transform-your-aws-data-lake-using-databricks-delta-and-aws-glue-data-catalog-service.html

Databricks

AWS Data Lake Delta Transformation Using AWS Glue

Learn how to use the AWS Glue Data Catalog with Databricks Runtime to seamlessly transform your AWS Data Lake into a reliable Delta Lake.

Спасибо, посмотрю, выглядит пока тоже велосипедом с кроулерами 🤔

источник

11:17пожаловаться #12

GT

Gennady Timofeev in Moscow Spark

Евгений Глотов

Можно вроде прикрутить вместо дерби другие базы, чтоб на них спарк метастор крутился

Вот вроде так выглядит, но что-то в интернетах одни статейки про конфигурацию хайва попадаются

источник

11:18пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Gennady Timofeev

Вот вроде так выглядит, но что-то в интернетах одни статейки про конфигурацию хайва попадаются

В инете всем либо паркетов в s3 хватает, либо хдфс+хайв

источник

11:20пожаловаться #14

AK

Andrew Konstantinov in Moscow Spark

Кто нибудь знает почему ‘’’df_driver.withColumn('requestTime',date_format(to_timestamp(df_driver.requestTime, "yyyy-MM-dd'T'HH:mm:ss.SSSSSS"), "yyyy-MM-dd'T'HH:mm:ss.SSSSSS"))’’’ даёт null в pyspark? Дата выглядит так 2020-07-01T13:00:03.629491 .null значения возникают,когда начинаю указывать миллисекунды

источник

14:07пожаловаться #15

AS

Andrey Smirnov in Moscow Spark

Andrew Konstantinov

Кто нибудь знает почему ‘’’df_driver.withColumn('requestTime',date_format(to_timestamp(df_driver.requestTime, "yyyy-MM-dd'T'HH:mm:ss.SSSSSS"), "yyyy-MM-dd'T'HH:mm:ss.SSSSSS"))’’’ даёт null в pyspark? Дата выглядит так 2020-07-01T13:00:03.629491 .null значения возникают,когда начинаю указывать миллисекунды

это уже микросекунды

источник

14:27пожаловаться #16

AK

Andrew Konstantinov in Moscow Spark

Andrey Smirnov

это уже микросекунды

А как их правильно прописать?

источник

14:38пожаловаться #17

AS

Andrey Smirnov in Moscow Spark