Size: a a a

2020 July 09

SK

Sergej Khakhulin in Moscow Spark
Всем првет, мб кто то на scala делал декод из avro(confluent kafka) со схемой в confluence SR с basic auth, на spark 3.0.0? ( спомошью стриминга вытаскиваю батч с авро из кафки, но дальше проблеммы с его декодингом)
источник

SK

Sergej Khakhulin in Moscow Spark
пытался через from_avro но не нашел способа передать в него авторизацию io.confluent.kafka.serializers.KafkaAvroDeserializer падает ошибка о невозможности задекодить, через ABRiS не могу понять как ему казать что бы id схемы брал из avro
источник

AK

Andrew Konstantinov in Moscow Spark
Всем привет,такой вопрос.Есть spark streaming ,который парсит входящий поток согласно схеме json ,которая задается изначально для формирования датафрейма из value string ,который прилетает вместе с сообщением из кафки.Как можно детектить изменения в схеме данных самого этого value string?
источник

SK

Sergej Khakhulin in Moscow Spark
Andrew Konstantinov
Всем привет,такой вопрос.Есть spark streaming ,который парсит входящий поток согласно схеме json ,которая задается изначально для формирования датафрейма из value string ,который прилетает вместе с сообщением из кафки.Как можно детектить изменения в схеме данных самого этого value string?
Хранить схему в Schem Registry или в любом другом месте, хоть на fs в файле и сравнивать каждый раз
источник

AK

Andrew Konstantinov in Moscow Spark
Oк ,как вариант
источник

AK

Andrew Konstantinov in Moscow Spark
А как мне на лету в стриминге запарсить json без schema , который прилетает как value string в сообщении кафки?
источник

AK

Andrew Konstantinov in Moscow Spark
Сейчас я для того чтобы прочитать value передаю ему схему данных (from json...)
источник

G

Gev in Moscow Spark
А разве для json обязательно указывать schema
источник

AK

Andrew Konstantinov in Moscow Spark
Gev
А разве для json обязательно указывать schema
Этот json лежит как string и из него я делаю датаырейм
источник

AK

Andrew Konstantinov in Moscow Spark
Gev
А разве для json обязательно указывать schema
Я это делаю в Спарк стриминге
источник
2020 July 14

Н

Никита in Moscow Spark
Добрый день, кто-нибудь знает, где можно прочитать о best practices о выстраивании ETL пайплайнов дял машинного обучения, о том как красиво организовать таблицу с фичами с историчностью
источник
2020 July 15

GT

Gennady Timofeev in Moscow Spark
Коллеги, приветствую. Подскажите, есть ли какие-нибудь иные подходы к организации метастора спарка кроме хайва? Или может есть какие-то подходы использовать в такой ситуации собственный метастор спарка? Вопрос интересует с тем, что хранилкой выступает с3, пока пытаюсь скомпилить глю клиент для спарка, чтобы использовать в роли дата каталога глю, но выглядит это слабо поддерживаемым решением (компиляция требует слишком уж много танцев + ещё надо и спарку патченные джарники хайва подсовывать). Хочу отказаться от емр в сторону своего спарка в екс
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gennady Timofeev
Коллеги, приветствую. Подскажите, есть ли какие-нибудь иные подходы к организации метастора спарка кроме хайва? Или может есть какие-то подходы использовать в такой ситуации собственный метастор спарка? Вопрос интересует с тем, что хранилкой выступает с3, пока пытаюсь скомпилить глю клиент для спарка, чтобы использовать в роли дата каталога глю, но выглядит это слабо поддерживаемым решением (компиляция требует слишком уж много танцев + ещё надо и спарку патченные джарники хайва подсовывать). Хочу отказаться от емр в сторону своего спарка в екс
У спарка же есть свой собственный метастор, а ещё есть дельталейк. Спарк может, но не обязан работать с хайвом
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Убедиться в этом просто - запускаем локально Спарк, создаём табличку из датафрейма, она куда-то сохраняется (локально это будет дерби)
источник

GT

Gennady Timofeev in Moscow Spark
Да, локально понятно, но что-то не могу нагуглить конфигурацию для боевого решения
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gennady Timofeev
Да, локально понятно, но что-то не могу нагуглить конфигурацию для боевого решения
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но ведь в целом Спарк не про это, а про работу с разными источниками данных. Какая у вас задача что нужен именно метастор типа хайва?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
У MapR какие-то ещё были штуки для хранилища
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Есть инмемори решение - Tachyon, но не знаю насколько оно актуально
источник

АЖ

Андрей Жуков... in Moscow Spark
У них и хдфс свой был
источник