Size: a a a

2021 March 04

A

Alex in Moscow Spark
А, вижу, там для трифт сервера есть выбор, но видимо не для того что внутри окажется
источник

K

KrivdaTheTriewe in Moscow Spark
Alex
Там же любой может сделать, достаточно параметры profile передать правильные и всё, мейвен соберёт

Или в чем вопрос?
Не завелась у меня
источник

K

KrivdaTheTriewe in Moscow Spark
Оно там не все так просто
источник

K

KrivdaTheTriewe in Moscow Spark
Потом я нашел , что есть официальная сборка , хотя ее формально не поддерживали
источник

K

KrivdaTheTriewe in Moscow Spark
А в 3.1 прям патчнотом написали отдельным , что теперь все
источник

A

Alex in Moscow Spark
In Spark 3.1, we remove the built-in Hive 1.2. You need to migrate your custom SerDes to Hive 2.3. See HIVE-15167 for more details.
источник

A

Alex in Moscow Spark
Да, ну значит надо теперь указывать что или из файла или с мейвена брать дрова :)
источник

A

Alex in Moscow Spark
KrivdaTheTriewe
Потом я нашел , что есть официальная сборка , хотя ее формально не поддерживали
В 3.0 оно было в кодовой базе, я помню что видел код, в вот в 3.1 уже дропнули из кодебейза
источник

K

KrivdaTheTriewe in Moscow Spark
Alex
Да, ну значит надо теперь указывать что или из файла или с мейвена брать дрова :)
Там вырезать нужно будет при этом хайв новый
источник

K

KrivdaTheTriewe in Moscow Spark
Иначе падать будет
источник

A

Alex in Moscow Spark
Не должно, видимо с зависимостями ты что-то намутил
источник

NN

No Name in Moscow Spark
Petr Zhitnikov
Если говорить про .groupBy(...).agg(count($"smth")), то это ведь другая семантика – это количество строк с not null значениями по этой колонке
Не, ну я не это имел в виду
источник

K

KrivdaTheTriewe in Moscow Spark
Alex
Не должно, видимо с зависимостями ты что-то намутил
Я очень надеюсь , что оно работает
источник

A

Alex in Moscow Spark
По быстрому по тикетам пообежал, они весь профиль и воркэраунды выпилили, обновив код для работы только с 2.3

Можно конечно заморочится и откатить все в зад :) вопрос лишь действительно ли это нужно, особенно в контексте

Support HDFS location in spark.sql.hive.metastore.jars (SPARK-32852)
источник

A

Alex in Moscow Spark
Закинул hive джарки на хдфс, указал параметр и поднял коннект на старый метастор

В вот с buldin кодом были проблемы, я сам поменял некоторые файлы от паркета и хайва, так как там баги были уже пофикшеные в апстриме. А спарк эти классы использовал для работы с паркетом и тд
источник

K

KrivdaTheTriewe in Moscow Spark
Alex
По быстрому по тикетам пообежал, они весь профиль и воркэраунды выпилили, обновив код для работы только с 2.3

Можно конечно заморочится и откатить все в зад :) вопрос лишь действительно ли это нужно, особенно в контексте

Support HDFS location in spark.sql.hive.metastore.jars (SPARK-32852)
Если это работает то каеф
источник
2021 March 05

ПБ

Повелитель Бури... in Moscow Spark
Доброй ночи! Скажите пожалуйста, кто то реализовывал такой кейс:
есть 10 слабых машинок по 10 тб в hdfs
Нужно быстро посчитать данные.
В облаке поднимаем мощную машину с кучей оперативки и памяти и делим эти ресурсы для спарка, считаем, после чего тушим
источник

ЕГ

Евгений Глотов... in Moscow Spark
Повелитель Бури
Доброй ночи! Скажите пожалуйста, кто то реализовывал такой кейс:
есть 10 слабых машинок по 10 тб в hdfs
Нужно быстро посчитать данные.
В облаке поднимаем мощную машину с кучей оперативки и памяти и делим эти ресурсы для спарка, считаем, после чего тушим
Сколько vcore в каждой из этих 10 нод?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Может на одной тачке спарк будет не быстрее, чем на этих 10
источник

ЕГ

Евгений Глотов... in Moscow Spark
Оперативки достаточно 4.5gb/vcore
источник