Size: a a a

2018 July 24

ЕГ

Евгений Глотов... in Moscow Spark
Pavel Klemenkov
Вопросик появился. Надо бы почитать данные из внешнего хайва спарком. Какие есть варианты? Пока пробовал jdbc к hiveserver, съема вычитывается, но данных нет. Потенциально проблема с тем, что таблицы партиционированные, а как это указать непонятно
Есть баг по этому поводу - там названия колонок в неправильных кавычках, кто-то корячил свой dialect
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Меня пробесило вот это "connecting to hive via jdbc is not a recommended way"
источник

ЕГ

Евгений Глотов... in Moscow Spark
Гении, блин, а как ещё подконнектиться, если у нас хайв на другом кластере
источник

FL

Fedor Lavrentyev in Moscow Spark
Читать спарком из соседнего хайва - это какой-то жыр
источник

ЕГ

Евгений Глотов... in Moscow Spark
Fedor Lavrentyev
Читать спарком из соседнего хайва - это какой-то жыр
А если не соседний, на чужом хдфс, на чужом кластере? Да, можно напрямую залезть в чужой хдфс, но метаданные откуда взять?)
источник

FL

Fedor Lavrentyev in Moscow Spark
Ну если месье такой гурман, то можешь hive-site подсунуть с того кластера.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да, хороший способ, если мы запускаем спарк-сабмит)
источник

ЕГ

Евгений Глотов... in Moscow Spark
А если мы уже в сессии на своём кластере? Короче, в любом случае, костылище)
источник

t

tenKe in Moscow Spark
Pavel Klemenkov
Вопросик появился. Надо бы почитать данные из внешнего хайва спарком. Какие есть варианты? Пока пробовал jdbc к hiveserver, съема вычитывается, но данных нет. Потенциально проблема с тем, что таблицы партиционированные, а как это указать непонятно
ну как вариант spark jdbc на кластере с хайвом?)
источник

PK

Pavel Klemenkov in Moscow Spark
Евгений Глотов
А если мы уже в сессии на своём кластере? Короче, в любом случае, костылище)
Да +1, все как Евгений описывает
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно из спарк трифт сервера брать результат show create table, брать оттуда путь к хдфс и формат и делать spark.read.format("format").load("hdfs")
источник

PK

Pavel Klemenkov in Moscow Spark
Евгений Глотов
Есть баг по этому поводу - там названия колонок в неправильных кавычках, кто-то корячил свой dialect
Ого, спасибо!
источник

PK

Pavel Klemenkov in Moscow Spark
Евгений Глотов
Можно из спарк трифт сервера брать результат show create table, брать оттуда путь к хдфс и формат и делать spark.read.format("format").load("hdfs")
Вообще шняга )
источник

ЕГ

Евгений Глотов... in Moscow Spark
Чаще всего в /apps/hive/warehouse/<db_name>.db/<table_name>
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это если мэнэджед таблица
источник

ЕГ

Евгений Глотов... in Moscow Spark
А можно каким-нибудь пайхайвом подключиться, без трифт сервера обойтись, всё равно шоу криэйт одну запись выдаёт
источник
2018 July 25

ЛР

Лев Рагулин... in Moscow Spark
Pavel Klemenkov
Вопросик появился. Надо бы почитать данные из внешнего хайва спарком. Какие есть варианты? Пока пробовал jdbc к hiveserver, съема вычитывается, но данных нет. Потенциально проблема с тем, что таблицы партиционированные, а как это указать непонятно
А почему просто hive-ом воспользоваться нельзя ? Метадата сервер не доступен ? К HDFS где лежит таблица есть доступ? Прямо оттуда Файлы брать можно?
источник

PK

Pavel Klemenkov in Moscow Spark
Лев Рагулин
А почему просто hive-ом воспользоваться нельзя ? Метадата сервер не доступен ? К HDFS где лежит таблица есть доступ? Прямо оттуда Файлы брать можно?
Потому что логика на спарке
источник

ЛР

Лев Рагулин... in Moscow Spark
Pavel Klemenkov
Потому что логика на спарке
Так Spark легко читает hive таблицы
источник