Size: a a a

2021 March 16

VS

Vladislav 👻 Shishkov... in Moscow Spark
Если кому все таки интересно, то все отлично работает и единственное, где более менее описано, как это сетапить и подключать, находится, на удивление, вот тут: https://pypi.org/project/sparkmonitor/
источник
2021 March 17

S

S_Syusyukalov in Moscow Spark
Добрый день. Коллеги, никто не сталкивался с подобной проблемой?
В parquet-файле появились странные файлики, состоящие только из текста "PAR1" ( больше ничего нет).
Сам parquet - external table для hive/impala. Отдельные партиции, в которых этих файликов нет, читаются в impala нормально, те, в которых они есть - валятся с ошибкой - TFetchResultsResp(status=TStatus(errorCode=None, errorMessage='Parquet file <SOME_NAME>snappy.parquet has an invalid file length: 4\n', sqlState='HY000', infoMessages=None, statusCode=3), results=None,
Коллеги утверждают, что проблема появилась после выполнения recover partitions.

Может быть посоветуете какую-то утилиту, которая чистит parquet от невалидных блоков?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от Паша Финкельштейн...
PAR1 - это меджик паркета. Походу ты где-то outputstream не закрываешь
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от Паша Финкельштейн...
Этот меджик находится в начале и в конце вроде ю файла. Перед концом даже для пустого файла должен быть футер с метаинформацией
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от Паша Финкельштейн...
Так что у тебя гарантированно ломающий спецификацию паркет. Если ты его пишешь каким-то стандартными средствами - значит что-то идёт не так
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от S_Syusyukalov
окей, спасибо. Пишется leqacy-спарковой джобой, с виду без криминала, но буду глубже копать
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от Паша Финкельштейн...
Я не очень знаю что делает recover partitions
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от S_Syusyukalov
Вроде она только метадату меняет, не трогая сами паркеты, так что эта версия у меня вызывает сомнения
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от Паша Финкельштейн...
Ну метадата паркетин хранится в них самих, так что...
источник
2021 March 18

G

Gev in Moscow Spark
Народ, одскажите, а как мне двигать папками на HDFS.
Мне надо заменить партиции из одной папки другими. Что то вообще не могу сообразить какой есть для этого инструмент?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gev
Народ, одскажите, а как мне двигать папками на HDFS.
Мне надо заменить партиции из одной папки другими. Что то вообще не могу сообразить какой есть для этого инструмент?
hdfs mv?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Можно прямо скрипт на jbang написать в принципе
источник

PK

Pavel Klemenkov in Moscow Spark
Gev
Народ, одскажите, а как мне двигать папками на HDFS.
Мне надо заменить партиции из одной папки другими. Что то вообще не могу сообразить какой есть для этого инструмент?
Любой http клиент и webhdfs?
источник

N

Nikita Blagodarnyy in Moscow Spark
Gev
Народ, одскажите, а как мне двигать папками на HDFS.
Мне надо заменить партиции из одной папки другими. Что то вообще не могу сообразить какой есть для этого инструмент?
Hdfs java api?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Nikita Blagodarnyy
Hdfs java api?
+ jbang, да
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Чтобы не возиться со сборкой проекта и всем вот этим
источник

N

Nikita Blagodarnyy in Moscow Spark
FileUtil.copy
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Можно ещё Спарк джоб написать ))))
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А я же правильно понимаю что move выполняется только на неймноде?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gev
Народ, одскажите, а как мне двигать папками на HDFS.
Мне надо заменить партиции из одной папки другими. Что то вообще не могу сообразить какой есть для этого инструмент?
У меня ультимативный ответ. Big Data Tools. Аккуратный интерфейс
источник