Size: a a a

2021 January 20

ПФ

Паша Финкельштейн... in Moscow Spark
KrivdaTheTriewe
ну сделать так, чтобы в рамках команды, создавался один wget
Ну вот тогда и Спарк тут не нужен
источник

K

KrivdaTheTriewe in Moscow Spark
Паша Финкельштейн
Ну вот тогда и Спарк тут не нужен
ну он контролирует, что ничего не сломалось , и управление параллелизмом происходит на уровне партиций
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Просто выполни команду и работай с результатом. То, что я написал вторым, а @fall_out_bug первым
источник

K

KrivdaTheTriewe in Moscow Spark
ну пайп для особо сложных случаев канеш, мне кажется
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ага
источник

МН

Матвей Никонов... in Moscow Spark
Паша Финкельштейн
Просто выполни команду и работай с результатом. То, что я написал вторым, а @fall_out_bug первым
Попробую, спасибо
источник

Н

Никита in Moscow Spark
Всем привет, у меня есть партицированная таблица в hive в parquet. Я добавил через хайв 3 столбца ALTER TABLE ADD COLUMNS ... CASCADE, далее хочу чтобы со следующим запуском подтянулись новые колонки saveAsTable(append), но мне все время пишет, что разница в таблице 17 колонок, а на вход 20.
Я уже пробовал MSCK REPAIR черз hive, REFRESH через Spark, Invalidate metadata через Impala ничего не получается
источник

YV

Yuriy Vasilyevskiy in Moscow Spark
Таблица external?
источник

Н

Никита in Moscow Spark
Нет
источник

M

Mi in Moscow Spark
Никита
Всем привет, у меня есть партицированная таблица в hive в parquet. Я добавил через хайв 3 столбца ALTER TABLE ADD COLUMNS ... CASCADE, далее хочу чтобы со следующим запуском подтянулись новые колонки saveAsTable(append), но мне все время пишет, что разница в таблице 17 колонок, а на вход 20.
Я уже пробовал MSCK REPAIR черз hive, REFRESH через Spark, Invalidate metadata через Impala ничего не получается
Со следующим запуском спрака который всю таблицу читает?
источник

Н

Никита in Moscow Spark
Я читаю один источник каждый день например logs/2010-01-01, logs/2010-01-02 потом в джобе обрабатываю и записываю в таблицу parsed_logs партицию dt=2010-01-01, на след день dt=2010-01-02
Сейчас я добавил 3 новых поля в таблицу parsed_logs хочу чтобы на некст день записывались новые поля, а значения в старых партициях были null по новым полям
Если я правильно понял, что ты имеешь ввиду
источник

M

Mi in Moscow Spark
А show create table что показывает?
источник

M

Mi in Moscow Spark
Есть новые колонки там? И если сделать селект простой через какой-нибудь клиент, видны ли новые колонки как null
источник

Н

Никита in Moscow Spark
В нем есть новые поля, но в tblproperties есть ключ со схемой "spark.sql.sources.schema.part.0"= avro schema
вот она не обновляется
источник

Н

Никита in Moscow Spark
в селекте тоже они есть как null
источник

Н

Никита in Moscow Spark
Поправлюсь через spark-submit полей не видно, а через hive видно
источник

M

Mi in Moscow Spark
Возможно стоит тогда как раз удалить этот ключ из tblproperties чтобы Спарк сгенерил новый, либо изменить учитывая новые колонки
источник

Н

Никита in Moscow Spark
Спасибо, проблема именно в этом месте, в следующий раз надо все делать через spark sql, ане через hive
источник
2021 January 21

e

er@essbase.ru in Moscow Spark
Звучит как то странно. Точно так ?
источник

M

Mi in Moscow Spark
er@essbase.ru
Звучит как то странно. Точно так ?
А что странного то?
источник