Телеграмм чат группы moscowspark страница 514

Всем привет, у меня есть партицированная таблица в hive в parquet. Я добавил через хайв 3 столбца ALTER TABLE ADD COLUMNS ... CASCADE, далее хочу чтобы со следующим запуском подтянулись новые колонки saveAsTable(append), но мне все время пишет, что разница в таблице 17 колонок, а на вход 20.
Я уже пробовал MSCK REPAIR черз hive, REFRESH через Spark, Invalidate metadata через Impala ничего не получается

источник

18:12пожаловаться #7

Yuriy Vasilyevskiy in Moscow Spark

Таблица external?

источник

18:13пожаловаться #8

Никита in Moscow Spark

Нет

источник

18:13пожаловаться #9

Mi in Moscow Spark

Никита

Со следующим запуском спрака который всю таблицу читает?

источник

18:20пожаловаться #10

Никита in Moscow Spark

Я читаю один источник каждый день например logs/2010-01-01, logs/2010-01-02 потом в джобе обрабатываю и записываю в таблицу parsed_logs партицию dt=2010-01-01, на след день dt=2010-01-02
Сейчас я добавил 3 новых поля в таблицу parsed_logs хочу чтобы на некст день записывались новые поля, а значения в старых партициях были null по новым полям
Если я правильно понял, что ты имеешь ввиду

источник

18:24пожаловаться #11

Mi in Moscow Spark

А show create table что показывает?

источник

18:25пожаловаться #12

Mi in Moscow Spark

Есть новые колонки там? И если сделать селект простой через какой-нибудь клиент, видны ли новые колонки как null

источник

18:26пожаловаться #13

Никита in Moscow Spark

В нем есть новые поля, но в tblproperties есть ключ со схемой "spark.sql.sources.schema.part.0"= avro schema
вот она не обновляется