Size: a a a

2021 February 02

TZ

Timur Zalimov in Moscow Spark
В интернетах пишут что по умолчанию читать нельзя но есть кастыли помогающие это как сделать, но я к сожалению рабочий вариант не нашел ... мб есть идеи как быть ?
источник

EC

Eugene Chipizubov in Moscow Spark
Паша Финкельштейн
А можешь мне прислать какой-нибудь маленький, если так можно сделать?
Слушай, что то дешево сходу сгенерить искусственный датасет не получилось
источник

EC

Eugene Chipizubov in Moscow Spark
сижу думаю, придется на udf что ли сначала в спарке создать
источник

NN

No Name in Moscow Spark
Timur Zalimov
Инженеры, можно ли через Spark 2.3.1 читать транзакционные orc таблички ? Пробовал в лоб прочитать через table - df читается схему определяет но если делаешь show или save то падает с ошибкой inputFormat
А что за транзакционные орки? Я знаю только дельту с транзакциями, и то там паркетники.
источник

EC

Eugene Chipizubov in Moscow Spark
источник

TZ

Timur Zalimov in Moscow Spark
Типа есть транзакционные таблицы в hive, но что бы это поддерживалось нужен формат orc и там еще бэкетирование должно быть
источник

EC

Eugene Chipizubov in Moscow Spark
Паша Финкельштейн
А можешь мне прислать какой-нибудь маленький, если так можно сделать?
источник

EC

Eugene Chipizubov in Moscow Spark
Время работы 11 минут для 50 строк )))) в один поток
источник

AS

Andrey Smirnov in Moscow Spark
Timur Zalimov
Типа есть транзакционные таблицы в hive, но что бы это поддерживалось нужен формат orc и там еще бэкетирование должно быть
источник

NN

No Name in Moscow Spark
Timur Zalimov
Типа есть транзакционные таблицы в hive, но что бы это поддерживалось нужен формат orc и там еще бэкетирование должно быть
А, точно, есть же такая тема. Пасиб.
источник

AS

Andrey Smirnov in Moscow Spark
Timur Zalimov
Типа есть транзакционные таблицы в hive, но что бы это поддерживалось нужен формат orc и там еще бэкетирование должно быть
но мне казалось чтобы можно читать из спарка, достаточно провести сомпакт этих таблиц на hive
источник

TZ

Timur Zalimov in Moscow Spark
Andrey Smirnov
но мне казалось чтобы можно читать из спарка, достаточно провести сомпакт этих таблиц на hive
Ну вот люди пишут что да нужен компакт но я не разобрался как его юзать какой именно юзать минор мажор
источник

TZ

Timur Zalimov in Moscow Spark
и как часто компакт делать
источник

TZ

Timur Zalimov in Moscow Spark
типа таблица обновляется каждый день и мне каждый день перед этим делать alter table compact major ?
источник

AS

Andrey Smirnov in Moscow Spark
Timur Zalimov
типа таблица обновляется каждый день и мне каждый день перед этим делать alter table compact major ?
Я в своё время так и делал, за ночь прогонялись таски, потом компактен
источник

TZ

Timur Zalimov in Moscow Spark
Andrey Smirnov
Я в своё время так и делал, за ночь прогонялись таски, потом компактен
типа каждый раз делать перед тем как читать собрался ?
источник

Д

Дмитрий in Moscow Spark
А если с hive зачитать таблицу ?
источник

TZ

Timur Zalimov in Moscow Spark
Дмитрий
А если с hive зачитать таблицу ?
все ок - но мы работает в спарке
источник

AS

Andrey Smirnov in Moscow Spark
Timur Zalimov
типа каждый раз делать перед тем как читать собрался ?
После наполнения
источник

TZ

Timur Zalimov in Moscow Spark
и spark.sql() не работает тоже падает с ошибкой
источник