Телеграмм чат группы moscowspark страница 63

Друзья мои, мы, потихонечку, начинаем готовить Moscow Spark #6. Состоится он, видимо, во второй половине ноября. Когда пройдет, по крайней мере, Highload++. Если у кого-то есть материал, чтобы сделать клевый доклад, жду вас в личку )

источник

17:52пожаловаться #7

2018 October 18

Dima in Moscow Spark

Всем привет, кто-то сталкивался с проблемой в спарке - push down predicate(PDP) не работает если таблица была создана Импалой.
Если таблицу создать Спарком или читать паркет файлы напрямую типа spark.read.load.filter то все работает.

Dima in Moscow Spark

Dima in Moscow Spark

Вот 2 плана для сравнения

источник

15:58пожаловаться #10

Pavel Klemenkov in Moscow Spark

А HiveTableScan вообще умеет predicate pushdown?

источник

16:12пожаловаться #11

Dima in Moscow Spark

Я не знаю , где то можно почитать об этом? Кассандра например умеет, если таблицу в Кассандре создать

источник

16:18пожаловаться #12

Dima in Moscow Spark

Плюс если формат файла ORC то в HiveTableScan секции я вижу PDP

источник

16:25пожаловаться #13

Aleksandr Aleksandro... in Moscow Spark

Dima

Может попробовать parquet-tools сравнить файлы?

источник

17:23пожаловаться #14

Dima in Moscow Spark

Так это тот же тот же фаил и на него смотрим Импала

источник

17:26пожаловаться #15

Dima in Moscow Spark

Тут проблема с метаданными, тк если я добавлю в Импала таблицу свойства (TBLPRPOPERTIES spark.sql.source.provider=parquet ... И еще и схему) то тогда когда я буду читать спарком он будет знать метаданные и б

источник

17:31пожаловаться #16

Dima in Moscow Spark

Будет испрльзовать FileScan вместо HiveTableScan

источник

17:35пожаловаться #17

2018 October 19

Dima in Moscow Spark

Если интересно то проблема была с параметром spark.sql.hive.convertMetastoreParquet

источник

02:19пожаловаться #18

Mitya Volodin in Moscow Spark

Переслано от Mitya Volodin

Коллеги, всем привет!

Расскажите, есть ли опыт использования инструментов Data Quality. Типа SAS DQ, IBM Data Quality Server, Informatica DQ, Collibra, Ataccama
Буду признателен за отзывыв, особенно по двум последним

источник

10:31пожаловаться #19

Pavel Klemenkov in Moscow Spark

Я тыкался в них, какой-то шлак это все, в итоге на спарке пилим сами

источник

11:25пожаловаться #20