Size: a a a

2018 October 11

GP

Grigory Pomadchin in Moscow Spark
Nikolay
Всем привет. На чем тесты для Спарка пишите ?
петон у тебя пиши на петоне, на скале пищи на скале и так далее
источник

GP

Grigory Pomadchin in Moscow Spark
источник

ZM

ZLoyer Matveev in Moscow Spark
Grigory Pomadchin
петон у тебя пиши на петоне, на скале пищи на скале и так далее
петон - пиши на скале, скала - пиши на скале, джава - уволься
источник

GP

Grigory Pomadchin in Moscow Spark
ZLoyer Matveev
петон - пиши на скале, скала - пиши на скале, джава - уволься
этот вариант тоже норм; ты про Р забыл
источник

ZM

ZLoyer Matveev in Moscow Spark
и не вспомню, мне одного раза хватило
источник
2018 October 15

PK

Pavel Klemenkov in Moscow Spark
Такой вопрос. Кто-то пытался структурным стриммингом вычитывать из СУБД? Есть какие-то наработки, советы по этому поводу?
источник
2018 October 16

PK

Pavel Klemenkov in Moscow Spark
Друзья мои, мы, потихонечку, начинаем готовить Moscow Spark #6. Состоится он, видимо, во второй половине ноября. Когда пройдет, по крайней мере, Highload++. Если у кого-то есть материал, чтобы сделать клевый доклад, жду вас в личку )
источник
2018 October 18

D

Dima in Moscow Spark
Всем привет, кто-то сталкивался с проблемой в спарке - push down predicate(PDP) не работает если таблица была создана Импалой.
Если таблицу создать Спарком или читать паркет файлы напрямую типа spark.read.load.filter то все работает.
источник

D

Dima in Moscow Spark
источник

D

Dima in Moscow Spark
Вот 2 плана для сравнения
источник

PK

Pavel Klemenkov in Moscow Spark
А HiveTableScan вообще умеет predicate pushdown?
источник

D

Dima in Moscow Spark
Я не знаю , где то можно почитать об этом? Кассандра например умеет, если таблицу в Кассандре создать
источник

D

Dima in Moscow Spark
Плюс если формат файла ORC то в HiveTableScan секции я вижу PDP
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Dima
Всем привет, кто-то сталкивался с проблемой в спарке - push down predicate(PDP) не работает если таблица была создана Импалой.
Если таблицу создать Спарком или читать паркет файлы напрямую типа spark.read.load.filter то все работает.
Может попробовать parquet-tools сравнить файлы?
источник

D

Dima in Moscow Spark
Так это тот же тот же фаил и на него смотрим Импала
источник

D

Dima in Moscow Spark
Тут проблема с метаданными, тк если я добавлю в Импала таблицу свойства (TBLPRPOPERTIES spark.sql.source.provider=parquet ... И еще и схему) то тогда когда я буду читать спарком он будет знать метаданные и б
источник

D

Dima in Moscow Spark
Будет испрльзовать FileScan вместо  HiveTableScan
источник
2018 October 19

D

Dima in Moscow Spark
Если интересно то проблема была с параметром spark.sql.hive.convertMetastoreParquet
источник

MV

Mitya Volodin in Moscow Spark
Переслано от Mitya Volodin
Коллеги, всем привет!

Расскажите, есть ли опыт использования инструментов Data Quality. Типа SAS DQ, IBM Data Quality Server, Informatica DQ, Collibra, Ataccama
Буду признателен за отзывыв, особенно по двум последним
источник

PK

Pavel Klemenkov in Moscow Spark
Я тыкался в них, какой-то шлак это все, в итоге на спарке пилим сами
источник