Size: a a a

2020 February 20

А

Алексей in Moscow Spark
а все, понял как с where работает, сначала делится по rowid потом сверху накладывается дополнительный фильтр. Не факт что в этой порции rowid есть данные этого фильтра.
Но сам подход, конечно, интересный, спасибо, поизучаю
источник

А

Алексей in Moscow Spark
в скупе еще неудобно, что NULL становятся 'null'
источник

ЕГ

Евгений Глотов... in Moscow Spark
Иван Калининский
без вариантов jdbc. Но скуп - тулза для загрузки, а спарк про другое все таки
Блин откуда вы такие берётесь
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк - он про всё
источник

ЕГ

Евгений Глотов... in Moscow Spark
Зачем от него отказываться для какой-то задачи, которую он умеет решать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но все пытаются отказаться🤷‍♂
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
Зачем от него отказываться для какой-то задачи, которую он умеет решать
Не надо отказываться, но излишний оптимизм тоже ни к чему.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Там много нюансов, но они же и в скупе есть, свои
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
Спарк - он про всё
Я настаиваю, что спарк из коробки не умеет грузить по диапазонам rowid, применять scn и тому подобное. Аргумент понятен?
источник

ЕГ

Евгений Глотов... in Moscow Spark
В каком смысле не умеет грузить по диапазонам? Там же есть загрузка по диапазонам
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
В каком смысле не умеет грузить по диапазонам? Там же есть загрузка по диапазонам
Нет. Можно задать Split on column, но не rowid.
источник

ЕГ

Евгений Глотов... in Moscow Spark
А, всё, понял, да, с внутренними полями он не работает
источник

ЕГ

Евгений Глотов... in Moscow Spark
А сравнивали производительность выгрузок? По моим наблюдениям, всё-таки большую часть времени занимает именно перекачка данных, а не запрос в базу
источник

ЕГ

Евгений Глотов... in Moscow Spark
Даже если там не просто по колонке сплит, а по хешу, например
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
А сравнивали производительность выгрузок? По моим наблюдениям, всё-таки большую часть времени занимает именно перекачка данных, а не запрос в базу
Таки сравнивали))
Да, разные запросы начинали выдавать результаты практически за одно и то же время, но для загрузки по диапазонам rowid меньше чтений, как правило, лучше распределение по экзекуторам, и итоговое время заметно меньше.
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
Даже если там не просто по колонке сплит, а по хешу, например
Вот с хешем, конечно, интересный вариант, но хеш нужно рассчитать для каждой строки столько раз, сколько запросов выполняется. По итогу не лучший вариант
источник

ЕГ

Евгений Глотов... in Moscow Spark
Иван Калининский
Вот с хешем, конечно, интересный вариант, но хеш нужно рассчитать для каждой строки столько раз, сколько запросов выполняется. По итогу не лучший вариант
Ну это чисто бизнесовый вариант, не везде есть rowid, например во вьюхах его нет, а параллелить как-то надо)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если получили повышение производительности, тогда круто, снимаю свой вопрос)
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
Ну это чисто бизнесовый вариант, не везде есть rowid, например во вьюхах его нет, а параллелить как-то надо)
Задача имеет значение, вот люди nifi и Storm активно используют, а я с этими средствами не знаком. Возможно, они бы отлично подошли для решения по какому то кейсу
источник

ЕГ

Евгений Глотов... in Moscow Spark
Просто я слышал мнения вплоть до того, что спарк - это не для батч процессинга😆
источник