Телеграмм чат группы moscowspark страница 265

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 February 20

А

Алексей in Moscow Spark

а все, понял как с where работает, сначала делится по rowid потом сверху накладывается дополнительный фильтр. Не факт что в этой порции rowid есть данные этого фильтра.
Но сам подход, конечно, интересный, спасибо, поизучаю

источник

13:38пожаловаться #1

А

Алексей in Moscow Spark

в скупе еще неудобно, что NULL становятся 'null'

источник

13:42пожаловаться #2

ЕГ

Евгений Глотов... in Moscow Spark

Иван Калининский

без вариантов jdbc. Но скуп - тулза для загрузки, а спарк про другое все таки

Блин откуда вы такие берётесь

источник

13:53пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Спарк - он про всё

источник

13:53пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Зачем от него отказываться для какой-то задачи, которую он умеет решать

источник

13:53пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Но все пытаются отказаться🤷‍♂

источник

13:54пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

Евгений Глотов

Зачем от него отказываться для какой-то задачи, которую он умеет решать

Не надо отказываться, но излишний оптимизм тоже ни к чему.

источник

13:54пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Там много нюансов, но они же и в скупе есть, свои

источник

13:55пожаловаться #8

ИК

Иван Калининский... in Moscow Spark

Евгений Глотов

Спарк - он про всё

Я настаиваю, что спарк из коробки не умеет грузить по диапазонам rowid, применять scn и тому подобное. Аргумент понятен?

источник

13:55пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

В каком смысле не умеет грузить по диапазонам? Там же есть загрузка по диапазонам

источник

13:57пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

Евгений Глотов

В каком смысле не умеет грузить по диапазонам? Там же есть загрузка по диапазонам

Нет. Можно задать Split on column, но не rowid.

источник

13:58пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

А, всё, понял, да, с внутренними полями он не работает

источник

14:00пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

А сравнивали производительность выгрузок? По моим наблюдениям, всё-таки большую часть времени занимает именно перекачка данных, а не запрос в базу

источник

14:02пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Даже если там не просто по колонке сплит, а по хешу, например

источник

14:02пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

Евгений Глотов

А сравнивали производительность выгрузок? По моим наблюдениям, всё-таки большую часть времени занимает именно перекачка данных, а не запрос в базу

Таки сравнивали))
Да, разные запросы начинали выдавать результаты практически за одно и то же время, но для загрузки по диапазонам rowid меньше чтений, как правило, лучше распределение по экзекуторам, и итоговое время заметно меньше.

источник

14:05пожаловаться #15

ИК

Иван Калининский... in Moscow Spark

Евгений Глотов

Даже если там не просто по колонке сплит, а по хешу, например

Вот с хешем, конечно, интересный вариант, но хеш нужно рассчитать для каждой строки столько раз, сколько запросов выполняется. По итогу не лучший вариант

источник

14:06пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Иван Калининский

Вот с хешем, конечно, интересный вариант, но хеш нужно рассчитать для каждой строки столько раз, сколько запросов выполняется. По итогу не лучший вариант

Ну это чисто бизнесовый вариант, не везде есть rowid, например во вьюхах его нет, а параллелить как-то надо)

источник

14:07пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Если получили повышение производительности, тогда круто, снимаю свой вопрос)

источник

14:08пожаловаться #18

ИК

Иван Калининский... in Moscow Spark

Евгений Глотов

Ну это чисто бизнесовый вариант, не везде есть rowid, например во вьюхах его нет, а параллелить как-то надо)

Задача имеет значение, вот люди nifi и Storm активно используют, а я с этими средствами не знаком. Возможно, они бы отлично подошли для решения по какому то кейсу

источник

14:11пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

Просто я слышал мнения вплоть до того, что спарк - это не для батч процессинга😆

источник

14:11пожаловаться #20