Телеграмм чат группы moscowspark страница 262

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 February 18

ME

Mikhail Epikhin in Moscow Spark

то есть у вас чтение однопоточное, для начала. тут можно пошаманить с partitionColumn опциями (чтобы отправлять несколько параллельных селектов).
вот тут механика partitionColumn задокументирована
https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html

а как дальше данные будут по партициям биться?

источник

17:35пожаловаться #1

R

Renarde in Moscow Spark

если вы читаете в один поток, а дальше делаете просто, то вообще неважно сколько у вас ядер - вы используете только одно

DF.write.format(“orc”).saveAsTable(…)

источник

17:35пожаловаться #2

ME

Mikhail Epikhin in Moscow Spark

что-то вроде consistent hashing?

источник

17:35пожаловаться #3

РП

Роман Пашкевич... in Moscow Spark

то есть у вас чтение однопоточное, для начала. тут можно пошаманить с partitionColumn опциями (чтобы отправлять несколько параллельных селектов).
вот тут механика partitionColumn задокументирована
https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html

Насколько я понимаю, за счет того что HANA "in memory" она спокойно и быстро отдает данные. Но механику partitionColumn я посмотрю. Это может ускорить выкачивание партиций по 10Gb.

источник

17:37пожаловаться #4

R

Renarde in Moscow Spark

Mikhail Epikhin

а как дальше данные будут по партициям биться?

я сейчас проверю, но вообще судя по всему если вы делате только:

df= spark.read.jdbc(…)
df.write.format(“orc”).saveAsTable(…)

И в read.jdbc нет параметров на partitionColumn, то вы все делаете в один поток

источник

17:39пожаловаться #5

ME

Mikhail Epikhin in Moscow Spark

я сейчас проверю, но вообще судя по всему если вы делате только:

df= spark.read.jdbc(…)
df.write.format(“orc”).saveAsTable(…)

И в read.jdbc нет параметров на partitionColumn, то вы все делаете в один поток

да, с этим спору нет.
Вопрос в том что если мы делаем numPartition в N, и N executors, то потом перед тем как склеивать в orc придётся мёрджить данные с N executors

источник

17:40пожаловаться #6

А

Алексей in Moscow Spark

вам нужно распараллелить забор данных, вы полюбому упираетесь в скорость чтений jdbc в 1 поток:
.option("partitionColumn", conf_params("thread_alias"))
.option("lowerBound", p_table_params("thread_min"))
.option("upperBound", p_table_params("thread_max"))
.option("numPartitions", thread_num)
.option("fetchsize", conf_params("fetchsize").toInt)

источник

17:42пожаловаться #7

R

Renarde in Moscow Spark

вам нужно распараллелить забор данных, вы полюбому упираетесь в скорость чтений jdbc в 1 поток:
.option("partitionColumn", conf_params("thread_alias"))
.option("lowerBound", p_table_params("thread_min"))
.option("upperBound", p_table_params("thread_max"))
.option("numPartitions", thread_num)
.option("fetchsize", conf_params("fetchsize").toInt)

это не обязательно помогает. В случае с Oracle, например, это только делает ситуацию хуже

источник

17:43пожаловаться #8

А

Алексей in Moscow Spark

читаю так из оракла и ничего не делает хуже

источник

17:43пожаловаться #9

А

Алексей in Moscow Spark

нужно думать по кому партишен делать

источник

17:43пожаловаться #10

А

Алексей in Moscow Spark

чтоб таблица на той стороне также была партицирована или индексирована

источник

17:43пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

вам нужно распараллелить забор данных, вы полюбому упираетесь в скорость чтений jdbc в 1 поток:
.option("partitionColumn", conf_params("thread_alias"))
.option("lowerBound", p_table_params("thread_min"))
.option("upperBound", p_table_params("thread_max"))
.option("numPartitions", thread_num)
.option("fetchsize", conf_params("fetchsize").toInt)

А при распараллеливании чтения вы упрётесь в недовольный отдел эксплуатации системы😆

источник

17:43пожаловаться #12

А

Алексей in Moscow Spark

тут смотря как цель: быстрей скачать или снизить нагрузку

источник

17:44пожаловаться #13

R

Renarde in Moscow Spark

Евгений Глотов

А при распараллеливании чтения вы упрётесь в недовольный отдел эксплуатации системы😆

> вот эта история обычно более жизненная 😅

источник

17:44пожаловаться #14

NN

No Name in Moscow Spark

Евгений Глотов

А при распараллеливании чтения вы упрётесь в недовольный отдел эксплуатации системы😆

Тру

источник

17:45пожаловаться #15

А

Алексей in Moscow Spark

понятно что в 1 сессию оракл не будет нагружаться, но цель быстрей скачать, придется параллелить, нужно только договориться насколько и по какому полю

источник

17:45пожаловаться #16

РП

Роман Пашкевич... in Moscow Spark

Евгений Глотов

А при распараллеливании чтения вы упрётесь в недовольный отдел эксплуатации системы😆

=) Да, он там злой))) Но я думаю если забирать в 2-3 потока, это уже лучше чем в 1)

источник

17:45пожаловаться #17

NN

No Name in Moscow Spark

Роман Пашкевич

=) Да, он там злой))) Но я думаю если забирать в 2-3 потока, это уже лучше чем в 1)

Иногда даже по поводу 1 лучше уточнить, если точно не знаете.)

источник

17:46пожаловаться #18

А

Алексей in Moscow Spark

поле партицирования нужно еще выбирать так, чтобы не было перекосов, а то получится, что 15 потоков давно уже все скачали, а 1 выкачивает оставшиеся 99%

источник

17:47пожаловаться #19

R

Renarde in Moscow Spark

Иногда даже по поводу 1 лучше уточнить, если точно не знаете.)

а еще лучше уточнить что с сеткой между БД и кластером.
помнится мне история, когда так же бились над выкачиванием данных из терадаты, с партишенами игрались, а оказалось что сеть была 1ГБ между ДЦ (и та по умолчанию на половину нагруженная)

источник

17:48пожаловаться #20