Телеграмм чат группы moscowspark страница 242

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 January 14

Н

Никита in Moscow Spark

привет, у меня flume стримит в папку на hdfs, хочу отпроцессить эти данные и затирать то, что прочитал и писать в hive красиво, чтобы не плодить маленькие файлы.
вопрос: как читать файлы в sparke а потом их затирать? Как лучше делать это джобом или спарк стримингом?
Если писать малеьникими rdd через спарк стриминг в хайв, он их потом замерджит или будут маленькьие файлы?

источник

17:28пожаловаться #1

a

agathis in Moscow Spark

Господа, кто-нибудь читал спарком партиционированные by hash таблицы из оракла (или, собственно, любой другой rdbms)?
Выглядит так, что спарк понятия не имеет о структуре таблицы, и если читать со spark.read.format("jdbc"), можно даже указать numPartitions - но оно к сожалению не имеет ничего общего с партициями БД

источник

18:18пожаловаться #2

R

Renarde in Moscow Spark

Господа, кто-нибудь читал спарком партиционированные by hash таблицы из оракла (или, собственно, любой другой rdbms)?
Выглядит так, что спарк понятия не имеет о структуре таблицы, и если читать со spark.read.format("jdbc"), можно даже указать numPartitions - но оно к сожалению не имеет ничего общего с партициями БД

С ораклом это не работает, спарк будет пытаться стучаться множественными селектами и будет получаться не оч. Как более оптимальный вариант - вычитать список экстентов из dba таблиц и дальше селектить экстенты в параллель - будет норм. Так работает Sqoop for Oracle, если я не ошибаюсь.
Ограничения - нужен доступ на уровне dba к БД.
Зато это хорошо работает с Teradata - там расписал хеш, и спарк будет в параллель работать прям хорошо.

источник

18:23пожаловаться #3

N

Nikolay in Moscow Spark

Экстенты нельзя селектить. Наверное про партиции речь

источник

18:28пожаловаться #4

R

Renarde in Moscow Spark

Nikolay

Экстенты нельзя селектить. Наверное про партиции речь

я вот забыл совсем эту терминологию (то ли экстент, то ли партиция, то ли сегмент).
Короче идея была в том, что достается список значений из из какой-то dba_* таблицы и по ним запросы в параллель норм идут

источник

18:30пожаловаться #5

N

Nikolay in Moscow Spark

dba_не нужны . Хватит all_

источник

18:32пожаловаться #6

R

Renarde in Moscow Spark

Вот, нашел.

Партиции достаются вот так:

SELECT partition_name FROM dba_tab_partitions WHERE table_name=‘your_table’

Затем полученный список можно залить в RDD:

va

l partitions = spark.read.format.jdbc(“select partition_name …”)

Затем можно сделать flatMap:

part

itions.flatMap(partitionName -> {
  val query = s“SELECT * FROM table PARTITION ({partitionName})”
  // some jdbc-related stuff
})

И

получить все партиции в параллель.

источник

18:38пожаловаться #7

a

agathis in Moscow Spark

Вот, нашел.

Партиции достаются вот так:

SELECT partition_name FROM dba_tab_partitions WHERE table_name=‘your_table’

Затем полученный список можно залить в RDD:

va

l partitions = spark.read.format.jdbc(“select partition_name …”)

Затем можно сделать flatMap:

part

itions.flatMap(partitionName -> {
  val query = s“SELECT * FROM table PARTITION ({partitionName})”
  // some jdbc-related stuff
})

И

получить все партиции в параллель.

Во, спасибо. Это похоже оно

источник

18:39пожаловаться #8

DZ

Dmitry Zuev in Moscow Spark

Так вроде jdbc умеет в partitionColumn, это не поможет?

источник

18:42пожаловаться #9

R

Renarde in Moscow Spark

Так вроде jdbc умеет в partitionColumn, это не поможет?

нет, потому что spark сгенерирует запросы типа:

select * from tab where x between 10 and 20
select * from tab where x between 20 and 30

источник

18:42пожаловаться #10

R

Renarde in Moscow Spark

что в оракле будет медленно. Поэтому надо чуть похитрить с селектом

источник

18:43пожаловаться #11

a

agathis in Moscow Spark

нет, потому что spark сгенерирует запросы типа:

select * from tab where x between 10 and 20
select * from tab where x between 20 and 30

это отлично работает с партиционированием by range

источник

18:43пожаловаться #12

AA

Aleksandr Aleksandro... in Moscow Spark

нет, потому что spark сгенерирует запросы типа:

select * from tab where x between 10 and 20
select * from tab where x between 20 and 30

Можно явно предикаты указать через
predicates - Condition in the where clause for each partition.

источник

18:43пожаловаться #13

R

Renarde in Moscow Spark

Aleksandr Aleksandrov

Можно явно предикаты указать через
predicates - Condition in the where clause for each partition.

> where clause
Это не where clause, это отдельный оракловый синтаксис.

источник

18:43пожаловаться #14

R

Renarde in Moscow Spark

Тут никакого where и в помине нет 🤷‍♂️

> SELECT * FROM table PARTITION ({partitionName})

источник

18:44пожаловаться #15

AA

Aleksandr Aleksandro... in Moscow Spark

> where clause
Это не where clause, это отдельный оракловый синтаксис.

если в where будет селект по патриции, то оракл план нормально построит

источник

18:45пожаловаться #16

R

Renarde in Moscow Spark

Aleksandr Aleksandrov

если в where будет селект по патриции, то оракл план нормально построит

дедлок будет в планировщике. Представь ты 1024 партиции в 1024 запроса одновременно кинешь - будет медленно.
если partition by hash, то ты не знаешь где у. тебя границы

источник

18:47пожаловаться #17

N

Nikolay in Moscow Spark

Если партиции по hash, то нужно не between а через in

источник

18:51пожаловаться #18

N

Nikolay in Moscow Spark

В каждом in может быть до 1000 значений

источник

18:51пожаловаться #19

SK

Sergej Khakhulin in Moscow Spark

Grigory Pomadchin

Не помню вообще говоря) вот расскажешь нам

При сборке спарка нормально когда такие варнинги сыпяться?
И ответ что бы без хадупа нужен ключ -Phadoop-provided

источник

18:51пожаловаться #20