Н
вопрос: как читать файлы в sparke а потом их затирать? Как лучше делать это джобом или спарк стримингом?
Если писать малеьникими rdd через спарк стриминг в хайв, он их потом замерджит или будут маленькьие файлы?
Size: a a a
Н
a
R
N
R
N
R
SELECT partition_name FROM dba_tab_partitions WHERE table_name=‘your_table’
l partitions = spark.read.format.jdbc(“select partition_name …”)Затем можно сделать flatMap:
itions.flatMap(partitionName -> {получить все партиции в параллель.
val query = s“SELECT * FROM table PARTITION ({partitionName})”
// some jdbc-related stuff
})
И
a
SELECT partition_name FROM dba_tab_partitions WHERE table_name=‘your_table’
l partitions = spark.read.format.jdbc(“select partition_name …”)Затем можно сделать flatMap:
itions.flatMap(partitionName -> {получить все партиции в параллель.
val query = s“SELECT * FROM table PARTITION ({partitionName})”
// some jdbc-related stuff
})
И
DZ
R
select * from tab where x between 10 and 20
select * from tab where x between 20 and 30
R
a
select * from tab where x between 10 and 20
select * from tab where x between 20 and 30
AA
select * from tab where x between 10 and 20
select * from tab where x between 20 and 30
predicates - Condition in the where clause for each partition.
R
predicates - Condition in the where clause for each partition.
where clause
where clause
, это отдельный оракловый синтаксис.R
SELECT * FROM table PARTITION ({partitionName})
AA
where clause
where clause
, это отдельный оракловый синтаксис.R
partition by hash
, то ты не знаешь где у. тебя границыN
N
SK
-Phadoop-provided