Size: a a a

2019 December 25

GP

Grigory Pomadchin in Moscow Spark
KrivdaTheTriewe
DataSource API
Сам ждбсой шли; свой датасорс сделай
источник

K

KrivdaTheTriewe in Moscow Spark
Grigory Pomadchin
Сам ждбсой шли; свой датасорс сделай
нужно больше V A L U E
источник
2019 December 26

С

Сюткин in Moscow Spark
KrivdaTheTriewe
эт терадата, там размер строки не больше мега
Господи teradata to Hadoop connector выкачал, сложил, и работай как надо тот же самый spark.read.jdbc только вид сбоку

Либо переноси логику на Терадату и дергай процедуру по jaydebeapi а конечную витрину забирай себе
источник

АЖ

Андрей Жуков... in Moscow Spark
Сюткин
Господи teradata to Hadoop connector выкачал, сложил, и работай как надо тот же самый spark.read.jdbc только вид сбоку

Либо переноси логику на Терадату и дергай процедуру по jaydebeapi а конечную витрину забирай себе
вот второй пункт вполне мысль
поди у той терадаты ресурсов на порядки больше, чем у спарка, который ее пытается выкачать
источник

С

Сюткин in Moscow Spark
Андрей Жуков
вот второй пункт вполне мысль
поди у той терадаты ресурсов на порядки больше, чем у спарка, который ее пытается выкачать
Единственное что если терадата продовская то запросы могут висеть в очереди 🤣
источник

С

Сюткин in Moscow Spark
Ну по крайней мере у нас так
источник

K

KrivdaTheTriewe in Moscow Spark
Сюткин
Господи teradata to Hadoop connector выкачал, сложил, и работай как надо тот же самый spark.read.jdbc только вид сбоку

Либо переноси логику на Терадату и дергай процедуру по jaydebeapi а конечную витрину забирай себе
он в st_geodata не умеет и блобы больше 64килобайт
источник

K

KrivdaTheTriewe in Moscow Spark
короче я spark.read просто ZIO в параллели запустил в 100 потоков  и оно ускорилось в 100 раз
источник

С

Сюткин in Moscow Spark
источник

DZ

Dmitry Zuev in Moscow Spark
KrivdaTheTriewe
короче я spark.read просто ZIO в параллели запустил в 100 потоков  и оно ускорилось в 100 раз
На одной сессии?
источник

K

KrivdaTheTriewe in Moscow Spark
да
источник

DZ

Dmitry Zuev in Moscow Spark
Опять лысый всех обыграл
источник

ZM

ZLoyer Matveev in Moscow Spark
Dmitry Zuev
Опять лысый всех обыграл
не факт, мож оно в 100 раз быстрее, но кривда читает 100 раз одни и те же данные при этом
источник

DZ

Dmitry Zuev in Moscow Spark
Так вроде ж у него список запросов к тд
источник

С

Сюткин in Moscow Spark
Ну таблица то одна
источник

С

Сюткин in Moscow Spark
источник

DZ

Dmitry Zuev in Moscow Spark
Иииии
источник

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark
KrivdaTheTriewe
val load = queries
     .map { x =>
       UIO(unsafeExecuteSqlQuery(x.query, source))
     }

def unsafeExecuteSqlQuery(query,source) = { ....   spark.read.format(jdbcFormat).options(ops).load() }
А чем запросы отличаются ? Я, когда нужно было сильно распаллелить чтение из HBase генерил "миллион" префиксов  (у меня rowkey - UUID, потому, к примеру, генерил от 00000 до ffffff), делал репартишн и в  mapPartitions делал чтение ......
источник

GP

Grigory Pomadchin in Moscow Spark
KrivdaTheTriewe
короче я spark.read просто ZIO в параллели запустил в 100 потоков  и оно ускорилось в 100 раз
ток там зио не нужно
источник

GP

Grigory Pomadchin in Moscow Spark
источник