Телеграмм чат группы moscowspark страница 284

новым датасорсом

16:12пожаловаться #1

я знаю, кеп

16:12пожаловаться #2

Nikolay

1 терабайт в оракле. Ты перекачать, но не быстро. Расскажи какими запросами ты его бомбить будешь. По диапазону rowid? Тут я бы сказал , что сессий не надо много открывать , а то ты его затормозить ).

rowid не численный

16:12пожаловаться #3

Nikolay in Moscow Spark

KrivdaTheTriewe

rowid не численный

По нему можно делать between. Это один из подходов обрабатывать значительный кусок данных, но сначала надо все разбить на диапазоны rowid Он зато тем хорош,что читать по нему легко ораклу ( он сразу знает файл, блок и строку).

16:16пожаловаться #5

знаю

16:16пожаловаться #6

а как сделать between

16:16пожаловаться #7

ну что слева,что справа

16:16пожаловаться #8

если rowid не число

16:16пожаловаться #9

Grigory Pomadchin in Moscow Spark

он наверн лексикографически умеет?

16:17пожаловаться #10

Grigory Pomadchin in Moscow Spark

(но всеравно херня если смысл ровидов другой)

16:17пожаловаться #11

Grigory Pomadchin

он наверн лексикографически умеет?

я вот не знаю, есть ли там лексиграфический порядок

How to manually break a FULL TABLE SCAN into ranges of ROWID

16:19пожаловаться #12

Nikolay in Moscow Spark

KrivdaTheTriewe

а как сделать between

лучше найти готовый запрос. в oracle есть пакет, который сам это умеет делать ,но название его не помню. или вот тут например посмотреть https://clarodba.wordpress.com/2017/06/15/how-to-manually-break-a-full-table-scan-into-ranges-of-rowid/

EDUARDO CLARO

Português/English I’ve been in a client some days ago, where they were migrating a SAP application from Oracle to Hana (the in-memory database from SAP). To migrate they data they were using …

16:20пожаловаться #13

Nikolay in Moscow Spark

dbms_parallel_execute.create_chunks_by_rowid

Regarding the BULK SQL within the PL/SQL and DBMS_PARALLEL_EXECUTE package - Ask TOM

16:21пожаловаться #14

Nikolay in Moscow Spark

вот еще посмотри https://asktom.oracle.com/pls/apex/f?p=100:11:0::::P11_QUESTION_ID:5026576100346976091

Oracle

Regarding the BULK SQL within the PL/SQL and DBMS_PARALLEL_EXECUTE package Hi Tom, For the PL/SQL Optimization, I can use the BULK SQL and BULK Binding to improve the performance significantly. The new package DBMS_PARALLEL_EXECUTE enables to incremently update data in parallel. For example, my pl/sql program is doing the bulk update for the specified table a

16:22пожаловаться #15

How to manually break a FULL TABLE SCAN into ranges of ROWID

Nikolay

EDUARDO CLARO

Português/English I’ve been in a client some days ago, where they were migrating a SAP application from Oracle to Hana (the in-memory database from SAP). To migrate they data they were using …

пасибо

16:23пожаловаться #16

ИК

Прошу подсказки, выполнение на реальных данных в самом деле печальное.

Ещё раз рассказываю ситуацию: произвольная таблица партиционируется по некотором выражению, я получаю количество файлов в каждой партиции и выполняю функцию percentile_approx. Второй её аргумент - массив процентилей, зависит от числа файлов, то есть, динамический. Но передан может быть только фиксированный литерал. Поэтому я применяю к исходном датафрейму фильтр, выполняю percentile_approx, собираю новый датафрейм из полученных с помощью reduce(_ unión _), и на этом основные сложности заканчиваются.

Основной вопрос: как избавиться от union, сохранив расчёт значений процентилей индивидуальным по каждой партиции?
Смотрел в сторону mapPartitions, но не смог разобраться, как можно вызвать percentile_approx для итератора.

17:23пожаловаться #17

ИК

Переслано от Иван Калининский...

Ребята, может еще поможете в одном кейсе: как можно применить функцию percentile_approx, чтобы ее второй параметр: массив процентилей, которым нужно сопоставить значения, был бы динамический в зависимости от значения конкретного поля. Пока что я делаю это опять через union, на больших объемах это может стать печальным.

17:23пожаловаться #18

ИК

Возможно, тоже стоит реализовать свой source?

17:24пожаловаться #19

ИК

Nikolay

dbms_parallel_execute.create_chunks_by_rowid

Это предназначено для внутреннего параллельного выполнения и вряд ли подойдет. Я не смог прикрутить к jdbc, единственное, чего смог добиться - создавать нужное количество csv файлов, чтобы их можно было загрузить в Hadoop, но это был неприемлемый способ, поскольку файлы нужно было передать, не потерять, правильно транслировать информацию о типах данных