Телеграмм чат группы moscowspark страница 264

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 February 18

РП

Роман Пашкевич... in Moscow Spark

Не. В этом и цель была. Оптимизировать обращение к проду, чтобы его не напрягать лишний раз, и при этом ускорить загрузку данных. Я уверен что мой конфиг не оптимален. Хотя может Спарк и умнее и делант как надо)

источник

21:12пожаловаться #1

2020 February 19

А

Алексей in Moscow Spark

Можно еще грузить с readonly standby на который резервируются данные. Но тоже надо дозировать нагурзку, чтобы не замедлять репликацию

источник

10:27пожаловаться #2

N

Nikolay in Moscow Spark

Можно с прод качать потихоньку. Если вы с того же оракла будите качать в одну сессию без параллелизации , то никто этого даже не заметит. Особенно , если у вас есть свой temp

источник

10:51пожаловаться #3

SK

Sergej Khakhulin in Moscow Spark

День добрый а не подскажете как с помошью ParquetFileReader прочитать parquet DataSet(иногда партиционированный даже)?

источник

18:03пожаловаться #4

2020 February 20

AN

Aleksandr Nikolaev in Moscow Spark

Добрый день. Нужна помощь с spark addpyfile.
Запускаю unittest, вызывается функция которая использует udf из другой части проекта. Прописал этот файл в addpyfile, выдается ошибка no module found. В чем может быть проблема??

источник

12:29пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

Роман Пашкевич

Не. В этом и цель была. Оптимизировать обращение к проду, чтобы его не напрягать лишний раз, и при этом ускорить загрузку данных. Я уверен что мой конфиг не оптимален. Хотя может Спарк и умнее и делант как надо)

Если параллелить, то нужно позаботится о целостности данных, потому что каждое чтение - это отдельный запрос. Блокировка таблицы или ретроспективный запрос могут решить эту проблему. В sqoop это есть, как есть и подключаемый oraoop. Я бы не советовал пользоваться Spark при чтении больших объемов данных по JDBC

источник

12:37пожаловаться #6

РП

Роман Пашкевич... in Moscow Spark

Иван Калининский

Если параллелить, то нужно позаботится о целостности данных, потому что каждое чтение - это отдельный запрос. Блокировка таблицы или ретроспективный запрос могут решить эту проблему. В sqoop это есть, как есть и подключаемый oraoop. Я бы не советовал пользоваться Spark при чтении больших объемов данных по JDBC

Не советовал бы параллелить спарком? Или использовать sqoop?

источник

12:38пожаловаться #7

ИК

Иван Калининский... in Moscow Spark

скуп - советую)

источник

12:39пожаловаться #8

ИК

Иван Калининский... in Moscow Spark

спарк потребутся допиливать на каждый возникающий кейс, это я точно могу сказать.

источник

12:41пожаловаться #9

РП

Роман Пашкевич... in Moscow Spark

Ок. Пойду на тестовую Хану играться. Надо 3,3млрд строк стянуть. Посмотрим какую нагрузку даст скуп и как быстро вытянет и запишет в hive.

источник

12:42пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

3,3 млрд - должно быть порядка терабайта. В один поток довольно долго будет заходить, поэтому все же нужно искать способ параллелить.

источник

12:49пожаловаться #11

А

Алексей in Moscow Spark

Иван Калининский

скуп - советую)

скуп разве не ждбц также использует?

источник

13:07пожаловаться #12

ИК

Иван Калининский... in Moscow Spark

скуп разве не ждбц также использует?

без вариантов jdbc. Но скуп - тулза для загрузки, а спарк про другое все таки

источник

13:10пожаловаться #13

AB

Alexey Belov in Moscow Spark

скуп разве не ждбц также использует?

Ждбц на стероидах, для Oracle это называется oraoop. Самостоятельно так тоже можно написать, но в Sqoop это уже сделано.

источник

13:13пожаловаться #14

А

Алексей in Moscow Spark

Ждбц на стероидах, для Oracle это называется oraoop. Самостоятельно так тоже можно написать, но в Sqoop это уже сделано.

бегло посмотрел доку http://archive.cloudera.com/cdh/3/adapters/oraoopuserguide.pdf, получается основная фишка - сплит по блокам rowid ?

источник

13:18пожаловаться #15

А

Алексей in Moscow Spark

и, судя по всему, таким оразом можно только фул заборы делать

источник

13:20пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

и, судя по всему, таким оразом можно только фул заборы делать

Не уверен, но вроде фильтр вполне можно указать

источник

13:21пожаловаться #17

AB

Alexey Belov in Moscow Spark

бегло посмотрел доку http://archive.cloudera.com/cdh/3/adapters/oraoopuserguide.pdf, получается основная фишка - сплит по блокам rowid ?

Ага. Можно вытягивать партиции, ограничивать выборку по where. Есть определенные ограничения, но в целом вполне работоспособный механизм. Надо в чат Data Engineers переходить :)

источник

13:22пожаловаться #18

А

Алексей in Moscow Spark

Non-Incremental - написано, да и если написан кастомный фильтр, то для этих данных сложно будет понять нужные блоки и их rowid

источник

13:22пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

Non-Incremental - написано, да и если написан кастомный фильтр, то для этих данных сложно будет понять нужные блоки и их rowid

Режим загрузки по партициям тоже есть.

Фильтр в oraoop я не пробовал задавать, но вообще, для Oracle фильтры по rowid и по данным совершенно независимы и могут быть использованы в одном запросе.

В спарк все это можно реализовать, но объем работы очень большой. Я просто уже делал такой загрузчик, и там очень много неожиданных кейсов по ходу возникло. К примеру, не все значения типа DECIMAL могут быть прочитаны в spark jdbc. И такое на каждом шагу. Если есть несколько месяцев, можно заняться. Или взять готовый инструмент (sqoop, ogg4bd если доступен!) и продумать архитектуру, чтобы обойти ограничения

источник

13:33пожаловаться #20