Телеграмм чат группы moscowspark страница 590

2021 March 05

e

Тут еще риск. С hdfs + spark мы научились готовить. Minio + spark на прерываемых машинках - это новый опыт. Вот захотелось послушать опыт коллег

ЕГ

Евгений Глотов... in Moscow Spark

Повелитель Бури

Да, все в одном облаке. Вот думаем еще x слабых машинок поднять или заморочится с прерываемыми + единый сторадж (hgfs, s3)

Смотря сколько объектов в хранилище и насколько они разнообразные - перетаскивать файлы несложно, перетаскивать партицированные таблицы посложнее, так как надо ещё метаданные воссоздавать каким-то образом

источник

19:58пожаловаться #2

ПБ

Повелитель Бури... in Moscow Spark

Евгений Глотов

Смотря сколько объектов в хранилище и насколько они разнообразные - перетаскивать файлы несложно, перетаскивать партицированные таблицы посложнее, так как надо ещё метаданные воссоздавать каким-то образом

Это через спец тулзу делается или самопис. Аля hive заменитель?)

источник

20:00пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Повелитель Бури

Это через спец тулзу делается или самопис. Аля hive заменитель?)

Тут ещё вопрос, накручивал ли кто-нибудь хайв над s3, или все просто обращаются к ФС

источник

20:01пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Хайв может экспортировать метаданные, но если таблицы созданы спарком, то есть риск потерять параметры, которые хайв не понимает

источник

20:02пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

А если первый вариант - на отключаемые компьют ноды лучше всё-таки ДФС в принципе не заводить, иначе будут постоянные ненужные восстановления блоков

источник

20:04пожаловаться #6

ПБ

Повелитель Бури... in Moscow Spark

Евгений Глотов

Хайв может экспортировать метаданные, но если таблицы созданы спарком, то есть риск потерять параметры, которые хайв не понимает

https://trino.io/docs/current/connector/hive-s3.html

Можно не экспортировать а просто подключить как external table

источник

20:06пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Повелитель Бури

https://trino.io/docs/current/connector/hive-s3.html

Можно не экспортировать а просто подключить как external table

Тогда при добавлении новых партиций нужен будет процесс добавления метаданных в эти экстернал таблицы

источник

20:20пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Хотя в принципе не так сложно его вписать везде, где нужно

источник

20:20пожаловаться #9

2021 March 06

K

KrivdaTheTriewe in Moscow Spark

Vladislav 👻 Shishkov

смысла нет, hdfs не такой быстрый, чтобы ему нужен был ssd

Скорее потому что ориентирован на последовательную запись и чтение , где у ссд уже не такие преимущества

источник

14:17пожаловаться #10

N

Nikolay in Moscow Spark

KrivdaTheTriewe

Скорее потому что ориентирован на последовательную запись и чтение , где у ссд уже не такие преимущества

Почему ? Ssd и в последовательной записи намного быстрее ,чем hdd. До 4гб /сек могут читать /писать , если NVMe.

источник

14:58пожаловаться #11

N

Nikolay in Moscow Spark

Это может сам hdfs не умеет это использовать.

источник

15:01пожаловаться #12

DT

Denis Tsvetkov in Moscow Spark

если в тачках есть и hdd и ssd, иногда и для некоторых горячих данных оправданно использовать политики типа One_SSD или даже All_SSD, если они прям действительно горячие

источник

15:05пожаловаться #13

e

er@essbase.ru in Moscow Spark

https://habr.com/ru/company/otus/blog/529684/

—
Существует распространенное мнение, что в процессах обработки больших данных есть два основных узких места, влияющих на производительность:

перетасовка данных, поскольку для ее выполнения требуется отправлять данные по сети;

дисковый ввод-вывод, поскольку доступ к данным на диске всегда намного медленнее, чем доступ к данным в ОЗУ.

....

В 2015 году в исследовании Кей Остерхаут (Kay Ousterhout) и др.¹ были проанализированы узкие места в заданиях Spark, и в результате выяснилось, что скорость их выполнения в большей степени определяется операциями, загружающими ЦП, а не вводом-выводом и передачей данных по сети
—

Хабр

Секреты производительности Spark, или Почему важна компиляция запросов

Для будущих студентов курсов "Data Engineer" и "Экосистема Hadoop, Spark, Hive" подготовили еще один перевод полезной статьи.Criteo — это компания, работа которо...

источник

16:23пожаловаться #14

K

KrivdaTheTriewe in Moscow Spark

er@essbase.ru

https://habr.com/ru/company/otus/blog/529684/

—
Существует распространенное мнение, что в процессах обработки больших данных есть два основных узких места, влияющих на производительность:

перетасовка данных, поскольку для ее выполнения требуется отправлять данные по сети;

дисковый ввод-вывод, поскольку доступ к данным на диске всегда намного медленнее, чем доступ к данным в ОЗУ.

....

В 2015 году в исследовании Кей Остерхаут (Kay Ousterhout) и др.¹ были проанализированы узкие места в заданиях Spark, и в результате выяснилось, что скорость их выполнения в большей степени определяется операциями, загружающими ЦП, а не вводом-выводом и передачей данных по сети
—

Хабр

Секреты производительности Spark, или Почему важна компиляция запросов

Для будущих студентов курсов "Data Engineer" и "Экосистема Hadoop, Spark, Hive" подготовили еще один перевод полезной статьи.Criteo — это компания, работа которо...

в 2020 уже может быть другое

источник

16:28пожаловаться #15

A

Alex in Moscow Spark

В тот момент насколько помню тангстена и кодогенерации ещё толком не было, только только подвозили

источник

16:33пожаловаться #16

A