Size: a a a

2021 March 05

e

er@essbase.ru in Moscow Spark
Повелитель Бури
Тут еще риск. С hdfs + spark мы научились готовить. Minio + spark на прерываемых машинках - это новый опыт. Вот захотелось послушать опыт коллег
источник

ЕГ

Евгений Глотов... in Moscow Spark
Повелитель Бури
Да, все в одном облаке. Вот думаем еще x слабых машинок поднять или заморочится с прерываемыми + единый сторадж (hgfs,  s3)
Смотря сколько объектов в хранилище и насколько они разнообразные - перетаскивать файлы несложно, перетаскивать партицированные таблицы посложнее, так как надо ещё метаданные воссоздавать каким-то образом
источник

ПБ

Повелитель Бури... in Moscow Spark
Евгений Глотов
Смотря сколько объектов в хранилище и насколько они разнообразные - перетаскивать файлы несложно, перетаскивать партицированные таблицы посложнее, так как надо ещё метаданные воссоздавать каким-то образом
Это через спец тулзу делается или самопис. Аля hive заменитель?)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Повелитель Бури
Это через спец тулзу делается или самопис. Аля hive заменитель?)
Тут ещё вопрос, накручивал ли кто-нибудь хайв над s3, или все просто обращаются к ФС
источник

ЕГ

Евгений Глотов... in Moscow Spark
Хайв может экспортировать метаданные, но если таблицы созданы спарком, то есть риск потерять параметры, которые хайв не понимает
источник

ЕГ

Евгений Глотов... in Moscow Spark
А если первый вариант - на отключаемые компьют ноды лучше всё-таки ДФС в принципе не заводить, иначе будут постоянные ненужные восстановления блоков
источник

ПБ

Повелитель Бури... in Moscow Spark
Евгений Глотов
Хайв может экспортировать метаданные, но если таблицы созданы спарком, то есть риск потерять параметры, которые хайв не понимает
https://trino.io/docs/current/connector/hive-s3.html

Можно не экспортировать а просто подключить как external table
источник

ЕГ

Евгений Глотов... in Moscow Spark
Повелитель Бури
https://trino.io/docs/current/connector/hive-s3.html

Можно не экспортировать а просто подключить как external table
Тогда при добавлении новых партиций нужен будет процесс добавления метаданных в эти экстернал таблицы
источник

ЕГ

Евгений Глотов... in Moscow Spark
Хотя в принципе не так сложно его вписать везде, где нужно
источник
2021 March 06

K

KrivdaTheTriewe in Moscow Spark
Vladislav 👻 Shishkov
смысла нет, hdfs не такой быстрый, чтобы ему нужен был ssd
Скорее потому что ориентирован на последовательную запись и чтение  , где у ссд уже не такие преимущества
источник

N

Nikolay in Moscow Spark
KrivdaTheTriewe
Скорее потому что ориентирован на последовательную запись и чтение  , где у ссд уже не такие преимущества
Почему ? Ssd и в последовательной записи намного быстрее ,чем hdd. До 4гб /сек могут читать /писать , если NVMe.
источник

N

Nikolay in Moscow Spark
Это может сам hdfs не умеет это использовать.
источник

DT

Denis Tsvetkov in Moscow Spark
если в тачках есть и hdd и ssd, иногда и для некоторых горячих данных оправданно использовать политики типа One_SSD или даже All_SSD, если они прям действительно горячие
источник

e

er@essbase.ru in Moscow Spark
https://habr.com/ru/company/otus/blog/529684/


Существует распространенное мнение, что в процессах обработки больших данных есть два основных узких места, влияющих на производительность:

перетасовка данных, поскольку для ее выполнения требуется отправлять данные по сети;

дисковый ввод-вывод, поскольку доступ к данным на диске всегда намного медленнее, чем доступ к данным в ОЗУ.

....

В 2015 году в исследовании Кей Остерхаут (Kay Ousterhout) и др.¹ были проанализированы узкие места в заданиях Spark, и в результате выяснилось, что скорость их выполнения в большей степени определяется операциями, загружающими ЦП, а не вводом-выводом и передачей данных по сети
источник

K

KrivdaTheTriewe in Moscow Spark
er@essbase.ru
https://habr.com/ru/company/otus/blog/529684/


Существует распространенное мнение, что в процессах обработки больших данных есть два основных узких места, влияющих на производительность:

перетасовка данных, поскольку для ее выполнения требуется отправлять данные по сети;

дисковый ввод-вывод, поскольку доступ к данным на диске всегда намного медленнее, чем доступ к данным в ОЗУ.

....

В 2015 году в исследовании Кей Остерхаут (Kay Ousterhout) и др.¹ были проанализированы узкие места в заданиях Spark, и в результате выяснилось, что скорость их выполнения в большей степени определяется операциями, загружающими ЦП, а не вводом-выводом и передачей данных по сети
в 2020 уже может быть другое
источник

A

Alex in Moscow Spark
В тот момент насколько помню тангстена и кодогенерации ещё толком не было, только только подвозили
источник

A

Alex in Moscow Spark
Project Tungsten: Bringing Apache Spark Closer to Bare Metal
источник

A

Alex in Moscow Spark
Апрель 2015, то есть в проде почти у никого
источник

ЕГ

Евгений Глотов... in Moscow Spark
чем с помощью ограниченного языка Spark SQL
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник