Size: a a a

2021 March 05

ПБ

Повелитель Бури... in Moscow Spark
Евгений Глотов
Сколько vcore в каждой из этих 10 нод?
2 ядра , 8 гб
источник

e

er@essbase.ru in Moscow Spark
Повелитель Бури
Доброй ночи! Скажите пожалуйста, кто то реализовывал такой кейс:
есть 10 слабых машинок по 10 тб в hdfs
Нужно быстро посчитать данные.
В облаке поднимаем мощную машину с кучей оперативки и памяти и делим эти ресурсы для спарка, считаем, после чего тушим
Все у одного облачного провайдера ?
источник

e

er@essbase.ru in Moscow Spark
Вообще мне казалось что вся мощь хадупа в том что они не делят данные и место расчета. Где храним там и считаем. Может вам зайдет старый map-reduce (hive)  так как время на перекладку из одного кластера в другой можно просто потратить на расчет.
источник

ЕГ

Евгений Глотов... in Moscow Spark
er@essbase.ru
Вообще мне казалось что вся мощь хадупа в том что они не делят данные и место расчета. Где храним там и считаем. Может вам зайдет старый map-reduce (hive)  так как время на перекладку из одного кластера в другой можно просто потратить на расчет.
В нормальных ДЦ время передачи данных с ноды на ноду 0.0001сек, запись на диск занимает значительно больше времени. Также с использованием дата локалити есть проблема, когда куча пользователей в одном большом хадупе, у всех спарк пытается экзекутор получить на ноде с данными и не может, так как там всё занято два часа. Запуститься на свободной ноде и считать данные по сети значительно быстрее
источник

e

er@essbase.ru in Moscow Spark
Евгений Глотов
В нормальных ДЦ время передачи данных с ноды на ноду 0.0001сек, запись на диск занимает значительно больше времени. Также с использованием дата локалити есть проблема, когда куча пользователей в одном большом хадупе, у всех спарк пытается экзекутор получить на ноде с данными и не может, так как там всё занято два часа. Запуститься на свободной ноде и считать данные по сети значительно быстрее
100 Tb ?🤔 Ну в общем это нужно мерить , да .😃
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Евгений Глотов
В нормальных ДЦ время передачи данных с ноды на ноду 0.0001сек, запись на диск занимает значительно больше времени. Также с использованием дата локалити есть проблема, когда куча пользователей в одном большом хадупе, у всех спарк пытается экзекутор получить на ноде с данными и не может, так как там всё занято два часа. Запуститься на свободной ноде и считать данные по сети значительно быстрее
0.1мс? Что-то тут преувеличение
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Подобные скорости можно получить явно не по сети с ноды на ноду
источник

ЕГ

Евгений Глотов... in Moscow Spark
Vladislav 👻 Shishkov
0.1мс? Что-то тут преувеличение
Это образно
Я про то, что чтение 100тб с дисков будет значительно медленнее, чем их передача по сети
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Тоже бред
источник

ЕГ

Евгений Глотов... in Moscow Spark
Vladislav 👻 Shishkov
Тоже бред
2-3к иопс с ноды можно получить при использовании HDD
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
При чем тут это?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это самое узкое место
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Давайте по порядку:
1. 2-3к иопсов на хдд можно получить на домашнем компе, в серверах другое железо
2. При отправке данных по сети вы забываете, что читать их с дисках все так же нужно, есть исключения, но явно не в вашем примере "с ноды на ноду"
источник

ЕГ

Евгений Глотов... in Moscow Spark
Vladislav 👻 Shishkov
Давайте по порядку:
1. 2-3к иопсов на хдд можно получить на домашнем компе, в серверах другое железо
2. При отправке данных по сети вы забываете, что читать их с дисках все так же нужно, есть исключения, но явно не в вашем примере "с ноды на ноду"
Я говорю про корзину из 12 сас-дисков, на домашнем компе можно 100 иопс получить
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Когда вы работаете с корзиной, то поясните понятие "с ноды на ноду", если учесть, что корзины делаются для шаринга
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Ну и 100 иопс делается изян на 5400 хдд любого бука
источник

ЕГ

Евгений Глотов... in Moscow Spark
Vladislav 👻 Shishkov
Когда вы работаете с корзиной, то поясните понятие "с ноды на ноду", если учесть, что корзины делаются для шаринга
Я имею в виду в каждой ноде если стоит по 12 дисков, в каком смысле шаринг, разве есть какая-то возможность условно "один диск" подключить к нескольким машинам, кроме как через сеть?
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
12 дисков в ноде!=корзина
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Евгений Глотов
Я имею в виду в каждой ноде если стоит по 12 дисков, в каком смысле шаринг, разве есть какая-то возможность условно "один диск" подключить к нескольким машинам, кроме как через сеть?
Смотря что вы называете сетью
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
У вас каша в голове
источник