Телеграмм чат группы moscowspark страница 587

08:38пожаловаться #1

e

er@essbase.ru in Moscow Spark

Повелитель Бури

Доброй ночи! Скажите пожалуйста, кто то реализовывал такой кейс:
есть 10 слабых машинок по 10 тб в hdfs
Нужно быстро посчитать данные.
В облаке поднимаем мощную машину с кучей оперативки и памяти и делим эти ресурсы для спарка, считаем, после чего тушим

Все у одного облачного провайдера ?

09:38пожаловаться #2

e

er@essbase.ru in Moscow Spark

Вообще мне казалось что вся мощь хадупа в том что они не делят данные и место расчета. Где храним там и считаем. Может вам зайдет старый map-reduce (hive) так как время на перекладку из одного кластера в другой можно просто потратить на расчет.

09:41пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

er@essbase.ru

Вообще мне казалось что вся мощь хадупа в том что они не делят данные и место расчета. Где храним там и считаем. Может вам зайдет старый map-reduce (hive) так как время на перекладку из одного кластера в другой можно просто потратить на расчет.

В нормальных ДЦ время передачи данных с ноды на ноду 0.0001сек, запись на диск занимает значительно больше времени. Также с использованием дата локалити есть проблема, когда куча пользователей в одном большом хадупе, у всех спарк пытается экзекутор получить на ноде с данными и не может, так как там всё занято два часа. Запуститься на свободной ноде и считать данные по сети значительно быстрее

18:06пожаловаться #4

e

er@essbase.ru in Moscow Spark

Евгений Глотов

В нормальных ДЦ время передачи данных с ноды на ноду 0.0001сек, запись на диск занимает значительно больше времени. Также с использованием дата локалити есть проблема, когда куча пользователей в одном большом хадупе, у всех спарк пытается экзекутор получить на ноде с данными и не может, так как там всё занято два часа. Запуститься на свободной ноде и считать данные по сети значительно быстрее

100 Tb ?🤔 Ну в общем это нужно мерить , да .😃

18:19пожаловаться #5

VS

Евгений Глотов

В нормальных ДЦ время передачи данных с ноды на ноду 0.0001сек, запись на диск занимает значительно больше времени. Также с использованием дата локалити есть проблема, когда куча пользователей в одном большом хадупе, у всех спарк пытается экзекутор получить на ноде с данными и не может, так как там всё занято два часа. Запуститься на свободной ноде и считать данные по сети значительно быстрее

0.1мс? Что-то тут преувеличение

18:20пожаловаться #6

VS

Подобные скорости можно получить явно не по сети с ноды на ноду

18:21пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

0.1мс? Что-то тут преувеличение

Это образно
Я про то, что чтение 100тб с дисков будет значительно медленнее, чем их передача по сети

18:21пожаловаться #8

VS

Тоже бред

18:21пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Тоже бред

2-3к иопс с ноды можно получить при использовании HDD

18:23пожаловаться #10

VS

При чем тут это?

18:24пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Это самое узкое место

18:24пожаловаться #12

VS

Давайте по порядку:
1. 2-3к иопсов на хдд можно получить на домашнем компе, в серверах другое железо
2. При отправке данных по сети вы забываете, что читать их с дисках все так же нужно, есть исключения, но явно не в вашем примере "с ноды на ноду"

18:26пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Давайте по порядку:
1. 2-3к иопсов на хдд можно получить на домашнем компе, в серверах другое железо
2. При отправке данных по сети вы забываете, что читать их с дисках все так же нужно, есть исключения, но явно не в вашем примере "с ноды на ноду"

Я говорю про корзину из 12 сас-дисков, на домашнем компе можно 100 иопс получить

18:27пожаловаться #14

VS

Когда вы работаете с корзиной, то поясните понятие "с ноды на ноду", если учесть, что корзины делаются для шаринга

18:28пожаловаться #15

VS

Ну и 100 иопс делается изян на 5400 хдд любого бука

18:28пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Когда вы работаете с корзиной, то поясните понятие "с ноды на ноду", если учесть, что корзины делаются для шаринга

Я имею в виду в каждой ноде если стоит по 12 дисков, в каком смысле шаринг, разве есть какая-то возможность условно "один диск" подключить к нескольким машинам, кроме как через сеть?

18:32пожаловаться #17

VS

12 дисков в ноде!=корзина

Паша Финкельштейн... in Moscow Spark

18:32пожаловаться #18

ПФ

Евгений Глотов

Я имею в виду в каждой ноде если стоит по 12 дисков, в каком смысле шаринг, разве есть какая-то возможность условно "один диск" подключить к нескольким машинам, кроме как через сеть?

Смотря что вы называете сетью

18:33пожаловаться #19

VS

У вас каша в голове