Size: a a a

2021 March 05

VS

Vladislav 👻 Shishkov... in Moscow Spark
Евгений Глотов
Та цифра была взята от балды, просто как "достаточно быстро, чтобы не париться по поводу передачи данных по сети", суть того, что я написал, всё-таки была в затыках на чтении данных с жёстких дисков, в не в достижении минимально возможного латенси
кажется я ваше категоричное высказывание, что доступ к диску медленее, чем к сети, принял слишком буквально на фоне фразы про ДЦ, но по определению, пропускные каналы записи на диск могут пропускать больше, чем сеть, поэтому ваше сравнение применимо только в вашем конкретном случае, просто потому, что диски были медленные
источник

ЕГ

Евгений Глотов... in Moscow Spark
Паша Финкельштейн
А вы вот считаете инфинибенды сетью?
К сожалению, не работал с инфинибэндом, особенно на низком уровне, не могу сказать, какие протоколы передачи данных используются при соединении схд и нод инфинибэндом, сетевые или просто ФС-ные
источник

ЕГ

Евгений Глотов... in Moscow Spark
Vladislav 👻 Shishkov
кажется я ваше категоричное высказывание, что доступ к диску медленее, чем к сети, принял слишком буквально на фоне фразы про ДЦ, но по определению, пропускные каналы записи на диск могут пропускать больше, чем сеть, поэтому ваше сравнение применимо только в вашем конкретном случае, просто потому, что диски были медленные
Если у кого-то хадуп на ссд, то пусть выйдет со мной запрос на запрос
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
смешно, но у нас он стоял на ссд
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Дорогая всё-таки штука редко бывает
источник

ЕГ

Евгений Глотов... in Moscow Spark
Особенно хотя бы петабайтных масштабов
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
смысла нет, hdfs не такой быстрый, чтобы ему нужен был ssd
источник

AS

Andrey Smirnov in Moscow Spark
Спарк не только под хадуп, например даталакалити для эластика зашла на ура, без неё все умирало
источник

ЕГ

Евгений Глотов... in Moscow Spark
Давайте всё-таки вернёмся к вопросу коллеги, есть ли смысл поднимать тачку в облаке и тащить туда данные, или 20vcore на 10 нодах хадупа быстрее посчитают)
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
какая-то сферичность
источник

ЕГ

Евгений Глотов... in Moscow Spark
8гб оперативы впритык хватает для спарка и хадуповских сервисов)
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
о, я наконец увидел изначальный вопрос, а то ворвался на ДЦ 😬
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Повелитель Бури
Доброй ночи! Скажите пожалуйста, кто то реализовывал такой кейс:
есть 10 слабых машинок по 10 тб в hdfs
Нужно быстро посчитать данные.
В облаке поднимаем мощную машину с кучей оперативки и памяти и делим эти ресурсы для спарка, считаем, после чего тушим
если все в рамках одного облака и данные лежат на общем одном ресурсе (например s3), то если вам нужна шустрость, можете смело поднимать нужное количество компьют нод
источник

ЕГ

Евгений Глотов... in Moscow Spark
Просто мой опыт использования облаков был довольно негативным. Поднимал кластер из 4 нод по 4 ядра, на нём спарк, данные в WASB, в итоге быстрее было на домашнем компе с core i7 (4 ядра+ht) посчитать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если распространить его на жирные тачки, то какую надо поднимать, чтобы обогнать 20 "домашних" серверных коров по производительности
источник

ПБ

Повелитель Бури... in Moscow Spark
er@essbase.ru
Все у одного облачного провайдера ?
Да, все в одном облаке. Вот думаем еще x слабых машинок поднять или заморочится с прерываемыми + единый сторадж (hgfs,  s3)
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Для облака второй вариант должен быть профитнее
источник

ПБ

Повелитель Бури... in Moscow Spark
Vladislav 👻 Shishkov
Для облака второй вариант должен быть профитнее
Тут еще риск. С hdfs + spark мы научились готовить. Minio + spark на прерываемых машинках - это новый опыт. Вот захотелось послушать опыт коллег
источник