Size: a a a

2020 June 13

NN

Nazar Niyazov in Moscow Spark
Может кто-нибудь объяснить нубам, почему здесь (https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html) локальные утилиты командной строки оказались в сотни раз быстрее кластера с хадупом? Разве хадуп не использует параллельные вычисления по своей природе?
источник

PK

Pavel Klemenkov in Moscow Spark
Там датасет в 2гб. Накладные расходы на запуск контейнеров сжирают всю производительность на кластере
источник

NN

Nazar Niyazov in Moscow Spark
А где примерно проходит граница размера, когда кластер становится быстрее?
источник

PK

Pavel Klemenkov in Moscow Spark
Сложно сказать, накладные расходы на запуск контейнера секунд 10 в среднем, так что твой Джоб должен хотя бы пару минут тарахтеть
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк-сессия при 200 юзерах и 10 очередях в ярне поднимается секунд 20-25
источник

ЕГ

Евгений Глотов... in Moscow Spark
Когда 20 гигов сжатого орка каждый день формируется, и хранится 3 года, тут комманд лайн тулс не помогут уже)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Nazar Niyazov
А где примерно проходит граница размера, когда кластер становится быстрее?
У меня была задача на спарке - нечёткое сопоставлени по двум дабл координатам, по сути knn, датасеты были размера 40 гигов и 16 гигов, несжатый csv. Обрабатывал спарком на скале
Я поднимал учебный кластер в азуре с разным числом ядер, и сравнивал с локальным своим компом на 8 виртуал коров. Вот кластер начал выигрывать по времени, когда там стало 16 физических коров
источник

ЕГ

Евгений Глотов... in Moscow Spark
То есть кластер работает в 4 раза хуже, чем локал комп, из-за необходимости межсетевого взаимодействия
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну и частота процессора там пониже на ксеонах была
источник

NN

Nazar Niyazov in Moscow Spark
Евгений Глотов
То есть кластер работает в 4 раза хуже, чем локал комп, из-за необходимости межсетевого взаимодействия
Я тоже про это подумал. Спасибо.
источник

S

Stanislav in Moscow Spark
Nazar Niyazov
А где примерно проходит граница размера, когда кластер становится быстрее?
Логично было бы, что когда датасет не влазит в память, либо утилизируешь все локальные ядра и надо ещё.
источник
2020 June 14

ПФ

Паша Финкельштейн... in Moscow Spark
KrivdaTheTriewe
в кластер моде, хочу свителки-перделки сделать   для потоковых данных
Подними м зукипером
источник

K

KrivdaTheTriewe in Moscow Spark
Паша Финкельштейн
Подними м зукипером
Не оч хочу так делать
источник

ПФ

Паша Финкельштейн... in Moscow Spark
KrivdaTheTriewe
Не оч хочу так делать
Подними с эврикой.
источник

K

KrivdaTheTriewe in Moscow Spark
Это нужно чтобы драйвер сам себя регал
источник

K

KrivdaTheTriewe in Moscow Spark
И логику поверх
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну вот эврику для Дискавери используй
источник

K

KrivdaTheTriewe in Moscow Spark
И как ярн будет проксировать порт рандомный ?
источник

K

KrivdaTheTriewe in Moscow Spark
Или не рандомный
источник

K

KrivdaTheTriewe in Moscow Spark
Ноду я допустим где драйвер крутится , найду
источник