Телеграмм чат группы moscowspark страница 386

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 June 13

NN

Nazar Niyazov in Moscow Spark

Может кто-нибудь объяснить нубам, почему здесь (https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html) локальные утилиты командной строки оказались в сотни раз быстрее кластера с хадупом? Разве хадуп не использует параллельные вычисления по своей природе?

Command-line Tools can be 235x Faster than your Hadoop Cluster

Introduction As I was browsing the web and catching up on some sites I visit periodically, I found a cool article from Tom Hayden about using Amazon Elastic Map Reduce (EMR) and mrjob in order to compute some statistics on win/loss ratios for chess games he downloaded from the millionbase archive, and generally have fun with EMR. Since the data volume was only about 1.75GB containing around 2 million chess games, I was skeptical of using Hadoop for the task, but I can understand his goal of learning and having fun with mrjob and EMR.

источник

18:08пожаловаться #1

PK

Pavel Klemenkov in Moscow Spark

Там датасет в 2гб. Накладные расходы на запуск контейнеров сжирают всю производительность на кластере

источник

18:10пожаловаться #2

NN

Nazar Niyazov in Moscow Spark

А где примерно проходит граница размера, когда кластер становится быстрее?

источник

18:12пожаловаться #3

PK

Pavel Klemenkov in Moscow Spark

Сложно сказать, накладные расходы на запуск контейнера секунд 10 в среднем, так что твой Джоб должен хотя бы пару минут тарахтеть

источник

18:14пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Спарк-сессия при 200 юзерах и 10 очередях в ярне поднимается секунд 20-25

источник

18:18пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Когда 20 гигов сжатого орка каждый день формируется, и хранится 3 года, тут комманд лайн тулс не помогут уже)

источник

18:19пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Nazar Niyazov

А где примерно проходит граница размера, когда кластер становится быстрее?

У меня была задача на спарке - нечёткое сопоставлени по двум дабл координатам, по сути knn, датасеты были размера 40 гигов и 16 гигов, несжатый csv. Обрабатывал спарком на скале
Я поднимал учебный кластер в азуре с разным числом ядер, и сравнивал с локальным своим компом на 8 виртуал коров. Вот кластер начал выигрывать по времени, когда там стало 16 физических коров

источник

18:24пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

То есть кластер работает в 4 раза хуже, чем локал комп, из-за необходимости межсетевого взаимодействия

источник

18:25пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Ну и частота процессора там пониже на ксеонах была

источник

18:25пожаловаться #9

NN

Nazar Niyazov in Moscow Spark

Евгений Глотов

То есть кластер работает в 4 раза хуже, чем локал комп, из-за необходимости межсетевого взаимодействия

Я тоже про это подумал. Спасибо.

источник

18:27пожаловаться #10

S

Stanislav in Moscow Spark

Nazar Niyazov

А где примерно проходит граница размера, когда кластер становится быстрее?

Логично было бы, что когда датасет не влазит в память, либо утилизируешь все локальные ядра и надо ещё.

источник

20:59пожаловаться #11

2020 June 14

ПФ

Паша Финкельштейн... in Moscow Spark

KrivdaTheTriewe

в кластер моде, хочу свителки-перделки сделать для потоковых данных

Подними м зукипером

источник

16:58пожаловаться #12

K

KrivdaTheTriewe in Moscow Spark

Паша Финкельштейн

Подними м зукипером

Не оч хочу так делать

источник

16:59пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

KrivdaTheTriewe

Не оч хочу так делать

Подними с эврикой.

источник

16:59пожаловаться #14

K

KrivdaTheTriewe in Moscow Spark

Это нужно чтобы драйвер сам себя регал

источник

16:59пожаловаться #15

K

KrivdaTheTriewe in Moscow Spark

И логику поверх

источник

16:59пожаловаться #16

ПФ

Паша Финкельштейн... in Moscow Spark

Ну вот эврику для Дискавери используй

источник

17:00пожаловаться #17

K

KrivdaTheTriewe in Moscow Spark

И как ярн будет проксировать порт рандомный ?

источник

17:01пожаловаться #18

K

KrivdaTheTriewe in Moscow Spark

Или не рандомный

источник

17:01пожаловаться #19

K

KrivdaTheTriewe in Moscow Spark

Ноду я допустим где драйвер крутится , найду

источник

17:02пожаловаться #20