Size: a a a

2019 December 10

AZ

Alexey Zinoviev in Moscow Spark
не тот из Hadoop (я его и в глаза то 3 года уже не видел)
источник

PK

Pavel Klemenkov in Moscow Spark
Alexey Zinoviev
Под MapReduce я имел ввиду алгоритм в памяти
Голый mapreduce тоже не подходит, ибо стейджи синхронизировать надо
источник

AZ

Alexey Zinoviev in Moscow Spark
ETL до входа в trainer - он SQL подобный, но внутри, в distributed ML (в том числе и в Spark и т.д) там многократный MR до сходимости (или пока нам не надоест)
источник

AZ

Alexey Zinoviev in Moscow Spark
Pavel Klemenkov
Голый mapreduce тоже не подходит, ибо стейджи синхронизировать надо
Чтобы был не голый, надо дописывать ручками, тут никто не спорит, ну это если у вас спарк и у вас стейджи)
источник

AZ

Alexey Zinoviev in Moscow Spark
Pavel Klemenkov
Голый mapreduce тоже не подходит, ибо стейджи синхронизировать надо
вы поглядите в кишки SVM, GeneralizedLinearRegression или там NaiveBayes в Spark - практически голый MR, его видно, он пахнет и сочится (как минимум потому, что он местами на RDD)
источник

AZ

Alexey Zinoviev in Moscow Spark
И кстати, переехав местами на DataFrames (я имею ввиду к версии 2.4.4. разрабы переписали часть алгоритмов с RDD на dataframes в кишках ML, который был оберткой над MLlib до 2.3 более чем полностью ) мы выиграли разве что сниженный трафик через сеть (что прекрасно), но не ускорились в 1000 раз, т.к. разгуляться Catalyst негде. Я только об этом и больше ни о чем.
источник

AZ

Alexey Zinoviev in Moscow Spark
Spark заканчивается, когда начинается Spark ML
источник

AZ

Alexey Zinoviev in Moscow Spark
(спорное конечно утверждение, но я вбросил)
источник

AZ

Alexey Zinoviev in Moscow Spark
В любом случае, спасибо за ваи реплики и мысли, нигде это так не бодрит как в вашем чате
источник

DG

Denis Gabaydulin in Moscow Spark
Да в ML каталисту в принципе негде разгуляться.
источник
2019 December 11

dp

dbdbdb pssp in Moscow Spark
Привет, подскажите пожалуйста, какое железо для изучения апачи спарк можно поставить ?
источник

dp

dbdbdb pssp in Moscow Spark
чтобы комфортно было изучать
источник

A

Anton Lebedevich in Moscow Spark
ноутбука с 16г оперативы хватит для нормального изучения
источник

SS

Semyon Sinchenko in Moscow Spark
dbdbdb pssp
Привет, подскажите пожалуйста, какое железо для изучения апачи спарк можно поставить ?
Вот тут: https://labs.cognitiveclass.ai/ есть бесплатные ноутбуки с Zeppelin и Spark. Если задача чисто поизучать, то их хватит.
источник

SS

Semyon Sinchenko in Moscow Spark
Либо локальный spark на любом ноутбуке, хватит даже 8г оперативы, но 16 конечно получше. Вопрос что именно изучать...
источник

dp

dbdbdb pssp in Moscow Spark
Учивая что я новичок, логичный ещё вопрос зачем  мне вообще спарк и почему не хватит одного R? Просто гуглч etl R  ссылки привели к спарку
источник

AA

Anton Alekseev in Moscow Spark
dbdbdb pssp
Учивая что я новичок, логичный ещё вопрос зачем  мне вообще спарк и почему не хватит одного R? Просто гуглч etl R  ссылки привели к спарку
а вам и хватит чистого R. Если не знаете зачем спарк, то вы не пришли к нему еще. На будущее только если изучать.
источник

ЕГ

Евгений Глотов... in Moscow Spark
dbdbdb pssp
Учивая что я новичок, логичный ещё вопрос зачем  мне вообще спарк и почему не хватит одного R? Просто гуглч etl R  ссылки привели к спарку
Спарк - часть огромного конвейера фреймворков по обработке данных и поддержке процессов этой обработки, и R в него практически никаким образом не входит, либо нормальные языки, либо питон
источник

SS

Semyon Sinchenko in Moscow Spark
Евгений Глотов
Спарк - часть огромного конвейера фреймворков по обработке данных и поддержке процессов этой обработки, и R в него практически никаким образом не входит, либо нормальные языки, либо питон
Почему? Там нормальная API-шка к R. Чуть менее полная, чем питоновская, но вполне хватит
источник

ЕГ

Евгений Глотов... in Moscow Spark
Semyon Sinchenko
Почему? Там нормальная API-шка к R. Чуть менее полная, чем питоновская, но вполне хватит
Это понятно, но когда мы выходим в большой суровый мир, где одна кавычка в середине 50-гиговых CSV - лучше всё-таки применять для этого соответствующие инструменты
источник