Size: a a a

2018 September 11

AS

Andrey Smirnov in Moscow Spark
Nikolay
Привет. Спарк на диск скидывает данные, если выполняется группировка ?
в документации:
http://spark.apache.org/docs/latest/rdd-programming-guide.html
в секции про shuffle (groupBy ведет к shuffle)
The Shuffle is an expensive operation since it involves disk I/O, data serialization, and network I/O. To organize data for the shuffle, Spark generates sets of tasks - map tasks to organize the data, and a set of reduce tasks to aggregate it. This nomenclature comes from MapReduce and does not directly relate to Spark’s map and reduce operations.

Internally, results from individual map tasks are kept in memory until they can’t fit. Then, these are sorted based on the target partition and written to a single file. On the reduce side, tasks read the relevant sorted blocks.

я так понимаю если памяти хватает, то не обязательно будет запись на диск
источник

PK

Pavel Klemenkov in Moscow Spark
Ну, положа руку на сердце, правил на этот счёт нет)
источник

DA

Daria Abdullina in Moscow Spark
Pavel Klemenkov
Ну, положа руку на сердце, правил на этот счёт нет)
Ну если это не так простите)
источник

ЕЖ

Екатерина Жданова... in Moscow Spark
Ребята, спасибо за ответы!
источник

ЕЖ

Екатерина Жданова... in Moscow Spark
В общем, ищу к нам в команду BigData инженера. Senior/middle, Мск или Спб, или перевезем)

А вот, что говорят наш ведущий специалист, работающий с hadoop:

-У нас больше всех данных. Я теряюсь, в точных цифрах, но думаю сумарно можно говорить, что у нас больше 10PB. Если он знает место, где в России данных больше, мы готовы как в магазине показать ему столько же.
-У нас просто куча работы в любой части hadoop инфраструктуре. Если он знает какую-то часть hadoop-а хорошо, то скорее всего у нас это есть. И специалисту точно будет где себя проявить.
-У нас есть деньги на железо. Все сервера под hadoop - это примерно 10% всех серверов от портала. Мы развиваем архитектуру и доставляем мощности.
-Мы не используем какой-то дистрибутив от клаудеры или hortonworks, настраиваем и разворачиваем все сами.

Вот вакансия: https://hh.ru/vacancy/27453513
источник
2018 September 12

MV

Mitya Volodin in Moscow Spark
Ну че, раз уж правил на этот счет нет, я и сюда форвардну ;)
источник

MV

Mitya Volodin in Moscow Spark
Переслано от Mitya Volodin
#job

Всем привет!

Ищем Data engineer и Архитекторов в нашу команду в СИБУРе. Если в вашей голове назревает вопрос «Шта? И где там большие данные?», то поверьте - поле для творчества очень большое. Данных, конечно не как в кликстриме, но много - производство тоже их постоянно генерит.

У нас полный гринфилд, смелые эксперименты и последние технологии приветствуются. Пока мы строим, а все знают, что строить гораздо интересней, чем сопровождать. В плане источников есть всё, начиная от rdbms и заканчивая IIoT.

Есть вопросы или интерес? Велкам ко мне в личку!
источник
2018 September 17

AP

Alexander Piminov in Moscow Spark
Anton Alekseev
Да, уже сами пришли к этому, но все равно спасибо))
Кстати, Glue попробовали, в итоге? Как впечатления?
источник
2018 September 18

AA

Anton Alekseev in Moscow Spark
Alexander Piminov
Кстати, Glue попробовали, в итоге? Как впечатления?
На этапе выбора сервиса выкинули его в пользу emr с ec2 инстансами. Основные причины почему отказались - удобство разработки и своя обертка над  sparkcontext.
источник
2018 September 26

PM

Pavel Mezentsev in Moscow Spark
Всем привет! А в понедельник оказывается вышел новый релиз спарка 2.3.2
Правда его анонс выглядит прямо таки убого.
https://spark.apache.org/releases/spark-release-2-3-2.html

Known issues.
- SPARK-25206: wrong records are returned when Hive metastore schema and parquet schema are in different letter cases

Видимо все силы брошены на spark 2.4
источник

N

Nikolay in Moscow Spark
А что такого будет а 2.4 , что столько сил нужно ?
источник

K

KrivdaTheTriewe in Moscow Spark
Там блокеры ещё
источник
2018 October 01

FL

Fedor Lavrentyev in Moscow Spark
Pavel Mezentsev
Всем привет! А в понедельник оказывается вышел новый релиз спарка 2.3.2
Правда его анонс выглядит прямо таки убого.
https://spark.apache.org/releases/spark-release-2-3-2.html

Known issues.
- SPARK-25206: wrong records are returned when Hive metastore schema and parquet schema are in different letter cases

Видимо все силы брошены на spark 2.4
Эти issues уже давно known, если ты за них переживаешь.
источник
2018 October 03

PK

Pavel Klemenkov in Moscow Spark
Юху! Ровно 300 человек в канале! 🔥 По этому поводу уже на следующей неделе новая рубрика! А то звенящая пустота чет поднадоела ))
источник

PJ

Paul Jones in Moscow Spark
👍
источник
2018 October 11

N

Nikolay in Moscow Spark
Всем привет. На чем тесты для Спарка пишите ?
источник

t

tenKe in Moscow Spark
Nikolay
Всем привет. На чем тесты для Спарка пишите ?
на проде
источник

t

tenKe in Moscow Spark
источник

t

tenKe in Moscow Spark
а вообще скалатест да
источник

ЕГ

Евгений Глотов... in Moscow Spark
tenKe
на проде
источник