Телеграмм чат группы moscowspark страница 62

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

1
«
…
‹
57
58
59
60
61
62
63
›
…
»

2018 September 11

AS

Andrey Smirnov in Moscow Spark

Nikolay

Привет. Спарк на диск скидывает данные, если выполняется группировка ?

в документации:
http://spark.apache.org/docs/latest/rdd-programming-guide.html
в секции про shuffle (groupBy ведет к shuffle)
The Shuffle is an expensive operation since it involves disk I/O, data serialization, and network I/O. To organize data for the shuffle, Spark generates sets of tasks - map tasks to organize the data, and a set of reduce tasks to aggregate it. This nomenclature comes from MapReduce and does not directly relate to Spark’s map and reduce operations.

Internally, results from individual map tasks are kept in memory until they can’t fit. Then, these are sorted based on the target partition and written to a single file. On the reduce side, tasks read the relevant sorted blocks.

я так понимаю если памяти хватает, то не обязательно будет запись на диск

spark.apache.org

RDD Programming Guide - Spark 3.0.1 Documentation

Spark 3.0.1 programming guide in Java, Scala and Python

источник

21:16пожаловаться #1

PK

Pavel Klemenkov in Moscow Spark

Daria Abdullina

да

Ну, положа руку на сердце, правил на этот счёт нет)

источник

21:48пожаловаться #2

DA

Daria Abdullina in Moscow Spark

Pavel Klemenkov

Ну, положа руку на сердце, правил на этот счёт нет)

Ну если это не так простите)

источник

21:50пожаловаться #3

ЕЖ

Екатерина Жданова... in Moscow Spark

Ребята, спасибо за ответы!

источник

23:15пожаловаться #4

ЕЖ

Екатерина Жданова... in Moscow Spark

В общем, ищу к нам в команду BigData инженера. Senior/middle, Мск или Спб, или перевезем)

А вот, что говорят наш ведущий специалист, работающий с hadoop:

-У нас больше всех данных. Я теряюсь, в точных цифрах, но думаю сумарно можно говорить, что у нас больше 10PB. Если он знает место, где в России данных больше, мы готовы как в магазине показать ему столько же.
-У нас просто куча работы в любой части hadoop инфраструктуре. Если он знает какую-то часть hadoop-а хорошо, то скорее всего у нас это есть. И специалисту точно будет где себя проявить.
-У нас есть деньги на железо. Все сервера под hadoop - это примерно 10% всех серверов от портала. Мы развиваем архитектуру и доставляем мощности.
-Мы не используем какой-то дистрибутив от клаудеры или hortonworks, настраиваем и разворачиваем все сами.

Вот вакансия: https://hh.ru/vacancy/27453513

Вакансия BigData developer (OK.RU) в Москве, работа в Mail.Ru Group, Социальные сети, Одноклассники (вакансия в архиве)

Вакансия BigData developer (OK.RU). Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 22.08.2018.

источник

23:19пожаловаться #5

2018 September 12

MV

Mitya Volodin in Moscow Spark

Ну че, раз уж правил на этот счет нет, я и сюда форвардну ;)

источник

15:48пожаловаться #6

MV

Mitya Volodin in Moscow Spark

Переслано от Mitya Volodin

#job

Всем привет!

Ищем Data engineer и Архитекторов в нашу команду в СИБУРе. Если в вашей голове назревает вопрос «Шта? И где там большие данные?», то поверьте - поле для творчества очень большое. Данных, конечно не как в кликстриме, но много - производство тоже их постоянно генерит.

У нас полный гринфилд, смелые эксперименты и последние технологии приветствуются. Пока мы строим, а все знают, что строить гораздо интересней, чем сопровождать. В плане источников есть всё, начиная от rdbms и заканчивая IIoT.

Есть вопросы или интерес? Велкам ко мне в личку!

источник

15:48пожаловаться #7

2018 September 17

AP

Alexander Piminov in Moscow Spark

Anton Alekseev

Да, уже сами пришли к этому, но все равно спасибо))

Кстати, Glue попробовали, в итоге? Как впечатления?

источник

22:46пожаловаться #8

2018 September 18

AA

Anton Alekseev in Moscow Spark

Alexander Piminov

Кстати, Glue попробовали, в итоге? Как впечатления?

На этапе выбора сервиса выкинули его в пользу emr с ec2 инстансами. Основные причины почему отказались - удобство разработки и своя обертка над sparkcontext.

источник

06:49пожаловаться #9

2018 September 26

PM

Pavel Mezentsev in Moscow Spark

Всем привет! А в понедельник оказывается вышел новый релиз спарка 2.3.2
Правда его анонс выглядит прямо таки убого.
https://spark.apache.org/releases/spark-release-2-3-2.html

Known issues.
- SPARK-25206: wrong records are returned when Hive metastore schema and parquet schema are in different letter cases

Видимо все силы брошены на spark 2.4

источник

22:10пожаловаться #10

N

Nikolay in Moscow Spark

А что такого будет а 2.4 , что столько сил нужно ?

источник

22:51пожаловаться #11

K

KrivdaTheTriewe in Moscow Spark

Там блокеры ещё

источник

22:52пожаловаться #12

2018 October 01

FL

Fedor Lavrentyev in Moscow Spark

Pavel Mezentsev

Всем привет! А в понедельник оказывается вышел новый релиз спарка 2.3.2
Правда его анонс выглядит прямо таки убого.
https://spark.apache.org/releases/spark-release-2-3-2.html

Known issues.
- SPARK-25206: wrong records are returned when Hive metastore schema and parquet schema are in different letter cases

Видимо все силы брошены на spark 2.4

Эти issues уже давно known, если ты за них переживаешь.

источник

13:47пожаловаться #13

2018 October 03

PK

Pavel Klemenkov in Moscow Spark

Юху! Ровно 300 человек в канале! 🔥 По этому поводу уже на следующей неделе новая рубрика! А то звенящая пустота чет поднадоела ))

источник

12:54пожаловаться #14

PJ

Paul Jones in Moscow Spark

👍

источник

13:01пожаловаться #15

2018 October 11

N

Nikolay in Moscow Spark

Всем привет. На чем тесты для Спарка пишите ?

источник

09:18пожаловаться #16

t

tenKe in Moscow Spark

Nikolay

Всем привет. На чем тесты для Спарка пишите ?

на проде

источник

09:31пожаловаться #17

t

tenKe in Moscow Spark

источник

09:31пожаловаться #18

t

tenKe in Moscow Spark

а вообще скалатест да

источник

09:33пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

на проде

источник

09:34пожаловаться #20

1
«
…
‹
57
58
59
60
61
62
63
›
…
»