Size: a a a

2021 June 22

Р

Рамик in Moscow Spark
перекосы  это уже другое )
но я все еще надеюсь , что ram можно как-то посчитать
источник

D

Dmitry in Moscow Spark
диагностировать может легко, тут спарк обычно не обманывает с месседжем в ошибках, но я вот до сих пор не знаю, а что с этим делать. сегодня есть перекос, завтра нет, после завтра перекос  в трое больше будет.
еще имхо большая проблема что дурит спарк с сообщениями об ошибках. у нас постоянно сообщения, что таймауты в нетворке, хотя на самом деле в нетворке никаких проблем - таймауты из-за того что кому-то там не хватило процессора вовремя ответить, а ярн или спарк не стал ждать. особенно красиво это выглядит в связке с kudu
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Натравливать dq решения на датасет и исходя из наличия перекоса выбирать разные стратегии хеширования, например
источник

ЕГ

Евгений Глотов... in Moscow Spark
Лучше всего исходить из того, что есть, и подгонять под это свои джобы, а не подгонять память под задачу
источник
2021 June 23

ПФ

Паша Финкельштейн... in Moscow Spark
А это откуда?
источник

PK

Pavel Klemenkov in Moscow Spark
No clue
источник

МК

Мария Колесникова... in Moscow Spark
Группа в полосатых купальниках)))))
источник
2021 June 27

A

Aleksandra in Moscow Spark
Интересно, а как вам удалось понять, что ошибка нетворк таймаут связан именно с нехваткой ресурсов? Как диагностировали? У нас просто тоже такие ошибки периодически возникают
источник

D

Dmitry in Moscow Spark
Kudu помогло. Как только мап-редюс массово пишет в kudu спарковые экзекьютеры странные ошибки кидали
источник

D

Dmitry in Moscow Spark
Снизили нагрузку и параллельность у куду, необьяснимых сбоев спарк экзекьютеров уменьшилось
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
Подскажите где лучше начинать и продолжать изучать Apache Spark, Kafka Spark и Cassandra? Нужно добрать скиллы эти. Я посомтрел немного ютуба, ничего не понял ещё. В SQL, pandas кое-что умею. Это я так свою базу обозначил. Посоветуйте в куда лезть, пожалуйста.
источник

ДД

Джон Дориан... in Moscow Spark
Для начала вот этот курс, думаю, вполне подойдёт
источник

ДД

Джон Дориан... in Moscow Spark
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
да, спасибо, я на него и записался, но тчо-то там мало кассандры и кафки нету. Я и начал подбирать на более детализированое что-нибдуь.
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
к тому же мне, как челвоеку со сторны, не так очевидно на сколько там всё актуально, там кажись последние изменения были в 2019 году.
источник

ДД

Джон Дориан... in Moscow Spark
Базовые вещи вполне нормально объясняются. А так - можно почитать Spark: The definitive guide например
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
спасибо. а после лучше кафку или кассандру?)
источник

ДД

Джон Дориан... in Moscow Spark
Дак это абсолютно разные вещи, для разных задач.
Если от балды выбирать одно из двух- я бы выбрал изучать кафку в первую очередь.
Она де-факто промышленный стандарт и много где используется.
А Кассандра это одно из десятка nosql решений
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
у меня конкретно три скилла эти нужны. ладно, запишу что не принципиально)
источник

AB

Andrey Bel in Moscow Spark
Плюсую предыдущее мнение, да
кафка много где юзаеться а кассандра, ну тоже конечно используется, но гораздо реже, и тут важно понимать насколько глубоко вам надо её понимать потому что просто туда писать спарком или через коннектор это одно а вот админить оптимизировать это совсем другое, тоже самое касается в целом и спарка и кафки
источник