Телеграмм чат группы moscowspark страница 76

2018 November 23

AA

Anton Alekseev in Moscow Spark

import org.apache.spark.sql.expressions.Window;
df.withColumn("id",row_number().over(Window.orderBy("a column")))
можно так

спасибо.

источник

16:45пожаловаться #1

AS

Andrey Smirnov in Moscow Spark

zipWithIndex видимо самый эффективный будет, возможно получить избежать shuffle который будет при groupBy|window

источник

16:51пожаловаться #2

AA

Anton Alekseev in Moscow Spark

да там максимум групп пару тысяч, но нельзя чтобы поехали, а дальше джоин. Так что можно и однострочником.

источник

16:53пожаловаться #3

AA

Anton Alekseev in Moscow Spark

Andrey Smirnov

zipWithIndex видимо самый эффективный будет, возможно получить избежать shuffle который будет при groupBy|window

типа такого?

lookup = (uniq_flag.select("rank")
    .distinct()
    .orderBy("rank")
    .rdd
    .zipWithIndex()
    .map(lambda x: x[0] + (x[1], ))
    .toDF(["rank", "cat"]))

источник

16:57пожаловаться #4

2018 November 26

SK

Sergey Karpiy in Moscow Spark

Кто сталкивался с ошибкой: taskcommitdenied, driver denied task commit? возникает в основном на загруженном кластере, в интернете информации почти не нашёл

источник

16:53пожаловаться #5

DA

Dmitriy Anisimov in Moscow Spark

Sergey Karpiy

Кто сталкивался с ошибкой: taskcommitdenied, driver denied task commit? возникает в основном на загруженном кластере, в интернете информации почти не нашёл

Встречал такое, решилось увеличением памяти для драйвера и экзекьютера.

источник

18:15пожаловаться #6

DA

Dmitriy Anisimov in Moscow Spark

В нашем случае проявлялось при записи большого объема данных в паркет

источник

18:19пожаловаться #7

SK

Sergey Karpiy in Moscow Spark

Dmitriy Anisimov

В нашем случае проявлялось при записи большого объема данных в паркет

Тут что то похожее, правда проявляется в основном на загруженном кластере, тоже пробовал уменьшить кол-во экзекьюторов при увеличении памяти, но не всегда помогает, выглядит как какой-то лок на драйвере

источник

18:37пожаловаться #8

2018 November 27

DA

Dmitriy Anisimov in Moscow Spark

Sergey Karpiy

Тут что то похожее, правда проявляется в основном на загруженном кластере, тоже пробовал уменьшить кол-во экзекьюторов при увеличении памяти, но не всегда помогает, выглядит как какой-то лок на драйвере

Мы увеличивали пока не помогло. Вообще есть рекомендации по вычислению правильного объема памяти при записи в паркет.

источник

04:03пожаловаться #9

2018 December 04

K

KrivdaTheTriewe in Moscow Spark

Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка

источник

13:13пожаловаться #10

AD

Alex D in Moscow Spark

KrivdaTheTriewe

Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка

Собственным опытом мониторинга не располагаю, по теме могу посоветовать посмотреть на:
http://db-blog.web.cern.ch/blog/luca-canali/2018-08-sparkmeasure-tool-performance-troubleshooting-apache-spark-workloads

https://www.qubole.com/blog/sparklens-0-2-0-release-features-and-fixes/

источник

18:49пожаловаться #11

PK

Pavel Klemenkov in Moscow Spark

KrivdaTheTriewe

Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка

В рамблере у нас Sentry был. По мониторингу какие-то базовые метрики по JVM и джобам собирали, так и не смогли глубоко копнуть, что именно надо собирать

источник

18:53пожаловаться #12

AB

Alexey Belov in Moscow Spark

KrivdaTheTriewe

Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка

Spark Metrics + Graphite Sink + Grafana Dashboard

источник

19:02пожаловаться #13

PK

Pavel Klemenkov in Moscow Spark

Имхо вопрос как эту тонну спарк метрик мониторить

источник

19:19пожаловаться #14

2018 December 06

PK

Pavel Klemenkov in Moscow Spark

Всем привет! Уже совсем скоро состоится долгожданный Mocsow Spark #6. У нас 174 регистрации из 200, поэтому если кто-то еще не зарегался, то пожалуйста. Ну и коллегам рекомендуйте.

источник

12:37пожаловаться #15

PK

Pavel Klemenkov in Moscow Spark

И еще вот какое дело, наш митап номинировали в лучшие мероприятия сообщества Open Data Science. Проголосовать можно тут https://docs.google.com/forms/d/e/1FAIpQLSdPU3viDEsJkbJKfxor66MrVZX0pTLt30R1I5oJCEGXRCcdyA/viewform

Google Docs

ODS Awards 2018

Выбираем главные успехи и вклад в Open Data Science 2018!

Победители будут награждены на Data Елке 22 декабре в Москве.

источник

12:38пожаловаться #16

PK

Pavel Klemenkov in Moscow Spark

Наверное будет справедливо, если проголосуют только зареганные в ODS. Хотя, думаю, что Леша Натекин почистит ))

источник

12:38пожаловаться #17

2018 December 07

AA

Anton Alekseev in Moscow Spark

Подскажите как оптимально сделать аналог кода ниже. Я только через filter -> select -> first пока придумал, ну или toPandas оба фрейма и напрямую.

meta_old.loc['date', name]
 > meta_new.loc['date', name2]

источник

16:11пожаловаться #18

PK

Pavel Klemenkov in Moscow Spark

Типа хинт, в условия джойна можно прописывать кастомное выражение

источник

18:36пожаловаться #19

2018 December 10

PK

Pavel Klemenkov in Moscow Spark

Всем привет! Moscow Spark #6 уже в эту пятницу! Из 200 регистраций осталось 4, поэтому те, кто еще не подал заявку - спешите! Хочу предупредить, что регистрация, в любом случае, закроется в среду. После этого я передам списки охране Мегафона и уже не смогу никого включить. Поэтому есть еще 2 дня, чтобы подумать. На прошлом митапе в последний момент прилетело около 5 или 6 заявок в личку и, чтобы пропустить этих людей, пришлось протратить какое-то количество нервов и ресурсов. В этот раз мы этим заниматься не будем. Морализаторство окончено, ждем всех в пятницу! ))

источник

13:02пожаловаться #20