Size: a a a

2018 November 23

AA

Anton Alekseev in Moscow Spark
Andrey Smirnov
import org.apache.spark.sql.expressions.Window;
df.withColumn("id",row_number().over(Window.orderBy("a column")))
можно так
спасибо.
источник

AS

Andrey Smirnov in Moscow Spark
zipWithIndex видимо самый эффективный будет, возможно получить избежать shuffle который будет при groupBy|window
источник

AA

Anton Alekseev in Moscow Spark
да там максимум групп пару тысяч, но нельзя чтобы поехали, а дальше джоин. Так что можно и однострочником.
источник

AA

Anton Alekseev in Moscow Spark
Andrey Smirnov
zipWithIndex видимо самый эффективный будет, возможно получить избежать shuffle который будет при groupBy|window
типа такого?
lookup = (uniq_flag.select("rank")
   .distinct()
   .orderBy("rank")
   .rdd
   .zipWithIndex()
   .map(lambda x: x[0] + (x[1], ))
   .toDF(["rank", "cat"]))
источник
2018 November 26

SK

Sergey Karpiy in Moscow Spark
Кто сталкивался с ошибкой: taskcommitdenied, driver denied task commit? возникает в основном на загруженном кластере, в интернете информации почти не нашёл
источник

DA

Dmitriy Anisimov in Moscow Spark
Sergey Karpiy
Кто сталкивался с ошибкой: taskcommitdenied, driver denied task commit? возникает в основном на загруженном кластере, в интернете информации почти не нашёл
Встречал такое, решилось увеличением памяти для драйвера и экзекьютера.
источник

DA

Dmitriy Anisimov in Moscow Spark
В нашем случае проявлялось при записи большого объема данных в паркет
источник

SK

Sergey Karpiy in Moscow Spark
Dmitriy Anisimov
В нашем случае проявлялось при записи большого объема данных в паркет
Тут что то похожее, правда проявляется в основном на загруженном кластере, тоже пробовал уменьшить кол-во экзекьюторов при увеличении памяти, но не всегда помогает, выглядит как какой-то лок на драйвере
источник
2018 November 27

DA

Dmitriy Anisimov in Moscow Spark
Sergey Karpiy
Тут что то похожее, правда проявляется в основном на загруженном кластере, тоже пробовал уменьшить кол-во экзекьюторов при увеличении памяти, но не всегда помогает, выглядит как какой-то лок на драйвере
Мы увеличивали пока не помогло. Вообще есть рекомендации по вычислению правильного объема памяти при записи в паркет.
источник
2018 December 04

K

KrivdaTheTriewe in Moscow Spark
Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка
источник

AD

Alex D in Moscow Spark
KrivdaTheTriewe
Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка
Собственным опытом мониторинга не располагаю, по теме могу посоветовать посмотреть на:
http://db-blog.web.cern.ch/blog/luca-canali/2018-08-sparkmeasure-tool-performance-troubleshooting-apache-spark-workloads

https://www.qubole.com/blog/sparklens-0-2-0-release-features-and-fixes/
источник

PK

Pavel Klemenkov in Moscow Spark
KrivdaTheTriewe
Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка
В рамблере у нас Sentry был. По мониторингу какие-то базовые метрики по JVM и джобам собирали, так и не смогли глубоко копнуть, что именно надо собирать
источник

AB

Alexey Belov in Moscow Spark
KrivdaTheTriewe
Ребята, а расскажите, как вы делаете профилирование ваших спарк джобов и как у вас мониторинг обустроен для спарка
Spark Metrics + Graphite Sink + Grafana Dashboard
источник

PK

Pavel Klemenkov in Moscow Spark
Имхо вопрос как эту тонну спарк метрик мониторить
источник
2018 December 06

PK

Pavel Klemenkov in Moscow Spark
Всем привет! Уже совсем скоро состоится долгожданный Mocsow Spark #6. У нас 174 регистрации из 200, поэтому если кто-то еще не зарегался, то пожалуйста. Ну и коллегам рекомендуйте.
источник

PK

Pavel Klemenkov in Moscow Spark
И еще вот какое дело, наш митап номинировали в лучшие мероприятия сообщества Open Data Science. Проголосовать можно тут https://docs.google.com/forms/d/e/1FAIpQLSdPU3viDEsJkbJKfxor66MrVZX0pTLt30R1I5oJCEGXRCcdyA/viewform
источник

PK

Pavel Klemenkov in Moscow Spark
Наверное будет справедливо, если проголосуют только зареганные в ODS. Хотя, думаю, что Леша Натекин почистит ))
источник
2018 December 07

AA

Anton Alekseev in Moscow Spark
Подскажите как оптимально сделать аналог кода ниже. Я только через filter -> select -> first пока придумал, ну или toPandas оба фрейма и напрямую.
meta_old.loc['date', name]
> meta_new.loc['date', name2]
источник

PK

Pavel Klemenkov in Moscow Spark
Типа хинт, в условия джойна можно прописывать кастомное выражение
источник
2018 December 10

PK

Pavel Klemenkov in Moscow Spark
Всем привет! Moscow Spark #6 уже в эту пятницу! Из 200 регистраций осталось 4, поэтому те, кто еще не подал заявку - спешите! Хочу предупредить, что регистрация, в любом случае, закроется в среду. После этого я передам списки охране Мегафона и уже не смогу никого включить. Поэтому есть еще 2 дня, чтобы подумать. На прошлом митапе в последний момент прилетело около 5 или 6 заявок в личку и, чтобы пропустить этих людей, пришлось протратить какое-то количество нервов и ресурсов. В этот раз мы этим заниматься не будем. Морализаторство окончено, ждем всех в пятницу! ))
источник