Телеграмм чат группы moscowspark страница 44

Всем привет. Заметил, что при запуске спарк стримминга возрастает нагрузка на сеть между кластерами. Воркер на которой расположена неймнода HDFS начинает чтото читать с других воркеров. Нагрузка плавно возрастает пропорционально полученным сообщениям, пока не упрется в пропускную способность сети. Эффект наблюдаю и на тестовом примере с wordcount из мануала. У кого-нибудь была такая проблема?

источник

16:41пожаловаться #10

Sergey Karpov in Moscow Spark

Выяснил, что это spark-history сходит с ума. отключил

источник

19:41пожаловаться #11

Pavel Klemenkov in Moscow Spark

Sergey Karpov

Выяснил, что это spark-history сходит с ума. отключил

Как именно сходит можешь описать?

источник

20:23пожаловаться #12

Sergey Karpov in Moscow Spark

До конца пока не совсем понял, видимо был настроен очень криво. Проблема была в том, что спарк-хистори на каждый батч на каждый стейдж на каждую таску в стейдже писал кучу каких-то логов в hdfs. И каждый раз их зачем-то читал. Было неочевидно почему при запуске спарк стриминга нагрузка- на hdfs и почему нагрузка возрастала кумулятивно.

источник

20:51пожаловаться #13

tenKe in Moscow Spark

а вот я говорил, что логи первым делом надо выключать

источник

21:31пожаловаться #14

tenKe in Moscow Spark

sticker.webp

(31.89 Кб)

источник

21:32пожаловаться #15

Sergey Karpov in Moscow Spark

ну это не совсем логи. Логи с АМ и с экзекьютеров останутся. Это список выполненных джоб и стейжей. Т.е. теперь после падения аппликейшна я не смогу посмотреть сколько тасок упало при обработки батча… в принципе не больно то и хотелось..

источник

22:38пожаловаться #16

2018 July 19

Evgenii Sushinskii in Moscow Spark

Ребята, вопрос про udf и pyspark. Так вышло, что использование собственных udf, написанных на python, приводит к довольно медленной работе джобы. Но ходят слухи, что можно реализовать функцию на Java/Scala, а потом её использовать в своём python-коде, и вроде как работать это будет быстрей. Может ли кто-нибудь посоветовать какой-нибудь туториал по этому поводу или репозиторий, где что-то подобное реализовано, или книгу какую-то. Желательно, чтобы это была связка python/Java.

источник

11:58пожаловаться #17

Pavel Klemenkov in Moscow Spark

Привет, в 2.3 появились pandas_udf, который используют apache arrow. Это сильно ускоряет udf-ки. Или версия спарка старая7

источник

11:59пожаловаться #18

Evgenii Sushinskii in Moscow Spark

Вот версия как раз 2.2, где их ещё нет. Кстати, про pandas_udf тоже у меня есть вопрос. Какие-нибудь бенчмарки есть у кого-нибудь, где сравнивались бы pandas_udf и вот использование самописных Java-функций в python-коде? Или использование Java-функций в python-коде - это wrong way? Просто весь код переписывать на Java не хочется, потому что на python вроде как разработка быстрей, кода меньше (да и просто опыта больше). Но отдельные места хотелось бы ускорить, поэтому вот ищу варианты.

источник

12:03пожаловаться #19

KrivdaTheTriewe in Moscow Spark

https://databricks.com/blog/2018/05/03/benchmarking-apache-spark-on-a-single-node-machine.html

Databricks

Benchmarking Apache Spark on a Single Node Machine - The Databricks Blog

In this blog, we will demonstrate the merits of single node computation using PySpark and share our observations. Through experimentation, we’ll show why you may want to use PySpark instead of Pandas for large datasets that exceed single-node machine’s memory.

источник

12:05пожаловаться #20