Size: a a a

2018 July 17

K

KrivdaTheTriewe in Moscow Spark
источник

K

KrivdaTheTriewe in Moscow Spark
а известно когда будут выложены видео со спарк саммита?
источник

PK

Pavel Klemenkov in Moscow Spark
Хз, кто-то из датабрикса есть тут?
источник

K

KrivdaTheTriewe in Moscow Spark
было бы круто иметь таких людей в чате
источник

PB

Pavel Bezglasnyi in Moscow Spark
источник

PB

Pavel Bezglasnyi in Moscow Spark
Эти же?
источник

K

KrivdaTheTriewe in Moscow Spark
источник

K

KrivdaTheTriewe in Moscow Spark
upd: походу все, спасибо
источник

PB

Pavel Bezglasnyi in Moscow Spark
А в чем отличие ютюб канала саммита от датибркса? Кто нибудь сравнивал? https://www.youtube.com/channel/UC3q8O3Bh2Le8Rj1-Q-_UUbA
источник
2018 July 18

SK

Sergey Karpov in Moscow Spark
Всем привет. Заметил, что при запуске спарк стримминга возрастает нагрузка на сеть между кластерами. Воркер на которой расположена неймнода HDFS начинает чтото читать с других воркеров. Нагрузка плавно возрастает пропорционально полученным сообщениям, пока не упрется в пропускную способность сети. Эффект наблюдаю и на тестовом примере с wordcount из мануала. У кого-нибудь была такая проблема?
источник

SK

Sergey Karpov in Moscow Spark
Выяснил, что это spark-history сходит с ума. отключил
источник

PK

Pavel Klemenkov in Moscow Spark
Sergey Karpov
Выяснил, что это spark-history сходит с ума. отключил
Как именно сходит можешь описать?
источник

SK

Sergey Karpov in Moscow Spark
До конца пока не совсем понял, видимо был настроен очень криво. Проблема была в том, что спарк-хистори на каждый батч на каждый стейдж на каждую таску в стейдже писал кучу каких-то логов в hdfs. И каждый раз их зачем-то читал. Было неочевидно почему при запуске спарк стриминга нагрузка- на hdfs и почему нагрузка возрастала кумулятивно.
источник

t

tenKe in Moscow Spark
а вот я говорил, что логи первым делом надо выключать
источник

t

tenKe in Moscow Spark
источник

SK

Sergey Karpov in Moscow Spark
ну это не совсем логи. Логи с АМ и с экзекьютеров останутся. Это список выполненных джоб и стейжей. Т.е. теперь после падения аппликейшна я не смогу посмотреть сколько тасок упало при обработки батча… в принципе не больно то и хотелось..
источник
2018 July 19

ES

Evgenii Sushinskii in Moscow Spark
Ребята, вопрос про udf и pyspark. Так вышло, что использование собственных udf, написанных на python, приводит к довольно медленной работе джобы. Но ходят слухи, что можно реализовать функцию на Java/Scala, а потом её использовать в своём python-коде, и вроде как работать это будет быстрей. Может ли кто-нибудь посоветовать какой-нибудь туториал по этому поводу или репозиторий, где что-то подобное реализовано, или книгу какую-то. Желательно, чтобы это была связка python/Java.
источник

PK

Pavel Klemenkov in Moscow Spark
Привет, в 2.3 появились pandas_udf, который используют apache arrow. Это сильно ускоряет udf-ки. Или версия спарка старая7
источник

ES

Evgenii Sushinskii in Moscow Spark
Вот версия как раз 2.2, где их ещё нет. Кстати, про pandas_udf тоже у меня есть вопрос. Какие-нибудь бенчмарки есть у кого-нибудь, где сравнивались бы pandas_udf и вот использование самописных Java-функций в python-коде? Или использование Java-функций в python-коде - это wrong way? Просто весь код переписывать на Java не хочется, потому что на python вроде как разработка быстрей, кода меньше (да и просто опыта больше). Но отдельные места хотелось бы ускорить, поэтому вот ищу варианты.
источник

K

KrivdaTheTriewe in Moscow Spark
источник