Size: a a a

2020 March 31

N

Nikolay in Moscow Spark
Иван Калининский
Спарк не для ленивых))
Но по той статейке было непонятно( там RDD, а нужно dataset
Почти под каждым dataset лежит rdd.
источник

ИК

Иван Калининский... in Moscow Spark
Значит, продолжим разбираться!
источник

ИК

Иван Калининский... in Moscow Spark
Nikolay
Почти под каждым dataset лежит rdd.
Есть такие, под которыми не лежит?
источник

N

Nikolay in Moscow Spark
Иван Калининский
Есть такие, под которыми не лежит?
Есть один примитивный случай - когда , например , создаём dataset из последовательности и на нем сразу вызываем collect , например.
источник

ИК

Иван Калининский... in Moscow Spark
Dmitry Zuev
Ток там используют нормальный сэмплинг
Посмотрел, используется Reservoir sampling. В принципе, в percentile_approx тоже приблизительный расчёт с эффективным использованием памяти и в первой прототипной реализации всё было хорошо, проблемы появились, когда потребовалось сделать распределение динамическим. Метод sample датасета никогда проблем не вызывал, он активно используется и качество выборки на миллиардах записей вполне устраивает. Даже если для RDD алгоритм намного лучше, то разница в несколько минут и несколько процентов отклонения размеров партиций ничего не решит.

Так вот, как я вижу, будут сложности с тем, чтобы сделать класс RangePartitioner динамическим, на основании количества строк в фиксированных партициях, тем более, сначала надо объединить его с партицированием по конкретным значениям других полей.
источник

ИК

Иван Калининский... in Moscow Spark
Nikolay
Есть один примитивный случай - когда , например , создаём dataset из последовательности и на нем сразу вызываем collect , например.
Спасибо, не догадывался о таком интересном случае, думал, что RDD вообще всегда в основе
источник

РП

Роман Пашкевич... in Moscow Spark
Господа. А подскажите плз.

Есть жалобы от коллег DS что на ноде остались сессии от учетки и они жрут дофига памяти. Как их можно посмотреть и убить лишние? С линухом знаком крайне слабо.
источник

РП

Роман Пашкевич... in Moscow Spark
В основном, тех.учетка запускает ежедневно N скриптов через crontab
источник

GP

Grigory Pomadchin in Moscow Spark
Роман Пашкевич
Господа. А подскажите плз.

Есть жалобы от коллег DS что на ноде остались сессии от учетки и они жрут дофига памяти. Как их можно посмотреть и убить лишние? С линухом знаком крайне слабо.
на драйвере просто посмотри все джава процессы (?) может помочь
источник

РП

Роман Пашкевич... in Moscow Spark
как?) хотя бы намекни что гуглить
источник

DZ

Dmitry Zuev in Moscow Spark
ps aux | grep java
источник

АЖ

Андрей Жуков... in Moscow Spark
Роман Пашкевич
Господа. А подскажите плз.

Есть жалобы от коллег DS что на ноде остались сессии от учетки и они жрут дофига памяти. Как их можно посмотреть и убить лишние? С линухом знаком крайне слабо.
у меня запилин такой херней страдает
источник

АЖ

Андрей Жуков... in Moscow Spark
периодически чищу его процессы
источник

DZ

Dmitry Zuev in Moscow Spark
Андрей Жуков
у меня запилин такой херней страдает
там же вроде можно сешн шаре делать
источник

DZ

Dmitry Zuev in Moscow Spark
Андрей Жуков
периодически чищу его процессы
часто живое убиваете?
источник

АЖ

Андрей Жуков... in Moscow Spark
Dmitry Zuev
часто живое убиваете?
я проверяю живые тетрадки через апишку
источник

АЖ

Андрей Жуков... in Moscow Spark
но да, ловля зомби-процессов запилина - отдельное удовольствие
источник

АЖ

Андрей Жуков... in Moscow Spark
как-то раз месяц его не трогал, потушил сам запилин - 30% тачки было занято его процессами все равно
источник

GP

Grigory Pomadchin in Moscow Spark
Dmitry Zuev
ps aux | grep java
word
источник

DZ

Dmitry Zuev in Moscow Spark
ша?
источник