Телеграмм чат группы moscowspark страница 287

Посмотрел, используется Reservoir sampling. В принципе, в percentile_approx тоже приблизительный расчёт с эффективным использованием памяти и в первой прототипной реализации всё было хорошо, проблемы появились, когда потребовалось сделать распределение динамическим. Метод sample датасета никогда проблем не вызывал, он активно используется и качество выборки на миллиардах записей вполне устраивает. Даже если для RDD алгоритм намного лучше, то разница в несколько минут и несколько процентов отклонения размеров партиций ничего не решит.

Так вот, как я вижу, будут сложности с тем, чтобы сделать класс RangePartitioner динамическим, на основании количества строк в фиксированных партициях, тем более, сначала надо объединить его с партицированием по конкретным значениям других полей.

источник

13:17пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

Nikolay

Есть один примитивный случай - когда , например , создаём dataset из последовательности и на нем сразу вызываем collect , например.

Спасибо, не догадывался о таком интересном случае, думал, что RDD вообще всегда в основе

источник

13:18пожаловаться #6

РП

Роман Пашкевич... in Moscow Spark

Господа. А подскажите плз.

Есть жалобы от коллег DS что на ноде остались сессии от учетки и они жрут дофига памяти. Как их можно посмотреть и убить лишние? С линухом знаком крайне слабо.

источник

14:26пожаловаться #7

РП

Роман Пашкевич... in Moscow Spark

В основном, тех.учетка запускает ежедневно N скриптов через crontab

источник

14:27пожаловаться #8

GP

Grigory Pomadchin in Moscow Spark

Роман Пашкевич

Господа. А подскажите плз.

Есть жалобы от коллег DS что на ноде остались сессии от учетки и они жрут дофига памяти. Как их можно посмотреть и убить лишние? С линухом знаком крайне слабо.

на драйвере просто посмотри все джава процессы (?) может помочь

источник

14:29пожаловаться #9

РП

Роман Пашкевич... in Moscow Spark

как?) хотя бы намекни что гуглить

источник

14:31пожаловаться #10

DZ

Dmitry Zuev in Moscow Spark

ps aux | grep java

источник

14:31пожаловаться #11

АЖ

Андрей Жуков... in Moscow Spark

Роман Пашкевич

Господа. А подскажите плз.

Есть жалобы от коллег DS что на ноде остались сессии от учетки и они жрут дофига памяти. Как их можно посмотреть и убить лишние? С линухом знаком крайне слабо.

у меня запилин такой херней страдает

источник

14:31пожаловаться #12

АЖ

Андрей Жуков... in Moscow Spark

периодически чищу его процессы

источник

14:31пожаловаться #13

DZ

Dmitry Zuev in Moscow Spark

Андрей Жуков

у меня запилин такой херней страдает