Size: a a a

2021 April 30

ДМ

Даниил Московский... in Moscow Spark
Верно, но и бустинги можно оптимизировать все-таки. Кажется по соотношению скорость работы на стоимость требуемых железок бустинг все еще впереди)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это если оперативы совсем не хватило)
А если вот прям чуть-чуть осталось, спарк пытается всеми силами освободить, надрывается и жрёт проц, сессия перестаёт отвечать при этом, потом когда оператива становится свободной, сессия так и висит зомбяком)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но тут хз кто косякнул
источник

ЕГ

Евгений Глотов... in Moscow Spark
Может это какой-то из алгоритмов GC кривой
источник

ЕГ

Евгений Глотов... in Moscow Spark
Несколько раз за 4 года сталкивался с такими зомби сессиями, не прям критично, но непонятно)
источник

DB

Dmitry Bugaychenko in Moscow Spark
У нас в свое время был простой принцип:
1. Все пром процессы на мониторинге с ожидаемым временем завершения (не завершился - семафор)
2. Все интерактивные сессии (зепелину, шеллы, юпитеры) ночью автоматом убиваются
3. Если тебе нужно что-то оставить считаться в ночь - исключаешь свою сессию из киллера, но тогда если она создаст проблемы к тебе придут.

Зомбаков всех своевременно отсреливали
источник
2021 May 04

DZ

Dmitry Zaytsev in Moscow Spark
Дим , а кто такие эти зомбаки)
источник

DS

Dmitry Sosna in Moscow Spark
Процессы выпавшие из цепочки, могут породить новые такие же. Завершаются, либо сами, либо если их пристрелить...
источник

C

Combot in Moscow Spark
Марина Карасёва has been banned! Reason: CAS ban.
источник

PK

Pavel Klemenkov in Moscow Spark
Всем привет. Я тут, внезапно, обнаружил, что оптимизации типа predicate pushdown работают даже для строчных форматов типа csv и json. Это давно так?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
КАК
источник

ПФ

Паша Финкельштейн... in Moscow Spark
В смысле как это в принципе возможно?
источник

t

tenKe in Moscow Spark
не совсем верно. Predicate pushdown работает на всем FileFormat
источник

t

tenKe in Moscow Spark
но он там номинально присутствует для csv и json
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А, ну то есть predicate() = false?
источник

t

tenKe in Moscow Spark
нет
источник

t

tenKe in Moscow Spark
Если посмотреть физический план запроса с csv, где есть срез - там будет predicate pushdown. Но наличие PredicatePushdown в чтении источника еще не означает, что он используется
источник

t

tenKe in Moscow Spark
Именно поэтому даже когда идет predicate pushdown, сам физический оператор фильтра никуда не девается
источник

t

tenKe in Moscow Spark
Иными словами, когда есть predicate pushdown, то фактически фильтрация будет делаться два раза - внутри источника и спарком при применении оператора Filter
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Вот, но что такое фильтрация внутри csv?
источник