Телеграмм чат группы moscowspark страница 550

Size: a a a

Moscow Spark

938 membersпожаловаться на группу

2021 February 11

Gev in Moscow Spark

Поможет, если взять count от DF с одной колонкой?

источник

20:30пожаловаться #1

No Name in Moscow Spark

Gev

Поможет, если взять count от DF с одной колонкой?

Если в колумнарном формате хранится, то, в теории, должно помочь. Не знаю точно, как под капотом count себя ведёт. В любом случае, операция тяжёлая. А количество нужно точное?

источник

20:36пожаловаться #2

Gev in Moscow Spark

Да, нужно точно
Еще советуют предварительно сделать cash или persist но я не пойму в чем выгода
.rdd.persist().count()

источник

20:37пожаловаться #3

No Name in Moscow Spark

Gev

Да, нужно точно
Еще советуют предварительно сделать cash или persist но я не пойму в чем выгода
.rdd.persist().count()

Если точно, то, честно говоря, не знаю, что тут можно подсказать. В предварительном кэшировании вижу смысл только в случае, если требуется несколько раз это проделывать.

источник

20:47пожаловаться #4

Gev in Moscow Spark

Ну вот да. Про предварительный кэш понятно. Лано, надо избавляться от этого как то

источник

20:48пожаловаться #5

Алексей in Moscow Spark

если приблизительно, то можно было посчитать 1% сэмпле и умножить на 100

источник

20:58пожаловаться #6

No Name in Moscow Spark

Алексей

если приблизительно, то можно было посчитать 1% сэмпле и умножить на 100

Ну и countApprox ещё есть, правда, я им не пользовался, поэтому не знаю, будет ли какой-то буст. Все таки перегон df в rdd тоже может что-то неочевидно замедлить.

источник

21:01пожаловаться #7

Andrey Smirnov in Moscow Spark

No Name

С countApprox как то все не понятно, если поискать по чату, то должно найтись обсуждение его работы (точнее не работы).

источник

21:11пожаловаться #8

Gev in Moscow Spark

Что то и rdd.isEmpty() жудко прожорливый и медленный
Как хотя бы понять что DF не пустой лайтово

источник

21:29пожаловаться #9

Gev in Moscow Spark