Size: a a a

2021 February 11

G

Gev in Moscow Spark
Поможет, если взять count от DF с одной колонкой?
источник

NN

No Name in Moscow Spark
Gev
Поможет, если взять count от DF с одной колонкой?
Если в колумнарном формате хранится, то, в теории, должно помочь. Не знаю точно, как под капотом count себя ведёт. В любом случае, операция тяжёлая. А количество нужно точное?
источник

G

Gev in Moscow Spark
Да, нужно точно
Еще советуют предварительно сделать cash или persist но я не пойму в чем выгода
.rdd.persist().count()
источник

NN

No Name in Moscow Spark
Gev
Да, нужно точно
Еще советуют предварительно сделать cash или persist но я не пойму в чем выгода
.rdd.persist().count()
Если точно, то, честно говоря, не знаю, что тут можно подсказать. В предварительном кэшировании вижу смысл только в случае, если требуется несколько раз это проделывать.
источник

G

Gev in Moscow Spark
Ну вот да. Про предварительный кэш понятно. Лано, надо избавляться от этого как то
источник

А

Алексей in Moscow Spark
если приблизительно, то можно было посчитать 1% сэмпле и умножить на 100
источник

NN

No Name in Moscow Spark
Алексей
если приблизительно, то можно было посчитать 1% сэмпле и умножить на 100
Ну и countApprox ещё есть, правда, я им не пользовался, поэтому не знаю, будет ли какой-то буст. Все таки перегон df в rdd тоже может что-то неочевидно замедлить.
источник

AS

Andrey Smirnov in Moscow Spark
No Name
Ну и countApprox ещё есть, правда, я им не пользовался, поэтому не знаю, будет ли какой-то буст. Все таки перегон df в rdd тоже может что-то неочевидно замедлить.
С countApprox как то все не понятно, если поискать по чату, то должно найтись обсуждение его работы (точнее не работы).
источник

G

Gev in Moscow Spark
Что то и rdd.isEmpty() жудко прожорливый и медленный
Как хотя бы понять что DF не пустой лайтово
источник

G

Gev in Moscow Spark
Интересно, если попробовать limit(1).rdd.isEmpty()
источник

NN

No Name in Moscow Spark
Gev
Что то и rdd.isEmpty() жудко прожорливый и медленный
Как хотя бы понять что DF не пустой лайтово
При конвертации в rdd теряются оптимизации тангстена(или не его, не помню), могут и в таких вещах себя проявлять.
источник

NN

No Name in Moscow Spark
Gev
Что то и rdd.isEmpty() жудко прожорливый и медленный
Как хотя бы понять что DF не пустой лайтово
Поищу, интересно
источник

GP

Grigory Pomadchin in Moscow Spark
Gev
Что то и rdd.isEmpty() жудко прожорливый и медленный
Как хотя бы понять что DF не пустой лайтово
да, посмотри на реализацию isEmpty, она медленная
источник

G

Gev in Moscow Spark
Да уже. Блин. А чем тогда проверить DF
источник

GP

Grigory Pomadchin in Moscow Spark
Gev
Да уже. Блин. А чем тогда проверить DF
ну если у тебя DF то на DFах есть isEmpty тоже
источник

GP

Grigory Pomadchin in Moscow Spark
было ж там чтото такое
источник

G

Gev in Moscow Spark
Нев
источник

G

Gev in Moscow Spark
И небыло
источник

GP

Grigory Pomadchin in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
источник