Телеграмм чат группы moscowspark страница 551

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

938 membersпожаловаться на группу

2021 February 11

G

Gev in Moscow Spark

Это ж 3.0.1. У меня пока 2.4.5

источник

22:24пожаловаться #1

NN

No Name in Moscow Spark

Да уже. Блин. А чем тогда проверить DF

Ну проверяй тогда наличие хотя бы одной строки, без конверта в rdd

источник

22:24пожаловаться #2

G

Gev in Moscow Spark

.limit(1).collect().isEmpty ?

источник

22:25пожаловаться #3

GP

Grigory Pomadchin in Moscow Spark

Это ж 3.0.1. У меня пока 2.4.5

@since 2.4.0

источник

22:25пожаловаться #4

NN

No Name in Moscow Spark

Ну проверяй тогда наличие хотя бы одной строки, без конверта в rdd

А в 2.4 нет у датасетов разве isEmpty?

источник

22:25пожаловаться #5

GP

Grigory Pomadchin in Moscow Spark

.limit(1).collect().isEmpty ?

тогда уж take(1)

источник

22:25пожаловаться #6

GP

Grigory Pomadchin in Moscow Spark

если ты глянешь в реализацию isEmpty RDD она самым оптимальным способам реализована

источник

22:26пожаловаться #7

GP

Grigory Pomadchin in Moscow Spark

вопрос только датасетовый быстрее будет или нет

источник

22:26пожаловаться #8

GP

Grigory Pomadchin in Moscow Spark

мне кажется нет

источник

22:26пожаловаться #9

GP

Grigory Pomadchin in Moscow Spark

у тебя в любом случае проверка ветвится - или нет партиций или в первой партиции нет элементов

источник

22:26пожаловаться #10

NN

No Name in Moscow Spark

Grigory Pomadchin

мне кажется нет

Читал ругательные комментарии насчёт него на стековерфлоу)

источник

22:26пожаловаться #11

GP

Grigory Pomadchin in Moscow Spark

Читал ругательные комментарии насчёт него на стековерфлоу)

не читал)

источник

22:27пожаловаться #12

GP

Grigory Pomadchin in Moscow Spark

ну наверняка одинаково работают

источник

22:27пожаловаться #13

GP

Grigory Pomadchin in Moscow Spark

а ну смотри

источник

22:27пожаловаться #14

GP

Grigory Pomadchin in Moscow Spark

def isEmpty: Boolean = withAction("isEmpty", limit(1).groupBy().count().queryExecution) { plan =>
plan.executeCollect().head.getLong(0) == 0
}

источник

22:27пожаловаться #15

GP

Grigory Pomadchin in Moscow Spark

источник

22:27пожаловаться #16

GP

Grigory Pomadchin in Moscow Spark

@3.0.1

def isEmpty: Boolean = withAction("isEmpty", select().queryExecution) { plan =>
plan.executeTake(1).isEmpty
}

источник

22:28пожаловаться #17

GP

Grigory Pomadchin in Moscow Spark

ну короче быстрее не сделаете

источник

22:28пожаловаться #18

АА

Артем Анистратов... in Moscow Spark

Если у тебя есть статически возрастающий не наловый id, то взять можно взять максимальный-минимальный. Но вот с точки зоения производительности хз, нужно сначала отсортировать набор данных🤔

источник

22:29пожаловаться #19

АА

Артем Анистратов... in Moscow Spark

С countApprox как то все не понятно, если поискать по чату, то должно найтись обсуждение его работы (точнее не работы).

Не просто не очевидно, а очень заметно замедлит. По крайней мере так говорит карау.

+ сам проверял если ты неявно преобразуешь df к rdd во время фильтрации:
Df.filter( col(x) == 2) - здесь работает все как dataframe
Df.filter(_ ==2 ) - неявно преобразование к rdd

Производительность падает примерно в 2-3 раза в зависимости от консистентности данных

источник

22:29пожаловаться #20