Телеграмм чат группы moscowspark страница 552

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

938 membersпожаловаться на группу

2021 February 11

AS

Andrey Smirnov in Moscow Spark

Артем Анистратов

Не просто не очевидно, а очень заметно замедлит. По крайней мере так говорит карау.

+ сам проверял если ты неявно преобразуешь df к rdd во время фильтрации:
Df.filter( col(x) == 2) - здесь работает все как dataframe
Df.filter(_ ==2 ) - неявно преобразование к rdd

Производительность падает примерно в 2-3 раза в зависимости от консистентности данных

Я про approx говорил, там реализация что стартует отдельные потоки которые считают по партициям, и если партиции большие, то не успевает и возвращаются нули, в результате фигня

источник

22:32пожаловаться #1

А

Алексей in Moscow Spark

надо при вычисление из empty заменять smj/hj на nested loops и останавливать цикл после 1 соответствия

источник

22:34пожаловаться #2

А

Алексей in Moscow Spark

как сейчас сделано, все равно весь запрос просчитать надо, а потом выбрать 1 запись

источник

22:34пожаловаться #3

А

Алексей in Moscow Spark

правда хз как насчет распределения данных, хорошо бы только в 1 партиции это делать

источник

22:35пожаловаться #4

АА

Артем Анистратов... in Moscow Spark

Я про approx говорил, там реализация что стартует отдельные потоки которые считают по партициям, и если партиции большие, то не успевает и возвращаются нули, в результате фигня

А сори, мисанул по твоему сообщению, хотел ответить на сообщение выше твоего

источник

22:36пожаловаться #5

G

Gev in Moscow Spark

Похоже что в лоб что по лбу. Один хрен столько же стеджей

источник

22:38пожаловаться #6

G

Gev in Moscow Spark

Да количество уже не актуально. Мне сейчас надо только проверить что DF не пустой. И блин это занимает туеву кучу времени

источник

22:40пожаловаться #7

NN

No Name in Moscow Spark

правда хз как насчет распределения данных, хорошо бы только в 1 партиции это делать

А если пустая попадется?

источник

22:42пожаловаться #8

А

Алексей in Moscow Spark

А если пустая попадется?

вот тоже думаю. Наверно, надо стартовать на всех партициях, но останавливаться после 1 нахождения в любой партиции

источник

22:43пожаловаться #9

А

Алексей in Moscow Spark

короче геморой

источник

22:43пожаловаться #10

А

Алексей in Moscow Spark

но oracle так сейчас делает: если задать limit 1, то план какой бы он изначально не был, будет заменен на NL однопоточный

источник

22:44пожаловаться #11

GP

Grigory Pomadchin in Moscow Spark

Да количество уже не актуально. Мне сейчас надо только проверить что DF не пустой. И блин это занимает туеву кучу времени

а колво партиций проверять тож долго будет? сделай чек что если партиций не 0 то считаешь емпти

источник

22:48пожаловаться #12

G

Gev in Moscow Spark

Grigory Pomadchin

а колво партиций проверять тож долго будет? сделай чек что если партиций не 0 то считаешь емпти

Так у меня dataframe.

источник

22:50пожаловаться #13

G

Gev in Moscow Spark

Он еще не приземлен. Только формируется

источник

22:50пожаловаться #14

GP

Grigory Pomadchin in Moscow Spark

а точн) там просто рдд сверху были)

источник

22:50пожаловаться #15

GP

Grigory Pomadchin in Moscow Spark

перепутал

источник

22:50пожаловаться #16

GP

Grigory Pomadchin in Moscow Spark

ну тогда да ничего тебе не остается

источник

22:50пожаловаться #17

GP

Grigory Pomadchin in Moscow Spark

можешь наверн закешить

источник

22:51пожаловаться #18

G

Gev in Moscow Spark

Дауж. Ну надо покумекать. Может как то логикой обыграю

источник

22:51пожаловаться #19

GP

Grigory Pomadchin in Moscow Spark

чтоб потом оно не пересчитывалось

источник

22:51пожаловаться #20