Size: a a a

2021 February 11

AS

Andrey Smirnov in Moscow Spark
Артем Анистратов
Не просто не очевидно, а очень заметно замедлит.  По крайней мере так говорит карау.

+ сам проверял если ты неявно преобразуешь df к rdd во время фильтрации:
Df.filter( col(x) == 2) - здесь работает все как dataframe
Df.filter(_ ==2 ) - неявно преобразование к rdd

Производительность падает примерно в 2-3 раза в зависимости от консистентности данных
Я про approx говорил, там реализация что стартует отдельные потоки которые считают по партициям, и если партиции большие, то не успевает и возвращаются нули, в результате фигня
источник

А

Алексей in Moscow Spark
надо при вычисление из empty заменять smj/hj на nested loops и останавливать цикл после 1 соответствия
источник

А

Алексей in Moscow Spark
как сейчас сделано, все равно весь запрос просчитать надо, а потом выбрать 1 запись
источник

А

Алексей in Moscow Spark
правда хз как насчет распределения данных, хорошо бы только в 1 партиции это делать
источник

АА

Артем Анистратов... in Moscow Spark
Andrey Smirnov
Я про approx говорил, там реализация что стартует отдельные потоки которые считают по партициям, и если партиции большие, то не успевает и возвращаются нули, в результате фигня
А сори, мисанул по твоему сообщению, хотел ответить на сообщение выше твоего
источник

G

Gev in Moscow Spark
Похоже что в лоб что по лбу. Один хрен столько же стеджей
источник

G

Gev in Moscow Spark
Да количество уже не актуально. Мне сейчас надо только проверить что DF не пустой. И блин это занимает туеву кучу времени
источник

NN

No Name in Moscow Spark
Алексей
правда хз как насчет распределения данных, хорошо бы только в 1 партиции это делать
А если пустая попадется?
источник

А

Алексей in Moscow Spark
No Name
А если пустая попадется?
вот тоже думаю. Наверно, надо стартовать на всех партициях, но останавливаться после 1 нахождения в любой партиции
источник

А

Алексей in Moscow Spark
короче геморой
источник

А

Алексей in Moscow Spark
но oracle так сейчас делает: если задать limit 1, то план какой бы он изначально не был, будет заменен на NL однопоточный
источник

GP

Grigory Pomadchin in Moscow Spark
Gev
Да количество уже не актуально. Мне сейчас надо только проверить что DF не пустой. И блин это занимает туеву кучу времени
а колво партиций проверять тож долго будет? сделай чек что если партиций не 0 то считаешь емпти
источник

G

Gev in Moscow Spark
Grigory Pomadchin
а колво партиций проверять тож долго будет? сделай чек что если партиций не 0 то считаешь емпти
Так у меня dataframe.
источник

G

Gev in Moscow Spark
Он еще не приземлен. Только формируется
источник

GP

Grigory Pomadchin in Moscow Spark
а точн) там просто рдд сверху были)
источник

GP

Grigory Pomadchin in Moscow Spark
перепутал
источник

GP

Grigory Pomadchin in Moscow Spark
ну тогда да ничего тебе не остается
источник

GP

Grigory Pomadchin in Moscow Spark
можешь наверн закешить
источник

G

Gev in Moscow Spark
Дауж. Ну надо покумекать. Может как то логикой обыграю
источник

GP

Grigory Pomadchin in Moscow Spark
чтоб потом оно не пересчитывалось
источник