Size: a a a

2021 April 06

GP

Grigory Pomadchin in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Grigory Pomadchin
Да я ж звал тя ...
А я-то тут при чем? ))
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Grigory Pomadchin
Да я ж звал тя ...
Ты перепутал Пашу с Холден )
источник

GP

Grigory Pomadchin in Moscow Spark
Pavel Klemenkov
Круто! А на Moscow Spark Холден выступать отказалась ))
Матей Захария не пошёл кстати, но прислал людей взамен
источник

АЖ

Андрей Жуков... in Moscow Spark
Паша Финкельштейн
Ты перепутал Пашу с Холден )
источник

PK

Pavel Klemenkov in Moscow Spark
Grigory Pomadchin
Матей Захария не пошёл кстати, но прислал людей взамен
Он плитку продает теперь, некогда ему
источник

GP

Grigory Pomadchin in Moscow Spark
Ага
источник

АЖ

Андрей Жуков... in Moscow Spark
Pavel Klemenkov
Он плитку продает теперь, некогда ему
многослойную
источник

ПФ

Паша Финкельштейн... in Moscow Spark
восемь нормалей от глаза?
источник

ИК

Иван Калининский... in Moscow Spark
Иван Калининский
Продолжаю размышления, может есть абстракция типа RDD => Seq[RDD], и можно на каждый RDD применить полученную ShuffleDependency? Но в конечном итоге они снова должны стать одним RDD, что их Union-ом склеивать?
Ну ладно, предположим, получилось сделать Seq[RDD], но стейдж всё равно останется один, значит, нужен соответствующий план, чтобы каталист знал, как его проходить. Получается, надо писать практически всю реализацию, и всё для того, чтобы не раскидывать одновременно сотни терабайт по дискам на экзекуторах
источник

ИК

Иван Калининский... in Moscow Spark
Иван Калининский
Ну ладно, предположим, получилось сделать Seq[RDD], но стейдж всё равно останется один, значит, нужен соответствующий план, чтобы каталист знал, как его проходить. Получается, надо писать практически всю реализацию, и всё для того, чтобы не раскидывать одновременно сотни терабайт по дискам на экзекуторах
Походу, надо попробовать чекпоинтить ShuffledRowRDD во временную директорию,  и посмотреть хотя бы, что будет с Shuffle Write
источник

ИК

Иван Калининский... in Moscow Spark
Иван Калининский
Походу, надо попробовать чекпоинтить ShuffledRowRDD во временную директорию,  и посмотреть хотя бы, что будет с Shuffle Write
До эксперимента дело так и не дошло, но, судя по коду, шафл не уменьшится, потому что пока запись последнего шафл-файла не закончена, в каждой секции  RDD могут появиться новые записи. А значит, в той же джобе невозможно начать новый стейдж, сколько ни чекпоинти RDD в этой джобе
Есть мысль, что надо смотреть в сторону External shuffle service
источник

JF

Jane Frankenstein in Moscow Spark
привет 🙂 помогите, пожалуйста, с запросом. А то уже запуталась. Есть такой датафрейм, как из всех дупликатов оставить только тот, у кого state NY. Ключ по name, department. Спасибо 🙏
источник

JF

Jane Frankenstein in Moscow Spark
источник

JF

Jane Frankenstein in Moscow Spark
источник

JF

Jane Frankenstein in Moscow Spark
а нужно получить:
источник

JF

Jane Frankenstein in Moscow Spark
источник

JF

Jane Frankenstein in Moscow Spark
James Sales дублирован
источник

А

Андрей in Moscow Spark
Row_number over?
источник

AK

Alena Korogodova in Moscow Spark
И кейсом обмазаться))
источник