Size: a a a

2021 July 05

KR

Kagermanov Ramazan in Moscow Spark
Так и делал
Пытался давать обдуманные названия переменных
Когда уже дошло до 30+ изменений, понял, что фантазии начинает не хватать🙄
источник

GP

Grigory Pomadchin in Moscow Spark
)))
источник

GP

Grigory Pomadchin in Moscow Spark
Может группировать их как-то? Или переменные не нужны
источник

GP

Grigory Pomadchin in Moscow Spark
есть ещё всякие конструкты использовать которые ‘мутабельность’ позволят иметь
источник

GP

Grigory Pomadchin in Moscow Spark
типа Refа котового
источник

АК

Александр Кунцевич... in Moscow Spark
Есть несколько вариантов: 1. Зависает на этапе Pending, 2. Завершает рассчитывать блокнот и показывает результат, но задачу в Ярне не убивает.
источник

KR

Kagermanov Ramazan in Moscow Spark
Старые переменные не нужны, только последняя версия
Думал мб делать по типу
val test = df
val test1 = new_df
val test = new_df
источник

GP

Grigory Pomadchin in Moscow Spark
а зачем они тогда
покажи пример кода
источник

N

Nail in Moscow Spark
Почему вы не используете цепочку вызовов? Зачем сохранять промежуточные датафреймы в переменные?
источник

KR

Kagermanov Ramazan in Moscow Spark
Увы, показать реальный пример не могу, в дороге
Есть df
Провели некие манипуляции с данными и Нужен новый с изменениями колонок по каким-либо условиям
источник

N

Nail in Moscow Spark
val df = spark.read.filter().withColumn(). и т.д.
источник

KR

Kagermanov Ramazan in Moscow Spark
Цепочка вызовов работает лишь в тех случаях, когда необходимо разом поменять все данные, в моем случае не получится
источник

N

Nail in Moscow Spark
Сохраняйте только то что используется
источник

KR

Kagermanov Ramazan in Moscow Spark
А если мне на основе df необходимо вычислить данные, а потом на основе вычисленных данных поменять данные в df?
источник

N

Nail in Moscow Spark
Ну в этом случае исходный датафрейм используется два раза, само собой придется. Я про остальные случаи.
источник

N

Nail in Moscow Spark
Я к тому, что с такой проблемой не сталкивался, чтобы прямо очень много переменных приходилось вводить
источник

GP

Grigory Pomadchin in Moscow Spark
ну это уже извращенная логика, да тут тяжело будет
источник

GP

Grigory Pomadchin in Moscow Spark
ну тут редьюсы видишь посередине
источник

GP

Grigory Pomadchin in Moscow Spark
можно конечно через реф или стейтом; тогда будет и чисто и переменные называть не придется; ну если очень хочется
источник

KR

Kagermanov Ramazan in Moscow Spark
А как на практике поступают?
Если мне надо брать начальный датафрейм и дополнять его исходя из манипуляций с этим же датафреймом
Изначально порядка 15 колонок, половина из них значения по умолчанию, которые надо заполнить исходя из присутствующих в таблице данных
Плюс ещё дополнительные колонки, которые так же заполнять нужно исходя из существующих данных в таблице
источник