Телеграмм чат группы moscowspark страница 710

Увы, показать реальный пример не могу, в дороге
Есть df
Провели некие манипуляции с данными и Нужен новый с изменениями колонок по каким-либо условиям

источник

17:25пожаловаться #10

Nail in Moscow Spark

val df = spark.read.filter().withColumn(). и т.д.

источник

17:26пожаловаться #11

Kagermanov Ramazan in Moscow Spark

Цепочка вызовов работает лишь в тех случаях, когда необходимо разом поменять все данные, в моем случае не получится

источник

17:26пожаловаться #12

Nail in Moscow Spark

Сохраняйте только то что используется

источник

17:26пожаловаться #13

Kagermanov Ramazan in Moscow Spark

А если мне на основе df необходимо вычислить данные, а потом на основе вычисленных данных поменять данные в df?

источник

17:27пожаловаться #14

Nail in Moscow Spark

Ну в этом случае исходный датафрейм используется два раза, само собой придется. Я про остальные случаи.

источник

17:28пожаловаться #15

Nail in Moscow Spark

Я к тому, что с такой проблемой не сталкивался, чтобы прямо очень много переменных приходилось вводить

источник

17:29пожаловаться #16

Grigory Pomadchin in Moscow Spark

ну это уже извращенная логика, да тут тяжело будет

источник

17:32пожаловаться #17

Grigory Pomadchin in Moscow Spark

ну тут редьюсы видишь посередине

источник

17:32пожаловаться #18

Grigory Pomadchin in Moscow Spark

можно конечно через реф или стейтом; тогда будет и чисто и переменные называть не придется; ну если очень хочется

источник

17:36пожаловаться #19

Kagermanov Ramazan in Moscow Spark

А как на практике поступают?
Если мне надо брать начальный датафрейм и дополнять его исходя из манипуляций с этим же датафреймом
Изначально порядка 15 колонок, половина из них значения по умолчанию, которые надо заполнить исходя из присутствующих в таблице данных
Плюс ещё дополнительные колонки, которые так же заполнять нужно исходя из существующих данных в таблице

источник

17:37пожаловаться #20