Size: a a a

2018 November 22

AA

Anton Alekseev in Moscow Spark
Спасибо
источник

SK

Sergey Karpiy in Moscow Spark
Anton Alekseev
Спасибо
На здоровье
источник
2018 November 23

PK

Pavel Klemenkov in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Moscow Spark #6 уже совсем скоро, 14 декабря в офисе МегаФона https://moscowspark.timepad.ru/event/860257/
источник

ЛР

Лев Рагулин... in Moscow Spark
источник

AA

Anton Alekseev in Moscow Spark
Ребята, подскажите такую манипуляцию как добавить последовательные индексы на куждую строку в спарке оптимально можно сделать только так?: https://forums.databricks.com/questions/8180/how-to-merge-two-data-frames-column-wise-in-apache.html
источник

AA

Anton Alekseev in Moscow Spark
пример задачи в панде:
>>> df
  0   1
0  1   2
1  3   4
2  5   6
3  7   8
4  9  10
>>> df[2] = range(0, df.shape[0])
>>> df
  0   1  2
0  1   2  0
1  3   4  1
2  5   6  2
3  7   8  3
4  9  10  4
источник

AA

Anton Alekseev in Moscow Spark
Джойнить через monotonically_increasing_id() выглядит крайне не безопасно, как по мне
источник

AS

Andrey Smirnov in Moscow Spark
Anton Alekseev
Джойнить через monotonically_increasing_id() выглядит крайне не безопасно, как по мне
там есть присказака что они должны быть одного размера, но даже в этом случае колво партиций может не совпадать и тогда будет бред
источник

AA

Anton Alekseev in Moscow Spark
Andrey Smirnov
там есть присказака что они должны быть одного размера, но даже в этом случае колво партиций может не совпадать и тогда будет бред
вот, да я как раз об этом.
источник

AS

Andrey Smirnov in Moscow Spark
import org.apache.spark.sql.expressions.Window;
df.withColumn("id",row_number().over(Window.orderBy("a column")))
можно так
источник

AS

Andrey Smirnov in Moscow Spark
я делал через zipWithIndex, но это не однострочник :)
источник

AA

Anton Alekseev in Moscow Spark
Andrey Smirnov
import org.apache.spark.sql.expressions.Window;
df.withColumn("id",row_number().over(Window.orderBy("a column")))
можно так
это java/scala?
источник

AA

Anton Alekseev in Moscow Spark
окей поищу аналог
источник

AA

Anton Alekseev in Moscow Spark
для py
источник

R

Rogoley in Moscow Spark
тоже самое, только импорт окна будет из другого модуля
источник

AA

Anton Alekseev in Moscow Spark
Rogoley
тоже самое, только импорт окна будет из другого модуля
ок, спасибо.
источник

R

Rogoley in Moscow Spark
from pyspark.sql.window import Window
источник

R

Rogoley in Moscow Spark
orderBy("a column") и тут колонку нужную указать
источник

D

Dima in Moscow Spark
Можно сделать через Union+group by
источник