Телеграмм чат группы moscowspark страница 327

цель разверунть строки в таблице клиентов в много-много колонок для каждого клиента (как сайнтисты любят). Не очень понимаю как тут словарь/ассоциативный массив может помочь..

источник

12:46пожаловаться #8

t

tenKe in Moscow Spark

а, ну пивот тогда

источник

12:46пожаловаться #9

R

Renarde in Moscow Spark

Алексей

цель разверунть строки в таблице клиентов в много-много колонок для каждого клиента (как сайнтисты любят). Не очень понимаю как тут словарь/ассоциативный массив может помочь..

я делал именно такую штуку, из фактовой таблицы генерировал развертку на таблицу id + features. Pivot мне не подошел потому что мне нужны были дополнительные кастомные функции агрегации и фильтрации, то есть я генерировал такие кейсы:
- SUM(CASE WHEN C1="something" then X else null)
- CUSTOM_AGG(CASE WHEN C1="something" then X else null)

И так далее. Если хочется не перегружать анализатор, можно нарезать список кейсов на чанки, и с каждого чанка запускать отдельный фрейм, сбрасывать его на диск - и потом джойнить по ключу

источник

12:52пожаловаться #10

А

Алексей in Moscow Spark

Renarde

я делал именно такую штуку, из фактовой таблицы генерировал развертку на таблицу id + features. Pivot мне не подошел потому что мне нужны были дополнительные кастомные функции агрегации и фильтрации, то есть я генерировал такие кейсы:
- SUM(CASE WHEN C1="something" then X else null)
- CUSTOM_AGG(CASE WHEN C1="something" then X else null)

И так далее. Если хочется не перегружать анализатор, можно нарезать список кейсов на чанки, и с каждого чанка запускать отдельный фрейм, сбрасывать его на диск - и потом джойнить по ключу

спс, понял. Если будет плохо работать, попробую побить колонки на порции.
Вот думаю может еще jar файл сгенерить и запускать в бриксе уже его? Также запрос не будет анализироваться, а будет сразу запускаться?

источник

12:54пожаловаться #11

AA

Anton Alekseev in Moscow Spark

Алексей

цель разверунть строки в таблице клиентов в много-много колонок для каждого клиента (как сайнтисты любят). Не очень понимаю как тут словарь/ассоциативный массив может помочь..

Например через мапу - https://stackoverflow.com/a/33868315

Stack Overflow

Spark, Scala, DataFrame: create feature vectors

I have a DataFrame that looks like follow:
userID, category, frequency
1,cat1,1
1,cat2,3
1,cat9,5
2,cat4,6
2,cat9,2
2,cat10,1
3,cat1,5
3,cat7,16
3,cat8,2
The number of distinct categories is 10, ...

источник

12:54пожаловаться #12

R

Renarde in Moscow Spark

Алексей

спс, понял. Если будет плохо работать, попробую побить колонки на порции.
Вот думаю может еще jar файл сгенерить и запускать в бриксе уже его? Также запрос не будет анализироваться, а будет сразу запускаться?

это утверждение спорное, честно говоря, насколько я помню physical plan все равно построится в runtime

источник

15:48пожаловаться #13

R

Renarde in Moscow Spark

но я тоже не уверен, вроде была какая-то возможность кешить большие планы, но она только для Dataset API:
https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-checkpointing.html

jaceklaskowski.gitbooks.io

Dataset Checkpointing · The Internals of Spark SQL

источник

15:49пожаловаться #14

1

1204 in Moscow Spark

это что за спам?

источник

21:27пожаловаться #15

GP

Grigory Pomadchin in Moscow Spark

1204