Size: a a a

2020 May 04

А

Алексей in Moscow Spark
Renarde
я такое делал в спарке, 15к case запросов - нужно побольше памяти на драйвер насыпать и норм.
спс, попробую
источник

АЖ

Андрей Жуков... in Moscow Spark
Renarde
я такое делал в спарке, 15к case запросов - нужно побольше памяти на драйвер насыпать и норм.
есть подозрение, что анализатор будет 3 часа думать, а потом спарк 10 минут считать
источник

А

Алексей in Moscow Spark
Андрей Жуков
есть подозрение, что анализатор будет 3 часа думать, а потом спарк 10 минут считать
если сделать pivot без case, то анализатору будет проще?
источник

t

tenKe in Moscow Spark
Алексей
если сделать pivot без case, то анализатору будет проще?
не получится словарь в спарке сделать и избежать тысяч кейсов?
источник

А

Алексей in Moscow Spark
tenKe
не получится словарь в спарке сделать и избежать тысяч кейсов?
это как? можно подробней?
источник

t

tenKe in Moscow Spark
примерно также как ты в питоне словарь делаешь
источник

t

tenKe in Moscow Spark
если твою логику можно описать словарем и доставанием значения по ключу, то это наверное самый правильный вариант
источник

А

Алексей in Moscow Spark
цель разверунть строки в таблице клиентов в много-много колонок для каждого клиента (как сайнтисты любят). Не очень понимаю как тут словарь/ассоциативный массив может помочь..
источник

t

tenKe in Moscow Spark
а, ну пивот тогда
источник

R

Renarde in Moscow Spark
Алексей
цель разверунть строки в таблице клиентов в много-много колонок для каждого клиента (как сайнтисты любят). Не очень понимаю как тут словарь/ассоциативный массив может помочь..
я делал именно такую штуку, из фактовой таблицы генерировал развертку на таблицу id + features. Pivot мне не подошел потому что мне нужны были дополнительные кастомные функции агрегации и фильтрации, то есть я генерировал такие кейсы:
- SUM(CASE WHEN C1="something" then X else null)
- CUSTOM_AGG(CASE WHEN C1="something" then X else null)

И так далее. Если хочется не перегружать анализатор, можно нарезать список кейсов на чанки, и с каждого чанка запускать отдельный фрейм, сбрасывать его на диск - и потом джойнить по ключу
источник

А

Алексей in Moscow Spark
Renarde
я делал именно такую штуку, из фактовой таблицы генерировал развертку на таблицу id + features. Pivot мне не подошел потому что мне нужны были дополнительные кастомные функции агрегации и фильтрации, то есть я генерировал такие кейсы:
- SUM(CASE WHEN C1="something" then X else null)
- CUSTOM_AGG(CASE WHEN C1="something" then X else null)

И так далее. Если хочется не перегружать анализатор, можно нарезать список кейсов на чанки, и с каждого чанка запускать отдельный фрейм, сбрасывать его на диск - и потом джойнить по ключу
спс, понял. Если будет плохо работать, попробую побить колонки на порции.
Вот думаю может еще jar файл сгенерить и запускать в бриксе уже его? Также запрос не будет анализироваться, а будет сразу запускаться?
источник

AA

Anton Alekseev in Moscow Spark
Алексей
цель разверунть строки в таблице клиентов в много-много колонок для каждого клиента (как сайнтисты любят). Не очень понимаю как тут словарь/ассоциативный массив может помочь..
Например через мапу - https://stackoverflow.com/a/33868315
источник

R

Renarde in Moscow Spark
Алексей
спс, понял. Если будет плохо работать, попробую побить колонки на порции.
Вот думаю может еще jar файл сгенерить и запускать в бриксе уже его? Также запрос не будет анализироваться, а будет сразу запускаться?
это утверждение спорное, честно говоря, насколько я помню physical plan все равно построится в runtime
источник

R

Renarde in Moscow Spark
но я тоже не уверен, вроде была какая-то возможность кешить большие планы, но она только для Dataset API:
https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-checkpointing.html
источник

1

1204 in Moscow Spark
это что за спам?
источник

GP

Grigory Pomadchin in Moscow Spark
1204
это что за спам?
прям активизировались в последнее время
источник

D

Dima Kubitskiy in Moscow Spark
у крипто миллионеров кризис, пытаются втянуть ну хоть кого-нибудь в их схемы)
источник

С

Сюткин in Moscow Spark
Dima Kubitskiy
у крипто миллионеров кризис, пытаются втянуть ну хоть кого-нибудь в их схемы)
Наоборот, они помогают заработать в кризис
источник

С

Сюткин in Moscow Spark
источник
2020 May 05

GT

Gennady Timofeev in Moscow Spark
Коллеги, можно ли локальный спарк подружить с авс дата каталогом, чтобы как метастор был? Из спарк шела хочу таблицы создавать и наполнять
источник