Телеграмм чат группы moscowspark страница 495

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

951 membersпожаловаться на группу

2020 December 24

e

er@essbase.ru in Moscow Spark

Примерный алгоритм
Если есть возврат с клиента , но нет продаж в этом периоде то этот возврат аллоцировать на продуктовую группу а если и там нет продаж то на группу где есть этот клиент

источник

12:37пожаловаться #1

e

er@essbase.ru in Moscow Spark

т.е. в начале бежим по массиву - собираем все "потеряшки " на агрегаты
потом проходимся по потеряшкам и все распределяем

проблема только в том , что очень сильно не хочется писать тупые формулы для каждого индикатора , ну или хоть как то уменьшить эту боль

источник

12:43пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

т.е. в начале бежим по массиву - собираем все "потеряшки " на агрегаты
потом проходимся по потеряшкам и все распределяем

проблема только в том , что очень сильно не хочется писать тупые формулы для каждого индикатора , ну или хоть как то уменьшить эту боль

оконные функции + case when в основе решения, как генерализовать до произвольного показателя пока не понимаю, но вообще, если описать их как граф, то может получится выстроить формулу из вершин и связей

источник

13:04пожаловаться #3

ИК

Иван Калининский... in Moscow Spark

Ну это задача не совсем про кубы. Это просто большая числомолотилка по сторнированию , начислению и аллокациям. Логика достаточно линейная.

Это я, конечно, очень расплывчатый совет дал. Вообще, решения из чата надо рассматривать внимательно, ведь никто не в курсе постановки задачи. Понятно, что это пилот, но должно быть проектирование, аналитическая работа, не просто же так решили из одного сделать другое))

источник

13:11пожаловаться #4

NG

Nikolay Gradsky in Moscow Spark

Всем привет! Подскажите пожалуйста касательно компрессии: есть одна таблица, размером 14тб, в неё ежедневно пишутся данные(один день - одна партиция). Формат - orc. Пишу спарком в директорию, не в хайв, использую snappy компрессию. Метрики по таблице строятся редко. Появилась идея переписать партиции из этой таблицы с уровнем компрессии zlib вместо snappy.
Вопрос: Может быть есть еще каки-то варианты сжатия, кроме этих двух, которые максимально сожмут орк и при этом оставят возможность читать данные через хайв? если получится освободить хотя-бы 1-2 терабайта, будет уже хорошо.

источник

14:20пожаловаться #5

ME

Mikhail Epikhin in Moscow Spark

Nikolay Gradsky

Всем привет! Подскажите пожалуйста касательно компрессии: есть одна таблица, размером 14тб, в неё ежедневно пишутся данные(один день - одна партиция). Формат - orc. Пишу спарком в директорию, не в хайв, использую snappy компрессию. Метрики по таблице строятся редко. Появилась идея переписать партиции из этой таблицы с уровнем компрессии zlib вместо snappy.
Вопрос: Может быть есть еще каки-то варианты сжатия, кроме этих двух, которые максимально сожмут орк и при этом оставят возможность читать данные через хайв? если получится освободить хотя-бы 1-2 терабайта, будет уже хорошо.

zstd?

источник

14:22пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

bzip2 всё жмёт! Поддерживается ли в hive (версия?) не знаю

источник

14:24пожаловаться #7

Д

Дмитрий in Moscow Spark

Nikolay Gradsky

Всем привет! Подскажите пожалуйста касательно компрессии: есть одна таблица, размером 14тб, в неё ежедневно пишутся данные(один день - одна партиция). Формат - orc. Пишу спарком в директорию, не в хайв, использую snappy компрессию. Метрики по таблице строятся редко. Появилась идея переписать партиции из этой таблицы с уровнем компрессии zlib вместо snappy.
Вопрос: Может быть есть еще каки-то варианты сжатия, кроме этих двух, которые максимально сожмут орк и при этом оставят возможность читать данные через хайв? если получится освободить хотя-бы 1-2 терабайта, будет уже хорошо.

Вы главное сортируйте данные правильно перед записью в орк. Получалось уменьшать размер более чем в 3 раза.

источник

14:26пожаловаться #8

ME

Mikhail Epikhin in Moscow Spark

Вы главное сортируйте данные правильно перед записью в орк. Получалось уменьшать размер более чем в 3 раза.

+1

источник

14:29пожаловаться #9

NG

Nikolay Gradsky in Moscow Spark

Вы главное сортируйте данные правильно перед записью в орк. Получалось уменьшать размер более чем в 3 раза.

Подскажите пожалуйста, каким принципом руководствоваться?

источник

14:31пожаловаться #10

Д

Дмитрий in Moscow Spark

Очень похожие данные (строки) друг за другом. К примеру, если это посещение сайта пользователями за день - то есть смысл сортировать по пользователю, т. к. часть данных(ip адрес к примеру) будет одинаково и сожмет лучше. Можете просто поэксперементировать с дневной партицией с разной сортировкой, что лучше сжимает то и оставляйте. Но принцип в целом тот же.

источник

14:38пожаловаться #11

NG

Nikolay Gradsky in Moscow Spark

Премного благодарен, сейчас буду пробовать)

источник

14:41пожаловаться #12

T

T in Moscow Spark

Привет, запускаю тренироваться xgboost на gpu через h20-sparkling-water на g4dn.12xlarge инсансе (NVIDIA T4 x4). Наблюдая через nvidia-smi заметил что он утилизирует только 1 видюху вместо 4х, кто-нибудь сталкивался с таким поведением? Или это я неправильно интерпретировал вывод от nvidia-smi

В общем оказалось все на много проще, это баг в текущей версии sparklig water если запускать на nightly релизе все работает как надо

источник

14:48пожаловаться #13

T

T in Moscow Spark

В общем оказалось все на много проще, это баг в текущей версии sparklig water если запускать на nightly релизе все работает как надо

версия пакету нужна не ниже чем 3.34.0.1-1.33-2.4, для 3 версии спарка к сожелению билда пока нету

источник

14:49пожаловаться #14

А

Алексей in Moscow Spark

Кто-нибудь знает причину, почему параметр shuffle partition нельзя устанавливать для конкретного запроса или его части, по аналогии с repartition/coalesce? Мне кажется, это было бы гораздо удобней и гибче, чем для сессии

источник

22:05пожаловаться #15

N

Nikolay in Moscow Spark

Кто-нибудь знает причину, почему параметр shuffle partition нельзя устанавливать для конкретного запроса или его части, по аналогии с repartition/coalesce? Мне кажется, это было бы гораздо удобней и гибче, чем для сессии

Интересный вопрос.Давайте обсудим. Наример, вы установили для одного DS в 17, а для другого в 19, а потом их джойните.

источник

22:10пожаловаться #16

А

Алексей in Moscow Spark

Nikolay

Интересный вопрос.Давайте обсудим. Наример, вы установили для одного DS в 17, а для другого в 19, а потом их джойните.

сейчас параметр сессии так же можно установить после создания 1 DS и 2 DS, тогда применится последний. В этом случае тоже можно применить одно из правил: больше/меньше или последнее

источник

22:14пожаловаться #17

N

Nikolay in Moscow Spark

а где его хранить тогда. это значение?

источник

22:37пожаловаться #18

N

Nikolay in Moscow Spark

сейчас оно в своеобразной глобальной переменной. надо придумать куда его положить тогда вместо конфига и что бы в нужный момент оно там было.. и что бы этот нужный момент согласовывался с другими местами.

источник

22:38пожаловаться #19

2020 December 25

NN

No Name in Moscow Spark

@pomadchin что-то новенькое

источник

00:21пожаловаться #20