Телеграмм чат группы PBI

Size: a a a

Power BI Group RU

2315 membersпожаловаться на группу

2020 July 16

Aleh Kalinichau in Power BI Group RU

Саша Ч

Можно почитать про vertipaq engine

да, смотрел давно ролик маркуса про это

источник

16:25пожаловаться #1

Aleh Kalinichau in Power BI Group RU

Саша Ч

При импорте Power bi с одной стороны данные сожмет, вопрос того, насколько хорошо их бд жала, конечно,
Но с другой стороны, для быстрой работы данных в оперативке этой самой оперативки нужен запас. Есть разные оценки, но разброс 50-150%. Если загрузим в память ровнехонько столько данных, сколько есть памяти, или даже чуть меньше, работать будет очень плохо и медленно

я просто начал с вопроса, связан ли используемый диск как-то с этим. оказалось, что всё идёт на ram как раз

источник

16:26пожаловаться #2

Aleh Kalinichau in Power BI Group RU

Саша Ч

а если виртуалки подкинуть, то решит вопрос?

источник

16:39пожаловаться #3

Maxim Zelensky in Power BI Group RU

Aleh Kalinichau

и поэтому возвращаемся к моему вопросу: размер выгружаемой БД ограничен размером доступной оперативки? если оперативки хоть на байт меньше, чем размер БД (ну имеется ввиду итоговый для целей pbi. там же разное хранение. разный учёт. поэтому усредним, что это уже размер того, что принял у себя pbi), то данные не загрузятся?

Десктоп будет либо свопить на диск слишком большую модель, либо отваливаться, если не шмог. При попытке закинуть модель чуть менее 1Гб в сервис, загрузить, возможно, удастся, обновить - нет. В премиум лимит выше

источник

16:40пожаловаться #4

Александр in Power BI Group RU

источник

16:45пожаловаться #5

Александр in Power BI Group RU

источник

16:45пожаловаться #6

Александр in Power BI Group RU

Ожидали такой результат?

источник

16:45пожаловаться #7

Aleh Kalinichau in Power BI Group RU

Александр

Ожидали такой результат?

я так и голосовал)

источник

16:46пожаловаться #8

Maxim Zelensky in Power BI Group RU

Вопрос какой был?

источник

16:46пожаловаться #9

Александр in Power BI Group RU

Компетенции, которые хотели бы развить соискатели (что им не хватает) и каких компетенций не хватает работодателям в соискателях

источник

16:48пожаловаться #10

Александр in Power BI Group RU

Поэтому я постоянно и говорю давайте обсуждать архитектуру и профессиональную подготовку данных

источник

16:49пожаловаться #11

Александр in Power BI Group RU

А все как-то сливаются..

источник

16:49пожаловаться #12

Александр in Power BI Group RU

Один @isterkhov получил аж 2 звёзды Суворова :)

источник

16:50пожаловаться #13

Aleh Kalinichau in Power BI Group RU

Что за звёзды?

источник

16:52пожаловаться #14

Александр in Power BI Group RU

Игорь Стерхов

Тут уже сугубое ИМХО. Биг дату в принципе можно обрабатывать как в классических SQL хранилищах, так и в вот в этом всем. Если данные норм структурированы то имхо лучше сразу строить нормальное ХД, MPP Субд (а если в 6НФ, то можно брать и не столь уж структурированные данные) норм справятся с любыми обьемами при грамотном проектировании. А если данные не структурированы, или проблемы с проектированием - то приходится крутить Apache Spark, Hadoop, и прочее. Такое ИМХО, тема не совсем моя.

Выбрать между кубами MD или Tabular легко, просто делайте в том в чем умеете, результат в любом случае будет лучше, чем делать в том в чем не умеешь). Если навык одинаковый и там и там (0)), или просто смотрите на перспективу, то берите Tabular, он современный, он развивается, он инмемори, разрабатывать гора-аздо в нем проще и быстрей, и при этом результат не страдает, не надо заморачиваться с дизайном агрегаций и прочим. Язык DAX, имхо, более понятен чем MDX, есть оч. удобный инструмент DAX Studio, отладка запросов делается гораздо приятней чем в MDX, и DAX используется в SSAS и в PBI, плюс можно спихнуть часть разработки на аналитиков, тот же PBI позволят писать собственные меры при прямом подключении к Tab кубу. В целом связка PBI+Tabular богата на возможности - можно реализовать incremental update в кубе, без всяких PBI Premium. Tabular куб опять же многое прощает, но до определенного предела, потом все равно надо вникать в оптимизацию. И несмотря на ограниченность обьемами оперативной памяти и лицензией, запихнуть туда можно очень много, при грамотном проектировании, запихивают до десятков миллиардов строк в пределе.

Ссылки почитать.. да еще valuable.. читайте книжки итальянце в части моделирования SSAS Tabular, не ошибетесь )

источник

16:53пожаловаться #15

Александр in Power BI Group RU

Игорь Стерхов

О, моя тема :)
В общем, различие oltp/olap это основа, которая за последние 20+ лет особо и не изменилась
Всегда, вне зависимости от BI системы, данные для отчетов всегда стремились денормализовать вплоть до 1й плоской таблицы.
Но сам вопрос шире, и тут нужны годы, чтобы не только понять теорию, но и освоить, набить шишек на практике.

Можете попробовать пройти курсы для подготовки к экзаменам МС по разработке хранилищ данных и моделей данных.
К примеру курсы Специалиста, от Самородова, - для начинающих очень неплохо, мне в свое время понравилось, дается некий фундамент, подход Инмона, Кимбалла, отличие olap и oltp, построение всяких SCD2, паттерны захвата измененных данных и тд
Книжки итальянцев тоже хорошо раскрывают тонкости проектирования ХД и olap, причем старые книжки навроде "Expert Cube Development with SSAS Multidimensional Models" - раскрывают подходы к построению ХД в тч.. хотя новые наверное тоже )
Далее - уже практика и самостоятельное изучение. чтение статей, посещение конференций, вебинаров и тд. Подходов очень много, Кимбалл и Инмон - только основа, кроме них есть подходы гибридные, а есть вообще никак с ними не связанные, к примеру - на 6НФ (anchor modelling), плюс еще делают гибридную OLTP/OLAP базу, когда поверх OLTP базы строятся Nonclustered columnstore indexes для целей аналитики, плюс есть MPP базы для сверхбольших данных. Очень много всего, и это почти никак не структурировано концептуально, тк все очень специфично, структурированы только основы.

Teradata же, это Massive parallel processing БД, для реально больших объемов (десятки, сотни миллиардов и больше строк). На практике я дела с ними не имел, но опыт коллег мониторил. И тут подход в части BI уже другой, тут отказываются от какого либо импорта данных в средство BI или олап кубов ( ну либо только если есть возможность импортировать совсем сверхагрегированные данные), - от всего этого отказываются, а работают с помощью прямого подключения, Direct Query, т.е. БД должна отрабатывать все запросы к данным, фильтрацию, агрегацию - на лету, и понятно, что для этого необходимо специально проектировать хранилище, чтобы запросы максимально и равномерно параллелились между нодами. И соответственно куча заморочек, специфичных именно для MPP СУБД.

источник

16:53пожаловаться #16

Dmitrii Solovev in Power BI Group RU

@iashell - такой вопрос, как знатоку кастомных форматов - Можно ли в Power BI десятичные дроби отображать как "обычные" - например - 2.5 показать как 2 1/2 и т.п.

источник

16:56пожаловаться #17

Konstantin Kadikin in Power BI Group RU

Dmitrii Solovev

А пользовательский формат не позволяет?)

источник

17:03пожаловаться #18

Konstantin Kadikin in Power BI Group RU

Александр

Ожидали такой результат?

все в архитекторы, да

источник