Size: a a a

R language and Statistical data analysis

2019 October 24

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Philipp Upravitelev
кстати, коллеги, кто подскажет, как скрыть кусок текста в rmarkdown? по типу ката
я пользовался тэгом <details>, но он, как оказалось, конфликтует с htmltools::includeHTML()
а осмысленный аналог что-то найти не могу
Я чистым html+css скрывал. Оборачивал в див с классом spoiler. Типа такого: https://stackoverflow.com/questions/44171017/how-can-i-to-show-message-from-specified-clicked-spoiler-with-just-css
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Очень не хватает в маркдаун-разметке спойлеров таких,да. Но я не знал про details
источник

GD

G Dash in R language and Statistical data analysis
Всем привет.
Кто-нибудь кто работает с пакетом bigrquery может подсказат?
Как можно отдельной таблице в bigquery удалить определенное количество строк по датам ? Например с 12-10-2019 по 23-10-2019  ?
С функций для удаления всей таблицы все понятно.
Но задача в том, чтобы удалять из таблицы данные за определенный период и после описывать свежие данные за этот период.
источник

OB

Oleg Basmanov in R language and Statistical data analysis
Скачать, средствами r удалить, загрузить обратно
источник

GD

G Dash in R language and Statistical data analysis
Oleg Basmanov
Скачать, средствами r удалить, загрузить обратно
Всю таблицу ?
А если там несколько миллионов строк (3 000 000)
Каждый раз скачивать этот объем данных и загружать обратно?
источник

OB

Oleg Basmanov in R language and Statistical data analysis
Стоило заранее об этом побеспокоиться и не грузить а одну таблицу а делать партицирование
источник

GD

G Dash in R language and Statistical data analysis
Oleg Basmanov
Стоило заранее об этом побеспокоиться и не грузить а одну таблицу а делать партицирование
Это было сделано специально, так как к таблице подключен power bi.
Если он выгружает данные из нескольких таблиц а потом сводит их вместе и обрабатывает, то у него срабатывают ограничения на 1000 строк при обработке.
В случае если таблица одна, то никаких проблем с ограничениями при объединении таблиц не возникает.
источник

OB

Oleg Basmanov in R language and Statistical data analysis
там ограничение не на 1000 строк а тысячу таблиц. котрое легко обходится, если старые годы, которые уже не обновляются, объединять в одну таблицу
источник

GD

G Dash in R language and Statistical data analysis
Oleg Basmanov
там ограничение не на 1000 строк а тысячу таблиц. котрое легко обходится, если старые годы, которые уже не обновляются, объединять в одну таблицу
Странно, я пытался свести и обработать в power bi именно две таблицы. И произошло это ограничение.
Причем оно срабатывает только тэкогда bpi подключается к bigquery, а когда источник данных обычные csv файлы проблем не возникает.

Суть в том, что я и объединил таблицы старых годов в одну и в итоге у меня получился объем данных с 3000 000 строк .
Данные разбиты по дням, так как идет сравнение по датам год к году и по отдельным срезам
источник

OB

Oleg Basmanov in R language and Statistical data analysis
Что то неправильно сделано
источник

OB

Oleg Basmanov in R language and Statistical data analysis
3кк это ерунда а не объем
источник

GD

G Dash in R language and Statistical data analysis
Oleg Basmanov
3кк это ерунда а не объем
Согласен, что ерунда, тут вопрос как дальше с этим работать.
Если каждый раз выгрузить этот объем данных для обработки в r то этот объем будет ощутим(да и не правильно это).

Поэтому идея в том, чтобы удалять эти строки из таблицы в самой bigquery, без выгрузки.
И загружать(додписывать) обновленные данные за этот период.

Вопрос в том как с помощью пакета bugrqury удалять не всю таблицу а определенные строки по датам
источник

OB

Oleg Basmanov in R language and Statistical data analysis
это неправильное использование BQ, и теперь вместо того чтобы сделать все нормально пытаешься сделать костыль. а нужно вернуться и сделать нормально
источник

GD

G Dash in R language and Statistical data analysis
По твоему правильно будет каждый раз переписывать существующие таблицы?
источник

OB

Oleg Basmanov in R language and Statistical data analysis
SELECT
 date,
 sourceMedium,
 touchpoint,
 sessions
FROM
 TABLE_DATE_RANGE([project:dataset.analyticsDashboardData_],TIMESTAMP('2019-01-01'),CURRENT_TIMESTAMP()),
 [project:dataset.analyticsDashboardData2017],
 [project:dataset.analyticsDashboardData2018]
вот пример. данные за три года. текущий год разбит по дням. 2017 и 2018 объединены в одну таблицу.
когда нужно переписать данные за некоторые дни, переписываются таблицы конкретных дней
источник

GD

G Dash in R language and Statistical data analysis
Эта скрипт для пакета bigrquery ( если для то подскажи плз какая функция) или SQL запрос в самой bigquery?
источник

OB

Oleg Basmanov in R language and Statistical data analysis
R тут вообще не причем. это Legacy SQL запрос в big query в котором объединяются нужные мне данные
источник

GD

G Dash in R language and Statistical data analysis
Понял.
Я для R ищу решение.
источник

OB

Oleg Basmanov in R language and Statistical data analysis
источник

OB

Oleg Basmanov in R language and Statistical data analysis
перегрузи свои данные в BQ c нормальным партицированием и при загрузке в PBI используй такой же запрос
источник