Size: a a a

R language and Statistical data analysis

2020 May 07

ГД

Григорий Демин... in R language and Statistical data analysis
Но варианты с джойном на самом деле решают другую задачу, а не ту, которая в эталонном примере с циклом. Цикл сработает даже если в фильтрующем списке длина условий не кратна друг другу. list(a = c("a", "b", "c"), b = c("a", "b")) - джойн тут не сработает
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
кажется, тут кто-то работал с учебными гитхаб-репами
https://github.com/rundel/ghclass/
источник

a

aGricolaMZ in R language and Statistical data analysis
спасибо
источник

O

Oleh in R language and Statistical data analysis
Привет. Подскажите, кто разворачивал в банках R-скрипты, использующие большой объем данных портфеля, каким образом подключались к базам? Напр. из R скрипта через пакеты типа RODBC, или делали выгрузку в csv, потом загрузку в data.table. Может другие варианты?
источник

AP

Anton Pysanka in R language and Statistical data analysis
если много данных, целесообразно подключаться
источник

O

Oleh in R language and Statistical data analysis
Но очень долго идёт выгрузка через RODBC например. Чтоб выгрузить пару ГБ нужно было по оценке больше суток ждать
источник

AP

Anton Pysanka in R language and Statistical data analysis
использую RODBC потому что он простой и функционала пока хватает, но здесь говорили, что он отживает свое, как вариант можете попробовать использовать odbc, DBI или по чату поискать.

но вообще, как мне кажется, део тут может быть не всегда в объеме данных, но и в самом запросе – отладьте чтобы он выгружался быстрее, или если не получается/сложно средствами SQL проделать нужных манипуляций с данными, попробуйте сделать несколько запросов, а потом в R data.table-ом скрутить вкучу, вдруг быстрее будет
источник

O

Oleh in R language and Statistical data analysis
Anton Pysanka
использую RODBC потому что он простой и функционала пока хватает, но здесь говорили, что он отживает свое, как вариант можете попробовать использовать odbc, DBI или по чату поискать.

но вообще, как мне кажется, део тут может быть не всегда в объеме данных, но и в самом запросе – отладьте чтобы он выгружался быстрее, или если не получается/сложно средствами SQL проделать нужных манипуляций с данными, попробуйте сделать несколько запросов, а потом в R data.table-ом скрутить вкучу, вдруг быстрее будет
Спасибо
источник
2020 May 08

ГД

Григорий Демин... in R language and Statistical data analysis
Oleh
Но очень долго идёт выгрузка через RODBC например. Чтоб выгрузить пару ГБ нужно было по оценке больше суток ждать
Интересно, из какой базы выгружали? И какой был запрос... Пара гигабайт за сутки - чего-то ну очень медленно. У меня опыт с MySQL, Clickhouse, Microsoft SQL Server - таблицы в несколько миллионов строк (файл больше двух гигов точно) выгружаются за минуты, десятки минут. То есть проблема явно не в RODBC/odbc.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Oleh
Привет. Подскажите, кто разворачивал в банках R-скрипты, использующие большой объем данных портфеля, каким образом подключались к базам? Напр. из R скрипта через пакеты типа RODBC, или делали выгрузку в csv, потом загрузку в data.table. Может другие варианты?
работал в связке R+PostgreSQL, R+Clickhouse, выгрузка десятков и сотен миллионов строк занимает время не больше часа, в зависимости от запроса и количества колонок в таблице.  естественно, никаких промежуточных csv, сразу в рабочее окружение в R.
то есть, сутки ждать, чтобы выгрузить пару гб - это явно неправильно.


узких мест может быть много. RODBC вроде не очень быстрый сам по себе, лучше odbc или спец.пакеты типа RPostgreSQL). также проблемы могут быть в запросе и в архитетуре базы данных - если фильтрация не по полям индексов, то это правда может быть медленно. плюс сами настройки бд могут играть. например, если это боевая база, в которую параллельно происходит вставка-удаление-изменение данных, пусть даже в другие таблицы, то это тоже может влиять на производительность. и так далее.
источник

O

Oleh in R language and Statistical data analysis
Григорий Демин
Интересно, из какой базы выгружали? И какой был запрос... Пара гигабайт за сутки - чего-то ну очень медленно. У меня опыт с MySQL, Clickhouse, Microsoft SQL Server - таблицы в несколько миллионов строк (файл больше двух гигов точно) выгружаются за минуты, десятки минут. То есть проблема явно не в RODBC/odbc.
Microsoft SQL Server 2012.
Запрос - обычный селект транзакционной базы. Вроде бы неск. сот млн строк было в базе. В итоге решили выгружать в csv и потов вгружать в data.table.
Возможно, были какие-то ограничения по скорости внутри сети. Из-за этого так медленно.
источник

O

Oleh in R language and Statistical data analysis
Philipp Upravitelev
работал в связке R+PostgreSQL, R+Clickhouse, выгрузка десятков и сотен миллионов строк занимает время не больше часа, в зависимости от запроса и количества колонок в таблице.  естественно, никаких промежуточных csv, сразу в рабочее окружение в R.
то есть, сутки ждать, чтобы выгрузить пару гб - это явно неправильно.


узких мест может быть много. RODBC вроде не очень быстрый сам по себе, лучше odbc или спец.пакеты типа RPostgreSQL). также проблемы могут быть в запросе и в архитетуре базы данных - если фильтрация не по полям индексов, то это правда может быть медленно. плюс сами настройки бд могут играть. например, если это боевая база, в которую параллельно происходит вставка-удаление-изменение данных, пусть даже в другие таблицы, то это тоже может влиять на производительность. и так далее.
Ясно. Спасибо большое за информацию
источник

БА

Байкулов Антон... in R language and Statistical data analysis
Philipp Upravitelev
работал в связке R+PostgreSQL, R+Clickhouse, выгрузка десятков и сотен миллионов строк занимает время не больше часа, в зависимости от запроса и количества колонок в таблице.  естественно, никаких промежуточных csv, сразу в рабочее окружение в R.
то есть, сутки ждать, чтобы выгрузить пару гб - это явно неправильно.


узких мест может быть много. RODBC вроде не очень быстрый сам по себе, лучше odbc или спец.пакеты типа RPostgreSQL). также проблемы могут быть в запросе и в архитетуре базы данных - если фильтрация не по полям индексов, то это правда может быть медленно. плюс сами настройки бд могут играть. например, если это боевая база, в которую параллельно происходит вставка-удаление-изменение данных, пусть даже в другие таблицы, то это тоже может влиять на производительность. и так далее.
Вопрос: у меня R + PostgreSQL.

При подключении из R Studio вижу только базовые таблицы(данные  полученные через коннекторы к рекламным системам), а сформированные View не вижу. При этом подключаясь из Power BI я эти View отлично вижу.
источник

A

Andrey in R language and Statistical data analysis
ну так View - это не совсем таблица
источник

БА

Байкулов Антон... in R language and Statistical data analysis
Вопрос в возможности или невозможности получить её силами R.
источник

A

Andrey in R language and Statistical data analysis
источник

БА

Байкулов Антон... in R language and Statistical data analysis
Это я уже видел. На Гитхаб тоже был. И насколько я понял единственный способ - это написать SQl запрос, который не обязательно сработает=) Пойду попробую конечно
источник

БА

Байкулов Антон... in R language and Statistical data analysis
В совокупности наскрёб решение. Через один SQl запрос получаем список всех таблиц со статусом 'public' и потом через другой SQl получаем конкретную view.
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Байкулов Антон
Вопрос: у меня R + PostgreSQL.

При подключении из R Studio вижу только базовые таблицы(данные  полученные через коннекторы к рекламным системам), а сформированные View не вижу. При этом подключаясь из Power BI я эти View отлично вижу.
Невидимость в RStudio как-то мешает их использовать в запросах?
источник

БА

Байкулов Антон... in R language and Statistical data analysis
Напрямую=) Я же подключаюсь к чужой базе, где куча готовых View. Где какая я не знаю.

1. Нужен список
2. Нужно подключиться к конкретной.

Силами dbListTables(DBI) я увидеть эти View не сумел.
источник