Телеграмм чат группы rlang

2020 July 31

S

Подпобности тут есть

https://m.habr.com/ru/post/488756/

Как работать с API Google Таблиц (Google Sheets API v4) на языке R с помощью нового пакета googlesheets4

Электронные таблицы по-прежнему остаются довольно популярным инструментом для работы с данными, а среди различных процессоров электронных таблиц наиболее популярными являются Google Таблицы....

О класс, спасибо!

источник

12:48пожаловаться #1

S

Stan in R (язык программирования)

@AlexeySeleznev а, вот что не мог понять: когда я создаю аккаунт в Google Cloud — я же не должен буду платить денег за это? Я помню там есть какие стартовые 300$, а дальше что будет?

источник

12:51пожаловаться #2

AS

Alexey Seleznev in R (язык программирования)

Stan

@AlexeySeleznev а, вот что не мог понять: когда я создаю аккаунт в Google Cloud — я же не должен буду платить денег за это? Я помню там есть какие стартовые 300$, а дальше что будет?

300 баксов они дают на платные сервисы, например на bigquery.

За использование api с вас денегне возьмут

источник

12:52пожаловаться #3

S

Stan in R (язык программирования)

Alexey Seleznev

300 баксов они дают на платные сервисы, например на bigquery.

За использование api с вас денегне возьмут

Круто, тогда пойду по Вашей инструкции.

источник

12:53пожаловаться #4

S

Stan in R (язык программирования)

Кстати, для кого-то интересно: Хотя Гугл спрятал R в Colab'e, умельцы откопали короткий адрес для создания новых чистых ноутбуков: https://colab.fan/r

Точно не знаю, это чей-то расшаренный ноутбук или нет, но по ссылке можно будет активировать движок на R.

Полный адрес: https://colab.research.google.com/#create=true&language=r

Google

Google Colaboratory

источник

12:54пожаловаться #5

ОЛ

Олег Логинов... in R (язык программирования)

подскажите, пожалуйста, можно ли через R загрузить данные в БД Oracle? принцип такой же, как и с другими базами данных или есть отличия или особенности?

источник

13:13пожаловаться #6

AS

Alexander Semenov in R (язык программирования)

Я тут постил ссылку недавно.

источник

13:41пожаловаться #7

PU

Philipp Upravitelev in R (язык программирования)

Олег Логинов

подскажите, пожалуйста, можно ли через R загрузить данные в БД Oracle? принцип такой же, как и с другими базами данных или есть отличия или особенности?

насколько я помню, в целом почти также. там есть нюансы, типа несколько вредного коннектора/драйвера, но это мелочи, по большрму счету.

у меня в одном фрилансе заказчик использовал нативный консольный загрузчик оракла. типа так быстрее получалось намного. плюс еще какие-то бонусы были. то есть в R формировал команду для загрузчика, потом через system() его вызывал и грузил файл с диска в бд.
я не сильно лез в этот пайплайн, может быть оно и правда было лучше, чем просто из окружения R экспортировать данные. А, может, и нет. не проверял.

источник

13:41пожаловаться #8

IS

Ivan Struzhkov in R (язык программирования)

Слушайте вот раз зашел разговор за БД и R - есть вопрос.
Существует ли способ надежно прерывать выполнение dbGetquery не руша саму сессию/job саму.

источник

13:56пожаловаться #9

PU

Philipp Upravitelev in R (язык программирования)

Ivan Struzhkov

Слушайте вот раз зашел разговор за БД и R - есть вопрос.
Существует ли способ надежно прерывать выполнение dbGetquery не руша саму сессию/job саму.

я не нашел в свое время
может, правда, какие-то асинхронные запуски с джобами могут тут помочь, но я хз, не использовал

источник

13:57пожаловаться #10

IS

Ivan Struzhkov in R (язык программирования)

Я тоже не нашел. По факту приходится распихивать все значимое по джобам отдельным.

источник

13:58пожаловаться #11

AS

Alexander Semenov in R (язык программирования)

Я забыл, мы dbplyr тут обсуждали? Какой консенсус сложился: yay or nay?

источник

14:18пожаловаться #12

PU

Philipp Upravitelev in R (язык программирования)

Alexander Semenov

Я забыл, мы dbplyr тут обсуждали? Какой консенсус сложился: yay or nay?

я его мельком смотрел, и из того, что я понял - это просто обращение к таблицам в бд в тайди-синтаксисе. поправьте, если я ошибаюсь.
то есть, ни сложных запросов, ни оконных функций, ни cte, ни оптимизации. даже джойны вызывают вопросы, особенно если с условиями. не говоря уже о том, что временами бывают специфичные диалекты. например, я работаю сейчас в условиях, когда в where всегда должно быть ограничение по датам, и при этом between не включает правую дату.

источник

14:44пожаловаться #13

IS

Ivan Struzhkov in R (язык программирования)

Я чуть попробывал - мне не зашло. Тут может дело действительно в том, что когда более менее свободно пишешь на SQL неясно зачем нужено это.
Плюс у меня IDE с SQL всегда на втором мониторе.

А так согласен, функциональности не хватает. Результаты плохо прогнозируемы.
Вроде как в Jet brains обещали в плагине и в IDE для дата саенса (если будет она) подсветку синтаксиса SQL внутри R скриптов. Вообще заживем

источник

14:55пожаловаться #14

VV

Vladimir Volokhonsky in R (язык программирования)

Коллеги, я тут немного застрял, давно в это не вникал... Как мне из функции в чанк маркдауна выпустить одновременно htmlwidget и картинку ggplot?
Minimal example:

{r echo=FALSE, results='asis'}
library(ggplot2)
library(DT)

m<-function(x) {
  print(datatable(head(x)))
  g<-ggplot(x,aes(x=speed,y=dist)) + geom_point()
  print(g)
}

m(cars)

источник

22:57пожаловаться #15

VV

Vladimir Volokhonsky in R (язык программирования)

Пока что решил проблему через заворачивание в теглист и ggplotly, но хотелось бы как-то без плотли обойтись. Как завернуть чистый ggplot в виджет?

{r echo=FALSE, results='asis'}
library(ggplot2)
library(DT)
library(plotly)

m<-function(x) {
  g<-ggplot(x,aes(x=speed,y=dist)) + geom_point()
  res<-list(datatable(head(x)),ggplotly(g))
  htmltools::tagList(res)
}

m(cars)

источник

23:09пожаловаться #16

2020 August 01

E

EK479 in R (язык программирования)

Здравствуйте!
Подскажите, пожалуйста. у меня есть данные для построения линейной регрессии. Если все данные распределены нормально, то я могу строить модель так: цена=кв.метры*х1+раст.до метро*х2.
Если все переменные имеют skewness(фото), то модель будет такой:
log(цена)=log(кв.метры)*х1+log(раст.до метро)*х2.
Если же какая-то одна переменная имеет skewness, вне зависимости зависимая это или независимая переменная, то мы от этой переменной берем логарифм и строим лин. регрессию.
Правильно ли я понимаю, как применять логарифм в лин.регрессии?

источник

14:50пожаловаться #17

IS

Ivan Struzhkov in R (язык программирования)

В моем понимании в линейной регрессии есть одно требование к нормальности распределения - ошибок модели. И то на крайний случай любое симметричное распределение подойдет.

источник

15:15пожаловаться #18

IS

Ivan Struzhkov in R (язык программирования)

если ваша модель лучше работает с исходными данными берите исходные, если с логарифмами - можно и логарифмы взять - но там сразу сложнее с интерпретацией. Типо узнали мы что логарифм цены растет как логарифм растояния от метро уже менее понятно

источник

15:18пожаловаться #19

A

Artem in R (язык программирования)

EK479

Здравствуйте!
Подскажите, пожалуйста. у меня есть данные для построения линейной регрессии. Если все данные распределены нормально, то я могу строить модель так: цена=кв.метры*х1+раст.до метро*х2.
Если все переменные имеют skewness(фото), то модель будет такой:
log(цена)=log(кв.метры)*х1+log(раст.до метро)*х2.
Если же какая-то одна переменная имеет skewness, вне зависимости зависимая это или независимая переменная, то мы от этой переменной берем логарифм и строим лин. регрессию.
Правильно ли я понимаю, как применять логарифм в лин.регрессии?

Логарифм берете, если это улучшает фит(основная причина) и как правило логарифмируются финансовые показатели, как цена квартиры, поскольку для них переход от логнормального распределения к нормальному как правило улучшает модель в том смысле, что уменьшает гетероскедастичность => правильные доверительные интервалы. Нужно только помнить, что сравнивать R^2 модели с логарифмом в левой части и модели без логарифма там неправильно.

Еще можно включать логарифмы для изменения интерпретации, если всё делается для анализа качественных результатов о влиянии факторов. Тогда речь идет о процентных изменениях переменных вместо абсолютных.

Смотреть на распределения независимых переменных и пытаться сделать их нормальными обычно не имеет смысла, поскольку, как было сказано, важно только распределение ошибок, а ваши действия его нормальность не гарантируют. Плюс если наблюдений достаточно много, то работает цпт и тогда в этом еще меньше смысла.

источник

15:37пожаловаться #20