Size: a a a

R (язык программирования)

2020 July 31

S

Stan in R (язык программирования)
О класс, спасибо!
источник

S

Stan in R (язык программирования)
@AlexeySeleznev а, вот что не мог понять: когда я создаю аккаунт в Google Cloud — я же не должен буду платить денег за это? Я помню там есть какие стартовые 300$, а дальше что будет?
источник

AS

Alexey Seleznev in R (язык программирования)
Stan
@AlexeySeleznev а, вот что не мог понять: когда я создаю аккаунт в Google Cloud — я же не должен буду платить денег за это? Я помню там есть какие стартовые 300$, а дальше что будет?
300 баксов они дают на платные сервисы, например на bigquery.

За использование api с вас денегне возьмут
источник

S

Stan in R (язык программирования)
Alexey Seleznev
300 баксов они дают на платные сервисы, например на bigquery.

За использование api с вас денегне возьмут
Круто, тогда пойду по Вашей инструкции.
источник

S

Stan in R (язык программирования)
Кстати, для кого-то интересно: Хотя Гугл спрятал R в Colab'e, умельцы откопали короткий адрес для создания новых чистых ноутбуков: https://colab.fan/r

Точно не знаю, это чей-то расшаренный ноутбук или нет, но по ссылке можно будет активировать движок на R.

Полный адрес: https://colab.research.google.com/#create=true&language=r
источник

ОЛ

Олег Логинов... in R (язык программирования)
подскажите, пожалуйста, можно ли через R загрузить данные в БД Oracle? принцип такой же, как и с другими базами данных или есть отличия или особенности?
источник

AS

Alexander Semenov in R (язык программирования)
Я тут постил ссылку недавно.
источник

PU

Philipp Upravitelev in R (язык программирования)
Олег Логинов
подскажите, пожалуйста, можно ли через R загрузить данные в БД Oracle? принцип такой же, как и с другими базами данных или есть отличия или особенности?
насколько я помню, в целом почти также. там есть нюансы, типа несколько вредного коннектора/драйвера, но это мелочи, по большрму счету.

у меня в одном фрилансе заказчик использовал нативный консольный загрузчик оракла. типа так быстрее получалось намного. плюс еще какие-то бонусы были. то есть в R формировал команду для загрузчика, потом через system() его вызывал и грузил файл с диска в бд.
я не сильно лез в этот пайплайн, может быть оно и правда было лучше, чем просто из окружения R экспортировать данные. А, может, и нет. не проверял.
источник

IS

Ivan Struzhkov in R (язык программирования)
Слушайте вот раз зашел разговор за БД и  R - есть вопрос.
Существует ли способ надежно прерывать выполнение dbGetquery не руша саму сессию/job саму.
источник

PU

Philipp Upravitelev in R (язык программирования)
Ivan Struzhkov
Слушайте вот раз зашел разговор за БД и  R - есть вопрос.
Существует ли способ надежно прерывать выполнение dbGetquery не руша саму сессию/job саму.
я не нашел в свое время
может, правда, какие-то асинхронные запуски с джобами могут тут помочь, но я хз, не использовал
источник

IS

Ivan Struzhkov in R (язык программирования)
Я тоже не нашел. По факту приходится распихивать все значимое по джобам отдельным.
источник

AS

Alexander Semenov in R (язык программирования)
Я забыл, мы dbplyr тут обсуждали? Какой консенсус сложился: yay or nay?
источник

PU

Philipp Upravitelev in R (язык программирования)
Alexander Semenov
Я забыл, мы dbplyr тут обсуждали? Какой консенсус сложился: yay or nay?
я его мельком смотрел, и из того, что я понял - это просто обращение к таблицам в бд в тайди-синтаксисе. поправьте, если я ошибаюсь.
то есть, ни сложных запросов, ни оконных функций, ни cte, ни оптимизации. даже джойны вызывают вопросы, особенно если с условиями. не говоря уже о том, что временами бывают специфичные диалекты. например, я работаю сейчас в условиях, когда в where всегда должно быть ограничение по датам, и при этом between не включает правую дату.
источник

IS

Ivan Struzhkov in R (язык программирования)
Я чуть попробывал - мне не зашло. Тут может дело действительно в том, что когда более менее свободно пишешь на SQL неясно зачем нужено это.
Плюс у меня IDE с SQL всегда на втором мониторе.

А так согласен, функциональности не хватает. Результаты плохо прогнозируемы.
Вроде как в Jet brains обещали в плагине и в IDE для дата саенса (если будет она) подсветку синтаксиса SQL внутри R скриптов. Вообще заживем
источник

VV

Vladimir Volokhonsky in R (язык программирования)
Коллеги, я тут немного застрял, давно в это не вникал... Как мне из функции в чанк маркдауна выпустить одновременно htmlwidget и картинку ggplot?
Minimal example:

{r echo=FALSE, results='asis'}
library(ggplot2)
library(DT)

m<-function(x) {
 print(datatable(head(x)))
 g<-ggplot(x,aes(x=speed,y=dist)) + geom_point()
 print(g)
}

m(cars)
источник

VV

Vladimir Volokhonsky in R (язык программирования)
Пока что решил проблему через заворачивание в теглист и ggplotly, но хотелось бы как-то без плотли обойтись. Как завернуть чистый ggplot в виджет?

{r echo=FALSE, results='asis'}
library(ggplot2)
library(DT)
library(plotly)

m<-function(x) {
 g<-ggplot(x,aes(x=speed,y=dist)) + geom_point()
 res<-list(datatable(head(x)),ggplotly(g))
 htmltools::tagList(res)
}

m(cars)
источник
2020 August 01

E

EK479 in R (язык программирования)
Здравствуйте!
Подскажите, пожалуйста. у меня есть данные для построения линейной регрессии. Если все данные распределены нормально, то я могу строить модель так: цена=кв.метры*х1+раст.до метро*х2.
Если все переменные имеют skewness(фото), то модель будет такой:
log(цена)=log(кв.метры)*х1+log(раст.до метро)*х2.
Если же какая-то одна переменная имеет skewness, вне зависимости зависимая это или независимая переменная, то мы от этой переменной берем логарифм и строим лин. регрессию.
Правильно ли я понимаю, как применять логарифм в лин.регрессии?
источник

IS

Ivan Struzhkov in R (язык программирования)
В моем понимании в линейной регрессии есть одно требование к нормальности распределения - ошибок модели. И то на крайний случай любое симметричное распределение подойдет.
источник

IS

Ivan Struzhkov in R (язык программирования)
если ваша модель лучше работает с исходными данными берите исходные, если с логарифмами - можно и логарифмы взять  - но там сразу сложнее с интерпретацией. Типо узнали мы что логарифм  цены растет как логарифм растояния от метро уже менее понятно
источник

A

Artem in R (язык программирования)
EK479
Здравствуйте!
Подскажите, пожалуйста. у меня есть данные для построения линейной регрессии. Если все данные распределены нормально, то я могу строить модель так: цена=кв.метры*х1+раст.до метро*х2.
Если все переменные имеют skewness(фото), то модель будет такой:
log(цена)=log(кв.метры)*х1+log(раст.до метро)*х2.
Если же какая-то одна переменная имеет skewness, вне зависимости зависимая это или независимая переменная, то мы от этой переменной берем логарифм и строим лин. регрессию.
Правильно ли я понимаю, как применять логарифм в лин.регрессии?
Логарифм берете, если это улучшает фит(основная причина) и как правило логарифмируются финансовые показатели, как цена квартиры, поскольку для них переход от логнормального распределения к нормальному как правило улучшает модель в том смысле, что уменьшает гетероскедастичность => правильные доверительные интервалы. Нужно только помнить, что сравнивать R^2 модели с логарифмом в левой части и модели без логарифма там неправильно.

Еще можно включать логарифмы для изменения интерпретации, если всё делается для анализа качественных результатов о влиянии факторов. Тогда речь идет о процентных изменениях переменных вместо абсолютных.

Смотреть на распределения независимых переменных и пытаться сделать их нормальными обычно не имеет смысла, поскольку, как было сказано, важно только распределение ошибок, а ваши действия его нормальность не гарантируют. Плюс если наблюдений достаточно много, то работает цпт и тогда в этом еще меньше смысла.
источник