Size: a a a

R (язык программирования)

2021 January 24

VS

Vladislav Shufinskiy in R (язык программирования)
Марк
Привет) Подскажите, пжл, относительному новичку лучше сначала полноценно освоить набор tidy пакетов (dplyr, tidyr и тд), и уже потом data.table, или можно сразу в data.table идти?
Думаю да. tidy вселенная, как мне кажется, понятнее, удобнее и более приятна глазу. Хотя я начинал именно с data.table.
источник

М

Марк in R (язык программирования)
Vladislav Shufinskiy
Думаю да. tidy вселенная, как мне кажется, понятнее, удобнее и более приятна глазу. Хотя я начинал именно с data.table.
Спасибо за ответ!) Data.table привлекает тем, что он работает реально быстрее.
источник

М

Марк in R (язык программирования)
Марк
Спасибо за ответ!) Data.table привлекает тем, что он работает реально быстрее.
А тут теперь еще вебинары Филиппа постоянно в закладках лежат 😂
источник

VS

Vladislav Shufinskiy in R (язык программирования)
Марк
Спасибо за ответ!) Data.table привлекает тем, что он работает реально быстрее.
Если ты планируешь работать с данными такого объёма, где эта разница реальна заметна, то тогда действительно можно начинать с data.table. А на условном iris её не видно.
источник

М

Марк in R (язык программирования)
Vladislav Shufinskiy
Если ты планируешь работать с данными такого объёма, где эта разница реальна заметна, то тогда действительно можно начинать с data.table. А на условном iris её не видно.
Что такое iris?
источник

VS

Vladislav Shufinskiy in R (язык программирования)
источник

VS

Vladislav Shufinskiy in R (язык программирования)
Это я к тому, что на небольших данных разница в скорости незаметна
источник

М

Марк in R (язык программирования)
Vladislav Shufinskiy
Это я к тому, что на небольших данных разница в скорости незаметна
cпасибо за ответ)
источник

a

aGricolaMZ in R (язык программирования)
Переслано от aGricolaMZ
#12 следующий скRинкаст про tidy будет сегодня в воскресенье 2021.01.24 в 16:00 по МСК

https://zoom.us/j/94858080264?pwd=R1FZbGRXVmxsbXJEa3gwdXlKanV5QT09
источник

AS

Alexander Semenov in R (язык программирования)
Тем временем родной соцфак продолжает катиться по наклонной: сначала с питоном спутались, теперь Шафир ушёл...
источник

E

Eкатерина in R (язык программирования)
Добрый день. Вопрос по логистической регрессии. Моя регрессия должна показать уйдет клиент или нет в зависимости от локации. Всего 4 локации. Я вижу, что локация 1 стат значимо  не отличается от базовой локации (то, что в интерсепте), как и локация 3. Нам нужно исключить эти локации из модели. Мой вопрос: как это правильно сделать?
Мое предположение было таким: закодировать так: если это локация базовая или первая или третья, то 0. если это локация 2, то 1. И после этого снова запускать логист.регрессию. Так нужно делать?
источник

E

Eкатерина in R (язык программирования)
Или вообще делать ничего не нужно с уровнями этого фактора, а оставлять модель в таком виде? Я попробовала сделать, как описано мной выше. После этого провела anova, где видно, что модели очень мало различаются.
Прошу прощения, если мой вопрос не относится к основной теме чата
источник

A

Andrey in R (язык программирования)
Eкатерина
Добрый день. Вопрос по логистической регрессии. Моя регрессия должна показать уйдет клиент или нет в зависимости от локации. Всего 4 локации. Я вижу, что локация 1 стат значимо  не отличается от базовой локации (то, что в интерсепте), как и локация 3. Нам нужно исключить эти локации из модели. Мой вопрос: как это правильно сделать?
Мое предположение было таким: закодировать так: если это локация базовая или первая или третья, то 0. если это локация 2, то 1. И после этого снова запускать логист.регрессию. Так нужно делать?
для этого нужно построить confusion matrix на тестовых данных для начала. Коэффициенты модели с ее прогнозирующей способностью связаны примерно никак
источник

a

aGricolaMZ in R (язык программирования)
Забегайте на огонек
источник

a

aGricolaMZ in R (язык программирования)
Переслано от aGricolaMZ
#12 следующий скRинкаст про tidy будет сегодня в воскресенье 2021.01.24 в 16:00 по МСК

https://zoom.us/j/94858080264?pwd=R1FZbGRXVmxsbXJEa3gwdXlKanV5QT09
источник

V

Vladimir in R (язык программирования)
Добрый день!

Есть библиотеки, что расходы выгружать из tiktok?
источник

АК

Артём Клевцов... in R (язык программирования)
Vladimir
Добрый день!

Есть библиотеки, что расходы выгружать из tiktok?
google://r+tiktok+api
источник

DK

Dm Kb in R (язык программирования)
Eкатерина
Добрый день. Вопрос по логистической регрессии. Моя регрессия должна показать уйдет клиент или нет в зависимости от локации. Всего 4 локации. Я вижу, что локация 1 стат значимо  не отличается от базовой локации (то, что в интерсепте), как и локация 3. Нам нужно исключить эти локации из модели. Мой вопрос: как это правильно сделать?
Мое предположение было таким: закодировать так: если это локация базовая или первая или третья, то 0. если это локация 2, то 1. И после этого снова запускать логист.регрессию. Так нужно делать?
1. Обычно в логистической регрессии работают с численными переменными-предикторами, а не факторными/номинальными. Использование последних уже является логистической регрессией с контрастами или что-то в этом роде
2. Соответсвенно Intercept - это параметр регрессии на константу и к кодированию отношения не имеет
3. Переменные можно просто исключить из модели. Собственно т.к. они не значимы, то и удаление/добавление таки переменных не должно сильно влиять на модель. Ваша Anova об этом и говорит.
4. Для того чтобы параметры регресси можно было анализировать на существенность то рекоменудется делать центрирование и нормирование. Тогда можно будет наглядно увидеть, что одни параметры существенные, а другие нет. Существенность и значимость - это разные вещи, естественно.
5. Обычно исключение переменных из модели линейной регрессии делается для того чтобы исключить мультиколлиниарность т.е. исключить многократное влияние одной экзогенной переменной
источник

a

aGricolaMZ in R (язык программирования)
Переслано от aGricolaMZ
#12 Видео с встречи 2021.01.24 и код
источник

IY

Igor Yakubovskiy in R (язык программирования)
Dm Kb
1. Обычно в логистической регрессии работают с численными переменными-предикторами, а не факторными/номинальными. Использование последних уже является логистической регрессией с контрастами или что-то в этом роде
2. Соответсвенно Intercept - это параметр регрессии на константу и к кодированию отношения не имеет
3. Переменные можно просто исключить из модели. Собственно т.к. они не значимы, то и удаление/добавление таки переменных не должно сильно влиять на модель. Ваша Anova об этом и говорит.
4. Для того чтобы параметры регресси можно было анализировать на существенность то рекоменудется делать центрирование и нормирование. Тогда можно будет наглядно увидеть, что одни параметры существенные, а другие нет. Существенность и значимость - это разные вещи, естественно.
5. Обычно исключение переменных из модели линейной регрессии делается для того чтобы исключить мультиколлиниарность т.е. исключить многократное влияние одной экзогенной переменной
я бы немного поправил
Исключение делается для того, чтобы снизить сложность модели и сохранить несмещенность оценок.
Кстати не понял про численные и факторные / номинальные переменные. Что значит констрасты? Мне казалось, что отличий вообще никак с линейной регрессией в этом плане - какие экзогенные хочешь, такие и берешь.
источник