Size: a a a

R (язык программирования)

2021 April 28

AS

Alexander Semenov in R (язык программирования)
Плакался тут месяц-другой назад про то, что prophet на мак не устанавливается. А тут вдруг взял и установился. Вроде радикально ничего не менял и не обновлял. Чюдеса...
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Опять порекламирую джет брейнс, у них вроде есть плагин для разных темплейтов под гитигнор
источник

AS

Alexander Semenov in R (язык программирования)
Экое еретичество.
источник

ДВ

Дмитрий Володин... in R (язык программирования)
типа для R проектов в игнор отправлять .Rhistory, .Rprofile
источник

IS

Ilya Shutov in R (язык программирования)
Если надо, то почистить можно:
https://rtyley.github.io/bfg-repo-cleaner/
источник

ДВ

Дмитрий Володин... in R (язык программирования)
О, прикольно, спасибо. Но последнее время вроде такого не случалось у нас, к счастью, только нужные файлы и папки в репах))
источник

IS

Ilya Shutov in R (язык программирования)
иногда credentials могут проскочить ненароком в историю. особо актуально если над проектом команда работает + переключения между проектами частые.
источник

IS

Ilya Shutov in R (язык программирования)
1-ый однозначно да. Причем вписать запреты на все, что только может появиться. .html, .rds, .zip, .qs, .... и целые директории  /data /.Rproj.user и подобное. чтобы не словить случайно мусор. неважно, от себя или от коллег
2-ой -- это удобно для быстрого клона на другой машине. сам по себе он пустой, фактически, это фантик. но названия проектов будут в rstudio идентичными
источник

AS

Alexander Semenov in R (язык программирования)
Спасибо
источник

IS

Ilya Shutov in R (язык программирования)
1. Если для вычислений надо тащить весь объем, а не свертку, то что-то не так в консерватории. В чем тогда смысл BigQuery или иной БД?
2. Если такие объемы нужны, то надо руками вытаскивать данные и класть их на машину. вытащить 90 Гб по сети -- это сам по себе увлекательный процесс на многие часы. Можно в файлы, можно в БД.
3. Не верю, что нужно именно все и сразу -- надо смотреть на модель. А если надо, то оперативка однозначно нужна. 128 гиг -- ничего фантастического, это нормальная стартовая машинка.
4. Надо тяжелые предвычисления перекладывать на БД. Clickhouse очень хорошо помогает.
5. на локалке файлы надо хранить в оптимальном виде. qs/fst/apache arrow. и делать правильные выборки колонок/партиций
источник

IS

Ilya Shutov in R (язык программирования)
в зависимости от задач. можно в облаке машинку прикупить и поднять rstudio server free там. либо персональный купить.

скрин с яндекса, но можно амазоны смотреть или иных провайдеров.

есс-но, если это речь идет про работу.
источник

IS

Ilya Shutov in R (язык программирования)
но дешевле переосмыслить исходную задачу и постараться ее резко сократить
источник

ГД

Григорий Демин... in R (язык программирования)
Проще как раз заплатить за хостинг на ShinyApps в RStudio. А если без лёгких путей, то можно и бесплатно на своем сервере поднять
источник
2021 April 29

h

helby in R (язык программирования)
Да, наверное на стороне биг квери надо делать вычисления

Открыть код пакета в Р, и воспроизвести вычисления которые там

Правда фит сделать в Биг Квери я ещё хз

Возможно Big Query Ml предоставляет такую возможность
источник

h

helby in R (язык программирования)
Возможно, вы подскажете, можно ли полностью данную функцию реализовать в биг квери?

https://rdrr.io/github/sriharitn/foretell/src/R/BG.R
источник

IS

Ilya Shutov in R (язык программирования)
1.  с BQ не работаем по многим причинам.
2. код выгдядит несложным, но надо разбираться сначала со статьей, смотреть в математику.
3. не поверите. вот прямо сейчас открыт R ноутбук. Считаем retention, churn, LTV, lifetime, cohorts и прочее. в бэкенде несколько Tb в CH по пользователям, есть 3 машины x (16 core, 128 RAM) под руками.
но уточнение постановки задачи и откидывание всякой мишуры позволяет это все считать на обычном ноуте за секунды.
4. активно используем алгоритмику анализа дожития

мне кажется, начинать надо с постановки задачи.
источник

МA

Михаил Ad.fesha... in R (язык программирования)
Я бы попробовал следующие варианты
1. Взять выборку из 90 гигов, как посоветовали выше
Если не подходит,
2. вытянуть часть данных из 90 гигов, построить модель, затем вытянуть следующую часть выборки и доучить модель (повторить в цикле  х раз)
источник

h

helby in R (язык программирования)
Та не, ретеншн и все такое посчитать не проблема

Проблема конкретно в этой модели
источник

IS

Ilya Shutov in R (язык программирования)
непонятно. что такого нужного в 90 Гб данных, что нельзя подсократить и сжать. дожитие прекрасно работает на небольшом объеме данных, главное их подготовить по полному набору.
источник

AS

Alexey Seleznev in R (язык программирования)
Всем привет, рассказал немного про циклы for, while, repeat.


Тайм коды:
00:00 Введение
00:28 Что такое циклы
00:58 Какие циклы есть в языке R
01:44 Синтаксис цикла for
02:40 Перебираем вектор циклом for
03:34 Переход на следующую итерацию цикла с помощью оператора next
04:50 Перебираем список циклом for
06:52 Перебираем циклом for столбцы и строки таблиц (data.frame)
09:38 Вложенные циклы for
10:55 Как правильно объединять в цикле таблицы. Считываем циклом данные из множества csv файлов и объединяем в один data.frame.
14:11 Синтаксис цикла while
15:25 Выход из цикла с помощью оператора break
17:12 Синтаксис цикла repeat
18:30 В чём разница между циклами while и repeat в языке R
19:47 Почему в R не принято использовать циклы
21:17 Заключение

https://youtu.be/w3v-Gqwxzcc
источник