Тредное конечно, но просто посмотрите, кто в R переходить из здешних. Начну с себя 1.5 года Эксель —> 5 лет SPSS —> 3.5 года R. За это время мозг привык к пониманию струтуры данных и проритетов. Кучу задач решать в R проще, чем Excel стало))
в box-cox долго и мучительно лямбду подбирать надо, мне кажется... я видел преобразования типа 1/х и arcsin(x) для нормализации, вроде даже иногда работает
к слову, я одно время фитил разные распределения с помощью пакета gamlss, там большое количество распределений с 2-3-4-параметрами и сам пакет весьма живой, вроде как
Вопрос "рядом". Для понимания. Есть в чате участники с опытом промышленного применения R в контуре операционной аналитики? keywords: enterprise, devops, near realtime, medium data (10-1000 Gb)
Есть кстати забавная задача из практики (для систем типа Умный Город). Есть система безопасности, реагирующая на набор датчиков. Датчики передают некие числовые параметры, снятые с окружающей среды в реальном времени - влажность воздуха, скорость ветра и тд. Далее, нехорошие люди хотят обмануть систему, и вместо каждого датчика суют свой фиктивный, который на выходе генератором случайных чисел имитирует распределение вероятности показателей подменяемого датчика. И задача софта состоит в том, как распознать подмену, если она с точки зрения распределения неотличима.
Можно наверное и так. Но если датчик один, то не прокатит. Для одного датчика задача была решена иначе. Оказалось, что попытки имитации распределения через генератор дают слишком хорошие распределения, в которых информативность выборки в смысле меры Шэннона будет выше. То есть если любым нормальным архиватором сжать файл с реальными показателями и файл с имитацией, то реальные сжимаются ощутимо лучше, так как в них есть дополнительные зависимости и меньшая информативность.
Я помню была на курсах по терверу схожая задача: два студента выписывают на доске цепочки из ста цифр 0 или 1, но один реально кидает монетку, а другой выдумывает из головы "максимально случайные" результаты. Потом преподаватель входит в аудиторию и сразу говорит, кто из двоих кидал монетку, а кто из головы писал.
Коллега действительно мучил таким студентов как-то, были интересные паттерны, если память не изменяет, что-то вроде n+10, n+20, n+30 и n+1, a, n+2, b, c, n+3, d, n+4
Так это же классика неправильного восприятия «случайности». 10 Орлов подряд выпадают с такой же частотой, что и любая другая комбинация. Особенная эта комбинация только для нас.