Size: a a a

R (язык программирования)

2021 April 27

S

Stan in R (язык программирования)
Тредное конечно, но просто посмотрите, кто в R переходить из здешних. Начну с себя 1.5 года Эксель —> 5 лет SPSS —> 3.5 года R. За это время мозг привык к пониманию струтуры данных и проритетов. Кучу задач решать в R проще, чем Excel стало))
источник

AS

Alexander Semenov in R (язык программирования)
box-cox?
источник

PU

Philipp Upravitelev in R (язык программирования)
в box-cox долго и мучительно лямбду подбирать надо, мне кажется...
я видел преобразования типа 1/х и arcsin(x) для нормализации, вроде даже иногда работает
источник

PU

Philipp Upravitelev in R (язык программирования)
где-то 8 лет spss, 9 лет r %)
источник

ИЕ

Илья Ерошенков... in R (язык программирования)
Я думаю, зная функцию распределения ваших данных, можно быстро из них сделать нормальное. Кроме совсем пограничных случаев.
источник

PU

Philipp Upravitelev in R (язык программирования)
к слову, я одно время фитил разные распределения с помощью пакета gamlss, там большое количество распределений с 2-3-4-параметрами
и сам пакет весьма живой, вроде как
источник

IS

Ilya Shutov in R (язык программирования)
Вопрос "рядом".    Для понимания.
Есть в чате участники с опытом промышленного применения R в контуре операционной аналитики?
keywords: enterprise, devops, near realtime, medium data (10-1000 Gb)
источник

ИЕ

Илья Ерошенков... in R (язык программирования)
Есть кстати забавная задача из практики (для систем типа Умный Город). Есть система безопасности, реагирующая на набор датчиков. Датчики передают некие числовые параметры, снятые с окружающей среды в реальном времени - влажность воздуха, скорость ветра и тд. Далее, нехорошие люди хотят обмануть систему, и вместо каждого датчика суют свой фиктивный, который на выходе генератором случайных чисел имитирует распределение вероятности показателей подменяемого датчика. И задача софта состоит в том, как распознать подмену, если она с точки зрения распределения неотличима.
источник

ГД

Григорий Демин... in R (язык программирования)
Показания датчиков должны коррелировать  между собой - если один пошел в разнос, то он скорее всего поддельный
источник
2021 April 28

ИЕ

Илья Ерошенков... in R (язык программирования)
Можно наверное и так. Но если датчик один, то не прокатит. Для одного датчика задача была решена иначе. Оказалось, что попытки имитации распределения через генератор дают слишком хорошие распределения, в которых информативность выборки в смысле меры Шэннона будет выше. То есть если любым нормальным архиватором сжать файл с реальными  показателями и файл с имитацией, то реальные сжимаются ощутимо лучше, так как в них есть дополнительные зависимости и меньшая информативность.
источник

ГД

Григорий Демин... in R (язык программирования)
Если я правильно понимаю, то фактически это обозначает, что для реального датчика есть авторегрессионные зависимости, а для поддельного их нет?
источник

PU

Philipp Upravitelev in R (язык программирования)
источник

ИЕ

Илья Ерошенков... in R (язык программирования)
Да, но только не обязательно эти авторегрессионные зависимости линейны.
источник

ГД

Григорий Демин... in R (язык программирования)
Ну, если зависимость является нечетной функцией (а это скорее всего так), то линейная компонента обязательно должна присутствовать...
источник

ИЕ

Илья Ерошенков... in R (язык программирования)
Я помню была на курсах по терверу схожая задача: два студента выписывают на доске цепочки из ста цифр 0 или 1, но один реально кидает монетку, а другой выдумывает из головы "максимально случайные" результаты. Потом преподаватель входит в аудиторию и сразу говорит, кто из двоих кидал монетку, а кто из головы писал.
источник

ИЕ

Илья Ерошенков... in R (язык программирования)
Я думаю, это хорошая задача на собеседовании по R - посмотреть, у кого какие будут идеи построения алгоритма, отличающего первый случай от второго.
источник

А[

Александр [capsula]... in R (язык программирования)
Коллега действительно мучил таким студентов как-то, были интересные паттерны, если память не изменяет, что-то вроде n+10, n+20, n+30 и n+1, a, n+2, b, c, n+3, d, n+4
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Так это же классика неправильного восприятия «случайности». 10 Орлов подряд выпадают с такой же частотой, что и любая другая комбинация. Особенная эта комбинация только для нас.
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Из той же области: удача - восполняемый ресурс. Мне не везло очень долго, сейчас мне точно повезёт
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Видео в тему прямо.

https://youtu.be/tP-Ipsat90c
источник