Size: a a a

R language and Statistical data analysis

2019 November 27

AS

Alexander Semenov in R language and Statistical data analysis
Дичь какую-то обсуждаете. Мой внутренний гуманитарий feels insecure.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
выдавливай его по капле
источник

TD

Tony Dacota in R language and Statistical data analysis
Коллеги, подскажите с просто задачей про Outliers. Есть датасет с посуточными ценами на квартиры (с AirBnB). Как правильно работать с экстремальными ценами в этом датасете?

Если использовать 3*STD или percentiles (+-IRQ), то отсекаются дорогие квартиры (а они на самом деле есть и их исключать нельзя).

Но двух картинках видно, что для Манхэттена есть две цены по 9999, это явный outlier который можно исключить так как сильно далеко от остальных да и сама цифра намекает (четыре 9ки). Но как обосновать исключение 9999, так и писать «нутром чую косяк какой то»?

И как быть с Бруклином? Там тоже несколько экстримов, но не такие явные как 9999 в Манхэттене. Как с ними быть? Исключать? И на каком основании?
источник

TD

Tony Dacota in R language and Statistical data analysis
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
аутлаеры можно чистить по-разному
можно вообще лояльные 2.5% с каждого края, что близко к 2sd, но не зависит от распределения, которое здесь явно не нормальное
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
ну и определитесь, что такое аутлаеры, в первую очередь
источник

TD

Tony Dacota in R language and Statistical data analysis
Ну в моём случае аутлаеры это то, что далеко от общей массы в силу ошибок в данных или в силу экстремального случая.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Tony Dacota
Ну в моём случае аутлаеры это то, что далеко от общей массы в силу ошибок в данных или в силу экстремального случая.
в идеальном случае определение должно помогать сформулировать различительный критерий %) в частности, чем очень дорогая квартира отличается от аутлаера.
например, ошибки в данных можно операционализировать как стоимость из нескольких повторений одной цифры, типа 9999. или нарушение закона бенфорда, например.

вообще, подходов много к выделению аутлаеров. и кластеризации на любой вкус,  пороги-квантили, и что угодно еще. тут важно просто выбрать какой-то, аргументация подхода всегда предмет споров, на мой взгляд. я лично предпочитаю процентили, как выше писал.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
коллеги, скажите, кто из вас пользовался сбором и отправкой данных через сокеты?

а то единственный пример, который я вижу - это как общаться между двумя R-процессами в терминале, а это очень уж игрушечно
источник

👁

👁 in R language and Statistical data analysis
у меня это все еще в планах, примеры видел в хелпе rzmq пакета
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
хм. хорошо, спасибо
источник

А[

Александр [capsula] in R language and Statistical data analysis
Tony Dacota
Коллеги, подскажите с просто задачей про Outliers. Есть датасет с посуточными ценами на квартиры (с AirBnB). Как правильно работать с экстремальными ценами в этом датасете?

Если использовать 3*STD или percentiles (+-IRQ), то отсекаются дорогие квартиры (а они на самом деле есть и их исключать нельзя).

Но двух картинках видно, что для Манхэттена есть две цены по 9999, это явный outlier который можно исключить так как сильно далеко от остальных да и сама цифра намекает (четыре 9ки). Но как обосновать исключение 9999, так и писать «нутром чую косяк какой то»?

И как быть с Бруклином? Там тоже несколько экстримов, но не такие явные как 9999 в Манхэттене. Как с ними быть? Исключать? И на каком основании?
А чем 9999 не нравится? Бывает 10000? Бывает 10001? Может человек хотел поставить 12к, но форма помешала, грит, ток 10к. А он плюнул и решил демпинг устроить. Аутлаеры по одному параметру не выявить, только оценивая другие. Вот если чел из окраины за 3км от метро просит за однушку - с соседом - 9999, тогда да, есть основания. А исключительно число 9999... Неа
источник
2019 November 28

А[

Александр [capsula] in R language and Statistical data analysis
источник

А[

Александр [capsula] in R language and Statistical data analysis
У меня вот недавно на спектрике 26.000 было, давно ждал, уже начал верить, что в симуляции живу
источник

А[

Александр [capsula] in R language and Statistical data analysis
Но нет, можно ходить на работу, бывает и такое
источник

TD

Tony Dacota in R language and Statistical data analysis
Ну в принципе да, аргумент. Тем более исключение 9999 сильно на среднюю не влияет. А так как самое распределение Right Skewed, то вместо средней возьму медиану. Вообщем понял. Аутлаеры не трогаю, так как оснований для их исключений нет.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Александр [capsula]
А чем 9999 не нравится? Бывает 10000? Бывает 10001? Может человек хотел поставить 12к, но форма помешала, грит, ток 10к. А он плюнул и решил демпинг устроить. Аутлаеры по одному параметру не выявить, только оценивая другие. Вот если чел из окраины за 3км от метро просит за однушку - с соседом - 9999, тогда да, есть основания. А исключительно число 9999... Неа
9999 во многих маркетингово-социологических кампаниях используется для маркировки пользовательского пропуска / отказа от ответа. так что рефлекс.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Tony Dacota
Ну в принципе да, аргумент. Тем более исключение 9999 сильно на среднюю не влияет. А так как самое распределение Right Skewed, то вместо средней возьму медиану. Вообщем понял. Аутлаеры не трогаю, так как оснований для их исключений нет.
Очень здорово
источник

А[

Александр [capsula] in R language and Statistical data analysis
Philipp Upravitelev
9999 во многих маркетингово-социологических кампаниях используется для маркировки пользовательского пропуска / отказа от ответа. так что рефлекс.
А ещё кажется в, прости Господи, Statistica это значение для NA
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
например, да
источник