Size: a a a

R (язык программирования)

2020 November 10

PU

Philipp Upravitelev in R (язык программирования)
источник

PU

Philipp Upravitelev in R (язык программирования)
только вам еще придется фильтрацию links делать, на наличие satellite в строке, а то у вас там и ссылки на фейсбук, и прочий мусор
источник

KA

Kat Alex in R (язык программирования)
о, круто как!
источник

KA

Kat Alex in R (язык программирования)
получилось) спасибо большое!
источник

KA

Kat Alex in R (язык программирования)
пойду курить, как заходить по ссылкам
источник

KA

Kat Alex in R (язык программирования)
да, половина мусор примерно
источник

PU

Philipp Upravitelev in R (язык программирования)
сделайте links <- links[grepl('satellite', links)], это отфильтрует вам только ссылки на спутники
источник

PU

Philipp Upravitelev in R (язык программирования)
Kat Alex
пойду курить, как заходить по ссылкам
да все также, созданный урл пихаете в read_html и парсите, там я видел, есть специальный блок с координатами
по xpath его выковыриваете и все
источник

АР

Александр Райков... in R (язык программирования)
а для хи-квадрата точного попадания (Goodness of fit) бывают post hoc тесты? Ну типа вижу, что 5 долей значимо отличаются от равномерного распределения, но дальше же имеет смысл выяснить, кто именно над кем значимо преобладает
источник

PU

Philipp Upravitelev in R (язык программирования)
Александр Райков
а для хи-квадрата точного попадания (Goodness of fit) бывают post hoc тесты? Ну типа вижу, что 5 долей значимо отличаются от равномерного распределения, но дальше же имеет смысл выяснить, кто именно над кем значимо преобладает
я, кажется, не видел такого. может, кто из коллег знает...
мне кажется, там дальше надо простыми попарными пилить, с поправкой на множественные сравнения
источник

АР

Александр Райков... in R (язык программирования)
Philipp Upravitelev
я, кажется, не видел такого. может, кто из коллег знает...
мне кажется, там дальше надо простыми попарными пилить, с поправкой на множественные сравнения
ну, это как-то странно для такого простого теста. Потом, нюанс в том, что в случае всего 2 категорий правильнее использовать биномиальный, а не хи-квадрат. Непонятно, что использовать в случае 2 категорий из n
источник

PU

Philipp Upravitelev in R (язык программирования)
Александр Райков
ну, это как-то странно для такого простого теста. Потом, нюанс в том, что в случае всего 2 категорий правильнее использовать биномиальный, а не хи-квадрат. Непонятно, что использовать в случае 2 категорий из n
ну так хи-квадрат на две категории вырождается до биномиального и z-распределения, если я правильно помню коментарии по этому поводу на кросс-валидейтед
мне кажется, тут еще вопрос цели применения - многокатегориальный хи-квадрат про проверку распределения, а не про категории/бины деления, поэтому для него особо и нет постхок-тестов. в той же анове изначально ставится вопрос о различии групп, вот и прикрутили всякого для сложных планов
источник

АР

Александр Райков... in R (язык программирования)
Philipp Upravitelev
ну так хи-квадрат на две категории вырождается до биномиального и z-распределения, если я правильно помню коментарии по этому поводу на кросс-валидейтед
мне кажется, тут еще вопрос цели применения - многокатегориальный хи-квадрат про проверку распределения, а не про категории/бины деления, поэтому для него особо и нет постхок-тестов. в той же анове изначально ставится вопрос о различии групп, вот и прикрутили всякого для сложных планов
нет, я проверял давно, p-значения для хи-квадрата на 2 категории и для биномиального разные
источник

АР

Александр Райков... in R (язык программирования)
у хи-квадрата же что-то дурное при цифре 2. Кросстабуляции без поправок на непрерывность им тоже нельзя обсчитывать
источник

АК

Артём Клевцов... in R (язык программирования)
Alexander Semenov
Уважаемые, а что это за симптом, когда *.csv файл, без проблем открыващийся на винде в fread с кодировкой по умолчанию, при попытке открыть на маке при явно прописанном encoding = 'UTF-8' выдаёт вот такой срам:
uchardet::detect_file_enc("/path/to/file")
источник

PU

Philipp Upravitelev in R (язык программирования)
вообще, для меня это было открытие, что тот тест, который в R chi.square, например - это не совсем хи-квадрат %)
и да, на уровне конструкции для меня это какая-то странная хтонь, я так не до конца и не разобрался :(
источник

AS

Alexander Semenov in R (язык программирования)
Артём Клевцов
uchardet::detect_file_enc("/path/to/file")
"WINDOWS-1251"
источник

АК

Артём Клевцов... in R (язык программирования)
Alexander Semenov
"WINDOWS-1251"
Ещё вопросы есть?
источник

AS

Alexander Semenov in R (язык программирования)
Артём Клевцов
Ещё вопросы есть?
Были, но в последнюю секунду нагуглил вот это: fread("cat 001_20150317060301_INFO01000201503170042.OUT | iconv -f 'Windows-1251' -t 'UTF-8", sep='\n', header=F)
источник

AS

Alexander Semenov in R (язык программирования)
Ну и риторический вопрос: почему на винде fread сработал гладко?
источник