Size: a a a

R (язык программирования)

2020 June 24

IT

Inip Tyig in R (язык программирования)
так, погодите, что-то я не понимаю тогда цель какая: все файлы нужно будет прочитать, т.е. все данные загрузить.

я бы даже уже чтобы не перекачивать из-за возможных проблем с сестью их кэшировал в файлы.

а если просто чтобы потешиться своей могучестью, то можно попробовать как-то поиспользовать апис частичной загрузки с гуглодисков: https://developers.google.com/drive/api/v3/manage-downloads#python_1
источник

АК

Артём Клевцов... in R (язык программирования)
Anton I
Нужно считать все файлы, собрать потом в датафрейм. То уже не проблема, вопрос сейчас как считать csv без загрузки
Чем «считывание» отличается от «загрузки»? Так или иначе содержимое будет передано по сети и загружено в память.
источник

А

Александр in R (язык программирования)
У OpenAi, которая недавно выпустила сеточку для работы с текстом GPT-3 с 175 млрд параметров обученную на 500 млрд токенов был в январе ресерч, где они показали что лосс сетки падает по экспоненте от числа входных параметров.  У них в статье нашел вот таке графики из которых понятно, что что бы уменьшить лосс в два рза, им нужно в 1500 раз больше токенов и в 10000 раз делать больше сетку))
источник

А

Александр in R (язык программирования)
забавные факты
источник
2020 June 25

ИК

Иван Котомин... in R (язык программирования)
Всем доброго чего бы то ни было.

У меня вопрос теоретического характера про FWER. Насколько я могу судить, речь всегда идет не только о множественных сравнениях (почитал прошлые дискуссии в чате), а о множественной проверке гипотез на одних и тех же данных. Приведу пример:
Допустим, я исследовал некоторую выборку и измерил у нее некий параметр 4-мя способами. rmANOVA, все дела. Затем:
1) Провел попарные сравнения всех измерений (6 гипотез).
2) Прокоррелировал каждое измерение с величиной А (+4 гипотезы).
3) Разбил выборку на 2 и провел межгрупповые сравнения для каждого из измерений (+4 гипотезы).
4) Прокоррелировал каждое измерение в каждой из полученных подвыборок с величиной Б (тут как бы 8 корреляций, но в разных подгруппах, поэтому, по идее, + 4 гипотезы. Но это не точно!).
5) Посчитал для каждого из измерений дисперсию и сравнил по Левену (+4 гипотезы).

Далее, предположим, я беру какую-нибудь процедуру Шидака-Холма, загружаю туда ВСЕ уровни значимости из абсолютно разных гипотез (особенно у меня дергается глаз от пункта 5), причем две подгруппы из пункта 4 как бы формируют разные ветки, поэтому нужно провести два анализа. И корректирую уровень значимости для 22 проверок.

Собственно, вопроса два:
а) есть ли существенные изъяны в приведенной логике?
б) как это все формализовать в статьях? Честно говоря, ничего даже отдаленно напоминающего вышеизложенное, я не встречал. Навскидку выглядит диковато и... неэстетично, что ли


УПД: для простоты допустим, что все проведенные сравнения и корреляции мне крайне важны, это именно те эффекты, которые я исследую, все они fixed, а не random и так далее)
источник

Л

Лис in R (язык программирования)
Гайз, Добрый вечер! скину данные и rmd, сохраните в html  плиз, мой ноут или устал или что, не хчет этого делать. Нужно работу срочно отправить
источник

Л

Лис in R (язык программирования)
экзамен..
источник

AM

Aleksei Morozov in R (язык программирования)
Давай
источник

Ю

Юрий 🐙💻🤖📊📈🚬... in R (язык программирования)
Лис
экзамен..
Запрещено правилами чата
источник

A

Andrey in R (язык программирования)
Иван Котомин
Всем доброго чего бы то ни было.

У меня вопрос теоретического характера про FWER. Насколько я могу судить, речь всегда идет не только о множественных сравнениях (почитал прошлые дискуссии в чате), а о множественной проверке гипотез на одних и тех же данных. Приведу пример:
Допустим, я исследовал некоторую выборку и измерил у нее некий параметр 4-мя способами. rmANOVA, все дела. Затем:
1) Провел попарные сравнения всех измерений (6 гипотез).
2) Прокоррелировал каждое измерение с величиной А (+4 гипотезы).
3) Разбил выборку на 2 и провел межгрупповые сравнения для каждого из измерений (+4 гипотезы).
4) Прокоррелировал каждое измерение в каждой из полученных подвыборок с величиной Б (тут как бы 8 корреляций, но в разных подгруппах, поэтому, по идее, + 4 гипотезы. Но это не точно!).
5) Посчитал для каждого из измерений дисперсию и сравнил по Левену (+4 гипотезы).

Далее, предположим, я беру какую-нибудь процедуру Шидака-Холма, загружаю туда ВСЕ уровни значимости из абсолютно разных гипотез (особенно у меня дергается глаз от пункта 5), причем две подгруппы из пункта 4 как бы формируют разные ветки, поэтому нужно провести два анализа. И корректирую уровень значимости для 22 проверок.

Собственно, вопроса два:
а) есть ли существенные изъяны в приведенной логике?
б) как это все формализовать в статьях? Честно говоря, ничего даже отдаленно напоминающего вышеизложенное, я не встречал. Навскидку выглядит диковато и... неэстетично, что ли


УПД: для простоты допустим, что все проведенные сравнения и корреляции мне крайне важны, это именно те эффекты, которые я исследую, все они fixed, а не random и так далее)
Для разных гипотез корректировка не требуется
источник

A

Andrey in R (язык программирования)
Юрий 🐙💻🤖📊📈🚬
Запрещено правилами чата
Так он не решить просит, а конвертануть готовый rmd
источник

a

aGricolaMZ in R (язык программирования)
Юрий 🐙💻🤖📊📈🚬
Запрещено правилами чата
я тоже не понял
источник

ИК

Иван Котомин... in R (язык программирования)
Andrey
Для разных гипотез корректировка не требуется
В каком смысле "разных"?
В анова они тоже разные, и при massive univariate analysis, например
источник

A

Andrey in R (язык программирования)
Если одна про равенство средних, а другая про отсутствие линейной корреляции, то поправка не нужна
источник

A

Andrey in R (язык программирования)
И еще неплохо бы писать план анализа до сбора данных
источник

ИК

Иван Котомин... in R (язык программирования)
Andrey
Если одна про равенство средних, а другая про отсутствие линейной корреляции, то поправка не нужна
О, а вы не можете подсказать, где про это можно почитать? Потому что, с одной стороны, мне интуитивно тоже так кажется. С другой – вероятность ошибки первого рода же, по идее, аддитивна, т.е. неважно, из какого теста приходит ошибка, события-то складываются...
источник

ИК

Иван Котомин... in R (язык программирования)
Andrey
И еще неплохо бы писать план анализа до сбора данных
Есть ретроспективный анализ данных, но, строго говоря, почему спланированный анализ не может представлять что-то подобное вышеизложенному? :)
источник

A

Andrey in R (язык программирования)
Иван Котомин
Есть ретроспективный анализ данных, но, строго говоря, почему спланированный анализ не может представлять что-то подобное вышеизложенному? :)
Ретроспективный ок, а вот запланированный должен включать и инфу про уровни значимости
источник

A

Andrey in R (язык программирования)
Иван Котомин
О, а вы не можете подсказать, где про это можно почитать? Потому что, с одной стороны, мне интуитивно тоже так кажется. С другой – вероятность ошибки первого рода же, по идее, аддитивна, т.е. неважно, из какого теста приходит ошибка, события-то складываются...
Надо исходить из задач исследования и того, какие риски отображают ошибки 1 и 2 рода
источник

A

Andrey in R (язык программирования)
Меня вот раз пытались убедить делать поправку для уровней значимости при анализа данных по переносимости препарата. А на самом деле в таком анализе риском потребителя является ошибка 2 рода, то есть уменьшая уровень значимости для каждого отдельного сравнения мы просто лишаем себя возможности признать различия значимыми, тем самым делая препарат "безопаснее". Короче, тут играет роль баланс между чувствительностью и специфичностью
источник