Size: a a a

R language and Statistical data analysis

2020 May 22

m

monagatep in R language and Statistical data analysis
У меня, скорее, другая ситуация - в Linux распаралленивание хоть какое-то есть, где-то раза в полтора. А в Windows - нету. Я подозреваю, что в Linux работает makeForkCluster, который почти мгновенно копирует данные в кластер. А в винде функции fork() нету, и данные гоняются по сокету, поэтому снижается производительность.
источник

m

monagatep in R language and Statistical data analysis
Вообще, так и не понял, почему нельзя параллелить тупо внутри потоков...
источник

m

monagatep in R language and Statistical data analysis
Зачем отдельные процессы запускать...
источник

AM

Aleksei Morozov in R language and Statistical data analysis
Alexander Semenov
Ну раз уж об этом заговорили, а разве в ML сейчас что-то кроме линейных моделей и бустинга используют? Второй сам неплохо параллелится.
нейронки?
источник

AS

Alexander Semenov in R language and Statistical data analysis
В моей голове они отдельно находятся =)
источник

m

monagatep in R language and Statistical data analysis
Alexander Semenov
В моей голове они отдельно находятся =)
Отдельно от ML?
источник

AM

Aleksei Morozov in R language and Statistical data analysis
в моей голове это линейные модели с вывертом)
источник

AS

Alexander Semenov in R language and Statistical data analysis
Отдельно от анализа данных.
источник

m

monagatep in R language and Statistical data analysis
Alexander Semenov
Отдельно от анализа данных.
Ну, данные ими сложно анализировать. А прогнозировать -- вполне
источник

AS

Alexander Semenov in R language and Statistical data analysis
Aleksei Morozov
в моей голове это линейные модели с вывертом)
Ну по сути-то это так и есть. Но в такой формулировке это не продать.
источник

JS

Jury Sergeev in R language and Statistical data analysis
monagatep
Вообще, так и не понял, почему нельзя параллелить тупо внутри потоков...
можно, только надо не забывать что нет fork, и данные лучше не гонять в новый процесс, а что бы он сам их откуда-то забирал, будет быстрее в сумме
источник

m

monagatep in R language and Statistical data analysis
Jury Sergeev
можно, только надо не забывать что нет fork, и данные лучше не гонять в новый процесс, а что бы он сам их откуда-то забирал, будет быстрее в сумме
Есть какие-то пакеты, которые поддерживают распараллеливание на уровне потоков?
источник

JS

Jury Sergeev in R language and Statistical data analysis
но польза не всегда достижима, да и в каждом отдельном случае надо внимательно с этим разбираться... впрочем как и в SQL - не оптимизированный запрос будет долго работать
источник

m

monagatep in R language and Statistical data analysis
Или как тогда Ваше "можно" осуществить?
источник

m

monagatep in R language and Statistical data analysis
Ну я ж пишу, в Linux польза была.
источник

JS

Jury Sergeev in R language and Statistical data analysis
monagatep
Или как тогда Ваше "можно" осуществить?
ну Вы уже привели пример такого пакета
источник

m

monagatep in R language and Statistical data analysis
Хочу теперь в Windows повторить
источник

JS

Jury Sergeev in R language and Statistical data analysis
monagatep
Ну я ж пишу, в Linux польза была.
Вы уже объяснили - почему )
источник

JS

Jury Sergeev in R language and Statistical data analysis
monagatep
Хочу теперь в Windows повторить
для этого придется переделать кое-что, что именно - от Вашей ситуации зависит...
источник

m

monagatep in R language and Statistical data analysis
Jury Sergeev
ну Вы уже привели пример такого пакета
Так он не на уровне потоков работает, а создаёт процессы, и гоняет по сокету данные. А мне бы -- пакет, который параллелит на уровне потоков, ну или хотя бы через shared memory гоняет
источник