Size: a a a

R (язык программирования)

2021 May 30

М

Марк in R (язык программирования)
Ну ладно, спасибо
источник

М

Марк in R (язык программирования)
Я думал она почаще обновляется)
источник

IS

Ilya Shutov in R (язык программирования)
источник

IS

Ilya Shutov in R (язык программирования)
можно чуть поточнее, где именно dplyr работает в многопоточном режиме?
источник

IS

Ilya Shutov in R (язык программирования)
deparse хорошо контролируется входными параметрами.
https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/deparse

width.cutoff управляет длиной выхода, так что 60 по умолчанию некритично.
просто дополнение.
источник

DK

Dm Kb in R (язык программирования)
источник

IS

Ilya Shutov in R (язык программирования)
если это, то это не фоновая многопоточность.
тут ручное управление потоками, разбиение данных по обработчикам...
практически все тоже самое делается с помощью furrr
источник

IS

Ilya Shutov in R (язык программирования)
data.table сам внутри раскидывает по потокам без доп. плясок со стороны разработчика. Если J позволяет
Только сначала ему разрешим это с помощью
data.table::setDTthreads(0) # отдаем все ядра в распоряжение data.table
например
источник

DK

Dm Kb in R (язык программирования)
Ага, только под мак его нужно компилировать для работы в режиме многопоточности, что представляет из себя отдельные пляски с бубном и шаманами ))
источник

DK

Dm Kb in R (язык программирования)
Спасибо за уточнение
источник

IS

Ilya Shutov in R (язык программирования)
мак вообще не годен. openMP под ним не работает. и data.table не может работать в многопотоке
источник

DK

Dm Kb in R (язык программирования)
У меня работает и вполне даже шустро
источник

DK

Dm Kb in R (язык программирования)
Но, признаюсь честно, скомпилировать data.table под Apple m1 с поддержкой openmp не удалось ... вопрос по-прежнему экспериментальный и приходится пока жить на эмуляторе Rosetta, который очень даже прилично считает задачки малой и средней тяжести ... вероятно, через пол года допилят и этот момент, и вероятно архитектура arm будет все активнее и активнее проникать в области, которые раньше только на х86 решались
источник

IS

Ilya Shutov in R (язык программирования)
с openMP сишники мучаются под маком.
года два назад западные DS эксперты активно переползали с маков на Dell + Ubuntu, много публикаций было.
аргументов масса.
источник

DK

Dm Kb in R (язык программирования)
Я лично особых проблем от мак не ощущаю, от слова совсем ... ужас ужасный часто наблюдаю на виндовс, преимущественно из-за кодировки... линукс хорош, но DIY - опасная история для увлекающихся персон: сбивает сильно фокус в технику вопроса .. Все вышесказанное на правах личного мнения и не претендует на некую объективность))
источник

DK

Dm Kb in R (язык программирования)
беру свои слова обратно, только что после непродолжительных боев с компиляторами удалось скомпилировать data.table openmp под arm64_big_sur !!! и судя по всему я один из первых кто осуществил такое безобразие )) есть повод запилить об этом небольшую ремарку в публичное пространство
источник
2021 May 31

a

aGricolaMZ in R (язык программирования)
да, да и да
источник

h

helby in R (язык программирования)
Доброе утро.

Проблема.

Есть две таблицы, 1 и 2.

Мне нужно к второй, заджоинить столбец из первой

И не просто заджоинить, а совершить при джоине n_distinct

Пробовал с n_distinct и без него, ничего не выходит,  диспетчер задач выдает 100 загрузку оперативной , комп показывает черный экран

Таблицы размером в ~50 тыс строк и 18 столбцов

Кто подскажет что не так?
источник

IS

Ilya Shutov in R (язык программирования)
так не угадать. нужны данные и текущий пример кода. сходу вообще непонятно, что требуется
источник

h

helby in R (язык программирования)
Ну у меня есть две таблицы.

В таблице 2, у меня данные по возврату пользователей на каждый день в приложение, в таблице 1 у меня количество первый открытий .

Важно, что в таблице 1 , пользователи не агрегированы по количеству на каждую дату, а представлены как айди юзера

Для подсчета метрики retention rate, мне к второй таблице, нужно присоединить количество юзеров которые в первый раз открыли приложение

Делал я это таким образом

retention %>%
    left_join(first_open, count_users = n_distinct(first_open$user_pseudo_id), by="event_date")
источник