Телеграмм чат группы rlang

21:14пожаловаться #5

https://multidplyr.tidyverse.org/articles/multidplyr.html

21:16пожаловаться #6

если это, то это не фоновая многопоточность.
тут ручное управление потоками, разбиение данных по обработчикам...
практически все тоже самое делается с помощью furrr

21:20пожаловаться #7

data.table сам внутри раскидывает по потокам без доп. плясок со стороны разработчика. Если J позволяет
Только сначала ему разрешим это с помощью
data.table::setDTthreads(0) # отдаем все ядра в распоряжение data.table
например

21:21пожаловаться #8

Ага, только под мак его нужно компилировать для работы в режиме многопоточности, что представляет из себя отдельные пляски с бубном и шаманами ))

21:23пожаловаться #9

Спасибо за уточнение

21:24пожаловаться #10

мак вообще не годен. openMP под ним не работает. и data.table не может работать в многопотоке

21:25пожаловаться #11

У меня работает и вполне даже шустро

21:28пожаловаться #12

Но, признаюсь честно, скомпилировать data.table под Apple m1 с поддержкой openmp не удалось ... вопрос по-прежнему экспериментальный и приходится пока жить на эмуляторе Rosetta, который очень даже прилично считает задачки малой и средней тяжести ... вероятно, через пол года допилят и этот момент, и вероятно архитектура arm будет все активнее и активнее проникать в области, которые раньше только на х86 решались

21:38пожаловаться #13

с openMP сишники мучаются под маком.
года два назад западные DS эксперты активно переползали с маков на Dell + Ubuntu, много публикаций было.
аргументов масса.

21:52пожаловаться #14

Я лично особых проблем от мак не ощущаю, от слова совсем ... ужас ужасный часто наблюдаю на виндовс, преимущественно из-за кодировки... линукс хорош, но DIY - опасная история для увлекающихся персон: сбивает сильно фокус в технику вопроса .. Все вышесказанное на правах личного мнения и не претендует на некую объективность))

21:58пожаловаться #15

беру свои слова обратно, только что после непродолжительных боев с компиляторами удалось скомпилировать data.table openmp под arm64_big_sur !!! и судя по всему я один из первых кто осуществил такое безобразие )) есть повод запилить об этом небольшую ремарку в публичное пространство

aGricolaMZ in R (язык программирования)

23:20пожаловаться #16

2021 May 31

да, да и да

helby in R (язык программирования)

00:35пожаловаться #17

Доброе утро.

Проблема.

Есть две таблицы, 1 и 2.

Мне нужно к второй, заджоинить столбец из первой

И не просто заджоинить, а совершить при джоине n_distinct

Пробовал с n_distinct и без него, ничего не выходит, диспетчер задач выдает 100 загрузку оперативной , комп показывает черный экран

Таблицы размером в ~50 тыс строк и 18 столбцов

Кто подскажет что не так?

07:04пожаловаться #18

так не угадать. нужны данные и текущий пример кода. сходу вообще непонятно, что требуется

helby in R (язык программирования)

07:13пожаловаться #19

Ну у меня есть две таблицы.

В таблице 2, у меня данные по возврату пользователей на каждый день в приложение, в таблице 1 у меня количество первый открытий .

Важно, что в таблице 1 , пользователи не агрегированы по количеству на каждую дату, а представлены как айди юзера

Для подсчета метрики retention rate, мне к второй таблице, нужно присоединить количество юзеров которые в первый раз открыли приложение

Делал я это таким образом

retention %>%
left_join(first_open, count_users = n_distinct(first_open$user_pseudo_id), by="event_date")