Телеграмм чат группы rlang

Ну я ориентируюсь на эту статью, вот и спросил

https://rpubs.com/msundar/large_data_analysis

Григорий Демин... in R (язык программирования)

20:10пожаловаться #1

ГД

Но там же дальше идёт описание пакетов для работы без загрузки в память. Правильнее сказать, что data.table/базовый R все держит в памяти, а не сам язык. А даже для dplyr есть бэкенды, которые работают без загрузки в память

20:16пожаловаться #2

Про бэкэнд, это типа spark или hadoop ?

Или я не в том направлении думаю?

Не особо шарю просто

Григорий Демин... in R (язык программирования)

20:18пожаловаться #3

ГД

Вроде самый распространенный - это dbplyr - SQL - бэкенд. Для Спарка тоже есть

20:35пожаловаться #4

Спасибо большое)

20:43пожаловаться #5

не совсем так. R работает только с данными в памяти. Как он их туда получил -- другой вопрос. Да и все остальные языки/интерпретаторы и пр. работают с данными в памяти. Конвейер такой. RAM/Cache (L3/L2/L1)/ CPU. Это идет от архитектуры ЭВМ и языки здесь вообще ни при чем.

21:07пожаловаться #6

А в чем суть вопроса то? бэкенд и данные в памяти -- совсем разная вещь

21:07пожаловаться #7

не в том. Какая задача? Какая подоплека вопроса?

21:09пожаловаться #8

Ну например, я хочу АБ тесты делать сразу в R

Все данные находятся на биг квери

Данных много, и не хочется чтобы они тянулись все и всегда

Я хочу оптимизировать работу, тем чтобы написать в R рабочий скрипт, который я буду запускать при каждом анализе АБ теста, меняя только фильтрацию таблиц и некоторые параметры

21:19пожаловаться #9

Можно и в биг квери делать это, да, но я хотел бы в R попробовать сделать это

Andrey in R (язык программирования)

21:20пожаловаться #10

тогда весь вопрос в том, какие данные тянутся из БД в R

Andrey in R (язык программирования)

21:21пожаловаться #11

можно тянуть семпл, можно все целиком (если помещаются), можно агрегаты какие-то

21:21пожаловаться #12

Ну я имел ввиду, вот то что выше советовали, чтобы не все данные Р хранил в оперативке

А типа, хранил только те которые я выбираю, или типа использовал бы бэкэнд как сказали

Я нагуглил, что для такого подходят всякие fread, ff, dbplyr

Ed P in R (язык программирования)

21:31пожаловаться #13

ну это какая-то странная постановка вопроса. Если данные нужны не все - просто грузите часть из хранилища. где хранятся данные - на удаленном сервере или локально в файлах / БД - не так важно.

Ed P in R (язык программирования)

21:38пожаловаться #14

грубо говоря, не нужно делать SELECT * FROM TABLE, если данных много.

21:39пожаловаться #15

Ну я так и не собирался делать, просто даже со всеми фильтрами, обьемы большие могут быть

Ed P in R (язык программирования)

21:39пожаловаться #16

ну тогда лишние переменные можно выкинуть, какие-то текстовые переменные м.б. можно сократить или перекодировать в числовые.

От задачи зависит.

21:40пожаловаться #17

Эрик in R (язык программирования)

приветы, может помочь кто нибудь, начинаю только вникать в R и вот может кто-то поделиться кодом анализа/разбора абсолютно любой базы данных, в целом любого размера, не важно. интересно попробовать чужой код разбирать, анализирую где что и как работает. спасибо!

21:57пожаловаться #18

да неважно это все. архитектура тупа как валенок.
1. есть внешний источник (допустим, bq)
2. можно делать локальный "кэш", если хочется (большой объем данных в запросе, большое время передачи по сети)
3. кэш может быть любом, главное, чтобы устраивал разработчика
локальная БД, apache arrow, просто файлы, ....

хорошо, если можно будет это этого кэша на конкретный процессинг вытаскивать сразу только то, что надо.+ все шлаковые колонки оставлять сразу за бортом.

Все равно все вычисления будут базироваться на данных в оперативке. ВСЕГДА И ДЛЯ ЛЮБОЙ АРХИТЕКТУРЫ

22:00пожаловаться #19

о каких объемах речь-то идет для конкретных A/B тестов? 1-2 Гб?