Size: a a a

R (язык программирования)

2021 May 16

IS

Ilya Shutov in R (язык программирования)
ну сколько именно? граница между удаленным запросом и поиском по локальному кэшу определяется тривиально.

время сетевой загрузки/вреия вычислений. При 25-50% уже надо задуматься, все ли хорошо в королевстве
источник

AS

Alexander Semenov in R (язык программирования)
А откуда в АБтесте взяться такому объёму? Там же надо-то 3 колонки всего вытянуть: id, значение измеряемой метрики, принадлежность к группе.
источник

h

helby in R (язык программирования)
Ну несколько таблиц, есть которые по 13 гб, а есть которые по 200
источник

h

helby in R (язык программирования)
Таблиц 8 всего
источник

h

helby in R (язык программирования)
Не, у нас побольше
источник

ГД

Григорий Демин... in R (язык программирования)
> Все равно все вычисления будут базироваться на данных в оперативке. ВСЕГДА И ДЛЯ ЛЮБОЙ АРХИТЕКТУРЫ

Это какое-то занудство в чистом виде. Еще зануднее только начинать выяснять точные определения терминов "память", "оперативная" и тому подобное. Если без придирок к словам, а по сути оригинального вопроса. Есть инструменты, которые будут использовать фиксированный объем оперативки независимо от того, с каким объемом данных вы работает. Например,  линуксовский grep или awk обработают текстовый файл с любым количеством строк, используя одинаковое количество ОЗУ. Хотя занять это может очень много времени. В теории, реляционные БД тоже могут перелопатить  огромные объемы с  фиксированным кол-вом оперативки, хотя на практике есть нюансы. Условные data.table или pandas или Excel так не смогут - чем больше данных, тем больше оперативки им надо.
источник

Ю

Юрий 🐙💻🤖📊📈🚬... in R (язык программирования)
источник

A

Alеx 🤼‍♂️ in R (язык программирования)
По опыту, в BQ лучше хранить большими денормализованными таблицами, и в R соответственно вытягивать больше и большинство операций проводить там, т.к. за каждый compute/analysis денег берут гораздо больше, чем за storage
источник

h

helby in R (язык программирования)
Я не против так делать, это даже лучше

Я просто переживаю что оперативка не справиться, если вытаскивать большую часть а Р
источник

Э

Эрик in R (язык программирования)
может кто-нибудь помочь разобраться, возможно для кого-то совсем будет совсем глупый-элементарный вопрос, но я только-только вхожу в R, да и в целом в прогу, буду очень благодарен, если кто подскажет.
решил тут пофорсить библиотеки базы, может кто помочь с одной из них разобраться, пробовал в интернете искать информацию про этот сбор, есть вот такая база, но какое-то очень скудное описание(возможно, лично для меня пока).
понимаю первый/второй претест, пост-тест, но пост-тест 3го не понял, и почему так он так сильно разнится.  
спасибо !
источник

Э

Эрик in R (язык программирования)
источник
2021 May 17

EP

Ed P in R (язык программирования)
А как вы претесты и первые два пост-теста поняли?
источник

Э

Эрик in R (язык программирования)
понял в плане, что нашел - прочитал, были реальные эксперименты и вот между студентами поделившимися на 3 разные группы по методу обучения провели претест и пост-тесты дважды, про третий как раз таки не написано было ничего, поэтому немного в тупняке.
спасибо за связь!
источник

EP

Ed P in R (язык программирования)
источник

EP

Ed P in R (язык программирования)
вот скриншот из книги, на которую ссылается документация в R.
Почему 2 пост-теста? Там как раз было 3 посттеста, хотя инфа тоже скудная. М,б. они во времени различались, поэтому значения такие разные.
источник

Э

Эрик in R (язык программирования)
хорошо, спасибо вам большое
источник

Э

Эрик in R (язык программирования)
а могу еще спросить, какими методами можно/чаще используют, если вот допустим хочу проанализировать данные и вывести/сравнить эффективность  отдельных методов обучения
источник

EP

Ed P in R (язык программирования)
Мне кажется, в упомянутой книге это как раз есть. Я с либгена скачал 6 издание, есть и посвежее. На скриншоте видна отсылка к тексту, где подробнее обсуждается.
источник

DA

Denis Asalhan in R (язык программирования)
Клёво спс. А то мы с жиры на Битрикс и лучше не стало
источник

IS

Ilya Shutov in R (язык программирования)
Это теория + практика. Время вытягивания даных + вероятность переиспользования + доступная RAM определяют конкретную стратегию. Лопатим на R терабайты и всех все устраивает.
источник