Size: a a a

R (язык программирования)

2021 June 17

IS

Ilya Shutov in R (язык программирования)
Это текста 20 гиг, бинарных данных меньше. Тут можно ещё disk.frame пробовать или Apache drill. А вообще, лучше не тянуть колонки все или в базу сгрузить
источник

A

Andrey in R (язык программирования)
Еще можно на полчаса поднять инстанс с 32Гб ОЗУ в облаке
источник

IS

Ilya Shutov in R (язык программирования)
Локальную базу. Что там, tiledb нынче модно? Или постгре или SQLite или кликхаус
источник

A

Andrey in R (язык программирования)
duckdb же!
источник

IS

Ilya Shutov in R (язык программирования)
Ну или его
источник

IS

Ilya Shutov in R (язык программирования)
100500 вариантов, начиная с awk
источник

А

Анатолий in R (язык программирования)
Понятно.  Наверное разобраться с консолью будет быстрее всего.  А базы на будущее буду иметь ввиду.
Просто как всегда,  результаты нужны вчера.  Думал вдруг что в самом R упускаю
источник

IS

Ilya Shutov in R (язык программирования)
Или большой файл расщепить на 4-5 в консоли
источник

IS

Ilya Shutov in R (язык программирования)
За памятью на Савелу сбегать - вот решение
источник

PU

Philipp Upravitelev in R (язык программирования)
она ж померла вроде, не?
источник

IS

Ilya Shutov in R (язык программирования)
Да можно и в r почитать только часть строк и их засемплировать
источник

А

Анатолий in R (язык программирования)
Вот, как раз в эту сторону мысли были.  Читать по N строк,  сэмплировать и сохранять.
источник

A

Andrey in R (язык программирования)
То monetdblite все, а это вместо нее
источник

A

Andrey in R (язык программирования)
Или утка тоже все? Не слежу за новостями
источник

PU

Philipp Upravitelev in R (язык программирования)
а, я про монетку помнил, а про утку забыл
утка вроде живая еще, ты прав
источник

DK

Dm Kb in R (язык программирования)
duckdb меня лично как-то не впечатлил пока... хотя архитектурно там много вкусного заложено ... как я понял, они пока еще не научились сжимать поколоночно .. в итоге одна и та же таблица в duckdb занимает в оперативе места больше чем объекты R в разы ... если работать с диска, то все равно какое-то странное поведение с перегрузкой по оперативной памяти
источник

DK

Dm Kb in R (язык программирования)
для данных более 10Гб использую пакет fst и всем рекомендую
источник

IS

Ilya Shutov in R (язык программирования)
https://vroom.r-lib.org/reference/vroom.html
Сделать разбивку на несколько блоков с помощью skip & n_max.
Из считанного сделать сэмпл и все блоки аккумулировать в памяти.
А потом сбросить на диск в бинарном виде. С помощью fst или qs.
источник

A

Alexa in R (язык программирования)
Всем привет, помогите пожалуйста.  Что я сделала не так? Почему negatively correlated ("Age"). В опросник нужно было задать свой возраст. А так же , что говорит  низкий raw_alpha? Где моя ошибка?
Пы.сы. некоторые вопросы имели не 5, а 4 варианта ответа( они в данных как 1,2,3,4)
источник

A

Alexa in R (язык программирования)
источник