Телеграмм чат группы rlang

И вот ещё: https://github.com/cwida/duckdb/issues/464
Тут тоже говорится, что лимит не работает.

Unexpected memory behavior in R? · Issue #464 · cwida/duckdb

First off: Thank you for starting such an amazing project. I'm observing some unexpected behavior when creating DuckDB databases from R. When creating the database from some in-memory objec...

12:47пожаловаться #1

Спасибо, значит, "утка" пока что совсем неюзабельна для условной бигдаты

14:01пожаловаться #2

А что у нас есть рабочего, чтобы вжух и залить 100 Гб csv в БД на машине с 23 Гб памяти?

14:02пожаловаться #3

Я был неприятно удивлен, приходится cut, awk и всякие csvkit использовать чтобы просто прочитать часть столбцов из большого файла.

14:04пожаловаться #4

АК

Пилить на чанки.

14:04пожаловаться #5

fread требует аллоцировать память под всю таблицу, даже если нужно 500 Мб из 100 Гб прочитать. vroom индексирует файл полдня.

14:04пожаловаться #6

АК

Для консоли есть более приличная штуковина: https://github.com/BurntSushi/xsv

A fast CSV command line toolkit written in Rust. Contribute to BurntSushi/xsv development by creating an account on GitHub.

BurntSushi/xsv

14:05пожаловаться #7

Артём Клевцов

Пилить на чанки.

https://github.com/xiaodaigh/disk.frame испытаю щас

Fast Disk-Based Parallelized Data Manipulation Framework for Larger-than-RAM Data - xiaodaigh/disk.frame

xiaodaigh/disk.frame

14:06пожаловаться #8

АК

https://github.com/xiaodaigh/disk.frame испытаю щас

Fast Disk-Based Parallelized Data Manipulation Framework for Larger-than-RAM Data - xiaodaigh/disk.frame

xiaodaigh/disk.frame

Толстый он.

Jury Sergeev in R (язык программирования)

14:09пожаловаться #9

Спасибо, значит, "утка" пока что совсем неюзабельна для условной бигдаты

Собсно я помчался, и таки спарк и sparklyr юзабельней пока что

17:33пожаловаться #10

Jury Sergeev

Собсно я помчался, и таки спарк и sparklyr юзабельней пока что

без HDFS нормально работает? В смысле, spark_read_csv(sc, "db.csv", memory = FALSE) в локальном варианте достаточно?

17:47пожаловаться #11

АК

Утку вроде чинят. Есть ветка, которая не выжирает всю память.
https://github.com/cwida/duckdb/issues/825#issuecomment-699482959

17:48пожаловаться #12

sticker.webp

(22.41 Кб)

Aleksandr Kaskov in R (язык программирования)

17:49пожаловаться #13

Привет! Я могу задать вопрос не по R, но находящийся рядом?😃

Philipp Upravitelev in R (язык программирования)

17:57пожаловаться #14

попробуйте

Jury Sergeev in R (язык программирования)

18:17пожаловаться #15

без HDFS нормально работает? В смысле, spark_read_csv(sc, "db.csv", memory = FALSE) в локальном варианте достаточно?

Да, норм, но я из пожатого паркета читал, оч.шустро все

18:31пожаловаться #16

спасибо, попробую еще и так

Oleg Serikov in R (язык программирования)

18:33пожаловаться #17

https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html

Adamdrake

Command-line Tools can be 235x Faster than your Hadoop Cluster

Introduction As I was browsing the web and catching up on some sites I visit periodically, I found a cool article from Tom Hayden about using Amazon Elastic Map Reduce (EMR) and mrjob in order to compute some statistics on win/loss ratios for chess games he downloaded from the millionbase archive, and generally have fun with EMR. Since the data volume was only about 1.75GB containing around 2 million chess games, I was skeptical of using Hadoop for the task, but I can understand his goal of learning and having fun with mrjob and EMR.

18:34пожаловаться #18

АК

https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html

Oleg Serikov

Adamdrake

Command-line Tools can be 235x Faster than your Hadoop Cluster

GNU утилиты заоптимизированы по самое не могу и даже чуть больше.

18:36пожаловаться #19

Если бы еще у awk синтаксис чуть больше был похож на нормальный ЯП, а не на машинные коды...