Size: a a a

R (язык программирования)

2020 September 26

АК

Артём Клевцов... in R (язык программирования)
И вот ещё: https://github.com/cwida/duckdb/issues/464
Тут тоже говорится, что лимит не работает.
источник

A

Andrey in R (язык программирования)
Спасибо, значит, "утка" пока что совсем неюзабельна для условной бигдаты
источник

A

Andrey in R (язык программирования)
А что у нас есть рабочего, чтобы вжух и залить 100 Гб csv в БД на машине с 23 Гб памяти?
источник

A

Andrey in R (язык программирования)
Я был неприятно удивлен, приходится cut, awk и всякие csvkit использовать чтобы просто прочитать часть столбцов из большого файла.
источник

АК

Артём Клевцов... in R (язык программирования)
Пилить на чанки.
источник

A

Andrey in R (язык программирования)
fread требует аллоцировать память под всю таблицу, даже если нужно 500 Мб из 100 Гб прочитать. vroom индексирует файл полдня.
источник

АК

Артём Клевцов... in R (язык программирования)
Для консоли есть более приличная штуковина: https://github.com/BurntSushi/xsv
источник

A

Andrey in R (язык программирования)
Артём Клевцов
Пилить на чанки.
источник

АК

Артём Клевцов... in R (язык программирования)
Толстый он.
источник

JS

Jury Sergeev in R (язык программирования)
Andrey
Спасибо, значит, "утка" пока что совсем неюзабельна для условной бигдаты
Собсно я помчался, и таки спарк и sparklyr юзабельней пока что
источник

A

Andrey in R (язык программирования)
Jury Sergeev
Собсно я помчался, и таки спарк и sparklyr юзабельней пока что
без HDFS нормально работает? В смысле, spark_read_csv(sc, "db.csv", memory = FALSE) в локальном варианте достаточно?
источник

АК

Артём Клевцов... in R (язык программирования)
Утку вроде чинят. Есть ветка, которая не выжирает всю память.
https://github.com/cwida/duckdb/issues/825#issuecomment-699482959
источник

A

Andrey in R (язык программирования)
источник

AK

Aleksandr Kaskov in R (язык программирования)
Привет! Я могу задать вопрос не по R, но находящийся рядом?😃
источник

PU

Philipp Upravitelev in R (язык программирования)
попробуйте
источник

JS

Jury Sergeev in R (язык программирования)
Andrey
без HDFS нормально работает? В смысле, spark_read_csv(sc, "db.csv", memory = FALSE) в локальном варианте достаточно?
Да, норм, но я из пожатого паркета читал, оч.шустро все
источник

A

Andrey in R (язык программирования)
спасибо, попробую еще и так
источник

OS

Oleg Serikov in R (язык программирования)
Andrey
Я был неприятно удивлен, приходится cut, awk и всякие csvkit использовать чтобы просто прочитать часть столбцов из большого файла.
источник

АК

Артём Клевцов... in R (язык программирования)
GNU утилиты заоптимизированы по самое не могу и даже чуть больше.
источник

A

Andrey in R (язык программирования)
Если бы еще у awk синтаксис чуть больше был похож на нормальный ЯП,  а не на машинные коды...
источник