Size: a a a

R (язык программирования)

2020 September 26

SG

Sergey Gumerov in R (язык программирования)
Коллеги,
подскажите как из R вызвать через командную строку внешнюю программу (*.jar) с некоторым входным параметром
источник

АК

Артём Клевцов... in R (язык программирования)
Sergey Gumerov
Коллеги,
подскажите как из R вызвать через командную строку внешнюю программу (*.jar) с некоторым входным параметром
Поиск в интернете не помог?
источник

AK

Aleksandr Kaskov in R (язык программирования)
Philipp Upravitelev
попробуйте
Нужны материалы для подготовки к универсиаде по биологии)
источник

PU

Philipp Upravitelev in R (язык программирования)
Sergey Gumerov
Коллеги,
подскажите как из R вызвать через командную строку внешнюю программу (*.jar) с некоторым входным параметром
system() или system2()
источник

JS

Jury Sergeev in R (язык программирования)
Andrey
Я был неприятно удивлен, приходится cut, awk и всякие csvkit использовать чтобы просто прочитать часть столбцов из большого файла.
Вот как раз всякие паркеты и спарки для этого, читают только то что надо для вычислений... Но csv в паркет перегнать бы, я это пентахой делал
источник

SG

Sergey Gumerov in R (язык программирования)
Philipp Upravitelev
system() или system2()
Спасибо
источник

АК

Артём Клевцов... in R (язык программирования)
Jury Sergeev
Вот как раз всякие паркеты и спарки для этого, читают только то что надо для вычислений... Но csv в паркет перегнать бы, я это пентахой делал
Через sparklyr можно перегнать.
источник

АК

Артём Клевцов... in R (язык программирования)
источник

JS

Jury Sergeev in R (язык программирования)
Так csv в память не влезает же
источник

JS

Jury Sergeev in R (язык программирования)
Впрочем можно и спарком попытаться, разок, из csv в спарк дата фрейм и из него в паркет
источник
2020 September 27

UT

Unknown T. in R (язык программирования)
Добрый вечер! У меня есть матрица MxN вида
1 8 3 9 0 ...
9 1 8 2 1 ...
...
Я хочу вывести её как тепловую карту, т. е. чтобы было MxN цветных квадратиков, чем выше число в матрице, тем насыщеннее цвет. Что вы можете порекомендовать для этой цели? Пробовал heatmap, там всё кластеризуется и перемешивается, мне нужно, чтобы выводилось как есть. Ещё пробовал ggplot, но ему нужно подавать данные не в виде матрицы, а в виде векторов.
источник

IT

Inip Tyig in R (язык программирования)
R — весьма годный инструмент для манипуляций с данными, так что необходимость преобразования типов/форматов не должен быть препятствием к реализации замысла. Ну и поиска по картинкам бояться не нужно. Я просто поискал так: https://clck.ru/R67SB и выбрал что понравилось: https://www.r-graph-gallery.com/79-levelplot-with-ggplot2.html . 5 минут и voilà: https://pastebin.com/u5mw0bUh
источник

IT

Inip Tyig in R (язык программирования)
источник

IT

Inip Tyig in R (язык программирования)
так получится если еще переменную «цвета» в фактор перегнать
источник

fj

fedor jilkin in R (язык программирования)
Unknown T.
Добрый вечер! У меня есть матрица MxN вида
1 8 3 9 0 ...
9 1 8 2 1 ...
...
Я хочу вывести её как тепловую карту, т. е. чтобы было MxN цветных квадратиков, чем выше число в матрице, тем насыщеннее цвет. Что вы можете порекомендовать для этой цели? Пробовал heatmap, там всё кластеризуется и перемешивается, мне нужно, чтобы выводилось как есть. Ещё пробовал ggplot, но ему нужно подавать данные не в виде матрицы, а в виде векторов.
В heatmap в настройках можно поставить,чтоб не кластеризовалось и не перемешивалось
источник

UT

Unknown T. in R (язык программирования)
Спасибо большое, буду пробовать!
источник

A

Andrey in R (язык программирования)
Вдруг кому интересно, небольшой фидбек. Тестировал на винде.
1) Файл весом 100 Гб (18kk x 29) на ПК с 32 Гб ОЗУ обработать таким образом можно.
2) По времени на среднем по скорости SATA SSD формирование disk.frame-а занимает порядка 1.5 ч. ОЗУ расходуется вся, но ничего не виснет и не падает. Это все с backend = "data.table" и chunk_reader = "bigreadr". Такой вариант вроде бы должен быть самым быстрым, дополнительно ускориться теоретически можно путем использования более скоростных SSD, разместив исходник и итоговую папку на разных дисках.
3) Чтобы избежать создания временных файлов на системном диске, нужно задать переменную TMPDIR (например, в .Renviron).
4) Запас места должен быть не 2-х, как можно было ожидать, а 3-х кратным, плюс место под исходный файл. В моем случае SSD на полтерабайта был забит почти полностью: 100 Гб исходник, около 90 Гб итоговая папка c .fst-файлами, и примерно 200 Гб во время работы ушло под временные файлы. Из этих 200 Гб во временной папке было видно половину, и еще 100 Гб болтались непонятно где, видимо в виде скрытых файлов каких-то.
5) Можно пожертвовать скоростью и избежать создания (всех?) временных файлов при помощи backend = "LaF".
источник

ГД

Григорий Демин... in R (язык программирования)
Andrey
Вдруг кому интересно, небольшой фидбек. Тестировал на винде.
1) Файл весом 100 Гб (18kk x 29) на ПК с 32 Гб ОЗУ обработать таким образом можно.
2) По времени на среднем по скорости SATA SSD формирование disk.frame-а занимает порядка 1.5 ч. ОЗУ расходуется вся, но ничего не виснет и не падает. Это все с backend = "data.table" и chunk_reader = "bigreadr". Такой вариант вроде бы должен быть самым быстрым, дополнительно ускориться теоретически можно путем использования более скоростных SSD, разместив исходник и итоговую папку на разных дисках.
3) Чтобы избежать создания временных файлов на системном диске, нужно задать переменную TMPDIR (например, в .Renviron).
4) Запас места должен быть не 2-х, как можно было ожидать, а 3-х кратным, плюс место под исходный файл. В моем случае SSD на полтерабайта был забит почти полностью: 100 Гб исходник, около 90 Гб итоговая папка c .fst-файлами, и примерно 200 Гб во время работы ушло под временные файлы. Из этих 200 Гб во временной папке было видно половину, и еще 100 Гб болтались непонятно где, видимо в виде скрытых файлов каких-то.
5) Можно пожертвовать скоростью и избежать создания (всех?) временных файлов при помощи backend = "LaF".
Интересно, а какие операции надо было сделать? Есть ещё такая штука - https://cran.r-project.org/web/packages/chunked/index.html Обрабатывает csv файлы по кускам, не загружая в память
источник

A

Andrey in R (язык программирования)
мне надо было всего-то выбрать несколько столбцов, которые затем уже нормально  помещаются в память
источник

A

Andrey in R (язык программирования)
using the 'LaF' package. то же самое можно использовать в disk.frame. Но будет работать медленнее, потому что в 1 поток
источник