Size: a a a

R (язык программирования)

2021 June 12

A

Andrey in R (язык программирования)
не, ну если на какой-то ОС library(data.table) не пишет про потоки, то это можно понять
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Просто вы говорите, что посмотрели руководство. А в руководстве есть функция setDTthreads. Она и нужна. Дальше, я думаю, понятно, сколько потоков выставлять
источник

A

Andrey in R (язык программирования)
в моем переводе нету, там довольно старые исходные виньетки использовались
источник

R

Rus in R (язык программирования)
я вот это руководство просмотрел https://t.me/rlang_ru/70770 там нет ничего про потоки
источник

ДВ

Дмитрий Володин... in R (язык программирования)
А, да?)) не знал))
источник

A

Andrey in R (язык программирования)
это 2015-2016 гг
источник

ДВ

Дмитрий Володин... in R (язык программирования)
О пользе английского языка. Свежая информация почти всегда на английском
источник

R

Rus in R (язык программирования)
это понятно. Но если есть на русском , то почему отказываться тем более если перевод хороший... Не знал что это 2015 год
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Ответ в вашем последнем предложении. Короче, воспользуйтесь setDTthreads
источник

R

Rus in R (язык программирования)
Сделал однопоток. Все равно ошибка....
Первую таблицу на 6 млн строк нормально загрузило, а вторая не прошла...
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Возможно оперативной памятью сервера с базой пользуется не только ваш процесс по загрузке. Возможно там ещë куча фоновых процессов (разложить по партициям, мало ли что ещë)
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Я к тому, что копать надо глубже и дело тут вряд ли в R
источник

ДВ

Дмитрий Володин... in R (язык программирования)
К тому же есть системы управления базами данных, которые наоборот лучше работают, если вставлять много, а не по строчке. Потому что каждая вставка инициирует кучу процессов в фоне. И вот вы, не дожидаясь окончания фоновых процессов, вставляете следующую пачку. А вся оперативка занята ещё фоновой обработкой предыдущей пачки
источник

R

Rus in R (язык программирования)
сейчас залили обе эти большие таблицы по 6 млн строк через питон чанками по 100 тыс строк.  Никаких проблем не возникло... А через R эти же таблицы не заливаются даже чанками по 50 тыс строк..

Думаю тут дело именно в настройках data.table в R или может в найтройках dbi ...
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Ха, у вас кликхаус. У него очень много процессов под капотом идëт. И дело тут точно не в питоне или Р
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Просто так совпало, что в момент работы питона памяти было побольше
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Полезные запросы в кликхаусе: SHOW PROCESSLIST (текущие запросы показывает с метриками, в том числе память на запрос), посмотрите системную таблицу с мëрджами (system.merges). Показывает, какие мëрджи (объединения партов, сортировка, чистка) сейчас идут на сервере. Эти мëрджи бывают очень затраты по ресурсам
источник

R

Rus in R (язык программирования)
это врядли. в питоне 100% случаев обе таблицы проходят. в R ни разу!
источник

R

Rus in R (язык программирования)
я уже долго экспериментирую:)
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Поверьте человеку, который почти 24/7 работает с кликхаусом. И попробуйте вставить данные не через DBI , а post запросом.
источник