Size: a a a

R (язык программирования)

2021 June 22

ГД

Григорий Демин... in R (язык программирования)
Соглашусь. Я пробовал пару раз работать, засовывая данные в sqllite, но работало неприемлемо медленно и функционально бедно. В результате всегда заканчивалось тем, что нарезал данные на много файлов (fst или qs) и работал с ними.
источник

БА

Байкулов Антон... in R (язык программирования)
А вся структура на одном серваке была?
источник

БА

Байкулов Антон... in R (язык программирования)
И большой ли объем
источник

ГД

Григорий Демин... in R (язык программирования)
Даже на одном ноуте... По объему - сотни миллионов строк. Очень простое NLP на корпусе флибусты. Но в 16 Гб оперативы не влазит
источник

JS

Jury Sergeev in R (язык программирования)
кликхаус спасет всех
источник

JS

Jury Sergeev in R (язык программирования)
это какой то убер, честное слово
источник

JS

Jury Sergeev in R (язык программирования)
только вот делать все в sql - трудно, все только в R - памяти не напасешься
источник

AS

Alexander Semenov in R (язык программирования)
Там даже функция для скоринга данных сохранённой моделью катбуста есть.
источник

AS

Alexander Semenov in R (язык программирования)
А может уже и не только катбуста
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Кто-то сказал кликхаус?))) в нём можно делать абсолютно весь data wrangling внутри одной таблицы. С джоинами только беда, уж лучше в нём причесать табилцы, выгрузить в R и помёржить их в дататейбле
источник

AS

Alexander Semenov in R (язык программирования)
в нём можно делать абсолютно весь data wrangling внутри одной таблицы.

Как и в любом SQL.
источник

AI

Anton I in R (язык программирования)
можно подробнее в чем беда с джоинами? Админы как раз топят за переход с Вертики на КХ, а у нас куча таблиц, которые надо джойнить в запросах
источник

ДВ

Дмитрий Володин... in R (язык программирования)
https://clickhouse.tech/docs/ru/sql-reference/statements/select/join/#performance можно почитать. На практике если джоинить много на много - часто будете иметь OOM. Также не очень поддерживаются неявные джоины. То есть такие, где, например, надо сджоинить по диапазону (в левой табилце точная дата, в правой - начала действия и конец действия признака для ключа соединения). РСУБД здесь выигрывают
источник

ДВ

Дмитрий Володин... in R (язык программирования)
А так у вас весёлые админы, раз сами топят. Или очень скиловые. Из-за оупенсорсности как раз с админской точки зрения с ним и тяжко.
источник

AI

Anton I in R (язык программирования)
спасибо за инфу, будем изучать. Админы топят, что всё будет четко, но запросы всё же пишут аналитики
источник

BA

Bogdan Avramenko in R (язык программирования)
Оконных функций нет (разве что упоротая реализация через массивы), джойны кастрированные, апдейтов нет, полного по Тьюрингу ЯП нет и кучи чего его нет.

По сути это просто эффективная хранилка больших данных. Засунул - выплюнул. Мы под небольшие справочники и мелко-средние всё-таки пострес начали использовать, например.
источник

BA

Bogdan Avramenko in R (язык программирования)
Да и разворачивать клик очень упоротая задача - зоокиперы, шарды, какой-то буфер в виде Кафки. Это удовольствие необходимо для ну очень больших данных.
источник

AS

Alexander Semenov in R (язык программирования)
Ну так никто в здравом уме его в детальный слой DWH ставить и не будет.
источник

BA

Bogdan Avramenko in R (язык программирования)
Ну так люди и говорят о том, что хотят полностью на клик переехать и аналитики делают джойны. Аналитикам придется радикально переучиваться и все на Р делать почти. А это и на производительность влияет, придется лишнее захватывать, например
источник

BA

Bogdan Avramenko in R (язык программирования)
После SQL всё-таки синтаксис дата тэйбла вызывает панику))
источник