ID:282687363
@art_vybor,
@fediq,
@pklemenkov спасибо. Про то, что если хранить где-то совсем сбоку, то теряется локальность данных, и про то, что на CH сложно делать ETL от сырых данных до сложных агрегатов, но если кто-то добрый уже записал, то CH проживёт из без Spark - хорошие пойнты:)
Вот тут недопонимание. С точки зрения data locality не бывает совсем и не совсем сбоку. :)
Бывает либо данные на той же ноде (локальные), либо на другой ноде (не локальные). Между этими двумя стейтами - пропасть. От того, насколько далеко данные, уже не так значимо всё меняется.
При этом, если поставить на одну машину две разнородные системы (например, Spark и ClickHouse), скорее всего, будет ещё хуже - хоть Spark и не сможет получать преимущества от локальности при планировании вычислений, зато ClickHouse будет мало памяти и посторонние нагрузки на диск.