да неважно это все. архитектура тупа как валенок.
1. есть внешний источник (допустим, bq)
2. можно делать локальный "кэш", если хочется (большой объем данных в запросе, большое время передачи по сети)
3. кэш может быть любом, главное, чтобы устраивал разработчика
локальная БД, apache arrow, просто файлы, ....
хорошо, если можно будет это этого кэша на конкретный процессинг вытаскивать сразу только то, что надо.+ все шлаковые колонки оставлять сразу за бортом.
Все равно все вычисления будут базироваться на данных в оперативке. ВСЕГДА И ДЛЯ ЛЮБОЙ АРХИТЕКТУРЫ