Словари такого размера очень много кушают памяти (ОЧЕНЬ МНОГО ПАМЯТИ) и очень медленно перегружаются.
Я полностью дублирую таблицы которые надо джойнить на все шарды. Чтобы джойнить локально ничего не скачивая, и шарды параллельно обрабатывали левую таблицу и группировали и отсылали на инициатор маленькие результаты.
Когда будет доступен merge Join все ускорится если правая таблица отсортирована по ключу джойна.
здравствуйте, можно вопрос, я правильно понимаю, что если какую-то таблицу небольшую, которую надо джойнить делать на каждом шарде, делать поверх шардированных таблиц Distributed таблица, то сервер без дополнительных ухищрений с моей стороны, при джойне левой distributed таблицы и правой distributed таблицы, которая есть на каждом шарде, будет делать на каждом шарде, и потом объединит результаты, а вот если правая таблиц только на одном шарде, то для левой таблицы он потащить на один шард все данные левой таблицы и джойнит там? Группировку данных он тоже будет делать на шардах, если правая таблица есть на всех шардах?