Привет, вопрос:
Если я выдаю экзекьютору 3 гб и еще немного отсыпаю на overhead.
Затем кеширую какой-то нибудь df.
Cоответственно, на каждом экзекьюторе кешируется только та часть df, которая на нем есть, или на каждый экзекьютор приедет весь df, чтобы в памяти каждого экзекьютора был весь df?
Или я сильно запутался и ошибся?
если ты хочешь чтобы весь df был в памяти каждого экзекьютора (например у тебя есть словарик на 10 значений и ты хочешь быстрый broadcast hash join), то можно так же сделать не df.cache()
, а broadcast(df)