Так данные так разложены в памяти, что биты лежат отдельно. Например, первые биты лежат в одном массиве, а вторые в другом.
Ну и чтобы избегать false sharing, надо будет читать в память кешлайн, в котором ничего кроме этих "битов" нет, -- это неэффективно, когда тут разговоры о таком алгоритме