Хехе, у меня по этому поводу есть забавный случай. Я был молод и горяч и надо было попарсить и повытягивать всякого из огромаднейшего отчета по биллингу от AWS. Кто его видел, тот поймет, это тот, который в csv выгружается. Штатный openoffice, у всех установленный, прожевать это не смог. Старенький 32-битный офис тоже падал (2003 кажется), переполнение там где-то случалось.
Я, как умный специалист с бэкграундом, поднял локально spark, залил в него все, написал там на питончике выборки и прочее. Ну, оно работало, но спарк и все такое. Тяжеленькое в общем.
В тот же примерно момент мой шеф просто купил лицуху последнего 64-битного офиса, накатил на винду и сделал то же самое в эксельке, 64 битная ее версия не падала на этом объеме. Примерно в тот момент я кажется что-то понял:)
Ну, зато у меня была причина таки попробовать pyspark, он тогда только-только появился.