я недавно проект делал, парсил полугигабайтовые пдф файлы, 2.5 гб озу выжрал как пальцем в розетку. Разбил их на 5 частей по 40-100 мб, начал удалять референсы, gc.collect(), стало жрать до 800 мб на один файл. Меньше уже никак не получилось.
я недавно проект делал, парсил полугигабайтовые пдф файлы, 2.5 гб озу выжрал как пальцем в розетку. Разбил их на 5 частей по 40-100 мб, начал удалять референсы, gc.collect(), стало жрать до 800 мб на один файл. Меньше уже никак не получилось.
я на этом проекте увидел настоящую разницу между regex и find(). Я изначально регексом направо и налево кидался и один такой файл парсился больше 4 часов. Переписал на поиск нужной инфы в find() и он закончил через 1 минуту.