🛠
Как распознать 2 тысячи табличек и не умереть
GIJN — Глобальная сеть журналистов-расследователей — включила
наш материал о войне в Украине в
топ-10 лучших расследований августа в странах СНГ. Делимся лайфхаками о технологической начинке этой работы.
В начале были таблички. Чтобы узнать, как часто за последние шесть лет в Донбассе случались обострения, мы выгрузили с сайта ОБСЕ более двух тысяч pdf-файлов с отчетами о нарушениях режима прекращения огня.
Быстро стало понятно, что обработать такой объем pdf вручную невозможно. Мы расчехлили библиотеку Python Camelot – она лучше всего справляется с распознаванием объединенных ячеек в таблицах. Думали: сейчас быстренько все распознаем, напишем заметку. Но оказалось, что за эти годы миссия ОБСЕ несколько раз меняла структуру отчетов и формат их публикаций. При распознавании получалась каша.
В итоге нам пришлось придумать несколько алгоритмов выгрузки файлов. Потом — найти все возможные варианты форматов таблиц и периоды их использования. Ну и часть отчетов все-таки оказались изображениями.
Ошибок при распознавании тоже вышло много. Объединенные по вертикали ячейки часто переходили с одной страницы на другую и распознавались неправильно. Таблицы все равно пришлось долго чистить и сверять с исходниками вручную.
Вывод простой:
е̶с̶л̶и̶ ̶х̶о̶ч̶е̶ш̶ь̶ ̶з̶а̶н̶и̶м̶а̶т̶ь̶с̶я̶ ̶д̶а̶т̶а̶-̶ж̶у̶р̶н̶а̶л̶и̶с̶т̶и̶к̶о̶й̶,̶ ̶н̶а̶д̶о̶ ̶с̶т̶р̶а̶д̶а̶т̶ь̶ е̶с̶л̶и̶ ̶х̶о̶ч̶е̶ш̶ь̶ ̶з̶а̶н̶и̶м̶а̶т̶ь̶с̶я̶ ̶д̶а̶т̶а̶-̶ж̶у̶р̶н̶а̶л̶и̶с̶т̶и̶к̶о̶й̶,̶ ̶н̶а̶д̶о̶ ̶с̶т̶р̶а̶д̶а̶т̶ь̶
возможность автоматизации очень сильно зависит от качества данных, с которыми вы работаете.
Рекомендуем
смотреть исследование на десктопе.