PDF-парсер

Что это?

Программа, которая запускается из командной строки и автоматически извлекает данные из PDF-квитанций коммунальных услуг (в CSV / Excel).

Контекст — Зачем?

Чтобы проверить правильно ли начислены суммы в квитанциях, - из каждой квитанции мне нужны одинаковые данные: объем, тариф, сумма. НО: все квитанции приходят от разных компаний и имеют разный формат.

Spoiler: Да.


Цель => Решение

Автоматизировать извлечение данных из PDF в приведенный к общему виду Excel-отчёт.


Логика — Как это работает

  1. Загружаются PDF-файлы из папки
  2. Определяется тип поставщика (электроэнергия, вода, ТКО и т.д.)
  3. Извлекаются ключевые значения:
    • объём потребления
    • тариф
    • сумма начислений
  4. Данные приводятся к единому формату
  5. Формируется итоговый файл:
    • CSV
    • Excel

[схемка]

Сбор и подготовка данных

типы квитанций


Результат

[gif с демонстрацией]

Сложности и решения

Основная сложность — различие форматов PDF у разных поставщиков. Поэтому под каждый тип квитанции (каждый отдельный PDF-файл) адаптировала отдельную функцию. Т.е. решение пока не унифицировано - нельзя взять любую квитанцию и получить из нее данные. Под каждый новый вид квитанции код нужно адаптировать. Пока что.

На будущее — Идеи для проработки


Инструменты


Файлы

[ссылка на репозиторий]