PDF-парсер

Что это?

Программа, которая запускается из командной строки и автоматически извлекает данные из PDF-квитанций коммунальных услуг в CSV / Excel.

[gif show]

Контекст — Зачем?

  1. Есть инструмент для проверки (Инструмент Проверки Коммунальных Счетов)

  2. Чтобы проверить правильно ли начислены суммы в квитанциях, - из каждой квитанции мне нужны одинаковые данные: объем, тариф, сумма. НО: все квитанции приходят от разных компаний и имеют разный формат.


Цель => Решение

Исследовать возможность одновременного извлечения данных из нескольких файлов.

=> Создание парсера.

Логика — Как это работает

  1. В папке лежат pdf.
  2. Использование командной строки для запуска парсера.
  3. Открывается Excel файл с объединенными данными.

=> Логика парсера

  1. Загружаются PDF-файлы из папки
  2. Определяется тип поставщика (электроэнергия, вода, ТКО и т.д.)
  3. Извлекаются ключевые значения:
    • объём потребления
    • тариф
    • сумма начислений
  4. Данные приводятся к единому формату
  5. Формируется итоговый файл:
    • CSV
    • Excel

[схемка]

Сбор и подготовка данных

типы квитанций


Результат

[gif с демонстрацией]

Сложности и решения

Основная сложность — различие форматов PDF у разных поставщиков. Поэтому под каждый тип квитанции (каждый отдельный PDF-файл) адаптировала отдельную функцию. Т.е. решение пока не унифицировано - нельзя взять любую квитанцию и получить из нее данные. Под каждый новый вид квитанции код нужно адаптировать. Пока что.

На будущее — Идеи для проработки


Инструменты

Файлы

[ссылка на репозиторий]