Инструмент для извлечения данных таблиц из изображений, написанный с использованием Python. Он эффективно распознаёт данные в таблицах внутри PDF-файлов, сканерных изображений, копий, цветных (чёрно-белых) фотографий, скриншотов и экспортирует их в Excel-файл.
Это открытое программное обеспечение, которое я назвал Any2Excel
. Как следует из названия, цель состоит в том, чтобы извлекать данные таблиц из различных форматов файлов и преобразовывать их в структурированные Excel-файлы.
Высокое качество распознавания, простота использования и широкие возможности применения.
Поддерживает фотографии с мобильных устройств, сканеры, оригиналы, копии и т.д.
pip install -r .\requirements.txt
Установите Poppler и добавьте путь к его bin-файлам в системные переменные.
Скопируйте config+sample.yml
в config.yml
, а затем заполните конфигурационные данные в config.yml
.
Преобразование каждой страницы PDF в JPG-изображение
В данный момент используется только первая страница PDF
Отправка изображения для распознавания с помощью OCR
Преобразование результатов распознавания в Excel-файл
Очистка всех стилей из Excel-файла## Командная строка (CLI)
cd PDF2Excel
python3 pdf2excel.py test.pdf
cd PDF2Excel
python3 image2excel.py capture.jpg
Перетяните нужные для преобразования PDF-файлы или изображения на программу, и она автоматически выполнит преобразование.
*.xlsx
— это Excel-файл со всеми стилями, который может быть слишком большим из-за большого количества стилей.
*.xls
— это Excel-файл без стилей, рекомендуется использовать этот вариант.
Файл config.yml
содержит информацию для авторизации Tencent Cloud.


Благодарю следующие открытые проекты:
pdf2image
PyMuPDF
PyYAML
Laravel-Admin
Каждый участник проекта указан в списке участников.
Если вы заметили уязвимость безопасности в Any2Excel, сообщите мне об этом по адресу famio@qq.com.
Программа распространяется под лицензией MIT.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )