1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/celaraze-any-to-excel

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Any2Excel

Инструмент для извлечения данных таблиц из изображений, написанный с использованием Python. Он эффективно распознаёт данные в таблицах внутри PDF-файлов, сканерных изображений, копий, цветных (чёрно-белых) фотографий, скриншотов и экспортирует их в Excel-файл.

Это открытое программное обеспечение, которое я назвал Any2Excel. Как следует из названия, цель состоит в том, чтобы извлекать данные таблиц из различных форматов файлов и преобразовывать их в структурированные Excel-файлы.

Высокое качество распознавания, простота использования и широкие возможности применения.

Поддерживает фотографии с мобильных устройств, сканеры, оригиналы, копии и т.д.

Быстрый старт

Установка зависимостей через pip

pip install -r .\requirements.txt

Внешние зависимости

Установите Poppler и добавьте путь к его bin-файлам в системные переменные.

Настройка Tencent Cloud

Скопируйте config+sample.yml в config.yml, а затем заполните конфигурационные данные в config.yml.

Принцип работы

  • Преобразование каждой страницы PDF в JPG-изображение

  • В данный момент используется только первая страница PDF

  • Отправка изображения для распознавания с помощью OCR

  • Преобразование результатов распознавания в Excel-файл

  • Очистка всех стилей из Excel-файла## Командная строка (CLI)

Преобразование PDF в Excel

cd PDF2Excel
python3 pdf2excel.py test.pdf

Преобразование изображения в Excel

cd PDF2Excel
python3 image2excel.py capture.jpg

Визуальное управление

Перетяните нужные для преобразования PDF-файлы или изображения на программу, и она автоматически выполнит преобразование.

Выходные файлы

*.xlsx — это Excel-файл со всеми стилями, который может быть слишком большим из-за большого количества стилей.

*.xls — это Excel-файл без стилей, рекомендуется использовать этот вариант.

Конфигурация

Файл config.yml содержит информацию для авторизации Tencent Cloud.

Демонстрация

Анимация

Изображение в Excel

PDF в Excel

Сравнение скриншотов

Исходный файл

![](https://www.famio.cn/img/posts/ Yöntem 14/1.jpg)

После извлечения

![](https://www.famio.cn/img/posts/Yöntem 14/2.jpg)

Контрибьюторы

Благодарю следующие открытые проекты:

pdf2image

PyMuPDF

PyYAML

Laravel-Admin

Каждый участник проекта указан в списке участников.

Безопасность

Если вы заметили уязвимость безопасности в Any2Excel, сообщите мне об этом по адресу famio@qq.com.

Лицензия

Программа распространяется под лицензией MIT.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Инструмент для извлечения табличных данных из изображений, написанный на Python. Эффективно распознаёт таблицы в PDF-документах, отсканированных документах, цветных и чёрно-белых фотографиях, а также в скриншотах. После извлечения данные преобразуются в файл Excel. Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/celaraze-any-to-excel.git
git@api.gitlife.ru:oschina-mirror/celaraze-any-to-excel.git
oschina-mirror
celaraze-any-to-excel
celaraze-any-to-excel
master