OSCHINA-MIRROR/paddlepaddle-PaddleOCR

Введение

Цель PaddleOCR — создание многоязычных, впечатляющих, передовых и практически применимых средств распознавания текста (OCR), которые помогут пользователям обучать лучшие модели и применять их на практике.

Сообщество

PaddleOCR находится под наблюдением PMC. Отчеты о проблемах и запросы на слияние будут рассматриваться по мере возможности. Для полной информации о сообществе PaddlePaddle обратитесь к сообществу.

⚠️ Обратите внимание: модуль Issues предназначен только для отчета о программных 🐞 багах. Все остальные вопросы следует направлять в раздел Discussions. Если указанная проблема не является багом, она будет перемещена в раздел Discussions.

Последние обновления (более подробно)

Версия 2.9 выпущена 18 октября 2024 года, включает:
- PaddleX, универсальный инструмент разработки на основе передовой технологии PaddleOCR, поддерживающий низкокодовое полное процессное развитие в области OCR:
  - Богатый модельный однонажатие вызов: Интегрировано 17 моделей связанных с анализом текстового изображения, общего OCR, общего анализа компонентов, распознавания таблиц, формул и печатей в 6 конвейерах, которые можно быстро протестировать через простой вызов Python API одним щелчком мыши. Кроме того, тот же набор API также поддерживает всего 200+ моделей в классификации изображений, детекции объектов, сегментации изображений и прогнозировании временных рядов, образуя более 20 одиночных функциональных модулей, что делает удобным использование комбинаций моделей для разработчиков.
  - Высокую эффективность и низкий порог входа: Предоставляет два метода на основе унифицированных команд и графического интерфейса для достижения простого и эффективного использования, комбинирования и кастомизации моделей. Поддерживает различные способы развёртки, такие как высокопроизводительное выполнение, сервисное развёртывание и развёртывание на краях сети. Добавочно, для различных основных аппаратных платформ, таких как NVIDIA GPU, Kunlunxin XPU, Ascend NPU, Cambricon MLU и Haiguang DCU, модели могут быть разработаны с безболезненным переключением.
- Поддержка PP-ChatOCRv3-doc, высокоакуратной модели детекции компонентов на основе RT-DETR и высокоэффективной модели детекции областей компонентов на основе PicoDet, высокоакуратной модели распознавания структуры таблиц, модели развертки текстового изображения UVDoc, модели распознавания формул LatexOCR, и модели классификации ориентации документа на основе PP-LCNet.
Добавлены решения победителей конкурса алгоритмических моделей PaddleOCR 2024.7:
- Конкурс №1, решение победителя задачи конца-конца распознавания текста: Алгоритм распознавания текста SVTRv2;
- Конкурс №2, решение победителя задачи распознавания общих таблиц: Алгоритм распознавания таблиц SLANet-LCNetV2.

Документация

Полная документация доступна на странице документации.

Возможности

PaddleOCR поддерживает множество современных алгоритмов, связанных с OCR, и разрабатывает промышленные модели/решения PP-OCR, PP-Structure и PP-ChatOCR на этой основе, проходя весь процесс производства данных, обучения моделей, сжатия, вывода и развёртывания.

Рекомендуется начать с быстрой проверки в руководстве по документации

Быстрое начало работы

Технические обсуждения и сотрудничество

PaddleX предоставляет полнофункциональную высокопроизводительную платформу для обучения моделям, тестирования и развёртывания на базе экосистемы PaddlePaddle. Его цель — помочь технологиям искусственного интеллекта быстро внедриться, а его видение — сделать каждого человека разработчиком AI!- PaddleX охватывает области, такие как классификация изображений, детекция объектов, сегментация изображений, 3D, OCR и прогнозирование временных рядов, и имеет встроенные 36 базовых моделей, таких как RP-DETR, PP-YOLOE, PP-HGNet, PP-LCNet, PP-LiteSeg и так далее; интегрированы 12 практических промышленных решений, таких как PP-OCRv4, PP-ChatOCR, PP-ShiTu, PP-TS, детекция отходов на дорогах, идентификация запрещённых товаров дикой природы и так далее.

PaddleX предлагает две модели развития AI: "Коробочный режим" и "Разработчик". Коробочный режим позволяет настраивать ключевые гиперпараметры без кода, а режим разработчика позволяет выполнять обучение одной модели, развёртывание и последовательное вывод модели нескольких моделей с минимальным количеством кода, и поддерживает как облачные, так и локальные терминалы.
PaddleX также поддерживает совместное инновационное развитие и получение дохода! В настоящее время PaddleX быстро эволюционирует и приветствует участие индивидуальных разработчиков и корпоративных разработчиков для создания процветающей экосистемы технологий искусственного интеллекта!

📚 Электронная книга: Исследование OCR

Исследование OCR

🎖 Контрибьюторы

⭐️ Звезда

🇷🇺 Руководство по новым языкам

Если вы хотите запросить поддержку нового языка, необходим PR с 1 следующими файлами:

В папке ppocr/utils/dict, необходимо представить текстовый словарь в этом пути и назвать его {язык}_dict.txt, содержащий список всех символов. Пожалуйста, обратитесь к примеру формата из других файлов в этой папке.

Если ваш язык имеет уникальные элементы, пожалуйста, сообщите мне заранее любыми способами, такими как полезные ссылки, Википедия и так далее.

Для получения более подробной информации обратитесь к плану развития многоязычного OCR.

📄 Лицензия

Этот проект выпускается под лицензией Apache License Version 2.0.