1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/rockyzheng-document-ocr

Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Документ-OCR

Github

Относительно полный проект анализа и распознавания документов, который включает в себя следующие пять частей:

  1. Анализ данных документа;
  2. Инструмент синтеза данных распознавания;
  3. Модель анализа макета документа;
  4. Модель распознавания текстовых строк;
  5. Модель распознавания отдельных слов.

Данные

Данные генерируются путём анализа открытых годовых отчётов публичных компаний, доступных в сети в формате PDF. Данные содержат информацию о местоположении изображений и текста.

Пример образца

Скачать с диска, код извлечения: nn1g

Текстовые данные помечены для текстовых строк. Некоторые данные могут содержать некоторые дефекты. Всего имеется 34 000 образцов.

Можно создать данные для распознавания текстовых строк на основе помеченных данных.

Синтез данных распознавания

Инструмент синтеза данных для отдельных слов и текстовых строк может эффективно фильтровать символы, которые не поддерживаются шрифтом.

Реализация соответствующих алгоритмов

Весь код зависит от Tensorflow 1.14 и opencv 3.x.

  1. Анализ макета
  2. Распознавание текстовых строк
  3. Распознавание отдельных слов

Примечание

  • В коде есть много мест, требующих доработки, они здесь не перечислены. Приглашаем к обсуждению различных проблем.

  • Во многих параметрах кода не указано использование командной строки, например, learning_rate и т. д. Рекомендуется внимательно прочитать код при использовании.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Проект анализа и распознавания относительно полного документа. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/rockyzheng-document-ocr.git
git@api.gitlife.ru:oschina-mirror/rockyzheng-document-ocr.git
oschina-mirror
rockyzheng-document-ocr
rockyzheng-document-ocr
master