У меня есть различные виды законных счетов-фактур. Я хочу оцифровать их в листы Excel. Так как их макеты разные и их много, я не могу найти способ с ними справиться. Может ли кто-нибудь дать мне практическое решение?
2 ответа
Нет хорошего решения по разумной цене, о котором я знаю :(
Вы можете попробовать Nuance OmniPage или Abby FlexiCapture (есть настольные версии вплоть до корпоративных версий за $ 100 000). Некоторое время назад я сравнил качество SDK /OCR между ними. Не большая разница, хотя я чувствовал, что Эбби была немного лучше (Нюанс пару раз падал, Эбби - нет).
И OmniPage, и FlexiCapture (FineReader) имеют настольные версии, которые предназначены для преобразования PDF-файлов в редактируемые файлы Excel. Из опыта работы с бесплатными пробными версиями я узнал, что они создают редактируемые файлы Excel, но только для очень качественных, чистых источников. Оба также предлагают функции пакетной обработки.
Также я нашел scanstore.com удивительным ресурсом:
http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/
Если вы ищете открытый исходный код - лучший «движок» - это тессеракт. Вам нужно будет собрать биты целых форм вокруг него. Я немного подумал об этом - и вам нужно:
- Используйте «штрих-коды» или иным образом регистрируйте типы счетов
- Для каждого типа - выяснить, какие части счета являются таблицами
- Обрежьте соответствующую область - и отправьте ее в tesserat/abbyy/nuance
- Верни что-нибудь, что можно разобрать в таблицу
- Применить языковое моделирование (неожиданно Abbyy, Nuance здесь делают ужасную работу)
Да, и к вашему сведению, есть много сервисных компаний «BPO», в которых есть настоящие люди, занимающиеся вводом данных. Это не так дорого, как вы думаете.
Вот некоторые бесплатные программы для распознавания текста: CuneiForm, GOCR, Ocrad, OCRopus, Tesseract. Но результат не так хорош. Но вы можете попробовать FineReader, ExperVision, OmniPage, результат будет лучше. Однако, исходя из моего опыта, вы не можете полагаться на чисто технологическое решение. Если вы хотите контролировать стоимость вашего проекта по разумной цене. Интеграция технологии OCR и человеческих ресурсов - хороший выбор. Насколько я знаю, Expervision может предоставить как настраиваемую технологию OCR, так и услугу BPO, вы можете проверить их в Интернете.Expervision