18

У меня есть рабочий процесс, при котором я сканирую бумажные документы в PDF-файлы с возможностью поиска, используя сканер документов Fujitsu ScanSnap S500 . Я не большой поклонник прилагаемого программного обеспечения, но его очень просто использовать: положите стопку бумаги вверху, нажмите зеленую кнопку и появится PDF-файл с возможностью поиска.

Теперь я хотел бы сделать нечто подобное в Linux (Ubuntu 10.10). Сканер поддерживается из коробки.

Я посмотрел на gscan2pdf и XSane:

  • XSane выглядит мощным, но не совсем подходящим решением для рабочего процесса;
  • gscan2pdf немного ближе к идеалу «нажми кнопку, получи PDF», но все же не на 100%.

Любое другое программное обеспечение, которое вы можете порекомендовать (бесплатное или иное)?

1 ответ1

18

Вот некоторые вещи, которые я обнаружил, исследуя это ранее в этом году. Извините, я не могу опубликовать более одной гиперссылки из-за моего ограниченного рейтинга, поэтому вам придется обратиться в Google за ссылками.

gscan2pdf

Действительно хорошая система графического интерфейса, которая может использовать различные механизмы OCR для бэкэнда. Это, вероятно, будет соответствовать вашему решению в одно касание (и digitxp уже упоминал об этом).

Tesseract OCR Engine

Может использоваться с gscan2pdf.

Ocropus

Я не очень далеко продвинулся в работе с ocropus, так как он не распознавал текст без тщательной подготовки. Это, вероятно, было бы очень хорошо для книг, но не помогло мне с счетами и тому подобным. YMMV.

клинопись

Я имел лучший успех с Cuneiform и смог создать PDF с возможностью поиска с помощью команд сценариев, подобных следующему рабочему процессу:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Вам также нужно будет установить пакет exactimage.

Различные проекты с открытым исходным кодом для распознавания PDF используют Cuniform и hocr2pdf :

  • WatchOCR
  • Archivista

Дайте мне знать, что вы узнаете!

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .