5

Возможный дубликат:
Как извлечь текст с помощью OCR из PDF в Linux?

У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF.

Есть ли какая-нибудь бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF и выполнять OCR, по крайней мере, на английском языке, предпочтительно также на иврите?

Спасибо!

3 ответа3

1

Я нашел интересную идею, которая позволяет Google выполнять всю работу по распознаванию PDF-файлов для вас.

1

Я нашел список бесплатных программ для распознавания текста для Windows.

  1. FreeOCR
  2. Тессеракт
  3. WeOcr Tesseract Веб-интерфейс
  4. GOCR
  5. Windows GUI для GOCR
  6. OCR Desktop
  7. Простое распознавание текста
  8. TopOCR

Однако эти программы нуждаются в вводе изображения, а не в вводе PDF. Для этого попробуйте конвертер PDF в JPG.

0

Лично я бы использовал Ghostview для преобразования их в изображение, а затем Tesseract для преобразования их в текст. Это абсолютно бесплатное кроссплатформенное решение с открытым исходным кодом, с которым я добился очень хороших результатов при попытке конвертировать простой текст. Я не использую его для сложных документов с таблицами и тому подобным, но для простого текста вы не можете превзойти цену.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .