Я не могу получить некоторые из моих документов с изображениями для распознавания OCR. Они не особенно низкого разрешения - хотя некоторые искажены - но я не могу получить их через OCR, даже с Omnipage. Я загрузил один в качестве примера (преобразован из DOC в PDF для Omnipage), но у меня есть еще. Что я могу сделать, чтобы OCR преуспел?
3
1 ответ
1
Несмотря на то, как они выглядят на экране, текстовые изображения имеют не очень высокое разрешение. Вы можете увидеть это, увеличив изображение в программе просмотра PDF. Изображения имеют пикселизацию и не все черно-белые.
Я извлек изображения с pdfimages. Gocr работал с полученными изображениями .ppm, но со многими ошибками. Я не мог заставить работать тессеракт с изображениями, несмотря на преобразование в монохромный TIFF.