Но как это возможно?
По сути, программа выполняет OCR для входного файла, а затем помещает невидимый слой текста поверх изображения. Кроме того, он может также поместить видимый слой текста под картинкой, давая тот же эффект.
Когда вы выбираете что-то, картинка не имеет значения, потому что выделен текстовый слой.
как это можно создать?
Есть несколько способов. Учитывая, что Acrobat уже был предложен, я добавлю несколько бесплатных опций (и, к счастью, вы не обязаны использовать их в Windows).
PDF-XChange Viewer
Это родная программа для Windows от Tracker Software. Бесплатная версия прекрасно работает под Wine, если вы используете 32-битную версию с 32-битным префиксом, поэтому вы можете использовать ее в Windows, macOS и Linux. В последних двух случаях вам понадобятся PlayOnMac или PlayOnLinux соответственно.
Вот фотография из этого ответа, которую я оставил в Ask Ubuntu:
OCRmyPDF
Это многоплатформенная программа, написанная на Python, основанная на Ghostscript, Tesseract и Unpaper. Из документов:
Что делает OCRmyPDF
OCRmyPDF анализирует каждую страницу PDF-файла, чтобы определить цветовое пространство и разрешение (DPI), необходимые для захвата всей информации на этой странице без потери содержимого. Он использует Ghostscript для растеризации страницы, а затем выполняет OCR на растровом изображении, чтобы создать «слой» OCR.
Слой затем возвращается обратно в исходный PDF.
Его можно легко установить на производные Debian и Ubuntu:
apt-get install ocrmypdf
Или на macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
В Windows вам нужно использовать образ Docker. Смотрите официальные документы для деталей.
Использование очень простое, и я предлагаю вам использовать дополнительные параметры -d
(deskew) и -c
(clean) для лучших результатов. Он выправит каждую страницу и очистит маленькие точки / недостатки перед запуском процесса распознавания.
Вы можете (и должны) предоставить язык с -l
.
Вот пример, взятый из этого искаженного документа, написанного на итальянском языке:
Команда, которую я использовал, была:
ocrmypdf -l ita -d -c input.pdf output.pdf
Онлайн инструменты
Есть несколько онлайн-инструментов, которые делают то же самое. Примечательно, что PDF24 содержит бесплатную веб-версию OCRmyPDF, которую можно использовать без ограничений.
Смотрите также: