Я получил отсканированный документ с изображением из банка и хочу преобразовать его в обычный текстовый документ с изображениями в Ubuntu.
Есть ли какой-нибудь инструмент для этого?
Я получил отсканированный документ с изображением из банка и хочу преобразовать его в обычный текстовый документ с изображениями в Ubuntu.
Есть ли какой-нибудь инструмент для этого?
Для linux существует несколько программ для распознавания текста, которые можно конвертировать из изображения в текст. Посмотрите на следующие варианты:
Все вышеперечисленное, кроме ocropus, присутствует в репозитории Ubuntu в пакете с таким же именем.
Разные читатели поддерживают разные форматы изображений, поэтому вы можете ограничить свои параметры форматом файла, в котором находится ваш документ. Кроме того, вы можете использовать инструмент преобразования из ImageMagick, чтобы изменить формат, если вы хотите использовать определенный читатель OCR.
Адаптировано из моего ответа здесь.
Сначала вы должны установить «tesseract-ocr» на вашем Linux-компьютере.
sudo apt-get install tesseract-ocr
Вы можете сделать это вручную из CLI или я сделал PHP-код для того же, вы можете использовать его, если хотите.
Примечание. Для запуска этого кода необходимо включить команду exec в php.ini.
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
поместите этот код в корневую папку и получите доступ к нему из браузера,
например:
http://yourserver.com?input_file=1.png
Примечание: файл 1.png должен присутствовать в вашем текущем каталоге.
У меня нет прав на загрузку изображения, я использовал это изображение для справки, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview