8

Я получил отсканированный документ с изображением из банка и хочу преобразовать его в обычный текстовый документ с изображениями в Ubuntu.

Есть ли какой-нибудь инструмент для этого?

2 ответа2

15

Для linux существует несколько программ для распознавания текста, которые можно конвертировать из изображения в текст. Посмотрите на следующие варианты:

Все вышеперечисленное, кроме ocropus, присутствует в репозитории Ubuntu в пакете с таким же именем.

Разные читатели поддерживают разные форматы изображений, поэтому вы можете ограничить свои параметры форматом файла, в котором находится ваш документ. Кроме того, вы можете использовать инструмент преобразования из ImageMagick, чтобы изменить формат, если вы хотите использовать определенный читатель OCR.

Адаптировано из моего ответа здесь.

0

Сначала вы должны установить «tesseract-ocr» на вашем Linux-компьютере.

sudo apt-get install tesseract-ocr

Вы можете сделать это вручную из CLI или я сделал PHP-код для того же, вы можете использовать его, если хотите.

Примечание. Для запуска этого кода необходимо включить команду exec в php.ini.

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

поместите этот код в корневую папку и получите доступ к нему из браузера,

например:

http://yourserver.com?input_file=1.png

Примечание: файл 1.png должен присутствовать в вашем текущем каталоге.

У меня нет прав на загрузку изображения, я использовал это изображение для справки, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .