4

Tesseract 3.03 был выпущен недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (с https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1). На веб-сайте Tesseract есть ссылка "Загрузить", но вы можете найти только «Данные по английскому языку для Tesseract 3.02». Где я могу найти их на 3.03?

2 ответа2

4

Как уже упоминалось, вы можете использовать языковые пакеты 3.02 для 3.03. Ниже приведены инструкции:

  1. Скачать и распаковать здесь: 1
  2. Установите предварительные требования и разархивируйте

    `sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev`
    `tar xfv tesseract-ocr-3.02.eng.tar.gz`
    
  3. Распакуйте английский пакет данных Tesseract в каталог tessdata внутри каталога tesseract-3.03. Предполагая, что оба (данные на английском языке и файлы исходного текста tesseract .tar.gz) находятся в одной папке

    tar zxvf tesseract-ocr-3.02.eng.tar.gz

mv tesseract-ocr/tessdata/. тессеракт-3,03/tessdata/

4.Вернитесь в каталог tesseract и завершите установку

cd tesseract-3.03

./autogen.sh

./configure

make -j

sudo make install LANGS="eng"

sudo ldconfig

Теперь проверьте вашу установку с тестовым образом в каталоге

tesseract phototest.tif  ans -l eng
cat ans.txt

Выход:

Это большой 12-точечный текст, чтобы проверить код ocr и посмотреть, работает ли он на всех типах форматов файлов.

Быстрая коричневая собака перепрыгнула через ленивую лису. Быстрая коричневая собака перепрыгнула через ленивую лису. Быстрая коричневая собака перепрыгнула через ленивую лису. Быстрая коричневая собака перепрыгнула через ленивую лису.

ПРИМЕЧАНИЕ: некоторые строки имеют неправильное форматирование ... любой совет, чтобы исправить это было бы здорово

1

Вы можете использовать языковые данные с 3.02 по 3.03 RC.

Также обратите внимание, что 3.03 еще не был выпущен официально. Это сборка RC.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .