Tesseract 3.03 был выпущен недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (с https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1). На веб-сайте Tesseract есть ссылка "Загрузить", но вы можете найти только «Данные по английскому языку для Tesseract 3.02». Где я могу найти их на 3.03?
2 ответа
Как уже упоминалось, вы можете использовать языковые пакеты 3.02 для 3.03. Ниже приведены инструкции:
- Скачать и распаковать здесь: 1
Установите предварительные требования и разархивируйте
`sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev` `tar xfv tesseract-ocr-3.02.eng.tar.gz`
Распакуйте английский пакет данных Tesseract в каталог tessdata внутри каталога tesseract-3.03. Предполагая, что оба (данные на английском языке и файлы исходного текста tesseract .tar.gz) находятся в одной папке
tar zxvf tesseract-ocr-3.02.eng.tar.gz
mv tesseract-ocr/tessdata/. тессеракт-3,03/tessdata/
4.Вернитесь в каталог tesseract и завершите установку
cd tesseract-3.03
./autogen.sh
./configure
make -j
sudo make install LANGS="eng"
sudo ldconfig
Теперь проверьте вашу установку с тестовым образом в каталоге
tesseract phototest.tif ans -l eng
cat ans.txt
Выход:
Это большой 12-точечный текст, чтобы проверить код ocr и посмотреть, работает ли он на всех типах форматов файлов.
Быстрая коричневая собака перепрыгнула через ленивую лису. Быстрая коричневая собака перепрыгнула через ленивую лису. Быстрая коричневая собака перепрыгнула через ленивую лису. Быстрая коричневая собака перепрыгнула через ленивую лису.
ПРИМЕЧАНИЕ: некоторые строки имеют неправильное форматирование ... любой совет, чтобы исправить это было бы здорово
Вы можете использовать языковые данные с 3.02 по 3.03 RC.
Также обратите внимание, что 3.03 еще не был выпущен официально. Это сборка RC.