Вопросы с меткой [tesseract-ocr]

Tesseract - это механизм оптического распознавания символов (OCR)

5
голосов
3ответа
15k показов

OCR Tesseract, Ошибка пустой страницы?

Я собрал его из источников с leptonica . Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка: Tesseract Open Source OCR Engine ...
5
голосов
1ответ
4k показов

Тессеракт OCR: неподдерживаемый тип изображения

Я преобразовал PDF в TIF файл, используя следующие команды на терминале convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif convert lang.font-name.exp0.tif -colorspace rgb ...
4
голоса
2ответа
6k показов

Tesseract 3.03 данные английского языка

Tesseract 3.03 был выпущен недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (с ...
3
голоса
1ответ
3k показов

Тренинг Tesseract-OCR для шрифтов английского языка

У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно ...
3
голоса
1ответ
5k показов

OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract ...
3
голоса
1ответ
990 показов

Как извлечь символ Unicode из файла .png?

Я хочу извлечь символ Unicode из файлов .jpg и .png. Я пытаюсь сделать это с помощью следующей команды: tesseract 1.png output.txt Эта команда работает для английских символов, но когда я пробую ее ...
2
голоса
1ответ
7k показов

Почему Tesseract CLI показывает «не удается создать выходной файл» в Windows 7?

Я установил (или, по крайней мере, мне кажется, что я запустил установщик) tessearct-ocr на моей машине под управлением 64-битной Windows 7. Я пытаюсь взаимодействовать с программой через cmd. ...
2
голоса
0ответов
315 показов

Можно ли преобразовать субтитры dvdsub в srt через командную строку?

Есть ли способ конвертировать субтитры dvdsub (на основе изображений) в srt? например с mencoder или ffmpeg в сочетании с тессерактом? Я ищу что-то на основе командной строки, и я в порядке, чтобы ...
2
голоса
0ответов
234 показов

Tesseract не может сканировать `Ошибка: поддерживаются только 1,2,4,5,6,8 бит / с: 32`

Несмотря на то, что я convert canvas.png -depth 8 canvas.tif я все еще вижу это сообщение об ошибке: Tesseract Open Source OCR Engine check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are ...
2
голоса
0ответов
177 показов

Смешная OCR-ситуация

У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04. Когда я запускаю следующую команду: pdfocr -t -l swe -i *.pdf -o newfile.pdf В результате ...
2
голоса
1ответ
2k показов

Tesseract hocr и txt одновременно, или преобразование из Tesseracts hocr в txt

Я играл с программным обеспечением Linux OCR, и мне очень нравится Tesseract, особенно в сочетании с gsan2pdf. Tesseract v3 или более поздней версии поддерживает вывод в формате hocr, и gscan2pdf ...
2
голоса
0ответов
989 показов

Как сжимать файлы PDF в кодировке Tesseract, сохраняя встроенный текст из OCR?

Я экспериментировал с использованием Tesseract для распознавания моих PDF-файлов, и он был в основном успешным, особенно с текстами немецкого языка Fraktur (готический шрифт старого стиля), которые ...
1
голос
0ответов
368 показов

Как автоматически определить язык текста на фотографии и перевести его

Мне удалось встроить приложение OCR для обнаружения текста по фотографии https://obserbot.com/, но оно только извлекает точный текст из фотографии и не конвертирует его на нескольких языках. Я хочу, ...
1
голос
1ответ
275 показов

Как мне научить tesseract игнорировать волнистые линии, добавленные из орфографических и грамматических ошибок?

Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических ...
1
голос
1ответ
2k показов

Как заставить OCR распознавать это изображение

исходное изображение Я думаю, что распознать цифры из этого изображения было бы действительно легко, но это не может быть распознано тессерактом и большим количеством онлайн-распознавания текста. ...
1
голос
1ответ
869 показов

В jTessBoxEditor for Tesseract, как объединить несколько файлов TIFF/boxfile в один файл с обученными данными

Я думаю, что это было бы возможно с командной строкой, но как это сделать с помощью jTessBoxEditor, поскольку это автоматизировало бы большую часть рабочего процесса. Поскольку jTessBox поддерживает ...
1
голос
1ответ
28 показов

Как рекурсивно запустить стороннюю утилиту для каждого файла в папке?

Я использую утилиту CLI под названием tesseract-ocr. Использование tesseract-ocr в cmd заключается в следующем: tesseract.exe imagename outputbase [options...] [configfile...] В моем случае я набираю ...
1
голос
0ответов
106 показов

Tesseract на Windows: выходы всегда неточны

Поэтому я пытаюсь распознать это изображение: (на самом деле это имена пользователей) используя эту команду в командной строке Windows: tesseract screenshot.png out Однако out.txt всегда дает ...
1
голос
0ответов
456 показов

Отключить словарь в Tess4J

Точность распознавания символов в моем приложении tess4j OCR очень низкая. Я слышал, что отключение словаря в tess4j повысит точность, позволяя распознавать отдельные символы. Но я не знаю, как это ...
1
голос
1ответ
4k показов

Используйте ffmpeg для преобразования JPEG в TIFF

Я хотел бы использовать Tesseract OCR с видео. С помощью ffmpeg я могу экспортировать некоторые (.jpeg) изображения из видео. Могу ли я преобразовать .jpeg в действительный .tiff или экспортировать ...
1
голос
2ответа
2k показов

Тессеракт на Linux

Как решить проблему, не устанавливая tesseract 3.03, когда я получаю предупреждение: Предупреждение. Вы используете неподдерживаемую версию Tesseract. Ожидается версия 3.03, ваша версия: 3.02.02 ...
1
голос
1ответ
1k показов

TesseractOCR специализированное обучение

Я не понимаю, как я должен сказать Тессеракту, что это на самом деле буквы a b c ? Добавляя makebox в cli, выдает этот файл: C 78 127 104 166 0 l 96 127 118 166 0 . 116 127 126 140 0 - 124 127 130 ...
0
голосов
0ответов
3k показов

Tesseract не может загрузить языки

Запуск команды tesseract makebox выдал мне следующую ошибку Error opening data file /opt/local/share/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the ...
0
голосов
2ответа
2k показов

Невозможно обработать GIF с помощью Tesseract в OSX

Получение следующей ошибки: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in pixReadStreamGif: function not present Error in pixReadStream: gif: no pix returned Error in pixRead: pix ...
0
голосов
1ответ
1k показов

Оптимальный шрифт для Tesseract? (в частности, оболочка .NET)

Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, ...
0
голосов
1ответ
137 показов

Буфер обмена gImageReader не работает в Windows

Я использую gImageReader для некоторого распознавания текста в Windows 7, и хотя я могу копировать из самого приложения, я не могу скопировать во внешний буфер обмена Windows 7. Я считаю, что ...
0
голосов
3ответа
6k показов

Установите tesseract ocr 3 на OSX

Я пытаюсь установить Tesseract OCR на OSX 10.6 ... Я дошел до установки leptonic (скачав src и установив с помощью ./configure; make; sudo make install), казалось бы, без проблем - но я не знаю, как ...
0
голосов
0ответов
172 показов

Tesseract 4.0 не читает изображения только одним словом текста

Я использую Tesseract v4.0.0-beta.1-108-gf291 Изображение 5.jpg не читается (одно слово: символы хорошего размера) tesseract 5.jpg out.txt Я перепробовал все виды параметров --psm и до сих пор не ...
0
голосов
1ответ
215 показов

Как разместить Tesseract OCR для расширения Chrome?

В настоящее время я работаю над созданием расширения Google Chrome, которое принимает изображение. Предполагается, что это изображение будет передано в Tesseract OCR с помощью команды (cmd) и ...
0
голосов
0ответов
48 показов

Тессеракт OCR: Как показать все возможные ответы для изображения?

Я работаю над использованием Tesseract для обнаружения некоторых старых древних скриптов. Тессеракт как инструмент показывает только один ответ (вывод) для любого изображения, а иногда вывод ...
0
голосов
0ответов
44 показов

Тессеракт для простых капч

Я пытаюсь распознать случайные текстовые строки из простых капч, таких как , Команда tesseract -c page_separator="" gahap.png - будет ошибочно выводить 283surn кроме как на демонстрационной странице ...
0
голосов
0ответов
4 показов

Настройте кодировку в Google Cloud Vision

Я работаю с функцией обнаружения текста в Google Cloud Vision API, и после просмотра документации я не могу найти какой-либо способ настройки нужного набора символов, используемого для распознавания ...
0
голосов
1ответ
662 показов

Как избежать искажения результатов с помощью инструмента OCR pdfsandwich?

Обычно отсканированные страницы должны быть выровнены до применения инструмента OCR. Здесь мой вход - это страница с прямым сканированием, а выходной сигнал OCR иногда искажается, по часовой стрелке ...