Вопросы с меткой [tesseract-ocr]

Tesseract - это механизм оптического распознавания символов (OCR)

33 вопроса

голосов

3ответа

15k показов

OCR Tesseract, Ошибка пустой страницы?

Я собрал его из источников с leptonica . Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка: Tesseract Open Source OCR Engine ...

ocr tesseract-ocr

задан Jim26

голосов

1ответ

4k показов

Тессеракт OCR: неподдерживаемый тип изображения

Я преобразовал PDF в TIF файл, используя следующие команды на терминале convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif convert lang.font-name.exp0.tif -colorspace rgb ...

задан Nina150

голоса

2ответа

6k показов

Tesseract 3.03 данные английского языка

Tesseract 3.03 был выпущен недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (с ...

tesseract-ocr

задан MarAja196

голоса

1ответ

3k показов

Тренинг Tesseract-OCR для шрифтов английского языка

У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно ...

ocr tesseract-ocr

задан andrew472

голоса

1ответ

5k показов

OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract ...

ocr tesseract-ocr

задан Daniel121

голоса

1ответ

990 показов

Как извлечь символ Unicode из файла .png?

Я хочу извлечь символ Unicode из файлов .jpg и .png. Я пытаюсь сделать это с помощью следующей команды: tesseract 1.png output.txt Эта команда работает для английских символов, но когда я пробую ее ...

ocr tesseract-ocr

задан Madhav Nikam147

голоса

1ответ

7k показов

Почему Tesseract CLI показывает «не удается создать выходной файл» в Windows 7?

Я установил (или, по крайней мере, мне кажется, что я запустил установщик) tessearct-ocr на моей машине под управлением 64-битной Windows 7. Я пытаюсь взаимодействовать с программой через cmd. ...

windows-7 command-line tesseract-ocr

задан andrew472

голоса

0ответов

315 показов

Можно ли преобразовать субтитры dvdsub в srt через командную строку?

Есть ли способ конвертировать субтитры dvdsub (на основе изображений) в srt? например с mencoder или ffmpeg в сочетании с тессерактом? Я ищу что-то на основе командной строки, и я в порядке, чтобы ...

ffmpeg mencoder tesseract-ocr

задан simone121

голоса

0ответов

234 показов

Tesseract не может сканировать `Ошибка: поддерживаются только 1,2,4,5,6,8 бит / с: 32`

Несмотря на то, что я convert canvas.png -depth 8 canvas.tif я все еще вижу это сообщение об ошибке: Tesseract Open Source OCR Engine check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are ...

conversion ocr tesseract-ocr

задан Jim16

голоса

0ответов

177 показов

Смешная OCR-ситуация

У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04. Когда я запускаю следующую команду: pdfocr -t -l swe -i *.pdf -o newfile.pdf В результате ...

pdf ocr ghostscript tesseract-ocr

задан Paul Bergström167

голоса

1ответ

2k показов

Tesseract hocr и txt одновременно, или преобразование из Tesseracts hocr в txt

Я играл с программным обеспечением Linux OCR, и мне очень нравится Tesseract, особенно в сочетании с gsan2pdf. Tesseract v3 или более поздней версии поддерживает вывод в формате hocr, и gscan2pdf ...

linux pdf tesseract-ocr

задан PSkocik627

голоса

0ответов

989 показов

Как сжимать файлы PDF в кодировке Tesseract, сохраняя встроенный текст из OCR?

Я экспериментировал с использованием Tesseract для распознавания моих PDF-файлов, и он был в основном успешным, особенно с текстами немецкого языка Fraktur (готический шрифт старого стиля), которые ...

pdf compression adobe-acrobat ocr tesseract-ocr

задан Jason95

голос

0ответов

368 показов

Как автоматически определить язык текста на фотографии и перевести его

Мне удалось встроить приложение OCR для обнаружения текста по фотографии https://obserbot.com/, но оно только извлекает точный текст из фотографии и не конвертирует его на нескольких языках. Я хочу, ...

ocr tesseract-ocr

задан Abdullah Hussain6

голос

1ответ

275 показов

Как мне научить tesseract игнорировать волнистые линии, добавленные из орфографических и грамматических ошибок?

Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических ...

imagemagick tesseract-ocr

задан GdD166

голос

1ответ

2k показов

Как заставить OCR распознавать это изображение

исходное изображение Я думаю, что распознать цифры из этого изображения было бы действительно легко, но это не может быть распознано тессерактом и большим количеством онлайн-распознавания текста. ...

ocr tesseract-ocr

задан too lazy to log in8

голос

1ответ

869 показов

В jTessBoxEditor for Tesseract, как объединить несколько файлов TIFF/boxfile в один файл с обученными данными

Я думаю, что это было бы возможно с командной строкой, но как это сделать с помощью jTessBoxEditor, поскольку это автоматизировало бы большую часть рабочего процесса. Поскольку jTessBox поддерживает ...

ocr tesseract-ocr

задан coldbreeze1628

голос

1ответ

28 показов

Как рекурсивно запустить стороннюю утилиту для каждого файла в папке?

Я использую утилиту CLI под названием tesseract-ocr. Использование tesseract-ocr в cmd заключается в следующем: tesseract.exe imagename outputbase [options...] [configfile...] В моем случае я набираю ...

windows batch cmd.exe tesseract-ocr

задан computationalprince41

голос

0ответов

106 показов

Tesseract на Windows: выходы всегда неточны

Поэтому я пытаюсь распознать это изображение: (на самом деле это имена пользователей) используя эту команду в командной строке Windows: tesseract screenshot.png out Однако out.txt всегда дает ...

tesseract-ocr

задан Prometheus208

голос

0ответов

456 показов

Отключить словарь в Tess4J

Точность распознавания символов в моем приложении tess4j OCR очень низкая. Я слышал, что отключение словаря в tess4j повысит точность, позволяя распознавать отдельные символы. Но я не знаю, как это ...

java ocr tesseract-ocr

задан Chalaka Ellawala6

голос

1ответ

4k показов

Используйте ffmpeg для преобразования JPEG в TIFF

Я хотел бы использовать Tesseract OCR с видео. С помощью ffmpeg я могу экспортировать некоторые (.jpeg) изображения из видео. Могу ли я преобразовать .jpeg в действительный .tiff или экспортировать ...

ffmpeg jpeg tiff image-conversion tesseract-ocr

задан Tenaciousd93140

голос

2ответа

2k показов

Тессеракт на Linux

Как решить проблему, не устанавливая tesseract 3.03, когда я получаю предупреждение: Предупреждение. Вы используете неподдерживаемую версию Tesseract. Ожидается версия 3.03, ваша версия: 3.02.02 ...

linux tesseract-ocr

задан Rogerrubens6

голос

1ответ

1k показов

TesseractOCR специализированное обучение

Я не понимаю, как я должен сказать Тессеракту, что это на самом деле буквы a b c ? Добавляя makebox в cli, выдает этот файл: C 78 127 104 166 0 l 96 127 118 166 0 . 116 127 126 140 0 - 124 127 130 ...

tesseract-ocr

задан Jim16

голосов

0ответов

3k показов

Tesseract не может загрузить языки

Запуск команды tesseract makebox выдал мне следующую ошибку Error opening data file /opt/local/share/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the ...

macos homebrew ghostscript tesseract-ocr tif

задан Nina150

голосов

2ответа

2k показов

Невозможно обработать GIF с помощью Tesseract в OSX

Получение следующей ошибки: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in pixReadStreamGif: function not present Error in pixReadStream: gif: no pix returned Error in pixRead: pix ...

macos mac gif tesseract-ocr

задан Sherzod173

голосов

1ответ

1k показов

Оптимальный шрифт для Tesseract? (в частности, оболочка .NET)

Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, ...

tesseract-ocr

задан user6130511

голосов

1ответ

137 показов

Буфер обмена gImageReader не работает в Windows

Я использую gImageReader для некоторого распознавания текста в Windows 7, и хотя я могу копировать из самого приложения, я не могу скопировать во внешний буфер обмена Windows 7. Я считаю, что ...

clipboard ocr gtk tesseract-ocr

задан leeand007k

голосов

3ответа

6k показов

Установите tesseract ocr 3 на OSX

Я пытаюсь установить Tesseract OCR на OSX 10.6 ... Я дошел до установки leptonic (скачав src и установив с помощью ./configure; make; sudo make install), казалось бы, без проблем - но я не знаю, как ...

macos installation ocr tesseract-ocr

задан Billy Moon166

голосов

0ответов

172 показов

Tesseract 4.0 не читает изображения только одним словом текста

Я использую Tesseract v4.0.0-beta.1-108-gf291 Изображение 5.jpg не читается (одно слово: символы хорошего размера) tesseract 5.jpg out.txt Я перепробовал все виды параметров --psm и до сих пор не ...

microsoft-word tesseract-ocr

задан YounesCHTIOUI1

голосов

1ответ

215 показов

Как разместить Tesseract OCR для расширения Chrome?

В настоящее время я работаю над созданием расширения Google Chrome, которое принимает изображение. Предполагается, что это изображение будет передано в Tesseract OCR с помощью команды (cmd) и ...

google-chrome-extensions hosting tesseract-ocr

задан user651215618

голосов

0ответов

48 показов

Тессеракт OCR: Как показать все возможные ответы для изображения?

Я работаю над использованием Tesseract для обнаружения некоторых старых древних скриптов. Тессеракт как инструмент показывает только один ответ (вывод) для любого изображения, а иногда вывод ...

tesseract-ocr

задан agent22471

голосов

0ответов

44 показов

Тессеракт для простых капч

Я пытаюсь распознать случайные текстовые строки из простых капч, таких как , Команда tesseract -c page_separator="" gahap.png - будет ошибочно выводить 283surn кроме как на демонстрационной странице ...

windows-7 command-line batch-file tesseract-ocr

задан dabbl0r1

голосов

0ответов

4 показов

Настройте кодировку в Google Cloud Vision

Я работаю с функцией обнаружения текста в Google Cloud Vision API, и после просмотра документации я не могу найти какой-либо способ настройки нужного набора символов, используемого для распознавания ...

ocr google-cloud-platform tesseract-ocr

задан Alvaro Hernandez Martin1

голосов

1ответ

662 показов

Как избежать искажения результатов с помощью инструмента OCR pdfsandwich?

Обычно отсканированные страницы должны быть выровнены до применения инструмента OCR. Здесь мой вход - это страница с прямым сканированием, а выходной сигнал OCR иногда искажается, по часовой стрелке ...

pdf scanning ocr tesseract-ocr

задан lalebarde423