Вопросы с меткой [ocr]

Оптическое распознавание символов (OCR) - это процесс преобразования изображений текста в текст, которыми могут управлять текстовые процессоры и т.д.

40
голосов
9ответов
57k показов

Как извлечь текст с помощью OCR из PDF в Linux?

Как извлечь текст из PDF, который не был создан с индексом? Это весь текст, но я не могу ничего искать или выбирать. Я использую Kubuntu, а у Okular нет этой функции.
31
голос
4ответа
4k показов

Как создать PDF с отсканированными страницами, но выбрать текст?

Сегодня я получил PDF от нашего поставщика, и он содержал несколько напечатанных и отсканированных страниц с подписями и т.д. Я открыл его в Acrobat Reader DC. Но, к моему удивлению, текст из явно ...
19
голосов
5ответов
15k показов

Пакетная OCR много PDF-файлов

Это обсуждалось год назад здесь: Пакетное распознавание текста для многих PDF-файлов (еще не распознано)? Есть ли способ пакетной обработки документов OCR PDF, которые еще не были распознаны? Это, я ...
19
голосов
8ответов
37k показов

Как я могу преобразовать отсканированные изображения в формате PDF в PDF-файл с возможностью поиска?

У меня есть PDF отсканированной книги. Я ищу бесплатное программное обеспечение, которое будет выполнять OCR, а затем предоставить возможность сохранить его в виде PDF или документа снова. Есть один?
13
голосов
3ответа
36k показов

Как я могу определить шрифты на изображении?

Много раз я сталкивался с растровыми изображениями, в которых не было ничего, кроме текстовых абзацев, поэтому я искал способ определить используемый шрифт, выравнивание абзаца, межстрочный интервал ...
13
голосов
6ответов
17k показов

Извлечение текста OCR из Evernote

Evernote распознает изображения, которые вы сохраняете. Есть ли способ получить полнотекстовый эквивалент изображения в Evernote или OCR предназначен только для поиска?
12
голосов
8ответов
9k показов

Практическое решение для оптического распознавания текста для преобразования большой книги в цифровой формат?

Я был на месте моего деда в прошлые выходные. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу о своей семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я ...
11
голосов
6ответов
14k показов

Как удалить OCR из PDF?

Я давно ищу в Google, но не могу найти ответ на свой вопрос. У меня есть нежелательные слои распознавания текста в документе, который я недавно сканировал с помощью Adobe Acrobat. Он не был правильно ...
9
голосов
3ответа
5k показов

Хороший бесплатный OCR с графическим интерфейсом для исправления ошибок? (для Windows)

Я использовал SimpleOCR, который имеет хороший графический интерфейс для исправления ошибок. К сожалению, он делает много ошибок! (и страдает от других ошибок и ограничений) С другой стороны, ...
9
голосов
4ответа
33k показов

Пакетное распознавание текста для многих PDF-файлов (еще не распознано)?

Я использую Google Desktop Search (я в Vista), и не все мои файлы PDF распознаются в моей папке архива. Это нормально, поскольку « файлы PDF, содержащие отсканированные изображения » не индексируются ...
9
голосов
5ответов
5k показов

PDF имеет дополнительный пробел во всех словах после запуска через Ghostscript

Этот PDF был создан Abbyy Finereader 10: http://ebooks.zeitr.org/from_abbyy.pdf Вы можете скопировать и вставить первое предложение и получить этот (очень хороший) текстовый результат: Der »Bund ...
8
голосов
3ответа
168k показов

Как запустить сканирование OCR в Microsoft Office Word 2010?

Как запустить сканирование и распознавание символов с помощью Microsoft Office Word 2010 (бета-версия)? Я не могу найти вариант для сканирования документа в моем сканере прямо в документ Word 2010. Я ...
8
голосов
3ответа
4k показов

Можно ли с помощью Acrobat 11 выполнять распознавание текста, используя несколько процессорных ядер?

Обработка OCR занимает много времени. Использование нескольких процессорных ядер ускорит обработку. Acrobat 10 не был многопоточным приложением. Как насчет Acrobat 11? 11 по умолчанию делает OCR, ...
7
голосов
3ответа
4k показов

OCR для номеров с серым шумным фоном

Я попытался запустить OCR на нескольких отсканированных листах с номерами, подобными этому изображению (все с одним фоном, только цифры): Но все испытания провалились! Я пробовал использовать OCR в ...
6
голосов
7ответов
4k показов

Извлечение текста из.PDF отсканированная книга

Я отсканировал книгу в формате PDF, но качество ее довольно низкое: (Язык румынский, и это книга по медицинской физиологии, если вам интересно) Я хочу извлечь текст из книги (1500 страниц), но ...
6
голосов
1ответ
244 показов

Может ли OCR спутать регистр букв?

Может ли OCR иногда путать регистр букв? Например, 't' интерпретируется как 'T' или 'r' как 'R' в какой-то момент?
5
голосов
1ответ
3k показов

OCR Плагин распознавания изображений для Firefox и Chrome?

Иногда мне нужно распознать изображения, на которые я наткнулся на некоторых веб-страницах. Я хотел бы знать, есть ли какие-нибудь плагины для Firefox и Chrome, которые позволили бы мне загрузить ...
5
голосов
4ответа
726 показов

Есть ли какая-нибудь программа OCR, которая может обрабатывать нелатинские символы?

Я ищу программу OCR, которая может работать с ивритом. Я открыт для использования чего-либо на Mac или ПК, но это должна быть надежная программа. Какие у меня варианты?
5
голосов
3ответа
15k показов

OCR Tesseract, Ошибка пустой страницы?

Я собрал его из источников с leptonica . Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка: Tesseract Open Source OCR Engine ...
5
голосов
1ответ
2k показов

Как проанализировать использование пространства в PDF-документе?

У меня есть этот 7 МБ PDF, который я сделал из 65 отсканированных черно-белых изображений. После OCR документ становится 32мб. Я никогда не видел, чтобы текст занимал так много места. (теоретически ...
5
голосов
1ответ
2k показов

Есть ли лучший способ исправить ошибки в результатах распознавания Adobe Acrobat?

Я использую распознавание текста OCR, интегрированное в Adobe Acrobat Pro 8, для создания (невидимого) текстового наложения с возможностью поиска для отсканированных текстовых страниц. Это очень ...
5
голосов
5ответов
6k показов

Включить распознавание текста в Greenshot

Я запускаю Windows 10 с Microsoft Office professional Plus 2016 на моем компьютере. Похоже, что функция MS OCR включена в моей системе, поскольку OneNote может копировать текст из изображения. Но как ...
5
голосов
3ответа
5k показов

Как сделать OCR на PDF-документе?

Возможный дубликат: Как извлечь текст с помощью OCR из PDF в Linux? У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF. Есть ли какая-нибудь ...
4
голоса
1ответ
739 показов

Как добавить текст OCRed к оригинальному PDF в gscan2pdf?

Я новичок в gscan2pdf 0.9.31, и просто использовал его для распознавания отсканированного PDF. После сохранения pdf текст OCRed сохраняется в верхнем левом углу. Однако я хочу, чтобы каждый символ ...
4
голоса
1ответ
1k показов

Как создавать документы из отсканированных изображений

У меня есть большое количество документов Micorsoft Word для создания, после того, как сбой диска и неоднородные резервные копии уничтожили оригиналы. У нас осталось достаточное количество ...
4
голоса
2ответа
18k показов

Онлайн веб-сайт OCR для обработки всего файла PDF одновременно?

Я ищу веб-сайт OCR для одновременной обработки многостраничного файла PDF. Бесплатно желательно. Я знаю http://www.newocr.com/. Если я прав, он может распознавать только одну страницу за раз, вручную ...
4
голоса
4ответа
7k показов

Есть ли утилита для распознавания изображений в буфере обмена Windows?

Иногда я обнаруживаю, что набираю много текста с экрана. Это довольно утомительно. Существует ли программа OCR (Optical Character Recognition), которая позволила бы мне быстро преобразовать что-то ...
4
голоса
2ответа
2k показов

Как заменить изображения текста в PDF на форматированный текст с помощью OCR

Я получаю много PDF-файлов от других людей, состоящих из отсканированных старых документов. К сожалению, иногда текст на отсканированных изображениях, хотя и читается, выглядит зернистым и его трудно ...
4
голоса
2ответа
3k показов

Как автоматически находить PDF без возможности поиска

Предположим, у меня есть каталог, полный многих PDF-файлов. В большинстве из них текст полностью доступен для поиска, как мне и нужно. Но некоторые из них - просто изображения, и они должны быть ...
4
голоса
1ответ
5k показов

В Onenote, как мне сделать так, чтобы текст в изображении был доступен для поиска по умолчанию?

OneNote имеет отличную функцию распознавания текста, где вы можете выбрать изображение и щелкнуть, make text in image searchable . Но я бы хотел, чтобы это было включено по умолчанию для всех ...
4
голоса
2ответа
1k показов

Преобразователь изображения в текст

Мне нужно программное обеспечение, которое может конвертировать отсканированный текст в редактируемый текст. Я предпочту бесплатное программное обеспечение?
3
голоса
1ответ
25k показов

Использование OCR на арабском тексте

Друг попросил меня преобразовать арабский текст .pdf в Word. Документы Google не выглядят как вариант, но новое OCR выглядело многообещающе, потому что арабский язык представлен в раскрывающемся ...
3
голоса
3ответа
2k показов

Пакетное преобразование PDF с возможностью поиска PDF

Я ищу способ конвертировать тысячи PDF-файлов в PDF с возможностью поиска. Я использовал программу под названием "PDF Create Assistant", которая поставлялась с программным обеспечением для экопии ...
3
голоса
2ответа
34k показов

OCR в Word 2013

Word 2013 может наивно открывать и редактировать PDF документы (большой плюс на мой взгляд). Есть ли способ заставить это сделать некоторое OCR также? В PDF-файле, в котором в основном были картинки, ...
3
голоса
1ответ
5k показов

OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract ...
3
голоса
2ответа
281 показов

Оптимальное сжатие изображений с потерями

У меня есть много изображений / документов, где я хочу иметь достаточно низкий размер файла, не выбрасывая много информации и не вызывая потери поколения при будущем сжатии. А) Документы, визитки и ...
3
голоса
1ответ
823 показов

Заменить (OCR) искаженный текст в PDF?

Время от времени я сталкиваюсь с PDF, который вначале выглядит хорошо, но основной текст искажен. В настоящее время у меня есть PDF, где искажены только заголовки, и я хотел бы знать, можно ли ...
3
голоса
1ответ
1k показов

OCR инженерных чертежей?

Какое лучшее решение для анализа OCR рукописных текстовых строк, которые появляются на карте? Более подробное объяснение того, что я ищу: Я работаю над большой обработкой данных, включающей ...
3
голоса
3ответа
510 показов

Как эффективно отсканировать 130 000 бумажных страниц за 10 дней

У меня есть довольно крупный проект, который в конечном итоге принесет пользу обществу, и я ищу любую помощь, которую смогу собрать. У меня есть около 130 000 страниц, которые нужно оцифровать. ...
3
голоса
4ответа
7k показов

Что это за символ `¬` и как его удалить из файла ms word 2013?

Я использовал программу ocr, чтобы преобразовать некоторые отсканированные страницы в файл MS Word. После того, как преобразование можно нашли ¬ символ в середине многих слов. Я пытался найти и ...
3
голоса
1ответ
990 показов

Как извлечь символ Unicode из файла .png?

Я хочу извлечь символ Unicode из файлов .jpg и .png. Я пытаюсь сделать это с помощью следующей команды: tesseract 1.png output.txt Эта команда работает для английских символов, но когда я пробую ее ...
3
голоса
3ответа
28k показов

Какое программное обеспечение может преобразовать почерк в текст?

Я посмотрел на MyScript, но программа не принимает формат PDF. У меня есть несколько документов (PDF), которые представляют собой сканы рукописного текста. Мне нужна программа, которая может ...
3
голоса
0ответов
216 показов

Преобразование нескольких файлов .doc для поиска .pdf

У меня есть пакетный командный файл, который ежедневно выполняет преобразование файлов извлечения данных в форматы .txt, .doc, а затем в форматы .pdf. Я запускаю серию макросов форматирования в Word ...
3
голоса
3ответа
21k показов

OCR из командной строки в Windows 7

Какие утилиты OCR из командной строки будут работать в 64-разрядной версии Windows 7?
3
голоса
1ответ
3k показов

Тренинг Tesseract-OCR для шрифтов английского языка

У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно ...
3
голоса
5ответов
16k показов

Вавилон не может распознать текст в Firefox и IE 9

До того, как я обновился до Firefox 4 и IE 9, Babylon успешно распознавал текст в этих браузерах. После обновления он больше не может распознавать текст. Я играл с Оптимизацией OCR в расширенных ...
3
голоса
1ответ
592 показов

Как я могу заставить OCR лучше распознавать текст моих документов?

Я не могу получить некоторые из моих документов с изображениями для распознавания OCR. Они не особенно низкого разрешения - хотя некоторые искажены - но я не могу получить их через OCR, даже с ...
2
голоса
2ответа
1k показов

OCR, который добавляет сгенерированный текст в исходные файлы PDF и DJVU?

Моя ОС - Ubuntu. Я обнаружил, что есть некоторые приложения, которые могут распознать файл pdf или djvu, генерируя другой текстовый файл. Но мне было интересно, как добавить текст OCRed в исходные ...
2
голоса
1ответ
525 показов

Ищите рекомендации по проблеме OCR - табличные числовые данные

У меня есть 20 страниц экспериментальных данных измерений, которые мне нужно оцифровать. Результаты представлены в табличной форме, отсканированы с разрешением 600 точек на дюйм, и что касается ...
2
голоса
2ответа
2k показов

Ищите программное обеспечение, чтобы переименовать имя файла JPEG сканирования изображения документа в текст на изображении

Я сканирую многие бумажные документы формата А4 в JPEG с помощью автоматического сканера устройства подачи документов. Результаты FILE0001.JPG FILE0002.JPG и т.д. Я хотел бы, чтобы программа ...