-1

Я хочу быть в состоянии найти текст на следующем удивительном изображении и где текст находится в нем. Это не первый раз, когда я сталкиваюсь с такой проблемой, и, вероятно, время от времени у многих людей возникают подобные вопросы. Я думаю, что это хороший пример общего вопроса.

Есть много способов (1, 2, 3, 4 ...), чтобы добиться этого индивидуально, но есть ли какой-нибудь OCR , способный автоматически преобразовать это в текстовый PDF? Или любой другой формат для этого материала. Я цитирую PDF только потому, что это формат, созданный для обработки именно такого рода вещей.

Похоже, Cuneiform был бы идеальным инструментом, чтобы сделать это вручную, но я не смог скомпилировать его на Mac и не стал бы делать это для этого экземпляра, но держу пари, что какой-то неослабный стажер мог бы использовать его для дополнения OCR, что никогда не быть в состоянии идентифицировать изображения в этом.

Вот уменьшенный образец изображения, чтобы мы могли лучше представить актуальность вопроса:

потрясающее изображение

2 ответа2

1

Некоторые почти-решения:

Документы Google распознают текст, но не вставляют текст в виде слоя (я сам не пробовал)http://googledocs.blogspot.com/2010/06/optical-character-recognition-ocr-in.html

Abbyy Finereader (http://www.abbyy.com/) превратит его в PDF-файл с основным текстом (в настоящее время я использую его для этой цели), однако это стоит (можно получить пробную версию) и только для Windows

Evernote может распознавать изображения, но я не знаю, будет ли он экспортирован в PDF с текстом

Вы можете загрузить пробную версию Acrobat Pro и использовать Документ> Распознавание текста OCR> Распознать текст с помощью OCR. У меня есть Acrobat Pro на работе, но я никогда не использовал функцию OCR, поэтому не знаю, насколько она хороша. Опять же, только Windows (но у вас вполне может быть Windows на виртуальной машине /Parallels /Virtualbox /Bootcamp)

1

Изображение, на которое вы ссылаетесь, имеет такое низкое разрешение, что большинству программного обеспечения для распознавания текста будет трудно с ним работать, и вы можете получить довольно плохое решение. Честно говоря, если бы вы начали переписывать это самостоятельно сейчас, вы, вероятно, сэкономили бы время, находя несколько пакетов, пробуя их, пытаясь заставить их работать, и, в конечном счете, исправляя все остальные записи из-за неправильного чтения.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .