Извлечение текста из.PDF отсканированная книга

Question

Я отсканировал книгу в формате PDF, но качество ее довольно низкое:

(Язык румынский, и это книга по медицинской физиологии, если вам интересно)

Я хочу извлечь текст из книги (1500 страниц), но сохранить изображения такими, какие они есть. Я действительно не думаю, что у меня есть шанс найти решение, поэтому я обязательно куплю книгу.

На самом деле, есть ли мощное программное обеспечение, которое может делать то, что я ищу? Это также должно признать румынский язык.

score 6 · Answer 1 · 2011-03-09T19:38:42

Ранее я опубликовал ответ, подробно описывающий, как использовать Cuneiform (программное обеспечение с открытым исходным кодом) для распознавания текста в файлах PDF и как создать файл PDF с распознанным текстом в скрытом текстовом слое "за" исходным изображением. Насколько я знаю, Cuneiform действительно поддерживает и румынский язык.

Хотя конкретное решение было для Linux, Cuneiform доступен и для Windows.

score 2 · Answer 2 · 2011-03-09T19:38:42

Adobe Acrobat Professional может сделать это. Я не уверен, есть ли румынская версия ...

score 2 · Answer 3 · 2011-03-09T19:38:42

ABBYY Fine Reader - очень мощное программное обеспечение для распознавания текста. Он работает с очень сложными макетами и поддерживает множество форматов (включая pdf). Румынский поддерживается со словарем, то есть программное обеспечение использует словарь для определения приоритетов гипотез при распознавании. (здесь).

В любом случае, оптическая научная литература, имеющая низкое качество сканирования, является сложной задачей. Будьте готовы потратить много времени, чтобы помочь программному обеспечению с проверкой результатов и корректировкой layot. На вашем скане я вижу много очень некачественного текста :(. Я не думаю, что какое-либо программное обеспечение OCR могло бы нормально работать с ним.

score 1 · Accepted Answer · 2011-03-09T19:38:42

Я купил книгу!

score 1 · Answer 5 · 2011-03-09T19:38:42

Recognita OmniPage - безусловно лучшая программа OCR, которую я когда-либо использовал. Я уверен, что он распознает румынский текст; у меня не было проблем с моим родным венгерским языком. Вы можете скачать пробную версию по ссылке и использовать ее для конвертации вашей книги. Полная версия, к сожалению, довольно дорогая ($ 499,99)...

score 0 · Answer 6 · 2011-03-09T19:38:42

Ну, для распознавания текста обычно ищут программы OCR (оптическое распознавание символов). Их очень много, поэтому простой поиск в Google принесет больше пользы, чем я.

Я не понял последнюю часть "признать румынский" - вы имеете в виду, что он должен распознавать румынский язык или быть локализованным (переведенным) на румынский? В первом случае, я думаю, проблем не будет; если второй случай, то я не уверен.

Кроме того, если это не книга ваших местных соотечественников, то есть вероятность, что она уже переведена на английский ... так что если у вас она есть в pdf на румынском, попробуйте поискать английскую версию ... тогда проблема только в том, это вы знаете ... незаконно (иногда у человека нет выбора).

score -1 · Answer 7 · 2011-03-09T19:38:42

Попробуйте PDFCubed.com. Это онлайн-сервис распознавания текста, который облегчает создание текстового PDF с возможностью поиска. Отсканированные документы могут быть отправлены через Интернет, электронную почту или Dropbox.

Сейчас выбран русский

Извлечение текста из.PDF отсканированная книга

7 ответов7

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf ocr.

Связанные

Извлечение текста из.PDF отсканированная книга

7 ответов7

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf ocr.

Связанные

Похожие