12

Я был на месте моего деда в прошлые выходные. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу о своей семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я являюсь, я думал, что было бы замечательно, чтобы вся информация сохранялась в базе данных и была доступна из Интернета. Я могу справиться со всем веб-программированием и регулярными выражениями, а что нет, но то, что я не знаю, является лучшим способом передачи текста из книги в компьютер.

Я знаю, что какой-то OCR будет необходим, из небольшого исследования, которое я сделал, кажется, что мои варианты:

  1. сфотографировать каждую страницу с помощью камеры, а затем обработать изображения с помощью программного обеспечения OCR
  2. используйте сканер для сканирования каждой страницы, затем обработайте с помощью программного обеспечения OCR
  3. используйте какое-то портативное устройство, подобное этому.

У кого-нибудь есть идеи о том, как лучше решить эту проблему? Я не хочу уничтожать книгу, потому что, насколько я знаю, ее нельзя заменить. Вероятно, это единственный раз, когда я собираюсь отсканировать большую книгу, поэтому я не думаю, что хочу потратить более 250 долларов на любое устройство. Я не возражаю против некоторых ручных усилий здесь (я понимаю, что это, скорее всего, займет месяцы), но я хотел бы найти наиболее эффективный из возможных методов.

Примечание о книге: ей всего около 20 лет, так что она в хорошей форме. Это монохромный, и страницы не начали желтеть. Так как он настолько большой, я беспокоюсь о возможных тенях, когда текст подходит близко к привязке.

8 ответов8

8

Я сталкивался с этим на Lifehacker довольно давно, и с тех пор это был один из моих лучших проектов DIY.

Замените iPhone любой камерой или изображением, и вы получите набор хороших JPEG-изображений с высоким разрешением, готовых для распознавания текста с любым программным обеспечением, даже (срочно!) Майкрософт офис... ;)

Дешевые. Эффективное. DIY. Вы не можете победить такую идею.

РЕДАКТИРОВАТЬ: Комментарии подняли некоторые вопросы о тенях, скручивании страниц и т.д. Довольно легко решаются для тех, кто буквально копировал текст библиотеки библиотеки.

Добавьте несколько источников света, чтобы осветить книгу, и устраните тени.

наклоните книгу под углом 90 градусов, чтобы страницы не скручивались к переплетам посередине. Это также сохраняет привязку.

Я посмотрю, смогу ли я привести пример и настроить его сам.

РЕДАКТИРОВАТЬ 2: загруженный образец того, как вы должны держать книгу, а также обратите внимание на источник света слева.

3

Из того, что я знаю, ABBYY делает лучшее программное обеспечение для распознавания текста, но оно не бесплатное. Попробуйте попробовать пробную версию ABBYY FineReader, возможно, она вам поможет.

1

Для такого крупного и важного для вас и вашей семьи проекта, как этот, сканер книг для дома может быть подходящим вариантом, некоторые модели даже для спортивных страниц - http://www.diybookscanner.org/ Этот вариант изначально не поддерживает распознавание текста. , но снимает 600 страниц в час, и вы можете запустить его через OCR после факта http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

1

Вам нужно будет как-то захватить изображение. Существуют различные услуги, чтобы сделать это для вас. Вам также понадобится кто-то, кто знаком с содержанием текста, для корректуры, так как OCR еще не идеален. Особенно с чем-нибудь рукописным.

Другие обсуждают ваш вопрос здесь:http://ask.metafilter.com/92506/scan-my-books

Некоторые компании сделают это для вас:http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http://www. ristech.ca/product.html

Некоторые бесплатные программы:http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

0

хотя кажется заманчивым автоматизировать этот процесс, вы можете потратить больше времени и усилий, поскольку эта конкретная книга - дело личное. OCR выполнит большую часть, но вам придется корректировать страницу за страницей и сравнивать с оригиналом. Имейте в виду, что ошибки автора являются частью сделки, не исправляйте их (создавайте сноски, если вы чувствуете в этом склонность). Не торопитесь, не подвергайте себя давлению, сканирование книг - это работа осла, но тщательность окупается, и в итоге вы получите прекрасную цифровую копию хроники вашей семьи. удачи в ваших усилиях :)

0

Возможно, вы захотите узнать, есть ли в ближайшем к вам университете целый сканер книг, а затем попросить / подкупить студента, чтобы он пропустил вашу книгу.

0

Я бы порекомендовал планшетный сканер для сканирования книг или целый книжный сканер, как упомянул Крис.

Если вы можете, скомпилируйте ваши изображения в формат TIFF, поскольку это является отраслевым стандартом, когда речь идет о системах управления документами.

Для работы с OCR я бы порекомендовал тессеракт OCR, так как он является основой, разработанной Google для их книжного проекта.

0

На работе мы используем книжный сканер Plustek Optibook 3600, который стоит около 250 долларов.
В основном это стандартный сканер с плоской кроватью, но со стеклянной пластиной, направленной прямо к краю сканера, чтобы страница книги могла быть размещена на пластине плоско. Это исключает тень на позвоночнике и позволяет избежать повреждения книг.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .