Я хотел бы отсканировать несколько старых текстовых документов. Моя цель двоякая: аварийное восстановление (например, пожар) и сохранение места на громоздких документах, на которые я редко ссылаюсь (например, старые телефонные счета).

После сканирования я собираюсь уничтожить некоторые из оригиналов, где я редко на них ссылаюсь, и они громоздки. Остальное я сохраню и продолжу ссылаться на. Я не намерен OCR документы.

По моим оценкам, есть несколько тысяч сторон формата А4 для сканирования, и я стремлюсь только к нескольким ошибкам (пропущенные или неразборчивые стороны) на 1000 отсканированных сторон. Под неразборчивым я подразумеваю текст, который человек не может надежно прочитать.

Я хотел бы сделать это сам, а не использовать коммерческий сервис.

Я считаю, что документы довольно типичны для того, что домашние пользователи собирали в своих шкафах за последние, скажем, 10 или 20 лет:

  • В основном (возможно, 80%) стандартный размер бумаги или близкий к стандартному размеру (A4, вероятно, будет буквой США в другом месте)
  • Некоторые счета, которые длиннее, чем A4 (менее 10%)
  • Небольшое количество "очень разных" страниц (менее 10%)
  • В основном относительно плоская бумага хорошего качества
  • Документы напечатаны на различных бумагах, так как они включают счета, квитанции, письма и т.д.
  • Многие, но не все документы напечатаны на обеих сторонах
  • Смесь цветная и только в черно-белом. Большинство документов не используют цвет важным способом
  • Меньшая часть страниц с некоторой графикой и изображениями и т.д. (Возможно, 5 или 10%)
  • Меньшая часть пожелтевших страниц (менее 5%)

Я хотел бы сканировать в цвете, потому что я не хочу проверять, что вся информация о цвете не важна. Я исключу документы большого формата (например, A3), но в идеале я хотел бы сканировать счета, которые длиннее, чем A4.

Я не против сканировать "неловкие случаи" лист за листом, но хотел бы сэкономить время, используя податчик листов, где это возможно. Однако я ожидаю, что профессиональный сканер высокого класса на самом деле не нужен. Кроме того, поскольку документы по-прежнему разборчивы, повреждение бумаги не очень важно.

Кроме dpi, какие функции в сканере и податчике листов важны для такой работы? Под "характеристиками" я подразумеваю конкретные технические характеристики (или эксплуатационные характеристики) конструкции, а не широкие категории, такие как "надежность".

Я не ищу рекомендации по продукту. Я хотел бы знать, какие функции актуальны для такого масштаба применения.

3 ответа3

1

Если ваши страницы (или некоторые из них) сложены или сморщены (например, бумага высохла после воздействия воды или высокой влажности), лучше выбрать сканер с ПЗС вместо CIS. Элементы CCD имеют гораздо большую глубину резкости, чем CIS. Сканирование такой бумаги сканером CIS приведет к появлению нерезких областей на вашем сканировании. OCR часто дает сбой в нерезких областях. Вы могли бы обострить такие области с помощью настроек в драйвере или с помощью программного обеспечения, но это все равно не поможет добиться надежного распознавания текста. С помощью CCD-сканера вы в первую очередь избежите этой проблемы.

Что касается страниц длиннее, чем A4: вероятно, все сканеры подачи листов по вашей цене поддерживают это. Обычно это параметр в драйвере сканера, который отключает определение многостраничной подачи по длине.

Сравнение сканеров по заявленной скорости (страниц / изображений в минуту) может быть очень обманчивым. Некоторые производители заявляют это при 150 других при 200 или 300 dpi. Скорость очень сильно зависит от выбранных вами настроек драйвера сканера. Пример: если вы сканируете газетную / журнальную статью с изображениями / графикой (напечатанными на экране) с разрешением 300 точек на дюйм и стремитесь к небольшому размеру документа, вам нужно выбрать функцию удаления экрана в драйвере. Это приведет к значительному замедлению работы сканера. Несмотря на то, что для такого сканирования вы установили 300 точек на дюйм, скорость будет сопоставима со скоростью сканирования около 600 точек на дюйм (помните, что мы говорим о довольно недорогих сканерах документов только за 500 фунтов).

Выберите сканер со светодиодами в качестве источника света вместо газоразрядных ламп с холодным катодом, который является более старым видом молнии. Светодиоды имеют более длительный срок службы и не требуют времени на прогрев.

0

Что касается любой работы такой важности, я бы сказал, что надежность продукта / компании имеет важное значение. (Спецификации не имеют значения, будет ли качество сканирования низким, или устройство подачи сломается.) Кроме того, я предполагаю (хотя, конечно, могу ошибаться), что все современные сканеры будут иметь достаточно высокое разрешение на дюйм и смогут выводить файлы обычного типа (jpeg для меньшего размера файла, png для более высокого качества и т.д.)

Тем не менее, я бы порекомендовал уделить время, чтобы рассмотреть вопрос о том, является ли цифровое сохранение достаточно надежным. Например

  • Мы уверены, что DVD, HDD или флэш-накопитель будут хранить свою память в течение многих лет (если вы хотите этого в течение многих лет).
  • Мы уверены, что сможем читать файлы через десять лет? (Подумайте о типе файла и типе оборудования. - Как бы вы прочитали информацию с дискеты сегодня ?!)

Смотрите Цифровое сохранение в Википедии. И этот ответ на этом сайте.

-1

Предполагая, что вы намерены продолжать сканирование входящих документов на регулярной основе (если вы планируете сканировать только старые, вам все равно лучше сделать это в службе сканирования):

Профили сканирования, которые некоторые производители сканеров называют его предустановками сканирования, сделают вашу работу намного проще и быстрее. С помощью профиля / предустановки вы сохраняете комбинацию настроек драйвера сканера для последующего повторного использования. Пример: профиль A для простой чёрной печати на стандартной белой бумаге, B для цветных журнальных статей, C для рекламных накладок разных размеров (например, автоматическая обрезка до размера оригинала вместо сканирования небольших бланков при стандартных размерах страниц), D для тонкой бумаги с печатью на обеих сторонах (настройки драйвера, например, просвечивание или просвечивание), E для документов повышенной длины и т. д.

Рассматривая упомянутые вами документы, вы, вероятно, дойдете до того, что вам потребуется более 9 профилей сканирования. Многие сканеры ADF предлагают только 9 профилей, некоторые даже меньше. Некоторые производители реализуют профили сканирования в драйвере, другие - в программе "Утилита сканирования". Некоторые предлагают аппаратные кнопки для выбора среди профилей. Многие модели с аппаратными кнопками и дисплеем просто показывают номер профиля без дополнительного текста. Будете ли вы позже вспомнить, что делает профиль 3? У нескольких сканеров есть дисплей, на котором также отображается текст, поэтому вы можете давать своим профилям имена. И более 9 профилей? Часто реализуется в программном обеспечении - но такие требования быстро выводят вас за пределы аппаратного / программного обеспечения потребительского уровня.

Я рекомендую купить сканер, в котором автообрезка уже поддерживается драйвером. Если вам нужно обрезать сканы дополнительным программным обеспечением, вам придется идти на компромиссы. Поэтому лучше не рассчитывать на обновление этой функции дополнительным программным обеспечением на более позднем этапе. Надежную автоматическую обрезку очень сложно реализовать только на программном уровне (и требует довольно много ресурсов процессора). Даже если стороннее программное обеспечение на уровне потребителя заявляет о поддержке автоматического кадрирования, вы получите много ложных результатов (от недостаточно обрезанного до слишком обрезанного, до даже полностью обрезанного наугад)- есть потребительское и полупрофессиональное программное обеспечение для около 200 долларов США, которые случайно оказались в моих тестах).

Почему я не ограничил свой ответ оборудованием? Потому что покупка сканера не похожа на покупку принтера, как могут подумать те, кто раньше не использовал сканер документов. Диалог печати более или менее стандартизирован, и вариации весьма ограничены для многих производителей принтеров и моделей, которые мы используем для наших общих потребностей в печати. Драйверы WIA (Windows) для сканеров аналогично стандартизированы, но вы получаете лишь небольшую часть возможностей вашего сканера. Драйверы TWAIN - это совсем другая история. Если у вас нет опыта работы с драйверами сканера и обработкой изображений, время, необходимое для понимания и использования драйвера и сканера программного обеспечения вашего сканера в полной мере, может сильно различаться в зависимости от производителя сканера и даже модели производителя. И даже после того, как вы поняли одну модель, вы можете потеряться с другой до такой степени, что захотите пройти через нее из своего окна.

После того, как вы купили сканер, вы застряли с его драйвером (ами) и программным обеспечением для сканирования - при условии, что вы не готовы выходить за рамки своего бюджета с помощью дополнительного стороннего программного обеспечения, или вы не желаете или не можете исправлять свой рабочий процесс с помощью сценариев или вручную пройти этапы процесса с рядом бесплатных или с открытым исходным кодом программного обеспечения. Если вы готовы дополнительно потратить на дополнительные возможности обработки изображений, больше профилей сканирования, большую автоматизацию (присвоение имен файлам, распределение файлов по определенным папкам и т.д.), Это быстро удорожает, потому что вы выходите на рынок, ориентированный на крупные компании, которые только медленно движутся к небольшим компаниям с ограниченными ИТ-ресурсами. Ваше сканирование должно совпадать с потребностями многих небольших компаний или SOHO.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .