1

У меня есть пара тысяч файлов Tiff, каждый из которых представляет собой многостраничный текстовый документ. Я хотел бы иметь возможность искать содержимое этих файлов и упорядочивать / индексировать их на основе определенной информации, такой как имя, город, округ, штат, улица, почтовый индекс и т.д. Цель состоит в том, чтобы найти соответствующие файлы на основе условия поиска. Например, если бы мне пришлось искать «Дойл, Боб» И "Округ Ориндж", все файлы, содержащие эти термины, были бы найдены. У меня есть ПК с ОС Windows и Linux, но они не должны быть кроссплатформенными.

Что ты предлагаешь?

1 ответ1

1

Я хотел бы иметь возможность искать содержимое этих (TIFF) файлов.

Ниже представлены два решения для Windows и Linux.


Windows Solution

Вы можете установить TIFF IFilter.

Windows® TIFF IFilter позволяет искать документы TIFF на основе текстового содержимого. После загрузки Windows TIFF IFilter выполняет обработку изображений TIFF с помощью оптического распознавания символов (OCR), а затем предоставляет распознанный текст вызывающей стороне для построения поискового индекса.

Windows TIFF IFilter ориентирован на текстовые документы, что означает, что поиск будет более успешным для документов, которые содержат четко идентифицируемый текст (например, черный текст на белом фоне), и менее успешным для документов, которые содержат смешанное содержимое (например, художественный текст или текст внутри картинок). Кроме того, низкокачественные изображения и смешанные языки могут негативно повлиять на обработку распознавания и, следовательно, снизить качество результатов поиска.

Windows TIFF IFilter поддерживает все документы TIFF, которые относятся к спецификации Adobe TIFF Revision 6.0, и включает наиболее частые сжатия (такие как LZW, JPG, CCITT v4, CCITT v6 и несжатый).

Ссылка на источник содержит подробные инструкции по установке.

Замечания:

Исходный Windows TIFF IFilter Руководство по установке и эксплуатации


Linux Solution

  1. Преобразование файлов TIFF в текстовые файлы или файлы PDF.

    • Ссылка ниже показывает, как конвертировать в PDF с промежуточным шагом OCR (который использует Tesseract).

    • На промежуточном этапе создается текстовый файл.

    • Это означает, что PDF создается из текста, а не изображений.

  2. Поиск текстовых файлов или PDF-файлов, как вы хотите.

Посмотрите Сканирование и редактирование текста с OCR для одного подхода для преобразования.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .