6

У меня есть гигантский.TIF файл

Я отсканировал книгу несколько дней назад и случайно отсканировал ее как многостраничный.TIF. Я очень хочу превратить его в более доступный.PDF файл

Ты хоть представляешь, как это можно сделать?

2 ответа2

16

Если вам достаточно просто преобразовать формат файла (не делая текст доступным для поиска (через OCR, как указал Джонатан Бен-Авраам), это будет идеальной задачей для convert из пакета ImageMagick (доступного для различных платформ: Win, Linux Mac)

Просто используйте эту команду для конвертации многостраничного файла TIFF

convert multi-page.tif book.pdf

Тем не менее, вы должны использовать параметр -compress . Если у вас 24-битный цветной TIF, вы можете использовать LZW (без потерь) или JPEG (с потерями), например

convert -compress LZW multi-page.tif book.pdf

Если ваш TIFF черно-белый (пожалуйста, убедитесь, что он действительно сохранен только с 1-битной глубиной цвета), я обычно использую -compress Fax .

Вот пример 5-страничного файла примера с небольшим текстом в нем - фактическое соотношение между алгоритмами сжатия зависит, конечно, от содержимого вашего файла:

24bit JPEG:  1294kB
24bit LZW:   1759kB
1bit  Fax:    135kB

После этого преобразования вы все равно можете запустить инструмент OCR (например, Adobe Acrobat Pro), чтобы сделать поиск текста и копирование.

2

TIFF (Tagged Image File Format) - это пиксельно-ориентированный формат, предназначенный для изображений. Чтобы получить только символьные данные из файла TIFF, вам необходимо использовать программу OCR (Optical Chararacter Recognition). Все программы OCR имеют частоту появления ошибок. Формат страниц (верхний и нижний колонтитулы, заголовки разделов и т.д.) Также влияет на способность OCR точно угадывать символы.

Язык и особенно система письма и шрифт также влияют на точность распознавания. Если книга имеет необычный незападный шрифт с лигатурами, то вероятность получения вывода Goot OCR близка к нулю.

Если книга не является в основном текстовой, например, книгой со многими снимками экрана или другими важными изображениями, то распознавание текста вам не поможет.

В зависимости от используемой ОС доступно несколько программ OCR с открытым исходным кодом. На Google Диске есть бесплатный сервис OCR. WMMV.

Если исходная книга, которую вы отсканировали, имеет формат бумаги, то TIFF - это лучшее, что вы можете сделать в любом случае. Вы можете сделать размер документа более управляемым, сжав файл TIFF. Попробуйте сжатие JPEG с различными уровнями сжатия, чтобы оптимизировать размер документа для удобства чтения.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .