У меня есть гигантский.TIF файл
Я отсканировал книгу несколько дней назад и случайно отсканировал ее как многостраничный.TIF. Я очень хочу превратить его в более доступный.PDF файл
Ты хоть представляешь, как это можно сделать?
У меня есть гигантский.TIF файл
Я отсканировал книгу несколько дней назад и случайно отсканировал ее как многостраничный.TIF. Я очень хочу превратить его в более доступный.PDF файл
Ты хоть представляешь, как это можно сделать?
Если вам достаточно просто преобразовать формат файла (не делая текст доступным для поиска (через OCR, как указал Джонатан Бен-Авраам), это будет идеальной задачей для convert
из пакета ImageMagick (доступного для различных платформ: Win, Linux Mac)
Просто используйте эту команду для конвертации многостраничного файла TIFF
convert multi-page.tif book.pdf
Тем не менее, вы должны использовать параметр -compress
. Если у вас 24-битный цветной TIF, вы можете использовать LZW
(без потерь) или JPEG
(с потерями), например
convert -compress LZW multi-page.tif book.pdf
Если ваш TIFF черно-белый (пожалуйста, убедитесь, что он действительно сохранен только с 1-битной глубиной цвета), я обычно использую -compress Fax
.
Вот пример 5-страничного файла примера с небольшим текстом в нем - фактическое соотношение между алгоритмами сжатия зависит, конечно, от содержимого вашего файла:
24bit JPEG: 1294kB
24bit LZW: 1759kB
1bit Fax: 135kB
После этого преобразования вы все равно можете запустить инструмент OCR (например, Adobe Acrobat Pro), чтобы сделать поиск текста и копирование.
TIFF (Tagged Image File Format) - это пиксельно-ориентированный формат, предназначенный для изображений. Чтобы получить только символьные данные из файла TIFF, вам необходимо использовать программу OCR (Optical Chararacter Recognition). Все программы OCR имеют частоту появления ошибок. Формат страниц (верхний и нижний колонтитулы, заголовки разделов и т.д.) Также влияет на способность OCR точно угадывать символы.
Язык и особенно система письма и шрифт также влияют на точность распознавания. Если книга имеет необычный незападный шрифт с лигатурами, то вероятность получения вывода Goot OCR близка к нулю.
Если книга не является в основном текстовой, например, книгой со многими снимками экрана или другими важными изображениями, то распознавание текста вам не поможет.
В зависимости от используемой ОС доступно несколько программ OCR с открытым исходным кодом. На Google Диске есть бесплатный сервис OCR. WMMV.
Если исходная книга, которую вы отсканировали, имеет формат бумаги, то TIFF - это лучшее, что вы можете сделать в любом случае. Вы можете сделать размер документа более управляемым, сжав файл TIFF. Попробуйте сжатие JPEG с различными уровнями сжатия, чтобы оптимизировать размер документа для удобства чтения.