То, что вы сделали, полезно в качестве упражнения. В противном случае экспорт изображений из PDF-файла и создание нового PDF-файла из этого не имеет смысла.
Исходное использование пространства документа:
Description Bytes Percentage
Images 351,829 97.60 %
Content Streams 2,742 0.76 %
Document Overhead 5,916 1.64 %
Total 360,478 100 %
Использование вашего документа:
Description Bytes Percentage
Images 1,329,944 98.87 %
Bookmarks 21 0.00 %
Content Streams 1,675 0.12 %
Structure info 60 0.00 %
Document Overhead 13,389 1.00 %
Total 1,345,089 100 %
Исходный документ создается не с помощью Acro, а с iText, который объясняет отсутствующую информацию о структуре.
В разделе "Обработка документов" у вас есть отдельный инструмент "Оптимизация отсканированного PDF". Я проследил за вашим рабочим процессом и запустил оптимизатор для моего недавно созданного PDF-файла, и в результате размер файла составил 328 КБ. Однако качество явно хуже оригинального документа.
Этого и следовало ожидать, так как я сделал все с настройками по умолчанию. Это означает, что экспорт изображения уже был выполнен в формате jpg, который в любом случае больше, чем PDF. Я проверил это, просто извлекая каждую страницу в один PDF-файл - например, изображение jpg, экспортируемое со страницы 1, имеет размер 22 КБ, а при экспорте в формате PDF - всего 9 КБ. Дальнейшая оптимизация изображений в новом документе ухудшает качество изображения еще больше. Это просто неизбежно при работе с растровыми изображениями, такими как jpg.
Использование размера выше показывает, что Acrobat четко экспортировал изображения с максимально возможным качеством. Это имеет смысл, поскольку, когда вы делаете это, вы хотите получить их с минимальной потерей данных изображения.
Одним из вариантов может быть распознавание файла, при котором изображения преобразуются в текст, а текстовые файлы намного легче, чем изображения, увеличивающиеся в размерах. Acro Pro содержит инструмент OCR, но я не могу проверить это, так как у меня нет арабского языка.
РЕДАКТИРОВАТЬ: расширенный языковой пакет применяется только к Adobe Reader. После некоторых исследований кажется, что Acrobat не поддерживает арабское распознавание текста. Смотрите это обсуждение на форуме Adobe.
Сканирование в PDF и последующая оптимизация - это всегда компромисс между размером и качеством. Вам просто нужно протестировать с различными настройками (как сканирование оригинала, так и оптимизация), чтобы найти удовлетворительный компромисс.
Инструкции по оптимизации PDF находятся в справке Acrobat. Справка доступна онлайн как для Acrobat X, так и для Acrobat XI