У меня есть этот 7 МБ PDF, который я сделал из 65 отсканированных черно-белых изображений. После OCR документ становится 32мб.
Я никогда не видел, чтобы текст занимал так много места. (теоретически 25 МБ должны дать мне 25 миллионов несжатых писем) Сохранение в виде обычного текста. У меня около 4 КБ / страница * 65 = +/- 280 КБ текста.
Оставляет оставшиеся 32 МБ для позиционирования, так как я делаю изображение для поиска? Навряд ли.
Что-то кажется неправильным, и я хочу взглянуть на пространство, занимаемое различными частями PDF, но я не могу найти инструмент, который, кажется, делает это.
РЕДАКТИРОВАТЬ: проблема с PDF в вопросе была решена. Преступник имел изображение с возможностью поиска и изображение с возможностью поиска (точно). Должно быть, передискретизировал некоторые изображения, что сделало их намного больше. Тем не менее, все еще заинтересованы в ответе на вопрос.