3

У меня есть статья в формате PDF (не создана мной). Однако я не могу искать текст в PDF. Все просмотрщики PDF, которые я пробовал, возвращают ноль результатов для слов, которые там явно есть. Я пробовал с Adobe Acrobat Professional 8, SumatraPDF и Google Chrome.

Как я могу узнать, почему документ не доступен для поиска?

Вещи, которые я проверил:

  • PDFproducer сообщается как «pdftopdf», а версия PDf - как 1.3. Тем не менее, кажется, что он был создан в чем-то вроде MSWord или OpenOffice (но не * TEX).
  • Это определенно не отсканированный документ, так как шрифт четкий на всех уровнях масштабирования, а текст выбирается.
  • Если я посмотрю на настройки безопасности (ctrl - D в Adobe Acrobat), все будет разрешено (например, печать, копирование, ...).
  • в моих параметрах поиска не включен «регистр совпадений»
  • Я не могу превратить его в документ с возможностью поиска, используя Acrobat «Распознать текст с помощью OCR», так как он сообщает: « Эта страница содержит визуализируемый текст ».

Итак, что еще может быть причиной того, что DPF не доступен для поиска? А как сделать так, чтобы текст был доступен для поиска?

5 ответов5

6
  • Он может иметь пользовательскую кодировку шрифта, которая назначает кодовые точки для символов способом, который несовместим с установленными кодировками, такими как ASCII или UTF-8/Unicode.

  • Может отображать символы отдельно от последовательности

  • Возможно, персонажи сплющены к путям

См. Https://stackoverflow.com/questions/12703387/pdf-font-encoding.
и https://stackoverflow.com/questions/4523283/how-do-you-debug-pdf-files

Чтобы сделать его доступным для поиска по тексту, лучше всего вернуться к исходному источнику (например, документу Word) и использовать другой процесс для создания PDF. В качестве альтернативы вы можете попытаться отобразить ваш текущий PDF как растровое изображение и затем использовать OCR, но это будет утомительно и приведет к плохим результатам.

1

Я нашел способ обойти эту проблему. Я сделал инструменты -> редактировать текст документа, затем для каждой страницы я нажал Control-A (выбрать все), затем щелкнул правой кнопкой мыши и перешел к свойствам, и изменил шрифт на что-то еще. После того, как я это сделал, текст стал доступен для поиска, и я смог скопировать его!

0

Итак, после того, как попробовал много вещей, которые не сработали. Вот как я на самом деле это сделал:

  1. Найдите себе конвертер PDF в Word или что-то в этом роде. (Я рекомендую https://www.online-convert.com/ )

  2. Выполните все необходимые шаги, чтобы преобразовать НО до этого--

  3. Найдите кнопку с надписью «Оптическое распознавание символов» и нажмите

  4. Преобразуйте ваш файл, и вы должны быть золотыми.

0

У меня возникла та же проблема, и в отчаянии погуглил, чтобы найти ответ. Оказалось, что для меня проблема была просто в том, что я использовал Preview на своем iMac для просмотра и поиска в PDF. В большинстве случаев поиск работает в Preview. Но для большой книги, загруженной из Google Книг, это не так.

То, что работало, просто открывало PDF в Adobe Reader. (Дух, что за концепция, я знаю.) Теперь я могу искать. Это, вероятно, не будет работать для всех с Mac, но это может кому-то помочь.

0

перейдите к Edit / Preferences - выберите «search» в левой части экрана настроек - затем «Purge Cache Contents» - выберите OK, затем закройте и снова откройте документ

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .