3

У меня есть документ PDF, который по какой-то причине я не могу скопировать, вставить или выполнить поиск. PDF - это текстовый файл, а не файл изображения. Когда я пытаюсь скопировать и вставить текст в Microsoft Word или GNU Emacs, я получаю множество маленьких прямоугольников вместо букв. Когда я пытаюсь найти текст в Adobe Reader, я не могу найти слова, которые я вижу. К документу, похоже, не применены какие-либо специальные меры защиты. У меня были PDF-файлы один или два раза раньше. Я попытался открыть его в Google Docs, но снова, хотя он выглядит как простой текст, я не могу найти его. Это кто-нибудь звонит в колокола?

Я попытался посмотреть на шрифты PDF, и это выглядит так:

--font-65795-6-- (Embedded Subset)
Type: TrueType
Encoding: Built-in
Century (Embedded Subset)
Type: TrueType
Encoding: Built-in

затем следуют аналогичные строки для Century, Helvetica, Symbol, Times-Roman и Verdana.

7 ответов7

5

Этот PDF, вероятно, содержит свой собственный шрифт, который встроен в него. В этом случае, хотя PDF-файл по-прежнему будет отображаться правильно, правильная текстовая информация не всегда доступна и копирование становится невозможным.

Все шрифты фактически встроены, но таким образом, что вся информация о кодировке была удалена. Это происходит, когда PDF, который все еще синтаксически полностью соответствует спецификации PDF, содержал важную информацию о значении текста в нем, выброшенном в процессе создания PDF. Восстановить информацию о кодировке очень сложно, и иногда лучшим вариантом является преобразование страниц в формат TIFF, а затем запустить OCR ...

Вы можете попробовать конвертер PDF в Word, например AnyBizSoft или конвертер веб-сайта. После преобразования вы можете получить все, что захотите, из слова или текстового файла. Вот пошаговое руководство для AnyBizSoft. (AnyBizSoft рекомендуется многими, но я никогда не использовал это лично.)

Смотрите также Лучшие бесплатные PDF инструменты для получения дополнительных инструментов и конвертеров.

3

С помощью Adobe Acrobat Pro 9 я обрабатываю проблемный неисследуемый pdf из-за пользовательской кодировки шрифтов следующим образом: Все эти команды (1-4) находятся в меню Файл:

  1. Открыть PDF
  2. Элемент списка
  3. Экспорт -> изображение -> JPG
  4. Создать PDF -> Пакетное создание нескольких файлов
  5. Объединить -> Объединить файлы в один PDF

Из меню документов:

  1. scan OCR {это для создания файла изображения в формате PDF с возможностью поиска}.

Но после 258 страниц PDF-документа размером 1457 КБ после преобразования, выполненного с помощью описанных выше шагов, он становится файлом PDF размером 67565 КБ. Это становится намного большим размером! но теперь он доступен для поиска.

3

Разве случайно в этом PDF не используется странный нестандартный шрифт?

3

Лучшее решение еще! Если вы не возражаете против небольшой потери качества ...

1) Распечатайте свои неисследимые страницы в PDF, используя растеризированный сторонний принтер PDF (Win2PDF работал для меня). Конечный результат - это, по сути, сканирование исходного PDF без данных о шрифтах.

2) Запустите инструмент распознавания текста с помощью оптического распознавания символов (OCR) из меню «Документ» (верхняя строка).

Конечный результат - PDF-файл с возможностью поиска (хотя и выглядит неряшливо). Что-то в OCR приводит в порядок символы в файле. Но они действительно доступны для поиска и копирования / вставки.

Наслаждаться.

2

Я хотел бы внести пошаговые инструкции. Ответы выше помогли мне с точно такой же проблемой, но пропущено много шагов. Одна вещь, которая сбила меня с толку (на несколько недель!) находил совпадение по симптомам. Поэтому для таких новичков, как я, я разместил инструкции на своем собственном веб-сайте по адресу http://supersaturation.com/howToFixUnsearchablePDF.html, которые я копирую здесь:

СИМПТОМЫ:

Недавно я купил электронную книгу у кого-то, кто использовал старые Mac OS для их создания. Книги открылись просто отлично. Я мог видеть слова в них. Но я не мог искать слова в книге. Все программы, которые я использовал для этого (Windows Explorer, Foxit Reader, Adobe Acrobat, LibreOffice, различные веб-браузеры, Evernote Premium), либо сообщали мне, что слово не найдено, либо просто смотрели на меня тупо, как будто я этого не делал. просто сказал им, чтобы искать. Единственным поисковым запросом, который получил ответ, был поиск по одной букве или цифре. Однако я так и не нашел нужную букву или цифру; вместо этого я получил ряд других персонажей один за другим. Например, если бы я искал букву «h», я бы получил последовательно: w, w, w, ww, m, m, m, m, 2, 2, m, m, m, f, f, f, f и т. д. После, возможно, 30-кратного нажатия кнопки Search Again, любая программа, которую я использовал, похоже, наскучила в игре, потому что тогда я вернусь к началу документа и снова начну находить экземпляры 'w'. , Мой парень открыл документ с помощью своего Mac и своего linux-бокса, и он тоже не смог найти его.

Другим симптомом было то, что текст был непоправим Я пытался копировать и вставлять текст в различные редакторы, но все, что давало мне, было кодом.

У меня не было опыта работы с PDF, и я не знал, что, как пользователь Windows 7, мне принадлежало программное обеспечение для этого. Когда я искал в Интернете решение, я наткнулся на множество почти неразборчивых (для меня) объяснений проблемы и того, что с этим делать. В общем, я нашел больше объяснений, почему возникла проблема, но обсуждения на форуме обычно заканчивались тем, что проблема не решалась. Но основная суть, которую я получил, заключается в том, что с помощью Adobe Acrobat есть очень грязный обходной путь. Это программа, которую я никогда не использую, потому что я всегда ненавидел ее (и PDF-файлы). Я думал, что это был просто читатель, и ужасно неловкий в этом.

Прошлой ночью я познакомился с Adobe Acrobat. Я понятия не имел, что делает большинство пунктов меню, поэтому я просто попробовал все и потерпел неудачу, пока что-то не сработало.

ОДИН РЕШЕНИЕ:

Чтобы избавить вас от того же горя, вот пошаговые инструкции. Там могут быть другие решения; это просто первое, что я смог сделать сам, не платя веб-сервису или Kinkos, чтобы сделать это вдвое дороже, чем я заплатил за электронную книгу. Если у вас нет Adobe Acrobat, у вас почти наверняка есть друг, у которого он есть. И могут быть другие pdf-манипуляторы, которые могут делать то же самое (я выглядел тяжело, но не мог найти способ сделать это с Foxit или с Evernote, даже если Evernote может читать текст из снимков вашего почерка!

  1. ЗАПУСК Adobe Acrobat

  2. С помощью меню «Файл» откройте поврежденный документ. (Я не знаю, что делать, если вы даже не можете открыть файл. Сожалею!)

  3. (УБЕДИТЕСЬ, что Acrobat не может искать документ, если вы этого не сделали, просто чтобы избежать ненужной работы.)

  4. ЭКСПОРТ. После открытия документа снова откройте меню «Файл» и выберите «ЭКСПОРТ / ИЗОБРАЖЕНИЕ / PNG». Ваш поврежденный PDF-файл будет сохранен в виде серии изображений с расширением файла «.pgn», по одному на каждую страницу PDF-документа. Не волнуйтесь, они будут автоматически пронумерованы Acrobat, и они не очень большие. Мой документ занимал 200 страниц, поэтому я получил 200 маленьких файлов изображений в формате .png. Экспорт может занять пару минут. Вы не получите никаких дополнительных сигналов от Adobe, чтобы сказать вам, что это сделано - просто зайдите в каталог, который содержит оригинал, и посмотрите, есть ли в нем файлы png с такими именами, как:

химияBook_Page_001.png химияBook_Page_002.png

  1. СОБИРАТЬ: Как только у вас есть файлы изображений, соберите их все вырезанным и вставьте в их собственный каталог.

  2. OCR: в меню "Документ" выберите «OCR TEXT RECOGNITION / RECOGNIZE TEXT» в нескольких файлах с использованием OCR.

  3. ДОБАВИТЬ ФАЙЛЫ: Вам будет показано диалоговое окно с заголовком "Захват нескольких файлов" с подзаголовком "Запустить распознавание текста для набора изображений". Есть кнопка с надписью "Добавить файлы". Нажмите эту кнопку, выберите ДОБАВИТЬ ПАПКИ и перейдите к папке, содержащей ваши файлы png. Выделите этот файл, нажмите ОК. Файлы появятся в этом диалоговом окне. Убедитесь, что файлы в правильном порядке, иначе вам будет грустно. Нажмите ОК.

  4. ВЫБЕРИТЕ ОПЦИИ ВЫХОДА: Теперь вы получите диалоговое окно под названием "Параметры вывода". У вас есть несколько вариантов сделать здесь:

ЦЕЛЕВАЯ ПАПКА: нажмите "Определенная папка", затем перейдите к папке, полной изображений, нажмите "Создать новую папку", назовите папку (что-то вроде "CHEMISTRYBOOKIMAGEFILES", чтобы вы могли легко найти ее и узнать, что в ней, нажмите "ОК").

НАЗВАНИЕ ФАЙЛА: Нажмите "Сохранить исходные имена файлов". Это сохранит автоматическую нумерацию ваших файлов в Acrobat - это понадобится вам для правильного упорядочивания страниц! Снимите флажок "Перезаписывать существующие файлы", просто чтобы избежать ужасной ошибки, если только вы не очень заинтересованы в свободном месте на диске или если вы уже пятый раз пытаетесь следовать этим инструкциям, и у вас уже есть слишком много дубликатов выходных файлов. Если у вас есть место на диске, просто создайте новую пустую папку для 6-й попытки.

ФОРМАТ ВЫХОДА: Выберите «Сохранить файлы в формате Adobe PDF». Нажмите «ОК».

Теперь подождите, пока Adobe выполнит оптическое распознавание символов в файлах изображений. Его выводом будет один маленький PDF-файл для каждого маленького файла изображения, который это OCR.

  1. СОБИРАЙТЕ ФАЙЛЫ В ОДИН: В меню Файл выберите СОЕДИНИТЬ / СЛИВАТЬ ФАЙЛЫ В ОДНОМ PDF. Этот шаг не является обязательным; может быть, вы хотели получить кучу маленьких файлов, или, может быть, вы хотели разделить ваш огромный оригинальный документ на 2 или 3 более управляемых документа. Чтобы разделить файл, просто создайте отдельный каталог для файлов png, которые вы хотите в каждом меньшем конечном документе, и повторите шаги с 6 по 9 для каждого каталога. БУДЬТЕ ОСТОРОЖНЫ С НАИМЕНОВАНИЕМ! Убедитесь, что вы выбрали уникальное имя, потому что, если у вас что-то не так, вы захотите вернуться к исходному испорченному pdf и повторить попытку. Если ваш оригинал называется «CHEMISTRY.PDF», пожалуйста, не забудьте назвать этот новый файл чем-то вроде «CHEMISTRY-FIXED.PDF».

Если вы действительно презираете pdf, вы можете попробовать использовать разные выходные форматы в шаге 8. Я ненавижу pdf, но я выбрал pdf по двум причинам: во-первых, у меня было больше уверенности в том, что этот pdf сохранит важные функции, такие как диаграммы и графики, и помеченные фотографии в моем документе. Другая причина в том, что я так и так устал от всей этой ерунды в формате PDF вместо химии, что я получил книгу, чтобы помочь мне с этим, я не хотел делать что-то необычное с форматами файлов на данный момент. , Дайте мне знать, если вы попробуете выводить в rtf или ascii и получите хорошие результаты.

  1. ТЕСТ: Откройте объединенный документ (ы) во всех программах чтения PDF и веб-браузерах, которые вы хотите использовать с ним, и попробуйте выполнить поиск по нему. Используйте браузер файлов и попробуйте найти текст в каталоге по слову, которое, как вы знаете, содержится в файле. Searchable? Хорошая работа, все готово, ура!

Не для поиска? О нет! Убедитесь, что вы открыли правильный документ (возможно, вы открыли оригинал по ошибке). Попробуйте весь процесс еще раз. Если это не поможет, попробуйте снова весь процесс, но на этот раз выведите его в виде обычного текста. Приношу свои извинения, но, будучи сам новичком, у меня нет дальнейших советов на эту тему.

NB! Мой выходной PDF довольно низкого качества. Похоже, это было буквально отсканировано из бумажной копии 10-й итерации. Не знаю, как это исправить, после факта или где-то в вышеуказанном процессе. Это достаточно хорошо, так что я просто имею дело с размытостью шейки. Кажется, я где-то помню, что я мог выбрать высококачественный выходной сигнал, но, опять же, я не хотел делать что-то необычное с векторами, составлением списков, слоями и другими терминами, которые я не знаю, прежде чем я убедился, что могу что-то сделать базовый и вернуться к химии как можно скорее.

Мой блог не открыт для публичных комментариев. Если у вас есть вопросы, напишите мне. Мой адрес Кэролайн на моем доменном имени. Я сделаю все возможное, чтобы помочь вам, потому что я знаю, насколько неприятной и вредной может быть эта проблема, и я знаю, насколько сложен весь этот процесс pretend-ocr.

0

Может быть, попробовать онлайн (или в автономном режиме) инструмент OCR?

0

Я только на 7 лет опоздал на эту вечеринку. \

Просто нашел этот вопрос, и один из ответов дал мне подсказку.

Вместо распечатки и распознавания текста я выполнил "Экспорт в PDF" с помощью предварительного просмотра на Mac. Второй документ был в порядке.

Маки не являются обычным явлением, но они вполне могут работать с другими программами для чтения PDF.

Для других людей в этой ситуации другой идеей, которую стоит попробовать, было бы установить универсальный драйвер postscript на FILE устройства и сделать это.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .