21

Я пытаюсь скопировать и вставить текст из файла PDF.

Однако всякий раз, когда я вставляю оригинальный текст, это огромный беспорядок искаженных символов. Текст выглядит следующим образом (это только один небольшой фрагмент):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Я пробовал это и в Adobe, и в Foxit. Я сделал «Сохранить как текст» в Adobe Reader, и полученный текстовый файл - тот же искаженный текст.

Любые идеи, как я могу получить этот текст без искажений? (Кроме ручного набора текста ... есть много текста для извлечения.)

11 ответов11

10

Простейший способ обойти это - открыть файл в последней версии Google Chrome со встроенным плагином для чтения PDF. Затем вы можете использовать функцию поиска Chrome для поиска текста, и копирование-вставка работает правильно.

Я хотел бы проголосовать за комментарий Пипитаса к ответу Шики, но у меня нет кредитов :( Проблема может заключаться в нестандартном кодировании шрифта, а не в шифровании. В Acrobat нажмите «Файл» -> «Свойства», затем перейдите на вкладку «Шрифты», чтобы увидеть кодировку, и вкладку «Безопасность», чтобы узнать, зашифрована ли она.

4

Я обнаружил эту проблему с PDF-файлами, которые я создал, и, по-моему, я нашел источник проблемы: с помощью предварительного просмотра Mac OS X, чтобы уменьшить размер файла PDF.

Я создал несколько кварцевых фильтров, используя утилиту Colorsync для сжатия изображений в PDF-файлах, чтобы уменьшить общий размер PDF-файлов с изображениями. Такие, как описано здесь: http://www.macosxhints.com/article.php?story=20031106133852693

Я обнаружил, что могу легко копировать и вставлять текст из исходного (несжатого) файла PDF, но после запуска этого PDF-файла с помощью созданного мной фильтра «Уменьшить размер файла» полученный сжатый PDF-файл не копирует и вставляет отчетливо (выглядит как Строки вы отправили).

Однако, запустив тот же оригинальный PDF с помощью функции Adobe> Acrobat Pro «Документ»> «Уменьшить размер файла», полученный сжатый PDF-файл может успешно копировать и вставлять текст.

Таким образом, это не совсем полезно в вашем случае, если предположить, что ваш файл PDF был получен из другого места, и вы не сможете получить доступ к исходной версии, если она действительно была каким-то образом сжата. Но это может быть объяснением - что файл каким-то образом искажен в попытке уменьшить размер файла.

Это может быть полезно для создателей контента, сталкивающихся с подобными проблемами при копировании и вставке текста из PDF-файлов - будьте осторожны, используя фильтры OS X Quartz, чтобы уменьшить ваши PDF-файлы!

--edit-- Я также заметил эту проблему при объединении PDF с предварительным просмотром. Два исходных PDF-файла можно копировать и вставлять в порядке, но при перетаскивании страницы из одного файла в другой файл, а затем сохранении объединенного PDF-файла текст в объединенном документе не может быть скопирован / вставлен. Это два документа, которые были сгенерированы одновременно с помощью Filemaker Pro 11 на Mac - я не могу представить, что у них будут разные кодировки или что-то подобное.

3

Есть еще один очень простой способ сделать обходной путь :)

Просто распечатайте документ, используя CutePdf, принтер Adobe 2 Pdf или любой другой подобный материал. Суть в том, что вам нужно распечатать в формате PDF.

Во многих случаях это легко устранит проблему.

2

РЕШЕНО:(работал для меня на Windows 8, Acrobat XI, Office 2010)

Опция 1:

  1. Печать из Acrobat с использованием "Microsoft XPS Document Writer" Вывод: «ваш файл name.oxps»
  2. Откройте "... oxps" с помощью XPS Viewer. *(см. ссылку для скачивания в комментариях ниже)
  3. Печатайте в PDF (Acrobat PDF или CutePDF), используя самое высокое разрешение (600 DPI).
  4. Откройте с помощью Acrobat и используйте опцию OCR (Searchable Image (Exact)).

БИНГО!

Комментарии:

  • Использование самого высокого разрешения и поиска (точного) изображения сохранит ваш текст, не потеряв его чистый вид. Низкое разрешение сделает ваш текст читабельным, но дрянным.
  • Загрузите Microsoft XPS (файлы): http://www.microsoft.com/en-us/download/details.aspx?id=11816.
  • Если вы не знаете, что такое OCR, или где найти искомое изображение (точное), или Как печатать с использованием "Microsoft XPS Document Writer", ПОЖАЛУЙСТА, поищите его в Google для вашего удобства.

* Загрузка только в том случае, если у вас не установлен XPS.

Вариант 2:

Сделайте аналогичное, но сохраните как изображение (png, tiff, ...), тогда вам придется объединить все страницы обратно в один файл "PDF".

1

Загрузка его в Google docs и использование опции « Просмотр»> «Простой HTML» дает возможность скопировать текст, корректный примерно до 80%, при этом пропускаются небольшие пробелы.

Эта ветка с принятым ответом на ту же проблему объясняет это рабочим примером.

1

Существует риск того, что информация не будет извлечена вообще. Документы PDF - это, по сути, один документ, перекрывающий другой, один простой текст, другой рисунок. Когда вы копируете и вставляете документ, вы помечаете текст, глядя на изображение, но то, что копируется в буфер обмена, - это соответствующий фрагмент текстовой части.

В зависимости от способа создания документа качество и доступность текстовой части могут сильно различаться. Если вы сохраните документ текстового процессора в формате PDF, используя Acrobat, Word, драйвер принтера PDF или любой другой метод, качество, как правило, будет превосходным, поскольку текстовый файл может быть создан из текста оригинала. Некоторые специальные символы могут искажаться, но обычный текст, как правило, хорошо.

Однако если документ создается из отсканированного изображения, текстовая часть, как правило, создается путем обработки изображения методом оптического распознавания символов, что может привести к довольно печальным результатам, особенно если оригинал для этой цели менее чем оптимален.

Плохая программа, используемая для создания PDF-файла, или неправильные настройки могут также привести к полному искажению текстовой части, так как, возможно, некоторые виды шифрования выполняются для файла после его создания.

Суть в том, что если текстовая часть документа действительно плохая, улучшить ее невозможно. Лучше всего было бы полностью удалить текстовую часть и заставить программу повторить процесс распознавания текста. Я думаю, что это может быть выполнимо из Acrobat, но я не совсем уверен.

1

Одной из возможных причин этого может быть то, что для встраивания шрифта в PDF-файл использовалась пользовательская кодировка, которая неправильно применяется при копировании текста из PDF-файла.

Вы можете применять различные методы, чтобы уберечь себя от ручного ввода всего содержимого.

  1. Вы пытались извлечь текст с помощью одного из инструментов pdftotext.exe, который можно загрузить через Интернет? (Я бы порекомендовал тот, который включен в ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip).
  2. В последней версии Acrobat Reader есть опция «Сохранить как текст ...». Это не использует «copy'n'paste» (который дал вам искаженный текст), но, вероятно, использует те же программные процедуры, которые использовались для рендеринга текста на экране, и может для этого привести к более полезным результатам.
  3. Если '2.' не работает, и если у вас есть доступ к Acrobat Professional: попробуйте повторно отфильтровать PDF-файл, используя один из профилей Distiller для встраивания шрифтов.
  4. Если «3» не работает, несмотря на то, что у вас есть доступ к Acrobat Professional: попробуйте повторно извлечь PDF, но на этот раз вы должны использовать опцию «печатать как изображение» (доступно через кнопку «Дополнительно» в левом нижнем углу основного шрифта диалог). Убедитесь, что вы используете 600 точек на дюйм (хотя это может привести к огромному файлу). Полученный PDF вы затем снова открываете в Acrobat Pro. Теперь примените алгоритм Acrobat «OCR» к файлу, который приведет к встроенному тексту (не используется для отображения на экране в Reader, но используется для поиска и выделения строк). Теперь вы можете повторить попытку извлечения текста из этого PDF-файла, используя любой из описанных выше методов.
1

Решение, которое сработало для меня:

  • Загрузить документ на Google Drive/ Документы
  • Google импортирует его (по состоянию на 2013 год) в формате PDF
  • Откройте представление PDF и выберите « Файл» > « Открыть с помощью» > « Документы Google».
  • Экспорт документа займет около минуты

Результаты не были идеальными, но они помогли мне пройти 80% пути и дали мне достаточно текста, чтобы мне не пришлось все переписывать!

1

Я не пробовал использовать Google Docs, так как он все еще не поддерживается в моем офисе. Однако, распечатав файл в «ScanSoft PDF Create!«из" Acrobat 9 "(печатает весь файл в изображение) и открывая распечатанный файл в" Nuance PDF Converter "(мне было предложено, если я хочу сделать файл изображения доступным для поиска и редактирования, что я выбрал), я смог чтобы иметь документ Word, который я могу легко скопировать и вставить. Это не идеально, хотя с точностью около 80-90%. Но, эй, у вас все еще есть оригинальный файл PDF для сравнения и смещения тех частей, которые просто невозможно исправить. Экономит время от ввода всей вещи. Мой 2с.

1

Один из моих пользователей только что сообщил о той же проблеме (PDF был создан с помощью Distiller для Windows), что скопированный текст - только искаженный текст, и он не мог искать внутри документа. Я попробовал на своем Mac и не нашел никаких проблем. Оказалось, что я использовал приложение Apple Preview, а он использовал Adobe Reader на своем компьютере с Windows. Затем я попробовал Adobe Reader на моем Mac, но столкнулся с тем же эффектом. Для меня это выглядит так:

  • Adobe Reader выполняет копирование и поиск в сохраненном тексте.

  • Предварительный просмотр Apple будет копировать и искать после применения вектора кодировки.

Я не могу сказать это точно, но это объяснило бы мое наблюдение. И это действительно позволило бы выполнять все виды кодирования при сохранении комбинированных / уменьшенных файлов, как описано в другом посте здесь: с помощью Preview вы все равно можете снова получить текст.

Сначала я подумал, что было бы более логично кодировать подмножество встроенного шрифта как непрерывные записи, вместо того, чтобы оставлять дыры внутри и использовать исходное расположение символов. Но затем я понял, что, используя вектор кодирования для подмножества шрифта с исходными записями, часто используемые символы могут иметь меньше битов, равных 1, в своем байте и могут быть сжаты лучше (это может снизить энтропию общий текст таким образом).

0

Я сделал несколько редактируемых текстовых PDF-файлов со старой версией Scansoft PDF Converter для Windows XP, а затем соединил страницы в программе предварительного просмотра Mac. Для каждой из отдельных страниц я мог правильно искать, копировать и экспортировать текст из Adobe Reader на Mac. При объединении с помощью функции «Предварительный просмотр» и сохранении в виде одного файла все выглядело хорошо на экране, но только несколько отрывков были доступны для поиска / экспорта. Эта проблема привела меня сюда.

Сообщения здесь дали мне несколько хороших указателей (спасибо!). Я посмотрел на свойства файла для шрифтов. В одностраничных файлах из Win XP (где все хорошо) говорится, что кодировка была ANSI. Файл, объединенный в Preview (где скопированный текст искажен), показывал кодировку для большинства шрифтов как "Встроенный", а некоторые как "Римский".

Решение моей проблемы было у меня под носом все время - сама программа Scansoft может объединять файлы. Когда я использовал комбинатор Scansoft и открыл файл на Mac, все шрифты были показаны в кодировке ANSI, а весь текст был отлично экспортирован / скопирован. Почему, черт возьми, я не объединял их в PDF Converter, во-первых, я не знаю. Спасибо, афиши!

То же самое верно, открывая файлы в системе Linux.

Я знаю, что это не объясняет проблемы, связанные только с Windows - разве у PDF были похожие смешанные источники?

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .