1

В Adobe Acrobat Pro XI нажатие клавиш Ctrl + C при выделении следующего текста

скопирует следующее в буфер обмена:

Training
1. Collect
a
set
of
representa8ve
training
documents

В Google Chrome нажимаем Ctrl + C, когда выделен следующий текст

скопирует следующее в буфер обмена:

Training+
1. Collect+a+set+of+representa8ve+training+documents

Я использую Windows 7 SP1 x64 Ultimate. Файл PDF доступен здесь (на скриншотах выше показана страница 16).

Почему Google Chrome и Adobe Acrobat Pro копируют другой текст в буфер обмена, когда я выбираю один и тот же текст в PDF?

2 ответа2

3

Проблема уже в оригинальном документе, в том виде, как он был создан.

Похоже, что оригинальная презентация была создана с помощью PowerPoint (что еще ...) на Mac (ну, возможно, презентация была создана в Windows, а затем перенесена на Mac для создания PDF). OCR не задействован.

Создание PDF-файла происходило с использованием инструментов Apple, и кажется, что у этих инструментов есть проблемы с лигатурами. Вместо использования символа Ligature из файла "основного" шрифта он создает другое подмножество, содержащее символ лигатуры, но неправильно кодирует код Unicode, и в результате этого транспонирование кодирования в кодировку "основного" шрифта приводит к персонаж 8

Как мы все знаем, в PDF текст - это набор "слов", помещенных на холст, где "слова" разделяются пробелами. Связь между "словами" для формирования предложения не существует в базовом PDF. Для копирования либо средство просмотра PDF выполняет некоторую эвристику, чтобы определить, принадлежат ли эти "слова" друг другу, или нет, и / или использует информацию о структуре (если имеется). Логика Chrome отличается от логики Acrobat, и именно так возникают расхождения.

На самом деле Acrobat XI имеет опцию в контекстном меню пункта "Копировать с форматированием", и это приводит (после вставки в BBEdit) к:

"Training"
"1.    Collect a set of representa8ve training documents"

Эта опция, очевидно, использует больше логики для создания предложений. Но эта лигатура неверна, потому что ее нельзя правильно воссоздать.

Вердикт, плохо созданный PDF приводит к несоответствиям при попытке переназначения содержимого с различными программами просмотра PDF ...

2

Вы можете получить в PDF из нескольких типов исходных документов. Если вы начнете с чего-то, сохраненного непосредственно из текстового процессора, PDF-файл будет содержать хороший редактируемый текст. Если вы начинаете с изображения страницы, PDF-файл содержит изображение, которое невозможно изменить без распознавания текста. Между ними набраны документы. Они содержат текст, но все они жестко отформатированы для точного отображения на странице. Попытка отредактировать их или даже очистить для редактирования может быть кошмаром.

В этом документе расстояние между словами контролируется с помощью табуляции (или специальных символов, интерпретируемых как табуляции), а не пробелов. Странная цифра "8" в представителе, вероятно, связана с использованием лигатуры (специальной пары кодирования или кернинга для уменьшения расстояния между "t" и "i"). Не удивительно, если разные зрители по-разному обрабатывают коды управления набором текста.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .