Проблема уже в оригинальном документе, в том виде, как он был создан.
Похоже, что оригинальная презентация была создана с помощью PowerPoint (что еще ...) на Mac (ну, возможно, презентация была создана в Windows, а затем перенесена на Mac для создания PDF). OCR не задействован.
Создание PDF-файла происходило с использованием инструментов Apple, и кажется, что у этих инструментов есть проблемы с лигатурами. Вместо использования символа Ligature из файла "основного" шрифта он создает другое подмножество, содержащее символ лигатуры, но неправильно кодирует код Unicode, и в результате этого транспонирование кодирования в кодировку "основного" шрифта приводит к персонаж 8
Как мы все знаем, в PDF текст - это набор "слов", помещенных на холст, где "слова" разделяются пробелами. Связь между "словами" для формирования предложения не существует в базовом PDF. Для копирования либо средство просмотра PDF выполняет некоторую эвристику, чтобы определить, принадлежат ли эти "слова" друг другу, или нет, и / или использует информацию о структуре (если имеется). Логика Chrome отличается от логики Acrobat, и именно так возникают расхождения.
На самом деле Acrobat XI имеет опцию в контекстном меню пункта "Копировать с форматированием", и это приводит (после вставки в BBEdit) к:
"Training"
"1. Collect a set of representa8ve training documents"
Эта опция, очевидно, использует больше логики для создания предложений. Но эта лигатура неверна, потому что ее нельзя правильно воссоздать.
Вердикт, плохо созданный PDF приводит к несоответствиям при попытке переназначения содержимого с различными программами просмотра PDF ...