2

Как вы можете видеть на картинке ниже, у меня есть файл .pdf, который ведет себя странно, когда я пытаюсь отметить и процитировать часть его текста. Я импортировал его в Citavi 5, попытался распечатать файл с помощью doPDF 8, Microsoft Print to PDF и OpenText PDF Converter, поведение осталось прежним. Я также пробовал другие источники, но, похоже, все они основаны на одном файле.

пример

При копировании непосредственно из файла .pdf результат выглядит следующим образом:

Общее касание «тактильно, потому что вы воспринимаете речь как можно раньше, в то время как другие приближаются к случайным. Большинство задач имплантируются. Тарифный курс де

Когда я использую Microsoft XPS Document Writer, выходные данные выглядят так, как показано ниже, с некоторыми буквами, отмеченными двойным. Выглядит одинаково при конвертации в .txt.

Файл XPS

При копировании из файла, преобразованного в .txt или .xps, это выглядит так:

Resultts

В целом, участники нашли устройство удобным в использовании. Всем понравился сенсор tapp («легкий в использовании») и кнопка «d» («легко найти», «обратная связь по тактильному признаку»), но ни один из них не использовал датчик давления. Для выходных компонентов все ранги имеют самый низкий

Так что лучше всего работает преобразование в .txt, но мне все равно придется просмотреть всю цитату, чтобы удалить двойные символы.

Кто-нибудь знает такое поведение и что я могу сделать, чтобы получить файл, который я могу легко процитировать?

1 ответ1

1

Если у вас есть доступ к программному обеспечению Adobe, это возможно в определенной степени. Я открыл ваш PDF в Photoshop для вывода только в виде изображения (сканирование документа сделает то же самое) и использовал распознавание текста в Acrobat Pro (Инструменты> Распознать текст), чтобы найти элементы в форме текста в документе. Затем вы можете выделить и скопировать / вставить как обычно.

выход например копировать / вставить Участники заполнили анкету после исследования, поделившись своим впечатлением от использования устройства в общественных местах и любыми реакциями, которые они получили.

Что касается того, почему это происходит, я не могу вам помочь, проверка текстовых элементов в вашем оригинальном PDF действительно показывает проблемные страницы как разделенные текстовые поля, а не как непрерывное поле, как вы ожидаете, другие страницы, которые выделяются, обычно делают не имеют этой проблемы.

Я не знаком с программным обеспечением, о котором вы говорили, но в случае, если у них есть подобная функция, такая как распознавание текста, я думаю, что она будет работать так же. Надеюсь это поможет!

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .