4

Возможный дубликат:
При вставке копии PDF-файл искажен

Я читаю PDF-копию статьи Джерома Фридмана «Сбор данных и статистика: какая связь?"с помощью Google Chrome.

Он содержит забавную цитату, которую я хочу скопировать и вставить в свой блог.

Я использовал мышь, чтобы выделить текст цитаты, и нажал CTRL + C, чтобы скопировать текст. Документ выглядит так:

Выделенная цитата из статьи Джерома.

Когда я вставляю текст в Блокнот, Переполнение стека или где-либо еще, продукт похож на Wingdings-тарабарщину:

▼ ➣ ▲ ➣ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥ ▼ ▲ ▼ ❺➌❽❾❻➀➍ ♣ ➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥ используйте➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍ ②❥➇⑦⑤⑩⑨P⑨①②❥❻ ➎✳❸❏②❥➇ ▼ ✇ ▲ ②➟➊❚➇⑦❸❊⑥✆✇ P⑨❘②③✇ ▲ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇ ▼ ✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇ ♣ ➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂ ▼ ✇➄➂✳❸❊➁✶Þ⑦ ✇ ♣ ❽❾❻➀➍ ♣ ➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨|②↔⑨|②③✇➄➁❹②③⑨❚✇ ♣ ❽❾❻➀➍ ♣ ➂ ▼ ✇➄⑥☛➧➀➏

Вместо этого текст должен выглядеть так:

Разница между статистиками и учеными в этой области заключается в том, что, когда у статистика есть идея, он или она пишет статью; ученый-компьютер основывает компанию.

Я должен был напечатать этот текст вручную. Это возможно для такой маленькой цитаты, но как мне на самом деле скопировать то, что я вижу?

Это что-то необычное в PDF, браузере, плагине или какой-то комбинации этих трех?

3 ответа3

6

Самый надежный способ сделать это с помощью OCR.

Но в качестве грязного и быстрого решения вы можете использовать Google Quick View из результатов поиска по вашей ссылке, в Quick View используйте опцию View> Plain HTML.

Он по-прежнему содержит искаженный текст и довольно нечитабелен, но большой объем текста корректен и может быть скопирован. Поиск работает здесь, так что вы можете использовать его, чтобы найти целевой текст и скопировать его без искаженного текста.


Подробный пример здесь:
Результаты поиска Google для URL включают ссылку Быстрый просмотр.
Затем используйте опцию View Plain HTML .
Быстрый просмотр имеет опции для просмотра документа в формате HTML.
В HTML-версии Google вы можете искать и выбирать эквивалентный текст, например так:

Вставка в Блокнот производит такой вывод:

Разница между статистиками и учеными в этой области, по-видимому, заключается в том, что, когда у статистика есть идея, он или она пишет статью; ученый-компьютер основывает компанию.

Не совсем так, как показано, но достаточно близко, чтобы вы могли работать с ним.

1

Выглядит как PDF с неправильной кодировкой. Смотрите следующие темы:

Попробуйте распечатать PDF-файл с помощью CutePDF, а затем посмотрите, будет ли получающийся PDF-файл лучше.

1

Вам придется отказаться от поврежденного текста, который уже связан с PDF, прежде чем вы сможете повторно его распознать. Самый простой способ сделать это - сохранить его в формате TIFF, затем открыть его с помощью Acrobat и повторно распознать его. Когда я это сделал, это сработало для меня.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .