4

Я пытаюсь скопировать текст из файла PDF, но получаю мусор. Я использую Document Reader в Ubuntu для чтения документа. Это не значит, что мне не разрешено копировать, а просто то, что скопированный текст выглядит так:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

Что я могу сделать, чтобы это исправить? его большой объем данных займет очень много времени для ввода.

Также, кстати, вставленный текст выглядел так на gedit (Ubuntu):

в моей системе (обратите внимание, что это выглядит иначе, когда вставлено здесь в этот вопрос!)

Я чувствую, что это как-то проблема с кодировкой, но я не знаю, как это исправить.

1 ответ1

2

Основной текст искажен. Я думаю, @skub правильно думать, что это может быть нарочно. Один из способов получения текста - экспортировать каждую страницу в виде изображения (например, .jpg или .png), а затем сканировать изображения с помощью программного обеспечения OCR . Я смог проверить это на Windows 7 с Adobe Acrobat X; это сработало.

Обновить:

Если у вашего средства просмотра документов есть аналогичная функция, copy with formatting копирует текст, как и ожидалось. Копаем глубже, я могу подтвердить , что все внедренные шрифты имеют пользовательский кодировку.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .