поиск PDF-файлов с нестандартной кодировкой символов

Question

Некоторые файлы PDF производят мусор (« mojibake ») при копировании текста (даже если они отображаются нормально). Это делает невозможным их поиск (все, что вы ищете, не будет соответствовать мусору).

У кого-нибудь есть легкий обходной путь?

Примеры:

Руководство по TEAC TV EU2816STF (дает вышеупомянутые проблемы в Adobe Reader как на Windows, так и на Mac, но отлично работает в Preview на Mac)
Руководство по Leadtek Winfast PVR2 (FTP-ссылка; также есть проблемы с предварительным просмотром на Mac)
Руководство по ТВ-тюнеру Swann (FTP-связь; также есть проблемы с предварительным просмотром на Mac)
Лицензионное соглашение Phonedisc (от ныне не существующей DTMS)
Ежеквартальный обзор фонда Macquarie IFP
Буклет BAN-TACS для малого бизнеса (архивная версия)
Флаер Easterfest 2004 (также из архива)

Я использую Adobe Reader (последняя версия) для Windows - может быть, вам поможет альтернативный просмотрщик? Я ищу бесплатное решение для Windows. С открытым исходным кодом было бы еще лучше.

Редактировать: Документы для инструмента Multivalent Extract Text содержат хорошее резюме того, почему что-то может пойти не так, включая: (цитируемый документ, последний раз измененный январь 2006 г.)

Текст может не иметь отображения Unicode. Шрифты PDF Type 3 часто отсутствуют, а в TeX DVI есть символы, которые не имеют эквивалентов Unicode.

Кодировка Unicode может содержать ошибки. Open Office отображает некоторые символы в один и тот же Unicode, что приводит к падению букв удваивания и удвоению.

Я полагаю, что окончательным решением в этих случаях будет OCR для каждого символа в шрифте, чтобы выяснить, что это за символ на самом деле. Обратите внимание, что это будет проще, чем распознавание документов с шумным сканированием, потому что доступна точная форма глифа (с неограниченным разрешением, поскольку это "векторное" изображение).

score 3 · Answer 1 · 2011-03-09T19:38:42

Простейший способ обойти это - открыть файл в последней версии Google Chrome со встроенным плагином для чтения PDF. Затем вы можете использовать функцию поиска Chrome для поиска текста, и копирование-вставка работает правильно.

score 3 · Answer 2 · 2011-03-09T19:38:42

Foxit Reader, возможно?

Для чего это стоит, я только что проверил PDF вы связаны с с Safari 4.0.4 на Mac OS X 10.6.2 и в то время как есть некоторые Engrish, то PDF это делает безупречно без экранного "мусора". Возможно, у вас проблемы с Unicode (чаще встречаются в Windows, чем в Mac OS)?

score 2 · Answer 3 · 2011-03-09T19:38:42

Например, руководство по телевизору: та же проблема в Adobe Reader 8.1.2 на Mac, но нет проблем с использованием предварительного просмотра Mac для копирования или поиска текста. Кроме того, отправка его в учетную запись Gmail, а затем выбор "Просмотр", а затем "Простой HTML" открывает текст. Но Adobe Reader это не нравится.

Его свойства документа показывают «Кодировка: Пользовательский» для шрифтов. Другой документ показывает такие вещи, как «Кодировка: Ansi» или "Роман", и не имеет проблем ни в Preview, ни в Adobe Reader на Mac:

Тем не менее, оба примера Leadtek и Swann создают проблемы в Preview на Mac, а также в Gmail, и оба показывают «Encoding: Identity-H». Тест Phonedisc тоже не проходит, с «Encoding: Custom».

Запутанно и не согласованно, но на каком-то форуме Adobe я нашел следующее объяснение еще одного примера, показывающего «Кодировка: Пользовательский» (выделено мной):

После просмотра PDF-файла выясняется, что полезной информации о кодировке нет (ни в PDF-файле, ни во встроенных данных шрифта), чтобы определить значение символов / глифов, отображаемых на страницах документа.

Фактически все шрифты встроены, но таким образом, что вся информация о кодировке была удалена. Это типичный пример PDF, который синтаксически полностью соответствует спецификации PDF, но там, где важная информация о значении текста в нем была выброшена в процессе создания PDF. Насколько я могу сказать, было бы очень трудно восстановить информацию о кодировке.

Это не объясняет, почему предварительный просмотр Mac (и, по- видимому, также Infix) может обрабатывать некоторые примеры, когда происходит сбой Adobe Reader, даже с «Encoding: Custom». Может быть, у Preview нет проблем, когда точный шрифт присутствует на самом компьютере? Или, может быть, это просто угадывание кодировки, которая работает для некоторых, но не для всех документов?

Что бы это ни вызывало: если прохождение через Google Docs или Gmail не работает, то, возможно, самый простой (но далеко не простой) обходной путь - это действительно сохранить в формате TIFF, а затем выполнить OCR. Такие сервисы, как Evernote, могли бы делать это на лету (это делает OCR на изображениях; я сомневаюсь, что это сделает OCR на PDF).

score -1 · Answer 4 · 2011-03-09T19:38:42

Загрузка файла 1 не удалась для меня, файл 2, который я мог открыть с помощью xpdf, быстрого и открытого программного обеспечения для просмотра PDF. Я думаю, что он не может обрабатывать формы, но для чистого текста и графики я предпочитаю его для быстрого запуска.

score -1 · Answer 5 · 2011-03-09T19:38:42

К сожалению, ничего не поделаешь. Документы PDF на самом деле не содержат букв, но содержат формы букв. Другими словами, вместо того, чтобы читать письмо и рисовать его на экране, Adobe Reader, как любое другое приложение для чтения PDF, просто рисовало векторную графику, закодированную в файле.

Тем не менее, некоторые программы для чтения PDF поставляются с программным обеспечением, которое позволяет анализировать форму и восстанавливать текст с помощью распознавания текста. Он работает так же, как если бы вы сканировали бумагу с напечатанным текстом и использовали программное обеспечение, такое как ABBYY FineReader, чтобы преобразовать его обратно в текст, но из-за бесконечно высокого качества векторных рисунков результаты обычно намного лучше, чем для отсканированных документов.

Некоторые документы могут быть защищены от преобразования в текст, обманывая Adobe Reader. Например, буквы могут быть нарисованы в нескольких перекрывающихся формах таким образом, что визуально они все равно будут выглядеть одинаково, в то время как программное обеспечение для распознавания текста не сможет распознавать текст. Ваш документ является примером такой защиты.

Один из способов - распечатать документ в виде изображения и позволить программному обеспечению для распознавания текста распознать его. Более высокое разрешение для изображения улучшит качество. Однако этот метод не очень удобен.

Сейчас выбран русский

поиск PDF-файлов с нестандартной кодировкой символов

5 ответов5

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf search character-encoding.

Связанные

поиск PDF-файлов с нестандартной кодировкой символов

5 ответов5

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf search character-encoding.

Связанные

Похожие