1

Например.

В PDF это , но когда я копирую в блокнот это вставит. Как скопировать текст в том же случае?

например: ("the" это просто для примера)

Это PDF

The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
The xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx

Это вставленный текст (см. "Второго абзаца")

The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
the xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx

1 ответ1

1

При импорте примера в Inkscape выбор "Импортировать текст как текст" также дает мне строчную букву "the". То же самое верно для первой буквы всех других предложений.

Это также показывает некоторое странное расстояние после этих букв. Тот же самый нечетный интервал присутствует после первых букв в других фрагментах текста, как после первых букв в некотором списке из 4 элементов во втором столбце. Эти буквы также отображаются строчными буквами в Inkscape, но в верхнем регистре при обычном просмотре PDF.

Первый символ в нижнем регистре для каждого предложения

Свойства документа показывают, что PDF был создан с использованием «Объединение файлов Adobe Acrobat 8.1». Я полагаю, что приложение связывало что-то вроде маленьких прописных из импортированного документа с нормально выглядящими заглавными векторными фигурами?

В общем, некоторые другие варианты:

  • Если PDF является отсканированным документом, то некоторое программное обеспечение для сканирования не только включает отсканированное изображение (что вы видите), но также выполняет распознавание, чтобы включить скрытый текст в тот же документ (который вы ищете и копируете). Но часто это OCR не идеально. Чтобы получить лучшие результаты, OCR также часто использует словарь проверки орфографии .

    Трудно себе представить , что OCR будет ошибкой T для t но если он интерпретировал T как I (верхний регистр I) , то , возможно , после того, что проверка орфографии изменилась Ihe в.

  • Если это не отсканированный документ, то, возможно, в исходном документе для форматирования использовались маленькие буквы? Я не уверен, что PDF поддерживает это, но тогда простой текст (без какого-либо форматирования) действительно может быть "the", а не "The".

В результате OCR иногда может исправить ошибки, которые фактически присутствуют в исходном тексте.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .