-1

В прошлом году в Ghostscript была обнаружена ошибка. Это задокументировано здесь: http://bugs.ghostscript.com/show_bug.cgi?id=696116

Помечено Статус: РАЗРЕШЕНО WONTFIX

В конце концов, правопреемник Кен Шарп пишет: «К сожалению, я не вижу никаких перспектив для решения этой проблемы в Ghostscript».

У меня к кому-то два вопроса:

  1. Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?
  2. Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированный PDF в PDF/A-1b без использования OCR?

Спасибо заранее!

/Павел

1 ответ1

1

Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?

Кен Шарп говорит

то, с чем вы, похоже, сталкиваетесь, является ограничением в поисковой системе Acrobat, которое проявляется в том, как мы генерируем текст.

Я думаю, что он говорит, что не Ghostscript добавляет пробелы между символами.

И я верю его объяснению. На драйвер устройства PDFWrite распространяются ограничения на драйвер устройства в Ghostscript. Я полагаю, что API был разработан для того, чтобы делать отметки на видимых поверхностях, а не для чего-либо еще, что впоследствии было добавлено.

В частности, представление о том, что последовательность меток составляет слово, не имеет значения при нанесении меток в указанных позициях. Устройство для создания меток не должно знать разницу между пробелом и интервалом (кернинг и т.д.).

Отчасти следствием этого является то, что, насколько я знаю, слова не являются предметом ни в PDF, ни в постскриптуме его предка. Им не нужно отслеживать слова и не предоставлять какой-либо конкретный способ их идентификации в содержимом файлов PDF или PS.


Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированные файлы PDF в PDF/A-1b без использования OCR?

Насколько я знаю, спецификации PDF не определяют "отсканированный PDF" или "OCR". Некоторые инструменты для создания PDF-файлов предположительно используют возможности PDF-файлов при создании PDF-файлов из отсканированных изображений и при невидимом добавлении текста, созданного с помощью OCR. Это позволяет выполнять поиск текста и операции вырезания и вставки для созданного PDF-файла, что было бы невозможно, если бы присутствовало только растровое изображение.

Такие PDF-файлы могут быть полезны, но они действительно немного мерзости. Всегда лучше создать PDF-файл из не отсканированных источников, если это возможно.

Первоначально PDF задумывался как "окончательный" формат документа. Никто не собирался проводить дальнейшие манипуляции с ним.

Однако должно быть возможно, что другие программы, поддерживающие манипулирование PDF, делают это, не заставляя преобразование выполняться через API печати. В этом случае они могут сделать это таким образом, чтобы получить результат, который лучше соответствует особенностям Acrobat и другого программного обеспечения для чтения PDF.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .