4

Мы небольшая группа, которая способствует распространению Unicode в Индии (здесь унаследованные кодировки глубоко укоренились). Но у меня есть проблема, когда я конвертирую документ в тексте в юникоде на любом индийском языке в формат PDF. Текст отображается так, как задумано, но при вставке копий содержимое частично становится бессмысленным.

Я использую inDesign CC для набора текста на Win 7. Я могу экспортировать в формат epub просто отлично. Но у экспортированного PDF есть эта проблема. Я также пробовал печатать на принтере Adobe PDF и PrimoPDF, но стало только хуже. При проверке PDF-файлов в Интернете выясняется, что эта проблема существует во всех таких Unicode-кодированных Indic PDF (и, вероятно, во всех сложных сценариях Восточной Азии). Это проблема в спецификации PDF?

Проверьте PDF здесь http://www.rajbhasha.nic.in/pdf/dolebook-4.pdf

Скопируйте любой текст и сопоставьте его с оригиналом, вы увидите, что символы заменены другими, закрался ненужный пробел

Теперь мы продвигаем Unicode на том основании, что это облегчит вставку копий и поиск / индексацию. Эта проблема полностью разрушает это. Есть идеи?

1 ответ1

4

Я распаковал pdf с помощью mutool clean и посмотрел. Кажется, проблема в том, что, как описано в этом вопросе о стековом потоке, трудно использовать кодировку Unicode для шрифтов. По этой причине шрифты, содержащиеся в PDF, используют другую кодировку. Однако он также содержит объекты /ToUnicode для каждого шрифта со сложным отображением символов шрифта на символы Юникода.

Теперь многие программы просмотра PDF (например, xpdf в Linux), похоже, не обращают внимания на это сложное отображение (или, по крайней мере, на отображение с такой сложностью, хотя они могут работать с более простыми отображениями), поэтому вы получаете мусор при попытке скопировать и вставить. Однако с другими программами просмотра PDF (например, mupdf) это работает, как я подтвердил.

Таким образом, проблема находится в средстве просмотра PDF, а не в документе. Кроме того, PDF-файлы и Unicode не очень хорошо сочетаются друг с другом, как вы можете видеть из сложных средств, необходимых для перевода.

Возможные решения: (1) оказать давление на разработчиков средств просмотра PDF для полной поддержки отображений \ToUnicode . Может быть, исправить их самостоятельно для открытых источников. (2) Способствовать использованию определенного средства просмотра PDF, которое работает с сопоставлениями. (3) Попробуйте использовать шрифты внутри PDF, где кодировка глифа соответствует кодировке Unicode. Это представляется возможным с 16-разрядными кодовыми точками Unicode (и насколько я могу судить, индийские символы кажутся 16-разрядными), но я не знаю, насколько хорошо это будет работать, или какое приложение вы должны использовать для создания таких PDF-файлов ,

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .