4

У меня есть документ Microsoft Word с ивритом, и некоторые из гласных знаков, кажется, отделены от букв, под которыми они должны быть.

Пример:

Используя анализатор строк, я определил, что буквы, с которыми это происходило, интерпретировались как "алфавитные формы представления", а не как обычные буквы на иврите. (В приведенном выше примере пунктирная диммель имела значение Unicode U+FB32, а не U+05D2 с U+05BC.)

Есть ли способ конвертировать все в стандартные ивритские символы Юникода, чтобы гласные отображались правильно?

Спасибо!

3 ответа3

1

Попробуйте это дополнение к niqqud, возможно, что-то не так с тем, как вы добавили niqqud.

0

Ваш тестовый документ выглядит нормально в Word 2007, но когда я копирую и вставляю текст из него в редактор BabelPad , он отображается неправильно так же, как на вашей картинке. Когда я использую команду BabelPad Преобразовать → Форма нормализации → В NFC, отображение становится фиксированным.

Кажется, что проблема не в заранее скомпонованных символах, таких как U+FB32 HEBREW LETTER GIMEL WITH DAGESH, как таковых, а в сочетании с дополнительным знаком объединения, таким как U+05B7 HEATREW POINT PATAH после него. Некоторые программы не могут иметь дело с такими комбинациями, даже если они могут обрабатывать полностью разложенную форму (базовая буква, за которой следуют две комбинирующие метки).

Невозможно (и, вероятно, не имеет значения) узнать, как комбинации символов попали в файл. Они являются действительными данными Unicode, но ненормализованы, и нормализация, вероятно, решит проблему. Кажется, что вы могли бы действительно использовать любую из форм нормализации Unicode здесь, но NFC часто предпочитают по общим причинам.

Насколько я знаю, в Word нет инструментов для нормализации, поэтому вам придется использовать для этого внешние инструменты. BabelPad подойдет для простого текста, но я не знаю, насколько хорошо он обрабатывает большие файлы, и у вас, вероятно, есть форматирование, которое нужно сохранить. Поэтому, возможно, вы можете сохранить файл в формате HTML, нормализовать данные в NFC в BabelPad, а затем открыть измененный файл HTML в Word. (Сначала я подумал об использовании RTF вместо HTML, но Word, кажется, генерирует RTF, который не содержит настоящие ивритские символы, но некоторые экранирующие нотации.)

0

Я не мог добавить это как комментарий, поэтому я отправлю это как ответ. Основываясь на предложении @Jukka K. Korpela, я составил макрос Word, который преобразует предварительно составленные символы в «нормальные». Его можно скачать здесь.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .