Ваш тестовый документ выглядит нормально в Word 2007, но когда я копирую и вставляю текст из него в редактор BabelPad , он отображается неправильно так же, как на вашей картинке. Когда я использую команду BabelPad Преобразовать → Форма нормализации → В NFC, отображение становится фиксированным.
Кажется, что проблема не в заранее скомпонованных символах, таких как U+FB32 HEBREW LETTER GIMEL WITH DAGESH, как таковых, а в сочетании с дополнительным знаком объединения, таким как U+05B7 HEATREW POINT PATAH после него. Некоторые программы не могут иметь дело с такими комбинациями, даже если они могут обрабатывать полностью разложенную форму (базовая буква, за которой следуют две комбинирующие метки).
Невозможно (и, вероятно, не имеет значения) узнать, как комбинации символов попали в файл. Они являются действительными данными Unicode, но ненормализованы, и нормализация, вероятно, решит проблему. Кажется, что вы могли бы действительно использовать любую из форм нормализации Unicode здесь, но NFC часто предпочитают по общим причинам.
Насколько я знаю, в Word нет инструментов для нормализации, поэтому вам придется использовать для этого внешние инструменты. BabelPad подойдет для простого текста, но я не знаю, насколько хорошо он обрабатывает большие файлы, и у вас, вероятно, есть форматирование, которое нужно сохранить. Поэтому, возможно, вы можете сохранить файл в формате HTML, нормализовать данные в NFC в BabelPad, а затем открыть измененный файл HTML в Word. (Сначала я подумал об использовании RTF вместо HTML, но Word, кажется, генерирует RTF, который не содержит настоящие ивритские символы, но некоторые экранирующие нотации.)