Проблемы с Unicode, charset и смешиванием шрифтов.
Похоже, что у вас есть проблемы со смесью unicode/charset/font в оригинальном документе.
Греческие символы не находятся в первой 127 позиции таблицы ascii.
Следуя стандарту Unicode [ 1 ], вы должны найти их в диапазоне 0370-03FF
[ 2 ]. Например, буква альфа - это юникод U+03B1
[ 3 ]. В качестве ссылок следует стандарт ISO/IEC_8859-7 [ 4 ] под названием Windows-28597 от Microsoft.
Проблема в том, что существует даже шрифт (или несколько), который записывает a
как α
, сохраняя внутри тот же внутренний код (97). Например, Symbol - это один из четырех стандартных шрифтов, доступных на всех принтерах на основе PostScript (и в латексных документах, и в PDF-файлах), созданный Adobe и имеющий внутреннее представление, отличное от Unicode [ 5 ]:
Symbol α β γ δ ε ζ η θ ι κ λ μ
Symbol* a b g d e z h q i k l m
Symbol ν ξ ο π ρ ς σ τ υ φ χ ψ ω
Symbol* n x o p r V s t u f c y w
*encoded as ASCII for older versions of the font
Смотрите рендеринг с разными шрифтами на этой вики-странице.
Этот шрифт, однако, содержит только полный безударный греческий алфавит. Так что это может случиться, когда в документе есть смесь разных шрифтов и кодировок, когда в переводе что-то теряется, и вы в итоге получаете гибридное представление.
Дальнейшие ссылки