Мне приходится иметь дело с файлом, который имеет много невидимых управляющих символов, таких как "справа налево" или "не присоединяемый с нулевой шириной", пробелами, отличными от нормального пробела и т.д., И у меня возникают проблемы с этим.
Теперь я хотел бы как-то просмотреть все буквы в данном файле, буква за буквой (я хотел бы сказать "слева направо", но я, к сожалению, имею дело с языком справа налево), как кодовые точки Юникода, используя только базовые инструменты bash (например, vi
, less
, cat
...). Возможно ли это как-то?
Я знаю, что могу отобразить файл в шестнадцатеричном формате с помощью hexdump
, но мне придется пересчитать кодовые точки. Я действительно хочу увидеть фактические кодовые точки Unicode, чтобы я мог найти их в Google и выяснить, что происходит.
редактировать: я добавлю, что я не хочу перекодировать его в другую кодировку (потому что это то, что я узнаю в Интернете). У меня есть файл в UTF8, и это нормально. Я просто хочу знать точные кодовые точки всех букв.