Unicode - это схема кодирования, а не язык разметки или язык любого типа. Например, схемы кодирования используются для чтения / записи текста на языках разметки.
Компьютеры / процессоры, в сердце своего (и почему они были изобретены - и причина , почему они называются вычислительным Rs) ничего , но на самом деле быстро калькуляторы. Я уверен, что вы слышали раньше, что компьютеры могут работать только с отдельными битами или 1 и 0. Это правда, но большинство операций ЦП работают с наборами из 8 бит (байтов) или 16 битов (слов) или более (32, 64 и т.д.)
По сути: процессоры работают с числами и не более того. Внутренне все в процессоре является числом.
Конечно, вначале люди также хотели использовать компьютеры для выполнения операций с текстом - по крайней мере, для распечатки отчетов, содержащих другие вещи, кроме цифр.
Компьютеры также могут управлять внешними устройствами - например, телетайпом, который раньше был таким устройством.
Мы можем написать программу для общения с телетайпом - но, конечно же, мы хотим сделать больше, чем просто отправить цифры. Мы хотели бы послать ему буквы, знаки препинания и другие символы, которые образуют понятный текст. То, как именно устройство отображает текст, зависит от устройства, но необходима какая-то схема, которая присваивает номер каждому символу. Таким образом, процессор может работать с числами так, как он хочет, но каждое число "обозначает" символ. Вот что такое Юникод.
Бодо был ранней схемой (восходит к 1874 году!), За которой следовали EBCIDC и ASCII. EBCIDC широко использовался IBM и до сих пор используется в их современных системах уровня мэйнфреймов. ASCII очень широко использовался, но был ограничен только латинскими буквами. Unicode (ASCII которого является подмножеством) является распространенной схемой, используемой сегодня, и можно использовать ее подмножества, такие как UTF-8 (который по сути такой же, как ASCII).
Теперь, с HTML, вы читаете его с помощью дисплея и понимаете текст. Внутри оперативной памяти Unicode используется для представления каждого символа документа HTML в памяти, а также на диске, а также при передаче по сети. Ваша операционная система прошла каждый байт оперативной памяти и визуализировала каждый символ, используя графическую библиотеку, используя номер или кодовую точку в качестве индекса, чтобы вы могли видеть часть, которую вы видите на экране.
В случае браузера, когда ваш браузер получает страницу, он должен пройти через каждый байт страницы и проанализировать все элементы. Сводится к самому низкому уровню, это включает в себя поиск моделей чисел. Несколько упрощая, например, в UTF-8, <div>
будет (в шестнадцатеричном виде) 3C 64 69 76 3E
, и когда анализатор браузера обнаружит, что последовательность чисел знает, что он нашел начало тега div
и может принять соответствующие действие.
HTML находится "на вершине" схемы кодирования, и вы можете использовать ASCII или EBCIDC, если хотите, если приложение, работающее с HTML (текстовый редактор, браузер), понимает метод кодирования.