Кодирование символов
Основным языком Интернета является английский язык. Но для гипертекстовых документов предусмотрено использование национальных алфавитов. Стандартным режимом отображения является кодировка ISO Latin 1 (ISO 8859-1). Она подходит как для MS-DOS (набор символов ASCCII), так и для Windows. В тоже время браузеры поддерживают набор символов Unicode 2.0 (ISO10646), что позволяет использовать национальные алфавиты. Это означает, что символы могут кодироваться однобайтовым числом (коды в пределах 0-255) или двухбайтовым (0-65 535). В первом случае для использования национального алфавита необходим атрибут charset, так как одни и те же коды символов могут быть интерпретированы по-разному для различных кодовых страниц.
Кириллица (Windows) и/или Кириллица (Кои8-Р) - это две наиболее популярные в нашей стране кодировки.
Если в документе есть указание на определённую кодовую страницу, то выбор шрифта будет предопределён. Коды 32-127, то есть знаки препинания, цифры и буквы латинского алфавита, отображаются правильно, а коды 128-255 могут отображаться по-разному.
Если кодовая страница указана неправильно, то, например, при создании гипертекстовых документов в MS FrontPage Express в текст страницы автоматически добавляется конструкция типа charset =xxxxx, которая не позволяет использовать кириллицу. В этом случае необходимо правильно указать значение атрибута: charset =windows-1251.
Если документ использует кодировку Unicode, то для работы с ним подойдут такие средства, как Блокнот, Norton Commander или WordPad, и придётся остановиться на гипертекстовом редакторе. В этом случае русская буква А будет выглядеть в режиме «источника» так А (в десятичной кодировке). Такую страницу будет сложно читать и редактировать. Поэтому каждый новый редактор надо тестировать на возможность использования русских букв: набрать небольшой текст, сохранить документ, а затем просмотреть его в режиме источника.
Использование символов
В HTML и в браузерах реализована возможность прорисовки символов по их кодам. Символы могут быть общепринятыми, нестандартными и используемыми в HTML в качестве служебных символов. Их называют спецсимволами. Первый способ ввода спецсимвола заключается в указании его кода. Например, латинскую букву А можно задать так: A. Для некоторых символов предусмотрена мнемоническая кодировка.
Часто используемые спецсимволы (по стандарту ISO 8859 - 1):
Код символа |
Числовой код |
Мнемонический код |
Название |
Символ |
34 |
" |
" |
Прямая кавычка |
“ |
38 |
& |
& |
Амперсанд |
& |
60 |
< |
< |
знак «меньше» |
< |
62 |
> |
> |
Знак «больше» |
> |
153 |
™ |
&trade |
Троговая марка |
™ |
160 |
  |
  |
Неразрывный пробел |
|
162 |
¢ |
¢ |
Цент |
ў |
163 |
£ |
£ |
Фунт |
Ј |
164 |
¤ |
¤ |
Знак валюты |
¤ |
165 |
¥ |
¥ |
Йена |
Ґ |
166 |
¦ |
¦ |
Вертикальная строка |
¦ |
167 |
§ |
§ |
Знак параграфа |
§ |
169 |
© |
© |
Знак копирайта |
© |
171 |
« |
« |
Левая типографская кавычка |
« |
172 |
¬ |
¬ |
Знак отрицания |
¬ |
174 |
® |
® |
Знак “зарегестрировано” |
® |
176 |
° |
° |
Знак градуса |
° |
177 |
± |
± |
Знак “плюс минус» |
± |
178 |
² |
² |
Степень 2 |
І |
179 |
³ |
³ |
Степень 3 |
і |
181 |
µ |
&mikro |
Знак «микро» |
µ |
182 |
¶ |
¶ |
Знак абзаца |
¶ |
183 |
· |
· |
Точка-маркер |
· |
185 |
¹ |
¹ |
Степень 1 |
№ |
187 |
» |
» |
Правая типографская кавычка |
» |
188 |
¼ |
¼ |
Одна четвёртая |
ј |
189 |
½ |
½ |
Одна вторая |
Ѕ |
215 |
× |
× |
Знак умножения / кавычки/ |
* |
247 |
÷ |
÷ |
Знак деления |
/ |
Для отделения символа от последующего текста надо вводить точку с запятой.
Мнемонические символы бывают очень полезны, особенно для тех символов, которые нельзя ввести с клавиатуры. Например, для указания разрешения экрана можно использовать такую конструкцию:
640× 480
Двойная кавычка, угловые скобки и амперсанд (<, >, &) являются служебными в HTML. Если их надо использовать в обычном тексте на Web-странице, то они должны быть указаны только при помощи кодов.
Кириллица тоже может быть реализована в виде набора спецсимволов. Русские буквы расположены (при кодировании Windows-1251) в том месте кодовой таблицы, где первоначально располагались латинские буквы с тильдами, умляутами. Поэтому англоязычные редакторы HTML при переключении клавиатурного регистра часто записывают кириллицу в виде кодов.