Кодирование символов

Основным языком Интернета является английский язык. Но для гипертекстовых документов предусмотрено использование национальных алфавитов. Стандартным режимом отображения является кодировка ISO Latin 1 (ISO 8859-1). Она подходит как для MS-DOS (набор символов ASCCII), так и для Windows. В тоже время браузеры поддерживают набор символов Unicode 2.0 (ISO10646), что позволяет использовать национальные алфавиты. Это означает, что символы могут кодироваться однобайтовым числом (коды в пределах 0-255) или двухбайтовым (0-65 535). В первом случае для использования национального алфавита необходим атрибут charset, так как одни и те же коды символов могут быть интерпретированы по-разному для различных кодовых страниц.

Кириллица (Windows) и/или Кириллица (Кои8-Р) - это две наиболее популярные в нашей стране кодировки.

Если в документе есть указание на определённую кодовую страницу, то выбор шрифта будет предопределён. Коды 32-127, то есть знаки препинания, цифры и буквы латинского алфавита, отображаются правильно, а коды 128-255 могут отображаться по-разному.

Если кодовая страница указана неправильно, то, например, при создании гипертекстовых документов в MS FrontPage Express в текст страницы автоматически добавляется конструкция типа charset =xxxxx, которая не позволяет использовать кириллицу. В этом случае необходимо правильно указать значение атрибута: charset =windows-1251.

Если документ использует кодировку Unicode, то для работы с ним подойдут такие средства, как Блокнот, Norton Commander или WordPad, и придётся остановиться на гипертекстовом редакторе. В этом случае русская буква А будет выглядеть в режиме «источника» так &#1040 (в десятичной кодировке). Такую страницу будет сложно читать и редактировать. Поэтому каждый новый редактор надо тестировать на возможность использования русских букв: набрать небольшой текст, сохранить документ, а затем просмотреть его в режиме источника.

Использование символов

В HTML и в браузерах реализована возможность прорисовки символов по их кодам. Символы могут быть общепринятыми, нестандартными и используемыми в HTML в качестве служебных символов. Их называют спецсимволами. Первый способ ввода спецсимвола заключается в указании его кода. Например, латинскую букву А можно задать так: &#65. Для некоторых символов предусмотрена мнемоническая кодировка.

Часто используемые спецсимволы (по стандарту ISO 8859 - 1):

Код символа

Числовой код

Мнемонический код

Название

Символ

34

&#34

&quot

Прямая кавычка

38

&#38

&amp

Амперсанд

&

60

&#60

&lt

знак «меньше»

<

62

&#62

&gt

Знак «больше»

>

153

&#153

&trade

Троговая марка

160

&#160

&nbsp

Неразрывный пробел

162

&#162

&cent

Цент

ў

163

&#163

&pound

Фунт

Ј

164

&#164

&curren

Знак валюты

¤

165

&#165

&yen

Йена

Ґ

166

&#166

&brvbar

Вертикальная строка

¦

167

&#167

&sect

Знак параграфа

§

169

&#169

&copy

Знак копирайта

©

171

&#171

&laquo

Левая типографская кавычка

«

172

&#172

&not

Знак отрицания

¬

174

&#174

&reg

Знак “зарегестрировано”

®

176

&#176

&deg

Знак градуса

°

177

&#177

&plusmn

Знак “плюс минус»

±

178

&#178

&sup2

Степень 2

І

179

&#179

&sup3

Степень 3

і

181

&#181

&mikro

Знак «микро»

µ

182

&#182

&para

Знак абзаца

183

&#183

&middot

Точка-маркер

·

185

&#185

&sup1

Степень 1

187

&#187

&raquo

Правая типографская кавычка

»

188

&#188

&frac14

Одна четвёртая

ј

189

&#189

&frac12

Одна вторая

Ѕ

215

&#215

&times

Знак умножения / кавычки/

*

247

&#247

&divide

Знак деления

/

Для отделения символа от последующего текста надо вводить точку с запятой.

Мнемонические символы бывают очень полезны, особенно для тех символов, которые нельзя ввести с клавиатуры. Например, для указания разрешения экрана можно использовать такую конструкцию:

640× 480

Двойная кавычка, угловые скобки и амперсанд (<, >, &) являются служебными в HTML. Если их надо использовать в обычном тексте на Web-странице, то они должны быть указаны только при помощи кодов.

Кириллица тоже может быть реализована в виде набора спецсимволов. Русские буквы расположены (при кодировании Windows-1251) в том месте кодовой таблицы, где первоначально располагались латинские буквы с тильдами, умляутами. Поэтому англоязычные редакторы HTML при переключении клавиатурного регистра часто записывают кириллицу в виде кодов.

 
< Пред   СОДЕРЖАНИЕ   Скачать   След >