БЗ № 12-2004/650
НАЦІОНАЛЬНИЙ СТАНДАРТ УКРАЇНИ
Інформаційні технології
ВОСЬМИБІТНІ ОДНОБАЙТНІ НАБОРИ
КОДОВАНИХ ГРАФІЧНИХ СИМВОЛІВ
Частина 5. Латиниця/кирилиця
(ISO/IEC 8859-5:1999, MOD)
Видання офіційне
Київ
ДЕРЖСПОЖИВСТАНДАРТ УКРАЇНИ
2006
ПЕРЕДМОВА
РОЗРОБЛЕНО: Технічний комітет зі стандартизації «Інформаційні технології» Держспоживстандарту України (ТК 20); Інститут кібернетики імені В.М.Глушкова НАН України
РОЗРОБНИКИ: А. Гречко; О. Перевозчикова, чл.-кор. НАН України (науковий керівник)
ПРИЙНЯТО ТА НАДАНО ЧИННОСТІ: наказ Держспоживстандарту України від 15 листопада 2004 р. № 257 з 2006-04-01
З Національний стандарт відповідає міжнародному стандарту ISO/IEC 8859-5:1999 Information technology — 8-bit single- byte coded graphic character sets — Part 5: Latin/Cyrillic alphabet (Інформаційні технології. Восьмибітні однобайтні набори кодованих графічних символів. Частина 5. Лати- ниця/кирилиця) за винятком додатка А, до якого долучено кодові таблиці усіх частин стандарту ISO/IEC 8859.
Ступінь відповідності — модифікований (MOD)
Переклад з англійської (еп)
4 УВЕДЕНО ВПЕРШЕ
Право власності на цей документ належить державі.
Відтворювати, тиражувати і розповсюджувати його повністю чи частково
на будь-яких носіях Інформації без офіційного дозволу заборонено.
Стосовно врегулювання прав власності треба звертатися до Держспоживстандарту України
Держспоживстандарт України, 2006
ЗМІСТ
с.
Національний вступ IV
Сфера застосування 1
Відповідність стандарту 2
Відповідність обміну інформацією 2
Узгодження засобів 2
Нормативні посилання 2
Терміни та визначення понять 2
Нотація, кодова таблиця та Імена З
Нотація З
Формат кодової таблиці З
Імена і значення З
Специфікація набору графічних символів латиниці/кирилиці 4
Набір символів та їхнє графічне подання 4
Кодова таблиця латиниці/кирилиці 8
Ідентифікація набору символів латиниці/кирилиці 9
Ідентифікація згідно з ISO/IEC 2022 та ISO/IEC 4873 9
Ідентифікація згідно з ISO/IEC 8824-1 9
Ідентифікація з використанням ISO-реєстру наборів кодованих символів із ESC-послідовностями 10
Додаток А Охоплення мов частинами 1—10 та 11—16 ISO/IEC 8859 10
А.1 Європейські мови з латинським письмом 10
А.2 Мови, що не використовують латинське письмо 47
Додаток В Відмінності між першим та другим виданням ISO/IEC 8859 61
Додаток С Бібліографія 61
НАЦІОНАЛЬНИЙ ВСТУП
Цей стандарт згармонізовано з ISO/IEC 8859-5:1999 «Information technology — 8-bit single-byte coded graphic character sets — Part 5: Latin/Cyrillic alphabet»; ступінь гармонізації — модифікований (MOD). Ступінь відповідності ISO/IEC 8859-5:1999 — модифікований (MOD).
Відповідальний за цей стандарт — Технічний комітет зі стандартизації «Інформаційні технології». Редагування тексту виконала чл.-кор. НАН України О. Перевозчикова.
Міжнародний стандарт ISO/IEC 8859 складають частини, кожна з яких визначає набори аж до 191 графічного символу та їхнє подання у 8-ми-бітному однобайтному коді. Кожен набір призначено для конкретної групи природних мов:
Частина 1: Латиниця № 1
Частина 2: Латиниця № 2
Частина 3: Латиниця № З
Частина 4: Латиниця № 4
Частина 5: Латиниця/Кирилиця
Частина 6: Латиниця/Арабська абетка
Частина 7: Латиниця/Грецька абетка
Частина 8: Латиниця/Іврит
Частина 9: Латиниця № 5
Частина 10: Латиниця № 6
Частина 11: Латиниця/Тайська абетка
Частина 12: зарезервована
Частина 13: Латиниця № 7 (Baltic Rim)
Частина 14: Латиниця № 8 (Celtic)
Частина 15: Латиниця № 9
Частина 16: Латиниця № 10
До цієї частини стандарту внесено такі редакційні зміни:
слова «ця частина ISO/IEC 8859» замінено на «цей стандарт»;
структурні елементи цього стандарту: «Обкладинку», «Передмову», «Зміст», «Національний вступ», «Бібліографічні дані», «Нормативні посилання», «Терміни та визначення понять» — оформлено відповідно до вимог національної стандартизації України;
до розділу 2 «Нормативні посилання» та до бібліографії у додатку С долучено і взято у рамку «Національне пояснення» з українським перекладом назв стандартів. З цими стандартами можна ознайомитися у Головному фонді нормативних документів.
Ця частина стандарту має три додатки А, В та С. Додаток А має технічні відхили, позначені рискою зліва чи взяті у прямокутну рамку. Текст цього додатка осучаснено описами усіх складових частин ISO/IEC 8859 (станом на 01.12.2004). Тут наведено кодові таблиці інших мов ISO/IEC 8859, потрібних для організації обміну даними і мережного спілкування.
В Україні діють відразу кілька кодових таблиць української абетки (у складі кирилиці), серед яких розглянемо однобайтні, що стали де-факто стандартами, оскільки або зареєстровані у міжнародному ISO-реєстрі згідно з ISO 2375, як це робили до початку 90-х років XX століття, або зафіксовані у спеціальних RFC у Network Information Systems Center Товариства Інтернет, або описані у чинних стандартах. Зазначимо, що об’єднаний комітет зі стандартизації JTC1 ISO/IEC фактично відмовився від визнання багатьох кодових таблиць, навіть для однобайтного кодування, і для всіх природних мов на Землі встановив єдиний стандартний репертуар символів Unicode з універсальним мультиоктетним USC-набором кодованих символів згідно з ISO/IEC 10646
.К одова таблиця RUSCH, що розширює таблицю ASCII, згідно з чинним стандартом РСТ УРСР 2018-91 зафіксувала усічений репертуар символів кирилиці, який містить тільки символи російської та української абетки, причому Г?, Єє, Її, Іі розташовано після всіх російських літер. Таблиця вже застаріла, не відповідає ISO/IEC-стандартам і містить не вживані зараз символи псевдографіки.
Таблицю СР866 задіяно у MS DOS. Повністю підтримуючи російську, болгарську, македонську і сербохорватську мови, вона за відсутності літер «Іі» ускладнює оброблення українських і білоруських текстів.
Таблицю СР1251 задіяно у MS Windows. Разом Із СР866 наприкінці 1980-х років її зареєструвала фірма Microsoft у ISO-реєстрі. Підтримує шість слов'янських мов і офіційний лексикографічний порядок російської абетки.
Таблицю KOI8-Unified складено додаванням до KOI8-U відсутніх символів кирилиці для білоруської і південнослов'янських мов та узгоджено з ISO-iR-111 ЕСМА ССР. Згідно з RFC-2319 у 1998 р. KOI8-U введено додаванням чотирьох українських літер до KOI8-R, яку з публікацією RFC1489 у 1993 р. довгий час застосовували для кодування україномовних текстів, хоч вона містила
Т
лише символи російської абетки.
аблицю ISO-IR-111, ЕСМА Cyrillic Code Page зареєстровано у 1985 р. під номером 111 у ISO-реєстрі і визнано ЕСМА. Вона не містить українську фрикативну літеру "Ґґ", а лексикографічний порядок символів кирилиці узгоджено з латиницею.Мета цієї частини стандарту — зафіксувати однобайтну кодову таблицю кирилиці, що відповідає усім вимогам кодування символів української абетки. Саме тому за об'єкт стандартизації взято кодову таблицю латиниці/кирилиці з гармонізованого стандарту ISO/IEC 8859-5. Цю таблицю не змінено, оскільки у ній немає вільних позицій для розміщення української фрикативної літери "ҐГ.К
00 |
SP |
0 |
@ |
Р |
|
p |
|
|
NBSP |
№ |
ю |
п |
Ю |
п |
0 |
|
01 |
1 |
1 |
А |
Q |
а |
q |
s |
t |
|
5 |
а |
я |
А |
я |
1 |
|
02 |
« |
2 |
В |
R |
b |
Г |
|
£■: |
f |
г |
б |
р |
Б |
р |
2 |
|
03 |
|
3 |
с |
S |
с |
s |
|
r |
ё |
Ё |
ц |
с |
ц |
с |
3 |
|
04 |
$ |
4 |
D |
N |
d |
t |
V |
|
є |
Є |
д |
т |
д |
Т |
4 |
|
05 |
% |
5 |
Е |
U |
е |
u |
p |
< 'T* |
s |
s |
е |
У |
Е |
У |
5 |
|
06 |
& |
6 |
F |
V |
f |
V |
hl |
|
і |
I |
Ф |
ж |
Ф |
ж |
6 |
|
07 |
|
7 |
G |
W |
g |
w |
|
|
J |
Ї |
Г |
в |
Г |
в |
7 |
|
08 |
|
( |
8 |
Н |
X |
h |
X |
|
|
j |
J |
X |
ь |
X |
ь |
8 |
09 |
■ ) |
9 |
І |
Y |
І |
У |
|
|
Лэ |
гъ |
и |
ы |
и |
и |
9 |
|
10 |
* |
|
J |
Z |
j |
z |
|
|
Нэ |
Нэ |
й |
3 |
й |
3 |
А |
|
11 |
т |
|
К |
[ |
k |
{ |
|
|
h |
ъ |
к |
ш |
ш |
ш |
В |
|
12 |
|
< |
L |
|
1 |
I |
|
|
к |
k |
л |
3 |
л |
э |
С |
|
— |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
13 |
- |
= |
М |
1 |
m |
|
|
|
SHY |
□ |
м |
ш |
м |
щ |
D |
|
14 |
|
> |
N |
А |
11 |
- |
|
|
Ў |
Ў |
н |
ч |
н |
ч |
Е |
|
15 |
|
? |
О |
|
0 |
>•; л |
|
|
U |
и |
О |
ъ |
О |
ъ |
F |
|
|
011 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
A |
в |
С |
D |
Е |
F |
|
Кодова таблиця ISO-IR-111, ЕС МА ССР 001011021031041051061071081091 10 111112113114[15
одові таблиці символів абеток природних мов входять до переліку культурних елементів національної локалізації інтернаціоналізованих IT. На зразок кількох абеток латиниці у складі ISO/IEC 8859, для потреб національно-української локалізації передбачено розширити репертуар кирилиці, розробивши стандарт ще однієї абетки кирилиці, куди мають увійти не лише фрикативна буква ”Ґґ", а й символи стародавньої кирилиці і кириличні символи, використовувані в абетках таких неслов’янських мов, як кримськотатарська, гагаузька тощо.Надання чинності цьому стандарту разом з ДСТУ 4354-1:2004 на схеми однобайтного і мультиоктетного кодування відповідно покликано упорядкувати подання україномовних текстів в інтерфейсах POSIX-сумІсних середовищ