БЗ № 12-2004/650


НАЦІОНАЛЬНИЙ СТАНДАРТ УКРАЇНИ

Інформаційні технології

ВОСЬМИБІТНІ ОДНОБАЙТНІ НАБОРИ
КОДОВАНИХ ГРАФІЧНИХ СИМВОЛІВ

Частина 5. Латиниця/кирилиця

(ISO/IEC 8859-5:1999, MOD)

ДСТУ 4353-5:2004

Видання офіційне



















Київ
ДЕРЖСПОЖИВСТАНДАРТ УКРАЇНИ
2006

ПЕРЕДМОВА

  1. РОЗРОБЛЕНО: Технічний комітет зі стандартизації «Інформаційні технології» Держспоживстандарту України (ТК 20); Інститут кібернетики імені В.М.Глушкова НАН України

РОЗРОБНИКИ: А. Гречко; О. Перевозчикова, чл.-кор. НАН України (науковий керівник)

  1. ПРИЙНЯТО ТА НАДАНО ЧИННОСТІ: наказ Держспоживстандарту України від 15 листопада 2004 р. № 257 з 2006-04-01

З Національний стандарт відповідає міжнародному стандарту ISO/IEC 8859-5:1999 Information technology — 8-bit single- byte coded graphic character sets — Part 5: Latin/Cyrillic alphabet (Інфор­маційні технології. Восьмибітні однобайтні набори кодованих графічних символів. Частина 5. Лати- ниця/кирилиця) за винятком додатка А, до якого долучено кодові таблиці усіх частин стандарту ISO/IEC 8859.

Ступінь відповідності — модифікований (MOD)

Переклад з англійської (еп)

4 УВЕДЕНО ВПЕРШЕ

Право власності на цей документ належить державі.

Відтворювати, тиражувати і розповсюджувати його повністю чи частково
на будь-яких носіях Інформації без офіційного дозволу заборонено.
Стосовно врегулювання прав власності треба звертатися до Держспоживстандарту України

Держспоживстандарт України, 2006

ЗМІСТ

с.

Національний вступ IV

  1. Сфера застосування 1

  2. Відповідність стандарту 2

    1. Відповідність обміну інформацією 2

    2. Узгодження засобів 2

  3. Нормативні посилання 2

  4. Терміни та визначення понять 2

  5. Нотація, кодова таблиця та Імена З

    1. Нотація З

    2. Формат кодової таблиці З

    3. Імена і значення З

  6. Специфікація набору графічних символів латиниці/кирилиці 4

    1. Набір символів та їхнє графічне подання 4

    2. Кодова таблиця латиниці/кирилиці 8

  7. Ідентифікація набору символів латиниці/кирилиці 9

    1. Ідентифікація згідно з ISO/IEC 2022 та ISO/IEC 4873 9

    2. Ідентифікація згідно з ISO/IEC 8824-1 9

    3. Ідентифікація з використанням ISO-реєстру наборів кодованих символів із ESC-послідовностями 10

Додаток А Охоплення мов частинами 1—10 та 11—16 ISO/IEC 8859 10

А.1 Європейські мови з латинським письмом 10

А.2 Мови, що не використовують латинське письмо 47

Додаток В Відмінності між першим та другим виданням ISO/IEC 8859 61

Додаток С Бібліографія 61

НАЦІОНАЛЬНИЙ ВСТУП

Цей стандарт згармонізовано з ISO/IEC 8859-5:1999 «Information technology — 8-bit single-byte coded graphic character sets — Part 5: Latin/Cyrillic alphabet»; ступінь гармонізації — модифікований (MOD). Ступінь відповідності ISO/IEC 8859-5:1999 — модифікований (MOD).

Відповідальний за цей стандарт — Технічний комітет зі стандартизації «Інформаційні технології». Редагування тексту виконала чл.-кор. НАН України О. Перевозчикова.

Міжнародний стандарт ISO/IEC 8859 складають частини, кожна з яких визначає набори аж до 191 графічного символу та їхнє подання у 8-ми-бітному однобайтному коді. Кожен набір призначено для конкретної групи природних мов:

Частина 1: Латиниця № 1

Частина 2: Латиниця № 2

Частина 3: Латиниця № З

Частина 4: Латиниця № 4

Частина 5: Латиниця/Кирилиця

Частина 6: Латиниця/Арабська абетка

Частина 7: Латиниця/Грецька абетка

Частина 8: Латиниця/Іврит

Частина 9: Латиниця № 5

Частина 10: Латиниця № 6

Частина 11: Латиниця/Тайська абетка

Частина 12: зарезервована

Частина 13: Латиниця № 7 (Baltic Rim)

Частина 14: Латиниця № 8 (Celtic)

Частина 15: Латиниця № 9

Частина 16: Латиниця № 10

До цієї частини стандарту внесено такі редакційні зміни:

  • слова «ця частина ISO/IEC 8859» замінено на «цей стандарт»;

  • структурні елементи цього стандарту: «Обкладинку», «Передмову», «Зміст», «Національний вступ», «Бібліографічні дані», «Нормативні посилання», «Терміни та визначення понять» — оформ­лено відповідно до вимог національної стандартизації України;

  • до розділу 2 «Нормативні посилання» та до бібліографії у додатку С долучено і взято у рамку «Національне пояснення» з українським перекладом назв стандартів. З цими стандартами можна ознайомитися у Головному фонді нормативних документів.

Ця частина стандарту має три додатки А, В та С. Додаток А має технічні відхили, позначені рискою зліва чи взяті у прямокутну рамку. Текст цього додатка осучаснено описами усіх складових частин ISO/IEC 8859 (станом на 01.12.2004). Тут наведено кодові таблиці інших мов ISO/IEC 8859, потрібних для організації обміну даними і мережного спілкування.

В Україні діють відразу кілька кодових таблиць української абетки (у складі кирилиці), серед яких розглянемо однобайтні, що стали де-факто стандартами, оскільки або зареєстровані у міжна­родному ISO-реєстрі згідно з ISO 2375, як це робили до початку 90-х років XX століття, або зафіксо­вані у спеціальних RFC у Network Information Systems Center Товариства Інтернет, або описані у чин­них стандартах. Зазначимо, що об’єднаний комітет зі стандартизації JTC1 ISO/IEC фактично відмо­вився від визнання багатьох кодових таблиць, навіть для однобайтного кодування, і для всіх при­родних мов на Землі встановив єдиний стандартний репертуар символів Unicode з універсальним мультиоктетним USC-набором кодованих символів згідно з ISO/IEC 10646

  1. .К одова таблиця RUSCH, що розши­рює таблицю ASCII, згідно з чинним стандар­том РСТ УРСР 2018-91 зафіксувала усічений репертуар символів кирилиці, який містить тільки символи російської та української абетки, причому Г?, Єє, Її, Іі розташовано пі­сля всіх російських літер. Таблиця вже за­старіла, не відповідає ISO/IEC-стандартам і містить не вживані зараз символи псев­дографіки.

  2. Таблицю СР866 задіяно у MS DOS. Повністю підтримуючи російську, болгарську, македонську і сербохорватську мови, вона за відсутності літер «Іі» ускладнює оброб­лення українських і білоруських текстів.

  3. Таблицю СР1251 задіяно у MS Windows. Разом Із СР866 наприкінці 1980-х років її зареєстру­вала фірма Microsoft у ISO-реєстрі. Підтримує шість слов'янських мов і офіційний лексикографічний порядок російської абетки.

  4. Таблицю KOI8-Unified складено додаванням до KOI8-U відсутніх символів кирилиці для білоруської і південнослов'янських мов та узгоджено з ISO-iR-111 ЕСМА ССР. Згідно з RFC-2319 у 1998 р. KOI8-U введено додаванням чотирьох українських літер до KOI8-R, яку з публікацією RFC1489 у 1993 р. довгий час застосовували для кодування україномовних текстів, хоч вона містила

  5. Т

    лише символи російської абетки.

    аблицю ISO-IR-111, ЕСМА Cyrillic Code Page зареєстровано у 1985 р. під номером 111 у ISO-реєстрі і визнано ЕСМА. Вона не містить українську фри­кативну літеру "Ґґ", а лексикографічний порядок символів кирилиці узгоджено з латиницею.

Мета цієї частини стандарту — за­фіксувати однобайтну кодову таблицю кирилиці, що відповідає усім вимогам ко­дування символів української абетки. Саме тому за об'єкт стандартизації взято кодову таблицю латиниці/кирилиці з гар­монізованого стандарту ISO/IEC 8859-5. Цю таблицю не змінено, оскільки у ній немає вільних позицій для розміщення української фрикативної літери "ҐГ.К

00

SP

0

@

Р


p



NBSP

ю

п

Ю

п

0

01

1

1

А

Q

а

q

s

t


5

а

я

А

я

1

02

«

2

В

R

b

Г


£■:

f

г

б

р

Б

р

2

03


3

с

S

с

s


r

ё

Ё

ц

с

ц

с

3

04

$

4

D

N

d

t

V


є

Є

д

т

д

Т

4

05

%

5

Е

U

е

u

p

< 'T*

s

s

е

У

Е

У

5

06

&

6

F

V

f

V

hl


і

I

Ф

ж

Ф

ж

6

07


7

G

W

g

w



J

Ї

Г

в

Г

в

7

08


(

8

Н

X

h

X



j

J

X

ь

X

ь

8

09

■ )

9

І

Y

І

У



Лэ

гъ

и

ы

и

и

9

10

*


J

Z

j

z



Нэ

Нэ

й

3

й

3

А

11

т


К

[

k

{



h

ъ

к

ш

ш

ш

В

12


<

L

1

I



к

k

л

3

л

э

С














13

-

=

М

1

m




SHY

м

ш

м

щ

D

14


>

N

А

11

-



Ў

Ў

н

ч

н

ч

Е

15


?

О


0

>•; л



U

и

О

ъ

О

ъ

F


011

2

3

4

5

6

7

8

9

A

в

С

D

Е

F



Кодова таблиця ISO-IR-111, ЕС МА ССР 001011021031041051061071081091 10 111112113114[15

одові таблиці символів абеток при­родних мов входять до переліку культур­них елементів національної локалізації інтернаціоналізованих IT. На зразок кількох абеток латиниці у складі ISO/IEC 8859, для потреб національно-української ло­калізації передбачено розширити репер­туар кирилиці, розробивши стандарт ще однієї абетки кирилиці, куди мають увійти не лише фрикативна буква ”Ґґ", а й сим­воли стародавньої кирилиці і кириличні символи, використовувані в абетках та­ких неслов’янських мов, як кримськота­тарська, гагаузька тощо.

Надання чинності цьому стандарту разом з ДСТУ 4354-1:2004 на схеми однобайтного і мультиоктетного коду­вання відповідно покликано упорядкува­ти подання україномовних текстів в ін­терфейсах POSIX-сумІсних середовищ