Д

МІЖДЕРЖАВНИЙ
СТАНДАРТ

ЕРЖАВНИЙ
СТАНДАРТ УКРАЇНИ

Інформація та документація

ОБСТЕЖЕННЯ ДОКУМЕНТА,
ВСТАНОВЛЕННЯ ЙОГО ПРЕДМЕТА
ТА ВІДБІР ТЕРМІНІВ ІНДЕКСУВАННЯ

Загальна методика

ДСТУ 2395-2000 (ГОСТ 30671-99)
(ISO 5963:1985)

И

БЗ № 3-2000/40

нформация и документация

ОБСЛЕДОВАНИЕ ДОКУМЕНТА,
УСТАНОВЛЕНИЕ ЕГО ПРЕДМЕТА
И ОТБОР ТЕРМИНОВ ИНДЕКСИРОВАНИЯ

Общая методика

ГОСТ 30671-99 (ИСО 5963-85)

Видання офіційне



ДСТУ 2395-2000 (ГОСТ 30671-99) (ISO 5963:1985)

ДЕРЖАВНИЙ СТАНДАРТ УКРАЇНИ

Інформація та документація

ОБСТЕЖЕННЯ ДОКУМЕНТА,
ВСТАНОВЛЕННЯ ЙОГО ПРЕДМЕТА
ТА ВІДБІР ТЕРМІНІВ ІНДЕКСУВАННЯ

Загальна методика

Видання офіційнеПЕРЕДМОВА

  1. РОЗРОБЛЕНО І ВНЕСЕНО ВАТ «Інститут прикладної інформатики»

  2. ЗАТВЕРДЖЕНО І ВВЕДЕНО В ДІЮ наказом Держстандарту України від 27 листопада 2000 р. № 677

З Цей стандарт відповідає міжнародному стандарту ISO 5963:1985 Documentation — Methods for examining documents, determining their subjects, and selecting indexing terms (Докумен­тація — Методи обстеження документів, установлення їхніх предметів і відбору термінів індексування)

Ступінь відповідності — еквівалентний (eqv)

  1. НА ЗАМІНУ ДСТУ 2395-94

  2. РОЗРОБНИКИ: А. О. Стогній, чл.-кор. НАН України; В, М. Дріянський, канд.фіз.-мат.наук;

С. М. Альошкіна; Т. Н. Давиденко; О. Ю. Дегтярьова; В. В. Діденко; О. М. Коренга

© Держстандарт України, 200

Цей стандарт не може бути повністю чи частково відтворений, тиражований
і розповсюджений як офіційне видання без дозволу Держстандарту України

ЗМІСТ

с.

  1. Сфера застосування 1

  2. Визначення 2

  3. Призначення і процедура індексування 2

  4. Обстеження документа З

  5. Ідентифікація понять З

  6. Відбір термінів індексування ; 5

  7. Контроль якості індексування 5

Додаток А Блок-схема процедури індексування з використанням тезауруса 7ДСТУ 2395-2000 (ГОСТ 30671-99) (ISO 5963:1985)

ДЕРЖАВНИЙ СТАНДАРТ УКРАЇНИ

ІНФОРМАЦІЯ ТА ДОКУМЕНТАЦІЯ

ОБСТЕЖЕННЯ ДОКУМЕНТА,
ВСТАНОВЛЕННЯ ЙОГО ПРЕДМЕТА
ТА ВІДБІР ТЕРМІНІВ ІНДЕКСУВАННЯ
Загальна методика

ИНФОРМАЦИЯ И ДОКУМЕНТАЦИЯ

ОБСЛЕДОВАНИЕ ДОКУМЕНТА,
УСТАНОВЛЕНИЕ ЕГО ПРЕДМЕТА
И ОТБОР ТЕРМИНОВ ИНДЕКСИРОВАНИЯ
Общая методика

INFORMATION AND DOCUMENTATION

EXAMINING THE DOCUMENT,
DETERMINING IT’S SUBJECT,
AND SELECTING INDEXING TERMS
General methods

Чинний від 2001-07-01

  1. СФЕРА ЗАСТОСУВАННЯ

Цей стандарт поширюється на процес індексування документа і встановлює загальну ме­тодику виконання початкових його стадій, як-от:

  • обстеження документа та встановлення його предмета;

  • ідентифікація понять, що становлять предмет;

  • відбір відповідних термінів індексування.

Цей стандарт не пов'язаний з будь-якою конкретною системою індексування: передкоор- динатною (порядок термінів чи класифікаційних індексів установлюється наперед) чи постко- ординатною (порядок термінів чи класифікаційних індексів відсутній).

Цей стандарт передусім орієнтований на системи індексування дескрипторного типу (по­няття виражають термінами інформаційної мови, що контролюються, наприклад, тезаурусом), але він також придатний до систем індексування класифікаційного типу (поняття виражають індексами класифікаційної системи).

Цей стандарт слід застосовувати в усіх ситуаціях індексування за участю особи, що здійснює індексування (далі — індексатор), під час аналізування документів і пошукових запитів користувачів, складання рефератів, підготування предметних покажчиків для забезпечення уні­фікації технології індексування документів, передусім, в організаціях, що обмінюються бібліо­графічною інформацією.

Видання офіційне

Цей стандарт не придатний у випадках автоматичного індексування, коли терміни, що зуст­річаються в тексті, поєднуються в множини чи класи на підставі формально заданих критеріїв, наприклад, частоти появи і/або близькості в тексті.

  1. ВИЗНАЧЕННЯ

У цьому стандарті використано такі терміни й визначення:

  1. Документ — записана інформація, яку можна розглядати як одиницю в ході здійснен­ня інформаційної діяльності.

Примітка. Це визначення стосується не тільки рукописних матеріалів чи друкованих на папері чи в мікроформах (книжки, журнали, діаграми, карти), але й недрукованих (машинозчитних записів, фільмів, звукових записів), а також тривимірних об’єктів чи реалій.

  1. Записана інформація — інформація, що зберігається за допомогою носія даних.

  2. Інформаційна діяльність — постійне та систематичне збирання та оброблення за­писаної інформації з метою її зберігання, пошуку використання чи пересилання, що виконуютьс особою чи організацією.

  3. Поняття — будь-яка одиниця думки.

Примітка. Семантичний зміст поняття можна передавати комбінацією інших понять, склад яких залежить від мови чи культури.

  1. Предмет — поняття чи комбінація понять, що відбивають тему документа.

  2. Індексування — процес подання результатів аналізу документа елементами інфор­маційної чи природної мови, як правило, з метою полегшення його пошуку.

  3. Термін індексування — представлення поняття як елемента інформаційної мови чи терміна природної мови (переважно іменника чи іменного словосполучення), або класифікацій­ного індексу.

  4. Інформаційна мова — формалізована мова, призначена для характеристики даних чи змісту документів із метою забезпечення їхнього зберігання та пошуку.

  5. Преференційний термін — термін, вибраний як дескриптор із множини еквівалент­них термінів.

  6. Дескриптор — термін тезауруса, який може бути використаний для вираження понят­тя в документі чи запиті з метою інформаційного пошуку.

  7. Тезаурус — контрольований словник термінів із зафіксованими семантичними відн шеннями, який охоплює одну чи більше спеціальних галузей знань.

  8. Класифікаційна система — інформаційна мова, призначена для структурного подану ня документів чи даних за допомогою класифікаційних індексів і відповідних термінів із метою забезпечення реалізації класифікаційного предметного підходу з використанням, у разі необ­хідності, абеткового покажчика.

  9. Класифікаційний індекс— подання класу, отримане внаслідок застосування нотації деякої класифікаційної системи.

  10. Нотація — система позначок (кодів) і правил їхнього застосування, що використо­вується для подання класів та відношень між ними.

Примітка. З метою структурування можуть бути використані спеціальні символи, наприклад, знаки пунктуації.

    1. Покажчик — абетковий чи систематичний перелік предметів із посиланням на пози­цію кожного предмета в документі чи сукупності документів.

    2. Релевантність — характеристика ст упеня відповідності змісту документа, знайде­ного в результаті інформаційного пошуку, змісту інформаційного запита.

  1. ПРИЗНАЧЕННЯ І ПРОЦЕДУРА ІНДЕКСУВАННЯ

    1. Індексування полягає в ідентифікації змісту документа з метою його наступного відшу­кання. Індексування не передбачає описування документа як фізичної одиниці, хоча деякі па­раметри щодо форми документа, його вихідних даних тощо можуть бути занесені до предмет­ного покажчика, якщо інформація такого роду дозволить користувачеві точніше визначити, чі є цей документ релевантним його запиту.

    2. Під час індексування відбувається видобування понять із документів шляхом інте- гіектуального аналізу і перетворення їх у терміни індексування. Як аналіз, так і перетворення слід здійснювати за допомогою таких засобів індексування, як тезауруси та класифікаційні системи.

    3. . Процедура індексування містить такі три взаємопов’язані процеси:

  • обстеження змісту документа та встановлення його предмета;

  • ідентифікація основних понять, що становлять предмет документа;

  • відбір відповідних термінів індексування для вираження виявлених понять засобами вибраної інформаційної мови.

Рекомендації та вимоги щодо виконання цих процесів, а також щодо якості індексування розглянуто в розділах 4—7.

  1. ОБСТЕЖЕННЯ ДОКУМЕНТА

    1. Результатом обстеження документа має бути встановлення його предмета.

Докладність обстеження документа значною мірою залежить від його фізичної форми. Слід розрізняти такі два випадки:

  1. індексування друкованих документів, що становлять звичайне явище для бібліотек та нформаційних центрів, де фонд складається здебільшого з монографій, часописів, звітів, мате* зіалів конференцій тощо;

— індексування аудіовізуальних творів чи фонограм.

  1. Найповніше розуміння друкованих документів досягається в результаті докладного про­читання всього тексту. Таке повне прочитання часто неможливо реалізувати, і воно не завжди є обов’язковим, однак індексатор повинен гарантувати, що жодної корисної інформації не ви­пущено.

Обстежуючи документ, індексатор повинен звернути особливу увагу на такі важливі час- гини тексту:

  • назва;

  • реферат (якщо є);

  • зміст;

  • вступ, початкові фрази глав та параграфів, висновок;

  • ілюстрації, діаграми, таблиці та супровідні надписи;

— слова чи фрази, підкреслені чи виділені яким-небудь іншим чином (наприклад надру­ковані іншим шрифтом).

Індексування тільки на основі назви не рекомендоване. Реферат (якщо він є) також не слід розглядати як заміну тексту документа. Як назви, так і реферати можуть бути невідповідними тексту і не можуть вважатися надійним джерелом,необхідним індексатору.

4.3 У випадку аудіовізуальних творів чи фонограм доводиться враховувати той факт, що, наприклад, аудіовізуальні, візуальні та звукові носії потребують додаткових технічних проце­дур. На практиці не завжди є можливість обстеження самого документа (наприклад прокручу­вання плівки). Індексування в такому випадку звичайно виконується на основі назви і/або стис­лого опису, хоч індексатор повинен мати можливість переглянути чи прослухати інформацію безпосередньо з носія, якщо письмовий опис виявиться невідповідним або неточним.

5 ІДЕНТИФІКАЦІЯ ПОНЯТЬ

  1. Після обстеження документа індексатор повинен перейти до систематизованої іден­тифікації тих понять, які є суттєвими елементами предмета документа.

Зацікавлені організації повинні встановити контрольні списки тих параметрів, які визнано важливими у відповідній предметній галузі. У наведених нижче запитаннях ілюструються за­гальні параметри, які мають бути включені до такого контрольного списку.

Чи описується в документі об'єкт діяльності?

Чи містить предмет активне поняття (наприклад дію, операцію, процес тощо)?

Чи ідентифікований об’єкт діяльності?

Чи описується в документі суб’єкт дії?

Чи має документ посилання на конкретні засоби виконання дії (наприклад спеціаг інструменти, технології чи методи)?

Чи розглядалися ці параметри в контексті конкретного місцеположення чи середовищ

Чи ідентифіковані які-небудь залежні або незалежні змінні величини?

Чи розглядався предмет у спеціальному аспекті, як правило, не пов'язаному з галуззю слідження (наприклад соціологічне дослідження релігії)?

Наведені запитання є прикладами загальних параметрів, які можуть бути застосоє в будь-якій предметній галузі. У кожній спеціальній дисципліні може виявитися потрібі формулювання інших запитань.

  1. Індексатор не повинен обов’язково ідентифікувати всі поняття, що становлять пред документа. Відбір понять залежить від мети індексування.

Ідентифікація понять може також залежати від виду документа. Наприклад, результ індексування на основі текстів книжок, статей часописів тощо найчастіше відрізняються від зультатів індексування на основі рефератів чи коротких оглядів.

Докладність ідентифікації понять пов’язана з такими характеристиками індексування як черпність та специфічність.

  1. Вичерпність індексування залежить від числа параметрів (5.1), поданих поняттями, явленими індексатором.

    1. Індексатор повинен бути спроможний ідентифікувати всі поняття документа, що ма потенційну значимість для користувачів тієї чи іншої інформаційної системи. Іноді дві чи білі тем у межах відповідної предметної галузі розглядаються незалежно в одному й тому сам документі. Вони повинні бути опрацьовані окремо і, якщо необхідно, різними спеціалістами.

    2. Межі відповідної предметної галузі не можна розглядати надто звужено. Потрібно е ховувати той факт, що з розвитком інформаційних мереж результати індексування, прове ного спочатку для однієї групи користувачів (наприклад учених чи технологів), можуть за< совуватися іншими групами користувачів (наприклад економістами). З огляду на це індекс: рам, наприклад, наукової та технічної літератури рекомендовано не ігнорувати інші аспе предмета, наприклад соціальний та економічний.

    3. У процесі відбору понять головним критерієм завжди повинна бути потенційна : чимість поняття як елемента вираження предмета документа і як параметра для пошуку д< мента. Відбираючи поняття, індексатор повинен враховувати, наскільки це можливо, запиі ня, які надходять до тієї чи іншої інформаційної системи. Фактично цей критерій відбиває новну функцію індексування. З огляду на це індексатор повинен: