Число уровней иерархии синтаксических конструкций определяется потребностями конкретных ИПС. Не следует применять конструкции четвертого и более высоких порядков.

Синтаксические конструкции могут быть охарактеризованы указателями веса, роли и предполагаемого использования аналогично индивидуальным терминам индексирования (см. п.п. 5.5.3, 5.5.4, 5.5.6).

5.7. Запись ПОД в памяти ИПС обусловлена принятым в ней способом кодирования с учетом требований настоящего раздела и ГОСТ 7.52.

6. ФАКТОГРАФИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТА

6.1. Фактографическое индексирование документа (ФИД) заключается в выявлении в документе и включении в ПОД данных, выражающих конкретные сведения (сообщения), имеющиеся в документе.

На основании результатов ФИД в фактографических ИПС формируются массивы сведений, в которых единицей информации является фактографическая запись.

6.2. ФИД предполагает формальное различение в ПОД двух категорий терминов индексирования, выражающих:

1) темы или объекты сообщения;

2) приписанные этим объектам свойства, являющиеся смыслом сообщения.

Соответствующие термины индексирования должны быть связаны друг с другом в синтаксическую конструкцию, объединяющую наименование объекта, его характеристики, их значения, единицы величины и отражающую смысловые связи понятий в документе.

Дополнительно такая синтаксическая конструкция может быть охарактеризована:

1) показателем модальности;

2) условием истинности.

6.3. Показатель модальности фактографического сообщения определяет различие между сообщениями следующих типов:

1) наблюдаемый факт;

2) допускаемое значение;

3) требование стандарта;

4) плановый показатель;

5) запрет;

6) рекомендация;

7) предположение;

8) условие.

Если в информационной системе не используют показатели модальности, то все фактографические сообщения рассматривают как принадлежащие одной модальности, которая должна быть указана в эксплуатационной документации системы.

6.4. Условием истинности фактографического сообщения является другое фактографическое сообщение, связанное с первым в синтаксическую конструкцию вышестоящего уровня.

Например:

Х = вес продукта

Z= 150 г.

V = влажность не более 45 %,

где Х - характеристика объекта,

Z-значение характеристики,

Y - условие истинности.

Фактографическое сообщение, являющееся условием истинности, должно иметь показатель модальности условия «если», например:

(вес продукта = 150 г) (если (влажность не более 45 %)).

6.5. Термины индексирования, выражающие тему (объект) сообщения, относятся к категориям 1 или 2, указанным в п. 5.5.1. При использовании категории 1 термину индексирования может быть дополнительно приписан показатель единичности или общности объекта (квантор).

Квантор общности используют в сообщениях, где выражено утверждение обо всех объектах, попадающих в объем соответствующего понятия.

Квантор единичности используют в сообщениях, где выражена информация о том объекте, входящем в состав данного понятия, который рассматривается в данном документе.

6.6. Термины индексирования, выражающие свойства объектов, которые составляют смысл сообщения, могут быть выражены лексическими единицами категорий 1, 2, 3 (см. п. 5.5.1) или параметрической конструкцией (см. п. 5.6).

6.7. Параметрическая конструкция должна состоять из двух формально выраженных частей: наименования параметра и перечня значений параметра (см. п. 6.8), которые объединены в одну синтаксическую конструкцию.

6.8. Перечень значений в параметрической конструкции должен включать набор значений параметров и указание об альтернативности или одновременности (симультанности) значений.

Набор значений задают перечислением или указанием двух предельных значений, между которыми располагаются значения, принимаемые параметром (интервалом значений). При задании интервала значений формально указывают, которое из значений является начальным и конечным для интервала значений, а также входят ли граничные значения в указанный интервал. Одно из граничных значений интервала может отсутствовать, если значение параметра ограничено только с одной стороны.

Указание об одновременности используют, когда у одного объекта сообщения наблюдаются все заданные значения параметра. Указание об альтернативности используют, когда параметры одного объекта сообщения должны быть выбраны из числа заданных.

6.9. Значения параметра могут быть представлены синтаксической конструкцией из двух терминов индексирования - числового выражения и наименования единицы величины - при необходимости производить операции расчета или численного сравнения.

7. АВТОМАТИЗИРОВАННОЕ ИНДЕКСИРОВАНИЕ

7.1. Целью автоматизации индексирования является минимизация материальных и человеческих ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единообразия ее результатов.

7.2. Автоматизированное индексирование (АИ) осуществляют по:

1) тексту первичного документа.

2) заглавию и аннотации или реферату документа;

АИ по тексту первичного документа должно включать процедуру сжатия ПОД.

7.3. С использованием вычислительной техники осуществляют следующие содержательные этапы АИ:

1) выявление информативных частей документа;

2) идентификация слов текста и приведение их к нормализованному виду (морфологический анализ и синтез);

3) формирование списка ключевых слов исходного текста;

4) подбор дескрипторов по тезаурусу;

5) формирование ПОД.

7.4. Выявление информативных частей документа

Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка указанных в п. 2.1. Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора.

7.5. Идентификация слов текста

7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста.

При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии.

7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения.

7.6. Формирование списка ключевых слов текста

7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка.

7.6.2. Синтаксический анализ текста решает задачи:

1) разделение текста на фрагменты по заданным критериям;

2) установление синтаксических зависимостей между словоформами текста;

3) отождествление словосочетаний;

4) нормализация выявленных ключевых слов.

7.7. Автоматическое формирование ПОД

7.7.1. В процедуре AИ допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области.

7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе.

7.7.3. При формировании ПОД из дескрипторов возможно обогащение ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса.

7.7.4. Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. разд. 5).

7.7.5. К системам АИ предъявляются следующие требования:

1) модульность построения, т.е. такая внутренняя организация лингвистического и программного обеспечения системы при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей;

2) ориентация на типовые программные и технические средства;

3) соответствие действующей нормативно-методической документации по координатному индексированию.

ПРИЛОЖЕНИЕ 1

Справочное

ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ

1. Автоматизированное индексирование - индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и может включать применение интеллектуальных процедур при принятии основных решений о составе поискового образа.

2. Автоматическое индексирование - составление поискового образа с использованием только формальных процедур обработки текста документа или запроса, осуществляемых средствами вычислительной техники.

3. Информативное слово - слово или словосочетание в тексте документа или запроса, которое несет в нем существенную смысловую нагрузку.

4. Контролируемое индексирование - индексирование, при котором предусмотрена замена информативных слов текста дескрипторами, указанными в определенном информационно-поисковом тезаурусе или другом словаре индексирования.

5. Координатное индексирование - индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования.

6. Лексическая единица (ЛЕ) ИПЯ - последовательность символов, слово, словосочетание, фрагмент слова или условное обозначение, которая рассматривается в данном ИПЯ как элементарная единица, используемая для представления в поисковых образах документов или запросов определенного понятия, объекта или значения параметра.

7. Свободное индексирование - индексирование, технология которого не предусматривает замену информативных слов текста в соответствии с рекомендациями специального словаря индексирования.

8. Специфический термин - информативное слово, в наибольшей степени отряжающее содержание документа, использование которого отличает данный документ от других тематически близких документов.

9. Специфичность индексирования - характеристика качества индексирования, определяемая отношением числа специфических терминов и фактографических сведений к числу неспецифических терминов в поисковом образе.

10. Полнота индексирования - степень отражения в поисковом образе содержания документа и (или) запроса, определяемая как отношение числа специфических терминов и фактографических сведений, включенных в поисковый образ, к числу таковых терминов и сведений, имеющихся в тексте документа или запроса.

11. Фактографическое индексирование - индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (сообщений), являющихся смыслом данного документа.

ПРИЛОЖЕНИЕ 2

Справочное

СХЕМА ИНДЕКСИРОВАНИЯ ПО ИНФОРМАЦИОННО-ПОИСКОВОМУ ТЕЗАУРУСУ

1. Изучить документ и составить перечень существенных для его содержания понятий с учетом специфики ИПС.

2. Рассмотреть первое понятие.

3. Найти в тезаурусе лексическую единицу, отражающую данное понятие. Если таковой нет, перейти к п. 11.

4. Если найденная лексическая единица - аскриптор, заменить ее указанным в ссылке дескриптором (или комбинацией дескрипторов).

5. Рассмотреть ссылки, указанные в тезаурусе для данного дескриптора (дескрипторов).

6. Проверить, не являются ли указанные в ссылках дескрипторы более специфичными для выражения данного понятия. Если да, то перейти к п. 10.

7. Записать найденные лексические единицы в поисковый образ, снабдив их необходимыми грамматическими показателями по правилам данного ИПЯ.

8. Проверить, имеются ли еще не отраженные в поисковом образе понятия из документа и рассмотреть следующее понятие. Перейти к п. 3.

9. Если список понятий документа исчерпан, окончить работу.

10. Заменить исходный дескриптор более специфичными согласно указанию ссылки в тезаурусе. Перейти к п. 7.

11. Найти в тезаурусе дескрипторы, совместное включение которых в поисковый образ отражает данное понятие. Если таковых нет, перейти к п. 12, если есть - перейти к п. 5.

12. Установить термин, выражающий понятие и удовлетворяющий требованиям к дескрипторам по ГОСТ 7.25.

13. Направить найденный термин в службу ведения ИПЯ в качестве кандидата на включение в тезаурус. Перейти к выполнению п. 7.

14. Конец

Блок-схема индексирования по информационно-поисковому тезаурусу показана на чертеже.

Блок-схема алгоритма индексирования



ИНФОРМАЦИОННЫЕ ДАННЫЕ

1. РАЗРАБОТАН И ВНЕСЕН Государственным комитетом СССР по науке и технологиям и Техническим комитетом ТК 191 «Научно-техническая информация, библиотечное и издательское дело»

РАЗРАБОТЧИКИ

В.И. Белоозеров, канд. филол. наук (руководитель темы); Н.Д. Кравченко, канд. пед. наук; И.В. Тростникова; Н.А. Сливницина; Г.Н. Хондкариан; В.Н. Казаков, канд. техн. наук

2. УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Комитета стандартизации и метрологии СССР от 27.03.92 № 297

Настоящий стандарт разработан методом прямого применения стандарта ИСО 5963-85 «Документация. Методы анализа документов, определения их тематики и выбора терминов индексирования» с дополнительными требованиями, отражающими потребности народного хозяйства

3. Срок первой проверки - 1995г.

Периодичность проверки - 5 лет

4. РАЗРАБОТАН ВПЕРВЫЕ

5. ССЫЛОЧНЫЕ НОРМАТИВНО-ТЕХНИЧЕСКИЕ ДОКУМЕНТЫ

Обозначение НТД, на который дана ссылка

Номер пункта, приложения

ГОСТ 7.0-84

Вводная часть

ГОСТ 7.25-80

4.2; 4.6

ГОСТ 7.26-80

Вводная часть

ГОСТ 7.27-80

Вводная часть; приложение 1

ГОСТ 7.52-85

Вводная часть; 5.7

ГОСТ 7.59-90

Вводная часть; приложение 1