Типы систем индексирования. Морфологический анализ и нормализация понятий.

Индексирование – это процесс перевода текстов с естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ .

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ. Помимо правил применения ИПЯ система индексирования может включать большое разнообразие инструкций, положений, методов и т.д., регламентирующих те или иные этапы процесса индексирования.

Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру невозможно. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования.

Рассмотрим типологию систем индексирования по пяти наиболее важным основаниям (рис. 5.1).

1. Но степени автоматизации процесса индексирования выделяют

Ручного индексирования;

Автоматического индексирования;

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

Эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

Со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

Без лексикографического контроля;

С полным контролем;

С промежуточным контролем.

Лексикографический контроль предусматривает:

Устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

Нормализацию слов на основе морфологических нормативных словарей.

В системах с полным контролем реализуются обе функции лексографического контроля. В системах индексации с промежуточным контролем эти функции реализуются частично.

Рис. 5.1. Типы систем индексирования

5. По характеру морфологического анализа слов различают системы:

С использованием морфологических словарей;

С использованием основных лексических словарей;

С использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.



Примеры систем индексирования:

1) Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это системы индексирования с ручным индексированием, без словаря, с эвристическими процедурами отбора слов, без лексиграфического контроля и морфологического анализа.

2) Процесс полусвободного индексирования аналогичен вышеописанному, но слова сформированного списка соотносятся со словарем, несовпадающие слова отбрасываются в ПОД не включаются.

3) При жестком индексировании слова берутся только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь производится его морфологическая нормализация на базе основных лексических словарей.

4) При статическом автокодировании слова выбираются из текста по заданным статистическим процедурам, после чего производится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики.

Существует ряд и других систем индексации.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме - «термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Морфологический анализ и нормализация понятий. Основные этапы процесса индексирования состоят в выборе понятий текста, отражающих его основное смысловое содержание, а также в морфологическом анализе и лексографическом контроле отобранных понятий и их кодировании .

Процедура отбора информативных понятий текста аналогична процессам выбора понятий при построении словарей основных лексических единиц, рассмотренным в предшествующей теме.

Рассмотрим более подробно суть процедур морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей.

Процедура морфологического анализа по морфологическим словарям состоит:

1) в определении обобщенного грамматического класса слова и его членами на основу и окончание (по словарям основ и окончаний);

2) в идентификации рода существительных (по основам слов);

3) в выявлении номера флексивного класса слов (по обобщенному грамматическому классу, признаку рода, окончанию, конечным буквосочетаниям основы);

4) в определении номера набора грамматической информации к слову.

Результатом такого анализа является нормализованное слово и номер набора его грамматической информации.

Нормализованные слова кодируются путем их замены буквенными кодами или кодами слов. В первом случае каждая буква заменяется соответствующим ей кодом (по словарю кодов букв). Во втором случае слова отождествляются по словарю лексических единиц и заменяются их номерами или кодами словаря.

Декодирование слов, производимое при выдаче результатов поиска, состоит в формировании буквенного кода слова (а затем и самого слова) по номеру или коду его нормализованной части и по номеру соответствующей грамматической информации.

При использовании словосочетаний процедура морфологического анализа существенно усложняется, включая в себя :

1. Отождествление слов словосочетания с элементами словаря слов. Замена их номерами по словарю, сопровождение грамматической информацией.

2. Выявление грамматической структуры словосочетания в целом – синтаксический анализ (по грамматической информации слов словосочетания).

3. Поиск по словарю номера словосочетания, соответствующего данному сочетанию номеров слов и грамматической структуре кодируемого словосочетания.

4. Выбор из словаря по номеру словосочетания соответствующего ему номера грамматической структуры и самой структуры. Сравнение выбранной грамматической структуры с грамматической структурой кодируемого словосочетания, полученной на втором этапе. Если структуры совпадают, то понятия тождественны. Анализируемое словосочетание заменяется соответствующим ему номером или кодом. Два последних этапа являются этапами семантического анализа.

Декодирование словосочетаний представляет собой :

1) выбор из словаря по номеру словосочетания соответствующего ему набора номеров слов и номера грамматической структуры;

2) извлечение информации о формах слов и их связях, восстановление порядка слов в словосочетании (по грамматической структуре);

3) формирование буквенного кода словосочетания и самого сочетания.

Морфологический анализ по словарям основных лексических единиц включает 2 этапа: сравнение слова со словарем (идентификация и определение номера совпадающего понятия) и выявление номера набора понятий осуществляется буквенным кодом или кодами понятий (по словарю).

В ИПС широко применяется морфологический анализ путем усечения слов. При этом используются различные процедуры усечения :

а) с использованием словарей (основ, окончаний и т.д.);

б) без использования словарей (по простейшим априорным правилам);

в) статистическое усечение слов с использованием аппарата позиционной статистики.

В случае а) процедуры морфологического анализа, кодирования и декодирования те же, что и при использовании морфологических словарей. В случае б) начало и/или окончание слов усекается по определенным правилам. Усеченные части слов кодируются буквенными кодами. Декодирование отсутствует. В случае в) при усечении слов используется аппарат и словари позиционной статистики. Слова кодируются буквенными кодами, а декодирование тоже отсутствует.

При усечении слов производятся только их нормализация и неморфологический анализ.

Контрольные вопросы

1. Каковы роль и место системы индексирования в составе логико-семантических средств, обеспечивающих создание и функционирование автоматизированной информационно-поисковой системы?

2. Приведите примеры систем индексирования.

3. По каким типологическим признакам можно разделять системы индексирования?

4. В чем суть процедуры морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей в процессе индексирования?

Процедуру перевода с естественного языка на ИПЯ называют индексированием . Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя).

Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени.

Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).

Важность можно определить несколькими признаками:

  • статистическими, т.е. на основе частоты использования термина в документе;
  • на основе высказываний автора (его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе);
  • с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте;
  • по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной ИПС определяется в основном возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами. Однако есть и некоторые специфические правила и рекомендации, исследование которых позволило выявить некоторые разновидности систем индексирования.

Существуют различные типы систем индексирования.

1. К первому типу относят системы свободного индексирования.

При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые отражают содержание индексируемого документа. Кроме этого, элементами ПОД могут быть слова, отсутствующие в этих документах, но отражающие более точно смысл их текстов с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования. Аналогично – из текста запроса пользователя формируется ПОЗ.

Такой процесс индексирования является принципиально неалгоритмическим, т.е. неавтоматизируемым.

2. При втором методе, который условно называют методом полусвободного индексирования, из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании.

Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем – устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ).

3. Третий способ индексирования основан на статистическом подходе.

Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т.е. в репрезентативной статистической выборке).

Например, в предлагаются следующие количественные критерии:

где F – относительная частота употребления слова в документе; R – относительная частота употребления слова в представительном массиве документов.

Легко видеть, что в основе приведенных соотношений лежит идея, согласно которой информационная значимость слова определяется расхождением частоты его употребления в данном документе и во всем потоке рассматриваемых документов.

Возможны различные подходы к определению расхождения:

  • согласно первому вычисляется расхождение между частотой употребления слов в потоке документов данной тематики (монотематический поток) и частотой встречаемости этого слова в многотемном потоке документов (политематический поток);
  • второй принцип основан на вычислении расхождения частоты употребления слова в потоке текстов данной тематики и частоты этого же слова в потоке текстов тематики, далекой от данной ("противоположной" тематики).

Статистический способ индексирования может быть алгоритмизирован и автоматизирован, и в настоящее время имеются средства автоматизированного статистического анализа текстов.

Однако самостоятельного практического применения в ИПС этот способ не нашел, он используется как вспомогательный в сочетании с семантическим анализом текстов документов.

4. К четвертому типу относят системы индексирования, контролируемые заданным словарем (тезаурусом ).

Алгоритм индексирования сводится к тому, что каждое слово текста сравнивается с точностью до основы со словарем, совпавшие слова записываются в ПОД.

В некоторых системах словарь используется как помощник специалисту, занимающемуся индексированием текста.

К таким системам относится, например, УДК. В других – такой словарь является элементом алгоритма индексирования: слово, одновременно встретившееся в тексте и в словаре, записывается в ПОД. В дескрипторных ИПЯ в ПОД

(ПОЗ) записываются не само слово текста, а соответствующий ему дескриптор.

Перспективным представляется индексирование документов с использованием специально разработанных иерархических классификаций, отражающих цели поиска и использования документов.

Такие классификаторы могут использоваться в качестве ИПЯ в информационных системах нормативно-методического обеспечения управления: иерархический классификатор, объединяющий нормативно-методические документы, разрабатывается на основе структуры целей (основных направлений) и функций деятельности предприятия.

Иерархический классификатор ИПЯ может быть основой системы избирательного распределения информации (ИРИ): разрабатывается классификатор потребностей категории работников, пользующихся системой ИРИ.

  • При подготовке этого раздела использовалась классификация, предложенная в работе: Певзнер Б. Р. Информационно-поисковые системы и информационно-поисковые языки / Б. Р. Певзнер. М.: ИПКИР, 1974. С. 10-11.

Одна из важнейших операций аналитико-синтетической переработки информации как средства информационного поиска – индексирование документов и информационных запросов.

Индексирование – процесс выражения содержания документа и (или)запроса наинформационно-поисковом языке (ИПЯ) с помощьютерминов индексирования – классификационных индексов, предметных рубрик (ПР), ключевых слов, дескрипторов, кодов. Иными словами, индексирование – процесс перевода содержания документов и запросов с естественного языка на ИПЯ, в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ) . Таким образом, происходит «свертывание» информации, содержащейся в документе, и изложение ее на ИПЯ в виде индекса, предметной рубрики или дескриптора, ключевого слова.

Информационно-поисковый язык (ИПЯ) – это специально созданный искусственный язык, предназначенный для выражения содержания документов и (или) запросов с целью их последующего поиска. ИПЯ – это основной элемент логико-семантического аппарата информационно-поисковой системы (ИПС).

Необходимость создания искусственного языка (для выражения смыслового – семантического содержания документов с целью их поиска) обусловлена тем, что естественный язык обладает рядом свойств, препятствующих его использованию для записи и поиска информации: это неоднозначность и многозначность слов естественного языка. Точное значение многих слов можно определить только из контекста, в котором они употреблены (ударный инструмент, ударная доза и т.д.). Эти факторы не позволяют добиться точного соответствия между содержанием документа и средствами выражения этого содержания.

Трудности использования естественного языка в качестве ИПЯ усиливаются еще и тем, что в ИПС в качестве входных документов могут быть использованы не полные тексты, а рефераты, аннотации, библиографические описания, которые являются результатом свертывания содержания документов.

Основные требования, предъявляемые к ИПЯ:

· Однозначность;

· Достаточная семантическая сила

· Открытость (возможность корректировки языка)

Каждый ИПЯ имеет определенный словарный состав, представляющий совокупность лексических единиц (ЛЕ) – обозначения отдельного понятия, минимального и неделимого в этой функции. В качестве ЛЕ в ИПЯ используется лексика естественных языков – слова, словосочетания предметной рубрики, цифровые или буквенно-цифровые коды и т.д.

Важным моментом при индексировании является создание поискового образа документов (ПОД).Поисковый образ документа – основное смысловое содержание документа (а не вся информация, содержащаяся в нем), выраженное в терминах формализованного ИПЯ. ПОД ставится в однозначное соответствие этому документу, по нему производится отыскание документов в массиве документов.


Индексирование запроса также осуществляется путем перевода его содержания на ИПЯ. Таким образом, совокупность терминов индексирования, выражающих смысловое содержание запроса, называется поисковым образом запроса (ПОЗ ).

Поиск ведется по совокупности терминов индексирования. С целью повышения эффективности поиска информации по запросу ПОЗ может быть дополнен специальными указаниями о последовательности выполнения логических операций в процессе информационного поиска, которые называются поисковым предписанием.

Индексирование реализуется в следующих процессах: предметизации, систематизации и координатном индексировании.

Систематизация – вид индексирования, при котором содержание документа и (или) запроса выражено классификационными индексами, в соответствии с правилами определенного классификационного ИПЯ (КС). Такой принцип индексирования принято считать классификационным. Он обеспечивает возможность организации информационного поиска по иерархическому признаку. Специалисты, осуществляющие процесс систематизации в библиотеках и информационных центрах, называются систематизаторами.

Предметизация – вид индексирования, при котором содержание документа и (или) запроса выражено предметной рубрикой (ПР) в соответствии с правилами определенного предметизационного ИПЯ. Предметизационный принцип индексирования основан на использовании ЛЕ, которые входят в состав предметных рубрик, естественного языка (т.е. предметные рубрики, выражающие ПОД и ПОЗ составляются на основе естественного языка). Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку. Процессы предметизации осуществляются в библиотеках и информационных центрах предметизаторами.

Координатное индексирование – вид индексирования, при котором смысловое содержание документа и (или) запроса многоаспектно выражаются множеством ключевых слов или дескрипторов. ИПЯ, предназначенный для координатного индексирования, называется дескрипторным языком. Специалисты, осуществляющие координатное индексирование, называются индексаторами.

Термины «индексирование» и «индексатор» распространены в англоязычной литературе и широко применяются в международной и отечественной библиотечной практике.

Итак, в зависимости от вида индексирования, выделяются предметизационные, классификационные и дескрипторные ИПЯ. В их состав входит множество ЛЕ и грамматические (парадигматические и синтагматические) отношения между ними. ЛЕ – обозначение отдельного понятия, принятое в ИПЯ и неделимое в этой функции. ЛЕ могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка. Грамматические отношения позволяют организовать ЛЕ в систему.

Требования к ИПЯ :

· Полно и точно передавать содержание документа, отражаемого в данной ИПС;

· Обеспечить однозначное толкования терминов индексирования;

· Допускать многоаспектное индексирование;

· Допускать внесение изменений (дополнений, исправлений);

· Обеспечивать простоту и удобство индексирования, информационного поиска и ведение данной ИПС;

· Отражать современное состояние терминосистемы в данной области знания.

Правила использования ИПЯ фиксируют в справочно-методическом аппарате соответствующей ИПС.

Синтагма (греч. – вместе построенное, соединенное) – смысловое единство, которое, в определенном контексте выражается словом, группой слов или предложением. Отдельно взятые слова (например, « методика», «пособие», «индексирование») вступают в предложении в синтагматические отношения с помощью грамматических средств языка, таких, как склонение, спряжение, предлоги, союзы и пр.

4. ТЕМА: УНИФИКАЦИЯ И СТАНДАРТИЗАЦИЯ ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ.

Термин «индексирование» был введен в отечественную библиотечную теорию и практику в 1991 г. ГОСТом 7.59 – 90 «Индексирование документов. Общие требования к систематизации и предметизации». Стандарт был введен взамен 3-х предыдущих ГОСТов, разработанных в 80-е гг.:

1. ГОСТ 7.39 – 82 Систематизация и предметизация. Термины и определения.

2. ГОСТ 7.44 – 84 Систематизация документов. Общие требования.

3. ГОСТ 7.45 – 84 Предметизация документов. Общие требования.

Все эти стандарты были разработаны в рамках Системы Стандартов по информации, библиотечному и издательскому делу (СИБИД) для унификации (единообразия) процессов индексирования. Конечная цель стандартизации – повышение качества и эффективности работы – в данном случае – качества индексирования и тех элементов справочно-поискового аппарата, которые связаны с индексированием. Любой стандарт рождается в результате обобщения многолетней практики.

Библиотекари учились по учебникам, использовали практические пособия. Стандартов, регламентирующих технологические процессы, многие десятилетия не было. Появление централизованной каталогизации (например, печатной каталожной карточки), общая для всех или многих библиотек система классификации привели библиотекарей к пониманию целесообразности единых принципов и методов работы. На определенном этапе развития международных связей возникла необходимость максимального согласования отечественной практики каталогизации с зарубежной.

ГОСТ 7.59 – 90 был ориентирован на Международный стандарт МС ИСО 5963 «Документация – методы анализа документов, определения их тематики и выбора терминов индексирования» введенным Международной организацией по стандартизации (ИСО) в 1985 г.

Международный стандарт обладал рядом достоинств, которые учли отечественные разработчики:

· Самостоятельной частью стандарта были определения встречающихся в нем терминов (в отечественных стандартах они были выведены отдельным ГОСТом).

· В МС вводились понятия и определялись требования общего характера, охватывающие как систематизацию, так и предметизацию (в отечественных стандартах эти процессы рассматривались, как самостоятельные несвязанные между собой процессы, в отдельных ГОСТах).

Преимущества МС ИСО были очевидны: проще освоить любой процесс, тем более – совокупность сложных процессов, какими являются систематизация и предметизация, если выделить общее, единичное и особенное. Было решено объединить отечественные стандарты, максимально приблизить их к международному по структуре и содержанию. Кроме того, необходимо было разработать такой стандарт, применения которого не ограничивалось бы ведомственными рамками. Это означало, что предстояло решить ряд терминологических проблем, так как в те годы в стране параллельно функционировали две системы терминов – библиотечная и информационная. Было решено использовать в стандарте современную международную терминологию.

В период разработки ГОСТ 7.59 – 90 было проведено серьезное научное исследование по внедрению предыдущих стандартов. Так, ГОСТом 7.44 – 84 предусматривалось обязательное ведение во всех библиотеках алфавитно-предметного указателя (АПУ) к систематическому каталогу – не в качестве вспомогательного аппарата, а в роли составной части каталога. Поэтому предписывалось составление карточки АПУ в процессе обработки новых поступлений. Это требование основывалось на современных представлениях о том, что СК способен выполнять свои функции, если он обеспечен адекватным АПУ. Вводилось также обязательное редактирование классификационного решения и предметных рубрик АПУ. Соответственно были изменены общегосударственные нормы времени.

Обследование показало, что сотни библиотек выполняли эти процессы, но с введением ГОСТа они становились обязательными для всех библиотек.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями ГОСТ 7.59 – 2003 «Индексирование документов» состоит из 6 разделов. Структура ГОСТа следующая:

Через несколько лет был разработан и введен в действие другой стандарт, рассматривающий третий процесс индексирования – ГОСТ 7.66 – 92 «Индексирование документов. Общие требования к координатному индексированию», в основе которого также были правила МС ИСО 5963.

Прошло более десяти лет. За эти годы изменилась классификационная практика в стране. Во многих библиотеках появились автоматизированные системы и электронные каталоги. Потребовалось уточнить перечень и наименования классификационных систем. Существенно упорядочена терминология рассматриваемой предметной области. Были утверждены терминологические стандарты:

· ГОСТ 7.73 – 96 СИБИД. Поиск и распространение информации. Термины и определения.

· ГОСТ 7.74 – 96 СИБИД. Информационно-поисковые языки. Термины и определения.

· ГОСТ 7.76 – 96 СИБИД. Комплектование фонда документов. Библиографирование. Каталогизация. Термины и определения.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «СИБИД. Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями стандарт состоит из 6 разделов. Структура ГОСТа следующая:

1. Область применения

3. Определения

4. Общие положения

4.1 Сущность индексирования

4.2 Объект индексирования

4.3 Условия индексирования

4.4 Принципы индексирования

4.5 Виды ИПЯ и терминов индексирования

5. Требования к ИПЯ

5.1 Общие требования

5.2 Требования к классификационным ИПЯ

5.3 Требования к предметизационным ИПЯ

6. Технологические процессы и общие правила индексирования

6.1 Общие правила индексирования

6.2 Правила систематизации

6.3 правила предметизации.

ГОСТ 7.59 – 2003 устанавливает общие требования к индексированию: систематизации и предметизации документов и информационно-поисковым языкам, применяемым при индексировании. Стандарт предназначен для библиотек, органов научно-технической информации, книжных палат, редакций и издательств.

В журнале «Библиотека», начиная со второго номера за 2004 г. в рубрике «Библиотековедение» проводится «Школа индексирования» Э.Р. Сукиасяном, где публикуется материал, комментирующий содержание ГОСТов по индексированию.

Индексирование документов

(Систематизация, предметизация, координатное индексирование)

Индексирование – это выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке (ГОСТ 7.74-96). Выделяют три вида индексирования документов: классификационное (систематизация), предметное (предметизация), координатное (координатное индексирование).

Предметное индексирование – индексирование предметного содержания документа, выраженное языком предметных рубрик.

Классификационное индексирование – систематизация документов посредством понятий и кодов какой-либо классификационной системы.

Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Название поля

Указания

Классификационный индекс, определенный по таблицам ББК

Индексы другой классификации, используемой библиографирующим учреждением, например, ТБК или таблицы для краеведческих документов

Определяется по встроенной таблице Хавкиной. Автоматически проставляется после сохранения при наличии классификационного индекса

903: Шифр документа в БД

Идентификатор документа, строится автоматически

906: Систематический шифр

Расстановочный шифр, определяемый библиографирующим учреждением

60: Раздел знаний

Порядковый номер, включающий название отрасли в целом

Краткая формулировка темы на естественном языке

Предметный заголовок

Первый элемент многочленной предметной рубрики

1-й подзаголовок

Конкретизируют основные характеристики, состав, состояние, свойства и т. д. предмета, выраженного заголовком предметной рубрики

2-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные в 1-м подзаголовке предметной рубрики

Эффективность

3-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные во 2-м подзаголовке предметной рубрики

Математические расчеты

Географический подзаголовок

Отражают географический (территориальный) аспект рассмотрения предмета, показывают его связь с определенной территорией

Географический подзаголовок

Географический подзаголовок

Хронологический подзаголовок

Конкретизируют период времени или определенную дату. Обозначают арабскими цифрами, словесными формулировками эпохи и периодов

2005–2008 гг.

20 в., вторая половина

610: Ненормированные ключевые слова

Ключевое слово (словосочетание из текста документа), которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска. Целесообразно использовать КС для дополнительного раскрытия содержания документа на более глубоком уровне, т. е. использовать ПР для описания основных предметов документа и их аспектов, КС – для их дальнейшей детализации а также описания побочных тем документа. Выбираются непосредственно из текста документа и вводятся в данное поле, если они отсутствуют в заглавии и предметной рубрики

Писатели

Доплера эффект

Оздоровительные лагеря

600: Персоналия

(о нем) – имя лица

Предметная рубрика, заголовком которой является имя лица, если оно является предметом рассмотрения в документе. Содержит подполя, аналогичные полям 700 «Автор» и 701 «Другие индивидуальные авторы»

Фамилия, инициалы

Расширение инициалов

Татьяна Григорьевна

Неотъемлемая часть имени

Дополнения к именам, кроме дат

Д-р филол. наук (фольклорист), лауреат Гос. премии УР (2004)

Даты жизни

Разночтение фамилий

Персоналия (о нем)

Записывается в одну строчку полное наименование организации

Ижсталь, спортивная команда по хоккею

331: Аннотация

Краткая характеристика документа, поясняющая его содержание, назначение, форму, другие особенности

Процесс индексирования включает следующие этапы:

– выявление основных компонентов содержания документа,

– представление выявленных компонентов содержания средствами информационно-поисковых языков.

В процессе индексирования учитываются:

– информационные потребности пользователей,

– общая и частные методики индексирования.

Предметные рубрики (ПР), присвоенные документу, должны отражать содержание каталогизируемого документа с максимальной полнотой и точностью. Как правило, документу следует присваивать адекватные ПР, формулировка которых выражает объем понятия, наиболее точно соответствующий объему понятия о предмете документа. Обобщающие рубрики, которой выражает объем понятия более широкий, чем объем понятия о предмете документа, присваиваются в том случае, если нерационально использовать адекватные ПР.

Количество ПР, присвоенных документу, может быть различным и зависит от содержания каталогизируемого документа. Индексатор может присвоить документу одну или несколько ПР.

Новые предметные рубрики создаются при наличии документов соответствующей тематики. Для формулирования новых ПР следует использовать термины, соответствующие современному состоянию терминосистем. Использование терминологии должно основываться на

§ отраслевых энциклопедиях;

§ современных терминологических словарях;

§ каталогизируемых документах.

Правила формулирования предметной рубрики

1. В состав ПР могут входить все части речи , но основной языковой формой выражения понятий в ПР являются имена существительные и словосочетания на их основе. Наличие существительного в ПР обязательно.

2. Заголовок и подзаголовки предметных рубрик формулируются в именительном падеже . При инверсировании словосочетаний может применяться родительный падеж . Например: Ома закон.

3. Слова, используемые в предметной рубрики, формулируются во множественном числе . Исключение представляют термины, которые не употребляются во множественном числе. Например: Транспорт. Дыхание. Единственное число принято и для тех слов, которые во множественном числе обозначают другое понятие. Например: Театр – как вид искусства и Театры – как вид учреждения.

4. При употреблении предмета в полной и краткой форме предпочтение отдается полной форме. Исключение составляют слова у которых краткая форма вытеснила полное наименование предмета и сокращение вошло в терминологию. Например: КПСС, ЮНЕСКО.

5. При использовании в формулировке предметных рубрик многозначных слов и слов-омонимов в скобках указывать слова, уточняющие содержание понятия (реляторы). Например: Представления (гносеол.) и Представления (мероприятия).

6. Для того, чтобы в позиции ведущего слова предметной рубрики находилось слово, несущее максимальную смысловую нагрузки, возможно применение инверсии. Инверсия применяется в следующих случаях:

6.1. В отношении таких понятий, как теорема, теория, метод, задача, эффект, явление и т. д. Например: Вероятностей теория, Ферма теорема.

6.2. В отношении так называемых «нехарактерных» прилагательных. В этих случаях существительное является основным словом, определяющим сущность предмета, а прилагательное обозначает не основные свойства предметов, а их частные вторичные признаки

К таким признакам относятся:

– некоторые нехарактерные внешние признаки (величина, объем, форма, цвет и т. д.). Например: Строительные конструкции легкие.

– физические свойства и состояния (твердый, жидкий, сухой и т. д.). Например: Пищевые продукты жидкие.

– некоторые количественные, пространственные и временные определения и отношения. Например: Музыкальные фестивали международные.

Исключениями являются те случаи, когда нехарактерное само по себе прилагательное является частью общепринятого термина. Например: Внешняя торговля.

6.3. В случае, если имя собственное входит в географическое название.

Например: Лаптевых море.

Правила формулирования географического термина

1. При формулировании географического термина, вводимого в словарь, следует использовать исторически сложившиеся, более краткое общеупотребительное название государства. Развернутые официальные названия государств используются только при отражении юридической литературы. Например: Конституция – Российская Федерация.

Географическое наименование должно соответствовать историческому периоду, рассматриваемому в документе. Например:

Вятская губерния

Устинов, город.

2. Названия всех географических объектов должны иметь уточнения, к какой категории географических объектов они относятся (город, остров, река и т. д.). Эти уточнения записываются без сокращений через запятую и пробел после наименования объекта. Например.

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в эксабайтах, то есть в миллиардах миллиардов байтов. Конечно же, Яндекс не обходит весь интернет каждый раз, когда ему задают вопрос. Поисковая система, так сказать, делает домашнее задание.

Поиск в интернете состоит из двух частей. Первая - поисковик обходит интернет, создавая его слепок на своих серверах. Вторая - пользователь задаёт запрос и получает ответ с серверов поисковика.

Яндекс ищет по поисковому индексу - базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение - адрес страницы и место на ней. Индекс можно сравнить с предметным указателем в книге или адресным справочником. В отличие от обычного предметного указателя, индекс содержит не только термины, а вообще все слова. А в отличие от адресного справочника, у каждого слова-адресата есть не одно, а очень много «мест прописки».

Подготовка к ответам

Подготовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система - поисковый робот - регулярно обходит интернет, выкачивает документы и обрабатывает их. Создается своего рода слепок интернета, который хранится на серверах поисковика и обновляется при каждом новом обходе.

У Яндекса два поисковых робота - основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.

Когда при обходе робот видит на уже известных сайтах новые ссылки, он добавляет их в свой список, увеличивая количество индексируемых страниц. Впрочем, владелец сайта сам может помочь основному роботу Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы - через сервис Яндекс.Вебмастер.

Сначала программа-планировщик выстраивает маршрут - очередность обхода документов. При этом планировщик учитывает важные для поисковой системы характеристики сайтов, такие как, например, цитируемость или частота обновления документов. После создания маршрута планировщик отдаёт его другой части поискового робота - «пауку». Паук регулярно обходит документы по заданному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (html, pdf, swf и т.п.), кодировку и язык, а затем отправляет данные в хранилище.

Там программа разбирает документ по кирпичику: очищает от html-разметки, оставляя чистый текст, выделяет данные о местоположении каждого слова и добавляет их в индекс. Сам документ в исходном виде также остается в хранилище до следующего обхода. Благодаря этому пользователи могут найти в Яндексе и посмотреть документы, даже если сайт временно недоступен. Если сайт закрылся или документ был удалён или обновлён, Яндекс удалит копию со своих серверов или заменит её на новую.

Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу. Она обновляется постоянно, но, чтобы это обновление стало доступно пользователям, её нужно перенести на «базовый поиск». Базовый поиск - сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть - без спама, дубликатов сайтов (зеркал) и других ненужных документов.

Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» - раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск. Срочных документов не очень много по сравнению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при дневных нагрузках на сервера.