Глава 1 Основные понятия

В этой книге описываются методы обработки информации, представленной в различной форме - в виде «данных», «знаний», «структур» и т. д. В основе анализа всех этих видов информации лежат две процедуры: процедура обнаружения закономерностей, содержащихся в представленной информации, и процедура использования обнаруженных закономерностей для предсказания значения одной части информации по известным значениям другой ее части. Но прежде чем переходить к описанию этих процедур, нужно пояснить смысл употребляемых в книге терминов, в частности таких распространенных, как данные, знания, гипотеза, закономерность и т. п.

§ 1. Чем отличаются «данные» от «знаний»?

Исходная информация, которую нужно обрабатывать, чаще всего имеет вид числовых таблиц (матриц), состоящих из строк и столбцов. Строки отражают информацию об изучаемых объектах или явлениях, а столбцы отражают свойства (признаки, характеристики) этих объектов или явлений. Природа объектов может быть любой - это могут быть физические тела, живые организмы, сигналы, отдельные социальные процессы, заводы, виды спорта, месторождения и т. д. Понятно, что набор признаков, описывающих эти объекты, будет в каждом случае своим и должен отражать их наиболее важные свойства.

На пересечении -й строки и -го столбца указывается значение -го признака у -го объекта. Такой факт (например, что -й дом имеет высоту 12 м) считаем атомарной частью данных о конкретном -м объекте. Полные данные об -м объекте содержатся в совокупности всех элементов -й строки. Информация же о всех заданных свойствах всех изучаемых объектов, записанная в таблице «объект-свойство», и называется таблицей данных. Таким образом, данные представляют собой совокупность отдельных конкретных фактов.

Пусть в таблице данных представлены описания большого количества жилых домов, а нас интересуют только три свойства этих домов: из какого материала они построены, в какой цвет покрашены их стены и какой они высоты. После изучения таблицы данных мы можем обнаружить некоторые закономерности. Например, выясняется, что все панельные дома, окрашенные в серый цвет, имеют высоту от 15 до 25 м, панельные зеленые дома - от 8 до 16 м, а кирпичные, вне зависимости от цвета стен, имеют высоту меньше 10 м. Обозначим признак «вид строительного материала» через . Этот признак принимает два понятных значения: (панель) или (кирпич). Признак «цвет стен», обозначаемый через принимает значения: = серый, = зеленый или = любой. Признак «высота» может принимать любое числовое значение от нуля до 30 м. Тогда обнаруженные закономерности можно сжато записать в виде таких логических высказываний:

Эти высказывания не содержат информации в виде конкретных характеристик каждого отдельного дома, но зато отражают наши знания о некоторых обобщенных характеристиках всех домов, описанных в таблице данных.

Так выглядит переход от данных к знаниям. Знания представляют собой краткое обобщенное описание основного содержания информации, представленной в данных. Знания могут быть представлены в различной форме. В дальнейшем мы будем пользоваться приведенной выше формой в виде логических правил типа «если... то...».

Знание и информация – важные составляющие нашей жизни. Полностью отождествлять между собой эти термины нельзя. Рассмотрим, что подразумевается под каждым из них и чем отличается знание от информации.

Определение

Знание – систематизированные достоверные представления о предметах и явлениях действительности. Знание применяется людьми для рациональной организации своей деятельности и решения возникающих задач.

Информация – сведения о понятиях, фактах, событиях и т. д., в передаче и принятии которых могут участвовать люди или специальные устройства. Животные сообщают друг другу особую информацию с помощью сигналов. Существует также генетическая информация, передаваемая одним организмом другому.

Сравнение

Коренным фактором, позволяющим выявить отличие знания от информации, является то, что знание приобретается только через субъективное осмысление. Информация же независима и не всегда доходит до стадии осознания.

В познавательном процессе знание и информация находятся на разных ступенях. Сначала происходит восприятие информации, транслируемой определенным источником: книгой, интернетом, преподавателем… После осмысления информация результируется в знание. Обладающий знанием способен выполнять роль нового источника информации.

Таким образом, транслируется и принимается только информация, но знание передать невозможно. Для того чтобы стать обладателем знания, необходимо воспринять нужную информацию и провести ее через собственное сознание.

Например, учитель математики обладает знаниями в области своего предмета. Объясняя классу способ решения задачи, он не передает непосредственно знания, а является источником информации. У учеников смогут сформироваться знания, только когда они не просто прослушают учителя, но и поймут, осознают то, что он пытается им донести.

Рассматривая, в чем разница между знанием и информацией, следует отметить, что избытка знания быть не может. Ведь человек стремится осмыслить лишь то, что ему действительно важно и необходимо. Информация же может поступать в избытке, люди нередко чувствуют перенасыщение ею. Из всего объема информации для получения знаний используется малая часть.

Именно знания являются критерием образованности человека. Ведь недостаточно только ознакомиться с информацией – необходимо проделать и немалый умственный труд.

Характерным признаком интеллектуальных систем является наличие знаний, необходимых для решения задач конкретной предметной области.

Введение в инженерию знаний

Введение в инженерию знаний

2. Знания как особая форма информации. Отличие знаний от данных.

5. Подразделение знаний. Декларативная и процедурная формы представления знаний

6. Свойства знаний

7. Интенсионал и экстенсионал понятия.

8. Парадигмы представления знаний. Классификация моделей представления знаний

Теоретическими и практическими вопросами представления и обработки знаний в компьютерных системах активно занимаются исследователи, работающие в области инженерии знаний. Это понятие в 1977 г. ввел Э. Фейгенбаум, который писал: «По опыту нам известно, что большая часть знаний в конкретной предметной области остается личной собственностью эксперта. И это происходит не потому, что он не хочет разглашать своих секретов, а потому, что он не в состоянии сделать этого - ведь эксперт знает гораздо больше, чем сам осознает». Инженерия знаний - направление ИИ, которое связано с развитием теоретических и прикладных аспектов приобретения и формализации знаний специалистов, с проектированием и разработкой баз знаний.

Данными называют информацию фактического характера, описывающую объекты, процессы и явления предметной области, а также их свойства. В процессах компьютерной обработки данные проходят следующие этапы преобразований:

исходная форма существования данных (результаты наблюдений и измерений, таблицы, справочники, диаграммы, графикии т.д.);

представление на специальных языках описания данных предназначенных для ввода и обработки исходных данных в ЭВМ;

базы данных на машинных носителях информации.

Знания являются более сложной категорией информации по сравнению с данными. Знания описывают не только отдельные факты, но и взаимосвязи между ними, поэтому знания иногда называют структурированными данными. Знания могут быть получены на основе обработки эмпирических данных. Они представляют собой результат мыслительной деятельности человека, направленной на обобщение его опыта, полученного в результате практической деятельности.

3. Способы наделения знаниями программных систем

Для того чтобы наделить ИИС знаниями, их необходимо представить в определенной форме. Существуют два основных способа наделения знаниями программных систем .

Первый - поместить знания в программу, написанную на обычном языке программирования. Такая система будет представлять собой единый программный код, в котором знания не вынесены в отдельную категорию. Несмотря на то, что основная задача будет решена, в этом случае трудно оценить роль знаний и понять, каким образом они используются в процессе решения задач. Нелегким делом являются модификация и сопровождение подобных программ, а проблема пополнения знаний может стать неразрешимой.



Второй способ базируется на концепции баз данных и заключается в вынесении знаний в отдельную категорию, т.е. знания представляются в определенном формате и помещаются в БЗ. База знаний легко пополняется и модифицируется. Она является автономной частью интеллектуальной системы, хотя механизм логического вывода, реализованный в логическом блоке, а также средства ведения диалога накладывают определенные ограничения на структуру БЗ и операции с нею. В современных ИИС принят этот способ.

Задача представления знаний в информационных системах

Для того, чтобы поместить знания в компьютер, их необходимо представить определенными структурами данных, соответствующих выбранной среде разработки интеллектуальной системы. Следовательно, при разработке ИИС сначала осуществляются накопление и представление знаний, причем на этом этапе обязательно участие человека, а затем знания представляются определенными структурами данных, удобными для хранения и обработки в ЭВМ.

Знания в ИИС существуют в следующих формах:

исходные знания (правила, выведенные на основе практического опыта, математические и эмпирические зависимости, отражающие взаимные связи между фактами; закономерности и тенденции, описывающие изменение фактов с течением времени; функции, диаграммы, графы и т. д.);

описание исходных знаний средствами выбранной модели представления знаний (множество логических формул или продукционных правил, семантическая сеть, иерархии фреймов и т. п.);

представление знаний структурами данных, которые предназначены для хранения и обработки в ЭВМ;

базы знаний на машинных носителях информации.

4. Определение понятия знание

Из толкового словаря С. И. Ожегова: 1) «Знание - постижение действительности сознанием, наука»; 2) «Знание - это совокупность сведений, познаний в какой-либо области».

Из японского толкового словаря: «Знания - это результат, полученный познанием», или, более подробно, «система суждений с принципиальной и единой организацией, основанная на объективной закономерности».

Исследователями в области ИИ даются более конкретные определения знаний.

«Знания - это закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области

«Знания - это хорошо структурированные данные или данные о данных, или метаданные»

«Знания - формализованная информация, на которую ссылаются или используют в процессе логического вывода»

Знание о предметной области - это описание объектов, их окружения, необходимых явлений, фактов, а также отношений между ними.

5. Подразделение знаний

Существует множество классификаций знаний. Вместе с тем, с помощью классификаций, как правило, систематизируют знания конкретных предметных областей. На абстрактном уровне рассмотрения можно говорить о признаках, по которым подразделяются знания, а не о классификациях.

По своей природе знания можно делятся на декларативные и процедурные.

Декларативны е знания представляют собой описания фактов и явлений, фиксируют наличие или отсутствие таких фактов, а также включают описания основных связей и закономерностей, в которые эти факты и явления входят.

Процедурные знания - это описания действий, которые возможны при манипулировании фактами и явлениями для достижения намеченных целей.

По способу приобретения знания можно разделить на факты и эвристики (правила, которые позволяют сделать выбор при отсутствии точных теоретических обоснований). Первая категория знаний обычно указывает на хорошо известные в данной предметной области обстоятельства. Вторая категория знаний основана на собственном опыте эксперта, работающего в конкретной предметной области, накопленном в результате многолетней практики.

По типу представления знания делятся на факты и правила . Факты - это знания типа «А - это А», такие знания характерны для баз данных и сетевых моделей. Правила, или продукции - это знания типа «ЕСЛИ А, ТО В».

Фактические и стратегические знания . Фактические знания - основные закономерности предметной области, позволяющие решать конкретные производственные, научные и другие задачи, то есть факты, понятия, взаимосвязи, оценки, правила, эвристики. Стратегические знания - стратегии принятия решений в предметной области;

Кроме фактов и правил существуют еще метазнания - знания о знаниях. Они необходимы для управления БЗ и для эффективной организации процедур логического вывода. Классическими примерами метазнаний являются народные пословицы и поговорки, каждая из которых характеризует знания (рекомендации по деятельности) в широком классе конкретных ситуаций (например, пословица "Семь раз отмерь, один - отрежь" применима не только в среде хирургов или портных. «Не зная броду не суйся в воду»).

Глубинные и поверхностные знания . В глубинных знаниях отражается понимание структуры предметной области, назначение и взаимосвязь отдельных понятий (глубинные знания в фундаментальных науках - это законы и теоретические основания). Глубинные знания образуются как результат обобщения первичных понятий в некоторые абстрактные структуры, которые могут и не иметь вербального описания Глубинные знания обладают такими важными особенностями, как гибкость и аддитивность (лат. additio - прибавление; получаемый путем сложенияПоверхностные знания представляют собой совокупность эмпирических ассоциаций и отношений между понятиями предметной области для стандартных рассуждений и ситуаций

Жесткие и мягкие знания . Жесткие знания позволяют получать однозначные рекомендации при заданных начальных условиях. Мягкие знания допускают множественные, «размытые» решения и различные варианты рекомендаций.

В практике разработки СИИ обозначилась тенденция перехода от использования поверхностных знаний к глубинным и мягким. Использование глубинных и мягких знаний позволяет создать БЗ большой мощности.).

Все знают, что такое базы данных и как ими пользоваться. Созданы и постоянно расширяются самые разнообразные базы данных по любой тематике, от научной периодики до художественной литературы, от произведений искусства до справочников телефонных номеров.

Но это необходимое образование постепенно начинает терять свою былую значимость. Особенно это касается научной периодики. Главная проблема научных баз данных - это их избыточность. Любой запрос, выполненный по ключевым поисковым словам, выдаст столь огромное количество ссылок, что их просмотр становится отдельной работой. При этом многие материалы различаются столь незначительно, что трудно оценить полезность одного из них на фоне другого.

Вариантом выхода из этой ситуации является создание баз знаний или баз решений: систематезированной информации, которая обрабатывается по другим поисковым алгоритмам.

В чём главное отличие баз данных и баз знаний? В базе данных идёт поиск по ключевому слову, условно говоря - это ответ на вопрос “что?”. Например, задаём поисковый запрос “нанотрубки”. База данных выдаст всё, что касается этого запроса: и синтез, и окисление, и биоразложение, и спектральные характеристики. Число ссылок перевалит за тысячи. Можно задавать поиск по двум, трём и более ключевым словам. Это сократит вал ссылок, но может отсечь нужные. В базе знаний поиск проводится по нескольким вопросам, например: “Что?”, “Чем?”, “Как?”. При этом появляется следующий момент. В настоящее время написаны миллионы статей и патентов по всем областям знания. Но решений, отвечающих принципу базы знаний, только порядка 30 - 35 тысяч. Прирост числа решений, в отличие от прироста вала статей, протекает медленно. Подавляющее большинство статей - это лишь небольшие нюансы какого-либо решения. Например: закалка металла. Решение - что: металл, чем: охлаждающий материал, как: быстро. Это решение охватывает и все металлы и сплавы, и все типы закалочных жидкостей или газов, и все способы подачи хладагента. Далее из этого запроса может быть сформирована база данных, например, по типам хладагента (вода, масло, рассолы), вторая - по способам подачи материала (насосы, окунание детали, распыление раствора), третья - по маркам сталей. Может быть сформирована дополнительная база ссылок по второстепенным процессам: окислению поверхности металла, удалению нагара после закалки, специальным методам закалки. Поиск по базе знаний отличается от поиска по базе данных, для этого используются так называемые “ресурсы”. Ресурсы в понимании баз знаний - это материалы, катализаторы, поля и воздействия, приводящие к получению решения. Базы знаний могут обрабатывать также поисковые вопросы. Например, запрос “синтезировать сложный эфир” заданный в базу данных будет истолкован только по ключевому слову “сложный эфир”. В базе знаний можно также задать термины “синтез”, “распад”, “биоразложение” и семантические алгоритмы поиска по глаголам.

Теперь немного о минусах этой системы. Базы данных - это устоявшиеся правила формирования ключевых слов, единые (с небольшими вариациями) для всех научных изданий и унифицированные с алгоритмами поиска. Базы знаний необходимо будет создавать с нуля. Это немалая работа, ведь для того, чтобы вычленить ресурсы необходимо полное понимание процессов описанных в статье или патенте, что сильно усложняется при обработке мультидисциплинарных статей и защищённых от реинжиниринга патентов. Второй минус - базы знаний сейчас создаются “под инженеров”, то есть в основном прикладной направленности. Фундаментальные исследования, таким образом, в них не попадают.

Теперь немного о плюсах. Создание базы знаний - это великолепный процесс обучения. “Побочным продуктом” является значительное повышение уровня знаний разработчиков и получение высококлассных специалистов, умеющих решать поставленныезадачи. Второй плюс - при определённом алгоритме формирования запросов база знаний может быть источником новых решений, не описанных и ещё не созданных. Например, при запросе по закалке металла база знаний может выдать список ресурсов, которые обладают необходимыми свойствами (температура, текучесть) и подтолкнуть к созданию новых решений, таких как закалка в расплавах полимеров, закалка с одновременным окислением поверхности, точечная и неравномерная закалка. Третий плюс. Вероятно, многие даже не задумывались, что суть процессов изложенных в научной статье или патенте формулируется не более чем в сотне слов. В то же время, объём статей исчисляется минимум несколькими страницами, а патентов - до нескольких сотен страниц. Переработка материала под систему базы знаний позволит в дальнейшем не тратить время на чтение малозначащих подробностей и отличий от аналогов, непременно описываемых в исходных материалах.

Небольшой итог. Базы знаний исключительно полезны для прикладных разработок, особенно на передовых рубежах науки. Они позволяют получать готовые решения для той или иной задачи. Их создание в то же время, сильно повышает профессиональный уровень разработчиков и позволяет получать отличных специалистов.

Данные и знания. Основные определения.

Информация, с которой имеют дело ЭВМ, разделяется на процедурную и декларативную. Процедурная информация овеществлена в программах, которые выполняются в процессе решения задач, декларативная информация - в данных, с которыми эти программы работают.

Стандартной формой представления информации в ЭВМ является машинное слово, состоящее из определенного для данного типа ЭВМ числа двоичных разрядов - битов. Машинное слово для представления данных и машинное слово для представления команд, образующих программу, могут иметь одинаковое или разное число разрядов. Одинаковое число разрядов в машинных словах для команд и данных позволяет рассматривать их в ЭВМ в качестве одинаковых информационных единиц и выполнять операции над командами, как над данными. Содержимое памяти образует информационную базу. Машинное слово является основной характеристикой информационной базы, т.к. его длина такова, что каждое машинное слово хранится в одной стандартной ячейке памяти, снабженной индивидуальным именем - адресом ячейки. По этому имени происходит извлечение информационных единиц из памяти ЭВМ и записи их в нее. В языках программирования высокого уровня используются абстрактные типы данных, структура которых задается программистом.

Появление баз данных (БД) знаменовало собой еще один шаг на пути организации работы с декларативной информацией. В базах данных могут одновременно храниться большие объемы информации, а специальные средства, образующие систему управления базами данных (СУБД), позволяют эффективно манипулировать с данными, при необходимости извлекать их из базы данных и записывать их в нужном порядке в базу.

По мере развития исследований в области ИС возникла концепция знаний, которые объединили в себе многие черты процедурной и декларативной информации. В ЭВМ знания так же, как и данные, отображаются в знаковой форме - в виде формул, текста, файлов, информационных массивов и т.п. Поэтому можно сказать, что знания - это особым образом организованные данные. В системах ИИ знания являются основным объектом формирования, обработки и исследования. База знаний, наравне с базой данных, - необходимая составляющая программного комплекса ИИ. Машины, реализующие алгоритмы ИИ, называются машинами, основанными на знаниях, а подраздел теории ИИ, связанный с построением экспертных систем, - инженерией знаний.



Отличия между данными и знаниями:

1. внутренняя интерпретируемость знаний (например: данные – 243849..., знания – предложения естественного языка).

2. активность знаний. Если есть знания, то появления новых знаний может привести к изменению старых знаний и появлению новых.

3. связность знаний. Знания не интересны сами по себе, они интересны в совокупности (система знаний).

4. знания динамичны, а данные как правило статичны.

Интенсиональные знания определяются через понятие более высокого уровня с указанием специфических свойств. Экстенсиональные знания определяются через понятия более низкого уровня, обычно путем их простого перечисления. Как правило экстенсионалы хранятся в базах данных, а интенсионалы в базах знаний. Знания по способу представления различают на декларативные (описывается информация) и процедуральные (записаны в алгоритме). Основное направление движения в области представления знаний – большее использование декларативных знаний.

Классификации знаний и их моделей

Существует много способов классифицировать знания. Остановимся на классификации по носителю знаний. Знания делятся на:

1. Формализованные

· справочные руководства,

· энциклопедии,

· знания в корпоративных информационных системах

2. Персональные

· навыки, связанные с ремеслом,

· спортивные навыки,

· способы мышления, анализа,

· способы выполнения работ

Формализованные знания обычно уже размещены на материальных носителях - книги, брошюры, сайты интернет/интранет, файлы данных, КИС (ERP). Эти способы организации знаний очень хороши и проверены временем. Мы вряд ли сможем их существенно улучшить, чтобы это отразилось на производительности или других экономических показателях вашей организации.

Персональные знания, напротив, обычно содержатся только в умах их носителей. Для того, чтобы сделать их достоянием организации, необходимо, чтобы знания активно передавались между сотрудниками. Для этого издавна существует наставничество, системы внутреннего корпоративного обучения.

Очень многие из персональных знаний могут быть формализованы. Это касается прежде всего методов и способов выполнения работ, принятых и оптимальных в вашей организации. В зависимости от этапа развития организации, методы выполнения работ развиваются от творческих, созданных на рабочих местах методом проб и ошибок до лучших практик в индустрии, закрепленных в документации о бизнес-процессе, ERP-системе и в политике организации.

Определения фрейма. Фрейм как список свойств и как сеть. Иерархия и наследование свойств

Фрейм – это некоторая структура представления знаний, которая при ее заполнении соответствующими значениями превращается в описание конкретного фактора, события или ситуации. Фрейм - это минимальное возможное описание сущности какого-либо явления, события, ситуации, процесса или объекта. Минимальность означает, что при дальнейшем упрощении описания теряется его полнота, она перестает определять ту единицу знаний, для которой предназначено. Фрейм имеет определенную структуру, состоящую из множества элементов – слотов. Каждый слот в свою очередь, представляется определенной структурой данных, процедурой, или может быть связан с другим фреймом. Структуру фрейма можно представить так:

ИМЯ ФРЕЙМА: (имя 1-го слота: значение 1-го слота), (имя 2-го слота: значение 2-го слота), … (имя N-го слота: значение N-гo слота).

Ту же запись представим в виде таблицы, дополнив двумя столбцами.

В качестве значения слота может выступать имя другого фрейма; так образуют сети фреймов, состоящие из выделенных вершин и связей. Верхний уровень фрейма представляет соответствующие понятия, а последующие уровни терминальные слоты, которые содержат конкретные значения. Иерархия объектов реализуется через аппарат исследования свойств, когда классы объектов определенного уровня наследуют строения классов фреймов более высокого уровня. Если объект, кот. описывается некоторой группой фреймов находится в концептуальной связи с верхним и нижним уровнями фреймов, то соотв. ему фреймы конструируются с учетом и иерархических отношений и при этом наследование свойств осущ. через слоты или фреймы с одинаковым именем.