Лабораторная работа 1

Представление исходных данных

Цель работы: обучить студентов способам представления исходных данных, включающих три матрицы: «объект – признак», «признак – признак», «объект – объект». Показать возможности и научить пользоваться методом главных компонентов, который позволяет визуализировать многомерные данные в сокращенном признаковом пространстве.

Пакет: Statistica ; версия 6.0

1.Выбрать файл данных из пакета: последовательно нажав File Open , приходим к папке Examples , в которой из папки Datasets выбираем файл данных, озаглавленный Economic Indicators (Экономические индикаторы) . Здесь можно выбрать любой другой файл или ввести свои данные. В результате этих действий получаем матрицу «объект-признак», состоящую из 40 строк (cases ) и 4 столбцов (variables ), часть которой приведена в табл.1.

Таблица 1. Матрица «объект-признак»

2. Перейти к матрице «признак – признак», посредством следующих действий: в командной строке окна выбрать опцию Statistics , в которой указать позицию Basic Statistics / Tables (Основные статистики / таблицы) . В открывшемся окне отметить Correlation Matrices (Корреляционные матрицы) и нажать OK. Далее выбрать все переменные из первого списка. В итоге должна получиться матрица корреляций между признаками размерностью 4х4, вид которой показан в табл.2.

Таблица 2. Матрица «признак - признак»

Проанализировать полученные результаты.

3. Перейти к матрице «объект-объект» следующими операциями: в командной строке окна выбрать опцию Statistics , в которой указать позицию Multivariate Exploratory Techniques (Многомерные методы) и далее - Cluster Analysis - Joining (Кластерный анализ –объединение), после чего нажать ОК. В открывшемся окне кластерного анализа, показанном на рис.1, в опции С luster (Кластер) выбрать Cases (Строки) , поскольку группируются объекты и нажать ОК.

Рис.1. Окно кластерного анализа

В открывшемся окне Joining Results (Результатов объединения) выбрать Distance Matrix (Матрицу расстояний), которая и представляет собой матрицу «объект-объект», размерностью 40х40, часть которой приведена в табл.3.

Таблица 3. Матрица «объект-объект»

Пользуясь такой матрицей, можно построить дендрограмму объединения объектов, сходных или различных по четырем признакам. Для этого в окне Joining Results нажать клавишу Vertical icicle plot (Вертикальная дендрограмма) , в результате чего приходим к графику, показанному на рис.2.

Рис.2. Дендрограмма объектов-стран

Полученная дендрограмма указывает порядок и уровень объединения стран, сходных между собой, а также сформировавшиеся кластеры (группы) сходных стран. В данном примере образовано 4 кластера.

1.В командной строке окна выбрать опцию Statistics , в которой указать позицию Multivariate Exploratory Techniques и далее - Principal Components (Главные компоненты…). В окне главных компонентов, показанном на рис.3, выбрать все переменные для анализа (for analysis - all ), после чего нажать OK.

Рис.3. Окно главных компонентов

2. В открывшемся окне выбрать опцию Variables (Переменные) и просмотреть собственные числа, показанные в табл.4

Таблица 4. Собственные числа

Оценка потерь информации при переходе к только двум главным компонентам в данном примере составляет около 2,5%.

3. Выбрав в предыдущем окне опцию cases (строки) можно построить 2D график, нажав клавишу Plot cases factor coordinates (График строк в факторных координатах) . Результат показан на рис.4.

Рис.4. 40 стран в плоскости первых двух главных компонентов

Пакет: Statgraphics , версия 5.1

1. При запуске программы на появляющиеся последовательно два вопроса:

Какую задачу вы хотите выполнить? и Где ваши данные?

дать следующие ответы:

Analyze Existing Dates or Enter New Data (Анализ существующих данных или ввод новых данных) и – In an Existing Statgraphics Plus Data File (В существующем файле данных).

Затем выбрать для анализа файл Cardata (можно выбрать любой другой файл или ввести свои данные).

Появившаяся таблица представляет собой матрицу «объект-признак» (155 строк x 9 столбцов). Часть этой матрицы показана в табл.5.

Таблица 5. Матрица «объект-признак»

2. Перейти к матрице «признак – признак», выбрав в командной строке Describe (Описать), а затем последовательно Numeric Data Multiple Variable Analysis (Числовые данные – многомерный анализ) . В появившемся окне многомерного анализа в качестве данных необходимо использовать только количественные переменные, например, такие, как указано на рис.5. Для этого их надо поместить в поле Data . Кроме того, для лучшего просмотра результатов желательно сократить количество строк матрицы, ограничившись, например, 20, для чего в поле Select надо набрать такую строку: first (20).

Рис.5. Окно многомерного анализа

Результаты корреляционного анализа, т.е. матрица «признак-признак» показана в табл.6.

Таблица 6. Матрица «признак-признак»

Визуализация многомерных данных

Для решения такой задачи используется метод главных компонентов.

1. В командной строке выбрать Special (Специальные) , а затем Multivariate Methods - Principal Components (Многомерные методы – главные компоненты) .

2. В окне диалога входных данных выбрать переменные для анализа, как и в первом случае и ограничиться 20-30 объектами.

3. Выделить табличные опции: Analysis Summary , Component Weights , Data Table (Итоговый анализ, компонентные веса, таблица данных) и проанализировать их. Табл.7 представляет собой итоговый анализ.

Таблица 7. Итоговый анализ

Оценить потерю информации при выборе двух или трех главных компонентов. Для рассматриваемого случая при сохранении, соответственно, двух и трех главных компонентов потеря информации составляет примерно 13% и 3% .

3. Выделить графические опции (2 D Scatterplot , 3 D Scatterplot ) . Для чего вначале при нажатии правой клавиши мыши выделить опцию Analysis Options (Анализ опций) и в появившемся окне указать выделение по числу компонентов (Extract by Number of Components ) . Полученные графики приведены на рис.6 и 7.

Построить графики и промаркировать объекты.

Рис.6. Объекты в двумерной плоскости

Рис.7. Объекты в трехмерном пространстве

Задание

1. Провести такой анализ для других данных обоих пакетов.

2. Ввести данные по результатам сессии 9 студенческих групп, сдавших по 4 экзамена (табл.8). В табл.8 приведены средние баллы по каждому экзамену (ОИ - отечественная история; ЭТ – экономическая теория; МА – математический анализ; ЛА – линейная алгебра) для каждой из 9 групп. Представить результаты в виде главных компонентов в двумерной плоскости (группы - на плоскости).

Таблица8. Средние баллы каждой группы по 4 экзаменам

Смысл того или иного преобразования исходных данных заключается в изменении характера эмпирического распределения с тем, чтобы привести его в соответствие с целью исследования. Чаще всего преобразование используется для того, чтобы ослабить влияние экстремальных значений признаков на результаты расчетов, компенсировать влияние возможных ошибок в исходных данных, сделать сопоставимыми изменения значений признака на разных участках шкалы его значений.

Влияние характера распределения на результаты расчетов весьма велико, поэтому при постановке задачи следует особо рассмотреть вопрос о выборе вида преобразования для каждого признака в отдельности.

В социально-экономических исследованиях преобладают ряды, имеющие правую скошенность (т. е. резкий спад частот с ростом значения признака). При работе с такого рода распределениями часто бывает удобным преобразование к логарифмической шкале. Переход от Xj к ряду значений 1 gXj уменьшает интервалы по мере роста значений Такое преобразование широко используется, например, при изучении систем городов. Различия в значениях признаков для крупных городов обычно во много раз превышают соответствующие различия для большого числа средних и мелких городов. Преобразование к логарифмической шкале делает возможным исследование этих данных в одной задаче.

Как правило, признаки, отобранные исследователем для всестороннего описания того или иного явления, имеют различную размерность, а поэтому и- различную единицу масштаба. Чтобы сделать возможным сопоставление признаков и устранить влияние размерности, матрицу исходных данных обычно трансформируют (нормируют), вводя единый для всех признаков масштаб. Самый распространенный вид такой нормировки матрицы данных - приведение к стандартной форме, т. е. переход от значений х^ к

где Xij - значение /-го признака для і-то объекта; Xj - среднее арифметическое значение /-го признака; Sj - среднеквадратичное отклонение /-го признака (Sj2 - дисперсия /-го признака).

Ниже, рассматривая матрицу исходных данных, мы будем иметь в виду матрицу, заданную в стандартной форме, т. е. с элементами гц.

Возможны и другие типы трансформации матрицы. Например,

а _ Xii~X* h ХИ

Z maxfxij}- шіп{д:іі} ИЛИ Z ІЗ ~ И т. д.

Следует отличать преобразование отдельных рядов* с целью привести их в соответствие с. содержательной постановкой задачи от нормировки матрицы в целом. В отличие от подбора вида преобразования индивидуально по каждому признаку матрицу нормируют единым способом.

Следует упоімянуть еще и специальные преобразования, которые служат важным инструментом учета качественной априорной информации об исследуемых данных, непосредственно в исходной матрице данных не содержащейся. К таким преобразованиям относятся различные способы пополнения исходной матрицы данных производными параметрами. Часто в качестве таких новых параметров фигурируют отношения некоторых из исходных параметров, или отношения сумм одних из исходных параметров к суммам других. Нередко используются заранее изученные нелинейные преобразования исходных параметров.

Ниже, рассматривая нормированную матрицу данных (матрицу данных в стандартной форме), будем предполагать, что все специальные преобразования, включая преобразования данных к однородному виду с желаемыми формами распределения статистических рядов отдельных параметров, выполнены до ее нормирования.

Нормирование - последнее преобразование исходной матрицы, непосредственно предшествующее обработке методами факторного анализа.

Таким образом, матрица. исходных данных, подготовленная для факторного анализа, представляет собой совокупность значений п признаков для N объектов. Будем обозначать эту матрицу через ||z Особое внимание должно быть уделено вопросам нормировки исходных данных при решении задачи классификации объектов. В основе анализа вариации переменной лежит понятие среднего значения и отклонения от этой средней. Если в качестве переменной выступает признак, понятие среднего значения имеет четкий содержательный смысл и определяется в тех же единицах измерения, что и признак. На показатели ва риации признака его размерность не влияет. При классификации объектов переменной является объект (страна, город, предприятие и т. д.), не имеющий определенной единицы измерения, поэтому понятие среднего значения здесь в общем случае не поддается интерпретации. Как правило, вариация переменной - объекта- это вариация значений, принимаемых данным объектом по признакам разной размерности, поэтому показатели вариации определяются прежде всего изменением единиц измерения от одного признака к другому. Даже если все признаки выражены в одних и тех же ^ единицах измерения, например в денежном выражении (объем производства в млн. руб., объем розничной торговли в тыс. руб., средний заработок в руб. и т. д.), различия между показателями по масштабу величин проявляются при факторизации.

При факторизации матриц данных, сопоставляющих объекты по значению различных признаков (т. е. при решении задач классификации объектов, при Q-анали- зе), вместо коэффициента корреляции используются особые, специально разработанные коэффициенты , измеряющие степень сходства двух объектов не только по характеру соизменения их значений от признака к признаку, но и по уровню проявления одноименных признаков на этих объектах.

Этой мерой часто пользуются для сравнения объектов в различных методах автоматической классификации и распознавания образов .

Если указанные векторы нормированы так, что их, длины равны одной й той же стандартной величине, например единице:

2 {%ji ^кг)2 "

Наиболее простой мерой для определения сходства двух объектов является эвклидово расстояние r(Xj, Хъ) между векторами-столбцами Xj и хи, определяющими объекты:

то в качестве меры сходства таких нормированных векторов можно выбрать скалярное произведение (хи Xj) векторов хІ и Xj (более подробно различные меры сходства между объектами разбираются в гл. 6). 1.

Еще по теме НЕОБХОДИМЫЕ ПРЕОБРАЗОВАНИЯ МАТРИЦЫ ДАННЫХ:

  1. ФАКТОРНЫЙ АНАЛИЗ КАК ЧАСТЬ ОБЩИХ МЕТОДОВ ОБРАБОТКИ МАТРИЦ ДАННЫХ
  2. КРИЗИС АДМИНИСТРАТИВНО-ПЛАНОВОЙ СИСТЕМ И НЕОБХОДИМОСТЬ ПЕРЕХОДА К РЫНОЧНОЙ СИСТЕМЕ ЗАДАЧИ МАКРОЭКОНОМИЧЕСКОЙ СТАБИЛИЗАЦИИ ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ ИНСТИТУЦИОНАЛЬНЫЕ ПРЕОБРАЗОВАНИЯ ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ СОЦИАЛЬНАЯ ПОЛИТИКА ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ

Пусть имеется матрица данных . Если рассматривать строки данной матрицы какN векторовв пространствеn признаков, то естественно рассмотреть расстояние между двумя некоторыми векторами. Расстояния между всевозможными парами векторов дают матрицурасстояний типа объект - объект.

Напомним, что расстоянием между векторами в пространстве признаков называется некоторая положительная величина d , удовлетворяющая следующим трем аксиомам метрики:

Таким образом, матрица расстояний является симметричной с нулевой главной диагональю. Существуют различные метрики, но наиболее известной вообще и наиболее применяемой в обработке данных, в частности, является евклидова метрика

.

Часто используется линейная метрика вида

.

Применение линейной метрики оправдано, когда расстояние определяется как расстояние между домами в городе по кварталам, а не напрямик. Возможны и другие виды расстояний.

Часто рассматривается величина, обратная в некотором смысле расстоянию - близость. На практике часто используют функции близости вида

или ,

где определяет крутизну функции близости. Очевидно, что матрица близостей также является симметричной с единичной главной диагональю, так как.

Если рассмотреть признаки как n векторов вN -мерном пространстве объектов, то получим другое преобразование матрицы данных в матрицутипа признак - признак. Элементомтакой матрицы является значение расстояния или близости между признакамиX i иX j . Наиболее распространено представление в виде матрицы близостей между признаками, где под близостью понимается, например, корреляция соответствующих признаков.

Рис. 1.8. Диагонализация матрицы связей.

Легко заметить, что содержательные задачи на матрице данных интерпретируются на квадратных матрицахикак выделение блочно - диагональной структуры путем одновременной перегруппировки строк и столбцов. Тогда в каждом диагональном блоке группируются элементы, близкие в соответствующем пространстве и далекие от элементов других блоков. Такая задача группировки известна как задача диагонализации матрицы связей (рис. 1.8). Задача о диагонализации матрицы связей является наиболее общей для матриц связей произвольной природы. Особенно интересным является случай, когда матрица связей является корреляционной матрицей. Именно для этого случая разработаны и широко применяются на практике специальные алгоритмы, известные как алгоритмы экстремальной группировки признаков (параметров).

1.6. Измерение признаков

Мы рассмотрели представление данных в виде матрицы объект-признак. Зададимся вопросом от том, как была получена матрица данных. Очевидно, что данные были получены в ходе эксперимента. По экспериментом обычно понимают: анкетирование в социологии; измерение характеристик некоторого процесса в промышленности; измерения, проводимые на специальной установке в научном исследовании; выявление мнения экспертов по некоторой проблеме (экспертиза) и т.д.

Таким образом, данные получают в результате измерения некоторых свойств объектов. Для того, чтобы провести измерение, должны присутствовать собственно объекты с интересующими нас физическими свойствами и измерительное устройство. Заметим, что объекты обладают обычно самыми разными свойствами. В результате измерения фиксируются только некоторые свойства объекта и не учитываются многие другие. Следовательно, в матрице данных содержится заведомо неполная информация об объектах исследования.

Например, объекты могут оказаться эквивалентными по весу или длине, если значения таких характеристик присутствуют в матрице данных как значения соответствующих признаков. Те же объекты могут оказаться совершенно различными по цвету или форме. Но это различие никак не отразится на результатах обработки, если эти свойства не были представлены в матрице данных в виде значений соответствующих признаков.

Под измерительным устройством может пониматься не только некоторый прибор, но и человек, например, респондент, отвечающий на вопросы некоторой анкеты. Важно, чтобы измерительное устройство было способно изменить свое состояние в ответ на изменение состояния объекта. Очевидно, что измеряющая способность устройства зависит от того, насколько структурированы свойства объектов.

Простейшая структурированность свойств объектов позволяет судить о совпадении или различии состояний. Для представления такой довольно грубой структуры не обязательно использовать числа, так как словами можно легко обозначить факт простого совпадения состояний или их различия. Таким образом, язык можно использовать для выражения классификационных понятий, совокупность которых образует шкалу наименований или номинальную шкалу.

Во многих случаях структурированность свойств выражается естественным упорядочением различающихся состояний, например, по степени проявления некоторого свойства. В этих случаях язык можно использовать для формирования довольно грубой шкалы порядка. Например, различие может выражаться с помощью сравнительных понятий типа “горячий - теплый - холодный - ледяной”.

Очевидно, что очень важно точно описать структуру измеряемых свойств. Лингвистическое - с помощью языка - различение близких проявлений свойств и их упорядоченности часто слишком грубо, поэтому требуются более тонкие градации. Возможность более тонких измерений предоставляется при использовании действительных чисел вместо слов. Таким образом, признаки, значения которых измеряются в шкалах наименований или порядка, называются качественными. Признаки, значения которых измеряются в числовых, то есть количественных шкалах, называются количественными.

Свойства различных типов признаков и шкал изучаются в теории измерений, поэтому рассмотрим более подробно основные понятия теории измерений.

Определения

Пусть - множество объектов (ситуаций, прецедентов). Что есть объект, определяется спецификой предметной области. Например, в задачах медицинской диагностики объектами являются пациенты. В задаче кредитного скоринга объектами являются заёмщики. В задаче обнаружения спама объектами являются письма электронной почты.

Признак

Признаком (feature) называется результат измерения некоторой характеристики объекта. Формально, признак - это отображение , где - множество допустимых значений признака. В зависимости от природы этого множества признаки делятся на следующие типы:

В прикладных задачах встречаются и более сложные случаи. Значениями признаков могут быть числовые последовательности, изображения, тексты, функции, графы, результаты запросов к базе данных, и т. д.

Если все признаки имеют одинаковый тип, то исходные данные называются однородными , в противном случае - разнородными .

Признаковое описание объекта

Пусть имеется набор признаков . Вектор называется признаковым описанием объекта . В машинном обучении не делается различия между объектом и его признаковым описанием; полагается, что .

Матрица объектов–признаков

Совокупность признаковых описаний всех объектов обучающей выборки , записанную в виде таблицы размером , называют матрицей объектов–признаков , матрицей информации или просто матрицей исходных данных :

Строки матрицы - это признаковые описания обучающих объектов. Столбцы матрицы соотвествуют признакам.

Матрица «объекты × признаки» является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии . Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. Например, в задаче обнаружения спама объекты (письма) представляются текстами произвольной длины; к тому же , в письмо могут быть вложены файлы произвольного формата. В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот приём называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).

Таким образом, признаки - это характеристики объектов, которые либо измеряются непосредственно, либо вычисляются по «сырым» исходным данным. Любое отображение из множества можно рассматривать как признак.

В том числе , любой алгоритм регрессии или классификации, как отображение вида , также может рассматриваться в роли признака. Хотя это наблюдение тривиально, тем не менее, оно даёт ключ к построению суперпозиций или композиций алгоритмов . Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.

Первые три этапа процедуры кластеризации целесообразно рассмотреть совместно, так как и в теории, и, тем более, на практике они тесно взаимосвязаны между собой.

Получение исследователем выборки эмпирических данных, представляющих собой результаты измерения ряда признаков (например, характеристик психических процессов, состояний, свойств)

Выполненного у некоторой совокупности объектов (например, респондентов) , с необходимостью предполагает

наличие определенных измерительных методик. Согласно этим методикам результаты измерения могут быть представлены в измерительной шкале того или иного типа (номинальной, порядковой, интервальной, отношений). Как и во многих других случаях, предпочтительными с точки зрения математических оснований здесь являются интервальные шкалы и шкалы отношений, но, в то же время, в кластерном анализе, в отличие, например, от факторного, дискриминантного или дисперсионного анализа, требования к типу шкалы являются не такими жесткими: они, скорее, влияют на выбор конкретного метода кластеризации, а не на принципиальную допустимость кластеризации как таковой.

Нередко в психологических исследованиях результаты измерения различных признаков получают в шкалах разных типах: например, часть признаков измерена в интервальной шкале, а другая часть – в номинальной. В подобных случаях наличия смешанного типа шкал вопрос о выборе подходящего метода кластеризации должен решаться с большой осторожностью. Теоретические основы использования в кластерном анализе смешанных шкал исследованы недостаточно, поэтому велика опасность получения некорректных результатов. Наиболее надежными выходами из данной ситуации являются следующие возможности:

вполне корректным здесь будет применение метода, предназначенного для самого низшего из имеющихся типов шкал (в приведенном примере – для номинальной), однако для использования подобных методов иногда необходимо соответствующим образом преобразовывать результаты, полученные в шкалах более высокого уровня;

можно на последующих этапах процедуры кластеризации выбрать метрику (меру расстояния), специально предназначенную для шкал смешанного типа, однако набор таких метрик весьма ограничен и применяются они относительно редко;

и, наконец, наиболее простой путь – стремиться избегать использования шкал разного типа при получении данных, предназначенных для кластеризации.

Итак, все методы кластеризации теоретически можно было бы разделить на виды по типу измерительной шкалы, в которой получены эмпирические данные, различая, например, методы, предназначенные для интервальных, порядковых и номинальных шкал. Однако такое деление было бы преждевременным, так как сам по себе тип шкалы еще не определяет характера всей процедуры кластеризации в целом. Точнее, использованные при получении эмпирических данных измерительные шкалы влияют на выбор подходящего метода кластерного анализа не прямо, а косвенно – через выбор метрики необходимого для осуществления кластеризации метрического пространства, обсуждаемый ниже.

Полученные эмпирические данные должны быть представлены в виде матрицы «объект – признак» , то есть прямоугольной таблицы чисел, строки которой соответствуют измеренным объектам (например, респондентам), а столбцы – измеряемым признакам (например, характеристикам психических процессов, состояний или свойств). Исследователь сначала заносит полученные данные в таблицу «объект-признак», общий вид которой показан в табл. 11.2-1. Матрица «объект-признак» будет отличаться от таблицы «объект-признак» только тем, что в матрице явно не присутствуют заголовки строк и столбцов. Таким образом, таблице 11.2-1 будет соответствовать матрица «объект-признак» (в фундаментальном справочнике – матрица «объект-свойство»), имеющая размеры , (то есть, в общем случае, прямоугольная), обозначенная через и приведенная в формуле 11.2-1.

Таблица 11.2-1

Общий вид таблицы «объект-признак»

При построении матрицы «объект – признак» нередко возникает серьезная проблема, связанная с тем, что признаки рассматриваемых объектов могут оказаться измеренными в разномасштабных единицах измерения: в этом случае для адекватного определения расстояния между объектами целесообразно применить нормирование показателей, переводящее их в безразмерные величины (или к единому общему масштабу). Нормирование представляет собой переход к некоторому единообразному описанию для всех признаков, к введению новой условной единицы измерения, допускающей формальные сопоставления объектов. Наиболее распространенные способы нормирования показателей (переход от исходных значений a к нормированным значениям z ) представлены в табл. 11.2-2.