Метод агрегированных данных. SQL в хранилищах данных: агрегация и суммирование

Aggregate Data aggregates groups of cases in the active dataset into single cases and creates a new, aggregated file or creates new variables in the active dataset that contain aggregated data. Cases are aggregated based on the value of zero or more break (grouping) variables. If no break variables are specified, then the entire dataset is a single break group.

If you create a new, aggregated data file, the new data file contains one case for each group defined by the break variables. For example, if there is one break variable with two values, the new data file will contain only two cases. If no break variable is specified, the new data file will contain one case.
If you add aggregate variables to the active dataset, the data file itself is not aggregated. Each case with the same value(s) of the break variable(s) receives the same values for the new aggregate variables. For example, if gender is the only break variable, all males would receive the same value for a new aggregate variable that represents average age. If no break variable is specified, all cases would receive the same value for a new aggregate variable that represents average age.

Break Variable(s). Cases are grouped together based on the values of the break variables. Each unique combination of break variable values defines a group. When creating a new, aggregated data file, all break variables are saved in the new file with their existing names and dictionary information. The break variable, if specified, can be either numeric or string.

Aggregated Variables. Source variables are used with aggregate functions to create new aggregate variables. The aggregate variable name is followed by an optional variable label, the name of the aggregate function, and the source variable name in parentheses.

You can override the default aggregate variable names with new variable names, provide descriptive variable labels, and change the functions used to compute the aggregated data values. You can also create a variable that contains the number of cases in each break group.

To Aggregate a Data File

From the menus choose:
Data > Aggregate...
Optionally select break variables that define how cases are grouped to create aggregated data. If no break variables are specified, then the entire dataset is a single break group.
Select one or more aggregate variables.
Select an aggregate function for each aggregate variable.

Optionally, you can override the default aggregate variable names with new variable names, provide descriptive variable labels, and create a variable that contains the number of cases in each break group.

Saving Aggregated Results

You can add aggregate variables to the active dataset or create a new, aggregated data file.

Add aggregated variables to active dataset . New variables based on aggregate functions are added to the active dataset. The data file itself is not aggregated. Each case with the same value(s) of the break variable(s) receives the same values for the new aggregate variables.
Create a new dataset containing only the aggregated variables . Saves aggregated data to a new dataset in the current session. The dataset includes the break variables that define the aggregated cases and all aggregate variables defined by aggregate functions. The active dataset is unaffected.
Write a new data file containing only the aggregated variables . Saves aggregated data to an external data file. The file includes the break variables that define the aggregated cases and all aggregate variables defined by aggregate functions. The active dataset is unaffected.

Sorting Options for Large Data Files

For very large data files, it may be more efficient to aggregate presorted data.

File is already sorted on break variable(s) . If the data have already been sorted by values of the break variables, this option enables the procedure to run more quickly and use less memory. Use this option with caution.

Data must by sorted by values of the break variables in the same order as the break variables specified for the Aggregate Data procedure.
If you are adding variables to the active dataset, select this option only if the data are sorted by ascending values of the break variables.

Sort file before aggregating . In very rare instances with large data files, you may find it necessary to sort the data file by values of the break variables prior to aggregating. This option is not recommended unless you encounter memory or performance problems.

Агрегирование данных состоит в формировании промежуточных итогов , а также создании сводных и консолидированных таблиц .)

Агрегирование данных выполняется в тех таблицах, в которых имеются поля с повторяющимися по смыслу значениями. Наиболее типичными задачами подобного типа являются задачи получения различного вида статистических итогов. Поясним подробнее назначение каждой из отмеченных процедур.

· Промежуточные итоги . Эта опция позволят сформировать промежуточные итоговые результаты определенного вида (сумма, среднее значение, максимум, минимум, количество значащих записей и т.д.) для выделенного ряда данных (группы записей). При формировании промежуточных итогов требуется предварительно произвести сортировку таблицы по полям группировки записей. К полученным промежуточным итогам можно также добавить новые итоги с сохранением предыдущих итогов.

· Сводные таблицы. Этот инструмент табличного процессора обеспечивает формирование сводной (агрегированной) информации и представление табличных данных в структурированном виде (в определенной внешней форме с упорядочением местоположения фрагментов), а также построение связанной со сводной таблицей сводной диаграммы. Распределение информации в сводной таблице можно задать, указывая какие поля и элементы должны в ней содержаться. Поле - это некоторая общая категория (поименованный столбец), а элемент - это отдельное значение, содержащееся внутри некоторой категории значений. Источником данных для сводной таблицы может быть электронная таблица, данные из внешних баз и т.д. Помимо «базовых» полей из источников данных, сводная таблица допускает формирование вычисляемых полей в области данных, а также вычисляемых элементов для полей группировки. Элементы полей группирования далее могут объединяться в группы, для которых можно указать тип итоговой функции.

Примечание.

Сводная таблица - это средство только для отображения информации и данные, расположенные в теле сводной таблицы, нельзя изменить. Чтобы малейшие изменения данных в источниках информации оперативно отражались в сводной таблице как в ее ячейках, напрямую связанных с источниками данных, так и ячейках, отображающих итоговые расчеты, необходимо установить автоматический режим обновления сводной таблицы.

· Консолидация данных . Это особый способ вычисления итогов для диапазона ячеек. Консолидируемые данные могут находится на одном и том же или нескольких листах рабочей книги, а также на листах нескольких разных рабочих книг. При консолидации доступны все типичные функции статистических итогов (сумма, среднее значение, максимум, минимум и т.п.). Результат консолидации записывается на лист рабочей книги, причем на одном и том же листе могут быть записаны несколько результатов консолидации с одними и теми же исходными диапазонами ячеек с данными, но с разными итоговыми функциями. Однако, если исходные диапазоны ячеек отличаются, результаты консолидации должны располагаться на разных листах. Различают следующие виды консолидации:

· Консолидация по расположению ячеек - состав и порядок следования консолидируемых данных во всех диапазонах постоянный, т.е. данных исходных областей находятся в одном и том же месте и размещены в одном и том же порядке. Этот способ используется для консолидации данных нескольких рабочих листов, созданных на основе одного шаблона.

· Консолидация по категориям - когда данные исходных областей не упорядочены, но имеют одни и те же заголовки столбцов и строк. Этот способ применяется при консолидации данных рабочих листов, имеющих разную структуру, но одинаковые заголовки.

· Консолидация с помощью трехмерных ссылок - исходные области располагаются на любом листе, в любой книге, на других открытых листах или книгах, а также зачастую на листах других табличных процессоров. Этот способ является наиболее предпочтительным, т.к. он снимает ограничения на расположение данных в исходных областях.

Примечание.

После создания консолидированной итоговой таблицы можно добавлять, удалять или изменять исходные области данных . Кроме этого, можно создать связи итоговой таблицы с исходными данными, с тем, чтобы данные области назначения итоговой таблицы автоматически обновлялись при изменении данных в исходных областях.

Сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований, статистического анализа и изучения здоровья населения..."

Источник:

"ИНФОРМАТИЗАЦИЯ ЗДОРОВЬЯ. ТРЕБОВАНИЯ К АРХИТЕКТУРЕ ЭЛЕКТРОННОГО УЧЕТА ЗДОРОВЬЯ. ГОСТ Р ИСО/ТС 18308-2008"

(утв. Приказом Ростехрегулирования от 11.03.2008 N 44-ст)

Официальная терминология . Академик.ру . 2012 .

Смотреть что такое "Агрегирование данных" в других словарях:

агрегирование данных - Процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований, статистического анализа и… …

агрегирование данных - (data aggregation): Процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований,… …

агрегирование - 3.2 агрегирование (aggregation): Процесс или результат объединения конструкций языка моделирования и других компонентов модели в единое целое. Примечание Конструкции языка моделирования и другие компоненты модели могут быть агрегированы в более… … Словарь-справочник терминов нормативно-технической документации

агрегирование - Объединение, суммирование экономических показателей по какому либо признаку для получения обобщенных совокупных показателей. При агрегировании необходим учет структуры объединяемых элементов, в ряде случаев требуется анализ возможности и… … Справочник технического переводчика

Агрегирование - объединение, укрупнение показателей по какому либо признаку для получения обобщенных, совокупных показателей — агрегатов. С математической точки зрения А. рассматривается как преобразование модели в модель … Экономико-математический словарь

агрегирование информации - Преобразование детализированной информации в пакеты (агрегаты) данных, что позволяет анализировать экономику в терминах небольшого числа соответствующих агрегированных переменных, которые включают капитал, труд, товары (промежуточные и конечные) … Справочник технического переводчика

агрегирование каналов - Метод повышения пропускной способности за счет объединения нескольких параллельных каналов в один высокоскоростной поток данных. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М.… … Справочник технического переводчика - соединение отдельных единиц или данных в единый показатель. Например, все цены индивидуальных товаров и услуг образуют один общий уровень цен или все единицы продукции агрегируются в реальный чистый национальный продукт … Большой экономический словарь

Процедура Агрегировать данные позволяет преобразовать группы наблюдений в наблюдения, содержащие агрегированную информацию по соответствующей группе, и создавать новый - агрегированный - файл данных или создавать новые переменные в активном наборе данных, содержащие агрегированную информацию. Наблюдения агрегируются на основе значений нуля или большего числа группирующих переменных. Если группирующие переменные не заданы, то весь набор данных представляет собой единую группу для агрегирования.

 Если вы создаете новый агрегированный файл данных, то новый файл будет содержать по одному наблюдению на каждую группу, определяемую группирующей переменной. Например, если имеется одна группирующая переменная с двумя значениями, то новый файл данных будет содержать только два наблюдения. Если не заданы группирующие переменные, то новый файл данных будет содержать одно наблюдение.

 Если агрегированные переменные добавляются в активный набор данных, сам

файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных. Например, если имеется единственная группирующая переменная gender , то все мужчины будут иметь одинаковое значение новой агрегированной переменной, представляющей средний возраст. Если не задано группирующих переменных, то все наблюдения будут получать одно и то же значение для новой агрегируемой переменной, представляющей средний возраст.

Работа с файлами

Рисунок 9-7

Диалоговое окно Агрегировать данные

Группирующие переменные. Наблюдения группируются на основе значений группирующих переменных. Каждая уникальная комбинация значений группирующих переменных определяет группу. Если создается новый, агрегированный файл данных, все группирующие переменные сохраняются в новом файле под своими прежними именами и с информацией из словаря данных. Группирующая переменная, если задана, может быть числовой или текстовой.

Агрегируемые переменные. Для создания новых переменных используются исходные переменные с функциями агрегирования. За именем агрегированной переменной идет необязательная метка переменной, имя агрегирующей функции и имя исходной переменной в скобках.

Можно изменять имена агрегируемых переменных, заданные по умолчанию, добавлять описательные метки переменных, а также изменять функции, используемые для расчета агрегированных значений. Можно также создать переменную, содержащую число наблюдений, попавших в каждую группу при агрегировании.

Как агрегировать файл данных

E Выберите в меню:

Данные > Агрегировать данные...

E Можно задать группирующие переменные, определяющие, как наблюдений группируются при агрегировании данных. Если группирующие переменные не заданы, то весь набор данных является единой группой для агрегирования.

E Выберите одну или несколько агрегируемых переменных.

E Выберите агрегирующую функцию для каждой агрегируемой переменной.

Сохранение агрегированных результатов

Вы можете добавить агрегированные переменные в активный набор данных или создать новый, агрегированный файл данных.

 Добавить агрегированные переменные в активный набор данных. В активный набор данных добавляются новые переменные, основанные на функциях агрегирования. Сам файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных.

 Создать новый набор данных, содержащие только агрегированные переменные.

Сохраняет агрегированные данные в новом наборе данных в текущем сеансе работы. Файл включает группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.

 Записать новый файл данных, содержащий только агрегированные переменные.

Сохраняет агрегированные данные во внешнем файле данных. Файл включает группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.

Параметры сортировки для больших файлов данных

Для очень больших файлов данных более эффективным может быть агрегирование предварительно отсортированных данных.

Данные уже отсортированы по группирующей(им) переменной(ым). Если данные уже отсортированы по значениям группирующих переменных, то этот параметр позволяет процедуре выполняться быстрее и использовать меньше памяти. Пользуйтесь этим параметром с осторожностью.

 Данные должны быть отсортированы по значениям группирующих переменных в том же порядке, в котором группирующие переменные указаны в процедуре Агрегировать данные.

 Если Вы добавляете переменные в активный набор данных, выбирайте этот параметр, только если данные отсортированы в порядке возрастания значений группирующих переменных.

Работа с файлами

Отсортировать данные перед агрегированием. В очень редких случаях с большими файлами данных вам, возможно, потребуется отсортировать файл данных по значениям группирующих переменных до агрегирования. Использовать этот параметр не рекомендуется, пока у вас не возникнут проблемы с памятью или быстродействием.

Агрегирование данных: Агрегирующая функция

В этом диалоговом окне задается функция, используемая для вычисления агрегированных значений данных для выбранных переменных из списка Агрегируемые переменные в диалоговом окне Агрегировать данные. Агрегирующие функции включают:

 Подытоживающие функции для числовых переменных, включая среднее, медиану, стандартное отклонение и сумму.

 Число наблюдений, включая не взвешенные, взвешенные, не пропущенные и пропущенные.

 Процент или доля значений больше или меньше указанного значения.

 Процент или доля значений внутри или вне указанного диапазона значений

Рисунок 9-8

Диалоговое окно Агрегировать данные: Агрегирующая функция

Агрегирование данных: Имя и метка переменной

При агрегировании данных имена агрегированных переменных в новом файле данных задаются по умолчанию. Диалоговое окно Агрегировать данные: Имя и метка переменной дает возможность изменить имя и метку переменной, выбранной в списке Агрегируемые переменные. Дополнительную информацию см. данная тема Имена переменных в Данная глава 5 на стр. 79.

8.6. Агрегирование данных

На базе значений одной или нескольких группирующих переменных (переменных разбиения) можно объединить наблюдения в группы (агрегировать) и создать новый файл данных, содержащий по одному наблюдению для каждой группы разбиения. Для этого SPSS предоставляет большое количество функций агрегирования.

В сельскохозяйственном исследовании рассматривалось содержание свиней в двух различных типах свинарников. При этом в каждом из двух свинарников осуществлялся мониторинг поведения восьми свиней в течение двадцатидневного периода. На протяжении этого периода фиксировалась длительность определенных действий животных (то есть сколько времени свиньи рылись, ели, чесали голову и туловище). Данные хранятся в файле schwein.sav, содержащем следующие переменные:

Имя переменной	Пояснение
	Тип свинарника (1 или 2)
	Порядковый номер свиньи (от 1 до 8)
	Номер дня (от 1 до 20)
	Длительность рытья (в секундах)
	Длительность кормежки (в секундах)
	Длительность чесания (в секундах)

Следует выяснить, значительно ли различается по длительности эти три действия в свинарниках обоих типов, для чего необходимо применить соответствующий статистический текст, например, тест Стьюдента (см. главу 13).

В каждой из двух выборок для каждого из трех действий имеется по 8 + 20=160 измерений. Однако выполнение статистического тест на основе этих данных будет не совсем корректно, так как они относятся к восьми особям, для каждой из которых было проведено по двадцать измерений.

Поэтому мы просуммируем длительности для каждой отдельной свиньи и для каждого отдельного действия. Затем полученные наборы сумм мы сравним при помощи теста Стьюдента. Это типичный пример агрегирования данных.

Загрузите файл schwein.sav.

Выберите в меню команды Data (Данные) Aggregate... (Агрегировать)

Откроется диалоговое окно Aggregate Data (Агрегировать данные).

В качестве переменных разбиения перенесите переменные stall и nr в поле Break Variable(s), а в качестве переменных агрегирования (Aggregate Variable(s)) выберите wuehlen, fressen и massage. Диалоговое окно приобретет вид, показанный на рис. 8.8.

Будут показаны три новые переменные wuehle_l, fresse_l и massag_l, имена которых состоят из первых шести букв имен соответствующих переменных агрегирования и комбинации символов _1. По умолчанию в качестве функции агрегирования принято среднее значение. Мы должны выбрать вместо него сумму.

Для этого щелкните на первой переменной, а затем на кнопке Funktion... (Функция). Откроется диалоговое окно Aggregate Data: Aggregate Function (Агрегировать данные: Функция агрегирования) (см. рис. 8.9).

Можно выбрать одну из шестнадцати функций агрегирования, имена которых не требуют особых пояснений.

Выберите пункт Sum of values (Сумма значений) и щелчком на кнопке Continue вернитесь в первое диалоговое окно.

Выполните те же действия для двух других переменных агрегирования. Агрегированные данные будут сохранены в новом файле.

Щелкните на кнопке File... и выберите для нового файла имя pigaggr.sav.

Рис. 8.8: Диалоговое окно Aggregate Data

Рис. 8.9: Диалоговое окно Aggregate Data: Aggregate Function

После щелчка на кнопке Отбудет создан новый файл, содержащий 2 х 8=16 наблюдений и переменные stall, nr, wuehle_l, fresse_l и massag_l.

Загрузите этот файл и просмотрите его содержимое в редакторе данных.

Как описано в разделе 13.1, проведите тест Стьюдента для независимых выборок с группирующей переменной stall и тестируемыми переменными fresse_l, massag_l и wuehle_l. Вы получите следующий результат:

Group Statistics (Статистика группы)

Mean (Среднее значение)	Std. Deviation (Стандартное отклонение)	Std. Error Mean (Стандартная ошибка среднего значения)
339,0125 231,6750	98,2384 109,5381

1996,587 1964.600	326,3919 642,5314	115,3970 227,1692

Independent Samples Test (Тест для независимых выборок)

Levne"s Test forEquality of Variancies

(Tecт Левена на равенство дисперсий)

Т-Test for Equality of Means (Тест Стьюдента на равенство средних)

Значи-мость

(дву сторон-няя)

Разность средних

Стан-дартная ошибка разницы

95% доверительный интервал разности

Нижняя и Верхняя

Equal variances assumed (Дис-персии равны) Equal variances not assumed (Дис-персии не равны)

107 ,3375 107 ,3375