Графическое представление статистической информации. Лекции по статистике

УО ФПБ МИТСО

Кафедра логистики

СУРС №1

по дисциплине Статистика на тему: «Методы и формы представления статистической информации»

Выполнила

Студентка 2 курса

Ф-та МЭОиМ д/о

группы 916

Верина Е. А.

Проверил преподаватель

Бондарь С.В.

Минск, 2010

Трактовка графического метода представления статистических данных как особой знаковой системы - искусственного знакового языка - связана с развитием семиотики, науки о знаках и знаковых системах.

Статистический график - это чертеж, на котором статистические совокупности, характеризуемые определенными показателями, описываются с помощью условных геометрических образов или знаков. Представление данных таблицы в виде графика производит более сильное впечатление, чем цифры, позволяет лучше осмыслить результаты статистического наблюдения, правильно их истолковать, значительно облегчает понимание статистического материала, делает его наглядным и доступным. Это, однако, вовсе не означает, что графики имеют лишь иллюстративное значение. Они дают новое знание о предмете исследования, являясь методом обобщения исходной информации.

При построении графического изображения следует соблюдать ряд требований. Прежде всего график должен быть достаточно наглядным, так как весь смысл графического изображения как метода анализа в том и состоит, чтобы наглядно изобразить статистические показатели. Кроме того, график должен быть выразительным, доходчивым и понятным.

График состоит из графического образа и вспомогательных элементов. Графический образ - это совокупность линий, фигур, точек, которыми изображены статистические данные. Диаметрические знаки, рисунки или образы, применяемые в статистических графиках, многообразны. Это точки, отрезки прямых линий, знаки в виде фигур различной формы, штриховки или окраски (круги, квадраты, прямоугольники и др.). Эти знаки применяются для сравнения статистических величин, изображающих абсолютные и относительные размеры сравниваемых совокупностей. Сравнение на графике производится по некоторым измерениям: площади или длине одной из сторон фигуры, местонахождению точек, их густоте, густоте штриховке, интенсивности или цвету окраски.

Вспомогательные элементы включают общий заголовок, условные обозначения, оси координат, шкалы с масштабами и числовую сетку.

Словесные пояснения (экспликация графика) помещенных на графике геометрических образов, различных по их конфигурации, штриховке или цвету, позволяют мысленно перейти от геометрических образов к явлениям и процессам, изображенным на графике.

В статистических графиках чаще всего применяется система прямоугольных координат, но есть и графики, построенные по принципу полярных координат (круговые графики).

Когда график строится в прямоугольных координатах, на горизонтальной оси абсцисс и вертикальной оси ординат в определенном порядке располагаются характеристики статистических признаков изображаемых явлений или процессов, а в поле графика размещаются геометрические знаки, составляющие сам график. Поле графика - это пространство, в котором располагаются геометрические знаки, образующие график.

Признаки, располагаемые на осях координат, могут быть качественными и количественными.

Одна из важных задач статистического графика - это его композиция: отбор статистического материала, выбор способа изображения, т.е. формата графика. Размер графика должен соответствовать его назначению.

В заголовке (названий) графика определяется задача, которая решается при помощи графика, дается характеристика места и времени, к которому относится график.

Надписи вдоль масштабных шкал указывают, в каких единицах измеряются признаки. Цифры значений каждого параметра проставляются у пограничных отметок масштабных шкал.

Масштабная шкала - линия (на статистическом графике обычно прямая) , несущая на себе масштабные отметки с их числовыми обозначениями. Лучше делать эти обозначения только на отметках, соответствующих круглым числам: в таком случае промежуточные отметки читают путем отсчета от ближайшего числа, обозначенного на масштабной шкале. Согласно масштабным отметкам на диаграммном поле откладывают размеры изображаемых явлений или процесс. Масштабные отметки располагаются на шкале равномерно (шкала равномерная, арифметическая) или неравномерная (шкала функциональная, шкала логарифмическая).

Шкала функциональная - масштабная шкала, где числовые значения помеченных точек выражают значения аргумента, а расположение этих точек соответствует равномерно распределенным значениям некоторой функции того же аргумента. Из шкал функциональных в статистических графиках применяют главным образом шкалу логарифмическую. При этом, если рассматриваются две величины, то такая шкала может быть применима к обеим или только к одной из них (“полулогарифмический” график или масштаб). Расстояния между точками, нанесенными по числовым отметкам логарифмической шкалы, отвечают разности логарифмов соответствующих чисел и, следовательно, характеризуют соотношения между числами.

Классификация видов графиков.

Существует множество видов графических изображений. Их классификация основана на ряде признаков:

а) способ построения графического образа;

б) геометрические знаки, изображающие статистические показатели и отношения;

в) задачи, решаемые с помощью графического изображения.

Статистические графики по форме графического образа:

1. Линейные: статистические кривые.

2. Плоскостные: столбиковые, полосовые, квадратные, круговые, секторные, фигурные, точечные, фоновые.

3. Объемные: поверхности распределения.

Статистические графики по способу построения и задачам изображения:

1. Диаграммы: диаграммы сравнения, диаграммы динамики, структурные диаграммы.

2. Статистические карты: картограммы, картодиаграммы.

По способу построения статистические графики делятся на диаграммы и статистические карты. Диаграммы - наиболее распространенный способ графических изображений. Это графики количественных отношений. Виды и способы их построения разнообразны. Диаграммы применяются для наглядного сопоставления в различных аспектах (пространственном, временном и др.) независимых друг от друга величин: территорий, населения и т. д. При этом сравнение исследуемых совокупностей производится по какому-либо существенному варьирующему признаку. Статистические карты - графики количественного распределения по поверхности. По своей основной цели они близко примыкают к диаграммам и специфичны лишь в том отношении, что представляют собой условные изображения статистических данных на контурной географической карте, т. е. показывают пространственное размещение или пространственную распространенность статистических данных. Геометрические знаки, как было сказано выше, - это либо точки, либо линии или плоскости, либо геометрические тела. В соответствии с этим различают графики точечные, линейные, плоскостные и пространственные (объемные).

При построении точечных диаграмм в качестве графических образов применяются совокупности точек; при построении линейных - линии. Основной принцип построения всех плоскостных диаграмм сводится к тому, что статистические величины изображаются в виде геометрических фигур и, в свою очередь, подразделяются на столбиковые, полосовые, круговые, квадратные и фигурные.

Статистические карты по графическому образу делятся на картограммы и картодиаграммы.

В зависимости от круга решаемых задач выделяются диаграммы сравнения, структурные диаграммы и диаграммы динамики.

Наиболее употребительными графиками для изображения вариационных рядов, т. е. соотношений между значениями признака и соответствующими частотами или относительными частотами, являются полигон, гистограмма и кумулята.

Полигон чаще всего используют для изображения дискретных рядов. Для построения полигона в прямоугольной системе координат на оси абсцисс в произвольно выбранном масштабе откладывают значения аргумента, т. е. варианты, а на оси ординат также в произвольно выбранном масштабе - значения частот или относительных частот. Масштаб выбирают такой, чтобы была обеспечена необходимая наглядность, и чтобы рисунок имел желательный размер. Далее в этой системе координат строят точки, координатами которых являются пары соответствующих чисел из вариационного ряда. Полученные точки последовательно соединяют отрезками прямой. Крайнюю "левую" точку соединяют с точкой оси абсцисс, абсцисса которой находится слева от рассматриваемой точки на таком же расстоянии, как абсцисса ближайшей справа точки. Аналогично крайнюю "правую" точку также соединяют с точкой оси абсцисс.

Учебные достижения учащихся некоторого класса по математике характеризуются данными, представленными в таблице.

Построить полигон частот.

Графическое изображение, прежде всего, позволяет осуществить контроль достоверности статистических показателей, так как, представленные на графике, они более ярко показывают имеющиеся неточности, связанные либо с наличием ошибок наблюдения, либо с сущностью изучаемого явления. С помощью графического изображения возможны изучение закономерностей развития явления, установление существующих взаимосвязей. Простое сопоставление данных не всегда дает возможность уловить наличие причинных зависимостей, в то же время их графическое изображение способствует выявлению причинных связей, в особенности в случаях установления первоначальных гипотез, подлежащих затем дальнейшей разработке. Графики также широко используются для изучения структуры влияний, их изменения во времени и размещения в пространстве. В них более выразительно проявляются сравниваемые характеристики и отчетливо видны основные тенденции развития и взаимосвязи, присущие изучаемому явлению или процессу.

В статистике графиком называют наглядное изображение статистических величин и их соотношений при помощи геометрических точек, линий, фигур или географических картосхем.

Графики придают изложению статистических данных большую наглядность, чем таблицы, выразительность, облегчают их восприятие и анализ. Статистический график позволяет зрительно оценить характер изучаемого явления, присущие ему закономерности, тенденции развития, взаимосвязи с другими показателями, географическое разрешение изучаемых явлений. Еще в древности китайцы говорили, что одно изображение заменяет тысячу слов. Графики делают статистический материал более понятным, доступным и неспециалистам, привлекают внимание широкой аудитории к статистическим данным, популяризируют статистику и статистическую информацию.

При любой возможности анализ статистических данных рекомендуется всегда начинать с их графического изображения. График позволяет сразу получить общее представление обо всей совокупности статистических показателей. Графический метод анализа выступает как логическое продолжение табличного метода и служит целям получения обобщающих статистических характеристик процессов, свойственных массовым явлениям.

При помощи графического изображения статистических данных решаются многие задачи статистического исследования:

1) наглядное представление величины показателей (явлений) в сравнении друг с другом;
2) характеристика структуры какого-либо явления;
3) изменение явления во времени;
4) ход выполнения плана;
5) зависимость изменения одного явления от изменения другого;
6) распространенность или размещение каких-либо величин по территории.

Другими словами, в статистических исследованиях применяются самые разнообразные графики.

В каждом графике выделяют следующие основные элементы:

1) пространственные ориентиры (систему координат);
2) графический образ;
3) поле графика;
4) масштабные ориентиры;
5) экспликация графика;
6) наименование графика

Пространственные ориентиры задаются в виде системы координатных сеток. В статистических графиках чаще всего применяется система прямоугольных координат. Иногда используется принцип полярных (угловых) координат (круговые графики). В картограммах средствами пространственной ориентации являются границы государств, границы административных его частей, географические ориентиры (контуры рек, береговых линий морей и океанов).

На осях системы координат или на карте в определенном порядке располагаются характеристики статистических признаков изображаемых явлений или процессов. Признаки, располагаемые на осях координат, могут быть качественными или количественными.

Графический образ статистических данных представляет собой совокупность линий, фигур, точек, образующих геометрические фигуры разной формы (окружность, квадраты, прямоугольники и т.п.) с различной штриховкой, окраской, густотой нанесения точек.

Любое явление, изучаемое статистикой, можно представить в графической форме. Для этого требуется найти правильное графическое решение, определить тот графический образ, который лучше всего соответствует данному явлению, нагляднее изображает статистические данные. Графический образ должен соответствовать цели графика. Поэтому перед построением графика необходимо уяснить сущность явления и цель, которая ставится перед графическим изображением. Выбранная форма графика должна соответствовать внутреннему содержанию и характеру статистического показателя. Например, сравнение на графике производится по таким измерениям, как площадь, длина одной из сторон фигур, местонахождением точек, их густотой и т.д.

Так, для изображения изменений явления во времени наиболее естественным типом графика является линия. Для рядов распределения - полигон или гистограмма.

Поле графика - это пространство, в котором располагаются графические образы (геометрические тела, образующие графики).

Поле графика характеризуется по размерам и пропорциям. Размер поля зависит от назначения графика. Пропорции и размер графика (формат графика) должны соответствовать также сущности изображаемых явлений. Для статистических исследований часто используются графики с неравными сторонами, например, с соотношением сторон поля 1: или 1:1,33 до 1:1,6+5,8. Но иногда удобна квадратная форма графиков.

Масштабные ориентиры, обеспечивающие геометрическому образу количественную определенность, - это использованная в графике система масштабных шкал. Масштабом графика называется условная мера перевода статистической числовой величины в графическую. Масштабная шкала - это линия, отдельные точки которой могут быть в соответствии с принятым масштабом прочитаны как определенное значение статистического показателя. Масштаб выбирается с таким расчетом, чтобы на графике могла поместиться самая большая и самая маленькая из изображаемых величин.

Масштабные шкалы бывают равномерными и неравномерными, прямолинейными (обычно располагаются по осям координат) и криволинейными (круговые в секторных диаграммах).

Экспликация графика - это словесное пояснение его содержания (название графика и соответствующие пояснения отдельных его частей).

Название графика должно точно и кратко раскрывать его содержание. Пояснительные тексты могут располагаться в пределах графического образа, рядом с ним или выноситься за его пределы, вдоль масштабных шкал. Они помогают мысленно перейти от геометрических образов к явлениям и процессам, изображенным на графике.

Особенность графических изображений в их выразительности, доходчивости и обозримости. Однако графические изображения не только иллюстративны, они носят и аналитический характер. Итак, в настоящее время графики широко применяются в учетной и статистической практике предприятий и учреждений, в научно-исследовательской работе, в производственно-хозяйственной деятельности, в учебном процессе, пропаганде и других областях.

Существует множество видов графических изображений. Их классификация основана на ряде признаков:

а) способ построения графического образа;
б) геометрические знаки, изображающие статистические показатели и отношения;
в) задачи, решаемые с помощью графического изображения.

Статистические графики по форме графического образа:

Линейные: статистические кривые.

Плоскостные: столбиковые, полосовые, квадратные, круговые, секторные, фигурные, точечные, фоновые.

Объемные: поверхности распределения.

Статистические графики по способу построения и задачам изображения:

Диаграммы: диаграммы сравнения, диаграммы динамики, структурные диаграммы.

Статистические карты: картограммы, картодиаграммы.

По способу построения статистические графики делятся на диаграммы и статистические карты.

Диаграммы - наиболее распространенный способ графических изображений. Это графики количественных отношений. Виды и способы их построения разнообразны. Диаграммы применяются для наглядного сопоставления в различных аспектах (пространственном, временном и др.) независимых друг от друга величин: территорий, населения и т. д. При этом сравнение исследуемых совокупностей производится по какому-либо существенному варьирующему признаку.

Статистические карты - графики количественного распределения по поверхности. По своей основной цели они близко примыкают к диаграммам и специфичны лишь в том отношении, что представляют собой условные изображения статистических данных на контурной географической карте, т. е. показывают пространственное размещение или пространственную распространенность статистических данных. Геометрические знаки, как было сказано выше, - это либо точки, либо линии или плоскости, либо геометрические тела. В соответствии с этим различают графики точечные, линейные, плоскостные и пространственные (объемные).

Статистические карты по графическому образу делятся на картограммы и картодиаграммы.

Текстовая форма

Табличная форма

Статистическая таблица

Статистические графики – это условные изображения числовых величин и их соотношений посредством линий, геометрических фигур, рисунков или географических карт-схем. Графическая форма облегчает рассмотрение статистических данных, делает их наглядными, выразительными, обозримыми. Однако графики имеют определенные ограничения: прежде всего, график не может включить столько данных, сколько может войти в таблицу; кроме того, на графике показываются всегда округленные данные – не точные, а приблизительные. Таким образом, график используется только для изображения общей ситуации, а не деталей. Последний недостаток – трудоемкость построения графиков. Он может быть преодолен использованием персонального компьютера (например, «Мастером диаграмм» из пакета Microsoft Office Excel).

Определение эмпирической функции распределения.

Выборочная (эмпири́ческая) фу́нкция распределе́ния в математической статистике - это приближение теоретической функции распределения, построенное с помощью выборки из него.

Определение

Пусть - выборка из распределения случайной величины , задаваемого функцией распределения . Будем считать, что , где , - независимые случайные величины, определённые на некотором пространстве элементарных исходов . Пусть . Определим случайную величину следующим образом:

где - индикатор события , - функция Хевисайда. Таким образом, выборочная функция распределения в точке равна относительной частоте элементов выборки, не превосходящих значение . Случайная величина называется выборочной функцией распределения случайной величины и является аппроксимацией для функции . Существует результат, показывающий, что при функция равномерно сходится к , и указывающий скорость сходимости.

Гистограмма

Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников, как показано на рис. 2.1. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Если ряд безинтервальный, то ширина всех столбцов выбирается произвольной, но одинаковые. Таким образом, высоты прямоугольников должны быть пропорциональны величинам

где n i - частота i -го интервала группировки; h i - ширина i -го интервала группировки.

На графике гистограммы основание прямоугольников откладывается по оси абсцисс (x ), а высота - по оси ординат (у ) прямоугольной системы координат.

Однако в тех случаях, когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины р i , а частоты интервалов n i .

Рис. 2.1. Гистограмма распределения результатов в предыдущем примере (когда ширина некоторых интервалов группировки неодинакова).

В этом случае чтобы не нарушить принцип построения гистограммы (площади прямоугольников пропорциональны частотам интервалов), по оси ординат уже нельзя откладывать частоты, а надо – высоты прямоугольников (которые должны быть пропорциональны отношениям ).

Полигон частот

Другим распространенным способом графического представления является полигон частот.

Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов, срединные значения откладываются по оси х , а частоты – по оси у .

Из сравнения двух рассмотренных способов графического представления эмпирических распределений следует, что для получения полигона частот из построенной гистограммы нужно середины вершин прямоугольников, образующих гистограмму, соединить отрезками прямых. Пример полигона частот представлен на рис. 2.2.

Рис. 2.2. Полигон частот

Полигон частот используется для представления распределений как непрерывных, так и дискретных признаков. В случае непрерывного распределения полигон частот является более предпочтительным способом графического представления, чем гистограмма, если график эмпирического распределения описывается плавной зависимостью.

21.Гипо́теза (др.-греч. ὑπόθεσις - предположение; от ὑπό - снизу, под + θέσις - тезис) - предположение или догадка; утверждение, предполагающее доказательство, в отличие отаксиом

Постулатов, не требующих доказательств. Гипотеза считается научной, если она удовлетворяет критерию Поппера, т.е. потенциально может быть проверена критическим экспериментом, а так же если она соответствует другим критериям, отличающим науку от не науки.

Статистическая гипотеза – это предположение о свойствах случайных величин или событий, которое мы хотим проверить по имеющимся данным. Примеры статистических гипотез в педагогических исследованиях :

Гипотеза 1. Успеваемость класса стохастически (вероятностно) зависит от уровня обучаемости учащихся.

Гипотеза 2. Усвоение начального курса математики не имеет существенных различий у учащихся, начавших обучение с 6 или 7 лет.

Гипотеза 3. Проблемное обучение в первом классе эффективнее по сравнению с традиционной методикой обучения в отношении общего развития учащихся.

Пример 1. Процесс производства некоторого медицинского препарата весьма сложен. Несущественные на первый взгляд отклонения от технологии вызывают появление высокотоксичной побочной примеси. Токсичность этой примеси может оказаться столь высокой, что даже такое ее количество, которое не может быть обнаружено при обычном химическом анализе, может оказаться опасным для человека, принимающего это лекарство. В результате, прежде чем выпускать в продажу вновь произведенную партию, ее подвергают исследованию на токсичность биологическими методами. Малые дозы лекарства вводятся некоторому количеству подопытных животных, например, мышей, и результат регистрируют. Если лекарство токсично, то все или почти все животные гибнут. В противном случае норма выживших велика.

Исследование лекарства может привести к одному из возможных способов действия: выпустить партию в продажу (а 1), вернуть партию поставщику для доработки или, может быть, для уничтожения (а 2).

Ошибки двух видов, связанные с действиями а 1 и а 2 совершенно различны, различна и важность избежания их. Сначала рассмотрим случай, когда применяется действие а 1 , в то время когда предпочтительнее а 2 . Лекарство опасно для пациента, в то время как оно признано безопасным. Ошибка этого вида может вызвать смерть пациентов, употребляющих этот препарат. Это ошибка первого рода, так как нам важнее ее избежать.

Рассмотрим случай когда предпринимается действие а 2 , в то время когда а 1 является более предпочтительным. Это означает, что вследствие неточностей в проведении эксперимента партия нетоксичного лекарства классифицировалась как опасная. Последствия ошибки могут выражаться в финансовом убытке и в увеличении стоимости лекарства. Однако случайное отвержение совершенно безопасного лекарства, очевидно, менее нежелательно, чем, пусть даже изредка происходящие гибели пациентов. Отвержение нетоксичной партии лекарства – ошибка второго рода.

Допустимая вероятность ошибки первого рода (Ркр) может быть равна 5% или 1% (0.05 или 0.01).

22. Проверка статистической гипотезы (testing statistical hypotheses) - это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Статистический тест или статистический критерий - строгое математическое правило, по которому принимается или отвергается статистическая гипотеза .

· 23.классификация гипотез

· простая – указано одно обстоятельство, при наличии или отсутствии которого действует юридическая норма;

· сложная – наличие в гипотезе одновременно двух или более обстоятельств, в совокупности обусловливающих действие нормы;

· альтернативная – указано несколько вариантов обстоятельств (альтернативных), при которых возможно действие нормы. В этом случае при наступлении одного из них норма является действующей;

Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений. Примером параметрической статистической гипотезы является гипотеза оравенстве математических ожиданий двух нормальных совокупностей.

Непараметрическими гипотезами называются гипотезы о виде распределенияслучайной величины.

Нулевой, основной или проверяемой гипотезой называется первоначально выдвинутая гипотеза, которая обозначается Н0 .

Статистическая гипотеза представляет собой некоторое предположение о законе распределения случайной величины или о параметрах этого закона, формулируемое на основе выборки . Примерами статистических гипотез являются предположения: генеральная совокупность распределена по экспоненциальному закону; математические ожидания двух экспоненциально распределенных выборок равны друг другу. В первой из них высказано предположение о виде закона распределения, а во второй – о параметрах двух распределений. Гипотезы, в основе которых нет никаких допущений о конкретном виде закона распределения, называют непараметрическими , в противном случае – параметрическими .

Гипотезу, утверждающую, что различие между сравниваемыми характеристиками отсутствует, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, на основании которых производится сравнение, называют нулевой (основной) гипотезой и обозначают Н 0 . Наряду с основной гипотезой рассматривают и альтернативную (конкурирующую, противоречащую) ей гипотезу Н 1 . И если нулевая гипотеза будет отвергнута, то будет иметь место альтернативная гипотеза.

Различают простые и сложные гипотезы. Гипотезуназывают простой , если она однозначно характеризует параметр распределения случайной величины. Например, если  является параметром экспоненциального распределения, то гипотеза Н 0 о равенстве  = 10–простая гипотеза. Сложной называют гипотезу, которая состоит из конечного или бесконечного множества простых гипотез. Сложная гипотеза Н 0 о неравенстве  > 10 состоит из бесконечного множества простых гипотез Н 0 о равенстве  =b i , где b i – любое число, большее 10. Гипотеза Н 0 о том, что математическое ожидание нормального распределения равно двум при неизвестной дисперсии, тоже является сложной. Сложной гипотезой будет предположение о распределении случайной величины Х по нормальному закону, если не фиксируются конкретные значения математического ожидания и дисперсии.

Проверка гипотезы основывается на вычислении некоторой случайной величины – критерия, точное или приближенное распределение которого известно. Обозначим эту величину через z , ее значение является функцией от элементов выборки z =z (x 1 , x 2 , …, x n ). Процедура проверки гипотезы предписывает каждому значению критерия одно из двух решений – принять или отвергнуть гипотезу. Тем самым все выборочное пространство и соответственно множество значений критерия делятся на два непересекающихся подмножества S 0 и S 1 . Если значение критерия z попадает в область S 0 , то гипотеза принимается, а если в область S 1 , – гипотеза отклоняется. Множество S 0 называется областью принятия гипотезы или областью допустимых значений , а множество S 1 – областью отклонения гипотезы или критической областью . Выбор одной области однозначно определяет и другую область.

Принятие или отклонение гипотезы Н 0 по случайной выборке соответствует истине с некоторой вероятностью и, соответственно, возможны два рода ошибок. Ошибка первого рода возникает с вероятностью  тогда, когда отвергается верная гипотеза Н 0 и принимается конкурирующая гипотеза Н 1 . Ошибка второго рода возникает с вероятностью  в том случае, когда принимается неверная гипотеза Н 0 , в то время как справедлива конкурирующая гипотеза Н 1 . Доверительная вероятность – это вероятность не совершить ошибку первого рода и принять верную гипотезу Н 0 . Вероятность отвергнуть ложную гипотезу Н 0 называется мощностью критерия . Следовательно, при проверке гипотезы возможны четыре варианта исходов, табл. 3.1.

Таблица 3.1.

Например, рассмотрим случай, когда некоторая несмещенная оценка параметра  вычислена по выборке объема n , и эта оценка имеет плотность распределения f (), рис. 3.1.

Рис. 3.1. Области и отклонения гипотезы

Предположим, что истинное значение оцениваемого параметра равно Т . Если рассматривать гипотезу Н 0 о равенстве  =Т , то насколько велико должно быть различие между  и Т , чтобы эту гипотезу отвергнуть. Ответить на данный вопрос можно в статистическом смысле, рассматривая вероятность достижения некоторой заданной разности между  и Т на основе выборочного распределения параметра  .

Целесообразно полагать одинаковыми значения вероятности выхода параметра  за нижний и верхний пределы интервала. Такое допущение во многих случаях позволяет минимизировать доверительный интервал, т.е. повысить мощность критерия проверки. Суммарная вероятность того, что параметр  выйдет за пределы интервала с границами  1– /2 и   /2 , составляет величину  . Эту величину следует выбрать настолько малой, чтобы выход за пределы интервала был маловероятен. Если оценка параметра попала в заданный интервал, то в таком случае нет оснований подвергать сомнению проверяемую гипотезу, следовательно, гипотезу равенства  =Т можно принять. Но если после получения выборки окажется, что оценка выходит за установленные пределы, то в этом случае есть серьезные основания отвергнуть гипотезу Н 0 . Отсюда следует, что вероятность допустить ошибку первого рода равна  (равна уровню значимости критерия).

Если предположить, например, что истинное значение параметра в действительности равно Т +d , то согласно гипотезе Н 0 о равенстве  =Т – вероятность того, что оценка параметра  попадет в область принятия гипотезы, составит  , рис. 3.2.

При заданном объеме выборки вероятность совершения ошибки первого рода можно уменьшить, снижая уровень значимости  . Однако при этом увеличивается вероятность ошибки второго рода  (снижается мощность критерия). Аналогичные рассуждения можно провести для случая, когда истинное значение параметра равно Т – d .

Единственный способ уменьшить обе вероятности состоит в увеличении объема выборки (плотность распределения оценки параметра при этом становится более "узкой"). При выборе критической области руководствуются правилом Неймана – Пирсона: следует так выбирать критическую область, чтобы вероятность  была мала, если гипотеза верна, и велика в противном случае. Однако выбор конкретного значения  относительно произволен. Употребительные значения лежат в пределах от 0,001 до 0,2. В целях упрощения ручных расчетов составлены таблицы интервалов с границами  1– /2 и   /2 для типовых значений  и различных способов построения критерия.

При выборе уровня значимости необходимо учитывать мощность критерия при альтернативной гипотезе. Иногда большая мощность критерия оказывается существеннее малого уровня значимости, и его значение выбирают относительно большим, например 0,2. Такой выбор оправдан, если последствия ошибок второго рода более существенны, чем ошибок первого рода. Например, если отвергнуто правильное решение "продолжить работу пользователей с текущими паролями", то ошибка первого рода приведет к некоторой задержке в нормальном функционировании системы, связанной со сменой паролей. Если же принято решения не менять пароли, несмотря на опасность несанкционированного доступа посторонних лиц к информации, то эта ошибка повлечет более серьезные последствия.

В зависимости от сущности проверяемой гипотезы и используемых мер расхождения оценки характеристики от ее теоретического значения применяют различные критерии. К числу наиболее часто применяемых критериев для проверки гипотез о законах распределения относят критерии хи-квадрат Пирсона, Колмогорова, Мизеса, Вилкоксона, о значениях параметров – критерии Фишера, Стьюдента.

25. КРИТИЧЕСКАЯ ОБЛАСТЬ - часть выборочного пространства такая, что попадание в нее наблюденного значения случайной величины, с распределением к-рой связана проверяемая гипотеза, влечет отказ от этой гипотезы

Критическими точками (границами) k кр называют точки, отделяющие критическую область от области принятия гипотезы.
Различают одностороннюю (правостороннюю или левостороннюю) и двустороннюю критические области.

Случайная погрешность измерения образуется под влиянием большого числа факторов , сопутствующих процессу измерения. В каждой конкретной ситуации работает свой механизм образования погрешности. Поэтому естественно предположить, что каждой ситуации должен соответствовать свой тип распределения погрешности. Однако во многих случаях имеются возможности еще до проведения измерений сделать некоторые предположения о форме функции распределения, так что после проведения измерений остается только определить значения некоторых параметров, входящих в выражение для предполагаемой функции распределения.

Случайная погрешность характеризует неопределенность наших знаний об истинном значении измеряемой величины, полученных в результате проведенных наблюдений. Согласно К. Шеннону мерой неопределенности ситуации, описываемой случайной величиной X, является энтропия

Являющаяся функционалом дифференциальной функции распределения . Можно предположить, что любой процесс измерения формируется таким образом, что неопределенность результата наблюдений оказывается наибольшей в некоторых пределах, определяемых допускаемыми значениями погрешности. Поэтому наиболее вероятными должны быть такие распределения , при которых энтропия обращается в максимум.

Для выявления вида наиболее вероятных распределений рассмотрим несколько наиболее типичных случаев .

1. В классе распределений результатов наблюдений , обладающих определенной зоной рассеивания между значениями х = b и х = а шириной b-а =2а , найдем такое, которое обращает в максимум энтропию при наличии ограничивающих условий:
, , ,
где - математическое ожидание результатов наблюдений. Решение поставленной задачи находится методом множителей Лагранжа.

Искомая плотность распределения результатов наблюдений описывается выражением

Определим числовые характеристики равномерного распределения. Математическое ожидание случайной погрешности находим по формуле (10):

Дисперсию случайной равномерно распределенной погрешности можно найти по формуле (18):

В силу симметрии распределения относительно математического ожидания коэффициент асимметрии должен равняться нулю:

Для определения эксцесса найдем вначале четвертый момент случайной погрешности:

Поэтому

В заключение найдем веро-ятность попадания случайной погрешности в заданный интервал , равный заштрихованной площади на рис.7

2. В классе распределений результатов наблюдений , обладающих определенной дисперсией , найдем такое, которое обращает в максимум энтропию при наличии ограничений:

, , , .

Решение этой задачи также находится методом множителей Лагранжа. Искомая плотность распределения результатов наблюдений описывается выражением

Распределение, описываемое уравнениями (25) и (26), называется нормальным или распределением Гаусса .

На рис.8 изображены кривые нормального распределения случайных погрешностей для различных значений среднеквадратического отклонения .

Из рисунка видно, что по мере увеличения среднеквадратического отклонения распределение все более и более расплывается, вероятность появления больших значений погрешностей возрастает, а вероятность меньших погрешностей сокращается, т.е. увеличивается рассеивание результатов наблюдений.

Вычислим вероятность попадания результата наблюдения в некоторый заданный интервал :

Заменим переменные:

После чего получим следующее выражение для искомой вероятности:

Интегралы, стоящие в квадратных скобках, не выражаются в элементарных функциях, поэтому их вычисляют с помощью так называемого нормированного нормального распределения с дифференциальной функцией

С помощью функции Ф(z ) вероятность находят как

(29)

При использовании данной формулы следует иметь в виду тождество

Вытекающее непосредственно из определения функции Ф(z ).

Широкое распространение нормального распределения погрешностей в практике измерений объясняется центральной предельной теоремой теории вероятностей, являющейся одной из самых замечательных математических теорем, в разработке которой принимали участие многие крупнейшие математики - Муавр, Лаплас, Гаусс, Чебышев и Ляпунов. Центральная предельная теорема утверждает, что распределение случайных погрешностей будет близко в нормальному всякий раз, когда результаты наблюдения формируются под влиянием большого числа независимо действующих факторов, каждый из которых оказывает лишь незначительное действие по сравнению с суммарным действием всех остальных.

3. Предположим, что результаты наблюдений распределены нормально, но их среднеквадратическое отклонение является величиной случайной, изменяющейся от опыта к опыту. Такое предположение более осторожное, чем предположение о неизменности в течение всего времени измерений. В этом случае, рассуждая таким же образом, как и прежде, легко найти, что энтропия обращается в максимум, если результаты наблюдений имеют распределение Лапласа с плотностью

(30)

где - математическое ожидание, - среднеквадратическое отклонение результатов наблюдения. Распределением Лапласа следует пользоваться в тех случаях, когда точностные характеристики заранее неизвестны или нестабильны во времени.

Дифференциальная функция распределения случайных погрешностей получается подстановкой и в выражение (30):

Асимметрия распределения равна нулю, поскольку распределение симметрично относительно нуля, а эксцесс в соответствии с формулой (22) составляет

Таким образом, по сравнению с нормальным распределением (Ех = 0) равномерное распределение является более плосковершинным (Ех = -1.2), а распределение Лапласа - более островершинным (Ех = 3).

Формы представления статистических данных.

Статистические данные должны быть представлены так, чтобы ими можно было пользоваться. Существует 3 основных формы представления статистических данных :

Текстовая – включение данных в текст;

Табличная – представление данных в таблицах;

Графическая – выражение данных в виде графиков.

Текстовая форма применяется при малом количестве цифровых данных.

Табличная форма применяется чаще всего, так как является более эффективной формой представления статистических данных. В отличие от математических таблиц, которые по начальным условиям позволяют получить тот или иной результат, статистические таблицы рассказывают языком цифр об изучаемых объектах.

Статистическая таблица – это система строк и столбцов, в которых в определенной последовательности и связи излагается статистическая информация о социально-экономических явлениях.

Различают подлежащее и сказуемое статистической таблицы. В подлежащем указывается характеризуемый объект – либо единицы совокупности, либо группы единиц, либо совокупность в целом. В сказуемом дается характеристика подлежащего, обычно в числовой форме. Обязателен заголовок таблицы, в котором указывается к какой категории и к какому времени относятся данные таблицы.

По характеру подлежащего статистические таблицы подразделяются на простые, групповые и комбинационные. В подлежащем простой таблицы объект изучения не подразделяется на группы, а дается либо перечень всех единиц совокупности, либо указывается совокупность в целом. В подлежащем групповой таблицы объект изучения подразделяется на группы по одному признаку, а в сказуемом указываются число единиц в группах (абсолютное или в процентах) и сводные показатели по группам. В подлежащем комбинационной таблицы совокупность подразделяется на группы не по одному, а по нескольким признакам.

При построении таблиц необходимо руководствоваться следующими общими правилами.

Подлежащее таблицы располагается в левой (реже – верхней) части, а сказуемое – в правой (реже – нижней).

Заголовки столбцов содержат названия показателей и их единицы измерения.

Итоговая строка завершает таблицу и располагается в ее конце, но иногда бывает первой: в этом случае во второй строке делается запись «в том числе», и последующие строки содержат составляющие итоговой строки.

Цифровые данные записываются с одной и той же степенью точности в пределах каждого столбца, при этом разряды чисел располагаются под разрядами, а целая часть отделяется от дробной запятой.

В таблице не должно быть пустых клеток: если данные равны нулю, то ставится знак «–» (прочерк); если данные не известны, то делается запись «сведений нет» или ставится знак «…» (троеточие). Если значение показателя не равно нулю, но первая значащая цифра появляется после принятой степени точности, то делается запись 0,0 (если, скажем, была принята степень точности 0,1).

Иногда статистические таблицы дополняются графиками, когда ставится цель подчеркнуть какую-то особенность данных, провести их сравнение. Графическая форма является самой эффективной формой представления данных с точки зрения их восприятия. С помощью графиков достигается наглядность характеристики структуры, динамики, взаимосвязи явлений, их сравнения.

Текстовая – включение данных в текст;
Табличная – представление данных в таблицах;
Графическая – выражение данных в виде графиков.

Текстовая форма применяется при малом количестве цифровых данных.

Например, в следующей таблице представлена информация о внешней торговле России, выражать которую в текстовой форме было бы неэффективным.

	1995	2000	2001	2002	2003	2004	2005	2006	2007
	Миллиардов долларов США
Внешнеторговый оборот	145,0	149,9	155,6	168,3	212,0	280,6	369,2	468,6	578,2
Экспорт	82,4	105,0	101,9	107,3	135,9	183,2	243,8	303,9	355,2
Импорт	62,6	44,9	53,8	61,0	76,1	97,4	125,4	164,7	223,1
Сальдо торгового баланса	19,8	60,1	48,1	46,3	59,9	85,8	118,4	139,2	132,1
со странами дальнего зарубежья
экспорт	65,4	90,8	86,6	90,9	114,6	153,0	210,2	260,6	301,5
импорт	44,3	31,4	40,7	48,8	61,0	77,5	103,5	140,1	191,2
сальдо торгового баланса	21,2	59,3	45,9	42,1	53,6	75,5	106,7	120,4	110,3
со странами СНГ
экспорт	17,0	14,3	15,3	16,4	21,4	30,2	33,5	43,4	53,7
импорт	18,3	13,4	13,0	12,2	15,1	19,9	21,9	24,6	31,9
сальдо торгового баланса	-1,4	0,8	2,2	4,2	6,3	10,3	11,7	18,8	21,9

При построении таблиц необходимо руководствоваться следующими общими правилами.

Подлежащее таблицы располагается в левой (реже – верхней) части, а сказуемое – в правой (реже – нижней).
Заголовки столбцов содержат названия показателей и их единицы измерения.
Итоговая строка завершает таблицу и располагается в ее конце, но иногда бывает первой: в этом случае во второй строке делается запись «в том числе», и последующие строки содержат составляющие итоговой строки.
Цифровые данные записываются с одной и той же степенью точности в пределах каждого столбца, при этом разряды чисел располагаются под разрядами, а целая часть отделяется от дробной запятой.
В таблице не должно быть пустых клеток: если данные равны нулю, то ставится знак «–» (прочерк); если данные не известны, то делается запись «сведений нет» или ставится знак «…» (троеточие). Если значение показателя не равно нулю, но первая значащая цифра появляется после принятой степени точности, то делается запись 0,0 (если, скажем, была принята степень точности 0,1).

§1.Понятия статистики, статистическая закономерность и совокупность..... 2

§2. Признаки единиц статистической совокупности, их классификация...... 2

§1. Понятие статистического наблюдения, его подготовка...................... 4

§2. Виды статистического наблюдения................................................. 5

§3. Ошибки наблюдения................................................................... 6

§4. Сводка и группировка................................................................ 6

§5. Виды статистических группировок............................................... 6

§6. Статистические таблицы............................................................ 7

§7. Статистические графики............................................................ 8

§1. Фактическое и теоретическое распределение............................ 21

§2. Кривая нормального распределения......................................... 21

§3. Проверка гипотезы о нормальном распределении....................... 21

§4. Критерии согласия: Пирсона, Романовского, Колмогорова........... 21

§5. Практическое значение моделирования рядов распределения..... 22

§1. Понятие выборочного наблюдения. Причины его применения...... 23

§3. Ошибки выборочного наблюдения........................................... 24

§4. Задачи выборочного наблюдения.......................................... 25

§5. Распространение данных выборочного наблюдения на генеральную совокупность... 26

§6. Малая выборка................................................................ 26

§1. Понятие корреляционной связи и КРА.................................. 27

§2. Условия применения и ограничения КРА.............................. 27

§3. Парная регрессия на основе метода наименьших квадратов.. 28

§4. Применение парного линейного уравнения регрессии.......... 29

§6. Множественная корреляция........................................... 32

Тема 1.: Введение в статистику.

понятия статистики, статистическая закономерность и совокупность.
признаки единиц статистической совокупности, их классификация.
предмет и метод статистики.

§1.Понятия статистики, статистическая закономерность и совокупность.

Слово статистика происходит от латинского “status ” в переводе – состояние, положение вещей.

Термин статистика возник во 2 ой половине 18 века. В связи с познанием государств, изучением их особенности. К этому же времени относится начало преподавания статистики в университете. В зависимости от отрасли статистического исследования различают: статистику населения, промышленности, с/х и т.д. - прикладная статистика.

Общая теория статистики – совокупность методов и приемов по сбору, обработке, представлению и анализу числовых данных. Термин статистика в наши дни употребляется в 3 х значениях:

как синоним слова «данные»
отрасль значений объединяющая принципы и методы работы с числовыми данными характеризующими массовые явления (продолжительность жизни мужчин ниже чем женщин)
отрасль практической деятельности направленной на обработку и анализ числовых данных.

Статистика позволяет выявить и измерить закономерность развития социально-экономических процессов и явлений, а также взаимосвязи между ними в конкретных условиях места и времени.

Под закономерностью понимается повторяемость, последовательность и порядок изменений в явлениях.

Статистическая закономерность – закономерность в которой необходимость неразрывно связанном в каждом отдельном явлении со случайностью и лишь во множестве явлений проявляет себя как закон. Понятию статистической закономерности противостоит понятие динамической закономерности проявляющейся в каждом явлении. (пример: S круга =pr 2 чем > r тем > S круга). Объектом статистического исследования является статистическая совокупность – множество единиц обладающих массовостью, однородностью, определяемой целостностью и наличием вариации. Каждый отдельно взятый элемент называется – единицей статистической совокупности (ЕСС)

§2. Признаки единиц статистической совокупности, их классификация.

ЕСС обладают определенными свойствами которые называются признаками. Статистика изучает явления через их признаки, чем более однородна совокупность тем больше общих признаков имеют ее единицы и тем меньше варьируют значения этих признаков.

Описательный признак – признак, который может быть выражен только словесно.

Количественный признак – признак, который может быть выражен численно.
Прямой признак – свойство непосредственно присуще характерному объекту.
Косвенный признак – свойства не самого характеризуемого объекта, а объекта связанного с ним либо входящих в него.
первичный признак – абсолютная величина, может быть измерен.
вторичный признак – результат сопоставления первичных признаков, он измеряется непосредственно.
натуральный признак – измеряется в штуках, кг, тоннах, литрах и т.д.
трудовой признак – измеряется в человеко-днях, человеко-часах.
стоимостной признак - измеряется в рублях, $, €, ₤.
безразмерный признак – измерение в долях, %
альтернативный признак – признак, который принимает только одно значение из нескольких возможных.
дискретный признак – принимает только целое значение, без промежуточного.
непрерывный признак – признак, принимающий любые значения в определенном диапазоне.
факторный признак – признак, под действием которого изменяется другой признак.
результативный признак – признак, который изменяется под признаком другого
моментный признак – признак, измеренный на определенный момент времени.
интервальный признак – признак за определенный интервал времени.

Один и тот же признак может быть классифицирован одновременно по разным классификациям.

§3. Предмет и метод статистики .

Предметом статистического исследования являются статистические совокупности – множество одно-качественных варьирующих предметов.

Специфика предмета статистики обуславливает специфику метода, они включают в себя:

сбор данных (статистическое наблюдение, публикация)
обобщение данных (сводка, группировка)
представление данных (таблицы и графики)
анализ и интерпретация числовых данных (расчет средних, вариационных анализ, КРА, ряды динамики, индексы)

тема 2: Организация статистического наблюдения.

Сводка и группировка данных.

§1. Понятие статистического наблюдения, его подготовка.

§2. Виды статистического наблюдения.

§3 Ошибки наблюдения.

§4 Сводка и группировка

§5 Виды статистических группировок.

§6 Статистические таблицы.

§7 Статистические графики.

§1. Понятие статистического наблюдения, его подготовка.

Любое статистическое исследование начинается со сбора данных.

Источники информации:

различные публикации (газеты, журналы, и т.д.)
главный источник опубликованной статистической информации – издания органов государственной статистики («РФ в 2001 году» издательство ГОСКОМСТАТ).
проведение статистического наблюдения, т.е. научно организованного сбора данных.

Статистическое наблюдение – массовое, плановое, научно организованное наблюдение за явлением социальной и экономической жизни, которая заключается в регистрации признаков у каждой единицы изучаемой совокупности.

Процесс проведения наблюдения:

Подготовка к наблюдению
Проведение массового сбора данных
Подготовка данных к обработке
Разработка предложений по совершенствованию статистического наблюдения.

Подготовка наблюдения:

Определение цели и объекта наблюдения
Определение состава признаков подлежащих регистрации
Разработка документов для сбора данных
Выбор отчетной единицы и единицы относительно которой будет проводится наблюдение.
Необходимо определить методы и средства получения данных.

Необходимо решить организационные проблемы:

необходимо определить состав служб проводящих исследование
проинструктировать персонал
составить календарный план работы
провести тиражирование документов для сбора данных

Объектом наблюдения являются социально-экономические явления и процессы.

Необходимо четко выделить признаки для регистрации.

Программа наблюдения – перечень признаков подлежащих регистрации признаков в процессе наблюдения.

Требования к программе наблюдения:

Программа должна содержать существенные признаки, непосредственно характеризующие изучаемое явление, не следует включать в программу признаки, имеющие второстепенные явления или признаки, значения которых будут заведомо недостоверны или будут вообще отсутствовать.
Вопросы программы наблюдения должны быть точными и не двусмысленными, а также легкими для понимания во избежании трудностей при получении ответов.
Следует определить последовательность вопросов.
В программу наблюдения следует включать вопросы непосредственного характера для проведения и уточнения собираемых данных.
для обеспечения единообразия получаемых сведений программа оформляется в виде документа – называемый статистическим формуляром.

Статистический формуляр - это документ единого образца содержащий программу и результаты наблюдений.

Различают индивидуальный формуляр (ответы на вопросы по одной единице наблюдения) и списанный (сведения по нескольким единицам статистической совокупности).

Формуляр и инструкция по его заполнению являются инструментарием статистического наблюдения.

Выбор времени наблюдения заключается в решении 2 х вопросов: установлении критической даты либо интервала, определением периода наблюдения.

Критическая дата – конкретный день года, час дня по состоянию на который должны быть зарегистрированы признаки по каждой единице изучаемой совокупности.

Период наблюдения – время в течении которого происходит заполнение статистических формуляров т.е. время необходимое для сбора данных.

Следует учитывать, что отдаление периода наблюдения от критической даты или интервала может привести к снижению достоверности получаемых сведений.

§2. Виды статистического наблюдения.

В отечественной статистике используются три формы статистических наблюдений.

статистическая отчетность предприятий, организаций, учреждений.
специально организованное статистическое наблюдение (перепись и т.д.)
регистр – форма непрерывного статистического наблюдения за долговременными процессами

Статистическое наблюдение классифицируется:

По времени наблюдения:

текущее наблюдение – производится непрерывная регистрация признаков (загс, преступление, и т.д.).
периодическое наблюдение – производится через определенные интервалы времени (уровень жизни в городе Челябинске, стоимость потребительской корзины, перепись населения).
Единовременный – наблюдение, производимое один раз под конкретную цель.

По охвату единиц совокупности:

Сплошное наблюдение – должна быть получена информация обо всех ЕСС
Не сплошное наблюдение:
- Способ основного массива – обследованию подвергаются самые существенные единицы изучаемой совокупности (изучить предприятие машиностроения Челябинской области).
- Выборочное наблюдение – случайный отбор ЕСС подлежащих наблюдению.
- Монографическое наблюдение – когда наблюдению подвергается одна ЕСС, часто используются для составления программы массового наблюдения.

По способу сбора данных:

Непосредственное наблюдение – сами регистраторы путем непосредственного замера, взвешивания устанавливают факт подлежащей регистрации (ребенок в возрасте до 1 года в поликлинике).
Документальное наблюдение – используются различные документы (составление декларации)

Опрос – необходимые сведения получают со слов респондента.

Экспедиционный опрос – осуществляется специально подготовленными работниками которые получают необходимую информацию на основе опроса соответствующих лиц и сами фиксируют ответы в формуляре. Экспедиционный опрос может быть прямым (лицом к лицу) и опосредованным (опрос по телефону)
Корреспондентский опрос – сведения сообщает штат добровольных корреспондентов, данный способ требует малых финансовых затрат, но не дает точного значения проводимого наблюдения.
Саморегистрация – формуляры заполняются самими респондентами, а регистраторы лишь раздают им бланки опросных листов и объясняют заполнение их.

§3. Ошибки наблюдения

Основное требование, применяемое к статистическому наблюдению - это точность.

Точность – степень соответствия какого-либо показателя признака определенным по материалам статистического наблюдения действительной величине.

Расхождение между расчетным и действительным значением называется ошибкой наблюдения в зависимости от причин возникновения различают: ошибки регистрации и ошибки репрезентативности. Ошибки регистрации делятся на случайные и систематические.

Случайные ошибки – результат действий случайных факторов (перепутаны строки, столбцы)

Систематические ошибки – всегда имеют тенденцию либо к завышению либо к занижению показателя. (возраст)

Ошибки репрезентативности – характер для не сплошного наблюдения и возникают в результате неточного воспроизведения выборной всей исходной совокупности.

После получения статистических формуляров необходимо:

провести проверку полноты собранных данных.
провести арифметический контроль, основанный на связи различных признаков между собой.
провести логический контроль основанный на знании логических связей между признаками.

§4. Сводка и группировка

На основе собранных данных нельзя произвести расчет и сделать выводы, для начала их нужно обобщить и свести в единую таблицу. Для этих целей служат сводка и группировка.

Сводка – комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность и выявление типичных черт и закономерностей присущих изучаемому явлению в целом.

Простая водка – подсчет общих итогов по совокупности.

Сложная сводка – комплекс операций по группировке единичных наблюдений, подсчет итогов по каждой группе и по всему объекту в целом и представлении результатов в виде статистических таблиц.

По форме обработки материала сводка бывает децентрализованная, централизованная – такая сводка проводится при единовременном статистическом наблюдении.

Группировка – расчленение множества единиц изучаемой совокупности на группы по определенным признакам.

§5. Виды статистических группировок

Группировки могут быть классифицированы по структуре и по содержанию.

Аналитическая группировка характеризует взаимосвязь между признаками один из которых является факторным другой результативным.

образование

Незаконченное высшее

§6. Статистические таблицы

Результаты сводки и группировки должны быть представлены так, чтобы ими можно было пользоваться.

Существует 3 способа представления данных:

данные могут быть включены в текст.
представление в таблицах.
графический способ

Статистическая таблица – система строк и столбцов, в которой в определенной последовательности излагается статистическая информация о социально-экономических явлениях.

Различают подлежащее и сказуемое таблицы.

Подлежащим называется объект характеризующийся числами, обычно подлежащее дается в левой части таблицы.

Сказуемое – система показателей с помощью которых характеризуется объект.

Статистическая таблица содержит 3 вида заголовков: общее, боковое

Общий заголовок должен отражать содержание всей таблицы, располагается над таблицей по центру.

Правило составления таблиц.

обязательны все три вида заголовков без сокращений слов, общие единицы измерения можно вынести в заголовок.
в таблице не должно быть лишних линий, вертикальная разметка может отсутствовать.
Итоговая строка обязательна. Она может быть как в начале так и в конце документа. Если в начале документа то если в конце то ИТОГО:

цифровые данные в пределах одной графы записываются с одной степенью точности. Разряды записываются строго под разрядами, целая часть отделяется запятой.
в таблице не должно быть пустых клеток, если данные отсутствуют, то пишут «Сведений нет» или «…», если данные равны нулю, то «–». Если значение не равно нулю но первая значащая цифра появляется после заданной точности 0,01®0,0 – если принятая точность до десятых.
если в таблице много граф, то графы подлежащего обозначаются заглавными буквами, а графы сказуемого цифрами.
если таблица основана на заимствованных данных, то под таблицей указывается источник данных, в случае необходимости таблица может сопровождаться примечаниями.

§7. Статистические графики

Статистические таблицы могут дополняться графиками.

Статистические графики – условные изображения числовых величин и их соотношений посредством линий, геометрических фигур, рисунков.

Плюсы графического изображения

наглядно, обозримо, выразительно.
сразу видны пределы изменения показателя, сравнительная скорость изменения и колеблемость

Минусы графического изображения

Включают меньшее количество данных чем в таблице.
на графике показываются округленные данные, общая ситуация, но не детали.

Статистические графики

Диаграммы

Фигурные

Тема 3: Статистические показатели.

§1. Сущность и значение статистического показателя, его атрибуты.

§2. Классификация статистических показателей.

§3. Виды относительных показателей. Принципы построения.

§4. Системы статистических показателей.

Статистический признак – свойство присущее ЕСС, он существует объективно от того изучает его как наука или нет

Статистический показатель – обобщающая характеристика какого-либо свойства совокупности.

Структура статистического показателя (его атрибуты):

Средние величины
Показатели вариации
Показатели связи признаков
Показатели структуры и характера распределения
Показатели динамики
Показатели колебимости
Показатели точности и надежности выборочных оценок
Показатели точности и надежности прогнозов

По виду : суммарное количество единиц либо суммарное свойство объекта. Это сумма первичных признаков, измеряется в шт., кг, м, $, и т.д.

Относительный показатель – получаемый путем сопоставления абсолютных или относительных показателей в пространстве, во времени или в сравнении показателей разных свойств изучаемого объекта.

Относительный показатель 1 го порядка получается путем сопоставления 2 х абсолютных показателей. Относительный показатель 2 го порядка получается путем сопоставления относительных показателей 1 го порядка и т.д.

Относительный показатель 3 го порядка и выше встречаются очень редко.

Прямые показатели – такие показатели величина которых увеличивается с увеличением исследуемого явления.

Обратные показатели – показатели величина которых уменьшается с увеличением исследуемого явления.

…структуры

…динамики

…взаимосвязи

…интенсивности

…отношение к нормативу

…сравнения

Показатели структуры получаются путем отношения части к целому.

Относительные показатели динамики

ü Показатели динамики (темпы роста, прироста)

ü Индексы

Показатели взаимосвязи характеризуют связи между признаками:

ü Коэффициент корреляции

ü Аналитические индексы

Показатели интенсивности характеризуют отношение двух объектов по разным признакам.

ü Трудоемкость – количество времени используемое для изготовления одной единицы изделия

ü Выработка – количество продукции произведенное в единицу времени

ВЫРАБОТКА = 1/трудоемкость

Показатели отношения к нормативу – соотношение фактических величин признака показателя к нормативным, плановым, оптимальным.

Показатели сравнения – сравнение разных объектов по одному признаку.

Общие принципы построения статистических показателей:

статистические показатели объективно связаны.
сравниваемые показатели могут отличаться только одни атрибутом, нельзя сопоставлять показатель по двум и более атрибутам.
необходимо знать и учитывать границы показателя.

Для каждой характеристики объекта необходима система статистических показателей.

функция позновательская – основывается на анализе данных
пропагандистская
стимулирующая функция

тема 4: Средние величины

§1. понятие средней величины

§2. виды средних величин

§3. средняя арифметическая и ее свойства

§4. среднее гармоническое, геометрическое, квадратическое.

§5. многомерная средняя

Наиболее распространенной формой статистических показателей является средняя величина.

Важнейшее свойство средней заключается в том, что она отражает то общее, что присуще каждой единице изучаемой совокупности, хотя значение признака отдельных единиц совокупности могут колебаться в ту или иную сторону.

Типичность средней непосредственно связана с однородностью изучаемой совокупности. В случае не однородной совокупности необходимо провести разбивку ее на качественно однородные группы и рассчитать среднюю по каждой по каждой из однородных групп.

Определить среднюю можно через исходное соотношение средней (ИСС) ее логическую формулу.

Структурные средние

Мода – Мо

Медиана – Ме

В рядах динамики рассчитывается средняя арифметическая, средняя хронологическая.

Средней арифметической называется такое среднее значение признака при вычислении которого общий объем признака не изменяется.

Пример: вес.

Ср. арифметическое простое

x i – индивидуальное значение признака

n – общее число изучаемой совокупности

ср. арифметическое взвешенное

Свойства ср. арифметической.

Сумма отклонений индивидуальных значений признака от его средней величины равно нулю

если каждое индивидуальное значение признака умножить или разделить на одно и тоже постоянное число, то среднее увеличится или уменьшится во столько же раз.

если к каждому индивидуальному значению признака прибавить одно и тоже постоянное число, то средняя величина изменится соответственно на тоже самое число.

Доказательство

если веса f средней взвешенной умножить или разделить на одно и тоже число, то средняя не изменится.

сумма квадратов отклонений признака меньше чем от любого другого числа.

Другие виды средних

Вид средней	Простая средняя	Взвешенная средняя
гармоническая
геометрическое
Квадратическая

Очень трудно охарактеризовать группировку по одному признаку и мало остается информации в памяти.

Многомерная средняя – средняя величина для нескольких признаков Е.С.С.

Из отношений значений признака для Е.С. к средним значениям этих признаков.

Многомерная средняя для i единицы

x ij – значение признака j для i единицы

Среднее значение признака j

k – число признаков

j – номер признака и номер его совокупности

тема 5: Вариационный анализ

§1. Вариация признаков и ее причины

§2. Ряды распределения

§3. Структурные характеристики вариационного ряда.

§4. Показатели силы вариации.

§5. Показатели интенсивности вариации

§6. виды дисперсии. Правило сложения дисперсии.

Вариацией значения какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени.

Причина вариации: разные условия существования ЕСС именно вариация порождает необходимость в такой науке как статистика.

Проведение вариационного анализа начинается с построения вариационного ряда – упорядоченное распределение единиц совокупности по возрастающим или по убывающим признакам и подсчет соответствующих частот.

Ряды распределения

ü ранжированные

ü дискретные

ü интервальные

Ранжированный вариационный ряд – перечень отдельных ед. совокупности в порядке возрастания убывания ранжированного признака

Дискретный вариационный ряд – таблица состоящая из 2 х строк – полимерных значений варьирующего признака и кол-во единиц с данным значением признака.

Интервальный вариационный ряд строится в случаях:

признак принимает дискретные значения, но кол-во их слишком велико
признака принимает любые значения в определенном диапазоне

При построении интервального вариационного ряда необходимо выбрать оптимальное количество групп, самый распространенный способ по формуле Стерджесса

k – количество интервалов

n – объем совокупности

При расчетах почти всегда получают дробные значения, округления производить до целого числа.

Длина интервала – l

Виды интервалов

нижняя граница последующего интервала повторяет верхнюю границу последующего интервала

открытый интервал, интервал с одной границей

При расчетах по интервальному вариационному ряду за x i принимается середина интервала.

N ME =60 медиана = 1

Кумулята – распределение меньше чем

Огива – распределение больше чем

Медиана – значение признака делящее всю совокупность на две равные части.

Для дискретного вариационного ряда расчет медианы: если n-четное, то № Ме медианой единицы

Интервальный вариационный ряд:

k – количество интервалов

х 0 – нижняя граница медианного интервала

l – длина медианного интервала

Сумма частот

Накопленная частота интервала предшествующая медианному.

Частота медианного интервала

Медианный интервал – первый интервал накопленная частота которого превышает половину от общей суммы частот.

Графически медиана находится по кумуляте.

Квартили – значение признака делящее совокупность на 4 равные части.

1 ый квартиль

3 ий квартиль

2 ой квартиль – медиана.

x Q 1 x Q 3 – нижняя граница интервала содержащего 1 го и 3 го квартили.

l – длина интервала

и - накопленные частоты интервалов предшествующих интервалов содержащих 1 и 3 квартили.

Частоты квартильных интервалов.

Для характеристики вариационного ряда используются:

Децили – делят совокупность на 10 равных частей, Перцитили – делят совокупность на 100 равных частей.

Мода – часто встречающаяся характеристика признака. Для дискретного вариационного ряда – наибольшая частота. Для интервального вариационного ряда мода рассчитывается по следующей формуле:

Нижняя граница модального интервала

l – длина модального интервала

f Mo – частота модального интервала

f Mo +1 – частота интервала следующего за модальным

Модальный интервал – интервал с наибольшей частотой. Графически мода находится по гистограмме.

Размах вариации
Среднее линейное отклонение

Взвешенная

Дисперсия:

Взвешенная

Средне квадратическое отклонение

Свойство дисперсии.

уменьшение всех значений признака на одну и ту же величину не меняет величину дисперсии.
Уменьшение всех значений признаков в к раз уменьшает величину дисперсии в к 2 раз, а СКО в к раз
если исчислить средний квадрат отклонений от любой величины А отличающийся от средней арифметической, то он всегда будет больше среднего квадрата отклонений исчисленного из средней арифметической. Таким образом от средней всегда меньше исчисленной от любой другой величины т.е. она имеет свойство минимальности. СКО=1,25 -при распределениях близких к нормальному.

В условиях нормального распределения существует следующая зависимость между и количеством наблюдений в пределах находится 68,3% наблюдений.

В пределах находится 95,4% наблюдений

В пределах находится 99,7% наблюдений

Для сравнения вариации признаков в разных совокупностях или для сравнения вариации разных признаков в одной совокупности используются относительные показатели, базой служит средняя арифметическая.

Относительный размах вариации.
Относительное линейное отклонение
Коэффициент вариации

данные показатели дают не только сравнительную оценку но и образуют однородность совокупности. Совокупность считается однородной если коэффициент вариации не превышает 33%.

На ряду с изучением вариации признака по всей совокупности в целом, часто бывает необходимо проследить количественные изменения признака, но группам, на которые делится совокупность и между ними. Эта достигается путем вычисления разных видов.

Виды дисперсии:

Общая дисперсия
Межгрупповая дисперсия
Внутригрупповая дисперсия (остаточная)

1. измеряет вариацию признака во всей совокупности под влиянием все факторов обусловивших данную вариацию

Пример: потребление йогурта: при выборке 100 человек

Социальное положение

x i –индивидуальное значение признака

Среднее значение признака по всей совокупности

Частота этого признака.

2. характеризует вариацию признака под влиянием признака фактора положенного в основу группировки.

Средняя по группе

Общая средняя по группе

Частота по группе

3. характеризует вариацию признака под влиянием факторов не включенных в группировку

x ij – i значение признака в j группе

Среднее значение признака в j группе

f ij – частота i-го признака в j группе

Существует правило которое связывает 3 вида дисперсии, оно называется правило сложения дисперсии.

Остаточная дисперсия по j группе

Сумма частот по j группе

n – общая сумма частот

основная задача анализа вариационных рядов – выявление закономерности распределения частот.

Кривая распределения – графическое изображение в виде непрерывной линии изменения частот в вариационном ряду в функционально связанным изменением значения признака.

Кривую распределения можно построить с помощью полигона и гистограммы. Целесообразно свести эмпирическое распределение к теоретическому, к одному из хорошо изученных виду.

Кривая нормального распределения.

Различают следующие разновидности кривых распределения:

одновершинные
много вершинные

Для однородных совокупностей характерны одновершинные кривые, много вершинная кривая говорит о неоднородности совокупности и необходимости перегруппировки.

Выяснение общего характера распределения предполагает оценку его однородности, и расчет асимметрии и эксцесса. Для симметричных распределений

Для сравнительного изучения асимметрии различных распределений вычисляется коэффициент асимметрии As.

Центральный момент третьего порядка; - СКО в кубе;

Если, то асимметрия значительная

Если As<0, то As – левосторонняя, если As>0, то As – правосторонняя.

Если, то As незначительная. Для симметричных и умеренно асимметричных рассчитывается показатель эксцесса: , если Е к >0, то распределение островершинное, если E k <0, то распределение плосковершинное.

Вариация альтернативного признака количественно проявляется следующим образом.

0 – единицы не обладающие данным признаком;

1 – единицы обладающие данным признаком;

р – доля единиц обладающих данным признаком;

q – доля единиц не обладающих данным признаком;

тогда p+ q=1.

Альтернативный признак принимает 2 значения 0 и 1 с весами p и q.

Прямые признаки – это такие признаки, величина которых увеличивается с увеличением исследуемого явления.

Обратные признаки – признаки, величина которых уменьшается с увеличением исследуемого явления.

Выработка (прямой)

Трудоемкость (обратный)

Максимальная дисперсия доли равна 0,25.

Тема 6: Моделирование рядов распределения.

§1. Фактическое и теоретическое распределение

§2. Кривая нормального распределения.

§3. Проверка гипотезы о нормальном распределении.

§4. Критерии согласия: Пирсона, Романовского, Колмогорова.

§5. Практическое значение моделирования рядов распределения.

§1. Фактическое и теоретическое распределение

Одна из важнейших целей изучения рядов распределения состоит в том, чтобы выявить закономерность распределения и определить ее характер. Закономерности распределения наиболее отчетливо проявляются только при большом количестве наблюдений.

Фактическое распределение может быть изображено графически с помощью кривой распределения – графически изображается в виде непрерывной линии изменения частот в вариационном ряду функционально связанного с изменением варианта.

Под теоретической кривой распределения понимается кривая данного типа распределения в общем виде исключающего влияние случайных для закономерности факторов.

Теоретическое распределение может быть выражено аналитической формулой которая называется аналитической формулой. Наиболее распространенным является нормальное распространение.

§2. Кривая нормального распределения.

Закон нормального распределения:

у – ордината нормального распределения

t – нормированное отклонение.

; е=2,7218; x i – варианты вариационного ряда; - среднее;

Свойства:

Функция нормального распределения – четная, т.е. f(t)=f(-t), . Функция нормального распределения полностью определяется и СКО.

§3. Проверка гипотезы о нормальном распределении.

Причиной частого обращения к закону распределения является то, что зависимость возникающая в результате действия множества случайных причин ни одна из которых не является преобладающей. Если в вариационном ряду рассчитали Мо=Ме, то это может указывать на близость к нормальному распределению. Наиболее точная проверка соответствия нормальному закону производится с помощью специальных критериев.

§4. Критерии согласия: Пирсона, Романовского, Колмогорова.

Критерий Пирсона.

Теоретическая частота

Эмпирическая частота

Методика расчета теоретических частот.

Определяется среднее арифметическое и по интервальному вариационному ряду, считается t по каждому интервалу.
Находим значение плотности вероятности для нормированного закона распределения. СТР.49
Находим теоретическую частоту.

l – длина интервала

- сумма эмпирических частот

- плотность вероятности

округлить значение до целых

Расчет коэффициента Пирсона
табличное значение

d.f. – количество интервалов – 3

d.f. – количество степеней свободы.

если > , то распределение не является нормальным, т.е. гипотеза о нормальном распределении отменяется. Если < , то распределение является нормальным.

Критерий Романовского.

Критерий Пирсона расчетный;

Число степеней.

Если С<3, то распределение близко к нормальному.

Критерий Колмогорова

, D – максимальное значение между накопленными эмпирическими и теоретическими частотами. Необходимое условие для использования Колмогорова: Число наблюдений более 100. По специальной таблице вероятностей с которой можно утверждать, что данное распределение является нормальным.

§5. Практическое значение моделирования рядов распределения.

возможность применить к эмпирическому распределению законов нормального распределения.
возможность использования правила 3 х сигм.
Возможность избежать дополнительных трудоемких и затратных расчетов, по исследованию совокупности зная, что распределение нормальное.

Тема 7: Выборочное наблюдение.

§1. Понятие выборочного наблюдения. Причины его применения.

§2. Виды выборочного наблюдения.

§3. Ошибки выборочного наблюдения.

§4. Задачи выборочного наблюдения

§5. Распространение данных выборочного наблюдения на генеральную совокупность.

§6. Малая выборка.

§1. Понятие выборочного наблюдения. Причины его применения.

Выборочное наблюдение – такое не сплошное наблюдение, при котором статистическому обследованию подвергаются единицы изучаемой совокупности, отобранные определенным образом.

Цель (задача) выборочного наблюдения: по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов статистического наблюдения.

Причины применения выборочного наблюдения:

экономия материальных, трудовых затрат и времени;
возможность более детально и подробно изучит отдельные единицы статистической совокупности и их группы.
некоторые специфические задачи можно решить только с применением выборочного наблюдения.
грамотное и хорошо организованное выборочное наблюдение дает высокую точность результатов.

Генеральная совокупность – совокупность единиц, из которых производится отбор.

Выборочная совокупность – совокупность отобранных для обследования единиц. В статистике принято различать параметры генеральной совокупности и выборочной совокупности.

Виды выборочного наблюдения

По методу отбора:

Повторное

Попавшая в выборку единица после регистрации наблюдаемых признаков возвращаются в генеральную совокупность для участия в дальнейшей процедуре отбора.

Объем генеральной совокупности остается неизменным, что обуславливает постоянное попадание в выборку какой-либо единицы.

Бесповторное

Попавшая в выборку единица не возвращается в совокупность, из которой происходит отбор.

По способу отбора:

Собственно-случайная заключается в отношении единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности. Однако прежде чем проводить такую выборку, нужно убедиться, что все единицы генеральной совокупности имеют равные шансы попасть в выборку, т.е. в полном перечне единиц статистической совокупности отсутствуют пропуски или игнорирования отдельных единиц. Следует, также, четко установить границы генеральной совокупности. Технически сложившейся отбор осуществляется методом жеребьевки или с помощью таблицы случайных чисел.

Механическая выборка (каждый 5 по списку) применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последовательность в распределении единиц. При проведении механической выборки устанавливается пропорция отбора, которая устанавливается соотношением генеральной совокупности и выборочной совокупности.

Опасность ошибки при механической выборке может появляться вследствие: случайного совпадения выбранного интервала и циклических закономерностей в расположении единиц генеральной совокупности.

Районированная выборка используется когда все единицы генеральной совокупности можно разбить на группы (районы, страны) по какому-либо признаку.

Комбинированная выборка.

Отбор единиц может быть произведен:

либо пропорционально объему группы
либо пропорционально внутригрупповой дифференциации признака
, где n – объем выборочной совокупности, N – объем генеральной совокупности, n i – объем выборки i -группы, N i – объем i выборки.
- этот способ является более точным, но в ходе проведения выборочного наблюдения очень трудно определить заранее о вариации. (до проявления наблюдения).

Серийный отбор.

Используется когда ЕСС объединены в небольшие группы (серии), например упаковка с готовой продукцией, студенческие группы. Сущность серийной выборки – серии отбираются собственно случайным, либо механическим способом, а затем осуществляется сплошное обследование внутри отобранной серии.

Комбинированный отбор.

Это комбинация рассмотренных выше способов отбора чаще применяется комбинация типичных и серийных серии, т.е. отбор серий из нескольких типических групп.

Отбор моет быть еще многоступенчатым и одноступенчатым, многофразным и однофразным.

Многоступенчатый отбор: из генеральной совокупности сначала извлекаются укрупненные группы, затем более мелкие, и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.

Многофразная выборка: предполагает сохранение одной и той же единицы отбора на всех этапах его проведения. При этом отобранные на каждой последующей стадии единицы отбора подвергаются обследованию, программа которого расширяется (Пример: студенты всего института, затем студенты каких-то факультетов).

§3. Ошибки выборочного наблюдения.

Систематические

Ошибки репрезентативности возникают только при выборочном наблюдении. Возникают в силу того, что выборочная совокупность не может в точности воспроизвести генеральную совокупность. Избежать их нельзя, но они легко поддаются прогнозированию и при необходимости их можно свести к минимуму.

Ошибка выборочного наблюдения – это разности между величиной параметра в генеральной совокупности и его величиной вычисленной по результатам выборочного наблюдения. Dх=-m+ , Dх – предельная ошибка в выборке, m - генеральная средняя; - выборочная средняя.

Предельная ошибка выборки – величина случайная исследованию закономерностей случайны ошибок выборки посвящены работы Чебышева. В теореме Чебышева доказано, что Dх не превышает: - средняя ошибка выборки.t-коэффициент доверия указывает на вероятность данной ошибки. Стр 42-43.

В случае, когда нужно определить t по известной F(t) берем F(t) ближайшую большую и по ней определяем t.

Предельная ошибка доль

Р – доля.

Если отбор был осуществлен бесповторным способом, то в формулы предельных ошибок добавляется

Поправка на бес повторность.

Для каждого вида выборочного наблюдения представленная ошибка, рассчитываются по разному:

собственно случайное и механическое наблюдение;
Районированное наблюдение
Серийная выборка

r – количество серий в выборке;

R – количество серий в генеральной совокупности;

Меж групповая дисперсия доли.

§4. Задачи выборочного наблюдения

Применяется для следующих задач:

n - ? для определения объема выборки по известной F(t), Dx.
определение Dx выборки по известной F(t), n
определение F(t) по известным Dx и n

1 задача n - ? Сначала n определяется по формуле повторного отбора, для бесповторного отбора:

Способы для определения дисперсии:

ее берут из предыдущих аналогичных исследований.
СКО при нормальном распределении » 1/6 размаха вариации.
если распределение заведомо асимметричное, то СКО » 1/5 размаха вариации
Для доли применяется дисперсия максимально возможная р(1-р)=0,25
при n³100, то s 2 =S 2 – выборочная дисперсия

30£ n £100, то s 2 =S 2 (n/n-1), s 2 – генеральная дисперсия

n<30, то S 2 (малая, т.к. дисперсия выборочная) и все расчеты ведутся по S 2

При расчете n не следует гнаться за большим значением t и за малыми предельными ошибками, т.к. это ведет к увеличению n следовательно, к увеличению затрат. По следующему закону аналогично.

§5. Распространение данных выборочного наблюдения на генеральную совокупность.

Конечной целью любого ВН является характеристика генеральной совокупности.

Величины, рассчитанные по результатам ВН распространяются на генеральную совокупность с учетом предела их предельной ошибки.

Предположим, что потребление йогурта в месяц одним человеком.

250-20£m£250+20; 230£m£270

А всего 1000 человек

230000£m£270000

48%-5%£p£48%+5%

§6. Малая выборка.

В практике статистического исследования в современных условиях все чаще приходится сталкиваться с небольшими по объему выборками.

Малая выборка – выборка наблюдения численность единиц которого не превышает 30, n£30/

Разработка теории малой выборки была проделана английским статистом Госсет, писавшим под псевдонимом student в 1908 году.

Он доказал, что оценка расхождения между средствами малой выборки и генеральной выборки имеет особый закон распределения. При расчетах по малой выборке величина s 2 не рассчитывается. t ст для возможных пределов ошибки пользуются критерием student. Стр.44-45. - вероятность обратного события.

Количество степеней свободы

предельная ошибка малой выборки

предельная ошибка доли

Тема 8: Корреляционно-регрессионный анализ и моделирование.

§1. Понятие корреляционной связи и КРА.

§2. Условия применения и ограничения КРА.

§3. Парная регрессия на основе метода наименьших квадратов.

§4. Применение парного линейного уравнения регрессии.

§5. Показатели тесноты связи и силы связи.

§6. Множественная корреляция.

§1. Понятие корреляционной связи и КРА.

Функциональная связь y=5x

Корреляционная связь

Различают 2 типа связей меду различными явлениями и их признаком функциональную и статистическую.

Функциональной называется такая связь когда с изменением значения одной из переменных вторая изменяется строго определенным образом, т.е., значению одной переменной соответствует одно или несколько точно заданных значений другой переменной. Функциональная связь возможна лишь в том случае, когда переменная у зависит от переменной х и не от каких других факторов не зависит, но в реальной жизни такое невозможно.

Статистическая связь существует в том случае, когда с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения, но ее статистические характеристики изменяются по определенному закону.

Важнейший частный случай статистической связи – корреляционная связь. При корреляционной связи разным значениям одной переменной соответствуют различные средние значения другой переменной, т.е. с изменением значения признака х закономерным образом изменяется среднее значение признака у.

Слово корреляция ввел английский биолог и статист Френсис Галь (correlation)

Корреляционная связь может возникнуть разными путями:

причинная зависимость вариации результативного признака от вариации факторного признака.
Корреляционная связь может возникнуть между 2 следствиями одной причины (пожары, кол-во пожарников, размер пожара)
Взаимосвязь признаков каждый из которых и причина и следствие одновременно (производительность труда и з/плата)

В статистике принято различать следующие виды зависимости:

парная корреляция – связь между 2 мя признаками результативным и факторным, либо между двумя факторными.
частная корреляция – зависимость между результативным и одним факторным признаком при фиксированном значении другого факторного признака.
множественная корреляция – зависимость результативного признака от двух и более факторных признаков включенных в исследование.

Задачей корреляционного анализа является количественная оценка тесноты связи между признаками. В конце 19 века Гальтон и Пирсон исследовали зависимость между ростом отцов и детей.

Регрессия исследует форму связи. Задача регрессионного анализа – определение аналитического выражения связи.

Корреляционно-регрессионный анализ как общее понятие включает в себя изменение тесноты связи и установления аналитического выражения связи.

§2. Условия применения и ограничения КРА.

наличие массовых данных, т.к. корреляционная связь является статистической
необходима качественная однородность совокупности.
подчинение распределения совокупности по результативному и факторному признаку, нормальному закону распределения, что связано с применением метода наименьших квадратов.

§3. Парная регрессия на основе метода наименьших квадратов.

Регрессионный анализ заключается в определении аналитического выражения связи. По форме различают линейную регрессию, которая выражается уравнением прямой, и не линейную регрессию или.

По направлению связи различают на прямую т.е. с увеличением признака х увеличивается признак у.

обратная

Обратная т.е. с увеличением х уменьшается у.

способ графический – нанеся эмпирические данные на поле корреляции, но более точная оценка производится с помощью метода наименьших квадратов.

Х – признак фактический

У - признак результативный

Разница между фактическим значением и значением рассчитанным по уравнению связи возведенное в квадрат должна стремиться к минимуму.

При МНК min сумма квадратов отклонений эмпирических значений у от теоретических полученных по выбранному уравнению регрессии.

Для линейной зависимости

Þ а, b

для параболы

Для гиперболы

параметры a,b,c записываются в уравнение, затем подставляем полученное уравнение эмпирическое значение x i и находим теоретическое значение y i . Затем сравниваем y i теоретическое и y i эмпирическое. Сумма квадратов разности между ними должна быть минимальна. Выбираем тот вид зависимости при котором выполняется данная зависимость.

В уравнении парной линейной регрессии:

b – коэффициент парной линейной регрессии, он измеряет силу связи, т.е. характеризует среднее по совокупности отклонение у от его средней величины на принятую единицу измерения.

b =20 при изменении х на 1 признак у отклониться от своего среднего значения на 20 в среднем по совокупности.

Положительный знак при коэффициенте регрессии говорит о прямой связи между признаками, знак «-» говорит об обратной связи между признаками.

§4. Применение парного линейного уравнения регрессии.

Основное применение – прогнозирование по уравнению регрессии. Ограничением при прогнозировании служат условия стабильности других факторов и условий процесса. Если резко измениться в нем среда протекающего процесса, то данное уравнение регрессии не будет иметь места.

Точечный прогноз получается подстановкой в уравнение регрессии ожидаемого значения фактора. Вероятность точной реализации такого прогноза крайне мала.

Если точечный прогноз сопровождается значением средней ошибки прогноза, то такой прогноз называется интервальным.

Средняя ошибка прогноза образуется из двух видов ошибок:

ошибок 1 рода – ошибка линии регрессии
ошибка 2 рода – ошибка связанная с ошибкой вариации.

Средняя ошибка прогноза.

Ошибка положения линии регрессии в генеральной совокупности

n - объем выборки

x k – ошибочное значение фактора

СКО результативного признака от линии регрессии в генеральной совокупности

Корреляционный анализ предполагает оценку тесноты связи. Показатели:

линейные коэффициент корреляции – характеризует тесноту и направление связи между двумя признаками в случае наличия между ними линейной зависимости

при =-1 связь функциональная обратная, =1 связь функциональная прямая, при =0 связь отсутствует.

Применяется только для линейных связей, используется для оценки связей между количественными признаками. Рассчитываются только по индивидуальным значениям.

Корреляционное отношение:

Эмпирическое: оба вида дисперсии рассчитываются по результативному признаку.

Теоретическое:

Дисперсия значений результативного признака рассчитанных по уравнению регрессии

Дисперсия эмпирического значения результативного признака

высокая степень точности
подходит для оценки тесноты связи между описательным и количественным признаком, но количественный должен быть результативным
подходит для любых типов связей

Коэффициент корреляции Спирмена

Ранги – порядковые номера единиц совокупности в ранжированном ряду. Ранжировать оба признака необходимо в одном и том же порядке от меньших к большим или наоборот. Если ранги единиц совокупности обозначить р х и р у, то коэффициент корреляции рангов примет следующий вид:

Преимущества коэффициента корреляционного ряда:

Ранжировать можно и по описательным признакам, которые нельзя выразить численно, следовательно расчет коэффициента Спирмена возможен для следующих пар признаков: кол-во – кол-во; описательный – количественный; Описательный – описательный. (образование – описательный признак)
показывает направление связи

Недостатки коэффициента Спирмена.

одинаковым разностям рангов могут соответствовать совершенно отличные разности значения признака (в случае количественных признаков). Пример: Выработка электроэнергии страны в год

США 2400 кВт/ч 1

РФ 800 кВт/ч 2

Канада 600 кВт/ч 3

Если среди значения Спирмена встречаются несколько одинаковых, то образуются связанные ранги т.е. одинаковые средние номера

В данном случае коэффициент Спирмена рассчитывается следующим образом:

j – номера связок по порядку для признака х

A j – число одинаковых рангов в j связи по х

k – номера связок по порядку признака у

B k – число одинаковых рангов в к-ой связке по у

4. Коэффициент корреляции ранга Кендалла

Максимальная сумма ранга

S – фактическая сумма рангов

Дает более строгую оценку чем коэффициент Спирмена.

Для расчета все единицы ранжируются по признаку х по признаку у для каждого ранга подсчитывается число последующих рангов превышающих данный их сумму обозначим Р и число последующих рангов ниже данного обозначения Q.

P+Q= 1 / 2 n(n-1)

Коэффициент корреляции ранга Фехнера.

Коэффициент Фехнера – мера тесноты связи в виде отношения разности числа пар совпадающих и не совпадающих знаков к сумме этих чисел.

расчет средних по х и у
сравниваются индивидуальные значения x i y i со средними значениями с обязательным указанием знака «+» или «-». Если знаки совпадают по х и у, то мы относим их числу «С» если, нет, то к «Н».
подсчитываем количество совпадающих и несовпадающих пар.

Задача измерения связи становится перед статисткой по отношению к описательным признакам, важным частным случаем такой задачи, измерения связи между 2 альтернативными признаками один из которых причина другой последствие.

Теснота связи между 2 альтернативными признаками может быть измерена с помощью 2х коэффициентов:

коэффициент ассоциации
коэффициент контингенции

Коэффициент контингенции имеет недостаток: при равных нулю одного из двух гетерогенных сочетаний Ав или Ва коэффициент обращается в единицу. Очень либерально оценивает тесноту связи – завышает ее.

Коэффициент Пирсона

При наличии не двух, а более возможных значений каждого из взаимосвязанных признаков рассчитываются следующие коэффициенты:

Коэффициент Пирсона
Коэффициент Чупрова для описательного признака

Коэффициент Пирсона рассчитывается по квадратным матрицам

	Ниже нормы

к 1 и к 2 – число группы по признакам 1 и 2 соответственно. Минус коэффициента Пирсона в том, он не достигает 1 даже при увеличении количества групп.

Коэффициент Чупрова (1874 –1926)

коэффициент Чупрова более строже оценивает тесноту связи.

§6. Множественная корреляция.

Изучение связи между результативным и двумя или более факторными признаками называется множественной регрессией. При исследовании зависимостей методами множественной регрессии ставят 2 задачи.

определение аналитического выражения связи между результативным признаком у и фактическими признаками х 1 , х 2 , х 3 , …х к, т.е. найти функцию у=f(х 1 , х 2 , …х к)
Оценка тесноты связи между результативным и каждым из факторных признаков.

Корреляционно-регрессионная модель (КРМ) – такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака.

Построение модели множественной регрессии включает этапы:

выбор формы связи
отбор факторных признаков
обеспечение достаточного объема совокупности для получения верных оценок.

I. все множество связей между переменными, встречающиеся на практике достаточно полно описывается функциями 5-ти видов:

линейная:
степенная:
показательная:
парабола:
гипербола:

хотя все 5 функций присутствуют в практике КРА, наиболее часто используется линейная зависимость, как наиболее простая и легко поддающаяся интерпретации уравнение линейной зависимости: , к – множество факторов включающихся в уравнение, b j

0 – т.к. >0,7 следовательно на них обращаем особое внимание

ЭКО. Шкала тесноты связи:

Если связь 0 – 0,3 – слабая связь

0,3 – 0,5 – заметная

0,3 – 0,5 – тесная

0,7 – 0,9 – высокая

более 0,9 – весьма высокая

затем сравниваем два признака (доход и пол) <0,7, то включаем в уравнение множественной регрессии.

Отбор факторов для включения в уравнение множественной регрессии:

между результативным и фактическим признаками должна быть причинно-следственная зависимость.
результативный и фактический признаки должны быть тесно связаны между собой иначе возникает явление мультиколлинеарности (>06) , т.е. включенные в уравнение факторные признаки влияют не только на результативный, но друг на друга, что влечет к неверной интерпретации числовых данных.

Методы отбора факторов для включения в уравнение множественной регрессии:

1. экспертный метод – основан на интуитивно логическом анализе который выполняется высококвалифицированными экспертами.

2. использование матриц парных коэффициентов корреляции осуществляется параллельно с первым методом, матрица симметрична относительно единичной диагонали.

3. пошаговый регрессионный анализ – последовательное включение факторных признаков в уравнение регрессии и проверки значимости проводится на основании значений двух показателей на каждом шаге. Показатель корреляции, регрессии.

Показатель корреляции: рассчитывают изменение теоретической корреляции отношения или изменение средней остаточной дисперсии. Показатель регрессии – изменение коэффициента условно чистой регрессии.

Итого