Ряды распределения

Статистические ряды распределения представляют собой упорядоченное распределение единиц совокупности по группам и группировкам. Ряды распределения изучают структуру совокупности, позволяют изучить ее однородность, размах и границы. Ряды распределения, образованные по качественным признакам, называют атрибутивными . При группировке по количественному признаку выделяются вариационные ряды. Вариационные ряды – ряды распределения единиц совокупности по признакам, имеющим количественное выражение, т. е. образованы численными значениями.

Вариационные ряды по строению делятся на:

  1. Дискретные (прерывные) – основаны на прерывных вариациях признака. Это такие ряды, где значения вариант имеют значения целых чисел (т. е. не могут принимать дробные значения). Дискретные признаки отличаются друг от друга на некоторую конкретную величину.
  2. Интервальные (непрерывные) – имеют любые, в том числе и дробные количественные выражения и представлены в виде интервалов. Непрерывные признаки могут отличаться один от другого на сколь угодно малую величину.

Вариационные ряды имеют два элемента:

  1. варианта (x)
  2. частота (f)

Варианта – отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота – численность отдельных вариант или каждой группы вариационного ряда. В некоторых случаях применяется частость . Частоты, выраженные в % или долях процента, называются частостями и рссчитываются как отношение локальной частоты варианты к сумме накопленных частот.

В свою очередь, частота бывает:

  • локальной
  • накопленной (кумулятивная — нарастающим итогом)

Если вариационный ряд имеет неравные интервалы, то частоты в отдельных интервалах не сопоставимы, т. к. зависят от ширины интервала. В этих случаях рассчитывают плотность распределения, которая дает правильное представление о характере распределения вариант (единиц совокупности). Плотность распределения, в свою очередь, бывает:

  • абсолютная плотность распределения – отношение частоты к величине (ширине) интервала
  • относительная плотность распределения — отношение частости к ширине интервала

Интервалы

Локальная частота (f)

Накопленная частота (Σf)

Частость (ω)

Плотность распределения (φ)

20-30

0,03

30-40

0,05

40-50

0,01

50-60

0,01

Для характеристики рядов распределения применяются следующие показатели:

  • средняя степенная
  • мода
  • медиана

Пример:

Условие

Известно распределение 20 однотипных торговых точек по величине ежедневной прибыли (тыс. руб.):

11,3; 10,2; 13,9; 10,7; 11,8; 8,2; 12,4; 9,6; 13,1; 10,6; 6,3; 11,3; 10,2; 15,1; 10,5; 11,0; 15,1; 11,6; 10,4; 11,7.

  1. Составить интервальный ряд распределения.
  2. Построить гистограмму распределения плотности относительных частот.

Решение

Запишем исходные данные в виде ранжированного ряда:

6,3; 8,2; 9,6; 10,2; 10,2; 10,4; 10,5; 10,6; 10,7; 11,0; 11,3; 11,3; 11,6; 11,7; 11,8; 12,4; 13,1; 13,9; 15,1; 15,1.

Диапазон изменения вариант в выборке составляет 6–16. Этот диапазон разобьем на несколько интервалов. Ширину (шаг) интервала рассчитаем по формуле:

Следует иметь в виду, что чем меньше интервал, тем точнее результаты. В нашем случае принимаем размер интервала равным 2 единицам, то есть h=2. Зависимость между количеством групп (n) и численностью единиц совокупности (N) выражается формулой Стерджесса при условии, что данное распределение подчиняется закону нормального распределения (ЗНР) и применяются равные интервалы:

В практической работе можно использовать данные таблицы:

N 15-24 25-44 45-89 90-179 180-359 360-719 720-1439
n 5 6 7 8 9 10 11

Получаем пять интервалов: первый 6–8, второй 8–10, третий 10–12, четвертый 12–14, пятый 14–16.

Определим частоту попадания вариант выборки в каждый интервал.

В первый интервал попадает одно значение ряда: 6,3, поэтому f 1 =1. Во второй интервал попадают два значения: 8,2 и 9,6, поэтому f 2 =2. Аналогично находим f 3 =12, f 4 =3, f 5 =2. Определим относительные частоты попадания вариант выборки в каждый интервал:

в 1 интервал

во 2 интервал

в 3 интервал

в 4 интервал

в 5 интервал

Сумма относительных частот

Следовательно, вычисления выполнены верно.

Определим плотность относительных частот вариант как отношение относительной частоты (ω i) к ширине интервала (h):

для первого интервала

для второго интервала

для третьего интервала

для четвертого интервала

для пятого интервала

Результаты выполненных расчетов сводим в таблицу.

Интервальный ряд распределения прибыли предприятий

Интервал значений прибыли (h) 6 — 8 8 – 10 10 — 12 12 — 14 14 — 16
Частоты вариант (f i) 1 2 12 3 2
Относительные частоты (ω i) 0,05 0,10 0,60 0,15 0,10
Плотность относительных частот (φ i) 0,025 0,050 0,300 0,075 0,050

Гистограмма распределения

Построим гистограмму, показывающую зависимость плотности относительных частот от значения вариант. По горизонтальной оси наносим шкалу возможных значений вариант, по вертикальной оси – плотность относительных частот; величину относительной плотности считаем постоянной внутри соответствующего интервала. Получаем столбчатую диаграмму, называемую гистограммой распределения плотности относительных частот.

Смотри также

Тема 9. Ряды распределения

Статистические ряды распределения – это первичная характеристика массовой статистической совокупности, упорядоченное разложение единиц изучаемой совокупности на группы по группировочному признаку. Любой статистический ряд распределения состоит из двух элементов:

1) отдельных значений варьирующего признака (вариантов );

2) величин, которые показывают, сколько раз повторяется данная варианта (частот ).

Примечание . Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями ; это численность ряда распределения выражается суммой частот .

Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по видам труда, по полу, по профессии, по религиозному признаку, национальной принадлежности и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным . Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, а затем подсчитать числа единиц совокупности с этими значениями (построить групповую таблицу).

Выделяют три формы вариационного ряда :

1) ранжированный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака; ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются; другие формы вариационного ряда - групповые таблицы , составленные по характеру вариации значений изучаемого признака;

2) дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением, между которыми нет промежуточных значений (дискретные признаки - тарифный разряд, количество детей в семье, число работников на предприятии и т.д.); эти признаки могут принимать только конечное число определенных значений;

Дискретный ряд представляет собой групповую таблицу , которая состоит из двух граф: в первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака;

3) если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный ряд (с равными или неравными интервалами).

Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота). Очень часто таблица дополняется графой, в которой подсчитываются накопленные частоты S, которые показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение. Частоты ряда f могут заменяться частностями w , выраженными в относительных числах (долях или процентах). Они представляют собой отношения частот каждого интервала к их общей сумме (9.1):



(9.1)

При построении вариационного ряда с интервальными значениями, прежде всего, необходимо установить величину интервала i, которая определяется как отношение размаха вариации R к числу групп n (9.2):

где R = x max - x min ; n = 1 + 3,322 lgN(формула Стерджесса ); N - общее число единиц совокупности.

Интервальные вариационные ряды могут быть построены и для признаков с дискретной вариацией. Нередко в статистическом исследовании указывать отдельное значение дискретного признака нецелесообразно, т.к. это, как правило, затрудняет рассмотрение вариации признака. Поэтому возможные дискретные значения признака распределяются по группам и подсчитываются соответствующие им частоты (частности). При построении интервального ряда по дискретному признаку границы смежных интервалов не повторяют друг друга: следующий интервал начинается со следующего по порядку (после верхнего значения предыдущего интервала) дискретного значения признака.

При сравнении частот ряда с неравными интервалами для характеристики их наполненности рассчитывают плотность распределения. Средняя плотность в интервале – это частное от деления частоты и частности на величину интервала. В первом случае плотность абсолютная, во втором – относительная. Средняя плотность показывает, сколько единиц или их процентов приходится на единицу измерения варианты. Частота, частность, плотность и накопленная частота – это различные функции от величины варианты.

В процессе анализа статистических данных , представленных рядами распределения, кроме знания о характере распределения (или структуре совокупности) могут вычисляться различные статистические показатели (числовые характеристики), которые в обобщенном виде отражают особенности распределения изучаемых признаков. Эти характеристики (показатели) могут быть разделены на 3 основные группы

1) характеристики центра распределения (средняя, мода, медиана);

2) характеристики степени вариации (вариационный размах, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, коэффициент вариации);

3) характеристики формы (типа) распределения (показатели эксцесса и асимметрии, ранговые характеристики, кривые распределения).

Наиболее надежный путь выявления закономерности распределения состоит в следующем:
1) увеличить количество наблюдаемых случаев (в соответствии с законом больших чисел, в таких рядах случайные отклонения от общей закономерности у индивидуальных значений будут взаимно погашаться);

2) первоначально совокупность разбить на максимальное возможное число групп, затем, постепенно сокращая число групп, оптимизировать группировку с точки зрения выявления закономерности распределения.

При реализации такого подхода закономерность, характерная для данного распределения будет выступать все более и более ясно, а ломаная линия, изображающая полигон, будет приближаться к некоторой плавной линии и в пределе должна превратиться в кривую линию.

Выборка, полученная при проведении экспериментального исследования, представляет собой неупорядочен­ный набор чисел, записанных в той последовательности, в которой производились измерения. Обычно выборка оформляется в виде таблицы, в первой строке (или столбце) которой стоит номер опыта i , а во второй (втором) - зафиксированное значение случайной величины признака. В таком виде выборка представляет собой первичную форму записи статистического материала, который может быть обработан различными способами. В качестве примера рассмотрим результаты, показанные на легкоатлетических соревнованиях толкателями ядра и приведенные в таблице 1. В первой строке этой таблицы записаны номера измерений, а во второй - их численные значения в метрах.

Таблица 1

Результаты соревнований в толкании ядра

x i 16,36 14,91 15,31 14,26 14,77 13,88 14,97 14,01 14,07 14,48
x i 14,44 14,81 13,81 15,15 15,23 15,69 14,29 14,15 14,57 13,92
x i 13,62 14,92 15,73 13,22 14,65 14,8 13,04 15,1 13,3

Как видно из таблицы 1, простая статистическая совокупность перестает быть удобной формой представления статистического материала даже при относительно небольшом объеме выборки: она является достаточно громоздкой и мало наглядной. Проанализировать полученные экспериментальные данные и тем более сделать какие-либо выводы на их основе весьма затруднительно. Исходя из этого, полученный статистический материал должен быть обработан для проведения дальнейшего исследования. Простейшим способом обработки выборки является ранжирование. Ранжированием называют расстановку вариант в порядке возрастания или убывания их значений. Ниже в таблице 2 приведена ранжированная выборка, элементы которой расположены в порядке возрастания.

Таблица 2

Ранжированные результаты соревнований в толкании ядра

x i 13,04 13,22 13,3 13,62 13,81 13,88 13,92 14,01 14,07 14,15
x i 14,26 14,29 14,44 14,48 14,57 14,65 14,77 14,8 14,81 14,91
x i 14,92 14,97 15,1 15,15 15,23 15,31 15,69 15,73 16,36

Но и в таком виде полученные экспериментальные данные плохо обозримы и мало пригодны для непосредственного анализа. Именно поэтому для придания статистическому материалу большей компактности и наглядности он должен быть подвергнут дальнейшей обработке – строится так называемый статистический ряд. Построение статистического ряда начинается с группировки.

Группировкой называется процесс упорядочения и систематизации данных, полученных в ходе проведения эксперимента, направленный на извлечение содержащейся в них информации. В процессе группировки осуществляется распределение вариант выборки по группам или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака. Процесс группировки начинается с разбиения всего диапазона варьирования признака на интервалы группировки.

Для каждой конкретной цели статистического исследования, объема рассматриваемой выборки и степени варьирования признака в ней существует оптимальное значение числа интервалов и ширины каждого из них. Ориентировочное значение оптимального числа интервалов k может быть определено, исходя из объема выборки п либо с помощью данных, приведенных в таблице 3., либо с помощью формулы Стэрджесса:

k = 1 + 3,322 lgn .

Таблица 3

Определение числа интервалов группировки

Получаемое по формуле значение k почти всегда оказывается дробной величиной, которую необходимо округлить до целого числа, поскольку количество интервалов не может быть дробным. Практика показывает, что, как правило, лучше округлять в меньшую сторону, ибо формула дает хорошие результаты при больших значениях n , а при малых - несколько завышенные.

Рассмотрим группировку вариант выборки на конкретном примере. Для этого обратимся к примеру с толкателями ядра (см. таблицы 1, 2). Определение числа интервалов группировки будем производить на основе данных, приведенных в таблице 3. При объеме выборки n =29 число интервалов целесообразно выбрать равным k =5 (формула Стэрджесса дает значение k =5,9).

Условимся использовать в рассматриваемом примере интервалы равной ширины. В этом случае после того, как число интервалов группировки определено, следует вычислить ширину каждого из них с помощью соотношения:

Здесь h - ширина интервалов, а х max и х min - соответственно максимальное и минимальное значение признака в выборке. Величины х max и х min определяются непосредственно по таблице исходных данных (см. таблицу 2). В рассматриваемом случае:

(м).

Здесь необходимо остановиться на точности определения ширины интервала. Возможны две ситуации: точность вычисленного значения h совпадает с точностью проведения эксперимента или превышает ее. В последнем случае возможно использование двух подходов для определения границ интервалов. С теоретической точки зрения наиболее правильно использовать полученное значение h для построения интервалов. Такой подход не внесет дополнительных искажений, связанных с обработкой экспериментальных данных. Однако для практических целей в статистических исследованиях, относящихся к физической культуре и спорту, принято округлять полученное значение h до точности измерения данных. Связано это с тем, что для наглядного представления получаемых результатов удобно, чтобы границами интервалов являлись возможные значения признака. Таким образом, полученное значение ширины интервалов следует округлить с учетом точности проводимого эксперимента. Особо отметим, что округление необходимо производить не в общепринятом математическом смысле, а в сторону увеличения, т.е. с избытком, чтобы не уменьшить общий диапазон варьирования признака - сумма ширины всех интервалов не должна быть меньше разности между максимальным и минимальным значениями признака. В рассматриваемом примере экспериментальные данные определены с точностью до сотых (0,01 м), поэтому полученное выше значение ширины интервалов следует округлить с избытком с точностью до сотых. В результате получаем:

h = 0,67 (м).

После определения ширины интервалов группировки следует определить их границы. Нижнюю границу первого интервала целесообразно принять равной минимальному значению признака в выборке x min:

x Н1 = x min .

В рассматриваемом примере x Н1 = 13,04 (м).

Для получения верхней границы первого интервала (x В1) следует к значению нижней границы первого интервала прибавить значение ширины интервала:

x В1 = х Н1 +h .

Заметим, что верхняя граница каждого интервала (здесь – первого) будет являться одновременно и нижней границей следующего (в данном случае второго) интервала: x Н2 = x В1 .

Подобным образом определяются значения нижних и верхних границ всех оставшихся интервалов:

x В i =x Н i +1 = x Н i +h .

В рассматриваемом примере:

x В1 = x Н2 = x Н1 +h =13,04+0,67=13,71 (м),

x В2 = x Н3 = x Н2 +h =13,71+0,67=14,38 (м),

x В3 = x Н4 = x Н3 +h =14,38+0,67=15,05 (м),

x В4 = x Н5 = x Н4 +h =15,05+0,67=15,72 (м),

x В5 = x Н5 +h =15,72+0,67=16,39 (м).

Перед группировкой вариант введем понятие срединного значения интервала x i , равного значению признака, равноудаленного от концов этого интервала. Учитывая, что оно отстоит от нижней границы на величину, равную половине ширины интервала, для его определения удобно воспользоваться соотношением:

x i = x Н i + h /2,

где x Н i - нижняя граница i -ro интервала, а h - его ширина. Срединные значения интервалов будут использоваться в дальнейшем при обработке сгруппированных данных.

После определения границ всех интервалов следует распределить выборочные варианты по этим интервалам. Но предварительно следует решить вопрос о том, к какому интервалу отнести значение, находящееся в точности на границе двух интервалов, т. е. когда значение варианты совпадает с верхней границей одного и нижней границей соседнего с ним интервала. В таком случае варианта может быть отнесена к любому из двух соседних интервалов и, для исключения неоднозначности при группировке, условимся в таких случаях относить варианты к верхнему интервалу. В пользу такого подхода можно привести следующий довод. Поскольку минимальное значение признака совпадает с нижней границей первого интервала и входит в этот интервал, то варианту, попадающую на границу двух интервалов, следует отнести к тому из них, значение нижней границы которого равно рассматриваемой варианте.

Перейдем к рассмотрению статистической таблицы - см. таблицу 4, которая состоит из семи столбцов.

Таблица 4

Табличное представление результатов в толкании ядра

В первых трех столбцах статистической таблицы содержатся соответственно номера интервалов группировки i , их границы x Н i - x В i и срединные значения интервалов x i .

В четвертом столбце располагаются частоты интервалов. Частотой интервала называется число, показывающее сколько вариант, т.е. результатов измерений попало в данный интервал. Для обозначения этой величины принято использовать символ n i . Сумма всех частот всех интервалов всегда равна объему выборки п ,что можно использовать для проверки правильности проведенной группировки.

Пятый столбец таблицы 4 предназначен для занесения в негонакопленной частоты интервала - числа, полученного суммированием частоты текущего интервала с частотами всех предыдущих интервалов. Накопленную частоту принято обозначать латинской буквой N i . Накопленная частота показывает, сколько вариант имеют значения не больше, чем верхняя граница интервала.

В шестой столбец таблицы помещается частость. Частостью называется частота, представленная в относительном выражении, т.е. отношение частоты к объему выборки. Сумма всех частостей всегда равна 1. Для обозначения частости используется символ f i :

f i =n i /n .

Частость интервала связана с вероятностью попадания случайной величины в этот интервал. Согласно теореме Бернулли, при неограниченном увеличении числа опытов частость события сходится по вероятности к его вероятности. Если понимать под событием попадание значения исследуемой величины в определенный интервал, то становится ясно, что при большом числе опытов частость интервала приближается к вероятности попадания измеряемой случайной величины в этот интервал.

И частота, и частость характеризуют повторяемость результатов в выборке. Сравнивая их статистическое значение, следует отметить, что информативность частости существенно выше, чем у частоты. Действительно, если, как, например, в таблице 4 частота второго интервала равна 8 и, значит, 8 результатов попало в этот интервал, то трудно понять - мало это или много; если в выборке 1000 вариант, то такая частота мала, а если 20, то велика. В таком случае для объективной оценки необходимо сопоставить значение частоты с объемом выборки. Если же воспользоваться частостью, то сразу можно сказать, какая доля результатов попала в рассматриваемый интервал (примерно 28% в приведенном примере). Поэтому частость дает более наглядное представление о повторяемости признака в выборке. Особо следует отметить другое важное достоинство частости. Ее использование позволяет сопоставлять выборки различного объема. Частота для таких целей не применима.

В седьмом столбце таблицы расположена накопленная частость. Накопленной частостью является отношение накопленной частоты к объему выборки. Накопленная частость обозначается буквой F i :

Накопленная частость показывает, какая доля вариант выборки имеет значения, не превосходящие значения верхней границы интервала.

Последняя строка статистической таблицы используется для контроля над проведением группировки.

После заполнения таблицы вернемся к определению статистического ряда. Как правило, статистический ряд оформляется в виде таблицы, в первой строке которой перечислены интервалы, а во второй – соответствующие им частости или частоты. Таким образом, статистическим рядом называется двойной числовой ряд, устанавливающий связь между численным значением исследуемого признака и его повторяемостью в выборке. Существенным достоинством статистических рядов является то, что они, в отличие от статистических совокупностей, дают наглядное представление о характерных особенностях варьирования признаков.


©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-20

Введение

С незапамятных времен человечество осуществляло учет многих сопутствующих его жизнедеятельности явлений и предметов и связанные с ним вычисления. Люди получали разносторонние, хотя и различающиеся полнотой на различных этапах общественного развития. Данные, учитывавшиеся повседневно в процессе принятия хозяйственных решений, а в обобщенном виде и на государственном уровне при определении русла экономической и социальной политики и характера внешнеполитической деятельности.

Руководствуясь соображениями зависимости благосостояния нации от величины создаваемого полезного продукта, интересов стратегической безопасности государств и народов от численности взрослого мужского населения, доходов казны от размера налогооблагаемых ресурсов и т. д., издавна отчетливо осознавалась и реализовывалась в форме различных учетных акций.

С учетом достижений экономической науки стал возможен расчет показателей, обобщенно характеризующих результаты воспроизводственного процесса на уровне общества: совокупного общественного продукта, национального дохода, валового национального продукта.

Всю перечисленную информацию в постоянно возрастающих объемах предоставляет обществу статистика, являющаяся необходимо принадлежностью государственного аппарата. Статистические данные, таким образом, способны сказать языком статистических показателей о многом в весьма яркой и убедительной форме.

Для статистического анализа данных в своей работе я использовала программу Excel (расчет формул и построение графиков).

Статистические ряды распределения, их значение и применение в статистике

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения. В них известна численность единиц наблюдения в группах. Представленная в абсолютном и относительном выражении.

Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Статистические ряды подразделяются на:

Атрибутивные - это ряды, построенные по атрибутивным признакам, в порядке возрастания или убывания наблюдаемых знаний.

То есть качественным признакам, не имеющим числового выражения и характеризующим свойство, качество изучаемого социально-экономического явления.

Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам.

Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Число групп атрибутивного ряда распределения адекватно числу градаций. Разновидностей атрибутивного признака.

Пример атрибутивного ряда распределения приведен в таблице 1.

Таблица 1. Распределение студентов 1-го курса по успеваемости

Элементами данного ряда распределения являются градации атрибутивного признака «Успеваемость» («успевают» - «не успевают») и численность каждой группы в абсолютном (человек) и относительном (%) выражении.

Студентов, сдавших экзамен по дисциплине, было 46 человек. Их удельный вес составил 92%.

Вариационные - это ряды, построенные по количественному признаку.

Вариационные ряды распределения состоят из двух элементов: вариантов и частот:

Варианты - это числовые значения количественного признака в вариационном ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными. Так, при группировке предприятий по результатам хозяйственной деятельности варианты положительные - это прибыль, а отрицательные числа - это убыток.

Частоты - это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяется числом элементов всей совокупности.

Частости - это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.

Дискретный вариационный ряд распределения - это ряд, в котором группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

Пример дискретного вариационного ряда распределения приведен в таблице 2.

Таблица 2. Распределение студентов по экзаменационному баллу

В гр. 1 таблицы 2 представлены варианты дискретного вариационного ряда. В гр. 2 - частоты, а в гр. 3 - частости. В случае непрерывной вариации величина признака у единиц совокупности может принимать в определенным пределах любые значения. Отличающиеся друг от друга на сколь угодно малую величину.

Интервальный вариационный ряд распределения - это ряд, в котором группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения, в том числе и дробные.

Интервальный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

Правила и принципы построения интервальных рядов распределения аналогичны правилам и принципам построения статистических группировок. В случае, если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. При построении неравных интервалов нельзя получить информацию о степени заполнения каждого интервала. С целью проведения сравнительного анализа заполненности интервалов определяется показатель, характеризующий плотность распределения. Это отношение числа единиц совокупности к ширине интервала.

Пример интервального вариационного рада распределения приведен в таблице 3.

Таблица 3. Распределение строительных фирм региона по среднесписочной численности работающих*

* - Цифры условные

Представленный ряд распределения является интервальным, в основании образования групп которого лежит непрерывный признак.

Анализ рядов распределения можно для наглядности проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения.

Расчетная часть задания № 5

Имеются выборочные данные (выборка 5%-я механическая) о среднегодовой стоимости основных производственных фондов и выпуске продукции предприятий отрасли экономики за отчетный период.

Таблица 4. Исходные данные

Выпуск продукции, млн. руб.

По исходным данным:

1. Постройте статистический ряд распределения предприятий по среднегодовой стоимости основных производственных фондов, образовав четыре группы предприятий с равными интервалами, охарактеризовав их числом предприятий и удельным весом предприятий.

2. Рассчитайте обобщающие показатели ряда распределения:

а) среднегодовую стоимость основных производственных фондов, взвешивая значения признака по абсолютной численности предприятий и их удельному весу;

б) моду и медиану;

в) постройте графики ряда распределения и определите на них значение моды и медианы.

Решение:

1. Сначала определяем длину интервала по формуле:

е=(х max - x min)/k,

где k - число групп в группировке (из условия k=4),

х max и x min - максимальное и минимальное значения ряда распределения,

е=(60 - 20)/4=10 млн. руб.

Затем определим нижнюю и верхнюю интервальные границы для каждой группы:

Номер группы

нижняя граница

верхняя граница

Составим рабочую таблицу 5, куда сведем исходные данные:

Таблица 5. Рабочая таблица

Группы пред-ий по среднегодовой стоимости ОПФ,

№ предпри-ятия

Среднегодовая стоимость ОПФ, млн. руб.

Выпуск продукции,

Рассчитаем характеристику ряда распределения по удельному весу предприятий по формуле:

где d - удельный вес предприятия;

f i - кол-во предприятий в группе;

F i - общее кол-во предприятий.

Подставляем данные в формулы. Полученные результаты заносим в итоговую таблицу 6.

Все формулы и расчеты таблицы 6 введены в программе Excel и даны в Приложении 1.

Таблица 6. Распределения предприятий по среднегодовой стоимости основных производственных фондов

Данная группировка показывает, что у наибольшей части данных предприятий (33,3%) среднегодовая стоимость основных производственных фондов составляет от 40 до 50 млн. руб.

2. а) Рассчитаем среднегодовую стоимость основных производственных фондов по формуле средней арифметической взвешенной, взвешивая значения по абсолютной численности предприятий:

и по удельному весу:

Для расчета средней из интервального ряда необходимо выразить варианты одним (дискретным) числом, это средняя арифметическая простая из верхнего и нижнего значений интервала:

Подставляем данные в формулы. Полученные результаты занесем в таблицу 7.

Все формулы и расчеты таблицы 7 введены в программе Excel и даны в Приложении 1.

Таблица 7. Расчет среднегодовой стоимости ОПФ

Показатели средних равны, что доказывает правильность расчетов. Среднегодовая стоимость ОПФ равна 41,333 млн. руб.

б) Рассчитаем моду и медиану данного ряда.

Мода - это значение признака, наиболее часто встречающееся в изучаемой совокупности. Для интервальных вариационных рядов распределения мода рассчитывается по формуле:

где x Mo - нижняя граница модального интервала;

i Mo - величина модального интервала;

f Mo - частота модального интервала;

f Mo-1 - частота интервала, предшествующего модальному;

f Mo+1 - частота интервала, следующего за модальным.

Первоначально по наибольшей частоте признака определим модальный интервал. Наибольшее число предприятий - 10 - среднегодовая стоимость основных производственных фондов в интервале 40 - 50 млн. руб., который и является модальным.

Подставляем данные в формулу.

Из расчета видно, что модальным значением стоимости ОПФ предприятий является стоимость равная 44 млн. руб.

Медиана - это вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части. Для интервальных вариационных рядов медиана рассчитывается по формуле:

где x Mе - нижняя граница медианного интервала;

i Mе - величина медианного интервала;

F - сумма частот ряда;

S Mе-1 - сумма накопленных частот ряда, предшествующих медианному интервалу;

f Mе - частота медианного интервала.

Определяем медианный интервал, в котором находится порядковый номер медианы. Для этого подсчитаем сумму частот накопленным итогом до числа, превышающего половину объема совокупности (30/2 = 15). Полученные данные заносим в расчетную таблицу 8.

Таблица 8. Расчет медианны

В графе «Сумма накопленных частот» значение 23 соответствует интервалу 40 - 50. Это и есть медианный интервал, в котором находится медиана.

Подставляем данные в формулу.

Из расчета видно, что у половины предприятий среднегодовая стоимость основных производственных фондов до 42 млн. руб., а у другой половина - выше этой суммы.

в) Построим графики данного ряда распределения по полученным данным:

Рис. 1.

Медиана

Рис. 2. Кумулята распределения предприятий по среднегодовой стоимости ОПФ

Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось п 1 раз, х 2 - п 2 раз, х к - п к раз и - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом .

Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой .

Определение. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант и соответствующих им частот п i или относительных частот .

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

(сумма всех относительных частот равна единице ).

Пример 1 . При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72,74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.

Решение. 1) Статистический ряд распределения частот:

Контроль: 0,1 + 0,2 + 0,4 + 0,1 + 0,2 = 1.

Полигоном частот называют ломаную, отрезки, которой соединяют точки Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат - соответствующие им частоты п i . Точки соединяют отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки соединяют отрезками и получают полигон относительных частот

Пример 2. Постройте полигон частот и полигон относительных частот по данным примера 1.

Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:


2. Статистический интервальный ряд распределения. Гистограмма .

Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интерисующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.


Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

1. R(размах) = X max -X min

2. k- число групп

3. (формула Стерджеса)

4. a = x min , b = x max

Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:

Интервалы группировки ...
Частоты ...

Аналогическую таблицу можно образовать, заменяя частоты n i относительными частотами.