Целью регрессионного анализа является измерение связи меж­ду зависимой переменной и одной (парный регрессионный анализ) или не­сколькими (множественный) независимыми переменными. Независимые переменные называют также факторными, объясняющими, опреде­ляющими, регрессорами и предикторами.

Зависимую переменную иногда называют определяемой, объясняемой, «откликом». Чрезвы­чайно широкое распространение регрессионного анализа в эмпири­ческих исследованиях связано не только с тем, что это удобный ин­струмент тестирования гипотез. Регрессия, особенно множественная, является эффективным методом моделирования и прогнозирования.

Объяснение принципов работы с регрессионным анализом начнем с более простого - парного метода.

Парный регрессионный анализ

Первые действия при использовании регрессионного анализа будут практически идентичны предпринятым нами в рамках вычисления коэффициента корреляции. Три основных условия эффективности корреляционного анализа по методу Пирсона - нормальное распре­деление переменных, интервальное измерение переменных, линейная связь между переменными - актуальны и для множественной регрес­сии. Соответственно, на первом этапе строятся диаграммы рассеяния, проводится статистически-описательный анализ переменных и вы­числяется линия регрессии. Как и в рамках корреляционного анализа, линии регрессии строятся методом наименьших квадратов.

Чтобы более наглядно проиллюстрировать различия между двумя методами анализа данных, обратимся к уже рассмотренному приме­ру с переменными «поддержка СПС» и «доля сельского населения». Исходные данные идентичны. Отличие в диаграммах рассеяния бу­дет заключаться в том, что в регрессионном анализе корректно от­кладывать зависимую переменную - в нашем случае «поддержка СПС» по оси Y, тогда как в корреляционном анализе это не имеет значения. После чистки выбросов диаграмма рассеяния имеет вид:

Принципиальная идея регрессионного анализа состоит в том, что, имея общую тенденцию для переменных - в виде линии регрессии, - можно предсказать значение зависимой переменной, имея значения независимой.

Представим обычную математическую линейную функцию. Лю­бую прямую в евклидовом пространстве можно описать формулой:

где а - константа, задающая смещение по оси ординат; b - коэффи­циент, определяющий угол наклона линии.

Зная угловой коэффициент и константу, можно рассчитать (пред­сказать) значение у для любого х.

Эта простейшая функция и легла в основу модели регрессионного анализа с той оговоркой, что значение у мы предскажем не точно, а в рамках определенного доверительного интервала, т.е. приблизительно.

Константой является точка пересечения линии регрессии и оси ординат (F-пересечение, в статистических пакетах, как правило, обозначаемое «interceptor»). В нашем примере с голосованием за СПС ее округленное значение составит 10,55. Угловой коэффициент Ъ бу­дет равен примерно -0,1 (как и в корреляционном анализе, знак по­казывает тип связи - прямая или обратная). Таким образом, получен­ная модель будет иметь вид СП С = -0,1 х Сел. нас. + 10,55.

СПС = -0,10 х 47 + 10,55 = 5,63.

Разность между исходным и предсказанным значениями называет­ся остатком (с этим термином - принципиальным для статистики - мы уже сталкивались при анализе таблиц сопряженности). Так, для случая «Республика Адыгея» остаток будет равен 3,92 - 5,63 = -1,71. Чем больше модульное значение остатка, тем менее удачно предсказа­но значение.

Рассчитываем предсказанные значения и остатки для всех случаев:
Случай Сел. нас. СПС

(исходное)

СПС

(предсказанное)

Остатки
Республика Адыгея 47 3,92 5,63 -1,71 -
Республика Алтай 76 5,4 2,59 2,81
Республика Башкортостан 36 6,04 6,78 -0,74
Республика Бурятия 41 8,36 6,25 2,11
Республика Дагестан 59 1,22 4,37 -3,15
Республика Ингушетия 59 0,38 4,37 3,99
И т.д.

Анализ соотношения исходных и предсказанных значений служит для оценки качества полученной модели, ее прогностической способности. Одним из главных показателей регрессионной статистики является множественный коэффициент корреляции R - коэффициент корреляции между исходными и предсказанными значениями зави­симой переменной. В парном регрессионном анализе он равен обыч­ному коэффициенту корреляции Пирсона между зависимой и неза­висимой переменной, в нашем случае - 0,63. Чтобы содержательно интерпретировать множественный R, его необходимо преобразовать в коэффициент детерминации. Это делается так же, как и в корреля­ционном анализе - возведением в квадрат. Коэффициент детерминации R -квадрат (R 2) показывает долю вариации зависимой пере­менной, объясняемую независимой (независимыми) переменными.

В нашем случае R 2 = 0,39 (0,63 2); это означает, что переменная «доля сельского населения» объясняет примерно 40% вариации переменной «поддержка СПС». Чем больше величина коэффициента детер­минации, тем выше качество модели.

Другим показателем качества модели является стандартная ошиб­ка оценки (standard error of estimate). Это показатель того, насколько сильно точки «разбросаны» вокруг линии регрессии. Мерой разброса для интервальных переменных является стандартное отклонение. Со­ответственно, стандартная ошибка оценки - это стандартное откло­нение распределения остатков. Чем выше ее значение, тем сильнее разброс и тем хуже модель. В нашем случае стандартная ошибка со­ставляет 2,18. Именно на эту величину наша модель будет «ошибаться в среднем» при прогнозировании значения переменной «поддерж­ка СПС».

Регрессионная статистика включает в себя также дисперсионный анализ. С его помощью мы выясняем: 1) какая доля вариации (дисперсии) зависимой переменной объясняется независимой перемен­ной; 2) какая доля дисперсии зависимой переменной приходится на остатки (необъясненная часть); 3) каково отношение этих двух вели­чин (/"-отношение). Дисперсионная статистика особенно важна для выборочных исследований - она показывает, насколько вероятно наличие связи между независимой и зависимой переменными в генеральной совокупности. Однако и для сплошных исследований (как в нашем примере) изучение результатов дисперсионного анализа небесполезно. В этом случае проверяют, не вызвана ли выявленная ста­тистическая закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых на­ходится обследуемая совокупность, т.е. устанавливается не истинность полученного результата для какой-то более обширной гене­ральной совокупности, а степень его закономерности, свободы от случайных воздействий.

В нашем случае статистика дисперсионного анализа такова:

SS df MS F значение
Регрес. 258,77 1,00 258,77 54,29 0.000000001
Остат. 395,59 83,00 Л,11
Всего 654,36

F-отношение 54,29 значимо на уровне 0,0000000001. Соответ­ственно, мы можем с уверенностью отвергнуть нулевую гипотезу (что обнаруженная нами связь носит случайный характер).

Аналогичную функцию выполняет критерий t, но уже в отношении регрессионных коэффициентов (углового и F-пересечения). С помо­щью критерия / проверяем гипотезу о том, что в генеральной совокуп­ности регрессионные коэффициенты равны нулю. В нашем случае мы вновь можем уверенно отбросить нулевую гипотезу.

Множественный регрессионный анализ

Модель множественной регрессии практически идентична модели парной регрессии; разница лишь в том, что в линейную функцию последовательно включаются несколько независимых переменных:

Y = b1X1 + b2X2 + …+ bpXp + а.

Если независимых переменных больше двух, мы не имеем возмож­ности получить визуальное представление об их связи, в этом плане множественная регрессия менее «наглядна», нежели парная. При на­личии двух независимых переменных данные бывает полезно отобразить на трехмерной диаграмме рассеяния. В профессиональных ста­тистических пакетах программ (например, Statisticа) существует опция вращения трехмерной диаграммы, позволяющая хорошо визуально представить структуру данных.

При работе с множественной регрессией, в отличие от парной, не­обходимо определять алгоритм анализа. Стандартный алгоритм включает в итоговую регрессионную модель все имеющиеся предикторы. Пошаговый алгоритм предполагает последовательное включе­ние (исключение) независимых переменных, исходя из их объяснительного «веса». Пошаговый метод хорош, когда имеется много независимых переменных; он «очищает» модель от откровенно слабых предикторов, делая ее более компактной и лаконичной.

Дополнительным условием корректности множественной регрес­сии (наряду с интервальностью, нормальностью и линейностью) является отсутствие мультиколлинеарности - наличия сильных корреляционных связей между независимыми переменными.

Интерпретация статистики множественной регрессии включает в себя все злементы, рассмотренные нами для случая парной регрессии. Кроме того, в статистике множественного регрессионного анализа есть и другие важные составляющие.

Работу с множественной регрессией мы проиллюстрируем на при­мере тестирования гипотез, объясняющих различия в уровне электоральной активности по регионам России. В ходе конкретных эмпири­ческих исследований были высказаны предположения, что на уровень явки избирателей влияют:

Национальный фактор (переменная «русское население»; операционализирована как доля русского населения в субъектах РФ). Предполагается, что увеличение доли русского населения ведет к сни­жению активности избирателей;

Фактор урбанизации (переменная «городское население»; операционализирована как доля городского населения в субъектах РФ, с этим фактором мы уже работали в рамках корреляционного анализа). Предполагается, что увеличение доли городского населения также ве­дет к снижению активности избирателей.

Зависимая переменная - «интенсивность избирательной активно­сти» («актив») операционализирована через усредненные данные яв­ки по регионам на федеральных выборах с 1995 по 2003 г. Исходная таблица данных для двух независимых и одной зависимой перемен­ной будет иметь следующий вид:

Случай Переменные
Актив. Гор. нас. Рус. нас.
Республика Адыгея 64,92 53 68
Республика Алтай 68,60 24 60
Республика Бурятия 60,75 59 70
Республика Дагестан 79,92 41 9
Республика Ингушетия 75,05 41 23
Республика Калмыкия 68,52 39 37
Карачаево-Черкесская Республика 66,68 44 42
Республика Карелия 61,70 73 73
Республика Коми 59,60 74 57
Республика Марий Эл 65,19 62 47

И т.д. (после чистки выбросов остается 83 случая из 88)

Статистика, описывающая качество модели:

1. Множественный R = 0,62; Л-квадрат = 0,38. Следовательно, национальный фактор и фактор урбанизации вместе объясняют около 38% вариации переменной «электоральная активность».

2. Средняя ошибка составляет 3,38. Именно настолько «в среднем ошибается» построенная модель при прогнозировании уровня явки.

3. /л-отношение объясненной и необъясненной вариации состав­ляет 25,2 на уровне 0,000000003. Нулевая гипотеза о случайности выявленных связей отвергается.

4. Критерий /для константы и регрессионных коэффициентов пе­ременных «городское население» и «русское население» значим на уровне 0,0000001; 0,00005 и 0,007 соответственно. Нулевая гипотеза о случайности коэффициентов отвергается.

Дополнительная полезная статистика в анализе соотношения ис­ходных и предсказанных значений зависимой переменной - расстояние Махаланобиса и расстояние Кука. Первое - мера уникальности слу­чая (показывает, насколько сочетание значений всех независимых переменных для данного случая отклоняется от среднего значения по всем независимым переменным одновременно). Второе - мера влия­тельности случая. Разные наблюдения по-разному влияют на наклон линии регрессии, и с помощью расстояния Кука можно сопоставлять их по этому показателю. Это бывает полезно при чистке выбросов (вы­брос можно представить как чрезмерно влиятельный случай).

В нашем примере к уникальным и влиятельным случаям, в частно­сти, относится Дагестан.

Случай Исходные

значения

Предска­

значения

Остатки Расстояние

Махаланобиса

Расстояние
Адыгея 64,92 66,33 -1,40 0,69 0,00
Республика Алтай 68,60 69.91 -1,31 6,80 0,01
Республика Бурятия 60,75 65,56 -4,81 0,23 0,01
Республика Дагестан 79,92 71,01 8,91 10,57 0,44
Республика Ингушетия 75,05 70,21 4,84 6,73 0,08
Республика Калмыкия 68,52 69,59 -1,07 4,20 0,00

Собственно регрессионная модель обладает следующими парамет­рами: У-пересечение (константа) = 75,99; Ь (Гор. нас.) = -0,1; Ъ (Рус. нас.) = -0,06. Итоговая формула.

y =f (x ), когда каждому значению независимой переменной x соответствует одно определённое значение величины y , при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y . Если при каждом значении x =x i наблюдается n i значений y i 1 …y in 1 величины y , то зависимость средних арифметических =(y i 1 +…+y in 1)/n i от x =x i и является регрессией в статистическом понимании этого термина .

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity ), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Итак, допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y ). Прямая линия в плоскости (x, y ) была выборочным аналогом функции

В этом примере регрессия Y на X является линейной функцией . Если регрессия Y на X отлична от линейной, то приведённые уравнения суть линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии . Эти проблемы рассматриваются в рамках регрессионного анализа .

Простым примером регрессии Y по X является зависимость между Y и X , которая выражается соотношением: Y =u (X )+ε, где u (x )=E (Y | X =x ), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y =u (x ) между неслучайными величинами y и x . На практике обычно коэффициенты регрессии в уравнении y =u (x ) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия (пропедевтика)

Представим зависимость y от x в виде линейной модели первого порядка:

Будем считать, что значения x определяются без ошибки, β 0 и β 1 - параметры модели, а ε - ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ 2 . Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (x i , y i ), i =1, …, n . Таким образом мы можем записать:

где означает предсказанное моделью значение y при данном x , b 0 и b 1 - выборочные оценки параметров модели, а - значения ошибок аппроксимации.

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

здесь средние значения определяются как обычно: , и s e 2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ 2 в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего - для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t =b /s b . Если вероятность для полученного значения и n −2 степеней свободы достаточно мала, например, <0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b 0 , то прямая проходит через начало координат и оценка углового коэффициента равна

,

а её стандартной ошибки

Обычно истинные величины коэффициентов регрессии β 0 и β 1 не известны. Известны только их оценки b 0 и b 1 . Иначе говоря истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

Теперь можно вычислить 100(1−α/2)-процентный доверительный интервал для значения уравнения регрессии в точке x :

,

где t (1−α/2, n −2) - t -значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

Здесь m - кратность измерения y при данном x . И 100(1−α/2)-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

.

На рисунке эта 95%-я доверительная область при m =1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x .

Литература

Ссылки

  • (англ.)

Wikimedia Foundation . 2010 .

Смотреть что такое "Регрессия (математика)" в других словарях:

    В Викисловаре есть статья «регрессия» Регрессия (лат. regressio «обратное движение, возвращение») многознач … Википедия

    О функции, см.: Интерполянт. Интерполяция, интерполирование в вычислительной математике способ нахождения промежуточных значений величины по имеющемуся дискретному набору известных значений. Многим из тех, кто сталкивается с научными и… … Википедия

    У этого термина существуют и другие значения, см. среднее значение. В математике и статистике среднее арифметическое одна из наиболее распространённых мер центральной тенденции, представляющая собой сумму всех наблюденных значений деленную на их… … Википедия

    Не следует путать с японскими свечами. График 1. Результаты эксперимента Майкельсона Морли … Википедия

    Начинающим · Сообщество · Порталы · Награды · Проекты · Запросы · Оценивание География · История · Общество · Персоналии · Религия · Спорт · Техника · Наука · Искусство · Философия … Википедия

    РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ - REGRESSION AND CORRELATION ANALYSISР.а. представляет собой вычисления на основе статистической информации с целью математической оценки усредненной связи между зависимой переменной и некоторой независимой переменной или переменными. Простая… … Энциклопедия банковского дела и финансов

    Логотип Тип Программы математического моделирования Разработчик … Википедия

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

Предполагается, что - независимые переменные (предикторы, объясняющие переменные) влияют на значения - зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным , требуется построить функцию , которая приближенно описывала бы изменение при изменении :

.

Предполагается, что множество допустимых функций, из которого подбирается , является параметрическим:

,

где - неизвестный параметр (вообще говоря, многомерный). При построении будем считать, что

, (1)

где первое слагаемое - закономерное изменение от , а второе - - случайная составляющая с нулевым средним; является условным математическим ожиданием при условии известного и называется регрессией по .

Пусть n раз измерены значения факторов и соответствующие значения переменной y ; предполагается, что

(2)

(второй индекс у x относится к номеру фактора, а первый – к номеру наблюдения); предполагается также, что

(3)

т.е. - некоррелированные случайные величины. Соотношения (2) удобно записывать в матричной форме:

, (4)

где - вектор-столбец значений зависимой переменной, t - символ транспонирования, - вектор-столбец (размерности k ) неизвестных коэффициентов регрессии, - вектор случайных отклонений,

-матрица ; в i -й строке находятся значения независимых переменных в i -м наблюдении первая переменная – константа, равная 1.

в начало

Оценка коэффициентов регрессии

Построим оценку для вектора так, чтобы вектор оценок зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора заданных значений:

.

Решением является (если ранг матрицы равен k+1 ) оценка

(5)

Нетрудно проверить, что она несмещенная.

в начало

Проверка адекватности построенной регрессионной модели

Между значением , значением из регрессионной модели и значением тривиальной оценкой выборочного среднего существует следующее соотношение:

,

где .

По сути, член в левой части определяет общую ошибку относительно среднего. Первый член в правой части () определяет ошибку, связанную с регрессионной моделью, а второй () ошибку, связанную со случайными отклонениями и необъясненной построенной моделью.

Поделив обе части на полную вариацию игреков , получим коэффициент детерминации:

(6)

Коэффициент показывает качество подгонки регрессионной модели к наблюдаемым значениям . Если , то регрессия на не улучшает качества предсказания по сравнению с тривиальным предсказанием .

Другой крайний случай означает точную подгонку: все , т.е. все точки наблюдений лежат на регрессионной плоскости.

Однако, значение возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный коэффициент детерминации

(7)

Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).

Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина , оценка для которой

(8)

где - диагональный элемент матрицы Z . Если ошибки распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика

(9)

распределена по закону Стьюдента с степенями свободы, и поэтому неравенство

, (10)

где - квантиль уровня этого распределения, задает доверительный интервал для с уровнем доверия .

Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы об отсутствии какой бы то ни было линейной связи между и совокупностью факторов, , т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициентов, при константе используется статистика

, (11)

распределенная, если верна, по закону Фишера с k и степенями свободы. отклоняется, если

(12)

где - квантиль уровня .

в начало

Описание данных и постановка задачи

Исходный файл с данными tube_dataset.sta содержит 10 переменных и 33 наблюдения. См. рис. 1.


Рис. 1. Исходная таблица данных из файла tube_dataset.sta

В названии наблюдений указан временной интервал: квартал и год (до и после точки соответственно). Каждое наблюдение содержит данные за соответствующий временной интервал. 10 переменная «Квартал» дублирует номер квартала в имени наблюдения. Список переменных приведен ниже.


Цель: Построить регрессионную модель для переменной №9 «Потребление труб».

Этапы решения:

1) Сначала проведем разведочный анализ имеющихся данных на предмет выбросов и незначимых данных (построение линейных графиков и диаграмм рассеяния).

2) Проверим наличие возможных зависимостей между наблюдениями и между переменными (построение корреляционных матриц).

3) Если наблюдения будут образовывать группы, то для каждой группы построим регрессионную модель для переменной «Потребление труб» (множественная регрессия).

Перенумеруем переменные по порядку в таблице. Зависимой переменной (отклик) будем называть переменную «Потребление труб». Независимыми (предикторами) назовем все остальные переменные.

в начало

Решение задачи по шагам

Шаг 1. Диаграммы рассеяния (см. рис. 2.) явных выбросов не выявили. В то же время, на многих графиках явно просматривается линейная зависимость. Также есть пропущенные данные по «Потреблению труб» в 4 кварталах 2000 года.


Рис. 2. Диаграмма рассеяния зависимой переменной (№9) и кол-ва скважин (№8)

Цифра после символа Е в отметках по оси Х обозначает степень числа 10, которое определяет порядок значений переменной №8 (Количество скважин действующих). В данном случае речь идет о значении порядка 100.000 скважин (10 в 5 степени).

На диаграмме рассеяния на рис. 3 (см. ниже) отчетливо видно 2 облака точек, причем каждое из них имеет явную линейную зависимость.

Понятно, что переменная №1, скорее всего, войдет в регрессионную модель, т.к. нашей задачей является выявление именно линейной зависимости между предикторами и откликом.


Рис. 3. Диаграмма рассеяния зависимой переменной (№9) и Инвестиций в нефтяную промышленность (№1)

Шаг 2. Построим линейные графики всех переменных в зависимости от времени. Из графиков видно, что данные по многим переменным сильно разнятся в зависимости от номера квартала, но рост из года в год сохраняется.

Полученный результат подтверждает предположения, полученные на основе рис. 3.


Рис. 4. Линейный график 1-й переменной в зависимости от времени

В частности, на рис. 4 построен линейный график для первой переменной.

Шаг 3. Согласно результатам рис. 3 и рис. 4, разобьем наблюдения на 2 группы, по переменной №10 «Квартал». В первую группу войдут данные по 1 и 4 кварталу, а во вторую – данные по 2 и 3.

Чтобы разбить наблюдения согласно кварталам на 2 таблицы, воспользуемся пунктом Данные/Подмножество/Случайный выбор . Здесь в качестве наблюдений нам надо указать условия на значения переменной КВАРТАЛ. Cм. рис. 5.

Согласно заданным условиям наблюдения будут скопированы в новую таблицу. В строчке снизу можно указать конкретные номера наблюдений, однако в нашем случае это займет много времени.

Рис. 5. Выбор подмножества наблюдений из таблицы

В качестве заданного условия зададим:

V10 = 1 OR V10 = 4

V10 – это 10 переменная в таблице (V0 – это столбец с наблюдениями). По сути, мы проверяем каждое наблюдение в таблице, относится оно к 1-ому или 4-ому кварталу или нет. Если мы хотим, выбрать другое подмножество наблюдений, то можно либо сменить условие на:

V10 = 2 OR V10 = 3

либо перенести первое условие в исключающие правила.

Нажав ОК , мы сначала получим таблицу с данными только по 1 и 4 кварталу, а затем и таблицу с данными по 2 и 3 кварталу. Сохраним их под именами 1_4.sta и 2_3.sta через вкладку Файл/Сохранить как.

Далее будем работать уже с двумя таблицами и полученные результаты регрессионного анализа для обеих таблиц можно будет сравнить.

Шаг 4. Построим матрицу корреляций для каждой из групп, чтобы проверить предположение относительно линейной зависимости и учесть возможные сильные корреляции между переменными при построении регрессионной модели. Так как есть пропущенные данные, корреляционная матрица была построена с опцией попарного удаления пропущенных данных. См. рис. 6.


Рис. 6. Матрица корреляций для первых 9-ти переменных по данным 1 и 4 кварталов

Из корреляционной матрицы в частности понятно, некоторые переменные очень сильно коррелируют друг с другом.

Стоит отметить, что достоверность больших значений корреляции возможна только при отсутствии выбросов в исходной таблице. Поэтому диаграммы рассеяния для зависимой переменной и всех остальных переменных обязательно должны учитываться при корреляционном анализе.

Например, переменная №1 и №2 (Инвестиции в нефтяную и газовую промышленность соответственно). См. рис.7 (или, например, рис. 8).


Рис. 7. Диаграмма рассеяния для переменной №1 и №2

Рис. 8. Диаграмма рассеяния для переменной №1 и №7

Данная зависимость легко объяснима. Также ясен и высокий коэффициент корреляции между объемами добычи нефти и газа.

Высокий коэффициент корреляции между переменными (мультиколлиниарность) нужно учитывать при построении регрессионной модели. Здесь могут возникнуть большие ошибки при вычислении коэффициентов регрессии (плохообусловленная матрица при вычислении оценки через МНК).

Приведем наиболее распространенные способы устранения мультиколлиниарности :

1) Гребневая регрессия.

Данная опция задается при построении множественной регрессии. Число - малое положительное число. Оценка МНК в таком случае равна:

,

где Y – вектор со значениями зависимой переменной, X – матрица, содержащая по столбцам значения предикторов, а – единичная матрица порядка n+1. (n – количество предикторов в модели).

Плохообусловленность матрицы при гребневой регрессии значительно уменьшается.

2) Исключение одной из объясняющих переменных.

В этом случае из анализа исключается одна объясняющая переменная имеющая высокий парный коэффициент корреляции (r>0.8) с другим предиктором.

3) Использование пошаговых процедур с включением/исключением предикторов .

Обычно, в таких случаях, используют либо гребневую регрессию (она задается в качестве опции при построении множественной), либо, на основе значений корреляции, исключают объясняющие переменные, имеющие высокий парный коэффициент корреляции (r > 0.8), либо пошаговую регрессию с включением/исключением переменных.

Шаг 5. Теперь построим регрессионную модель при помощи выпадающей вкладки меню (Анализ/Множественная регрессия ). В качестве зависимой переменной укажем «Потребление труб», в качестве независимых – все остальные. См. рис. 9.


Рис. 9. Построение множественной регрессии для таблицы 1_4.sta

Множественную регрессию можно проводить пошагово. В этом случае в модель будут пошагово включаться (или исключаться) переменные, которые вносят наибольший (наименьший) вклад в регрессию на данном шаге.

Также данная опция позволяет остановиться на шаге, когда коэффициент детерминации еще не наибольший, однако уже все переменные модели являются значимыми. См. рис. 10.


Рис. 10. Построение множественной регрессии для таблицы 1_4.sta

Особо стоит отметить, что пошаговая регрессия с включением, в случае, когда количество переменных больше количества наблюдений, является единственным способом построения регрессионной модели.

Установка нулевого значения свободного члена регрессионной модели используется в случае, если сама идея модели подразумевает нулевое значение отклика, когда все предикторы окажутся равными 0. Чаще всего подобные ситуации встречаются в экономических задачах.

В нашем случае свободный член мы включим в модель.


Рис. 11. Построение множественной регрессии для таблицы 1_4.sta

В качестве параметров модели выберем Пошаговую с исключением (Fвкл = 11, Fвыкл = 10), с гребневой регрессией (лямбда = 0.1). И для каждой группы построим регрессионную модель. См. рис.11.

Результаты в виде Итоговой таблицы регрессии (см. также рис. 14) представлены на рис.12 и рис.13. Они получены на последнем шаге регрессии.

Шаг 6. Проверка адекватности модели

Обратим внимание, что, несмотря на значимость всех переменных в регрессионной модели (p-уровень < 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

Коэффициент детерминации показывает, по сути, какая доля дисперсии отклика объясняется влиянием предикторов в построенной модели. Чем ближе R2 к 1, тем лучше модель.

F-статистика Фишера используется для проверки гипотезы о нулевых значениях коэффициентов регрессии (т.е. об отсутствии какой бы то ни было линейной связи между и совокупностью факторов, , кроме коэффициента ). Гипотеза отклоняется при малом уровне значимости.

В нашем случае (см. рис. 12) значение F-статистики = 13,249 при уровне значимости p < 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


Рис. 12. Результаты регрессионного анализа данных по 1 и 4 кварталу


Рис. 13. Результаты регрессионного анализа данных по 2 и 3 кварталу

Шаг 7. Теперь проведем анализ остатков полученной модели. Результаты, полученные при анализе остатков, являются важным дополнением к значению коэффициента детерминации при проверке адекватности построенной модели.

Для простоты будем рассматривать лишь группу, разбитую на кварталы с номерами 2 и 3, т.к. вторая группа исследуется аналогично.

В окне, представленном на рис. 14, на вкладке Остатки/предсказанные/наблюдаемые значения нажмем на кнопку Анализ остатков , и далее нажмем на кнопку Остатки и предсказанные . (См. рис. 15)

Кнопка Анализ остатков будет активна, только если регрессия получена на последнем шаге. Чаще оказывается важным получить регрессионную модель, в которой значимы все предикторы, чем продолжить построение модели (увеличивая коэффициент детерминации) и получить незначимые предикторы.

В этом случае, когда регрессия не останавливается на последнем шаге, можно искусственно задать количество шагов в регрессии.


Рис. 14. Окно с результатами множественной регрессии для данных по 2 и 3-му кварталам


Рис. 15. Остатки и предсказанные значения регрессионной модели по данным 2 и 3 квартала

Прокомментируем результаты, представленные на рис. 15. Важным является столбец с Остатками (разница первых 2-х столбцов). Большие остатки по многим наблюдениям и наличие наблюдения с маленьким остатком может указывать на последнее как на выброс.

Другими словами анализ остатков нужен для того, чтобы отклонения от предположений, угрожающие обоснованности результатов анализа, могли быть легко обнаружены.


Рис. 16. Остатки и предсказанные значения регрессионной модели по данным 2 и 3 кварталов + 2 границы 0.95 доверительного интервала

В конце приведем график, иллюстрирующий данные, полученные из таблицы на рис. 16. Здесь добавлены 2 переменные: UCB и LCB – 0.95 верх. и нижн. дов. интервал.

UBC = V2+1.96*V6

LBC = V2-1.96*V6

И удалены четыре последних наблюдения.

Построим линейный график с переменными (Графики/2М Графики/Линейные графики для переменных )

1) Наблюдаемое значение (V1)

2) Предсказанное значение (V2)

3) UCB (V9)

4) LCB (V10)

Результат представлен на рис. 17. Теперь видно, что построенная регрессионная модель довольно неплохо отражает реальное потребление труб, особенно на результатах недавнего прошлого.

Это означает, что в ближайшем будущем реальные значения могут быть приближены модельными.

Отметим один важный момент. В прогнозировании при помощи регрессионных моделей всегда важен базовый временной интервал. В рассматриваемой задаче были выбраны кварталы.

Соответственно, при построении прогноза предсказываемые значения будут также получаться по кварталам. Если нужно получить прогноз на год, то придется прогнозировать на 4 квартала и в конце накопится большая ошибка.

Подобную проблему можно решить аналогично, вначале лишь агрегируя данные от кварталов к годам (например, усреднением). Для данной задачи подход не очень корректен, так как останется всего лишь 8 наблюдений, по которым будет строиться регрессионная модель. См. рис.18.


Рис. 17. Наблюдаемые и предсказанные значения вместе с 0.95 верх. и ниж. довер. интервалами (данные по 2 и 3 кварталам)


Рис. 18. Наблюдаемые и предсказанные значения вместе с 0.95 верх. и ниж. довер. интервалами (данные по годам)

Чаще всего такой подход применяется при агрегировании данных по месяцам, при исходных данных по дням.

Следует помнить, что все методы регрессионного анализа позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Поэтому ответ на вопрос о значимости переменных в полученной модели остается за экспертом в данной области, который, в частности, способен учесть влияние факторов, возможно, не вошедших в данную таблицу.

y =f (x ), когда каждому значению независимой переменной x соответствует одно определённое значение величины y , при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y . Если при каждом значении наблюдается n i {\displaystyle n_{i}} значений y i 1 …y in 1 величины y , то зависимость средних арифметических y ¯ i = (y i 1 + . . . + y i n 1) / n i {\displaystyle {\bar {y}}_{i}=(y_{i1}+...+y_{in_{1}})/n_{i}} от x = x i {\displaystyle x=x_{i}} и является регрессией в статистическом понимании этого термина .

Энциклопедичный YouTube

  • 1 / 5

    Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity ), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

    Описание

    Допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y ). Прямая линия в плоскости (x, y ) была выборочным аналогом функции

    g (x) = E (Y ∣ X = x) . {\displaystyle g(x)=E(Y\mid X=x).} E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , {\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1}),} v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . {\displaystyle \mathrm {var} (Y\mid X=x)=\sigma _{2}^{2}(1-\varrho ^{2}).}

    В этом примере регрессия Y на X является линейной функцией . Если регрессия Y на X отлична от линейной, то приведённые уравнения – это линейная аппроксимация истинного уравнения регрессии.

    В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии . Эти проблемы рассматриваются в рамках регрессионного анализа .

    Простым примером регрессии Y по X является зависимость между Y и X , которая выражается соотношением: Y =u (X )+ε, где u (x )=E (Y | X =x ), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y =u (x ) между неслучайными величинами y и x . На практике обычно коэффициенты регрессии в уравнении y =u (x ) неизвестны и их оценивают по экспериментальным данным.

    Линейная регрессия

    Представим зависимость y от x в виде линейной модели первого порядка:

    y = β 0 + β 1 x + ε . {\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon .}

    Будем считать, что значения x определяются без ошибки, β 0 и β 1 - параметры модели, а ε - ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ 2 . Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (x i , y i ), i =1, …, n . Таким образом мы можем записать:

    y i ^ = b 0 + b 1 x i , i = 1 , … , n {\displaystyle {\widehat {y_{i}}}=b_{0}+b_{1}x_{i},i=1,\dots ,n}

    где означает предсказанное моделью значение y при данном x , b 0 и b 1 - выборочные оценки параметров модели. Определим также e i = y i − y i ^ {\displaystyle e_{i}=y_{i}-{\widehat {y_{i}}}} - значение ошибки аппроксимации для i {\displaystyle i} -го наблюдения.

    Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

    b 1 = ∑ i = 1 n (x i − x ¯) (y i − y ¯) ∑ i = 1 n (x i − x ¯) 2 = c o v (x , y) σ x 2 ; {\displaystyle b_{1}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\mathrm {cov} (x,y)}{\sigma _{x}^{2}}};} b 0 = y ¯ − b 1 x ¯ ; {\displaystyle b_{0}={\bar {y}}-b_{1}{\bar {x}};} s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2 ; {\displaystyle s_{e}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\widehat {y}})^{2}}{n-2}};} s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{b_{0}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};} s b 1 = s e 1 ∑ i = 1 n (x i − x ¯) 2 , {\displaystyle s_{b_{1}}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}},}

    здесь средние значения определяются как обычно: x ¯ = ∑ i = 1 n x i n {\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}} , y ¯ = ∑ i = 1 n y i n {\displaystyle {\bar {y}}={\frac {\sum _{i=1}^{n}y_{i}}{n}}} и s e 2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ 2 в том случае, если модель верна.

    Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего - для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t = b / s b {\displaystyle t=b/s_{b}} . Если вероятность для полученного значения и n −2 степеней свободы достаточно мала, например, <0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 {\displaystyle b_{1}} - есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b 0 {\displaystyle b_{0}} , то прямая проходит через начало координат и оценка углового коэффициента равна

    b = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 {\displaystyle b={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}}}} ,

    а её стандартной ошибки

    s b = s e 1 ∑ i = 1 n x i 2 . {\displaystyle s_{b}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}x_{i}^{2}}}}.}

    Обычно истинные величины коэффициентов регрессии β 0 и β 1 не известны. Известны только их оценки b 0 и b 1 . Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии y ^ {\displaystyle {\widehat {y}}} . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

    s y ^ = s e 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{\widehat {y}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}

    Теперь можно вычислить -процентный доверительный интервал для значения уравнения регрессии в точке x :

    y ^ − t (1 − α / 2 , n − 2) s y ^ < y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}},

    где t (1−α/2, n −2) - t -значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

    s Y = s e 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{Y}=s_{e}{\sqrt {{\frac {1}{m}}+{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}

    Здесь m - кратность измерения y при данном x . И 100 ⋅ (1 − α 2) {\displaystyle 100\cdot \left(1-{\frac {\alpha }{2}}\right)} -процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

    y ^ − t (1 − α / 2 , n − 2) s Y < y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y}.

    На рисунке эта 95%-я доверительная область при m =1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x .

    Еще немного статистики

    Можно строго доказать, что, если условное матожидание E (Y ∣ X = x) {\displaystyle E(Y\mid X=x)} некоторой двумерной случайной величины (X, Y ) является линейной функцией от x {\displaystyle x} , то это условное матожидание обязательно представимо в виде E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) {\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1})} , где E (X )=μ 1 , E (Y )=μ 2 , var(X )=σ 1 2 , var(Y )=σ 2 2 , cor(X, Y )=ρ.

    Более того, для уже упомянутой ранее линейной модели Y = β 0 + β 1 X + ε {\displaystyle Y=\beta _{0}+\beta _{1}X+\varepsilon } , где X {\displaystyle X} и - независимые случайные величины, а ε {\displaystyle \varepsilon } имеет нулевое матожидание (и произвольное распределение), можно доказать, что E (Y ∣ X = x) = β 0 + β 1 x {\displaystyle E(Y\mid X=x)=\beta _{0}+\beta _{1}x} . Тогда с помощью указанного ранее равенства можно получить формулы для и : β 1 = ϱ σ 2 σ 1 {\displaystyle \beta _{1}=\varrho {\frac {\sigma _{2}}{\sigma _{1}}}} ,

    β 0 = μ 2 − β 1 μ 1 {\displaystyle \beta _{0}=\mu _{2}-\beta _{1}\mu _{1}} .

    Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами β 0 {\displaystyle \beta _{0}} и β 1 {\displaystyle \beta _{1}} , можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.