Прогнозирование по модели множественной регрессии. Прогнозирование по линейному уравнению регрессии

В прогнозных расчетах по уравнению регрессии определяется предсказываемое значение как точечный прогнозпри
то есть путем подстановки в линейное уравнение регрессии
соответствующего значенияx. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибкито есть
, и соответственно мы получаем интервальную оценку прогнозного значения:

(2.29)

Для того чтобы понять, как строится формула для определения величин стандартной ошибки
тогда уравнение регрессии примет вид:

Отсюда следует, что стандартная ошибка
зависит от ошибкии ошибки коэффициента регрессииb, то есть:

(2.31)

Из теории выборки известно, что

Используя в качестве оценки остаточную дисперсию на одну степень свободы, получим формулу расчета ошибки среднего значения переменнойy:

(2.32)

Ошибки коэффициента регрессии, как уже было показано, определяется формулой

(2.33)

Считая, что прогнозное значение фактора
, получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, то есть

. (2.34)

Соответственно
имеет выражение:

(2.35)

Рассмотренная формула стандартной ошибки предсказываемого среднего значения yпри заданном значениихарактеризует ошибку положения линии регрессии. Величина стандартной ошибки
достигает минимума при
и возрастает по мере того, как «удаляется» отв любом направлении. Иными словами, чем больше разность междуи, тем больше ошибки
, с которой предсказывается среднее значениеyдля заданного значения. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х, и нельзя ожидать хороших результатов прогноза при удаленииот. Если же значениеоказывается за пределами наблюдаемых значений х, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколькоотклоняется от области наблюдаемых значений фактора х. [И. И. Елисеева с. 72]

2.6 Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы
параболы второй степени
и др.

Различают два класса нелинейных регрессий:

    регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

    регрессии, нелинейные по оцениваемым параметрам;

Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции:


К нелинейным регрессиям по оцениваемым параметрам относятся функции:


Нелинейная регрессия по включенным переменным не имеет никаких сложностей для оценки ее параметров. Они определяются, как и в линейной регрессии, методом наименьших квадратов, ибо эти функции линейны по параметрам. Так, в параболе второй степени
заменив переменные
получим двухфакторное уравнение линейной регрессии:

Для оценки параметров которого используется МНК.

Полином любого порядка сводится к линейной регрессии с ее способами оценивания характеристик и проверки гипотез. Как показывает опыт большинства исследователей, между нелинейной полиномиальной регрессии наиболее часто употребляется парабола второй степени; в отдельных вариантах – полином третьего порядка. Ограничения в использовании полиномов наиболее высоких степеней связаны с требованием односторонности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и в соответствии с этим меньше односторонность совокупности по результативному признаку.

Парабола второй степени целесообразна к использованию, если для конкретного промежутка значений фактора изменяется характер взаимосвязи рассматриваемых показателей: прямая взаимосвязь меняется на обратную или обратная на прямую. В такой ситуации определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: приравниваем к нулю первую производную параболы второй степени:
b+2cx=0

Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений:

(2.36)

Решить ее относительно параметров a,b,cможно методом определителей:

где - определитель системы;

a,b,c– частные определители для каждого из параметров.

При b>0 иc>0 кривая симметрична относительно высшей точки, то есть точки перелома кривой, изменяющей направление взаимосвязи, а конкретно подъем на падение. Такого рода функцию можно наблюдать в экономике труда при исследовании зависимости заработной платы работников физического труда от возраста – с повышением возраста увеличивается заработная плата ввиду одновременного роста опыта и повышения квалификации работника. Приb<0 иc>0 парабола второго порядка симметрична относительно своего минимума, что позволяет определять минимум функции в точке, меняющей направление связи, то есть снижение на рост.

Ввиду симметричности кривой параболу второй степени не всегда возможно применить в конкретных случаях. Параметры параболической взаимосвязи не всегда могут быть логически объяснены. Таким образом, график зависимости не показывает четко выраженной параболы второго порядка, то она может быть заменена другой нелинейной функцией.

В группе нелинейных функций, параметры которых будут оценены МНК, в эконометрике хорошо известна равносторонняя гипербола
Она может быть использована для объяснения взаимосвязи удельных расходов. Стандартным примером является кривая Филлипса, объясняющая нелинейное соотношение между нормой безработицыxи процентом прироста заработной платыy.

Британский экономист А. В. Филлипс установил обратную взаимозависимость процента прироста заработной платы от уровня безработицы.

Если в уравнении равносторонней гиперболы
заменитьнаz, получим линейное уравнение регрессииy=a+bz+e, параметры будут оценены с помощью МНК. Система нормальных уравнений имеет вид:

(2.37)

При b>0 имеем обратную зависимость, которая при х стремящемуся к бесконечности объясняется нижней асимптотой, то есть минимальным предельным значениемy, оценкой которого служит параметрa.

При b<0 имеем медленно повышающуюся функцию с верхней асимптотой при х стремящемуся к бесконечности, то есть с максимальным предельным уровнемy, оценку которого в уравнении дает параметр а.

Среди нелинейных функций в эконометрических исследованиях глубоко используется степенная функция
Это связано с тем, что параметрbв функции имеет четкое экономическое объяснение, то есть являетсякоэффициентом эластичности . Это говорит о том, что величина коэффициентаbпоказывает, на сколько процентов изменится в средним итог, если фактор изменится на 1%.Формула расчета коэффициента эластичности:

(2.38)

где f’(x) – первая производная, характеризующая соотношение приростов результата для соответствующей формы связи.

В связи с тем, что коэффициент эластичности для линейной функции не является величиной постоянной обычно рассчитывается средний показатель эластичности по формуле:

(2.39)

Для оценки параметров степенной функции применяется МНК к линеаризованному уравнению и решается система нормальных уравнений. Параметр bопределяется из системы, а параметр а – после потенцирования величиныlna.

В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Поскольку в линейной модели и моделях, нелинейных по переменным, при оценке параметров появляются из критерия
то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным данным результативного признака, а их преобразованным величинам. Это поясняется тем, что оценка параметров основывается на минимизации суммы квадратов отклонений в логарифмах.

При использовании связей среди функций, применяющих lny, в эконометрике преобладают степенные зависимости – это и кривые спроса и предложения, и кривые Энгеля, и производственные функции, и критерии освоения для характеристики связи между трудоемкостью продукции и размерами производства в период освоения выпуска нового вида изделий, и зависимость валового национального дохода от уровня занятости.

При применении линеаризуемых функций, затрагивающих преобразования зависимой переменной y, следует проверить присутствие предпосылок МНК, что бы они не нарушались при преобразовании. При нелинейных отношениях рассматриваемых признаков, приводимых к линейному виду, возможно интервальное оценивание параметров нелинейной функции.

Для внутренне нелинейных моделей, которые путем несложных преобразований не приводятся к линейному виду, оценка параметров не может быть дана привычным МНК. Здесь используются иные подходы. [И. И. Елисеева с. 77]

Применение линейной регрессии в прогнозировании

Прогнозирование - это самостоятельная отрасль науки, которая находит широкое применение во всех сферах человеческой деятельности. Существует большое разнообразие видов и способов прогнозирования, разработанных с учетом характера рассматриваемых задач, целей исследования, состояния информации. Этим вопросам посвящено много книг и журнальных статей. Покажем на примере линейной регрессии применение эконометрических моделей в прогнозировании значений экономических показателей.

В обыденном понимании прогнозирование - это предсказание будущего состояния интересующего нас объекта или явления на основе ретроспективных данных о прошлом и настоящем состояниях при условии наличия причинно-следственной связи между прошлым и будущим. Можно сказать, что прогноз - это догадка, подкрепленная знанием. Поскольку прогностические оценки по сути своей являются приближенными, может возникнуть сомнение относительно его целесообразности вообще. Поэтому основное требование, предъявляемое к любому прогнозу, заключается в том, чтобы в пределах возможного минимизировать погрешности в соответствующих оценках. По сравнению со случайными и интуитивными прогнозами, научно обоснованные и планомерно разрабатываемые прогнозы без сомнения являются более точными и эффективными. Как раз такими являются прогнозы, основанные на использовании методов статистического анализа. Можно утверждать, что из всех способов прогнозирования именно они внушают наибольшее доверие, во-первых, потому что статистические данные служат надежной основой для принятия решений относительно будущего, во-вторых, такие прогнозы вырабатываются и подвергаются тщательной проверке с помощью фундаментальных методов математической статистики.

Оценка параметров линейной регрессии представляет собой прогноз истинных значений этих параметров, выполненный на основе статистических данных. Полученные прогнозы, оказываются достаточно эффективными, так как они являются несмещенными оценками истинных параметров.

Применим модель линейной регрессии (8.2.4) с найденными параметрами (8.2.8) и (8.2.9) для определения объясняемой переменной на некоторое множество ненаблюдаемых значений объясняющей переменной . Точнее говоря, поставим задачу прогнозирования среднего значения , соответствующего некоторому значению объясняющей переменной , которое не совпадает ни с одним значением . При этом может лежать как между выборочными наблюдениями так и вне интервала . Прогноз значения может быть точечным или интервальным. Ограничимся рассмотрением точечного прогноза, т.е. искомое значение определим в виде

где - наблюдаемые значения случайной величины , а - коэффициенты (веса), которые должны быть выбраны так, чтобы был наилучшим линейным несмещенным прогнозом, т.е. чтобы

Из (8.5.1) для наблюдаемых значений

Так как по свойству математического ожидания ((2.5.4) - (2.5.5))

,

Но так как в правой части под оператором математического ожидания стоят только постоянные числа, то

Учитывая соотношение можем сказать теперь, что будет несмещенным линейным прогнозом для тогда и только тогда, когда

Следовательно, всякий вектор удовлетворяющий условиям (8.5.2), делает выражение (8.5.1) несмещенным линейным прогнозом величины . Поэтому надо найти конкретное выражение весов через известные нам величины. Для этого решим задачу минимизации дисперсии величины :

Так как под оператором дисперсии в первом слагаемом правой части уравнения стоят постоянные числа, то

С учетом предположений b) и c) и пользуясь свойствами дисперсии (2.5.4) и (2.5.6), имеем:

где - среднеквадратическое отклонение случайной величины .

Составим оптимизационную задачу минимизации дисперсии с ограничениями (8.5.2):

при ограничениях

Так как множитель не зависит от и не влияет на минимальное значение целевой функции, то функцию Лагранжа (см. (2.3.8)) сконструируем следующим образом:

где и - множители Лагранжа. Необходимые условия оптимальности точки имеют вид (см. (2.3.9)):

(8.5.3)

Просуммировав первое уравнение по , с учетом второго уравнения получим:

Отсюда находим множитель Лагранжа

где - среднее значение случайной величины . Полученное значение вновь подставим в первое уравнение системы (8.5.3) и найдем

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х . Такой прогноз называетсяточечным. Он не является точным, поэтому дополняется расчетом стандартной ошибки ; получаетсяинтервальная оценка прогнозного значения :

Преобразуем уравнение регрессии:

ошибка зависит от ошибки и ошибки коэффициента регрессии b , т.е. .

Из теории выборки известно, что .

Используем в качестве оценки s 2 остаточную дисперсию на одну степень свободы S 2 , получаем: .

Ошибка коэффициента регрессии из формулы (15):

Таким образом, при х=х k получаем:

(31)

Как видно из формулы, величина достигает минимума при и возрастает по мере удаления от в любом направлении.

Для нашего примера эта величина составит:

При , При х k = 4

Для прогнозируемого значения 95% - ные доверительные интервалы при заданном х k определены выражением:

т.е. при х k =4 ±2,57-3,34 или ±8,58. При х к =4 прогнозное значение составит

у p =-5,79+36,84·4=141,57 - это точечный прогноз.

Прогноз линии регрессии лежит в интервале: 132,99 150,15.

Мы рассмотрели доверительные интервалы длясреднего значения у при заданном х. Однако фактические значения у варьируются около среднего значения , они могут отклоняться на величину случайной ошибки e , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка прогноза отдельного значения у должна включать не только стандартную ошибку но и случайную ошибку S . Таким образом, средняя ошибка прогноза индивидуального значения y составит:

(33)

Для примера:

Доверительный интервал прогноза индивидуальных значений у при х к =4 с верностью 0,95 составит:. 141,57 ±2,57·8,01, или 120,98 ≤ у р ≤ 162,16.

Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели?

Точечный прогноз: = -5,79 + 36,84 8 = 288,93. Предполагаемое значение - 250. Средняя ошибка прогнозного индивидуального значения:

Сравним ее с предполагаемым снижением издержек производства, т.е. 250-288,93= -38,93:

Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t~ критерий Стьюдента. При ошибке в 5 % с n-2=5 t табл =2,015, поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % - ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t -критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т.е. затраты соответствуют предложенной регрессионной модели.

Нелинейная регрессия

До сих пор мы рассматривали лишьлинейную модель регрессионной зависимости у от х (3). В то же время многие важные связи в экономике являютсянелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства - трудом, капиталом и т.п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары - с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

(35)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т.е. трем:

(36)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

Если b>0, с<0, имеет место максимум, т.е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При b<0, с>0 парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, не являющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

(37)

Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля. Другим примером зависимости (37) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае b <0 , а результативный признак в (37) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (37) сводится к замене фактора z=1/х , и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z :

К такому же линейному уравнению сводится полулогарифмическая кривая:

(39)

которая может быть использована для описания кривых Энгеля. Здесь 1п(х) заменяется на z , и получается уравнение (38).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

или в виде

Возможна такая зависимость:

В регрессиях типа (40) - (42) применяется один и тот же способ линеаризации - логарифмирование. Уравнение (40) приводится к виду:

(43)

Замена переменной Y = ln у сводит его к линейному виду:

(44)

где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (40) оцениваются по МНК из уравнения (44). Уравнение (41) приводится к виду:

который отличается от (43) только видом свободного члена, и линейное уравнение выглядит так:

Y=A+bx+E (46)

где A= lna . Параметры А и b получаются обычным МНК, затем параметр а в зависимости (41) получается как антилогарифм А. При логарифмировании (42) получаем линейную зависимость:

Y=A+Bx+E (47)

где B =lnb , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (42) получается как антилогарифм коэффициента В.

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х . Преобразуя (48) путем логарифмирования, получаем линейную регрессию:

Y=A+bX+E (49)

где Y= lny , A= lna, X= lnx, E= lnε .

Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:

(50)

Проводя замену и =1/у , получим:

(51)

Наконец, следует отметить зависимость логистического типа:

(52)

Графиком функции (52) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты у=0 и у=1/а и точку перегиба x= ln(b/a), у=1/(2а) , а также точку пересечения с осью ординат у=1/(а+b) :

Уравнение (52) приводится к линейному виду заменами переменных и=1/у, z=e - x .

Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:

(53)

Здесь - общая дисперсия результативного признака у , остаточная дисперсия, определяемая по уравнению нелинейной регрессии . Следует обратить внимание на то, что разности в соответствующих суммах и берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. По-другому (53) можно записать так:

(54)

Величина R находится в границах 0 ≤ R ≤ 1, и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой (37). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, н пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.

Иначе обстоит дело в случае, когда преобразование проводится также с величиной у , например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (54) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (54), вычисленным по исходному нелинейному уравнению.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.

Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F- критерию Фишера:

(55)

где n -число наблюдений, m -число параметров при переменных х . Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m =1, для полиномов (34) m=k , т.е. степени полинома. Величина т характеризует число степеней свободы для факторной СКО, а (п-т-1) - число степеней свободы для остаточной СКО.

Индекс детерминации R 2 можно сравнивать с коэффициентом детерминации r 2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R 2 и r 2 . Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R 2 -r 2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t -критерий Стьюдента:

Здесь в знаменателе находится ошибка разности (R 2 -r 2), определяемая по формуле:

Если t >t табл (α;n-m-1), то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.

В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии.

Если модель регрессии признана адекватной, то переходят к построению прогноза.

Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии ожидаемой величины независимой переменной х прогн :

Данный прогноз называется точечным. Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большой надежностью:

где t – t-критерий Стьюдента, определяемый по таблице при уровне значимости 0,05 и числе степеней свободы k=n-2 (для парной регрессии);

– остаточная дисперсия на одну степень свободы, определяемая по формуле:

;

s – стандартная ошибка предсказания, определяемая по формуле:

.

По статистическим данным, описывающим зависимость удельного веса бракованной продукции от удельного веса рабочих со специальной подготовкой на предприятиях построить уравнение парной регрессии и определить его значимость.

1. Построим диаграмму рассеяния для определения наличия зависимости между признаками и типа этой зависимости.

Диаграмма рассеяния или корреляционное поле показывает наличие линейной обратной связи.

2. Определим линейный коэффициент корреляции по формуле . Для этого построим вспомогательную таблицу:

Номер предприя-тия Удельный вес рабочих со специальной подготовкой, % х Удельный вес бракован-ной продукции, % y (x-xср)^2 (y-yср)^2 xy
857,6531 83,59184
371,9388 9,877551
86,22449 1,306122
0,510204 0,734694
114,7959 8,163265
429,0816 14,87755
661,2245 34,30612
Сумма 2521,429 152,8571
Среднее значение 44,28571 8,857143 360,2041 21,83673 306,4286

Линейный коэффициент корреляции будет равен:

С помощью встроенной функции КОРРЕЛ Excel получаем такое же значение линейного коэффициента корреляции. Для этого в ячейку необходимо ввести =КОРРЕЛ(массив1; массив2), причем не имеет значения последовательность ввода массивов.

Таким образом, делаем вывод о сильной обратной линейной зависимости между изучаемыми признаками.

2. Построим уравнение парной линейной регрессии . Оценим параметры уравнения регрессии а и b с помощью МНК. Для этого построим вспомогательную таблицу.



Номер х у x^2 xy
Сумма

Система нормальных уравнений для нахождения параметров парной линейной регрессии имеет вид:

Подставим необходимые данные и получим:

Решив систему, получим

С помощью встроенной функции ЛИНЕЙН Excel получаем такие же значения параметров уравнения регрессии. Для этого необходимо выделить две ячейки в одной строке, выбрать в главном меню Вставка/Функция , далее выбрать из категории Статистические функцию ЛИНЕЙН . В образовавшемся окне заполнить аргументы функции:

Известные значения y – диапазон, содержащий данные результативного признака;

Известные значения x – диапазон, содержащий данные факторного признака;

Константа – логическое значение, которое указывает на наличие или отсутствие свободного члена в уравнении регрессии, может принимать значение 0 или 1. Указываем 1.

Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если указать 0, будут выведены только значения параметров уравнения регрессии а и b в двух выделенных ячейках.

Чтобы вывести всю статистику по уравнению регрессии изначально необходимо выделить диапазон из пяти строк и двух столбцов и задать логическое значение 1 в аргументе функции ЛИНЕЙН Статистика . Дополнительная регрессионная статистика будет выводится в порядке, указанном в следующей схеме:

Для разбираемого примера таблица будет выглядеть следующим образом:

-0,23824 19,40793
0,027796 1,339265
0,936275 1,395765
73,46237
143,1163 9,740793

Таким образом, уравнение регрессии будет иметь вид: .

. Табличное значение t-критерия Стьюдента составляет 2,57. Поскольку расчетное значение больше табличного параметр а признается статистически значимым.

t-критерий Стьюдента для параметра а будет равен . Поскольку , параметр b признается статистически значимым.

Т.к. коэффициент детерминации , коэффициент корреляции равен и будет иметь отрицательное значение, поскольку связь обратная, на что указывает отрицательный коэффициент при х в уравнении регрессии.

Расчетное значение F-критерия Фишера равно 73,46, табличное значение F-критерия Фишера равно 6,61. Поскольку расчетное значение F-критерия больше табличного или критического, уравнение парной линейной регрессии в целом признается статистически значимым с вероятностью 95%.

t-критерий Стьюдента для линейного коэффициента корреляции определяется по формуле: , что больше табличного значения, поэтому линейный коэффициент корреляции признается статистически значимым.

Оценка статистической значимости параметров регрессии проводится с помощью t-статистики Стьюдента и путем расчета доверительного интервала для каждого из показателей. Выдвигается гипотеза Н 0 о статистически значимом отличие показателей от 0 a = b = r = 0. Рассчитываются стандартные ошибки параметров a,b, r и фактическое значение t-критерия Стьюдента.

Определяется статистическая значимость параметров.

t a > T табл - параметр a статистически значим.

t b > T табл - параметр b статистически значим.

Находятся границы доверительных интервалов.

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что параметры a и b находясь в указанных границах не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличается от 0. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. - М.: Дело, 2001. - С. 45.

Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы, параболы второй степени и д.р.

Различают два класса нелинейных регрессий:

  • - регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
  • - регрессии, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:

полиномы разных степеней;

равносторонняя гипербола.

К нелинейным регрессиям по оцениваемым параметрам относятся функции:

степенная;

показательная;

экспоненциальная.

Нелинейная регрессия по включенным переменным не таит каких-либо сложностей в оценке ее параметров. Она определяется, как и в линейной регрессии, методом наименьших квадратов (МНК), ибо эти функции линейны по параметрам. Так, в параболе второй степени y=a 0 +a 1 x+a 2 x 2 +е заменяя переменные x=x 1 ,x 2 =x 2 , получим двухфакторное уравнение линейной регрессии: у=а 0 +а 1 х 1 +а 2 х 2 + е.

Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное), значение результативного признака: приравниваем к нулю первую производную параболы второй степени: , т.е. b+2cx=0 и x=-b/2c.

Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений:

Решение ее возможно методом определителей:

В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Если в линейной модели и моделях, нелинейных по переменным, при оценке параметров исходят из критерия min, то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным данным результативного признака, а к их преобразованным величинам, т.е. ln y, 1/y. Так, в степенной функции МНК применяется к преобразованному уравнению lny = lnб + в ln x ln е. Это значит, что оценка параметров основывается на минимизации суммы квадратов отклонений в логарифмах. Соответственно если в линейных моделях то в моделях, нелинейных по оцениваемым параметрам, . Вследствие этого оценка параметров оказываются несколько смещенной.

Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем корреляции, а именно индексом корреляции (R):

Величина данного показателя находится в границах: 0 ? R ? 1, чем ближе к 1, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.

Индекс детерминации используется для проверки существенности в целом урпвнения нелинейной регрессии по F- критерию Фишера:

Данный способ расчета наиболее обоснован теоретически и дает самые точные результаты в практическом применении. Но дело осложняется рядом обстоятельств. Во-первых, качество большинства видов продукции, а, следовательно, и его уровень формируются чаще не одним, а несколькими свойствами, причем значимость их в формировании полезности различна. Встает сложная проблема определения их значимости. Во-вторых, полезность продукта находится чаще в нелинейной зависимости от значения свойств (частных качественных характеристик), а это означает непостоянство их значимости. Указанные сложности преодолимы, но не всегда.

Теснота связи между переменными величинами может иметь различные значения, если рассматривать ее с позиции характера зависимости (линейная, нелинейная). Если установлена слабая связь между переменными в линейной зависимости, то это совсем не означает, что такая связь должна быть в нелинейной зависимости. Показателем, характеризующим значимость факторов при различной форме связи, является корреляционное отношение. Оценка факторов по корреляционному отношению уже на этом этапе анализа позволяет предварительно уст0новить вид многофакторной связи, что служит хорошей предпосылкой при выборе конкретной модели исследуемого показателя.

В случае нелинейной зависимости линейный коэффициент корреляции теряет смысл, и для измерения тесноты связи применяют так называемое корреляционное отношение, известное также под названием «индекс корреляции»:

Для нахождения лучшей подстановки можно использовать визуальный метод, когда «на глаз» определяется вид нелинейной зависимости, связывающей результирующий параметр и независимый фактор, а можно выбор наилучшей замены осуществлять, используя коэффициент корреляции. Та подстановка, у которой коэффициент корреляции является максимальным, и является наилучшей. Ланге О. Введение в эконометрику. - М.: Прогресс, 1964. - С. 76.