[an error occurred while processing this directive] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Тема 1. Введение. Эконометрика и эконометрическое моделирование Тема 3. Парная регрессия и корреляция Тема 4. Модель множественной регрессии Тема 5. Системы линейных одновременных уравнений Тема 6. Многомерный статистический анализ Задания для выполнения контрольной работы по дисциплине |
Тема 3. Парная регрессия и корреляцияЭкономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Стохастическая (вероятностная) природа экономических данных обусловливает необходимость применения соответствующих статистических методов для их обработки и анализа. Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции1. Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. Вариация уровня производительности труда работников предприятий зависит от степени совершенства применяемого оборудования, технологии, организации производства, труда и управления и других самых различных факторов. При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов, будем называть результативными. Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих — факторным признаком. Рассматривая зависимости между признаками, необходимо выделить, прежде всего две категории зависимости: 1) функциональные и 2) корреляционные. Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина начисленной заработной платы при повременной оплате труда зависит от количества отработанных часов. В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия. При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции. 3.1. Корреляционный анализОсновная задача корреляционного анализа заключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисления и проверки значимости множественных коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между параметрами, но устанавливает численное значение этих связей и достоверность суждений об их наличии. Выборочная ковариация является мерой взаимосвязи между двумя переменными. Ковариация между двумя переменными x и y рассчитывается следующим образом:
где (x1, y1), (x2, y2), …, (xn, yn) – фактические значения случайных переменных X и Y, ; . Ковариация - это статистическая мера взаимодействия двух случайных переменных, таких, например, как доходности двух ценных бумаг. Положительное значение ковариации показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону. Ковариация зависит от единиц, в которых измеряются переменные X и Y. Поэтому для измерения силы связи между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции. При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n - наблюдений; xik — i-e наблюдение k-й переменной. Основными средствами анализа данных являются парные коэффициенты корреляции, частные коэффициенты корреляции и множественные коэффициенты корреляции. Коэффициент парной корреляцииДля двух переменных X и Y теоретический коэффициент корреляции определяется следующим образом:
где , — дисперсии случайных переменных X и Y, а σx, y – их ковариация. Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменными и обладает следующими основными свойствами: Коэффициент корреляции принимает значение и интервале (-1, +1), или |ρxy| < 1; Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, т.е. ρ(α1X + β; α2Y + β) = ρxy где α1, α2, β - постоянные величины, причем α1 > 0, α2 > 0. Случайные величины X, Y можно уменьшать (увеличивать) в α раз, а также вычитать или прибавлять к значениям X и Y одно и тоже число β - это не приведет к изменению коэффициента корреляции ρ. При ρ = ±1 корреляционная связь представляется линейной функциональной зависимостью, т.е. Y = αX + β. При ρ = 0 линейная корреляционная связь отсутствует. В практических расчетах коэффициент корреляции ρ генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка — выборочный коэффициент корреляции r, так как выборочная совокупность переменных X и Y случайна, то в отличие от параметра ρ, r - случайная величина. Оценкой коэффициента корреляции ρ является выборочный парный коэффициент корреляции: (3.1) где - оценки дисперсий X и Y. Для оценки значимости коэффициента корреляции применяется t-критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле: (3.2) Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы. Если tнабл > tкр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь. Если значение ry,x близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем убывать. Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества m признаков n наблюдений получают матрицу коэффициентов парной корреляции R. (3.3) Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном корреляционном анализе рассматривается две задачи: 1) определение тесноты связи одной случайной величины с совокупностью остальных (m-1) величин, включенных в анализ; 2) определение тесноты связи между величинами при фиксировании или исключении влияния остальных k величин, при k < (m-2). Эти задачи решаются с помощью коэффициентов множественной и частной корреляции соответственно. Множественный коэффициент корреляцииРешение первой задачи осуществляется с помощью выборочного коэффициента множественной корреляции по формуле: (3.4) где |R| - определитель корреляционной матрицы R (3.3); Rjj - алгебраическое дополнение элемента rjj той же матрицы R. Квадрат коэффициента множественной корреляции принято называть выборочным множественным коэффициентом детерминации, который показывает, какую долю вариации (случайного разброса) исследуемой величины Xj объясняет вариация остальных случайных величин X1, X2, ..., Xm. Коэффициенты множественной корреляции и детерминации являются величинами положительными, принимающими значения в интервале от 0 до 1. При приближении коэффициента R2 к единице можно сделать вывод о тесноте взаимосвязи случайных величин, но не о ее направлении. Коэффициент множественной корреляции может только увеличиваться, если в модель включать дополнительные переменные, и не увеличится, если из имеющихся признаков производить исключение. Проверка значимости коэффициента множественной корреляции осуществляется путем сравнения расчетного значения критерия Фишера (3.5) с табличным Fтабл Табличное значение критерия определяется заданным уровнем значимости а и степенями свободы k1 = m-1 и k2 = n-m. Коэффициент R2 значимо отличается от нуля, если выполняется неравенство Fрасч > Fтабл. Частный коэффициент корреляцииЕсли рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния одной или нескольких других случайных величин. Выборочный частный коэффициент корреляции определяется по формуле:
где Rjk, Rjj, Rkk — алгебраические дополнения к соответствующим элементам матрицы (3.3). Частный коэффициент корреляции, так же, как и парный коэффициент корреляции изменяется от -1 до +1. Пример 3.1. Вычисление коэффициентов парной, множественной и частной корреляции В табл. 3.1 представлены информация об объемах продаж и затратах на рекламу одной фирмы, а также индекс потребительских расходов за ряд текущих лет. Требуется: 1. Построить диаграмму рассеяния (корреляционное поле) для переменных «объемы продаж» и «индекс потребительских расходов». 2. Определить степень влияния индекса потребительских расходов на объемы продаж (вычислить коэффициент парной корреляции). 3. Оценить значимость вычисленного коэффициента парной корреляции. 4. Построить матрицу коэффициентов парной корреляции по трем переменным. 5. Найти оценку множественного коэффициента корреляции. 6. Найти оценки коэффициентов частной корреляции. Таблица 3.1
Продолжение табл. 3.1
Решение 1. Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение, что существует некоторая объективная тенденция прямой линейной связи между значениями переменных X — индекс потребительских расходов и Y — объемы продаж. В нашем примере диаграмма рассеяния имеет вид, приведенный на рис 3.1. 2. Промежуточные расчеты при вычислении коэффициента корреляции между переменными X — индекс потребительских расходов и Y — объемы продаж приведены в табл. 3.2. Средние значения случайных величин X и Y, которые являются наиболее простыми показателями, характеризующими последовательности x1, x2, …, x16 и y1, y2, …, y16, рассчитаем по формулам, соответственно
Рис. 3.1. Диаграмма рассеяния (корреляционное поле) Дисперсия характеризует степень разброса значений x1, x2, …, x16 (y1, y2, …, y16) вокруг своего среднего (и соответственно ):
Стандартные ошибки случайных величин X и Y рассчитаем по формулам соответственно:
Коэффициент корреляции рассчитаем по формуле (3.1):
Таблица 3.2
3. Оценим значимость коэффициента корреляции. Для этого рассчитаем значение t-статистики по формуле
Табличное значение критерия Стьюдента равно: tтабл (α = 0,1; k = n - 2 = 14) = 1,76 (см. Приложение 2). Сравнивая числовые значения критериев, видно, что tрасч > tтабл, т.е. полученное значение коэффициента корреляции значимо. Таким образом, индекс потребительских расходов оказывает весьма высокое влияние на объемы продаж. 4. Матрица R коэффициентов парной корреляции, вычисленных по формуле (3.1), для трех факторов будет иметь вид:
5. Вычисление множественного коэффициента корреляции y с x1 и x2:
где |R| — определитель корреляционной матрицы R равен 0,1304, R11 — алгебраическое дополнение 1-го диагонального элемента той же матрицы R:
6. Вычисление коэффициентов частной корреляции:
где R12 — алгебраическое дополнение элемента r12 матрицы R, а R22 — алгебраическое дополнение 2-го диагонального элемента r22:
Коэффициенты частной корреляции можно вычислить, используя коэффициенты парной корреляции:
3.2. Регрессионный анализРегрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели. В регрессионных моделях зависимая (объясняемая) переменная Y может быть представлена в виде функции f(X1, X2, Х3, ..., Xm), где X1, X2, Х3, ..., Xm — независимые (объясняющие) переменные, или факторы. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность предприятия или курс ценной бумаги. В зависимости от вида функции f(X1, X2, Х3, ..., Xm) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов X модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). Связь между переменной Y и m независимыми факторами можно охарактеризовать функцией регрессии Y = f(X1, X2, Х3, ..., Xm), которая показывает, каково будет в среднем значение переменной yi, если переменные хi примут конкретное значение. Данное обстоятельство позволяет использовать модель регрессии не только для анализа, но и для прогнозирования экономических явлений. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность коммерческого банка или означающий курс ценной бумаги. Линейная парная регрессияПод линейностью здесь имеется в виду, что переменная у предположительно находится под влиянием переменной х в следующей зависимости: yi = α + β × xi + εi (3.6) где α — постоянная величина (или свободный член уравнения), β — коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Это показатель, характеризующий изменение переменной yi при изменении значения хi на единицу. Если β > 0 — переменные хi и yi положительно коррелированные, если β < 0 — отрицательно коррелированны; εi — независимая нормально распределенная случайная величина — остаток с нулевым математическим ожиданием (mε = 0) и постоянной дисперсией (Dε = σ2). Она отражает тот факт, что изменение yi будет неточно описываться изменением X: присутствуют другие факторы, не учтенные в данной модели. Оценка параметров регрессионного уравненияОсновные предпосылки метода наименьших квадратовСвойства коэффициентов регрессии существенным образом зависят от свойств случайной составляющей. Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, должны выполняться следующие условия, известные как условия Гаусса-Маркова.
M(εi) = 0. Фактически, если уравнение регрессии включает постоянный член, то обычно это условие выполняется автоматически, так как роль константы состоит в определении любой систематической тенденции Y, которую не учитывают объясняющие переменные, включенные в уравнение регрессии.
Если это условие выполнено, то теоретическая ковариация между независимой переменной и случайным членом равна нулю.
В силу того, что M(εi) = M(εj) = 0, данное условие можно записать следующим образом: M(εi, εj) = 0 (i ≠ j). Возмущения εi и εj не коррелированны (условие независимости случайных составляющих в различных наблюдениях). Это условие означает, что отклонения регрессии (а значит, и сама зависимая переменная) не коррелируют. Условие некоррелируемости ограничительно, например, в случае временного ряда yt.Тогда третье условие означает отсутствие автокорреляции ряда εt.
Величина σ2(ε), конечно, неизвестна. Одна из задач регрессионного анализа состоит в оценке стандартного отклонения случайной составляющей. Это условие гомоскедастичности, или равноизменчивости случайной составляющей (возмущения).
Свойства оценок МНКВ тех случаях, когда предпосылки выполняются, оценки, полученные по МНК, будут обладать свойствами несмещенности, состоятельности и эффективности. Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям. Для практических целей важна не только несмещенность, но и эффективность оценок. Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Для оценки параметров регрессионного уравнения наиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений yi, от модельных значений . Согласно принципу метода наименьших квадратов оценки и находятся путем минимизации суммы квадратов:
по всем возможным значениям α и β при заданных (наблюдаемых) значениях х1, ..., хn, y1, ..., yn. Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Такая точка находится путем приравнивания нулю частных производных функции z = Q(α, β) по переменным α и β. Это приводит к системе нормальных уравнений: ∂Q(α, β)/∂α = 0, ∂Q(α, β)/∂β = 0, решением которой и является пара , . Следует заметить, что согласно правилам вычисления производных,
так что искомые значения , удовлетворяют соотношениям
Эту систему двух уравнений можно записать также в виде
Эта система является системой двух линейных уравнений с двумя неизвестными и может быть легко решена, например методом подстановки. В результате получаем: (3.7) Такое решение может существовать только при выполнении условия
что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен:
Последнее условие называется условием идентифицируемости модели наблюдений yi = (α + β × xi) + εi, i = 1, ..., n и означает, что не все значения х1, ..., хn, совпадают между собой. При нарушении этого условия все точки (хi, уi), i = 1, ..., n, лежат на одной вертикальной прямой . Оценки и называют: оценками наименьших квадратов. Обратим еще раз внимание на полученное выражение для . Нетрудно увидеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии и выборочной ковариации , так что в этих терминах (3.8) Матричная форма записиВ матричной форме модель парной регрессии имеет вид Y = X - A + ε, (3.9) где Y — вектор-столбец размерности (n × 1) наблюдаемых значений зависимой переменной; X — матрица размерности (n × 2) наблюдаемых значений факторных признаков. Дополнительный фактор x0 вводится для вычисления свободного члена; A — вектор-столбец размерности (2 × 1) неизвестных, подлежащих оценке коэффициентов регрессии; ε — вектор-столбец размерности (n × 1) ошибок наблюдений
Решение системы нормальных уравнений в матричной форме имеет вид
Пример 3.2 Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. долл.): Таблица 3.2
Требуется: 1. Построить однофакторную модель регрессии, 2. Отобразить на графике исходные данные, результаты моделирования. Решение Для вычисления параметров модели следует воспользоваться формулами (3.7) и (3.8). Промежуточные расчеты приведены в таблице 3.3. Таблица 3.3
Построена модель зависимости накопления от дохода:
график которой изображен на рис. 3.2.
Рис. 3.2. График модели парной регрессии Качество модели регрессииКачество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков — εi. После построения уравнения регрессии мы можем разбить значение y d каждом наблюдении на две составляющие — и εi: (3.10) Остаток представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученное расчетным путем: . Если , то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак y полностью обусловлен влиянием фактора x. На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т.е. отклонения эмпирических данных от теоретических (εi ≠ 0). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения. При анализе качества модели регрессии используется основное положение дисперсионного анализа [6], согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения может быть разложена на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии: (3.11) где — значения y, вычисленные по модели . Разделив правую и левую часть (3.11) на
получим
Коэффициент детерминации определяется следующим образом: (3.12) Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т.е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов. Чем ближе R2 к 1, тем выше качество модели. Для оценки качества регрессионных моделей целесообразно использовать коэффициент множественной корреляции (индекс корреляции) R: (3.13) Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной модели и их линейной зависимости он равен коэффициенту линейной корреляции (R = |ry,x|). Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным. Также для оценки точности регрессионных моделей целесообразно использовать среднюю относительную ошибку аппроксимации: (3.14) Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7% свидетельствует о хорошем качестве модели. После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров. Оценить значимость уравнения регрессии — это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и X, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных X для описания зависимой переменной Y. Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: R2 = 0. Альтернативная ей гипотеза о значимости уравнения – гипотеза о неравенстве нулю параметров регрессии. Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с ν1 = k и ν2 = (n-k-1) степенями свободы, где k — количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой. Для модели парной регрессии (3.15) В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n-k-1), где k — количество факторов, включенных в модель. Квадратный корень из этой величины (Sε) называется стандартной ошибкой оценки. (3.16) Для модели парной регрессии
Анализ статистической значимости параметров модели парной регрессии: yi = α + β × xi + εi. Значения yi, соответствующие данным xi при теоретических значениях α и β являются случайными. Случайными являются и рассчитанные по ним значения коэффициентов α и β. Надежность получаемых оценок α и β зависит от дисперсии случайных отклонений (ошибок). По данным выборки эти отклонения и соответственно их дисперсия не оцениваются — в расчетах используются отклонения зависимой переменной yi от ее расчетных значений : εi = yi – α – βxi. Так как ошибки (остатки) εi нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения этой вариации. Среднеквадратические отклонения коэффициентов известны как стандартные ошибки (отклонения):
(3.17) где — математическое ожидание независимой переменной х; — стандартная ошибка, вычисляемая по формуле (3.16);
Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t-статистики) для соответствующих коэффициентов регрессии: (3.18) Затем расчетные значения tрасч сравниваются с табличными tтабл. Табличное значение критерия определяется при (n-2) степенях свободы (n — число наблюдений) и соответствующем уровне значимости α (0,1; 0,05). Если расчетное значение t-критерия с (п-2) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится). Интервальная оценка параметров моделиДля значимого уравнения регрессии представляет интерес построение интервальных оценок для параметра α1 (3.19) свободного члена α0
где tтабл определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы k = n-2; — стандартные отклонения соответственно свободного члена и коэффициента модели (3.6); n — число наблюдений. Прогнозирование с применением уравнения регрессииРегрессионные модели могут быть использованы для прогнозирования возможных ожидаемых значений зависимой переменной. Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии (3.18) ожидаемой величины фактора х. Данный прогноз называется точечным. При выборе ожидаемой величины х нельзя подставлять значения независимой переменной хпрогн, значительно отличающиеся от входящих в исследуемую выборку, по которой вычислено уравнение регрессии. Вероятность реализации точечного прогноза практически равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большой надежностью. Доверительные интервалы зависят от стандартной ошибки (3.15), удаления хпрогн от своего среднего значения , количества наблюдений n и уровня значимости прогноза α. В частности, для прогноза (3.18) будущие значения упрогн с вероятностью (1-α) попадут в интервал
Пример 3.3. Используя данные примера 3.2, оцените накопления семьи, имеющей доход 42 тыс. долл. и отобразите на графике исходные данные, результаты моделирования и прогнозирования. Решение В примере 3.2 была построена модель зависимости накопления от дохода:
Для того чтобы определить накопления семьи при доходе в 42 тыс. долл. необходимо подставить значение хпрогн в полученную модель. yпрогноз = -2,184 + 0,143 × 42 = 3,827. Величину отклонения от линии регрессии вычисляют по формуле , используя данные таблицы 3.4. Величину Sε находят по формуле (3.16):
Таблица 3.4
Коэффициент Стьюдента tα для m = 5 степеней свободы (m = n-2) и уровня значимости 0,1 равен 2,015.
Таким образом, прогнозное значение будет находиться между верхней границей, равной 3,827 + 1,965 = 5,792 и нижней границей, равной 3,827 - 1,965 = 1,862. График исходных данных и результаты моделирования приведены на рис. 3.3.
Рис. 3.3. График модели парной регрессии зависимости накопления от дохода Нелинейная регрессияЕсли между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций. Теоретические вопросы, связанные с построением моделей нелинейной регрессии, следует изучить по учебнику «Эконометрика» под ред. И.И. Елисеевой (стр. 62-80). Пример 3.4 По семи предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (X, млн. руб.).
Требуется: 1. Для характеристики Y от X построить следующие модели: • линейную (для сравнения с нелинейными), • степенную, • показательную, • гиперболическую. 2. Оценить каждую модель, определив: • индекс корреляции, • среднюю относительную ошибку, • коэффициент детерминации, • F-критерий Фишера. 3. Составить сводную таблицу вычислений, выбрать лучшую модель, дать интерпретацию рассчитанных характеристик. 4. Рассчитать прогнозные значения результативного признака по лучшей модели, если объем капиталовложений составит 89,573 млн. руб. 5. Результаты расчетов отобразить на графике. Решение 1. Построение линейной модели парной регрессии Определим линейный коэффициент парной корреляции по следующей формуле:
Можно сказать, что связь между объемом капиталовложений X и объемом выпуска продукции Y обратная, достаточно сильная. Уравнение линейной регрессии имеет вид: . Таблица 3.5
Значения параметров a и b линейной модели определим, используя данные таблицы 3.5.
Уравнение линейной регрессии имеет вид:
С увеличением объема капиталовложений на 1 млн. руб. объем выпускаемой продукции уменьшится в среднем на 550 тыс. руб. Это свидетельствует о неэффективности работы предприятий, и необходимо принять меры для выяснения причин и устранения этого недостатка. Рассчитаем коэффициент детерминации:
Вариация результата Y (объема выпуска продукции) на 82,2 % объясняется вариацией фактора X (объемом капиталовложений). Оценку значимости уравнения регрессии проведем с помощью F-критерия Фишера:
F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = n – m – 1 = 5. Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т. к. F > Fтабл. Определим среднюю относительную ошибку:
В среднем расчетные значения для линейной модели отличаются от фактических значений на 5,685%. 2. Построение степенной модели парной регрессии Уравнение степенной модели имеет вид: . Для построения этой модели необходимо произвести линеаризацию переменных. Для этого произведем логарифмирование обеих частей уравнения: .
Обозначим , X = lg x, A = lg a. Тогда уравнение примет вид: Y = A + b X — линейное уравнение регрессии. Рассчитаем его параметры, используя данные таблицы 3.6. Таблица 3.6
Уравнение регрессии будет иметь вид: Y = 3,3991-0,8921 X. Перейдем к исходным переменным х и у, выполнив потенцирование данного уравнения.
Получим уравнение степенной модели регрессии: . Определим индекс корреляции:
Связь между показателем y и фактором x можно считать достаточно сильной. Коэффициент детерминации равен 0,836:
Вариация результата Y (объема выпуска продукции) на 83,6% объясняется вариацией фактора X (объемом капиталовложений). Рассчитаем F-критерий Фишера:
F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = n – m – 1 = 5. Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т.к. F > Fтабл. Средняя относительная ошибка
В среднем расчетные значения для степенной модели отличаются от фактических значений на 6,04%. 3. Построение показательной функции Уравнение показательной кривой: Для построения этой модели необходимо произвести линеаризацию переменных. Для этого осуществим логарифмирование обеих частей уравнения:
Обозначим: B = lg b, A = lg a. Получим линейное уравнение регрессии: Y = A + B x. Рассчитаем его параметры, используя данные таблицы 3.7. Таблица 3.7
Уравнение будет иметь вид: Y = 2,09 + 0,0048 x. Перейдем к исходным переменным x и y, выполнив потенцирование данного уравнения:
Определим индекс корреляции:
Связь между показателем y и фактором x можно считать тесной. Индекс детерминации: Вариация результата Y (объема выпуска продукции) на 41,1 % объясняется вариацией фактора X (объем капиталовложений). Рассчитаем F-критерий Фишера:
F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = n – m – 1 = 5. Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т. к. F > Fтабл. Средняя относительная ошибка:
В среднем расчетные значения для линейной модели отличаются от фактических значений на 5,909 %. 4. Построение гиперболической функции Уравнение гиперболической функции: Произведем линеаризацию модели путем замены X = 1/x. В результате получим линейное уравнение . Рассчитаем его параметры по данным таблицы 3.8. Таблица 3.8
Получим следующее уравнение гиперболической модели:
Определим индекс корреляции:
Связь между показателем у и фактором х можно считать достаточно сильной. Индекс детерминации:
Вариация результата Y (объема выпуска продукции) на 83,5% объясняется вариацией фактора X (объемом капиталовложений). F-критерий Фишера:
F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = n – m – 1 = 5. Уравнение регрессии с вероятностью 0,95 в целом не является статистически значимым, т. к. F > Fтабл. Определим среднюю относительную ошибку:
В среднем расчетные значения для линейной модели отличаются от фактических значений на 6,029 %. Для выбора лучшей модели построим сводную таблицу результатов. Таблица 3.9
Все модели имеют примерно одинаковые характеристики, но большее значение F-критерия Фишера и большее значение коэффициента детерминации R2 имеет гиперболическая модель. Ее можно взять в качестве лучшей для построения прогноза. Расчет прогнозного значения результативного показателяПрогнозное значение результативного признака (объема выпуска продукции) определим по уравнению гиперболической модели, подставив в него планируемую (заданную по условию) величину объема капиталовложений:
Построение парной нелинейной регрессии можно осуществить при помощи программы «Олимп: СтатЭксперт». Для этого необходимо выполнить следующую последовательность действий.
После выполнения этой последовательности действий программа осуществит расчет параметров гиперболической модели, прогнозных значений и построение графиков. Отчет по вычислениям представлен в следующем виде: Таблица функций парной регрессии
Таблица остатков
Таблица характеристики остатков
На основании данных расчетов получено уравнение гиперболической модели: Y(X) = +5,664+3571,928/Х. Аналогичные результаты были получены при осуществлении расчетов в Excel. Фактические, расчетные и прогнозные значения по лучшей модели отобразим на рис. 3.4.
Рис. 3.4. Прогноз по лучшей модели 1 Основоположниками теории корреляции считаются английские биометрики Ф. Гальтон (1822-1911) и К. Пирсон (1857-1936). Термин «корреляция» был заимствован из естествознания и обозначает соотношение, соответствие. Представление о корреляции как об отношении взаимозависимости между случайными переменными величинами лежит в основе математико-статистической теории корреляции. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[an error occurred while processing this directive] |