Коэффициенты детерминации и их смысл. Смотреть страницы где упоминается термин коэффициент детерминации

Для определения статистической значимости коэффициента детерминации R 2 проверяется нулевая гипотеза дляF-статистики, рассчитываемой по формуле:

Соответственно, для парной регрессии

Смысл проверяемой гипотезы заключается в том, что все коэффициенты ли­нейной регрессии, за исключением свободного члена, равны нулю. Если они действительно равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид
, а коэффициент детерминацииR 2 иF -статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля, но чем больше такое отличие, тем менее оно вероятно. Логика проверки нулевой гипотезы заключается в том, что если произошло событие, которое было бы слишком маловероятным в том случае, если данная гипотеза действительно была бы верна, то эта гипотеза отвергается.

Величина F , если предположить, что выполнены предпосылки относительно отклоненийе i , имеет распределение Фишера с(т; п-т-1) степенями свободы, гдет - число объясняющих переменных,п - число наблюдений.

Итак, показатели F и R 2 равны или не равны нулю одновременно, поэтомуF = 0 равнозначно тому, что линия регрессии
является наилучшей по МНК и, следовательно, величинау статистически независима отх. Поэтому проверяется нулевая гипотеза для показателяF , который имеет хорошо известное, табулированное распределение - распределение Фишера. Для проверки этой гипотезы при заданном уровне значимости по таблицам находится критическое значениеF крит , и нулевая гипотеза отвергается, еслиF > F крит .

Пример 4.1

Пусть, например, при оценке парной регрессии по 15 наблюдениям R 2 = 0,7. В этом случаеF = 0,7 13/0,3.По таблицам для распределения Фишера с (1; 13) степенями свободы найдем, что при 5%-ном уровне значимости (доверительная вероятность 95%) критическое значениеF равно 4,67, при 1%-ном - 9,07. ПосколькуF =30,З>F крит ., нулевая гипотеза в обоих случаях отвергается. Если в той же ситуацииR 2 = 0,5, тоF = 13, и предположение о незначимости связи отвергается и здесь.

Конец примера

Таким образом, для того, чтобы отвергнуть гипотезу о равенстве нулю одновременно всех коэффициентов линейной регрессии, коэффициент детерминации не должен быть очень близким к единице; его критическое значение для данного числа степеней свободы уменьшается при росте числа наблюдений и может стать сколь угодно малым. В то же время величина коэффициента R 2 (точнее, рассчитанной по немуF -статистики, поскольку последняя учитывает число наблюдений и число объ­ясняющих переменных) может служить отражением общего качества регрессионной модели.

Отметим, что в случае парной регрессии проверка нулевой гипотезы для t - статистики коэффициента регрессии равносильна проверке нулевой гипотезы дляF -статистики (и, соответственно, показателяR 2 ). В этом случаеF -статистика равна квадратуt -статистики. В случае парной регрессии статистическая значимость величинR 2 иt -статистики коэффициента регрессии определяется коррелированностью переменныхх иу. Самостоятельную важность показательR 2 приобретает в случае множественной линейной регрессии.

Лабораторная работа №4.2.1. Проверка значимости коэффициента детерминации r2

В предыдущей задаче коэффициент детерминации R 2 равен 0,996544 (см. ячейкуG6 в результатах функции ЛИНЕЙН), что указывает на сильную зависимость между независимыми переменными и ценой. Определить, является ли этот результат (с таким высоким значениеR 2 ) случайным, используя F-статистику.

Таким образом можно выделить следующие свойства коэффициента детерминации:

1. ; в силу определения

2. =0;в этом случае RSS = 0, т. е. наша регрессия не объясняет, ничего не дает по сравнению с тривиальным прогнозом. Данные позволяют сделать вывод о независимости y и x, изменение в переменной x никак не влияет на изменение среднего значения переменной y. То есть увеличивается разброс точек на корреляционном поле относительно построенной линии регрессии(или статистическая зависимость очень слабая, или уравнение регрессии подобрано неверно).

3. =1; в этом случае все точки () лежат на одной прямой (ESS = 0). Тогда на основании имеющихся данных можно сделать вывод о наличии функциональной, а именно, линейной, зависимости между переменными y и x. Изменение переменной y полностью объясняется изменением переменной x.Для парной линей регрессии коэффициент детерминации точно равен квадрату коэффициента корреляции:

Вообще говоря, значение коэффициента детерминации не говорит о том, есть ли между факторами зависимость и насколько она тесная. Оно говорит только о качестве того уравнения, которое мы построили.

Удобно сравнивать коэффициенты детерминации для нескольких разных уравнений регрессии построенных по одним и тем же данным наблюдений. Из нескольких уравнений лучше то, у которого больше коэффициент детерминации.

3. Скорректированный коэффициент детерминации

Одним из свойств коэффициента детерминации является то, что это не убывающая функция от числа факторов, входящих в модель. Это следует из определения детерминации. Действительно в равенстве

Числитель не зависит, а знаменатель зависит от числа факторов модели. Следовательно, с увеличением числа независимых переменных в модели, коэффициент детерминации никогда не уменьшается. Тогда, если сравнить две регрессионные модели с одной и тоже зависимой переменной, но разным числом факторов, то более высокий коэффициент детерминации будет получен в модели с большим числом факторов. Поэтому необходимо скорректировать коэффициент детерминации с учетом количества факторов, входящих в модель.

Скорректированный (исправленный или оцененный) коэффициент детерминации определяют следующим образом:

Свойства скорректированного коэффициента детерминации:

1. Несложно заметить что при >1 исправленный коэффициент детерминации меньше коэффициента детерминации ().

2. , но может принимать отрицательные значения. При этом, если скорректированный принимает отрицательное значение, то принимает значение близкое к нулю ().

Таким образом скорректированный коэффициент детерминации является попыткой устранить эффект, связанный с ростом R 2 при увеличении числа регрессоров. - "штраф" за увеличение числа независимых переменных.

Коэффициент детерминации.  

Анализ проводится, например, по коэффициенту детерминации  

Альтернативным показателем степени зависимости между двумя переменными является коэффициент детерминации, представляющий собой возведенный в квадрат коэффициент корреляции (г2). Коэффициент детерминации выражается в процентах и отражает величину изменения результативного показателя (у) за счет изменения другой переменной - факторного показателя (х).  

По результатам нашего примера, приведенного выше, коэффициент детерминации составил г = 0,471 б2 = 0,2224 = 22,24%. Это означает, что более 22% изменений в выручке от продаж связаны с изменениями в расходах на рекламу.  

Определите коэффициент детерминации по условию теста 1. Интерпретируйте уровень этого коэффициента.  

В случаях, когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим зависимостям проверяется по критерию Фишера , показателю средней ошибки аппроксимации и величине множественного коэффициента детерминации, о которых речь пойдет несколько позже (см. 7.4).  

Коэффициент детерминации модели, равный квадрату приведенного коэффициента множественной корреляции , составил 99,31% стандартная ошибка модели оказалась равна 4415 тыс. руб., / статистика Фишера - 4,415, а уровень значимости гипотезы об отсутствии связи - менее 0,01%.  

Это выражение соответствует выражению т)2 (см. формулу (8.2)). Тождество коэффициента детерминации и квадрата корреляционного отношения служит основанием для интерпретации величины г2л, как доли общей дисперсии результативного признака у, которая объясняется вариацией признака-фактора х (и связью между вариацией обоих признаков). Собственно говоря, основным показателем тесноты связи и следовало бы считать коэффициент детерминации  

Коэффициент детерминации г2 = 71,3%, т. е. вариация возраста супруга или супруги на 71% зависит от вариации возраста второй половины. Связь весьма тесная.  

Поскольку г 2 - аналог коэффициента детерминации, можно сделать вывод, что 42,2% вариации себестоимости молока в совокупности 136 предприятий были связаны с вариацией продуктивности коров (и с факторами, варьирующими согласованно с продуктивностью в соответствии с ранее сделанной оговоркой об интерпретации парных связей).  

Здесь Ry2 - коэффициент детерминации для уравнения со всеми k факторами. Числитель (8.43) и есть дополнительно объясняемая часть вариации у при включении фактора хт в уравнение после всех остальных факторов. В нашем примере, используя ранее рассчитанную величину R2 = 0,5765, при включении в анализ фактора х3 получаем  

Однако крупнейшим недостатком такого способа разложения R2 является зависимость величин р2 от принятого порядка включения факторов в уравнение регрессии . Первый включаемый фактор забирает в свою пользу львиную часть системного эффекта , а на долю последнего фактора остается ничтожная часть. Например, если переставить местами факторы дс, и хэ, а также вычислить по рекуррентной формуле двухфакторный коэффициент детерминации /Z2 x = 0,8035, то получим результаты , отличные от предыдущих  

Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому, недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов Xj коэффициент рентабельности , хотя включение такого фактора значительно повышает коэффициент детерминации.  

Принцип простоты предпочтительнее модель с меньшим числом факторов при том же коэффициенте детерминации или даже при несущественно меньшем коэффициенте.  

Предельно возможный избыток был бы в том случае, если бы не было гетерогенных сочетаний, т. е. Аб и Ба. Он составляет 140 + 80 + 230 = 450. Сам же показатель тесноты связи - отношение фактического излишка к предельному 140 450 = 0,311. Как видим, этот показатель близок к коэффициенту ассоциации, но обладает чрезвычайно логичной и ясной интерпретацией связь составляет 0,311 или 31,1%, от предельно возможной функциональной . Этот показатель - аналог не коэффициента корреляции , а коэффициента детерминации. Поэтому правомерно обозначить его как R2 или г 2. Он имеет вид  

Коэффициент детерминации г2, равен 0,88, или 88% колебаний себестоимости картофеля связаны с колебаниями урожайности. Положительны лишь три произведения отклонения мг иу, притом наименьшие.  

Проведение анализа по отдельным единицам с использованием уравнения регрессии обычно основывается на разложении величины отклонения от общей средней (у, - у) на две составляющие (у, - у) и (у, - у,). Если в уравнение регрессии входят все важные и существенные факторы, от которых- зависит величина результативного признака , и коэффициент детерминации близок к единице, то остальные, не включенные в уравнение факторы, характеризуют индивидуальные, несущественные особенности, зачастую не имеющие количественного выражения. В этом случае разница (у, - у/) образуется за счет несовпадения интенсивности воздействия на у всех учтенных факторов в условиях данной /-и единицы и средней интенсивности их воздействия, выраженной в величинах коэффициентов регрессии, входящих в расчетное значение yf. Это дает право интерпретировать разницу (у, -у,) или отношение у,/у, как показатель того, как эффективность использования учтенных факторов у /-и единицы соотносится со средней эффективностью их использования. Разница (у, - у) возникает за счет различия в значениях учтенных факторов для данной /-и единицы и в среднем по совокупности. Такое разложение дает возможность выявить резервы, имеющиеся у каждой отдельной единицы, в части эффективности ис- пользования факторов и в части их уровня.  

Учитывая сравнительно низкие значения отчетного и базисного коэффициентов детерминации (/ 0 = 0,8] 54, г2, = 0,7974), разница фактической и расчетной величин (V,- V) выражает не только различия в эффективности использования учтенного фактора - мощности пласта - на данной конкретной шахте по сравнению со средней эффективностью по тресту, но и влияние неучтенных в уравнении регрессии факторов.  

I Третий способ построения многомерных средних долей не требует привлечения каких-либо субъективных экспертных оценок - используется только информация, содержащаяся в исходных долях. Более информативным, а следовательно, весомым признается тот признак, который имеет более высокий коэффициент детерминации долей со всеми остающимися признаками. Вычислив попарные и средние коэффициенты детерминации, примем меньший из них за единицу (один балл) и получим баллы для других признаков, как отношения их средних коэффициентов детерминации к меньшему (см. табл. 11.9).  

После выбора типа уравнения и расчета его параметров следует проверка выбранной функции на адекватность. Сущность этогог этапа заключается в том, адекватно ли характеризует выбранная функция развитие исследуемого экономического явления и нет ли среди факторов таких, которые можно исключить из-за незначительности в изучении данного явления. Для исследования используют коэффициент детерминации и критерий Фишера.  

Отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R 2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.

Формула для вычисления коэффициента детерминации:

где yi - наблюдаемое значение зависимой переменной, а fi - значение зависимой переменной предсказанное по уравнению регрессии -среднее арифметическое зависимой переменной.

[править]Проблемы и общие свойства R 2

[править]Интерпретация

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):

Количественная мера тесноты связи

Качественная характеристика силы связи

Умеренная

Заметная

Весьма высокая

Функциональная связь возникает при значении равном 1, а отсутствие связи - 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

[править]Общие свойства для МНК регрессии

Линейная множественная регрессия методом наименьших квадратов (МНК) - наиболее распространённый случай использования коэффициента детерминации R 2.

Линейная множественная МНК регрессия имеет следующие общие свойства :

1. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

2. С увеличением количества объясняющих переменных увеличивается R 2.

[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)

Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами:

1. принимает значения из интервала (отрезка) .

2. в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2. А в случае множественной МНК регрессии R 2 = r (y ;f )2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

3. R 2 можно разложить по вкладу каждого фактора в значение R 2, причём вклад каждого такого фактора будет положительным. Используется разложение: , где r 0j - выборочный коэффициент корреляции зависимой и соответствующей второму индексу объясняющей переменной.

4. R 2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина имеет F-распределение с (k-1) и (n-k) степенями свободы.

[править]Мнимая регрессия

Значения R 2, , Быль" href="/text/category/bilmz/" rel="bookmark">быль проверено или сопоставлено с использованием R 2 и его модификаций.

[править]Решение проблем или модификации R 2

[править]R 2-скорректированный (adjusted)

Для того, чтобы исследователи не увеличивали R 2 с помощью добавления посторонних факторов, R 2 заменяется на скорректированный https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23 src=">, который будет совпадать с исходным для случая МНК регрессии со свободным членом, и для которого будут продолжать выполняться четыре свойства перечисленые выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных .
Для случая регрессии без свободного члена:
,
где X - матрица nxk значений факторов, P (X ) = X * (X " * X ) − 1 * X " - проектор на плоскость X, https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23">с условием небольшой модификации , также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

[править]R 2-истинный (несмещённый)

<---Будет добавлен---!>

[править]Прочие используемые критерии

AIC - информационный критерий Акаике - применяется исключительно для сравнения между моделями. Чем меньше значение тем лучше. Часто используется в виде сравнения моделей временных рядов с разным количеством лагов.
. Даёт меньший штраф за включение лишних лагов в модель, чем BIC.
BIC - информационный критерий Шварца - используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем BIC (см. формулу).

[править]См. также

§ Коэффициент корреляции

§ Корреляция

§ Мультиколлинеарность

§ Дисперсия случайной величины

§ Метод группового учета аргументов

§ Регрессионный анализ

[править]Примечания

1. 1 2 , Эконометрика. Начальный курс.. - 6,7,8-е изд., доп. и перераб.. - Москва: Дело, 2004. - Т. "". - 576 с. - ISBN -X

2. 1 2 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы . - Москва: ЦЕМИ РАН, 2002. - В. 3. - Т. 38. - С. 107-120.

3. , Прикладная статистика. Основы эконометрики (в 2-х т.). - ??. - Москва: Юнити-Дана (проект TASIS), 2001. - Т. "1,2". - 1088 с. - ISBN -8

4. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Прикладная эконометрика. - Москва: Маркет ДС, 2008. - В. 4. - Т. 12. - С. 71-83.

[править]Ссылки

§ Глоссарий статистических терминов

§ Прикладная эконометрика (журнал)

Вариация признака определяется различными факторами, часть этих факторов можно выделить, если статистическую совокупность разделить на группы по определенному признаку. Тогда, наряду с изучением вариации признака по совокупности в целом, можно изучить вариацию для каждой из составляющих ее группы и между этими группами. В простом случае, когда совокупность разделена на группы по одному фактору, изучение вариации достигается посредством вычисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Эмпирический коэффициент детерминации

Эмпирический коэффициент детерминации широко применяется в статистическом анализе и является показателем, представляющим долю межгруппопой дисперсии в результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Показывает долю вариации результативного признака у под влиянием факторного признака х, он связан с коэффициентом корреляции квадратичной зависимостью. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи - единице.

Например, когда изучается зависимость производительности труда рабочих от их квалификации коэффициент детерминации равен 0,7, то на 70% вариация производительности труда рабочих обусловлена различиями в их квалификации и на 30% - влиянием прочих факторов.

Эмпирическое корреляционное отношение - это квадратный корень из коэффициента детерминации. Отношение показывает тесноту связи между группировочным и результативным признаками. Эмпирическое корреляционное отношение принимает значения от -1 до 1. Если связи нет, то корреляционное отношение равняется нулю, т.е. все групповые средние равняются между собой и межгрупповой вариации нет. Значит, группировочный признак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение равняется единице. В таком случае дисперсия групповых средних равна общей дисперсии, т.е. внутригрупповой вариации нет. Это значит, что группировочный признак полностью определяет вариацию результативного признака.

Чем ближе значение корреляционного отношения к единице, тем сильнее и ближе к функциональной зависимости связь между признаками. Для качественной оценки силы связи на основе показателя эмпирического коэффициента корреляции можно использовать соотношение Чэддока.

Соотношение Чэддока

  • Связь весьма тесная — коэффициент корреляции находится в интервале 0,9 — 0,99
  • Связь тесная — Rxy = 0,7 — 0,9
  • Связь заметная — Rxy = 0,5 — 0,7
  • Связь умеренная — Rxy = 0,3 — 0,5
  • Связь слабая — Rxy = 0,1 — 0,3


Понравилась статья? Поделитесь ей
Наверх