Коэффициент детерминации

Поделись знанием:
(перенаправлено с «R-квадрат»)
Перейти к: навигация, поиск

Коэффициент детерминации (<math>R^2</math> — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости <math>R^2</math> является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.





Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

<math>R^2 =1-\frac {V(y|x)}{V(y)}=1-\frac {\sigma^2}{\sigma^2_y},</math>

где <math>V(y|x)=\sigma^2</math> — условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

<math>R^2 =1-\frac {\hat{\sigma}^2}{\hat{\sigma}^2_y}=1-\frac {SS_{res}/n}{SS_{tot}/n}=1-\frac {SS_{res}} {SS_{tot}},</math>

где <math>SS_{res}=\sum^n_{t=1}e^2_t=\sum^n_{t=1} (y_t-\hat y_t)^2</math> — сумма квадратов остатков регрессии, <math>y_t,\hat y_t</math> — фактические и расчётные значения объясняемой переменной.

<math>SS_{tot}=\sum^n_{t=1} (y_t-\overline y)^2=n \hat \sigma^2_y</math> — общая сумма квадратов.

<math>\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i </math>

В случае линейной регрессии с константой <math>SS_{tot}=SS_{reg}+SS_{res}</math>, где <math>SS_{reg}=\sum^n_{t=1} (\hat y_t-\overline y)^2</math> — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:

<math>R^2=\frac {SS_{reg}} {SS_{tot}}</math>

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

  1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50 % (в этом случае коэффициент множественной корреляции превышает по модулю 70 %). Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими (коэффициент корреляции превышает 90 %). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
  2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика <math>nR^2</math> для линейной регрессии имеет асимптотическое распределение <math>\chi^2(k-1)</math>, где <math>k-1</math> — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика <math>F=\frac {R^2/(k-1)}{(1-R^2)/(n-k)}</math> имеет точное (для выборок любого объёма) распределение Фишера <math>F(k-1,n-k)</math> (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.
  3. В общем случае коэффициент детерминации может быть и отрицательным, это говорит о крайней неадекватности модели: простое среднее приближает лучше.

Недостаток <math>R^2</math> и альтернативные показатели

Основная проблема применения (выборочного) <math>R^2</math> заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют! Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) <math>R^2</math>

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику <math>R^2</math> обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

<math>R_{adj}^2 =1-\frac {s^2}{s^2_y}=1-\frac {SS_{res}/(n-k)}{SS_{tot}/(n-1)}=1-(1- R^2) {(n-1) \over (n-k)}\leqslant R^2</math>

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как «доли». Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объёмом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии <math>s^2=SS_{res}/(n-k)</math> или стандартной ошибки модели <math>s</math>. Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии

AIC — информационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение, тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
<math>AIC = {2k \over n} +\ln{SS_{res} \over n}</math>, где k— количество параметров модели.
BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
<math>BIC = {k \ln{n} \over n} + \ln{SS_{res} \over n}</math>. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

<math>R^2</math>-обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию <math>R^2</math>. Эта проблема решается с помощью построения обобщённого коэффициента детерминации <math>R_{extended}^2</math>, который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства, перечисленные выше. Суть этого метода заключается в рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
<math>R_{extended}^2 = 1- {Y'*(I-P(X))*Y \over Y'*(I-\pi(X))*Y}</math>,
где X — матрица nxk значений факторов, <math>P(X) = X*(X'*X)^{-1}*X'</math> — проектор на плоскость X, <math>\pi(X) = {P(X)*i_n*i_n'*P(X) \over i_n'*P(X)*i_n}</math>, где <math>i_n</math> — единичный вектор nx1.

<math>R_{extended}^2</math> с условием небольшой модификации, также подходит для сравнения между собой регрессий, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Замечание

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (также как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также

Напишите отзыв о статье "Коэффициент детерминации"

Примечания

Литература

  • Бахрушин В. Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. — 2011. — № 2(73). — С. 9—14.[www.nbuv.gov.ua/portal/natural/SyTe/2011_2/02.pdf]
  • Магнус Я.Р., Катышев П.К., Пересецкий А.А. [econometrics.nes.ru/mkp/ Эконометрика. Начальный курс.]. — 6,7,8-е изд., доп. и перераб.. — Москва: Дело. — Т. "". — 576 с. — ISBN 5-7749-0055-X.
  • Ершов Э.Б. [www.cemi.rssi.ru/emm/toc.htm#38-3 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов] (рус., англ.) // ЦЭМИ РАН Экономика и математические методы. — Москва: ЦЭМИ РАН, 2002. — Т. 38, вып. 3. — С. 107-120.
  • Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики (в 2-х т.). — ??. — Москва: Юнити-Дана (проект TASIS), 2001. — Т. "1,2". — 1088 с. — ISBN 5-238-00304-8.
  • Ершов Э.Б. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Айвазян С.А. Прикладная эконометрика. — Москва: Маркет ДС, 2008. — Т. 12, вып. 4. — С. 71-83.

Ссылки

  • [statsoft.ru/home/portal/glossary/GlossaryTwo/C/CoefficientofDetermination.htm Глоссарий статистических терминов] (недоступная ссылка с 13-05-2013 (3995 дней) — история)


Отрывок, характеризующий Коэффициент детерминации

– Вот жизнь, – сказал старичок учитель.
«Как это просто и ясно, – подумал Пьер. – Как я мог не знать этого прежде».
– В середине бог, и каждая капля стремится расшириться, чтобы в наибольших размерах отражать его. И растет, сливается, и сжимается, и уничтожается на поверхности, уходит в глубину и опять всплывает. Вот он, Каратаев, вот разлился и исчез. – Vous avez compris, mon enfant, [Понимаешь ты.] – сказал учитель.
– Vous avez compris, sacre nom, [Понимаешь ты, черт тебя дери.] – закричал голос, и Пьер проснулся.
Он приподнялся и сел. У костра, присев на корточках, сидел француз, только что оттолкнувший русского солдата, и жарил надетое на шомпол мясо. Жилистые, засученные, обросшие волосами, красные руки с короткими пальцами ловко поворачивали шомпол. Коричневое мрачное лицо с насупленными бровями ясно виднелось в свете угольев.
– Ca lui est bien egal, – проворчал он, быстро обращаясь к солдату, стоявшему за ним. – …brigand. Va! [Ему все равно… разбойник, право!]
И солдат, вертя шомпол, мрачно взглянул на Пьера. Пьер отвернулся, вглядываясь в тени. Один русский солдат пленный, тот, которого оттолкнул француз, сидел у костра и трепал по чем то рукой. Вглядевшись ближе, Пьер узнал лиловую собачонку, которая, виляя хвостом, сидела подле солдата.
– А, пришла? – сказал Пьер. – А, Пла… – начал он и не договорил. В его воображении вдруг, одновременно, связываясь между собой, возникло воспоминание о взгляде, которым смотрел на него Платон, сидя под деревом, о выстреле, слышанном на том месте, о вое собаки, о преступных лицах двух французов, пробежавших мимо его, о снятом дымящемся ружье, об отсутствии Каратаева на этом привале, и он готов уже был понять, что Каратаев убит, но в то же самое мгновенье в его душе, взявшись бог знает откуда, возникло воспоминание о вечере, проведенном им с красавицей полькой, летом, на балконе своего киевского дома. И все таки не связав воспоминаний нынешнего дня и не сделав о них вывода, Пьер закрыл глаза, и картина летней природы смешалась с воспоминанием о купанье, о жидком колеблющемся шаре, и он опустился куда то в воду, так что вода сошлась над его головой.
Перед восходом солнца его разбудили громкие частые выстрелы и крики. Мимо Пьера пробежали французы.
– Les cosaques! [Казаки!] – прокричал один из них, и через минуту толпа русских лиц окружила Пьера.
Долго не мог понять Пьер того, что с ним было. Со всех сторон он слышал вопли радости товарищей.
– Братцы! Родимые мои, голубчики! – плача, кричали старые солдаты, обнимая казаков и гусар. Гусары и казаки окружали пленных и торопливо предлагали кто платья, кто сапоги, кто хлеба. Пьер рыдал, сидя посреди их, и не мог выговорить ни слова; он обнял первого подошедшего к нему солдата и, плача, целовал его.
Долохов стоял у ворот разваленного дома, пропуская мимо себя толпу обезоруженных французов. Французы, взволнованные всем происшедшим, громко говорили между собой; но когда они проходили мимо Долохова, который слегка хлестал себя по сапогам нагайкой и глядел на них своим холодным, стеклянным, ничего доброго не обещающим взглядом, говор их замолкал. С другой стороны стоял казак Долохова и считал пленных, отмечая сотни чертой мела на воротах.
– Сколько? – спросил Долохов у казака, считавшего пленных.
– На вторую сотню, – отвечал казак.
– Filez, filez, [Проходи, проходи.] – приговаривал Долохов, выучившись этому выражению у французов, и, встречаясь глазами с проходившими пленными, взгляд его вспыхивал жестоким блеском.
Денисов, с мрачным лицом, сняв папаху, шел позади казаков, несших к вырытой в саду яме тело Пети Ростова.


С 28 го октября, когда начались морозы, бегство французов получило только более трагический характер замерзающих и изжаривающихся насмерть у костров людей и продолжающих в шубах и колясках ехать с награбленным добром императора, королей и герцогов; но в сущности своей процесс бегства и разложения французской армии со времени выступления из Москвы нисколько не изменился.
От Москвы до Вязьмы из семидесятитрехтысячной французской армии, не считая гвардии (которая во всю войну ничего не делала, кроме грабежа), из семидесяти трех тысяч осталось тридцать шесть тысяч (из этого числа не более пяти тысяч выбыло в сражениях). Вот первый член прогрессии, которым математически верно определяются последующие.
Французская армия в той же пропорции таяла и уничтожалась от Москвы до Вязьмы, от Вязьмы до Смоленска, от Смоленска до Березины, от Березины до Вильны, независимо от большей или меньшей степени холода, преследования, заграждения пути и всех других условий, взятых отдельно. После Вязьмы войска французские вместо трех колонн сбились в одну кучу и так шли до конца. Бертье писал своему государю (известно, как отдаленно от истины позволяют себе начальники описывать положение армии). Он писал:
«Je crois devoir faire connaitre a Votre Majeste l'etat de ses troupes dans les differents corps d'annee que j'ai ete a meme d'observer depuis deux ou trois jours dans differents passages. Elles sont presque debandees. Le nombre des soldats qui suivent les drapeaux est en proportion du quart au plus dans presque tous les regiments, les autres marchent isolement dans differentes directions et pour leur compte, dans l'esperance de trouver des subsistances et pour se debarrasser de la discipline. En general ils regardent Smolensk comme le point ou ils doivent se refaire. Ces derniers jours on a remarque que beaucoup de soldats jettent leurs cartouches et leurs armes. Dans cet etat de choses, l'interet du service de Votre Majeste exige, quelles que soient ses vues ulterieures qu'on rallie l'armee a Smolensk en commencant a la debarrasser des non combattans, tels que hommes demontes et des bagages inutiles et du materiel de l'artillerie qui n'est plus en proportion avec les forces actuelles. En outre les jours de repos, des subsistances sont necessaires aux soldats qui sont extenues par la faim et la fatigue; beaucoup sont morts ces derniers jours sur la route et dans les bivacs. Cet etat de choses va toujours en augmentant et donne lieu de craindre que si l'on n'y prete un prompt remede, on ne soit plus maitre des troupes dans un combat. Le 9 November, a 30 verstes de Smolensk».
[Долгом поставляю донести вашему величеству о состоянии корпусов, осмотренных мною на марше в последние три дня. Они почти в совершенном разброде. Только четвертая часть солдат остается при знаменах, прочие идут сами по себе разными направлениями, стараясь сыскать пропитание и избавиться от службы. Все думают только о Смоленске, где надеются отдохнуть. В последние дни много солдат побросали патроны и ружья. Какие бы ни были ваши дальнейшие намерения, но польза службы вашего величества требует собрать корпуса в Смоленске и отделить от них спешенных кавалеристов, безоружных, лишние обозы и часть артиллерии, ибо она теперь не в соразмерности с числом войск. Необходимо продовольствие и несколько дней покоя; солдаты изнурены голодом и усталостью; в последние дни многие умерли на дороге и на биваках. Такое бедственное положение беспрестанно усиливается и заставляет опасаться, что, если не будут приняты быстрые меры для предотвращения зла, мы скоро не будем иметь войска в своей власти в случае сражения. 9 ноября, в 30 верстах от Смоленка.]
Ввалившись в Смоленск, представлявшийся им обетованной землей, французы убивали друг друга за провиант, ограбили свои же магазины и, когда все было разграблено, побежали дальше.
Все шли, сами не зная, куда и зачем они идут. Еще менее других знал это гений Наполеона, так как никто ему не приказывал. Но все таки он и его окружающие соблюдали свои давнишние привычки: писались приказы, письма, рапорты, ordre du jour [распорядок дня]; называли друг друга:
«Sire, Mon Cousin, Prince d'Ekmuhl, roi de Naples» [Ваше величество, брат мой, принц Экмюльский, король Неаполитанский.] и т.д. Но приказы и рапорты были только на бумаге, ничто по ним не исполнялось, потому что не могло исполняться, и, несмотря на именование друг друга величествами, высочествами и двоюродными братьями, все они чувствовали, что они жалкие и гадкие люди, наделавшие много зла, за которое теперь приходилось расплачиваться. И, несмотря на то, что они притворялись, будто заботятся об армии, они думали только каждый о себе и о том, как бы поскорее уйти и спастись.


Действия русского и французского войск во время обратной кампании от Москвы и до Немана подобны игре в жмурки, когда двум играющим завязывают глаза и один изредка звонит колокольчиком, чтобы уведомить о себе ловящего. Сначала тот, кого ловят, звонит, не боясь неприятеля, но когда ему приходится плохо, он, стараясь неслышно идти, убегает от своего врага и часто, думая убежать, идет прямо к нему в руки.
Сначала наполеоновские войска еще давали о себе знать – это было в первый период движения по Калужской дороге, но потом, выбравшись на Смоленскую дорогу, они побежали, прижимая рукой язычок колокольчика, и часто, думая, что они уходят, набегали прямо на русских.