Первоисточники / Мангейм Д

Значения, используемые при определении коэффициента корреляции (r)

х	у	ху	х²	у²
30 30 30 30 30 31 31 31 33 33 35 35 35 36 36 37 40 40 40 42 42 50 50 50 50 Итого 927	10 11 12 14 16 14 15 16 15 16 12 13 15 12 13 13 10 12 14 10 12 9 10 12 16 322	300 330 360 420 480 434 465 496 495 528 420 455 525 432 468 481 400 480 360 420 504 450 500 600 800 11803	900 900 900 900 900 961 961 961 1089 1089 1225 1225 1225 1296 1296 1369 1600 1600 1600 1764 1764 2500 2500 2500 2500 35525	100 121 144 196 256 196 225 256 225 256 144 169 225 144 169 169 100 144 196 100 144 81 100 144 256 4260

Мы подставляем итоговые значения в уравнение:

Это говорит нам о том, что наклон у линии регрессии отрицательный (что мы уже, собственно, знали) и что точки [c.433] группируются вокруг нее в ступени от слабой до умеренной (поскольку г изменяется в пределах от +1 до –1 с минимальной связью при r=0).

К сожалению, сам коэффициент r интерпретировать нелегко. Можно, однако, интерпретировать r² как степень уменьшения ошибки в определении Y на основании значений X, т. е. доля значений Y, которые определяются (или могут быть объяснены) на основе Х.r² обычно представляют как процентную долю объясненных значений, тогда как (1– r²) – долю необьясненных значений. Так, в нашем примере r значением –0,38 означает, что для тех случаев, которые мы анализируем, разброс независимой переменной составляет (–0,38)², или около 14%, значений зависимой переменной год обучения.

По причинам, которые находятся за рамками настоящего разговора, определить статистическую значимость г можно только в том случае, если обе – и зависимая и независимая – переменные нормально распределены. Это можно сделать, используя табл. А.5 в Приложении А, для чего нужны следующие сведения. Во-первых, сам коэффициент г, который, конечно, известен. Во-вторых, аналогично подсчету χ²количество степеней свободы линии регрессии. Поскольку прямую определяют любые две точки (в нашем случае пресечение и– первая точка, и пересечение с осьюY – вторая), все другие точки, обозначающие данные, могут располагаться произвольно, так что df всегда будет равно (N–2), где N – количество случаев или признаков. Таким образом, для того чтобы воспользоваться таблицей, нужно определить примерное количество степеней свободы (в нашем примере N–2 = 25–2 = 23) и желательный уровень значимости (например, 0,05) так же, как мы делали для нахождения χ², определить пороговое значение r, необходимое для достижения данного уровня значимости, и все подсчитать. (В нашем примере это значит, что мы интерполируем значения в таблице между df=20 и df=25. Для df=23 это будут следующие значения: 0,3379; 0,3976; 0,5069; 0,6194 соответственно.) Таким образом, r=–0,38 статистически значим на уровне 0,10 (он превышает 0,3379), но не на уровне 0,05 (он не превышает 0,3976). Интерпретация этого результата та же, что и в других случаях измерения статистической значимости. [c.436]

Содержание