logo search
Первоисточники / Мангейм Д

Множественная регрессия

Все, что говорилось о двумерной корреляции и регрессии в гл.15, может быть распространено на те случаи, когда вы хотите изучить взаимосвязи между одной независимой (НП) и несколькими зависимыми переменными (ЗП). Цельмножественной регрессии – обеспечить (1) подсчет независимого воздействия изменений в значениях каждой ЗП на значения НП и (2) эмпирический базис, чтобы предсказать значения зависимой переменной на основе знания совместного влияния НП.

Анализ начинается с составления уравнения, которое, на ваш взгляд, точно описывает исследуемые вами причинные связи. Поскольку это уравнение можно рассматривать как модельисследуемого процесса, это шаг расценивается как построение модели. Оно заключается в переводе вашей вербальной теории явления на язык математических уравнений. Общая формула множественной регрессии такова:

Y’=а0+b1X1+b2X2 +…bnXn+e.

В ней вы можете узнать несколько расширенное уравнение двумерной регрессии, описанной в гл.15. Понимание этого уравнения может облегчить конкретный пример.

Скажем, мы заинтересованы в проверке верности заявления, что выборы в сенат США могут быть “куплены” путем вклада средств в кампанию в прессе. Для этого попытаемся объяснить процент полученных кандидатом голосов следствием (1) количества средств, вложенных в рекламу в средствах массовой информации, и (2) долей среди всех имеющих право выбора людей той же партийной принадлежности, что и кандидат. Начнем со следующей простой модели процесса выборов:

Y’=а0+b1X1+b2X2+e,

где Y’ – предполагаемая доля голосов, полученных кандидатом; а0 – среднее значение Y, если каждая независимая переменная равна 0; [c.443] b1 – среднее изменение Y на единицу измерения Х (количество средств, вложенных в рекламу), когда воздействия остальных переменных постоянны;X1 количество средств, вложенных кандидатом в рекламу (в 1000 долларов); b2 – среднее изменение Y' на единицу изменения X2 (доля выборщиков той же партийной принадлежности, что и кандидат), когда воздействия остальных переменныхпостоянны;X2 доля выборщиков той же партийной принадлежности, что и кандидат; е – погрешность, означающая любое колебание Y1, не вызванное изменением независимой переменной в модели.

Можно попытаться проверить точность этой модели, собрав достоверные данные о борьбе за 100 мест в сенате США. Однако для того, чтобы применение методики множественной регрессии к этой или любой другой задаче оказалось удачным, необходимо, чтобы наша модель, а также данные, с помощью которых мы хотим проверить все это, удовлетворяли пяти требованиям, которые лежат в основе применения регрессии.

1. Модель должна точно соответствовать (точно описывать реальные исследуемые взаимосвязи). Для этого необходимо, чтобы (а) связь между переменными была линейна, (б) ни одна важная независимая переменная не была исключена и (в) ни одна не имеющая отношения к делу переменная не была включена.

2. Не должно быть ошибок в измерении переменных.

3. Переменные должны быть измерены в интервальной шкале.

4. Для погрешности необходимы следующие условия: а) ее среднее геометрическое (предположительное значение для каждого наблюдения) равно 0; б) погрешности для каждого наблюдения не коррелируют, в) НП не коррелируют с погрешностью; г) отклонение погрешности всегда постоянно для всех значений НП; это условие называется гомоскедастичностью; д) погрешность имеет нормальное распределение.

5. Ни одна из НП не коррелирует четко с любой другой НП или с любой линейной комбинацией других НП. Если [c.444] это так, то говорят, что нет четкой мультиколлинеарности2.

Если наше исследование достаточно полно удовлетворяет этим условиям3, мы можем подставить вместо Y’,X1 и X2 наши конкретные значения и решить уравнение регрессии, описывающее предположения относительно неизвестных значений a1,b1 и b2 используя метод подсчета наименьших квадратов. Вот один из гипотетических результатов такого решения:

Y = 10 + 0,1 X1 + 1 X2.

[c.445]