Множественная линейная регрессия (MLR)

Что такое Множественная линейная регрессия (MLR)?

Множественная линейная регрессия (MLR), также известная просто как множественная регрессия, — это статистический метод, который использует несколько независимых переменных для прогнозирования результата переменной ответа. Цель множественной линейной регрессии (MLR) — смоделировать линейную связь между независимыми (независимыми) переменными и ответной (зависимой) переменной.

По сути, множественная регрессия — это расширение обычной регрессии методом наименьших квадратов (МНК), которая включает более одной независимой переменной.

Формула и расчет множественной линейной регрессии

где для i=n наблюдений:
yi=зависимая переменная
xi=объясняющие переменные
β0=y-интерцепт (постоянный член)
βp=коэффициенты наклона для каждой объясняющей переменной
ϵ=член ошибки модели (также известный как остатки)

Основные выводы

  • Множественная линейная регрессия (МЛР), также известная как множественная регрессия, — это статистический метод, который использует несколько объясняющих переменных для прогнозирования результата переменной ответа.
  • Множественная регрессия является расширением линейной (OLS) регрессии, в которой используется только одна объясняющая переменная.
  • MLR широко используется в эконометрике и финансовом анализе.
    О чем может рассказать множественная линейная регрессия (MLR)

Простая линейная регрессия — это функция, которая позволяет аналитику или статистику делать прогнозы относительно одной переменной на основе информации, которая известна о другой переменной. Линейная регрессия может быть использована только при наличии двух непрерывных переменных — независимой переменной и зависимой переменной. Независимая переменная — это параметр, который используется для расчета зависимой переменной или результата. Модель множественной регрессии распространяется на несколько объясняющих переменных.

Модель множественной регрессии основана на следующих предположениях:

Между зависимыми переменными и независимыми переменными существует линейная связь.
Независимые переменные не слишком сильно коррелируют друг с другом.
Наблюдения yi выбираются независимо и случайно из популяции.
Остатки должны быть нормально распределены со средним значением 0 и дисперсией σ.

Коэффициент детерминации (R-квадрат) — это статистическая метрика, которая используется для измерения того, насколько вариация результата может быть объяснена вариацией независимых переменных. R2 всегда увеличивается по мере добавления большего количества предикторов в модель MLR, даже если эти предикторы могут быть не связаны с переменной исхода.

Таким образом, R2 сам по себе не может быть использован для определения того, какие предикторы следует включить в модель, а какие исключить. R2 может быть только между 0 и 1, где 0 означает, что результат не может быть предсказан ни одной из независимых переменных, а 1 означает, что результат может быть безошибочно предсказан по независимым переменным.1

При интерпретации результатов множественной регрессии бета-коэффициенты действительны при постоянстве всех остальных переменных («при прочих равных»). Результаты множественной регрессии могут быть представлены горизонтально в виде уравнения или вертикально в виде таблицы.2

Пример использования множественной линейной регрессии (MLR)

Например, аналитик может захотеть узнать, как движение рынка влияет на цену ExxonMobil (XOM). В этом случае линейное уравнение будет содержать значение индекса S&P 500 в качестве независимой переменной, или предиктора, и цену XOM в качестве зависимой переменной.

В действительности существует множество факторов, которые предсказывают исход события. Например, движение цены ExxonMobil зависит не только от общих показателей рынка. Другие факторы, такие как цена на нефть, процентные ставки и движение цен на нефтяные фьючерсы, могут влиять на цену XOM и цены акций других нефтяных компаний. Чтобы понять взаимосвязь, в которой присутствует более двух переменных, используется множественная линейная регрессия.

Множественная линейная регрессия (MLR) используется для определения математической взаимосвязи между рядом случайных переменных. Другими словами, MLR изучает, как несколько независимых переменных связаны с одной зависимой переменной. После определения того, что каждый из независимых факторов предсказывает зависимую переменную, информация о нескольких переменных может быть использована для создания точного прогноза об уровне их влияния на итоговую переменную. Модель создает зависимость в виде прямой (линейной) линии, которая наилучшим образом аппроксимирует все отдельные точки данных.3

Обращаясь к уравнению MLR, приведенному выше, в нашем примере:

yi = зависимая переменная — цена XOM
xi1 = процентные ставки
xi2 = цена на нефть
xi3 = значение индекса S&P 500
xi4 = цена нефтяных фьючерсов
B0 = y-интерцепт в нулевой момент времени
B1 = коэффициент регрессии, измеряющий изменение зависимой переменной на единицу при изменении xi1 — изменение цены XOM при изменении процентных ставок
B2 = коэффициент, измеряющий изменение зависимой переменной на единицу при изменении xi2 — изменение цены XOM при изменении цен на нефть

Оценки по методу наименьших квадратов, B0, B1, B2…Bp, обычно рассчитываются с помощью статистического программного обеспечения. В регрессионную модель можно включить любое количество переменных, в которой каждая независимая переменная обозначается номером — 1,2, 3, 4…p. Модель множественной регрессии позволяет аналитику предсказать результат на основе информации, полученной от нескольких объясняющих переменных.

Тем не менее, модель не всегда идеально точна, поскольку каждая точка данных может незначительно отличаться от результата, предсказанного моделью. Остаточное значение E, которое представляет собой разницу между фактическим и прогнозируемым результатом, включается в модель для учета таких незначительных изменений.

Предположим, что мы запустили нашу регрессионную модель цены XOM через программу статистических вычислений, которая выдает такой результат:

Аналитик интерпретирует этот результат так: если другие переменные остаются неизменными, то цена XOM увеличится на 7,8%, если цена на нефть на рынках вырастет на 1%. Модель также показывает, что цена XOM снизится на 1,5% после повышения процентных ставок на 1%. R2 показывает, что 86,5% изменений в цене акций Exxon Mobil можно объяснить изменениями в процентной ставке, цене на нефть, нефтяных фьючерсах и индексе S&P 500.

Разница между линейной и множественной регрессией

Обычная линейная квадратичная регрессия (OLS) сравнивает реакцию зависимой переменной на изменение некоторых объясняющих переменных. Однако редко бывает так, что зависимая переменная объясняется только одной переменной. В этом случае аналитик использует множественную регрессию, которая пытается объяснить зависимую переменную с помощью более чем одной независимой переменной. Множественная регрессия может быть линейной и нелинейной.

Множественная регрессия основана на предположении, что между зависимой и независимой переменными существует линейная связь. Также предполагается отсутствие значительной корреляции между независимыми переменными.