Создание модели линейной регрессии в Excel

Что такое линейная регрессия?

Линейная регрессия — это график данных, который отображает линейную связь  между независимой и зависимой переменной. Обычно он используется, чтобы наглядно показать силу взаимосвязи и разброс результатов — все с целью объяснения поведения зависимой переменной.

Допустим, мы хотели проверить зависимость между количеством съеденного мороженого и ожирением. Мы бы возьмем независимую переменную, количество мороженого, и свяжем ее с зависимой переменной, ожирением, чтобы увидеть, существует ли связь. Если регрессия представляет собой графическое отображение этой взаимосвязи, чем ниже вариабельность данных, тем сильнее взаимосвязь и тем точнее соответствие линии регрессии.   

Ключевые выводы

  • Линейная регрессия моделирует отношения между зависимой и независимой переменной (ами).
  • Регрессионный анализ может быть проведен, если переменные независимы, нет гетероскедастичности и члены ошибок переменных не коррелированы.
  • Моделирование линейной регрессии в Excel стало проще с помощью пакета Data Analysis ToolPak.

Важные соображения

Есть несколько важных предположений о вашем наборе данных, которые должны быть верными, чтобы продолжить регрессионный анализ :

  1. Переменные должны быть действительно независимыми (с использованием критерия хи-квадрат ).
  2. Данные не должны иметь различную дисперсию ошибок (это называется гетероскедастичностью (также обозначается как гетероскедастичность)).
  3. Члены ошибки каждой переменной не должны коррелировать. Если нет, это означает, что переменные  последовательно коррелированы.

Если эти три вещи кажутся сложными, так и есть. Но следствием того, что одно из этих соображений не соответствует действительности, является необъективная оценка. По сути, вы искажаете отношения, которые измеряете.

Вывод регрессии в Excel

Первый шаг в выполнении регрессионного анализа в Excel — это еще раз проверить, установлен ли бесплатный плагин для Excel Data Analysis ToolPak. Этот плагин упрощает вычисление ряда статистических данных. Это не  требуется, чтобы наметить линейную регрессию, но она позволяет создавать статистические таблицы проще. Чтобы проверить, установлен ли, выберите «Данные» на панели инструментов. Если «Анализ данных» является опцией, функция установлена ​​и готова к использованию. Если он не установлен, вы можете запросить эту опцию, нажав кнопку «Офис» и выбрав «Параметры Excel».

Используя Data Analysis ToolPak, создать результат регрессии можно всего за несколько щелчков мышью.

Краткий обзор

Независимая переменная находится в диапазоне X.

Учитывая доходность S&P 500 , скажем, мы хотим знать, можем ли мы оценить силу и взаимосвязь доходностей акций Visa (

  1. Выберите «Данные» на панели инструментов. Отображается меню «Данные».
  2. Выберите «Анализ данных». Откроется диалоговое окно Анализ данных — Инструменты анализа.
  3. В меню выберите «Регрессия» и нажмите «ОК».
  4. В диалоговом окне «Регрессия» щелкните поле «Введите диапазон Y» и выберите данные зависимой переменной (доходность акций Visa (V)).
  5. Щелкните поле «Входной диапазон X» и выберите данные независимых переменных (возвращается S&P 500).
  6. Нажмите «ОК», чтобы просмотреть результаты.

[Примечание: если таблица кажется маленькой, щелкните изображение правой кнопкой мыши и откройте новую вкладку для более высокого разрешения.]

Интерпретируйте результаты

Используя эти данные (те же, что и в нашей статье о R-квадрате ), мы получаем следующую таблицу:

Значение R 2, также известное как коэффициент детерминации, измеряет долю вариации в зависимой переменной, объясняемую независимой переменной, или насколько хорошо регрессионная модель соответствует данным. Значение R 2 находится в диапазоне от 0 до 1, и более высокое значение указывает на лучшее соответствие. Значение p или значение вероятности также находится в диапазоне от 0 до 1 и указывает, является ли тест значимым. В отличие от значения R 2, меньшее значение p является благоприятным, поскольку оно указывает на корреляцию между зависимыми и независимыми переменными.

Построение графика регрессии в Excel

Мы можем построить график регрессии в Excel, выделив данные и отобразив их в виде точечной диаграммы. Чтобы добавить линию регрессии, выберите «Макет» в меню «Инструменты диаграммы». В диалоговом окне выберите «Линия тренда», а затем «Линия тренда». Чтобы добавить значение R 2, выберите «Дополнительные параметры линии тренда» в меню «Линия тренда». Наконец, выберите «Показать значение R-квадрата на диаграмме». Визуальный результат суммирует силу взаимосвязи, хотя и не обеспечивает столько же деталей, сколько в таблице выше.