Основы регрессии для бизнес-анализа

Если вы когда-нибудь задумывались, как два или более элемента данных соотносятся друг с другом (например, как на ВВП влияют изменения безработицы и инфляции), или если вы когда-либо просили начальника составить прогноз или проанализировать прогнозы на основе о взаимосвязях между переменными, то изучение регрессионного анализа будет стоить вашего времени.

В этой статье вы изучите основы простой линейной регрессии, иногда называемой «обычным методом наименьших квадратов» или регрессией OLS — инструмента, обычно используемого в прогнозировании и финансовом анализе. Мы начнем с изучения основных принципов регрессии, сначала узнаем о ковариации и корреляции, а затем перейдем к построению и интерпретации результатов регрессии. Популярное программное обеспечение для бизнеса, такое как Microsoft Excel, может выполнять все вычисления и результаты регрессии за вас, но все же важно изучить основную механику.

ключевые выводы

  • Простая линейная регрессия обычно используется в прогнозировании и финансовом анализе — например, чтобы компания могла сказать, как изменение ВВП может повлиять на продажи.
  • Microsoft Excel и другое программное обеспечение может выполнять все вычисления, но хорошо знать, как работает механизм простой линейной регрессии.

Переменные

В основе регрессионной модели лежит взаимосвязь между двумя разными переменными, называемыми зависимыми и независимыми переменными. Например, предположим, что вы хотите спрогнозировать продажи своей компании и пришли к выводу, что продажи вашей компании будут расти и падать в зависимости от изменений в ВВП.

Прогнозируемые вами продажи будут зависимой переменной, потому что их значение «зависит» от значения ВВП, а ВВП будет независимой переменной. Затем вам нужно будет определить силу связи между этими двумя переменными, чтобы спрогнозировать продажи. Если ВВП увеличится / уменьшится на 1%, насколько ваши продажи увеличатся или уменьшатся?

Ковариация

Формула для расчета взаимосвязи между двумя переменными называется ковариацией. Этот расчет показывает направление взаимоотношений. Если одна переменная увеличивается, а другая имеет тенденцию к увеличению, ковариация будет положительной. Если одна переменная растет, а другая стремится к снижению, то ковариация будет отрицательной.

Фактическое число, полученное при его вычислении, может быть трудно интерпретировать, поскольку оно не стандартизировано. Например, ковариацию пяти можно интерпретировать как положительную взаимосвязь, но можно сказать, что сила взаимосвязи сильнее, чем если бы число было четыре, или слабее, чем если бы число было шесть.

Коэффициент корреляции

Cоррелатяопзнак равноρИксyзнак равноCоvИксysИксsy\ begin {align} & Correlation = \ rho_ {xy} = \ frac {Cov_ {xy}} {s_x s_y} \\ \ end {align}Взаимодействие с другими людьмиСогтелтIопзнак равноρхуВзаимодействие с другими людьмизнак равноsИксВзаимодействие с другими людьмиsyВзаимодействие с другими людьми

Нам необходимо стандартизировать ковариацию, чтобы мы могли лучше интерпретировать и использовать ее при прогнозировании, а результатом является вычисление корреляции. При вычислении корреляции ковариация просто делится на произведение стандартного отклонения двух переменных. Это свяжет корреляцию между значением -1 и +1.

Корреляцию +1 можно интерпретировать как предположение, что обе переменные движутся совершенно положительно друг с другом, а -1 означает, что они совершенно отрицательно коррелированы. В нашем предыдущем примере, если корреляция равна +1, а ВВП увеличивается на 1%, продажи увеличиваются на 1%. Если корреляция равна -1, увеличение ВВП на 1% приведет к снижению продаж на 1% — полная противоположность.

Уравнение регрессии

Теперь, когда мы знаем, как рассчитывается относительная связь между двумя переменными, мы можем разработать уравнение регрессии для прогнозирования желаемой переменной. Ниже приведена формула простой линейной регрессии. «Y» — это значение, которое мы пытаемся спрогнозировать, «b» — это наклон линии регрессии, «x» — это значение нашего независимого значения, а «a» — точка пересечения с y. Уравнение регрессии просто описывает взаимосвязь между зависимой переменной (y) и независимой переменной (x).

Перехват, или «a», представляет собой значение y (зависимая переменная), если значение x (независимая переменная) равно нулю, и поэтому иногда его просто называют «константой». Так что, если бы ВВП не изменился, ваша компания все равно могла бы делать некоторые продажи. Это значение, когда изменение ВВП равно нулю, является точкой пересечения. Взгляните на график ниже, чтобы увидеть графическое изображение уравнения регрессии. На этом графике есть только пять точек данных, представленных пятью точками на графике. Линейная регрессия пытается оценить линию, которая наилучшим образом соответствует данным ( линия наилучшего соответствия ), и уравнение этой линии приводит к уравнению регрессии.

Регрессии в Excel

Теперь, когда вы понимаете некоторые основы регрессионного анализа, давайте рассмотрим простой пример, используя инструменты регрессии Excel. Мы будем опираться на предыдущий пример, пытаясь спрогнозировать продажи в следующем году на основе изменений ВВП. В следующей таблице перечислены некоторые искусственные данные, но эти числа могут быть легко доступны в реальной жизни.

Просто взглянув на таблицу, вы увидите, что между продажами и ВВП будет положительная корреляция. Оба стремятся подняться вместе. Используя Excel, все, что вам нужно сделать, это щелкнуть раскрывающееся меню « Инструменты», выбрать « Анализ данных»  и оттуда выбрать « Регрессия». Всплывающее окно легко заполнить оттуда; ваш входной диапазон Y — это ваш столбец «Продажи», а ваш входной диапазон X — это изменение в столбце ВВП; выберите диапазон вывода, в котором вы хотите, чтобы данные отображались в вашей электронной таблице, и нажмите OK. Вы должны увидеть что-то похожее на то, что указано в таблице ниже:

                                            Коэффициенты статистики регрессии

Интерпретация

Основные результаты, о которых вам нужно позаботиться для простой линейной регрессии, — это R-квадрат, точка пересечения (константа) и коэффициент бета (b) ВВП. Число R в этом примере составляет 68,7%. Это показывает, насколько хорошо наша модель предсказывает или прогнозирует будущие продажи, предполагая, что независимые переменные в модели предсказали 68,7% вариации зависимой переменной. Затем у нас есть точка пересечения 34,58, которая говорит нам, что если бы изменение ВВП прогнозировалось равным нулю, наши продажи составили бы около 35 единиц. И, наконец, бета- коэффициент ВВП или коэффициент корреляции 88,15 говорит нам, что если ВВП увеличится на 1%, продажи, вероятно, вырастут примерно на 88 единиц.

Суть

Итак, как бы вы использовали эту простую модель в своем бизнесе? Что ж, если ваше исследование заставляет вас поверить, что следующее изменение ВВП будет определенным процентом, вы можете включить этот процент в модель и создать прогноз продаж. Это может помочь вам разработать более объективный план и бюджет на предстоящий год.

Конечно, это всего лишь простая регрессия, и множественными линейными регрессиями. Но множественные линейные регрессии более сложны и имеют несколько вопросов, для обсуждения которых потребуется отдельная статья.