Гомоскедастический

Что такое Гомоскедастический?

Гомоскедастический (также пишется «гомоскедастический») относится к состоянию, при котором дисперсия остатка или члена ошибки в регрессионной модели постоянна. То есть член ошибки не сильно меняется при изменении значения переменной-предиктора. Однако отсутствие гомоскедастичности может указывать на то, что в регрессионную модель может потребоваться включение дополнительных переменных-предикторов, чтобы объяснить эффективность зависимой переменной.

Ключевые моменты

  • Гомоскедастичность возникает, когда дисперсия члена ошибки в регрессионной модели постоянна. 
  • Если дисперсия члена ошибки гомоскедастична, модель была четко определена. Если имеется слишком много отклонений, модель может быть определена неправильно. 
  • Добавление дополнительных переменных-предикторов может помочь объяснить эффективность зависимой переменной.
  • Напротив, гетероскедастичность возникает, когда дисперсия члена ошибки непостоянна.

Как работает гомоскедастик

Гомоскедастичность – одно из предположений линейного регрессионного моделирования. Если дисперсия ошибок вокруг линии регрессии сильно различается, модель регрессии может быть плохо определена. Противоположностью гомоскедастичности является гетероскедастичность, так же как противоположность «гомогенной» – «гетерогенность». Гетероскедастичность (также обозначаемая как «гетероскедастичность») относится к состоянию, при котором дисперсия члена ошибки в уравнении регрессии непостоянна.

Краткая справка

Если учесть, что дисперсия – это измеренная разница между прогнозируемым результатом и фактическим исходом данной ситуации, определение гомоскедастичности может помочь определить, какие факторы необходимо скорректировать для обеспечения точности.

Особые соображения

Простая регрессионная модель или уравнение состоит из четырех членов. Слева находится зависимая переменная. Он представляет собой явление, которое модель пытается «объяснить». Справа находятся константа, переменная-предиктор и член остатка или ошибки. Член ошибки показывает степень изменчивости зависимой переменной, которая не объясняется переменной-предиктором.

Пример гомоскедастики

Например, предположим, что вы хотите объяснить результаты тестов студентов, используя количество времени, которое каждый студент провел за обучением. В этом случае оценки теста будут зависимой переменной, а время, потраченное на обучение, будет переменной-предиктором. 

Термин «ошибка» будет показывать величину разброса в результатах тестов, которая не объясняется количеством времени на изучение. Если эта дисперсия однородна или гомоскедастична, то это может означать, что модель может быть адекватным объяснением эффективности теста – объясняя это с точки зрения времени, затраченного на обучение.

Но разница может быть гетероскедастической. График данных об ошибке может показать, что большое количество учебного времени очень близко соответствует высоким баллам за тесты, но что низкие оценки за тестовое время сильно различаются и даже включают некоторые очень высокие баллы. Таким образом, разброс оценок не может быть хорошо объяснен одной прогностической переменной – количеством времени на обучение. В этом случае, вероятно, действует какой-то другой фактор, и модель, возможно, потребуется усовершенствовать, чтобы идентифицировать его или их.

Дальнейшее расследование может выявить, что некоторые учащиеся видели ответы на тест заранее или что они ранее проходили аналогичный тест и, следовательно, не нуждались в подготовке к этому конкретному тесту.

Поэтому, чтобы улучшить регрессионную модель, исследователь должен добавить другую объясняющую переменную, указывающую, видел ли студент ответы до теста. Тогда регрессионная модель будет иметь две объясняющие переменные: время обучения и наличие у студента предварительных знаний об ответах. С помощью этих двух переменных можно было бы объяснить большую дисперсию результатов теста, и тогда дисперсия члена ошибки могла бы быть гомоскедастической, что говорит о том, что модель была четко определена.