Дисперсионный анализ (ANOVA)

Что такое Дисперсионный анализ (ANOVA)?

Дисперсионный анализ (ANOVA) – это инструмент анализа, используемый в статистике, который разделяет наблюдаемую совокупную изменчивость, обнаруженную внутри набора данных, на две части: систематические факторы и случайные факторы. Систематические факторы оказывают статистическое влияние на данный набор данных, а случайные факторы – нет. Аналитики используют тест ANOVA для определения влияния независимых переменных на зависимую переменную в регрессионном исследовании.

Методы t- и z-критериев, разработанные в 20 веке, использовались для статистического анализа до 1918 года, когда Рональд Фишер создал метод дисперсионного анализа.12  ANOVA также называется дисперсионным анализом Фишера и является расширением t- и z-критериев.Этот термин стал широко известен в 1925 году после появления в книге Фишера «Статистические методы для научных работников».3  Его использовали в экспериментальной психологии, а затем расширили на более сложные предметы.

Формула для дисперсионного анализа:

Fзнак равноMSTMSEжчере:Fзнак равноANOVA coefficientMSTзнак равноМеневумуплотнительныхесQ¯uRéсекd¯uетуплотнительноетгеатмент      MSEзнак равноМеневумуплотнительныхеыдуREсекдуйтоетгот      \ begin {align} & \ text {F} = \ frac {\ text {MST}} {\ text {MSE}} \\ & \ textbf {где:} \\ & \ text {F} = \ text {ANOVA коэффициент} \\ & \ text {MST} = \ text {Средняя сумма квадратов из-за обработки} \\ & \ text {MSE} = \ text {Средняя сумма квадратов из-за ошибки} \\ \ end {выровнено}Взаимодействие с другими людьмиFзнак равноMSE

Что показывает дисперсионный анализ?

Тест ANOVA – это начальный шаг в анализе факторов, которые влияют на данный набор данных. После завершения теста аналитик выполняет дополнительное тестирование методических факторов, которые вносят заметный вклад в несогласованность набора данных. Аналитик использует результаты теста ANOVA в f-тесте для генерации дополнительных данных, которые согласуются с предложенными регрессионными моделями.

Тест ANOVA позволяет сравнить более двух групп одновременно, чтобы определить, существует ли между ними связь. Результат формулы ANOVA, F-статистика (также называемая F-отношением), позволяет анализировать несколько групп данных для определения вариабельности между выборками и внутри выборок.

Если между тестируемыми группами не существует реальной разницы, что называется нулевой гипотезой , результат статистики отношения F ANOVA будет близок к 1. Колебания в его выборке, вероятно, будут соответствовать распределению F Фишера. Фактически это группа функций распределения с двумя характеристическими числами, которые называются степенями свободы числителя и степенями свободы знаменателя.

Ключевые моменты

  • Дисперсионный анализ, или ANOVA, представляет собой статистический метод, который разделяет наблюдаемые данные дисперсии на различные компоненты для использования в дополнительных тестах.
  • Односторонний дисперсионный анализ используется для трех или более групп данных, чтобы получить информацию о взаимосвязи между зависимыми и независимыми переменными.
  • Если между группами нет истинных различий, F-соотношение ANOVA должно быть близко к 1.

Пример использования ANOVA

Например, исследователь может протестировать студентов из нескольких колледжей, чтобы убедиться, что студенты одного из колледжей постоянно превосходят студентов из других колледжей. В бизнес-приложении исследователь НИОКР может протестировать два разных процесса создания продукта, чтобы увидеть, лучше ли один процесс, чем другой, с точки зрения экономической эффективности.

Тип используемого теста ANOVA зависит от ряда факторов. Применяется, когда данные должны быть экспериментальными. Дисперсионный анализ используется, если нет доступа к статистическому программному обеспечению, что приводит к ручному вычислению ANOVA. Он прост в использовании и лучше всего подходит для небольших образцов. Во многих экспериментальных планах размеры выборки должны быть одинаковыми для различных комбинаций уровней факторов.

ANOVA полезен для тестирования трех или более переменных. Это похоже на множественные двухвыборочные t-тесты . Однако это приводит к меньшему количеству ошибок типа I и подходит для ряда проблем. ANOVA группирует различия, сравнивая средние значения каждой группы, и включает распределение дисперсии по разным источникам. Он используется с испытуемыми, тестовыми группами, между группами и внутри групп.

Односторонний дисперсионный анализ по сравнению с двусторонним дисперсионным анализом

Существует два типа ANOVA: односторонний (или однонаправленный) и двусторонний. Односторонний или двусторонний относится к количеству независимых переменных в вашем тесте дисперсионного анализа. Односторонний ANOVA оценивает влияние единственного фактора на единственную переменную ответа. Он определяет, все ли образцы одинаковы. Односторонний дисперсионный анализ ANOVA используется для определения наличия статистически значимых различий между средними значениями трех или более независимых (не связанных) групп.

Двусторонний дисперсионный анализ – это расширение одностороннего дисперсионного анализа. В одностороннем порядке у вас есть одна независимая переменная, влияющая на зависимую переменную. В двустороннем ANOVA есть два независимых параметра. Например, двусторонний дисперсионный анализ позволяет компании сравнивать производительность труда на основе двух независимых переменных, таких как заработная плата и набор навыков. Он используется для наблюдения за взаимодействием между двумя факторами и одновременного тестирования эффекта двух факторов.