Винсоризованное среднее

Что такое Винсоризованное среднее?

Винсоризованное среднее — это метод усреднения, который первоначально заменяет наименьшее и наибольшее значения ближайшими к ним наблюдениями. Это сделано, чтобы ограничить влияние аномальных экстремальных значений или выбросов на расчет. После замены значений формула среднего арифметического используется для вычисления среднего арифметического.

Формула для винсоризованного среднего

где:

n = количество наибольших и наименьших точек данных
точек, которые должны быть заменены наблюдением
ближайшим к ним наблюдением

N = Общее количество точек данных

Винсоризированные средства выражаются двумя способами. Победившее среднее значение «k n » относится к замене «k» наименьшего и наибольшего наблюдений, где «k» — целое число. Победившее среднее значение «X%» включает замену заданного процента значений с обоих концов данных.

Как рассчитать выигрышное среднее

Среднее значение выигрыша вычисляется путем замены самых маленьких и самых больших точек данных, затем суммирования всех точек данных и деления суммы на общее количество точек данных.

Что вам говорит победитель?

Выигрышное среднее менее чувствительно к выбросам, так как оно может заменить их менее экстремальными значениями. То есть он менее восприимчив к очертаниям по сравнению со средним . Однако, если у распределения есть толстые хвосты, эффект удаления самого высокого и самого низкого значений в распределении будет иметь небольшое влияние из-за большого количества вариаций в цифрах распределения .

Ключевые моменты

  • Метод усреднения, включающий замену наименьшего и наибольшего значений ближайшими к ним наблюдениями.
  • Менее чувствителен к выбросам, поскольку может заменить их менее экстремальными значениями.
  • Это не похоже на усеченное среднее, которое включает в себя удаление точек данных, хотя результат этих двух, как правило, близок.

Пример использования Winsorized среднего

Можно вычислить выигрышное среднее для следующего набора данных: 1, 5, 7, 8, 9, 10, 14. В этом примере мы предполагаем, что выигрышное среднее находится в первом порядке, мы заменяем наименьшее и наибольшее значения их ближайшие наблюдения.

Теперь набор данных выглядит следующим образом: 5, 5, 7, 8, 9, 10, 10. Принятие среднего арифметического нового набора дает выигрышное среднее значение 7,7, или (5 + 5 + 7 + 8 + 9 + 10 + 10) делится на 7.

Или рассмотрим 20% выигрышное среднее значение, которое берет верхние 10% и нижние 10% и заменяет их следующим ближайшим значением. Мы выиграем следующий набор данных: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Два наименьшие и наибольшие точки данных, или 10%, будут заменены ближайшим к ним значением. Таким образом, новый набор данных: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Победители Среднее значение составляет 33,9, или сумма данных (678), деленная на общее количество точек данных (20).

Разница между выигрышным средним и усеченным средним

Усеченное среднее включает изменение точек данных, тогда как усеченное среднее включает удаление точек данных. Обычно выигрышное среднее и усеченное среднее значение близки.

Ограничения использования выигрышного среднего

Одним из основных недостатков выигрышных средств является то, что они вносят систематическую ошибку в набор данных. Конечно, в идеале набор данных будет менее предвзятым после модификации, чем если бы выбросы были оставлены.