Винсоризованное среднее
Что такое Винсоризованное среднее?
Винсоризованное среднее — это метод усреднения, который первоначально заменяет наименьшее и наибольшее значения ближайшими к ним наблюдениями. Это сделано, чтобы ограничить влияние аномальных экстремальных значений или выбросов на расчет. После замены значений формула среднего арифметического используется для вычисления среднего арифметического.
Формула для винсоризованного среднего
где:
n = количество наибольших и наименьших точек данных
точек, которые должны быть заменены наблюдением
ближайшим к ним наблюдением
N = Общее количество точек данных
Винсоризированные средства выражаются двумя способами. Победившее среднее значение «k n » относится к замене «k» наименьшего и наибольшего наблюдений, где «k» — целое число. Победившее среднее значение «X%» включает замену заданного процента значений с обоих концов данных.
Как рассчитать выигрышное среднее
Среднее значение выигрыша вычисляется путем замены самых маленьких и самых больших точек данных, затем суммирования всех точек данных и деления суммы на общее количество точек данных.
Что вам говорит победитель?
Выигрышное среднее менее чувствительно к выбросам, так как оно может заменить их менее экстремальными значениями. То есть он менее восприимчив к очертаниям по сравнению со средним . Однако, если у распределения есть толстые хвосты, эффект удаления самого высокого и самого низкого значений в распределении будет иметь небольшое влияние из-за большого количества вариаций в цифрах распределения .
Ключевые моменты
- Метод усреднения, включающий замену наименьшего и наибольшего значений ближайшими к ним наблюдениями.
- Менее чувствителен к выбросам, поскольку может заменить их менее экстремальными значениями.
- Это не похоже на усеченное среднее, которое включает в себя удаление точек данных, хотя результат этих двух, как правило, близок.
Пример использования Winsorized среднего
Можно вычислить выигрышное среднее для следующего набора данных: 1, 5, 7, 8, 9, 10, 14. В этом примере мы предполагаем, что выигрышное среднее находится в первом порядке, мы заменяем наименьшее и наибольшее значения их ближайшие наблюдения.
Теперь набор данных выглядит следующим образом: 5, 5, 7, 8, 9, 10, 10. Принятие среднего арифметического нового набора дает выигрышное среднее значение 7,7, или (5 + 5 + 7 + 8 + 9 + 10 + 10) делится на 7.
Или рассмотрим 20% выигрышное среднее значение, которое берет верхние 10% и нижние 10% и заменяет их следующим ближайшим значением. Мы выиграем следующий набор данных: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Два наименьшие и наибольшие точки данных, или 10%, будут заменены ближайшим к ним значением. Таким образом, новый набор данных: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Победители Среднее значение составляет 33,9, или сумма данных (678), деленная на общее количество точек данных (20).
Разница между выигрышным средним и усеченным средним
Усеченное среднее включает изменение точек данных, тогда как усеченное среднее включает удаление точек данных. Обычно выигрышное среднее и усеченное среднее значение близки.
Ограничения использования выигрышного среднего
Одним из основных недостатков выигрышных средств является то, что они вносят систематическую ошибку в набор данных. Конечно, в идеале набор данных будет менее предвзятым после модификации, чем если бы выбросы были оставлены.