Винзорзированное среднее определение

Что означает выигрыш?

Винзоризированное среднее — это метод усреднения, который первоначально заменяет наименьшее и наибольшее значения ближайшими к ним наблюдениями. Это делается для ограничения влияния выбросов или аномальных экстремальных значений или выбросов на расчет. После замены значений формула среднего арифметического используется для вычисления среднего арифметического.

ключевые выводы

  • Выигрышное среднее — это метод усреднения, который включает замену наименьшего и наибольшего значений набора данных на наиболее близкие к ним наблюдения.
  • Он смягчает влияние выбросов, заменяя их менее экстремальными значениями.
  • Усеченное среднее — это не то же самое, что усеченное среднее, которое включает в себя удаление точек данных, а не их замену, хотя результаты этих двух, как правило, близки.

Формула для выигрышного среднего

Winsorized средства выражаются двумя способами. Победившее среднее значение «k n » относится к замене «k» наименьшего и наибольшего наблюдений, где «k» является целым числом. Победившее среднее значение «X%» включает замену заданного процента значений с обоих концов данных.

Выигрышное среднее достигается заменой самых маленьких и самых больших точек данных, затем суммированием всех точек данных и делением суммы на общее количество точек данных.

Что вам говорит победитель?

Выигрышное среднее менее чувствительно к выбросам, поскольку оно может заменить их менее экстремальными значениями. То есть он менее подвержен выбросам по сравнению со средним арифметическим. Однако, если у распределения есть толстые хвосты, эффект удаления самого высокого и самого низкого значений в распределении будет иметь небольшое влияние из-за высокой степени изменчивости в цифрах распределения.

Пример использования Winsorized среднего

Давайте рассчитаем выигрышное среднее для следующего набора данных: 1, 5, 7, 8, 9, 10, 34. В этом примере мы предполагаем, что выигрышное среднее находится в первом порядке, в котором мы заменяем наименьшее и наибольшее значения на их ближайшие наблюдения.

Теперь набор данных выглядит следующим образом: 5, 5, 7, 8, 9, 10, 10. Принятие среднего арифметического нового набора дает выигрышное среднее значение 7,7, или (5 + 5 + 7 + 8 + 9 + 10 + 10) разделить на 7. Обратите внимание, что среднее арифметическое будет выше — 10,6. Выигрышное среднее эффективно снижает влияние значения 34 как выброса.

Или рассмотрим 20% выигрышное среднее значение, которое берет верхние 10% и нижние 10% и заменяет их следующим ближайшим значением. Мы выиграем следующий набор данных: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Два наименьшие и наибольшие точки данных — 10% из 20 точек данных — будут заменены их следующим ближайшим значением. Таким образом, новый набор данных выглядит следующим образом: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Среднее значение выигрыша равно 33,9, или сумма данных (678), деленная на общее количество точек данных (20).

Винсоризованное среднее против усеченного среднего

Усеченное среднее включает изменение точек данных, тогда как усеченное среднее включает удаление точек данных. Обычно выигрышное среднее и усеченное среднее значение близки друг к другу или иногда равны друг другу.

Ограничения выигрышного среднего

Одним из основных недостатков выигрышных средств является то, что они естественным образом вносят некоторую предвзятость в набор данных. Уменьшая влияние выбросов, анализ модифицируется для лучшего анализа, но также удаляет информацию о базовых данных.