Сумма квадратов
Что такое Сумма квадратов?
Сумма квадратов — это статистический метод, используемый в регрессионном анализе для определения разброса точек данных. В регрессионном анализе цель состоит в том, чтобы определить, насколько хорошо ряд данных может быть адаптирован к функции, которая может помочь объяснить, как был создан ряд данных. Сумма квадратов используется как математический способ найти функцию, которая лучше всего соответствует (меньше всего отличается) от данных.
Формула суммы квадратов:
Сумма квадратов также известна как вариация.
Что вам говорит сумма квадратов?
Сумма квадратов — это мера отклонения от среднего. В статистике среднее значение представляет собой среднее значение набора чисел и является наиболее часто используемой мерой центральной тенденции . Среднее арифметическое вычисляется просто путем суммирования значений в наборе данных и деления на количество значений.
Допустим, цена закрытия Microsoft (MSFT) за последние пять дней составляла 74,01, 74,77, 73,94, 73,61 и 73,40 в долларах США. Сумма общих цен составляет 369,73 доллара, а средняя цена учебника, таким образом, будет 369,73 доллара / 5 = 73,95 доллара.
Но знать среднее значение набора измерений не всегда достаточно. Иногда полезно знать, насколько вариативен набор измерений. Насколько далеко отдельные значения отстоят от среднего, может дать некоторое представление о том, насколько наблюдения или значения соответствуют создаваемой регрессионной модели .
Например, если аналитик хотел знать, движется ли цена акций MSFT вместе с ценой Apple (AAPL), он может перечислить набор наблюдений за процессом обеих акций за определенный период, скажем 1, 2. , или 10 лет и создайте линейную модель с записью каждого из наблюдений или измерений. Если связь между обеими переменными (т. Е. Ценой AAPL и ценой MSFT) не является прямой линией, то в наборе данных есть вариации, которые необходимо тщательно изучить.
В статистике говорят, что если линия в созданной линейной модели не проходит через все измерения стоимости, то некоторая изменчивость, которая наблюдалась в ценах акций, необъяснима. Сумма квадратов используется для расчета, существует ли линейная связь между двумя переменными, а любая необъяснимая изменчивость называется остаточной суммой квадратов .
Сумма квадратов — это сумма квадратов вариации, где вариация определяется как разброс между каждым отдельным значением и средним значением. Чтобы определить сумму квадратов, расстояние между каждой точкой данных и линией наилучшего соответствия возводится в квадрат, а затем суммируется. Линия наилучшего соответствия минимизирует это значение.
Как посчитать сумму квадратов
Теперь вы можете понять, почему измерение называется суммой квадратов отклонений или для краткости суммой квадратов. Используя наш приведенный выше пример MSFT, сумму квадратов можно рассчитать как:
- СС = (74.01 — 73.95) 2 + (74.77 — 73.95) 2 + (73.94 — 73.95) 2 + (73,61 — 73,95) 2 + (73.40 — 73.95) 2
- SS = (0,06) 2 + (0,82) 2 + (-0,01) 2 + (-0,34) 2 + (-0,55) 2
- СС = 1.0942
Добавление только суммы отклонений без возведения в квадрат приведет к числу, равному или близкому к нулю, поскольку отрицательные отклонения почти полностью компенсируют положительные отклонения. Чтобы получить более реалистичное число, необходимо возвести сумму отклонений в квадрат. Сумма квадратов всегда будет положительным числом, потому что квадрат любого числа, положительного или отрицательного, всегда положительный.
Пример использования суммы квадратов
Основываясь на результатах расчета MSFT, большая сумма квадратов указывает на то, что большинство значений дальше от среднего, и, следовательно, есть большая изменчивость в данных. Низкая сумма квадратов указывает на низкую изменчивость набора наблюдений.
В приведенном выше примере 1.0942 показывает, что колебания цены акций MSFT за последние пять дней очень низки, и инвесторы, желающие инвестировать в акции, характеризующиеся стабильностью цен и низкой волатильностью, могут выбрать MSFT.
Ключевые моменты
- Сумма квадратов измеряет отклонение точек данных от среднего значения.
- Более высокий результат суммы квадратов указывает на большую степень изменчивости в наборе данных, в то время как более низкий результат указывает на то, что данные не сильно отличаются от среднего значения.
Ограничения использования суммы квадратов
Принятие инвестиционного решения о том, какие акции покупать, требует гораздо большего количества наблюдений, чем перечисленные здесь. Аналитику, возможно, придется работать с данными за годы, чтобы с большей уверенностью узнать, насколько высока или низка изменчивость актива. По мере того, как в набор добавляется больше точек данных, сумма квадратов становится больше, так как значения будут более разбросанными.
Наиболее широко используемые измерения вариации — это стандартное отклонение и дисперсия . Однако для вычисления любого из двух показателей сначала необходимо вычислить сумму квадратов. Дисперсия — это среднее значение суммы квадратов (т. Е. Суммы квадратов, деленной на количество наблюдений). Стандартное отклонение — это квадратный корень из дисперсии.
Существует два метода регрессионного анализа, в которых используется сумма квадратов: линейный метод наименьших квадратов и нелинейный метод наименьших квадратов. Метод наименьших квадратов относится к тому факту, что функция регрессии минимизирует сумму квадратов отклонения от фактических точек данных. Таким образом можно нарисовать функцию, которая статистически лучше всего подходит для данных. Обратите внимание, что функция регрессии может быть линейной (прямая линия) или нелинейной (кривая линия).