Ложная корреляция

Что такое ложная корреляция

В статистике ложная корреляция или ложная связь относится к связи между двумя переменными, которая кажется причинной, но не является таковой. Ложные отношения часто выглядят как одна переменная, влияющая на другую. Эта ложная корреляция часто вызвана третьим фактором, который не очевиден во время исследования, который иногда называют смешивающим фактором.

Ключевые выводы

  • Ложная корреляция, или ложная корреляция, — это когда два фактора кажутся случайно связанными, но не связаны.
  • Появление причинно-следственной связи часто происходит из-за аналогичного движения на карте, которое оказывается случайным или вызванным третьим «смешивающим» фактором.
  • Ложная корреляция часто может быть вызвана малым размером выборки или произвольными конечными точками.

Как работает ложная корреляция

Когда две случайные переменные внимательно отслеживают друг друга на графике, легко заподозрить корреляцию или взаимосвязь между двумя факторами, при которых изменение влияет на другой. Если оставить в стороне «причинно-следственную связь», еще одну тему, это наблюдение может заставить читателя диаграммы поверить в то, что движение переменной A связано с движением переменной B или наоборот. но иногда при более тщательном статистическом исследовании совпадающие движения случайны или вызваны третьим фактором, влияющим на первые два. Это ложная корреляция. Исследования, проводимые с небольшими размерами выборки или произвольными конечными точками, подвержены ложным результатам.

Пример ложных корреляций

Обнаружить интересные корреляции не так уж и сложно. Однако многие из них окажутся фальшивыми. Для мужчин на Уолл-стрит две популярные ложные корреляции связаны с женщинами и спортом. В 1920-х годах зародилась теория длины юбки, согласно которой длина юбки и направление фондового рынка взаимосвязаны. Если юбка длинная, это означает, что фондовый рынок идет вниз; если они короткие, рынок растет. Примерно в конце января говорят о так называемом индикаторе Суперкубка, который предполагает, что победа команды AFC, вероятно, означает, что фондовый рынок упадет в следующем году, тогда как победа команды NFC предвещает рост рынок. С 1966 года показатель точности составляет 80%. Это забавный разговор, но, вероятно, серьезный финансовый консультант не рекомендовал бы его в качестве инвестиционной стратегии для клиентов.

Вот еще несколько примеров распространенных ложных корреляций:

  • Когда растут продажи мороженого, растет число случаев утопления. Может показаться, что увеличение продаж мороженого приводит к увеличению числа случаев утопления, но на самом деле повышение температуры может заставить больше людей плавать, а также покупать больше мороженого.
  • Количество убийств в США с 2006 по 2011 год снизилось с той же скоростью, что и использование Microsoft Internet Explorer.
  • Руководители, которые чаще говорят «пожалуйста» и «спасибо», получают больше результатов.
  • Люди, которые носят экипировку команды Oakland Raiders, с большей вероятностью совершат преступления.

Как обнаружить ложные корреляции

Статистики и другие ученые, которые анализируют данные, должны постоянно искать ложные взаимосвязи. Они используют множество методов, в том числе:

  • Обеспечение надлежащей репрезентативной выборки.
  • Получение адекватного размера выборки.
  • Остерегайтесь произвольных конечных точек.
  • Контроль максимально возможного количества внешних переменных.
  • Использование нулевой гипотезы и проверка сильного p-значения.