Popularnym określeniem dotyczącym jakichkolwiek danych statystycznych, jest stwierdzenie, że „istnieje korelacja pomiędzy zmiennymi”. Niemniej wielu błędnie interpretuje to stwierdzenie jako „istnieje zależność pomiędzy zmiennymi”. Warto zatem krótko wyjaśnić oba terminy:

Korelacja oznacza, że znając wartość jednej zmiennej możemy wnioskować na temat wartości drugiej.

Istnieje kilka wariantów korelacji:

  1. Korelacja dodatnia

Dodatnia korelacja oznacza, że wraz ze wzrostem/spadkiem jednej zmiennej, druga zmienna analogicznie rośnie lub spada.

Przykładem takiej kombinacji jest liczby pięter w budynku oraz liczby mieszkań w nim się znajdujących. Logiczny jest wniosek, że blok z większą liczbą pięter pomieści więcej mieszkań.

Pełna korelacja dodatnia wynosi 1 i oznacza, że na podstawie danych możemy w sposób pewny przewidzieć jedną zmienną na podstawie drugiej.  W praktyce taka sytuacja rzadko występuje lub wnioski są zupełnie nieprzydatne:  np. stosunek objętości do masy wody: wzrost objętości wody koreluje w pełni z wzrostem masy wody.

korelacja1

korelacja2

Korelacja dodatnia, ale mniejsza niż 1, oznacza tylko częściową możliwość dedukcji na podstawie jednej zmiennej. Dobrym przykładem jest wzrost danej osoby i jej waga. Oczywiste jest to, że wyższe osoby są przeciętnie cięższe, ale rolę odgrywa tu wiele innych czynników.

  1. Korelacja zerowa

Korelacja wynosząca 0, oznacza brak możliwości jakiejkolwiek dedukcji.

  1. Korelacja ujemna

Ujemna korelacja oznacza, że wraz ze wzrostem/spadkiem jednej zmiennej, druga zmienna zachowuje się odwrotnie i odpowiednio spada bądź rośnie. Na przykład częstotliwość korzystania z telefonu a poziom baterii.

Ujemna korelacja, ale większa od -1, oznacza tylko częściową możliwość dedukcji na podstawie jednej zmiennej. Przykładem jest waga danej osoby, a prędkość z jaką potrafi biec.

 

Pełna ujemna korelacja wynosząca -1, oznacza, że na podstawie danych możemy w sposób pewny przewidzieć jedną zmienną na podstawie drugiej.  W praktyce rzadko spotykane lub nieprzydatne.

Co może oznaczać korelacja?

Wiele osób przyjmuje za pewnik, że korelacja oznacza obecność przyczynowości pomiędzy zmiennymi. Tak jednak być nie musi. Istnieje 5 wytłumaczeń dla istnienia korelacji. :

  1. Zmienna A wpływa na Zmienną B – np. liczba samochodów w gospodarstwie domowym a zarobki
  2. Zmienna B wpływa na Zmienną A – jak wyżej
  3. Zmienna A wpływa na Zmienną B i Zmienna B wpływa na Zmienną A – poziom wykształcenia a zarobki. Osoby bogatsze mogą sobie pozwolić na dłuższe kształcenie, tym samym zwiększając swoją wartość rynkową
  4. Istnieje nieznana zmienna C, który koreluje i wpływa na Zmienną A i Zmienną B – liczba samochodów w gospodarstwie domowym i wielkość domu/mieszkania. Obie zależne od zarobków.
  5. Korelacja jest dziełem przypadku

korelacja3

Może się wydawać, że ostatni punkt, jest pewnego rodzaju lenistwem, ale z uwagi na olbrzymią liczbę danych obecnie dostępnych oraz zasady prawdopobieństwa, możemy znaleźć mnóstwo przykładów, gdzie zmienne są ze sobą ściśle skorelowane, ale w praktyce nie powiązane w żaden sposób.

Przykład?

Liczba osób które poniosły śmierć przez wypadnięcie z łódki podczas wędkowania a liczba związków małżeńskich w stanie Kentucky.

korelacja4

Albo…konsumpcja kurczaka (per capita) a całkowity import ropy naftowej przez US.

korelacja5

Te i więcej przykładów możesz znaleźć na http://www.tylervigen.com/spurious-correlations.

 

Jeśli po tym wszystkim dalej odczuwacie potrzebę zgłębienia korelacji trochę lepiej, spróbujcie swoich sił w grze guessthecorrelation.com. Waszym zadaniem będzie zgadnięcie jak skorelowane są 2 zmienne.

 


Interesują Cię podobne treści? Subskrybuj Newsletter !