Popularnym określeniem dotyczącym jakichkolwiek danych statystycznych, jest stwierdzenie, że „istnieje korelacja pomiędzy zmiennymi”. Niemniej wielu błędnie interpretuje to stwierdzenie jako „istnieje zależność pomiędzy zmiennymi”. Warto zatem krótko wyjaśnić oba terminy:
Korelacja oznacza, że znając wartość jednej zmiennej możemy wnioskować na temat wartości drugiej.
Istnieje kilka wariantów korelacji:
Dodatnia korelacja oznacza, że wraz ze wzrostem/spadkiem jednej zmiennej, druga zmienna analogicznie rośnie lub spada. Przykładem takiej kombinacji jest liczba pięter w budynku oraz liczba mieszkań w nim się znajdujących. Logiczny jest wniosek, że blok z większą liczbą pięter pomieści więcej mieszkań.
Pełna korelacja dodatnia wynosi 1 i oznacza, że na podstawie danych możemy w sposób pewny przewidzieć jedną zmienną na podstawie drugiej. W praktyce taka sytuacja rzadko występuje lub wnioski są zupełnie nieprzydatne: np. stosunek objętości do masy wody: wzrost objętości wody koreluje w pełni z wzrostem masy wody.
Korelacja dodatnia, ale mniejsza niż 1, oznacza tylko częściową możliwość dedukcji na podstawie jednej zmiennej. Dobrym przykładem jest wzrost danej osoby i jej waga. Oczywiste jest to, że wyższe osoby są przeciętnie cięższe, ale rolę odgrywa tu wiele innych czynników.
Korelacja wynosząca 0, oznacza brak możliwości jakiejkolwiek dedukcji.
Ujemna korelacja oznacza, że wraz ze wzrostem/spadkiem jednej zmiennej, druga zmienna zachowuje się odwrotnie i odpowiednio spada bądź rośnie. Na przykład częstotliwość korzystania z telefonu a poziom baterii.
Ujemna korelacja, ale większa od -1, oznacza tylko częściową możliwość dedukcji na podstawie jednej zmiennej. Przykładem jest waga danej osoby, a prędkość z jaką potrafi biec.
Pełna ujemna korelacja wynosząca -1, oznacza, że na podstawie danych możemy w sposób pewny przewidzieć jedną zmienną na podstawie drugiej. W praktyce rzadko spotykane lub nieprzydatne.
Wiele osób przyjmuje za pewnik, że korelacja oznacza obecność przyczynowości pomiędzy zmiennymi. Tak jednak być nie musi. Istnieje 5 wytłumaczeń dla istnienia korelacji:
Może się wydawać, że ostatni punkt, jest pewnego rodzaju lenistwem, ale z uwagi na olbrzymią liczbę danych obecnie dostępnych oraz zasady prawdopobieństwa, możemy znaleźć mnóstwo przykładów, gdzie zmienne są ze sobą ściśle skorelowane, ale w praktyce nie powiązane w żaden sposób.
Liczba osób które poniosły śmierć przez wypadnięcie z łódki podczas wędkowania a liczba związków małżeńskich w stanie Kentucky.
Albo…konsumpcja kurczaka (per capita) a całkowity import ropy naftowej przez US.
Te i więcej przykładów możesz znaleźć na http://www.tylervigen.com/spurious-correlations.
Jeśli po tym wszystkim dalej odczuwacie potrzebę zgłębienia korelacji trochę lepiej, spróbujcie swoich sił w grze Guess the correlation. Waszym zadaniem będzie zgadnięcie jak skorelowane są 2 zmienne.