Confusion Matrix to macierz N×N, gdzie wiersze odpowiadają poprawnym klasom decyzyjnym, a kolumny decyzjom przewidywanym przez klasyfikator. Liczba n-ij na przecięciu wiersza i oraz kolumny j to liczba przykładów z klasy i-tej, które zostały zaklasyfikowane do klasy j-tej.
W poprzednich częściach tutorialu (część 1, część 2) przedstawiliśmy liczbowe wskaźniki jakości modeli klasyfikacyjnych. W kolejnych częściach chcielibyśmy się przyjrzeć wskaźnikom graficznym. Pierwszym z nich jest Macierz Błędów (ang. Confusion Matrix). Inna nazwa tego wskaźnika to Tablica Kontyngencji (Contingency Table), Macierz Pomyłek lub Tablica Pomyłek.
Różne postacie Confusion Matrix pozwalają łatwiej zaobserwować pewne własności klasyfikacji (np. poniesiony koszt w przypadku błędnej klasyfikacji).
Confusion Matrix w postaci zysków i strat zawiera sumy kosztów wynikających z klasyfikacji.
CPunkt odcięcia (ang. cut off) to pewien próg, który można zastosować do klasyfikowania obserwacji do odpowiednich klas.
jeśli P(klasa(x)=1) >= alfa, to przyporządkuj x do klasy 1
gdzie:
alfa – punkt odcięcia
P (klasa(x)=1) – prawdopodobieństwem, że dany element należy do danej klasy
Przykładowo:
Jeżeli prawdopodobieństwo (wyliczone przez nasz model klasyfikacyjny) tego, że dany kredytobiorca będzie złym płatnikiem jest większe lub równe 60% przypisz tego kredytobiorcę do grupy złych płatników, w przeciwnym przypadku – przypisz do grupy dobrych płatników.
Dla tego samego problemu (np. ocena wiarygodności kredytowej) można przyjąć różne punkty odcięcia, co daje nam różne Confusion Matrix. Dzięki analizie tych macierzy błędów, możemy wybrać optymalny punkt odcięcia.
Dwie ostatnie części naszego tutorialu poświęcimy kolejnym przykładom graficznych wskaźników jakości modeli: krzywej ROC i krzywej LIFT.