Confusion Matrix - Macierz Błędów

Jak ocenić jakość i poprawność modeli klasyfikacyjnych? Część 3 – Confusion Matrix

Confusion Matrix to macierz N×N, gdzie wiersze odpowiadają poprawnym klasom decyzyjnym, a kolumny decyzjom przewidywanym przez klasyfikator. Liczba n-ij na przecięciu wiersza i oraz kolumny j to liczba przykładów z klasy i-tej, które zostały zaklasyfikowane do klasy j-tej.

W poprzednich częściach tutorialu (część 1, część 2) przedstawiliśmy liczbowe wskaźniki jakości modeli klasyfikacyjnych. W kolejnych częściach chcielibyśmy się przyjrzeć wskaźnikom graficznym. Pierwszym z nich jest Macierz Błędów (ang. Confusion Matrix). Inna nazwa tego wskaźnika to Tablica Kontyngencji (Contingency Table), Macierz Pomyłek lub Tablica Pomyłek.

Przykłady:

Confusion Matrix - Macierz Błędów

Postacie Confusion Matrix

Różne postacie Confusion Matrix pozwalają łatwiej zaobserwować pewne własności klasyfikacji (np. poniesiony koszt w przypadku błędnej klasyfikacji).

  • Postać liczbowa – zawiera liczby obserwacji klasyfikowanych do poszczególnych klas.

Confusion Matrix - Macierz Błędów

  • Postać procentowa – zawiera odsetek obserwacji klasyfikowanych do poszczególnych klas wyrażony w procentach (postać liczbowa/liczba wszystkich obserwacji)..

Confusion Matrix - Macierz Błędów

  • Postać zysków i strat – zawiera informację na temat zysków i strat związanych z poprawną klasyfikacją oraz z popełnieniem błędu klasyfikacji (tabela zysków i strat).

Confusion Matrix - Macierz Błędów

 

Confusion Matrix w postaci zysków i strat zawiera sumy kosztów wynikających z klasyfikacji.

Przykład 1

Confusion Matrix - Macierz Błędów

 

Przykład 2

Confusion Matrix - Macierz Błędów

 

Punkt odcięcia a macierz błędów

CPunkt odcięcia (ang. cut off) to pewien próg, który można zastosować do klasyfikowania obserwacji do odpowiednich klas.

jeśli P(klasa(x)=1) >= alfa, to przyporządkuj x do klasy 1

gdzie:

alfa – punkt odcięcia

P (klasa(x)=1) – prawdopodobieństwem, że dany element należy do danej klasy

Przykładowo:

Jeżeli prawdopodobieństwo (wyliczone przez nasz model klasyfikacyjny) tego, że dany kredytobiorca będzie złym płatnikiem jest większe lub równe 60% przypisz tego kredytobiorcę do grupy złych płatników, w przeciwnym przypadku – przypisz do grupy dobrych płatników.

Dla tego samego problemu (np. ocena wiarygodności kredytowej) można przyjąć różne punkty odcięcia, co daje nam różne Confusion Matrix. Dzięki analizie tych macierzy błędów, możemy wybrać optymalny punkt odcięcia.

Confusion Matrix - Macierz Błędów

Confusion Matrix - Macierz Błędów

 

Macierz błędów – podsumowanie

  • Prosty i czytelny sposób zestawienia wyników klasyfikacji
  • Ułatwia ocenę klasyfikacji
  • Różne postaci macierzy błędów ułatwiają zauważenie pożądanych własności badanego klasyfikatora
  • Pozwala zaobserwować bilans zysków i strat z klasyfikacji

Dwie ostatnie części naszego tutorialu poświęcimy kolejnym przykładom graficznych wskaźników jakości modeli: krzywej ROC i krzywej LIFT.

Pin It on Pinterest