ROC

Jak ocenić jakość i poprawność modeli klasyfikacyjnych? Część 4 – Krzywa ROC

Krzywa ROC to jeden ze sposobów wizualizacji jakości klasyfikacji, pokazujący zależności wskaźników TPR (True Positive Rate) oraz FPR (False Positive Rate).

W poprzednich częściach naszego tutorialu omówiliśmy:

W części 4 zajmiemy się krzywą ROC.

Czym jest krzywa ROC?

Krzywa ROC

Im wykres bardziej ”wypukły”, tym lepszy klasyfikator. W przykładzie poniżej, w obszarze 1 lepszy jest klasyfikator „zielony”, w obszarze 2 – „czerwony”.

Krzywa ROC

W jaki sposób powstaje krzywa ROC

  1. Obliczamy wartości funkcji decyzyjnej.
  2. Testujemy klasyfikator dla różnych progów alfa. Przypomnijmy, alfa to próg szacowanego prawdopodobieństwa, powyżej którego obserwacja klasyfikowana jest do jednej kategorii (Klasa_pos), a poniżej którego – do drugiej kategorii (Klasa_neg).
  3. Z każdej klasyfikacji, przeprowadzonej przy ustalonym progu alfa, otrzymujemy parę (TPR, FPR), będącą pojedynczym punktem krzywej ROC.
  4. Każdej klasyfikacji, przeprowadzonej przy ustalonym progu alfa, odpowiada pewna macierz błędów.

Przykładowo:

Krzywa ROC

Krzywa ROC

Ocena klasyfikatora na podstawie ROC

Krzywa ROC

Jakość klasyfikacji za pomocą krzywej ROC można ocenić wyliczając takie wskaźniki jak:

  • Pole pod krzywą (AUC) (Area Under ROC Curve)

Im większe AUC tym lepiej: AUC = 1 (klasyfikator idealny), AUC = 0.5 (klasyfikator losowy), AUC < 0.5 (nieprawidłowy klasyfikator (gorszy niż losowy)).

  • Współczynnik Giniego: GC = 2*AUC-1 (wyższość klasyfikatora nad losowym).

Im większy GC tym lepiej: GC = 1 (klasyfikator idealny), GC = 0 (klasyfikator losowy).

Ostatnią część tutorialu poświęcimy krzywej LIFT.

Pin It on Pinterest