Jak ocenić jakość i poprawność modeli klasyfikacyjnych? Część 1 – Wprowadzenie
Czym jest klasyfikacja?
Klasyfikacja to przyporządkowanie obiektów do pewnych znanych klas, przy czym dany obiekt może zostać przyporządkowany tylko do jednej klasy.
Przykładem zadania klasyfikacyjnego może być:
- przyporządkowanie pacjenta (obiekt) do grupy osób chorych bądź zdrowych (klasy) na podstawie historii jego choroby,
- określenie wiarygodności klienta (obiekt) w celu przyznania kredytu (klasy: wiarygodny, niewiarygodny) na podstawie na przykład danych demograficznych, finansowych,
- określenie czy klient (obiekt) jest skłonny do rezygnacji z usług / produktów firmy (klasy: odejdzie, nie odejdzie) na podstawie na przykład danych behawioralnych, demograficznych.
Jak wygląda proces tworzenia modeli klasyfikacyjnych?
W uproszczeniu, tworzenie modelu klasyfikacji składa się z następujących kroków:
- Przygotowanie danych (import, przetwarzanie, eksploracja i analiza statystyczna)
W ramach tego etapu dane są dzielone na części:
- dane trenujące – na ich podstawie budowany jest model
- (w złożonych przypadkach) dane walidacyjne – służą do oceny modelu podczas jego tworzenia, aby na bieżąco oceniać jakość modelu
- dane testujące (służą do finalnej oceny jakości przygotowanego modelu)
- Tworzenie modeli (z wykorzystaniem danych trenujących i opcjonalnie walidacyjnych)
- Ocena jakości modeli (testowanie stworzonego modelu na danych testowych)
- Zastosowanie modeli i ich dalszy monitoring (okresowe sprawdzanie czy nie pogarsza się jakość predykcji modelu, np. ze względu na zmiany demograficzne, rynkowe)
Jakie są wskaźniki jakości modeli klasyfikacyjnych?
Oceniając jakość modeli klasyfikacyjnych, możemy skorzystać z dwóch kategorii wskaźników:
- Liczbowe wskaźniki jakości – statystyki wyrażające jakość klasyfikacji przy pomocy wymiernych wartości liczbowych.
- Graficzne „wskaźniki” – graficzne przedstawienie jakości klasyfikacji, polegające na wizualizacji i odpowiednim zestawieniu różnych wskaźników liczbowych. Metody graficzne ułatwiają ocenę i prezentację wyników klasyfikacji. Przykładami tego typu wskaźników są:
Podstawowe oznaczenia w procesie oceny modeli klasyfikacyjnych
Klasyfikacja dwuklasowa:
- jedna z klas: klasa pozytywna (positive target value, klasa wyróżniona, patologiczna)
- druga klasa: klasa negatywna (negative, klasa normalna)
Klasyfikacja wieloklasowa:
- jedna z klas: klasa pozytywna (positive target value, klasa wyróżniona, patologiczna)
- pozostałe klasy łącznie: klasa negatywna
Klasą pozytywną jest grupa obiektów, która nas interesuje w modelowaniu, czyli przykładowo są to klienci, którzy zrezygnowali z oferty (przy modelowaniu churnu) lub klienci, którzy nie spłacili kredytu (przy projektach credit scoring). Klasa negatywna to pozostali klienci.
TP, TN, FP, FN
- TP – True Positive – liczba obserwacji poprawnie zaklasyfikowanych do klasy pozytywnej. Przykład: nasz model się nie pomylił i klienci, którzy zrezygnowali z oferty firmy zostali przypisani do klasy „nielojalni”
- TN – True Negative – the number of observations correctly assigned to the negative class Example: the model’s predictions are correct and customers who continue using the service have been assigned to the class of „loyal” customers.
- FP – False Positive – the number of observations assigned by the model to the positive class, which in reality belong to the negative class. Example: unfortunately the model is not perfect and made a mistake: some customers, who continue using the service have been assigned to the class of „disloyal” customers.
- FN – False Negative – the number of observations assigned by the model to the negative class, which in reality belong to the positive class. Example: unfortunately the model is not perfect and made a mistake: some churning customers have been assigned to the class of „loyal” customers.
Dla idealnego klasyfikatora (czyli wszystko poprawnie zakwalifikowaliśmy i nasz model się nie pomylił) mamy:
FP = 0
FN = 0
TP = liczba obserwacji należących do klasy pozytywnej
TN = liczba obserwacji należących do klasy negatywnej
Pos= TP + FN – liczba obserwacji należących do klasy pozytywnej
Neg = FP + TN – liczba obserwacji należących do klasy negatywnej
Gratulacje! Teraz masz podstawową wiedzę na temat oceny modeli klasyfikacyjnych. W kolejnej części zajmiemy się liczbowymi wskaźnikami jakości.