Quality and correctness of classification models

Jak ocenić jakość i poprawność modeli klasyfikacyjnych? Część 1 – Wprowadzenie

Czym jest klasyfikacja?

Klasyfikacja to przyporządkowanie obiektów do pewnych znanych klas, przy czym dany obiekt może zostać przyporządkowany tylko do jednej klasy. Przykładem zadania klasyfikacyjnego może być:

przyporządkowanie pacjenta (obiekt) do grupy osób chorych bądź zdrowych (klasy) na podstawie historii jego choroby,
określenie wiarygodności klienta (obiekt) w celu przyznania kredytu (klasy: wiarygodny, niewiarygodny) na podstawie na przykład danych demograficznych, finansowych,
określenie czy klient (obiekt) jest skłonny do rezygnacji z usług / produktów firmy (klasy: odejdzie, nie odejdzie) na podstawie na przykład danych behawioralnych, demograficznych.

Jak wygląda proces tworzenia modeli klasyfikacyjnych?

W uproszczeniu, tworzenie modelu klasyfikacji składa się z następujących kroków:

Przygotowanie danych (import, przetwarzanie, eksploracja i analiza statystyczna) W ramach tego etapu dane są dzielone na części:
- dane trenujące – na ich podstawie budowany jest model
- (w złożonych przypadkach) dane walidacyjne – służą do oceny modelu podczas jego tworzenia, aby na bieżąco oceniać jakość modelu
- dane testujące (służą do finalnej oceny jakości przygotowanego modelu)
Tworzenie modeli (z wykorzystaniem danych trenujących i opcjonalnie walidacyjnych)
Ocena jakości modeli (testowanie stworzonego modelu na danych testowych)
Zastosowanie modeli i ich dalszy monitoring (okresowe sprawdzanie czy nie pogarsza się jakość predykcji modelu, np. ze względu na zmiany demograficzne, rynkowe)

Klasyfikacja - budowa modelu klasyfikacyjnego

Jakie są wskaźniki jakości modeli klasyfikacyjnych?

Oceniając jakość modeli klasyfikacyjnych, możemy skorzystać z dwóch kategorii wskaźników:

Liczbowe wskaźniki jakości – statystyki wyrażające jakość klasyfikacji przy pomocy wymiernych wartości liczbowych.
Graficzne „wskaźniki” – graficzne przedstawienie jakości klasyfikacji, polegające na wizualizacji i odpowiednim zestawieniu różnych wskaźników liczbowych. Metody graficzne ułatwiają ocenę i prezentację wyników klasyfikacji. Przykładami tego typu wskaźników są:

Podstawowe oznaczenia w procesie oceny modeli klasyfikacyjnych

Klasyfikacja dwuklasowa:

jedna z klas: klasa pozytywna (positive target value, klasa wyróżniona, patologiczna)
druga klasa: klasa negatywna (negative, klasa normalna)

Klasyfikacja wieloklasowa:

jedna z klas: klasa pozytywna (positive target value, klasa wyróżniona, patologiczna)
pozostałe klasy łącznie: klasa negatywna

Klasą pozytywną jest grupa obiektów, która nas interesuje w modelowaniu, czyli przykładowo są to klienci, którzy zrezygnowali z oferty (przy modelowaniu churnu) lub klienci, którzy nie spłacili kredytu (przy projektach credit scoring). Klasa negatywna to pozostali klienci.

TP, TN, FP, FN

TP – True Positive – liczba obserwacji poprawnie zaklasyfikowanych do klasy pozytywnej. Przykład: nasz model się nie pomylił i klienci, którzy zrezygnowali z oferty firmy zostali przypisani do klasy „nielojalni”
TN – True Negative – the number of observations correctly assigned to the negative class Example: the model’s predictions are correct and customers who continue using the service have been assigned to the class of „loyal” customers.
FP – False Positive – the number of observations assigned by the model to the positive class, which in reality belong to the negative class. Example: unfortunately the model is not perfect and made a mistake: some customers, who continue using the service have been assigned to the class of „disloyal” customers.
FN – False Negative – the number of observations assigned by the model to the negative class, which in reality belong to the positive class. Example: unfortunately the model is not perfect and made a mistake: some churning customers have been assigned to the class of „loyal” customers.

Dla idealnego klasyfikatora (czyli wszystko poprawnie zakwalifikowaliśmy i nasz model się nie pomylił) mamy:
FP = 0
FN = 0
TP = liczba obserwacji należących do klasy pozytywnej
TN = liczba obserwacji należących do klasy negatywnej

Pos= TP + FN – liczba obserwacji należących do klasy pozytywnej
Neg = FP + TN – liczba obserwacji należących do klasy negatywnej

Gratulacje! Teraz masz podstawową wiedzę na temat oceny modeli klasyfikacyjnych. W kolejnej części zajmiemy się liczbowymi wskaźnikami jakości.