Na czym polega aproksymacja i klasyfikacja?
Wśród wielu decyzji jakie trzeba podjąć budując model predykcyjny, kluczową kwestią jest ustalenie czy dany problem biznesowy jest zadaniem klasyfikacyjnym czy aproksymacyjnym. Jest to istotne, ponieważ zależy od tego, która grupa metod zostanie wykorzystana do opracowania modelu: klasyfikacyjne (drzewa decyzyjne, algorytmy Bayesowskie) czy aproksymacyjne (drzewa regresyjne, regresja liniowa).
Ten krótki poradnik, pomoże Ci podjąć poprawną decyzję.
Klasyfikacja – kiedy stosować?
Użyj klasyfikacji kiedy chcesz przewidzieć, do którego podzbioru kategorycznych wartości należy konkretna obserwacja. Oznacza to, że istnieje skończona liczba predefiniowanych kategorii, do których obserwacja może należeć. Przykładami są:
- Czy konkretny e-mail jest spamem? Przykłady kategorii: “SPAM” & “NIE-SPAM”
- Czy konkretny klient kupi produkt, jeśli mu się go zaoferuje? Przykłady kategorii: “TAK” & “NIE”
- Do którego zakresu skuteczności należy dana inwestycja? Przykłady kategorii: “Mniej niż 10%”, “10%-20%”, “Ponad 20%”
Klasyfikacja – jak to działa?
Klasyfikacja bazuje na wyszukiwaniu konkretnych schematów w podobnych obserwacjach zarejestrowanych w przeszłości i stara się znaleźć takie, które w spójny sposób dopasowują się do konkretnej kategorii. Jeśli na przykład chcemy dokonać predykcji dla obserwacji:
- Zmiennej objaśnianej y z dwoma kategoriami oznaczonymi niebieskim i czerwonym kolorem. Puste, białe kropki oznaczają nieznane obserwacje – mogą być tak niebieskie jak i czerwone.
- Wykorzystujemy dwie numeryczne obserwacje, x1 i x2 które opisujemy odpowiednio na osi poziomej i osi pionowej. Jak widać poniżej, algorytm policzył funkcje, która jest reprezentowana przez czarną linię. Większość niebieskich obserwacji jest poniżej linii, a większość czerwonych powyżej. W ten sposób algorytm „zgaduje”, nie zawsze poprawnie, przynależność kropek w celu zminimalizowania błędu. Tylko 11 kropek jest niepoprawnie zaklasyfikowanych.
- Teraz możemy przewidzieć, że białe kropki powyżej linii są tak naprawdę czerwone, a te poniżej tak naprawdę niebieskie. Jeśli pojawią się nowe białe kropki (na przykład przyszłe obserwacje) będziemy mogli przewidzieć także ich przynależność.

Oczywiście to bardzo uproszczony przykład i zazwyczaj schematy klasyfikujące bazują na znacznie bardziej skomplikowanych schematach z wykorzystaniem setek zmiennych, co niestety nie jest możliwe do zobrazowania za pomocą statycznej grafiki.
Aproksymacja – kiedy stosować?
Aproksymacja jest wykorzystywana, gdy chcemy przewidzieć prawdopodobną wartość numerycznej zmiennej konkretnej obserwacji. Przykładem może być:
- Ile pieniędzy wyda dany klient na moje produkty w tym roku?
- Jaka jest cena rynkowa danego mieszkania?
- Jak często maszyny na linii produkcyjnej będą ulegać awarii w ciągu miesiąca?
Aproksymacja – jak to działa?
Aproksymacja bazuje na wyszukiwaniu konkretnych schematów w podobnych obserwacjach zarejestrowanych w przeszłości, niemniej tym razem stara się ocenić za ich pomocą wpływ poszczególnych czynników na badaną zmienną. Jeśli na przykład dysponujemy obserwacjami:
- Z numeryczną zmienną y, której predykcji chcemy dokonać.
- Z numeryczną zmienną x1, którą chcemy wykorzystać do przewidywania zmiennej y.
- Z kategoryczną zmienną x2 z dwoma kategoriami: lewo i prawo, którą chcemy wykorzystać do przewidywania zmiennej y.
- Niebieskie kółka reprezentują znane obserwacje, w których znamy y, x1, x2.
- Ponieważ nie możemy umieścić na dwuwymiarowym wykresie trzech zmiennych, dzielimy na dwa dwuwymiarowe wykresy. Wykres po lewej przedstawia wartości y względem dla x1 i x2=lewo, a wykres po prawej przedstawia wartości y względem dla x1 i x2=prawo.
- Czarna linia reprezentuje jak nasz model rozpoznaje zależność pomiędzy x1 a y dla obu wariantów. Pomarańczowe punkty reprezentują nasze predykcje y dla obserwacji, gdzie znamy tylko x1, x2. Nakładamy wtedy pomarańczowe punkty na odpowiednim miejscu czarnej linii modelu, by dokonać predykcji konkretnych wartości. Ich schemat jest podobny do niebieskich kropek.
- Jak widać, rozkład obserwacji i widoczny schemat zależności pomiędzy y a x1 różni się znacznie dla dwóch wariantów wartości x2.
- Gdy pojawią się nowe obserwacje, ze znanymi wartościami x1 i x2 będziemy mogli także dokonywać ich predykcji.
Dyskretyzacja
Nawet jeśli przewidywana zmienna jest numeryczna, czasami lepsze efekty otrzymamy, gdy użyjemy metod klasyfikacyjnych, zamiast aproksymacyjnych. Na przykład, jeśli większość wartości badanej zmiennej wynosi zero, można zamienić ją na dyskretną zmienną, która przyjmuje wartość 1 dla niezerowej wartości i 0 dla pozostałych. Możesz też podzielić numeryczną zmienną na podgrupy: ceny mieszkania na niskie, średnie i wysokie, dzieląc te zakresy o równej szerokości i przewidywać je przy pomocy klasyfikacyjnych algorytmów. Ten proces, nazywa się dyskretyzacją.