Dane są wszędzie. Zostawiamy je sami korzystając z bankomatu, przeglądając strony internetowe, dzwoniąc do znajomych, kupując buty w sklepie internetowym czy też publikując posty na facebooku. Firmy masowo gromadzą te dane, aby móc podejmować trafniejsze decyzje biznesowe, dotyczące na przykład tego:
Nie zawsze łatwo jest uzyskać odpowiedzi na powyższe pytania. Warto wtedy sięgnąć po analitykę predykcyjną, która dostarczy cennych informacji, pomocnych przy podejmowaniu właściwych decyzji. W dużym uproszczeniu, analityka predykcyjna pozwala przewidzieć przyszłość, bazując na danych historycznych.
Przykładowo, mając informację o tym, którzy klienci do tej pory zrezygnowali z naszych produktów, możemy zbudować model analityczny, opisujący wzorzec ich zachowań i charakterystykę. Jeżeli podobne zachowania zaobserwujemy u innych klientów, szczególnie tych, na których najbardziej nam zależy (bo generują największą sprzedaż), warto z wyprzedzeniem zapobiec ich odejściu. Analityka predykcyjna dostarczy nam ranking naszych klientów wg ryzyka ich odejścia (tzw. score – w naszym przykładzie – im więcej punktów scoringowych ma klient, tym istnieje większe ryzyko, że odejdzie).
Aby jednak zbudować taki model analityczny, potrzebujemy danych historycznych….
Najczęściej dane do modelowania zaciągane są z bazy danych lub plików płaskich. Poniżej, prezentujemy przykład tabeli z danymi źródłowymi oraz informacje jak ją interpretować.
Kolumny tabeli to inaczej zmienne, cechy, atrybuty, natomiast wiersze to rekordy, obserwacje, obiekty.
Zmienne mogą być:
Wyróżniamy dwie podstawowe funkcje zmiennych:
Warto pamiętać, że przy wyliczaniu zmiennych objaśniających nie wolno używać informacji o targecie.
W zależności od branży, zadania, zmiennych może być naprawdę dużo. My pracowaliśmy na bazach, które miały nawet kilkadziesiąt tysięcy zmiennych. Ponadto, nazwy zmiennych nie zawsze są zrozumiałe. Na przykład, czy zgadłbyś, że POP901, MARR1, IC10 oznaczają odpowiednio liczbę osób, procent zamężnych/żonatych, procent gospodarstw domowych z dochodem $50,000 – $74,999? W trakcie analizy danych warto zatem posiłkować się słownikiem danych.
Model predykcyjny opisuje zależności między zmiennymi objaśniającymi a targetem. Pozwala on w oparciu o zmienne objaśniające domniemać jaka jest wartość target. Istnieje wiele rodzajów modeli, wśród których najpopularniejsze to:
Modele można podzielić ze względu na ich przeznaczenie:
W następnym wpisie zajmiemy się procesem budowy modeli analitycznych. Omówimy go na przykładzie klasyfikacji. Klasyfikacja to przyporządkowanie obiektów do pewnych znanych klas, przy czym dany obiekt może zostać przyporządkowany tylko do jednej klasy. Na przykład: przyporządkowanie pacjenta (obiekt) do grupy osób chorych bądź zdrowych (klasy) na podstawie historii jego choroby albo określenie wiarygodności klienta (obiekt) w celu przyznania kredytu (klasy: wiarygodny, niewiarygodny) na podstawie na przykład danych demograficznych, finansowych. Z kolei część 3-cią poświęcimy pojęciu scoringu i punktu cut-off.