predictive_analytics_for_beginners

Analityka predykcyjna dla początkujących – część 1

Rola analityki predykcyjnej w biznesie

Dane są wszędzie. Zostawiamy je sami korzystając z bankomatu, przeglądając strony internetowe, dzwoniąc do znajomych, kupując buty w sklepie internetowym czy też publikując posty na facebooku. Firmy masowo gromadzą te dane, aby móc podejmować trafniejsze decyzje biznesowe, dotyczące na przykład tego:

  • Do których klientów powinniśmy wysłać naszą kampanię promocyjną na dany produkt, aby zmaksymalizować response?
  • Którym klientom powinniśmy poświęcić szczególną uwagę, ponieważ w najbliższym czasie będą chcieli zrezygnować z naszych usług/produktów?
  • Czy dany klient jest wiarygodny i warto mu udzielić kredytu hipotecznego?

Nie zawsze łatwo jest uzyskać odpowiedzi na powyższe pytania. Warto wtedy sięgnąć po analitykę predykcyjną, która dostarczy cennych informacji, pomocnych przy podejmowaniu właściwych decyzji. W dużym uproszczeniu, analityka predykcyjna pozwala przewidzieć przyszłość, bazując na danych historycznych.

Przykładowo, mając informację o tym, którzy klienci do tej pory zrezygnowali z naszych produktów, możemy zbudować model analityczny, opisujący wzorzec ich zachowań i charakterystykę. Jeżeli podobne zachowania zaobserwujemy u innych klientów, szczególnie tych, na których najbardziej nam zależy (bo generują największą sprzedaż), warto z wyprzedzeniem zapobiec ich odejściu. Analityka predykcyjna dostarczy nam ranking naszych klientów wg ryzyka ich odejścia (tzw. score – w naszym przykładzie – im więcej punktów scoringowych ma klient, tym istnieje większe ryzyko, że odejdzie).

Aby jednak zbudować taki model analityczny, potrzebujemy danych historycznych….

Dane źródłowe

Najczęściej dane do modelowania zaciągane są z bazy danych lub plików płaskich. Poniżej, prezentujemy przykład tabeli z danymi źródłowymi oraz informacje jak ją interpretować.

analityka predykcyjna dla początkujących tabela

Kolumny tabeli to inaczej zmienne, cechy, atrybuty, natomiast wiersze to rekordy, obserwacje, obiekty.
Zmienne mogą być:

  • numeryczne (inne nazwy: liczbowe, ilościowe, ciągłe) – na przykład wiek, dochody, temperatura,
  • kategoryczne (inne nazwy: dyskretne, jakościowe, nominalne) – na przykład płeć, zawód, kolor oczu.

Wyróżniamy dwie podstawowe funkcje zmiennych:

  • niezależne (inne nazwy: to objaśniające, predykcyjne, wskaźniki) – są to zmienne opisujące własności obiektu, na podstawie których chcemy wnioskować,
  • zależne (inne nazwy: objaśniane, decyzyjne, target) – są to zmienne określające własność obiektu, o której chcemy wnioskować.

Warto pamiętać, że przy wyliczaniu zmiennych objaśniających nie wolno używać informacji o targecie.

W zależności od branży, zadania, zmiennych może być naprawdę dużo. My pracowaliśmy na bazach, które miały nawet kilkadziesiąt tysięcy zmiennych. Ponadto, nazwy zmiennych nie zawsze są zrozumiałe. Na przykład, czy zgadłbyś, że POP901, MARR1, IC10 oznaczają odpowiednio liczbę osób, procent zamężnych/żonatych, procent gospodarstw domowych z dochodem $50,000 – $74,999? W trakcie analizy danych warto zatem posiłkować się słownikiem danych.

Model analityczny

Model predykcyjny opisuje zależności między zmiennymi objaśniającymi a targetem. Pozwala on w oparciu o zmienne objaśniające domniemać jaka jest wartość target. Istnieje wiele rodzajów modeli, wśród których najpopularniejsze to:

  • regresja (gdzie zależność jest wyrażona wzorem matematycznym). Przykład:

analityka predykcyjna dla początkujących regresja

  • drzewo decyzyjne (gdzie zależność jest zakodowana w strukturze drzewa (rodzaj grafu). Przykład:

analityka predykcyjna dla początkujących drzewo

Modele można podzielić ze względu na ich przeznaczenie:

  • klasyfikacja – target dyskretny (np. drzewa decyzyjne, regresja logistyczna),
  • aproksymacja – target ciągły (np. regresja liniowa, sieci neuronowe),
  • asocjacja – współwystępowanie wartości (np. algorytm A-Priori, sieci asocjacyjne),
  • segmentacja – podział na segmenty (np. algorytm k-means, sieci Kohonena).

W następnym wpisie zajmiemy się procesem budowy modeli analitycznych. Omówimy go na przykładzie klasyfikacji. Klasyfikacja to przyporządkowanie obiektów do pewnych znanych klas, przy czym dany obiekt może zostać przyporządkowany tylko do jednej klasy. Na przykład: przyporządkowanie pacjenta (obiekt) do grupy osób chorych bądź zdrowych (klasy) na podstawie historii jego choroby albo określenie wiarygodności klienta (obiekt) w celu przyznania kredytu (klasy: wiarygodny, niewiarygodny) na podstawie na przykład danych demograficznych, finansowych. Z kolei część 3-cią poświęcimy pojęciu scoringu i punktu cut-off.

 

Pin It on Pinterest