Freq jest narzędziem służącym do wizualnej eksploracji danych za pomocą oprogramowania Advanced Miner. Trudno zliczyć jego wszystkie zalety, ale na wstępie warto wymienić takie jak: szybki przegląd atrybutów i wyliczanie ich statystyk, wizualne porównanie atrybutów, możliwość ograniczenia danych do określonych klas, a także eksport do arkuszy Excel. W tym wpisie przybliżymy możliwości Freqa poprzez operacje na prostych bazach danych.
Jeśli jeszcze nie posiadasz darmowej wersji AdvancedMinera ściągnij go tutaj.
Najprostszym sposobem uruchomienia Freq jest wybranie pozycji „Freq” po kliknięciu prawym przyciskiem myszy na wybraną bazę danych.
Można również przejść do przeglądu tabeli („Open”) i wybrać Freq.
Albo przykładowo pracując akurat w Workflow.
Każda z tych opcji otworzy interfejs graficzny Freqa:
Aby wyliczyć atrybuty należy wybrać interesujące nas pozycje (mogą być oczywiście wszystkie, chociaż dla dużych tabel przeliczenie atrybutów może zająć dłuższą chwilę) i przycisnąć przycisk „Execute”.
Dzięki Freq można wyświetlać dane na wiele sposobów. W dalszej części wpisu przejdziemy do bardziej unikatowych cech.
We Freq na atrybutach możemy dokonywać wielu operacji, dzięki którym powstają wykresy. Jednakże prezentacja wykresu poprzedzona uruchamianiem AdvancedMinera, a następnie Freqa nie jest przyjemną perspektywą. Freq umożliwia wyeksportowanie danych do Excela. Aby to zrobić wybierz „Export” z listy skryptów kontekstowych co spowoduje automatyczne uruchomienie się Excela z arkuszem zawierającym nasz wykres.
Grupowanie zmiennych także przebiega za pomocą wspomnianych wyżej skryptów kontekstowych:
Każda z powyższych opcji dokonuje podziału wartości na podstawie innych kryteriów, na przykład Auto Levels Round prosi o podanie procenta, jaki ma zostać odcięty z góry i z dołu, a następnie pozostałą część wartości dzieli na przedziały równej długości. Pyta też o sprecyzowanie do ilu cyfr po przecinku mają one zostać zaokrąglone.
Innym ciekawym skryptem kontekstowym jest macierz kontyngencji również eksportowana do Excela.
Tak jak w przypadku „Export” otworzy się plik w Excel.
Weight of evidence, czyli WOE, może znacznie poprawić wyniki modelowania, gdy mamy do czynienia ze zmienną kategoryczną. WOE nadaje jej wartości liczbowe i zmienia w zmienną ciągłą, linearyzuje ją. Jest to bardzo przydatne, gdy chcemy poprawić wyniki używając regresji logistycznej.
Aby było możliwe utworzenie WOE trzeba wybrać, który z atrybutów jest targetem, a następnie zaznaczyć wszystko i kliknąć „Execute”.
Teraz na wykresie każdej ze zmiennych widać, jak zmienia się procent sukcesów dla konkretnych wartości.
Kolejnym krokiem jest wybranie we właściwościach Freqa możliwości utworzenia WOE. Wybieramy „Window” w menu i nastepnie wybieramy „Properties”. Po prawej stronie ukazały się właściwości (jeśli okno jest puste należy kliknąć w losowym miejscu Freq – na przykład na którymś z wykresów). Prawie na samym dole zaznaczamy pozycję Weight of Evidence.
Jeśli chcemy jedynie podejrzeć, jaką wartość WOE otrzymają zmienne, wystarczy spojrzeć na kolumny obok wykresu. Wartości WOE pojawiły się tam automatycznie po zaznaczeniu Weight of Evidence we właściwościach.
Zastosowanie zmiennych w modelu jest bardziej przydatne niż jedynie analizowanie ich wartości, więc zapiszemy je do bazy danych. Wybieramy zmienną, której wartości WOE chcemy wykorzystać (przytrzymując Ctrl możemy wybrać wiele pozycji). Następnie klikając prawy przycisk myszy wybieramy „Tranformations”, a następnie „WOE”. Nadajemy suffix jaki ma być dodany do sklonowanych atrybutów, zaznaczamy wszystko i uruchamiamy.
Powstały nowe zmienne, które chcemy posiadać w bazie danych, której użyjemy w modelu.
Klikamy prawym przyciskiem myszy i wybieramy „Physical Data”. To, że tam widzimy utworzone zmienne WOE nie oznacza, że powstały one w faktycznej bazie danych. Aby powstała tabela, która je zawiera musimy ze skryptów kontekstowych wybrać pozycję „virtual to real”.
Teraz wystarczy nadać nazwę. Nowa baza danych została stworzona i dodana do używanego aliasu.
W tym wpisie zaprentowaliśmy jedynie kilka z ciekawszych funkcji Freq – zapraszamy do samodzielnego testowania funkcjonalności i zapoznania się z pozostałymi tutorialami na naszym blogu.