AdvancedMiner - Dokumentacja


Table of Contents

Dokumentacja Systemu AdvancedMiner
1. Instalacja i Administrowanie systemem AdvancedMiner
Wymagania systemowe
Instalacja systemu AdvancedMiner
W systemie operacyjnym MS Windows
W systemie operacyjnym Linux
Uwagi dodatkowe
Uruchamianie serwera
W systemie operacyjnym MS Windows
W systemie operacyjnym Linux
Klucz licencji
Wyszukiwanie i usuwanie problmów
Uruchamianie klienta
Podłączenie do serwera
Uruchomienie skryptu w trybie wsadowym
Odinstalowywanie
I. Tutoriale
2. Przegląd Tutoriali
3. Szybki Start z AdvancedMiner
Wstęp
Graficzny interfejs użytkownika
Praca z projektami
Podłączenie do Repozytorium Metadanych oraz baz danych.
Podłączenie baz danych
Import danych
Załadowanie przykładowych danych
Import plików CSV
Kopiowanie danych między bazami
4. Eksploracja danych
Wstęp
Eksploracja danych
Przeglądanie struktury danych
Eksploracja zawartości danych
Przygotowanie danych do modelowania (przykład)
5. Budowanie Modelu
6. Testowanie Modelu
7. Zastosowanie Modelu
8. Ręczna budowa karty skoringowej
9. Budowa karty skoringowej na podstawie modelu
II. Opis Systemu AdvancedMiner
10. Wprowadzenie do AdvancedMinera
Wprowadzenie
AdvancedMiner Client
AdvancedMiner Server
11. Wprowadzenie do modułu Scoring Card
12. Graficzny interfejs użytkownika systemu AdvancedMiner (GUI)
IDE - zintegrowane środowisko programistyczne
Zarządzanie oknami
Menu i akcje
Komponenty
Dictionary
Lift for Tree
Log Viewer
Projects
Files
Versioning
Documents
Editor
Processes
Favorites
Output
Navigator
Palette
Properties
To Do
Services
Search results
Edytory obiektów metadanych
Edytor Skryptów
13. Repozytorium Metadanych
Wstęp do Metadata Repository (MR)
Koncepcja Metadata Repository
Podłączenie Metadata Repository
Ikonki AdvancedMiner dla obiektów.
Referencje
Operacje na obiektach
Uruchamianie zadań.
Zapisywanie i ładowanie
Testowanie
Lista obiektów MetaData Repository
PhysicalData
LogicalData
CalculateStatisticsTask
CalculateTestResultTask
ComputeModelStatisticsTask
MiningBuildTask
MiningApplyTask
TestTasks
MatchingTask
TransformationBuildTask
TransformationApplyTask
ScriptWrapper
Trigger
ScoringCodeBuildTask
ScoringCodeApplyTask
MiningFunctionSettings
TransformationSettings
III. Praca z systemem AdvancedMiner
14. Workflow
Podstawowe informacje o komponencie Workflow
Sposób pracy z komponentem Workflow
Opisy węzłów
Dane
Eksploracja Danych
Wykresy
Transformacje Techniczne
Transformacje Analityczne
Modelowanie
15. Gython – język skryptowy systemu AdvancedMiner
Podstawy języka Python
Składnia
Zmienne
Operatory
Sterowanie przepływem
Obiekty w języku Gython
Definiowanie i wywoływanie funkcji
Metody dla zmiennych różnych typów
Metody dla literałów łańcuchowych
Metody list
Metody słowników
Funkcje ze standardowych bibliotek Gython-a
Wbudowane funkcje
Funkcje działające na literałach łańcuchowych
Funkcje matematyczne
Funkcje pseudolosowe
Obiekty date i time
Zarządzanie obiektami w Gythonie
Konstrukcja i odczyt
Zapisywanie obiektów
Wczytywanie obiektów
Zmiana nazw oiektów
Wykonywanie zadań
usuwanie obiektów
Checking object existence
Przerywanie zadań
Zapisywanie środowiska skryptowego
Wczytywanie środowiska skryptowego
Tworzenie aliasu do repozytorium metadanych
Logowanie wiadomości
Registry Repository
Ścieżka projektu
Skrypty kontekstowe
Działanie skryptów kontekstowych
Gdzie znajdują się skrypty kontekstowe?
Tworzenie skryptów kontekstowych
Uzyskiwanie informacji od użytkownika za pomocą okna InputDialog
16. AdvancedMiner w Praktyce
Budowanie modeli
Ogólne zasady
Budowanie modeli aproksymacyjnych
Budowanie modeli klasyfikacyjnych
Budowanie modelu opartego na analizie skupień
Budowanie modelu przeżycia
Testowanie modeli
Testowanie modeli aproksymacyjnych - ApproximationTestTask
Testowanie Modeli Klasyfikacyjnych - ClassificationTestTask
Testowanie modelu przeżycia - SurvivalTestTask
Zadanie testowania modelu szeregu czasowego
Zadanie testowania klasyfikacji na podstawie tabeli z wynikami scoringowymi
Stosowanie modeli
Podstawowe pojęcia
Zaawansowane pojęcia
Konfiguracja minimalna
Stosowanie modeli dla różnych funkcji ekstrakcji danych
Przykłady
Uproszczone sposoby budowania, testowania i stosowania modeli
Approximator
Classifier
Clusterer
Applier
Eksperymenty
Projekt Experiments
Uruchamianie eksperymentu
Porównywanie modeli
Słownik
Analiza Sieci Społecznych
Tworzenie sieci
Filtrowanie sieci
Analizowanie sieci
Wizualizacja Sieci
17. Dostęp do Danych oraz Przetwarzanie Danych
Dostęp do Baz Danych
Aliasy
Eksplorator baz danych
Używanie poleceń SQL
Import i eksport danych oraz inne operacje na bazie danych
Importowanie arkuszy Ms Excel
Importowanie plików CSV
Eksportowanie danych do arkuszy MS Excel
Eksportowanie danych do pliku CSV
Otrzymanie listy kolumn dla tabeli bazy danych
Usuwanie tabeli bazy danych
Sprawdzanie istnienia tabeli bazy danych.
Tworzenie tabel w Gython
Tworzenie tabeli przez ręczną specyfikację danych
Tworzenie tabeli z danymi skopiowanymi z listy
Tworzenie tabeli przez wzięcie wartości z wyniku zapytania SQL
Użycie list do zdefiniowania nazw kolumn oraz formatu
Importowanie danych z zewnętrznych źródeł
Procedura Trans
Transformacja podstawowa
Słowo kluczowe where
słowa kluczowe keep in oraz drop in
Słowa kluczowe keep out oraz drop out Słowa kluczowe
format słowa kluczowego
Indexes
Kontrola przepływu
Tabele połączone
Słowo kluczowe rename
Łączenie tabel
Uwagi
Funkcja transformacji danych
Ustalenie kolejności danych(Procedura rank)
Ekspansja danych (procedura interpolate)
Próbkowanie danych (komenda sample )
Dzielenie Tabel (Procedura tableSplit)
Tabele transponowanie (Procedura transpose)
Porównanie dwóch tabel (Procedura tablesCompare)
Predefiniowane transformacje dla modeli Data Mining
Wstęp
Typy Transformacji
Użycie
Przykłady
Ważne uwagi
Bibliografia
18. Integracja z popularnymi pakietami biurowymi
Zintegrowane wsparcie dla pakietów biurowych
Ustanowienie połączenia dla MS-Office
Ustanowienie połączenia dla OpenOffice
Tworzenie spersonalizowanych raportów
Tworzenie oraz praca z arkuszami kalkulacyjnymi
Tworzenie i używanie dokumentu tekstowego
19. Biblioteka optymalizacyjna
Zadanie optymalizacji
Funkcja celu
Ograniczenia
Metody optymalizacji
Rozwiązywanie zadania optymalizacji.
Stosowanie
Bibliografia
20. Procedury i testy statystyczne
Funkcje statystyczne
Statystyka chi-kwadrat (Chi-square statistic)
Współczynnik korelacji Pearsona (Pearson's correlation coefficient)
Procedura wielowymiarowej analizy częstotliwości występowania (Multidimensional frequency analysis procedure)
Testy statystyczne
Użycie testów statystycznych
Dystrybuanta empiryczna
Test Andersona-Darlinga (The Anderson-Darling test)
Test Chi-kwadrat (The Chi-square test)
F-test
Test Kołmogorowa-Smirnowa (Kolmogorov-Smirnov test)
Kuiper test
Test Levene'a
Test Manna-Whitneya (Mann-Whitney test)
Test Pearsona
Test proporcji
Test znaków
Test Spearmana
Test t-Studenta
Bibliografia
21. Rozkłady Prawdopodobieństw
Biblioteka Rozkładów
Charakterystyki i próbkowanie z rozkładów
Lista dostępnych rozkładów prawdopodobieństw
Lista dostępnych dyskretnych rozkładów prawdopodobieństwa
Tabele rozkładów
Biblioteka Funkcji Specjalnych
Statystyki próbek danych empirycznych
Generatory liczb losowych
Bibliografia
22. Monte Carlo Markov Chains Library
Wstęp
The MarkovChain class
Description
MarkovChain object methods
MarkovChain static methods
Algorithms
The Metropolis algorithm
Metropolis-Hastings algorithm
Bayesian inference
Transition functions
Transition functions from distribution
Random walk transition function
Distributions
Sampling Distribution
Likelihood function
Helper distributions
Convergence Diagnostics and Output Analysis tool
Output Analysis
Diagnostics
References
23. Kod scoringowy w AdvancedMiner
Wprowadzenie
Kod scoringowy dla modeli
Wymagania
Tworzenie kodu scoringowego w Java opartego na modelu krok po kroku
Architektura kodu scoringowego w Java
Wykonywanie kodu scoringowego dla modelu
Różnice w kodzie scoringowym dla różnych modeli
Wykonywanie kodu scoringowego poza systemem AdvancedMiner
Czytanie InputSignature
Przykład wykorzystania kodu scoringowego w zewnętrznej aplikacji
24. Wizualizacja Danych
Wstęp
Przygotowanie danych do wykresu
Obiekty danych
Deklarowanie typów kolumn
Automatyczne uzyskiwanie typu danych
Szablony specyfikacji danych
Grupowanie serii
Niespójne dane
Tworzenie wykresów
Obiekty wykresu
Metody obiektu wykresu
Typy wykresów
Grupowanie wykresów
Zagadnienia dodatkowe
Interakcja z wykresami
Interakcja z wykresami 2D
Interakcja z wykresami(3D)
25. Freq - narzędzie do wizualnej eksploracji danych
Wprowadzenie
Uruchomienie Freqa
Przegląd komponentu Freq
Praca z atrybutami
Wyliczanie atrybutów
Widok atrybutu
Tryby wyświetlania atrybutów
Typy histogramów
Edytowanie poziomów i grupowanie wartości
Analiza danych we Frequ
Atrybuty wirtualne
Filtrowanie danych
Praca z atrybutem target
Macierz korelacji
Eksport do arkuszy Excel
Statystyki atrybutów we Frequ
Podstawowe statystyki atrybutu
Statystyki korelacji atrybutów
Statystyki związane z targetem
Zintegrowanie z innymi komponentami
Otwieranie obiektu PhysicalData
Widok danych
Dowiązania między komponentami
26. Silnik Raportów
Wstęp
Użycie
27. Serwer Operacyjny
Wstęp
Wymagania oraz Architektura
Konfiguracja
Szybkie Wprowadzenie
28. Raporty Modeli
Wprowadzenie
Raport Wydajnościowy
Raport Testów Statystycznych
Raport Stabilności
IV. Moduły
29. Automatyczna Selekcja Zmiennych
Wprowadzenie
Opis metody
Założenia metody
Model pełny
Algorytm Forward Selection
Algorytm Backward Elimination
Algorytm Stepwise Selection
Algorytm Best Subset
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykład automatycznej selekcji zmiennych
Bibliografia
30. Dwuwymiarowy model probitowy
Wprowadzenie
Opis metody
Funkcja wiarygodności z pełną obserwowalnością
Funkcja wiarygodności z częściową obserwowalnością
Estymator największej wiarygodności
Istotność modelu
Test zerowej korelacji
Przedziały ufności
Użycie
Wymagania odnośnie danych
Budowa modelu
Zastosowanie modelu
Przykład
Bibliografia
31. Drzewa Klasyfikacyjne
Wprowadzenie
Opis metody
Struktura Drzew Klasyfikacyjnych
Algorytm budowania drzewa
Przycinanie drzewa
Braki danych
Użycie
Wymogi dotyczące danych
Budowa i testowanie modelu
Zastosowanie modelu
Statystyki modelu
Przykłady
Referencje
32. Las losowy (Smart Trees)
Wprowadzenie
Opis metody
Struktura lasu losowego
Algorytm budowy modelu
Wartości Null
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Model statistics
33. Analiza dyskryminacyjna
Wprowadzenie
Opis metody
Model analizy dyskryminacyjnej
Założenia modelu
Wykorzystanie
Wymogi dotyczące danych
Budowanie i testowanie modelu
Zastosowanie modelu
Przykład
Bibliografia
34. Jakość danych (Data Matching)
Wprowadzenie
Opis metody
Indeksy blokowe
Oszacowania podobieństwa atrybutów
Klasyfikacja rekordów
Użycie
Możliwości
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykład
Bibliografia
35. Sieci neuronowe (jednokierunkowe)
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykłady
Przygotowanie danych
Budowa modelu
Zastosowanie modelu
Testowanie modelu
Bibliografia
36. Grupowanie metodą k-średnich
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa modelu
Model statistics
Zastosowanie modelu
Przykład grupowania metodą k-średnich
Bibliografia
37. Sieci Kohonena
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa modelu
Wyliczanie statystyk modelu
Narzędzie SOM Explorer
Model SOM
Wizualizacja
Zapisywanie zmodyfikowanego modelu
Przykłady
Bibliografia
38. Regresja liniowa
Wprowadzenie
Opis metody
Standardowa regresja liniowa
Ważona regresja liniowa (WLS)
Regresja liniowa przeważana iteracyjnie (Regresja metodą IRLS)
Użycie
Wymogi dotyczące danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykłady
Przykład standardowej regresji liniowej
Przykład regresji IRLS
Referencje
39. Regresja logistyczna
Wprowadzenie
Opis metody
Funkcja logitowa
Szansa i iloraz szans
Funkcja wiarygodności
Miary jakości dopasowania modelu
Współliniowość w regresji logistycznej
Przedziały ufności
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykład regresji logistycznej
Bibliografia
40. Analiza Przeżycia
Wprowadzenie
Opis metody: model dalszego czasu życia
Obserwacje ucięte (cenzorowane)
Modele nieparametryczne
Model Coxa
Wykorzystanie
Wymogi dotyczące danych
Budowanie modelu i testowanie
Zastosowanie modelu
Przykład Analizy Przeżycia
Przykład: nie-parametryczny model dalszego czasu życia
Bibliografia
41. Karta Skoringowa
Wstęp
Opis metody
Atrybuty, poziomy, przedziały.
Punkty
Szczegóły algorytmu
Użycie
Wymagania dotyczące danych
Budowa modelu
Testowanie modelu
Aplikacja karty do nowych danych
Przykłady
Bibliografia
42. Szeregi czasowe
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa modelu
Testowanie modelu
Zastosowanie modelu
Przykłady
Budowa modelu
Testowanie modelu
Zastosowanie modelu
Bibliografia
43. Moduł Analizy Sieci Społecznych
Wprowadzenie
Opis metody
Sieć społeczna
Klasyfikacja sieci
Podstawowe pojęcia używane w analizie sieci społecznych
Opis algorytmów użytych w Analizie Sieci Społecznych
Użycie
Budowa sieci
Analiza sieci
Filtrowanie sieci
Wizualizacja sieci
Examples
Bibliografia
V. GDBase
Wstęp
44. Opis języka SQL w bazie GDBase
Informacje wstępne
ALTER TABLE
CHECK TABLE
COMMENT
CREATE INDEX
CREATE/REPLACE TABLE
CREATE TABLE ... TRANSFORM
Funkcja __vars__
Pomijanie wierszy
Przetwarzanie w grupach
Funkcja __save__
Odwoływanie się do wcześniejszych wierszy
Kod SQL w bloku TRANSFORM
CREATE TRIGGER
Funkcja RAISE
CREATE VIEW
DELETE
DROP INDEX
DROP TABLE
DROP TRIGGER
DROP VIEW
GET
INSERT
MERGE
ON CONFLICT
REPLACE INTO
SELECT
DISTINCT
KEEP i DROP
FROM
WHERE
GROUP BY
ORDER BY
LIMIT
UNION, UNION ALL, APPEND, EXCEPT, INTERSECT
JOIN
SAMPLE
Kolejność wykonywania klauzul w instrukcji SELECT
TRANSACTION
UPDATE
Typy danych
Wyrażenia
Operatory jednoargumentowe
Operatory dwuargumentowe
Nazwy kolumn
Instrukcje SELECT w wyrażeniach
Instrukcja CAST
Additional information
Podstawowe funkcje w GDBase
Funkcje proste
Funkcje agregujące
Funkcje okien
Literały łańcuchowe w instrukcjach SQL
Słowa kluczowe
Znaki specjalne
Wartości Null
Komentarze w kodzie SQL
45. Importowanie i eksportowanie danych
Importowanie i eksportowanie danych pomiędzy bazami GDBase
Importowanie z lokalnej bazy danych GDBase
Importowanie ze zdalnej bazy danych GDBase
Eksportowanie do lokalnej bazy danych GDBase
Eksportowanie do zdalnej bazy danych GDBase
Importowanie i eksportowanie danych za pomocą sterowników ODBC
IMPORT ... USING ODBC
EXPORT ... USING ODBC
Typy danych w importowanych tabelach
46. Zarządzanie bazą GDBase
Informacje ogólne
Ustanowienie połączenia z bazą GDBase
Logowanie do bazy danych
Użytkownik domyślny
Konta administratorów
Tworzenie konta administratora
Zmiana hasła administratora
Konta użytkowników
Tworzenie nowego użytkownika
Uprawnienia użytkowników
Zmiana uprawnień użytkownika
Wyświetlanie uprawnień użytkownika
Uprawnienia dostępu do tabel
Uprawnienia użytkowników
Zmiana hasła użytkownika
Usuwanie użytkownika
Kontrola dostępu
Określanie uprawnień dostępu
Uprawnienia domyślne dla tabel
Kontrola kwerend
SHOW PROCESS
KILL PROCESS
PAUSE PROCESS
RESUME PROCESS
Polecenia dostępne za pośrednictwem interfejsu graficznego
Dodatkowe informacje
Resetowanie uprawnień użytkowników
A. Słowa kluczowe GDBase
Indeks