AdvancedMiner Data Quality stanowi kluczowe narzędzie przy realizacji projektów czyszczenia danych oraz procesów zarządzania jakością danych.

Funkcjonalności:

  • profilowanie danych,
  • czyszczenie danych (w tym parsing, standaryzacja, deduplikacja),
  • przeprowadzanie analiz statystycznych,
  • wzbogacanie danych,
  • geokodowanie i wizualizacja danych.

Aplikacja jest używana do wykrywania, monitorowania i rozwiązywania problemów w danych. W oparciu o AdvancedMiner DQ możliwe jest automatyczne czyszczenie nowych danych.

Cechy AdvancedMiner DQ:

  • skalowalność – aplikacja została sprawdzona w projektach, w których ilość danych przekraczała 60 milionów rekordów;
  • przystosowanie do polskich warunków – w aplikacji działają reguły i algorytmy przystosowane do zakresu danych w Polsce (pola takie jak: imię, adres, telefon, e-mail);
  • możliwość dostosowywania – reguły i algorytmy używane w procesie czyszczenia danych mogą być parametryzowane przez użytkownika;
  • import/eksport danych – AdvancedMiner DQ umożliwia import danych z relacyjnych baz danych, wczytywanie danych z plików tekstowych (przy wykorzystaniu standardu CSV, XML) oraz z arkuszy kalkulacyjnych;
  • raportowanie – aplikacja generuje cykliczne raporty, w tym oparte o modyfikowane przez użytkownika szablony. Aplikacja jest zintegrowana z pakietem biurowym MS Office.

Aplikacja AdvancedMiner DQ jest autorskim rozwiązaniem Algolytics. Dzięki temu możliwe jest dostosowanie oferowanego rozwiązania do indywidualnych potrzeb Klienta.

Aktualizacje słowników
Wraz z aplikacją dostarczane są słowniki niezbędne do jej prawidłowego działania, które są regularnie aktualizowane o nowe informacje wynikające ze zmian w bazach teleadresowych (zmiany nazw ulic, numeracji itp.).

Wdrożenie automatycznych procesów jakości danych
System umożliwia osiągnięcie i utrzymywanie określonego poziomu jakości danych przez zautomatyzowanie procesów Data Quality, w tym monitoringu i raportowania.

Zastosowanie biznesowe:

Profilowanie
Aplikacja umożliwia eksplorację danych służącą rozpoznaniu problemów i błędów w danych oraz weryfikację jakości danych pod kątem poprawności technicznej i biznesowej.

Czyszczenie danych, które obejmuje:

  • parsowanie – rozbicie jednego złożonego ciągu znaków na wiele pól w oparciu o znaczenie danych i kontekst (na przykład imię i nazwisko, kod i miejscowość itp.). Dodatkowo możliwe jest określanie płci (w przypadku osób) lub formy prawnej (w przypadku firm);
  • standaryzację – zamiana wielu różnych wystąpień tej samej wartości zmiennej jedną wartością. Np. wpisy: „Warszawa” i „Wa-wa” zostaną zidentyfikowane jako ta sama wartość;
  • deduplikację – wykrycie powtórzonych rekordów i ich konsolidacja. Możliwe jest m.in.: wyszukiwanie wielokrotnych wpisów tego samego klienta w bazie nawet gdy dane są częściowo różne (np. zmiana adresu) oraz łączenie informacji o kliencie z wielu źródeł i tworzenie jednego rekordu.

Wzbogacanie danych

  • Łączenie zewnętrznych źródeł – dopasowywanie (Matching) danych z różnych baz. Przykładowo, umożliwia powiązanie osoby z dwóch źródeł:
Żródłó 1Jan Kowalski, ur. 1975/01/2701-515al. Solidarności
Źródło 2Kowalski J.WarszawaSOLIDARNOSCI27 styczeń 1975r.
  • Dodawanie nowych informacji do danych za pomocą słowników. W aplikację wbudowany jest zestaw polskich słowników, m.in.: słownik imion czy kodów pocztowych.
  • Wykrywanie gospodarstw domowych (Householding) – umożliwia ustalenie relacji pomiędzy klientami, na przykład identyfikację gospodarstw domowych lub firm.

Goeokodowanie i wizualizacja danych
Aplikacja umożliwia przypisanie do rozpoznanego adresu współrzędnych geograficznych budynku oraz przypisanie obwodu spisowego GUS. Wraz z dostarczanymi z aplikacją danymi wektorowymi pozwala to na wizualizację danych na mapach w popularnych programach takich jak: MapInfo, ArcGIS czy QGIS.

Udział mieszkań w budynkach składających się z 30 i więcej mieszkań w ogóle mieszkań w Warszawie