Planujesz projekt czyszczenia danych lub zlecasz go firmie zewnętrznej? Zobacz jak mogą wyglądać poszczególne etapy tego typu projektu, w oparciu o nasze doświadczenia.
Obecnie firmy stają przed wyzwaniem utrzymywania coraz większej ilości danych dotyczących swoich klientów. Dane te często zawierają błędy (np. zdublowane wpisy), są niekompletne lub niespójne. Natomiast od ich jakości zależy np. efektywność kampanii marketingowych lub ściągalność należności za usługi (klient nie płaci faktury, bo jej nie otrzymał).
Lemonly.com i Software AG podają, że koszt biznesowy wynikający z niskiej jakości danych może sięgać nawet 10%-25% przychodów firm.
Z kolei statystyki podane przez Halo Business Intelligence wskazują że:
Od kilkunastu przewidujemy zachowania klientów w oparciu o dane. Wiemy jak ważna jest ich jakość – trudno jest uzyskać poprawną interpretację biznesową danych, jeżeli zawierają one dużo błędów.
Zrealizowaliśmy kilkanaście projektów z obszaru oceny i poprawy jakości danych dla takich branż jak telekomunikacja, windykacja, ubezpieczenia czy FMCG, osiągając skuteczność w czyszczeniu danych na poziomie ponad 90%.Przeanalizowaliśmy w sumie ok. 26 milionów rekordów zawierających dane o klientach.
Bazując na naszym doświadczeniu, chcielibyśmy Wam pokazać jak może wyglądać taki projekt.Poniższy diagram zawiera główne etapy projektu czyszczenia danych. Nie każdy projekt wygląda tak samo, różnice wynikają z indywidualnych zapotrzebowań klientów.
Celem tego etapu jest rozpoznanie problemów i błędów w danych. Weryfikujemy jakość danych pod kątem poprawności technicznej (podstawowe statystyki danych, testy formatu danych) i biznesowej (zgodność ze słownikami, wartości odstające i nietypowe itp.).
Wynikiem profilowania danych jest raport zawierający informacje o przeprowadzonej eksploracji danych, listę napotkanych problemów oraz rekomendacje metod ich oczyszczenia, niezbędnych do prowadzenia dalszych prac związanych z projektem.
Po zdefiniowaniu problemów z danymi i ustaleniu z klientem zakresu dalszych prac, przystępujemy do czyszczenia danych. Etap ten składa się 3 zadań: parsowanie, standaryzacja oraz deduplikacja.
Parsowanie umożliwia rozbicie jednego złożonego pola na wiele pól w oparciu o znaczenie danych i kontekst (na przykład imię i nazwisko, kod i miejscowość itp.).
Na tym etapie realizujemy dodatkowe zadania takie jak:
Standaryzacja – umożliwia zamianę wielu różnych wystąpień tej samej wartości zmiennej jedną wartością. Przykładowo, „Warszawa” i „Wa-wa” zostaną zidentyfikowane jako ta sama wartość i zastąpione jedną, zdefiniowaną wartością. Na tym etapie korzystamy z wbudowanych w naszym systemie AdvancedMiner DQ słowników, dzięki którym skuteczność standaryzacji jest wysoka.
Deduplikacja – pozwala na wykrycie powtórzonych rekordów i ich konsolidację. W ramach tego etapu możliwe jest m.in.:
Przykłady duplikatów:
Przeprowadzana przez nas deduplikacja obejmuje zarówno matching równościowy (dwa rekordy są identyczne) jak i probabilistyczny (dwa rekordy są podobne).
Na końcu, cały proces czyszczenia danych automatyzujemy, co pozwala na utrzymywanie określonego poziomu jakości danych w dłuższym okresie. Od tego momentu, przykładowo, każdy nowy wpis o kliencie w systemie CRM jest automatycznie poprawiany (poprzez parsowanie, standaryzację i deduplikację).
W ramach projektu czyszczenia danych, można przeprowadzić dodatkowe analizy, tzw wzbogacanie danych (np.: wypełnianie wartości brakujących, householding) oraz geokodowanie. Więcej informacji na ich temat znajdzie się w jednym z kolejnych wpisów na naszym blogu.