Golden record and data deduplication

Nowy wymiar danych z AlgoMaps – część 2 – Golden Record

Omawiając proces standaryzacji i walidacji danych trudno nie wspomnieć o kwestii oszczędności (czasu i pieniędzy), jakie przynosi odpowiednio wyczyszczona baza – np. CRM.

W tym artykule skupimy się zatem na najszybszym i najefektywniejszym sposobie, by samodzielnie i przy minimalnym nakładzie czasu poprawić jakość już posiadanych rekordów. Wyczyśćmy trochę danych z AlgoMaps!

Korzyści dla Twojego biznesu, czyli po co czyścić i standaryzować dane?

Jak wspomnieliśmy w poprzednim materiale o geokodowaniu, dane adresowe (a w szczególności teleadresowe) są podstawowymi informacjami opisującymi nie tylko klienta, kontrahentów, nadawców i odbiorców przesyłek, ale także placówki naszego biznesu lub członków sieci dystrybucji. To dzięki nim możliwa jest analiza sprzedażowa czy behawioralna, która przynosi wzrost efektywności działań przy optymalizacji budżetu. O dane te należy więc zadbać właśnie przez ich czyszczenie, czyli usunięcie zduplikowanych, poprawę błędnie wpisanych czy niewystandaryzowanych rekordów. Dlaczego tego typu procesami interesuje się coraz więcej przedsiębiorstw? Korzyści z odpowiednio przeprowadzonej standaryzacji są obiecującą perspektywą na rozwój biznesu:

  1. Poprawa jakości danych w systemach CRM i bazach danych oznacza, że Twoje dane będą aktualne, kompletne i wiarygodne – stanowiąc bazę do analiz i efektywnych strategii;
  2. Wystandaryzowane dane adresowe klientów pozwalają na skuteczną automatyzację procesów operacyjnych (bez konieczności manualnego przetwarzania danych);
  3. Wystandaryzowane dane przynoszą więcej niż tylko korzyści finansowe – oszczędzają m.in. czas potrzebny na ujednolicanie danych przed każdym ich użyciem;
  4. Dzięki redukcji zduplikowanych lub błędnie zaadresowanych przesyłek zmniejszone zostają koszty m.in. kampanii marketingowych;
  5. Eliminacja propagacji błędów w bieżących procesach operacyjnych staje się szybka i prosta;
  6. Konsolidacja wielu baz danych lub systemów CRM do jednej, wspólnej i wystandaryzowanej struktury możliwa jest w kilka kliknięć.

Wyzwanie może natomiast stanowić manualny proces poprawy posiadanych danych – zwłaszcza, gdy mówimy o połączeniu 2 (lub więcej) baz. Jak w prosty sposób sprawić, by termin „jakość danych” nie był tylko firmowym frazesem?

Adres adresowi nierówny: 3 filary Location Intelligence

Mimo że słowo „adres” wydaje się oczywistym pojęciem, optymalny sposób jego zapisu w bazie danych, np. w CRMie, może stanowić nie lada wyzwanie. Wyzwanie stanowić może utrzymanie bazy danych zawierającej dane adresowe w wysokiej jakości, na jakość natomiast składają się takie elementy, jak kompletność (czy klient podał pełen adres, czy użył skrótów?), aktualność (czy nazwa ulicy nie została ostatnio zmieniona?) i wiarygodność (czy podany adres rzeczywiście jest zamieszkiwany, czy jest np. pustostanem?). Wszystkie te obszary pokrywają funkcjonalności dostępne w AlgoMaps.

Rozłóżmy adres na części!

Standardowy adres składa się z następujących elementów:

  • nazwa miejscowości;
  • kod pocztowy;
  • nazwa ulicy;
  • numer domu;
  • numer mieszkania;

Przy czym 2 z powyższych elementów są opcjonalne – nazwa ulicy (w Polsce istnieją miejscowości, w których nie ma podziału na ulice) i numer mieszkania (w przypadku domów jednorodzinnych). Przechowywanie powyższych składowych adresu w bazie danych może być zrealizowane w różny sposób. Eksperci Algolytics spotkali się z wieloma formami – zerknij na niektóre z nich zaprezentowane poniżej.

zapis_danych

Przykłady różnych sposobów zapisu danych adresowych w bazach danych.

Problemy zaczynają się, gdy posiada się dwie lub więcej baz danych, w których adresy zapisane zostały w różny sposób, a chcielibyśmy utworzyć z nich jedną bazę. Co więcej, jeśli zgromadzone dane są niekompletne (np. brak kodu pocztowego, brak miejscowości), zawierają błędy w zapisie (literówki, brak polskich znaków, stosowanie skrótów w nazwach itp.) lub dodatkowe informacje, które nie są adresem (np. dopisek z numerem piętra, nazwą firmy itd.), a posiadana baza danych zawiera kilka setek, tysięcy lub milionów rekordów – skala problemu zaczyna wykraczać poza ludzkie możliwości.

Właśnie wtedy do akcji wkracza AlgoMaps i algorytmy sztucznej inteligencji, które standaryzują, walidują oraz weryfikują poprawność danych adresowych. W ramach tych funkcjonalności realizowane są szczególnie następujące procesy:

  • Ujednolicenie zapisu danych adresowych – nie ma tutaj znaczenia, w jakiej postaci zostaną dostarczone dane wejściowe. Niezależnie, czy adres będzie zapisany tzw. luźnym tekstem, czy częściowo rozbity na elementy, AlgoMaps zawsze zwróci wyniki w tej samej postaci – zgodnej z dobrymi praktykami w zakresie przechowywania adresów w bazach danych.
  • Usunięcie błędów w zapisie nazw ulic i miejscowości – zwrócone zostaną wystandaryzowane wartości nazw ulic i miejscowości (wg rejestrów gromadzących te informacje). Nazwy zapisane skrótami (np. „JP2” zamiast „Jana Pawła II”) lub w sposób kolokwialny („wawa” zamiast „Warszawa”) zostaną zamienione na wystandaryzowane wartości.
  • Dopisanie brakujących elementów adresu – w przypadku adresów, dla których brakuje nazwy miejscowości lub kodu pocztowego zostaną dopisane prawidłowe wystandaryzowane wartości tych elementów.
  • Aktualizacja kodów pocztowych, nazw ulic i miejscowości – w przypadku starszych baz danych informacje te zostaną zaktualizowane.
  • Weryfikacja istnienia/poprawności adresu – AlgoMaps w swoich bazach referencyjnych gromadzi niemal wszystkie adresy w Polsce, które wykorzystywane są do zwrócenia informacji o istnieniu i poprawności adresu podanego przez np. klienta lub kontrahenta.

Przykład danych wejściowych i danych wystandaryzowanych z wykorzystaniem AlgoMaps przedstawia poniższa tabela.

wystandaryzowane_dane_AlgoMaps

Przykład wystandaryzowanych za pomocą AlgoMaps danych adresowych

Sposób działania AlgoMaps w zakresie standaryzacji danych adresowych można przetestować na własnych przykładach za pomocą demo.

Deduplikacja danych, czyli jak stworzyć „golden record”?

Nieco odmienną kwestią dotyczącą jakości danych jest zachowanie unikalności rekordów przechowywanych w bazie danych. Niepożądanym zjawiskiem jest fakt posiadania w bazie lub CRMie, danych np. tego samego klienta zapisanych na kilka różnych sposobów, a co za tym idzie – w oddzielnych rekordach. Proces, który eliminuje takie przypadki i tworzy tzw. „golden record”, czyli najlepszy możliwy zestaw cech opisujących np. klienta nazywamy procesem deduplikacji. W czasie deduplikacji dane w pierwszym etapie są standaryzowane, a w drugim na podstawie oceny podobieństwa pomiędzy rekordami deduplikowane. Przykład takiego procesu wykonanego z AlgoMaps przedstawia poniższy rysunek.

Golden_record

Przykład procesu deduplikacji i tworzenia tzw. „golden record” wykonanego z wykorzystaniem AlgoMaps

Jak standaryzować dane z AlgoMaps?

Tak jak w przypadku wcześniej opisywanej funkcji geokodowania, również standaryzację danych można wykonać dwoma sposobami:

  1. Integracja przez WebService/API

  2. Aplikacja on-line w chmurze

Obie operacje – geokodowanie i standaryzację można wykonać za jednym razem. Dane do usługi wysyłasz raz, a w wyniku otrzymujesz zgeokodowane i wystandaryzowane wyniki!

Jeśli zależy Ci na standaryzacji w czasie rzeczywistym, na zasadzie zapytanie-odpowiedź – skorzystaj z API. Jest to szczególnie przydatna funkcjonalność w przypadku, gdy zbierasz dane adresowe zapisane np. luźnym tekstem, a chcesz je zapisywać w bazie danych czy CRMie w sposób ustandaryzowany i pozbawiony błędów. Po założeniu darmowego konta i zapoznaniu się z >dokumentacją, czas wdrożenia usługi wynosi zaledwie kilka godzin!

Jeśli chcesz zrobić porządek w swojej bazie danych lub CRMie standaryzując dużą liczbę rekordów za jednym razem, warto skorzystać z aplikacji on-line AlgoMaps. Standaryzacja składa się z trzech prostych kroków – przygotowania danych w postaci pliku CSV lub XLSX, zdefiniowania zadania w aplikacji i pobrania danych wynikowych. Cały proces jest szczegółowo opisany w dokumentacji, a dostęp do aplikacji można uzyskać po założeniu darmowego konta.

Warto wiedzieć, że w AlgoMaps pierwsze 5000 przetwarzanych rekordów jest zawsze gratis!

Skoro już wiesz, jak samodzielnie, szybko i efektywnie wyczyścić posiadane dane i podnieść ich jakość, czas na następne wyzwania. Z kolejnego artykułu dowiesz się, jak AlgoMaps pomaga podnieść user experience Twojej strony WWW, formularza on-line czy aplikacji.

Stay tuned!

Pin It on Pinterest