Omawiając proces standaryzacji i walidacji danych trudno nie wspomnieć o kwestii oszczędności (czasu i pieniędzy), jakie przynosi odpowiednio wyczyszczona baza – np. CRM.
W tym artykule skupimy się zatem na najszybszym i najefektywniejszym sposobie, by samodzielnie i przy minimalnym nakładzie czasu poprawić jakość już posiadanych rekordów. Wyczyśćmy trochę danych z AlgoMaps!
Jak wspomnieliśmy w poprzednim materiale o geokodowaniu, dane adresowe (a w szczególności teleadresowe) są podstawowymi informacjami opisującymi nie tylko klienta, kontrahentów, nadawców i odbiorców przesyłek, ale także placówki naszego biznesu lub członków sieci dystrybucji. To dzięki nim możliwa jest analiza sprzedażowa czy behawioralna, która przynosi wzrost efektywności działań przy optymalizacji budżetu. O dane te należy więc zadbać właśnie przez ich czyszczenie, czyli usunięcie zduplikowanych, poprawę błędnie wpisanych czy niewystandaryzowanych rekordów. Dlaczego tego typu procesami interesuje się coraz więcej przedsiębiorstw? Korzyści z odpowiednio przeprowadzonej standaryzacji są obiecującą perspektywą na rozwój biznesu:
Wyzwanie może natomiast stanowić manualny proces poprawy posiadanych danych – zwłaszcza, gdy mówimy o połączeniu 2 (lub więcej) baz. Jak w prosty sposób sprawić, by termin „jakość danych” nie był tylko firmowym frazesem?
Mimo że słowo „adres” wydaje się oczywistym pojęciem, optymalny sposób jego zapisu w bazie danych, np. w CRMie, może stanowić nie lada wyzwanie. Wyzwanie stanowić może utrzymanie bazy danych zawierającej dane adresowe w wysokiej jakości, na jakość natomiast składają się takie elementy, jak kompletność (czy klient podał pełen adres, czy użył skrótów?), aktualność (czy nazwa ulicy nie została ostatnio zmieniona?) i wiarygodność (czy podany adres rzeczywiście jest zamieszkiwany, czy jest np. pustostanem?). Wszystkie te obszary pokrywają funkcjonalności dostępne w AlgoMaps.
Standardowy adres składa się z następujących elementów:
Przy czym 2 z powyższych elementów są opcjonalne – nazwa ulicy (w Polsce istnieją miejscowości, w których nie ma podziału na ulice) i numer mieszkania (w przypadku domów jednorodzinnych). Przechowywanie powyższych składowych adresu w bazie danych może być zrealizowane w różny sposób. Eksperci Algolytics spotkali się z wieloma formami – zerknij na niektóre z nich zaprezentowane poniżej.
Przykłady różnych sposobów zapisu danych adresowych w bazach danych.
Problemy zaczynają się, gdy posiada się dwie lub więcej baz danych, w których adresy zapisane zostały w różny sposób, a chcielibyśmy utworzyć z nich jedną bazę. Co więcej, jeśli zgromadzone dane są niekompletne (np. brak kodu pocztowego, brak miejscowości), zawierają błędy w zapisie (literówki, brak polskich znaków, stosowanie skrótów w nazwach itp.) lub dodatkowe informacje, które nie są adresem (np. dopisek z numerem piętra, nazwą firmy itd.), a posiadana baza danych zawiera kilka setek, tysięcy lub milionów rekordów – skala problemu zaczyna wykraczać poza ludzkie możliwości.
Właśnie wtedy do akcji wkracza AlgoMaps i algorytmy sztucznej inteligencji, które standaryzują, walidują oraz weryfikują poprawność danych adresowych. W ramach tych funkcjonalności realizowane są szczególnie następujące procesy:
Przykład danych wejściowych i danych wystandaryzowanych z wykorzystaniem AlgoMaps przedstawia poniższa tabela.
Przykład wystandaryzowanych za pomocą AlgoMaps danych adresowych
Sposób działania AlgoMaps w zakresie standaryzacji danych adresowych można przetestować na własnych przykładach za pomocą demo.
Nieco odmienną kwestią dotyczącą jakości danych jest zachowanie unikalności rekordów przechowywanych w bazie danych. Niepożądanym zjawiskiem jest fakt posiadania w bazie lub CRMie, danych np. tego samego klienta zapisanych na kilka różnych sposobów, a co za tym idzie – w oddzielnych rekordach. Proces, który eliminuje takie przypadki i tworzy tzw. „golden record”, czyli najlepszy możliwy zestaw cech opisujących np. klienta nazywamy procesem deduplikacji. W czasie deduplikacji dane w pierwszym etapie są standaryzowane, a w drugim na podstawie oceny podobieństwa pomiędzy rekordami deduplikowane. Przykład takiego procesu wykonanego z AlgoMaps przedstawia poniższy rysunek.
Przykład procesu deduplikacji i tworzenia tzw. „golden record” wykonanego z wykorzystaniem AlgoMaps
Tak jak w przypadku wcześniej opisywanej funkcji geokodowania, również standaryzację danych można wykonać dwoma sposobami:
Obie operacje – geokodowanie i standaryzację można wykonać za jednym razem. Dane do usługi wysyłasz raz, a w wyniku otrzymujesz zgeokodowane i wystandaryzowane wyniki!
Jeśli zależy Ci na standaryzacji w czasie rzeczywistym, na zasadzie zapytanie-odpowiedź – skorzystaj z API. Jest to szczególnie przydatna funkcjonalność w przypadku, gdy zbierasz dane adresowe zapisane np. luźnym tekstem, a chcesz je zapisywać w bazie danych czy CRMie w sposób ustandaryzowany i pozbawiony błędów. Po założeniu darmowego konta i zapoznaniu się z >dokumentacją, czas wdrożenia usługi wynosi zaledwie kilka godzin!
Jeśli chcesz zrobić porządek w swojej bazie danych lub CRMie standaryzując dużą liczbę rekordów za jednym razem, warto skorzystać z aplikacji on-line AlgoMaps. Standaryzacja składa się z trzech prostych kroków – przygotowania danych w postaci pliku CSV lub XLSX, zdefiniowania zadania w aplikacji i pobrania danych wynikowych. Cały proces jest szczegółowo opisany w dokumentacji, a dostęp do aplikacji można uzyskać po założeniu darmowego konta.
Warto wiedzieć, że w AlgoMaps pierwsze 1000 przetwarzanych rekordów jest zawsze gratis!
Skoro już wiesz, jak samodzielnie, szybko i efektywnie wyczyścić posiadane dane i podnieść ich jakość, czas na następne wyzwania. Z kolejnego artykułu dowiesz się, jak AlgoMaps pomaga podnieść user experience Twojej strony WWW, formularza on-line czy aplikacji.
Stay tuned!