Article image
5 min czytania

W ramach Programu Operacyjny Inteligentny Rozwój 2014-2020 DBMS Sp. z o.o. realizuje projekt budowy Inteligentnego systemu do budowy relacji z klientami DMSales. Rezultatem projektu będzie znacząco ulepszony produkt pod nazwą DMSales z zaimplementowanym autorskim systemem sztucznej inteligencji pozwalającym na budowanie relacji w oparciu o dane z wielu źródeł dostępnych za pośrednictwem Internetu, m.in. z social media.

W niniejszym artykule chcielibyśmy zaprezentować etap prac wykonanych przez Zespół Badań i Rozwoju, a także wyjaśnić potrzebę i metody zarządzania danymi.

Dowiedz się więcej o projekcie

Zacznijmy od początku…

W dzisiejszym zdigitalizowanym świecie gromadzonych jest bardzo dużo informacji. Informacja, którą dane przenoszą dosyć często się dezaktualizuje. Wszak każdy użytkownik telefonu komórkowego kiedyś zmienił jego numer. Takie same zjawisko dotyczy zmian adresów np. siedziby firmy, adresów e-mail, nazw domen internetowych, kont bankowych – można by jeszcze tak wyliczać. Pytanie jest następujące, jak się uodpornić na takie zmiany? Zagadnienie wydaje się bardzo proste, jeżeli zarządzamy firmą, która współpracuje z kilkudziesięcioma kontrahentami lub utrzymanie biznesu nie wymaga utrzymywania bezpośredniego kontaktu z klientami. W przypadku, gdy firma zarządza danymi wielu klientów to zagadnienie staje się sporym wyzwaniem. Zazwyczaj duże zbiory danych, które nie są zarządzane w specjalny sposób są niskiej jakości.

Tutaj należy zmierzyć się z zagadnieniem zarządzania jakością danych. Kluczowe obszary zarządzania danymi obejmują ich dostępność, użyteczność, spójność, integralność i bezpieczeństwo danych oraz obejmują ustanowienie procesów w celu zapewnienia skutecznego zarządzania danymi w całym przedsiębiorstwie, takich jak odpowiedzialność za niekorzystne skutki złej jakości danych.

Metody dotyczące zarządzania danymi

Na szczęście do dnia dzisiejszego wypracowano kilka metod radzenia sobie z zarządzaniem danymi. Wśród nich można wymienić znane podejście zbudowane na zasadach zarządzania przez jakość Total Quality Management, co na cele zarządzania danymi pozwoliło wypracować metodykę TiQM – Total Information Quality Management.

Metodyka TiQM zakłada, że zastosowanie zarządzania procesowego ukierunkowanego na dane wystarcza do utrzymania jakości danych na odpowiednio wysokim poziomie. Nieco odmiennym podejściem, ale prowadzącym do tego samego celu jest podejście opisane w metodologii DAMA, ukierunkowanej na całą architekturę IT. Metodologia DAMA wskazuje na fakt, że zarządzanie danymi jest bardzo ułatwione jeżeli systemy IT, które dane przetwarzają będą zaprojektowane zgodnie z odpowiednią architekturą.

Obydwa podejścia są bardzo trafne i zbierają lata doświadczeń w spójne obszary wiedzy, które można stosować, jako swojego rodzaju drogowskazy podczas zmagań w zarządzaniu jakością danych. Metody TiQM oraz DAMA bardzo łatwo się skalują. Warto mieć na uwadze, ponieważ cele zarządzania danymi, a tak naprawdę oczekiwania wobec rezultatów zarządzania danymi, wszędzie są takie same bez względu na wielkość przedsiębiorstwa. Pamiętajmy, że jakość danych ma wpływ na przychody, koszty oraz ryzyko biznesowe.

Database Management System

DBMS jest bardzo aktywnym podmiotem na rynku obrotu danymi i jako jeden z niewielu, o ile nie jedyny, zdecydował się na wdrożenie kompleksowego systemu zarządzania jakością danych. Jest to kluczowe w zarządzaniu firmą w obecnych warunkach biznesowych.

DBMS ma świadomość roli lidera w dziedzinie obrotu danymi na skalę krajową. Ma ambicje stać się nim przynajmniej na skalę Europy. Jako, że DBMS rosło organicznie i musiało przejść samodzielnie całą drogę związaną z ryzykiem zarządzania danymi, to doskonale zdaje sobie sprawę z problemów małych i średnich przedsiębiorstw. MŚP nie mają zasobów na to, aby przestrzeń zarządzania danymi stała się kluczową w firmie, chociaż wydaje się że w otaczającej nas rzeczywistości powinna.

Zanim w DBMS zdecydowano się na realizację zadania formalnie zdefiniowanego jako „wdrożenie zarządzania danymi”, zaczęto zadawać sobie pytania odnośnie oczekiwań wobec rezultatów takiego przedsięwzięcia. Wśród wielu różnych postulatów wyłoniono kluczowe:

  • Dane udostępniane klientom muszą być prawdziwe a ich wiarygodność regularnie potwierdzana.
  • Te same dane muszą być zbierane z wielu różnych źródeł, porównywane ze sobą i w ten sposób uwiarygadniane.
  • Musi istnieć sposób oceny jakości zbioru danych jako całości.
  • Dane zawierają błędy, musi więc istnieć możliwość ich naprawy tam gdzie to możliwe.
  • Jakość danych wraz upływem czasu musi być taka sama.
  • Wszystkie dane bez względu na źródło ich pozyskania muszą być zapisane zgodnie z tym samym standardem.
  • Wszystkie dane muszą być zgodne z regułami wyznaczonymi przez państwowe rejestry, jeżeli to ich dotyczy.
  • Ze względu na koszty, wszystkie czynności związane z realizacją powyższych punktów muszą odbywać się cyklicznie i automatycznie, bez konieczności interwencji operatora.

Realizacja wdrożenia zarządzania danymi 

To tylko niektóre z wymagań, które zostały postawione jako cele do osiągnięcia podczas realizacji. Powyżej opisane wytyczne przełożono na konkretne zadania.

1. Inwentaryzacja istniejących źródeł danych oraz poszukiwanie nowych źródeł danych. Zadanie kluczowe dla całego procesu, gdyż założono, że wiarygodność danych jest budowana między innymi na podstawie potwierdzeń prawdziwości danych w kilku miejscach jednocześnie. Dodatkowo, realizacja tego kroku pozwoliła na pozyskanie nowych źródeł danych, co pozwoliło na poszerzenie zakresu posiadanych danych oraz uodpornienie ich na potencjalne błędy.

2. Zrozumienie podstawowych procesów wykorzystania danych. Opisanie procesów wykorzystania danych pozwoliło zrozumieć jak wykorzystywane są dane, którymi dysponuje DBMS. Pozwoliło na zdefiniowanie kryteriów oceny jakości danych, które będą uwzględniały ich przydatność w konkretnych zastosowaniach, zarówno wewnętrznych w DBMS oraz zewnętrznych – realizowanych przez klientów DBMS.

3. Ocena jakościowa istniejących zbiorów danych. Dokonano definicji wskaźników jakościowych dla danych, które mogą być obliczone niezależnie dla każdego rekordu oraz dla całego zbioru danych. Na tej podstawie łatwo można określić wiarygodność informacji zapisanych w rekordzie oraz przydatność rekordu do wykorzystania na różne cele.

4. Zmiana struktury niezbędnej do przechowywania danych. Prace wykonane w powyższych punktach wymusiły analizę istniejących struktur zbiorów danych oraz ich ponowną definicję, migrację danych do nich oraz stworzenie niezbędnej dokumentacji.

5. Opracowanie standardów przechowywania danych. Każda dana w zbiorze niesie ze sobą konkretną informację. Ważne jest, aby zapisy pola zawierające adres zawierały poprawne nazwy ulic, alei lub osiedli oraz odpowiednie dla nich powszechnie przyjęte skróty. Założono także, że kod pocztowy powinien być zapisywane wszędzie jednakowo zgodnie z maską: CC-CCC, gdzie C oznacza cyfrę.

6. Implementacja oprogramowania realizującego proces standaryzacji danych. Dokonano implementacji oprogramowania, które na ile to możliwe, będzie dokonywać automatycznej analizy. Jeśli to konieczne będzie także dokonywać korekty zapisów każdego pola w zbiorze danych na zgodny z regułami opisanymi w dokumencie opisującym standard danych.

7. Implementacja oprogramowania realizującego proces automatycznej poprawy jakości danych. Podczas prac koncepcyjnych wypracowano postulat, że źródła danych dla poszczególnych pól w rekordach muszą mieć swoją hierarchię ważności. Automatyzacja takiego procesu pozwala na automatyczne porównanie, wychwycenie różnic w tych samych danych, które pochodzą z różnych źródeł i ich uwiarygodnienie zgodnie z opracowanymi zasadami nadrzędności danych.

8. Implementacja procesu oceny jakościowej danych. Dokonano implementacji oprogramowania, które dokonuje oceny jakości poszczególnych rekordów oraz całych zbiorów danych. Takie oszacowanie pozwala na określenie przydatności rekordu na wewnętrzne cele DBMS lub cele zewnętrzne – do wykorzystania przez klientów.

9. Prowadzenie harmonogramu zaimplementowanych procesów. Zbiór danych DBMS jest liczy ponad 50 mln rekordów, a ilość danych gromadzona w wyniku analizy ruchu internetowego jest liczona w miliardach rekordów. Przetwarzanie tak dużej ilości danych musi być poddane ograniczeniom wynikającym z architektury dostępnych systemów IT. Oprogramowanie zostało podzielone na oddzielne procesy i automatycznie uruchamiane w taki sposób, aby realizacja poszczególnych zadań nie wpływała negatywnie na siebie, a całościowy czas realizacji wszystkich był możliwie najkrótszy. Jako rezultat tego działania powstało oprogramowanie dokonujące harmonogramowania oraz automatycznego uruchamiania zadań związanego z utrzymaniem pożądanej jakości danych.

10. Optymalizacja wydajności. Uruchomienie wszystkich procesów związanych z utrzymaniem pożądanej jakości danych wymaga analizy każdego rekordu oddzielnie oraz dodatkowo sumarycznej analizy jakościowej. Te zadania okazały się być na tyle czasochłonne, że bez niezbędnej optymalizacji czas ich wykonania nie gwarantował osiągnięcia celu w zadawalającym czasie. Wymagana była optymalizacja wszystkich składowych całego systemu zarządzania danymi, co finalnie umożliwiło osiągniecie założeń.

Podsumowanie

Realizacja powyżej wymienionych kroków to około sześć miesięcy wytężonej pracy, zarówno tej koncepcyjnej jak i realizacyjnej. Realizacja tego typu zadań wymaga sposobu myślenia nastawionego na konieczność uwzględniania wielu wymagań jednocześnie, czasem sprzecznych. Nie należy bać się przedstawiania i testowania wielu pomysłów. Z czasem okazuje się, że każdy z nich jest bardziej lub mniej trafny, prawie nigdy doskonały. Co bardzo ważne, tylko praca zespołowa i umiejętność wzajemnego wysłuchiwania własnych racji stwarza przestrzeń do osiągnięcia celu, który pozwala zrealizować założone postulaty.

Każdego dnia z platformy DMSales korzysta kilkadziesiąt Klientów z różnych branż, pracujących na różnych stanowiskach. Wykorzystują platformę do pozyskiwania kontaktów, do wzbogacenia danych, do realizacji kampanii e-mail lub SMS. Korzystają z identyfikacji, procesu marketing automation i innych algorytmów. Głęboko wierzymy, że projekt nad którym pracujemy, usprawni platformę do tego stopnia, by stała się najlepszym narzędziem do prospectingu i budowy relacji z klientami w Polsce.

Jeśli już teraz jesteś ciekawy możliwości platformy, załóż darmowe konto lub skontaktuj się z Nami na czacie.

Zarejestruj się bezpłatnie

Tomasz Dziobiak
Autor artykułu
CEO | Prezes Zarządu
Doświadczony Menadżer w zakresie sprzedaży i obsługi usług telekomunikacyjnych. Pasjonat BI i IOT umożliwiających budowanie wiedzy o zachowaniach klientów w procesie zakupu. Praktyk w zakresie optymalizacji procesów pozyskiwania klientów i...

To może Cię zainteresować