Data Science je jedan od najznačajnijih trendova u podatkovnoj analitici posljednjih deset godina i za sobom nosi određene buzzworde koje je jako teško pohvatati. Međutim, kad je riječ o stvarnoj implementaciji Data Science projekata, ovakvi projekti najčešće doživljaju neuspjeh. Razlog tome je to što nisu egzaktni stoga je teško definirati uspješnost i kraj projekta.
Kao i u svakom segmentu poslovanja potrebno je imati metodologiju koja će vam dati okvir za uspješnu implementaciju projekta. Metodologija koja se najčešće koristi u Data Science projektima se zove CRISP-DM koja se godinama koristi u analitičkim projektima.
CRISP-DM sadrži 5 glavnih koraka koji vrijede za Data Science projekte neovisno o industriji u kojoj radite, a oni su:
1. Razumijevanje poslovanja
2.Razumijevanje podataka
3.Priprema podataka
4.Modeliranje i evaluacija modela
5.Implementacija rješenja
Treba napomenuti da su ovi koraci međuovisni jedno o drugom i da su iterativni.
1.) RAZUMIJEVANJE POSLOVANJA – koji je poslovni cilj Data Science projekta?
Kako bi Data Science projekti bili uspješni najbitnije je odrediti cilj projekta tj. odrediti kakvu vrijednost projekt donosi tvrtki. Najčešće se događa da tvrtke na konferencijama ili internetu vide da postoji Data Science studija slučaja i onda to pokušaju kod sebe implementirati. Na kraju takvi Data Science projekti u većini slučajeva propadaju jer se ciljevi jedne tvrtke uvelike mogu razlikovati od druge.
RAZUMIJEVANJE POSLOVANJA – STUDIJA SLUČAJA
Vlasnik ste tvrtke koja se bavi prodajom raznovrsnih artikala i posljednjih godinu dana ste svjesni pada velikog broja registriranih kupaca na vašoj e-commerce stranici. Kako bi zaustavili nastavak takvog trenda želite poduzeti određene korake kako bi zadržali vaše postojeće kupce i privukli nove. Međutim, ne znate kako to napraviti.
U ovom slučaju poslovni cilj projekta bi bio saznati koji su uzorci u podacima kod kupaca koji su u posljednjih godinu dana napustili vašu tvrtku. Za takve tipove kupaca potrebno je napraviti specifičnu marketinšku kampanju kako bi ih zadržali.
2.) RAZUMIJEVANJE PODATAKA – koje podatke moramo koristiti?
Data Science nije samo tehnička disciplina nego i poslovna. Potrebno je detaljno domensko znanje poslovanja kako bi se odabrao određen set podataka koji će se koristiti za rješavanje našeg poslovnog cilja. Također, jako je bitno poznavati što pojedini podatak znači u poslovanju. Tako će interpretacija rezultata modela imala smisla za poslovne korisnike (marketinški tim).
RAZUMIJEVANJE PODATAKA – STUDIJA SLUČAJA
Nakon što smo definirali poslovni cilj projekta – izrada marketinške kampanje za kupce koji su odustali od kupovine na e-commerce stranici, potrebno je definirati podatke koji će se koristiti za izradu Data Science modela. Kroz sastanke marketinškog i data science tima, došli smo do zaključka da će se generalno koristiti dva izvora podataka. Transakcije ponašanja korisnika na našoj web stranici i demografskih podataka o našim kupcima koji se nalaze u CRM sustavu. Također, definirali smo da ćemo kupca označiti “izgubljenim” (churner) ako posljednjih tri mjeseca korisnik nije napravio niti jednu kupovinu na e-commerce stranici.
3.) PRIPREMA PODATAKA – kako pripremiti podatke za izradu Data Science modela?
Priprema podataka je čisti tehnički posao u kojem je cilj dovesti podatke u strukturu koja je potrebna za izradu Data Science modela. U ovom dijelu metodologije rade se dva zadataka:
- Integracija podataka iz više izvora podataka
- Čišćenje i transformacija podataka
Ova faza projekta troši najveći dio vremena projekta (70-80%), jer bez kvalitetnih i strukturiranih podataka ne možemo izgraditi kvalitetan Data Science model.
PRIPREMA PODATAKA – STUDIJA SLUČAJA
Nakon što smo definirali izvore podataka, potrebno je povezati podatke iz transakcijskih sustava i CRM-a. Tako ćemo dobiti jedan set podataka koji na agregacijskoj razini objašnjava ponašanja kupca i njihovu demografiju. Također, bilo je potrebno napraviti tzv. feature engineering što znači dodatne izmjene i transformacije podataka koje su potrebne kako bi dobili bolji pogled na pojedinog kupca.
4.) MODELIRANJE I EVALUACIJA MODELA – koji algoritam koristiti?
Data Science algoritmi se generalno dijele na dvije skupine:
- Supervised – gdje znamo koji je ishod događaja i gdje na temelju podataka iz prošlosti predviđamo buduće događaje.
- Unsupervised – gdje ne znamo ishod događaja i koristimo algoritme da nam sugeriraju krajnji rezultat. Ovakvi algoritmi se bolje znaju kao algoritmi za klasterizaciju podataka.
Supervised algoritme nadalje možemo podijeliti na:
- Klasfikacijske algoritme – koristimo ukoliko predviđamo kvalitativni ishod npr. hoće li nam korisnik otići (DA/NE).
- Regresijske algoritme – koristimo ih ukoliko predviđamo kvantitativni ishod npr. kolika će biti cijena stana ovisno o nekim varijablama (veličina stana, lokacija, kvadrati stana).
Evaluacija Data Science algoritma se odvija na dva načina:
- Točnost algoritma odnosno modela – u ovom slučaju model gubi kvalitetu u intepretaciji pa se takvi modeli zovu i black box modeli i ovi modeli u većini slučajeva daju jako veliku točnost. Međutim, ovaki modeli imaju smisla ukoliko se želi postići sama automatizacija nekog procesa npr. prepoznavanje objekata na slikama ili video-u.
- Prepoznavanje uzoraka u podacima – u ovom slučaju želimo dobiti poslovna saznanja o podacima i ovakvi su modeli jednostavniji i lakši za interpretirati od strane poslovnih korisnika.
MODELIRANJE I EVALUACIJA MODELA – STUDIJA SLUČAJA
Nakon što smo pripremili podatke za modeliranje, želimo naći uzorke u podacima koji će nam objasniti zašto kupci odustaju od kupovine na našoj e-commerce stranici. S obzirom da imamo povijesne podatke o kupcima koji su odustali od kupovine, koristiti ćemo supervised algoritam jer imamo dvije vrijednosti koje želimo objasniti – kupac je otišao (DA) i kupac nije otišao (NE).
S obzirom da želimo marketinškom timu dati zanimljiva saznanja u podacima, koristiti ćemo supervised algoritme koji nam daju uzorak koja je to vrsta kupaca koja više ne kupuje. Data Science tim je odlučio koristiti algoritam stablo odlučivanja (decision tree), jer najbolje objašnjava uzorke u podacima.
5.) IMPLEMENTACIJA MODELA – kako primjeniti Data Science model u svakodnevnom poslovanju?
Ovaj proces može završiti na dva moguća načina:
- Kroz prethodne korake smo shvatili da cjelokupno poslovno pitanje nije dobro postavljeno te je potrebno vratiti se na početak kako bi redefinirali poslovno pitanje.
- Model kojeg smo napravili nam daje rezultate koji su dovoljni da donesemo zaključak i uvodimo ga u proces poslovanja.
IMPLEMENTACIJA MODELA – STUDIJA SLUČAJA
Nakon izrade modela, marketinški tim je dobio zanimljive uvide koje će koristiti u marketinškim kampanjama kako bi zadržali postojeće kupce. Ovaj Data Science projekt se može smatrati uspješnim tek nakon marketinške kampanje koja na temeljena na uvidima iz Data Science projekta.
Želite naučiti kako primijeniti Data Science model na rješavanje poslovnih izazova koristeći vlastite podatke?