Blogg | Knowit

Big Data, fall- eller gullgruve?

Skrevet av Erlend Stenberg | Jan 27, 2019 11:00:00 PM

Vinden hvisker om det mystiske begrepet «Big Data» hvorhen man snur seg i tech-bransjen. AI, maskinlæring, automasjon og predikasjon er temaer som blir kastet rundt i styrerom. Men er Big Data egentlig så mystisk? Og er det verdt investeringen?

 

Overalt rundt oss

Man kan se elementer av Big Data overalt. Enten det er Netflix sitt forslag til neste film, Google som leverer deg skreddersydde reklamer basert på din aktivitet, Amazons relaterte produkter, forsikringsselskaper som beregner forsikringspremie eller banker som estimerer sannsynligheten for at en kunde bytter bank (kunde-churn).

Big Data er ikke bare et destillert begrep for et sammensurium av buzzwords, men heller beskrivende for et sett metoder og verktøy som har som hensikt å analysere, visualisere og forstå store datasett. I dag er utviklingen kommet så langt at man ikke trenger å være ekspert innen Big Data for å benytte enkelte verktøy innen domenet.

 

Hvordan fungerer det i praksis?

Et klassisk og nymoderne konsept som blant andre mange banker har adaptert, er kunde-churn. Det vil si en sannsynlighetsberegning av hvorvidt en kunde kommer til å forlate banken eller ikke. Banken benytter seg av tre ting som ofte inngår som del av en pipeline:

  1. Et stort datasett som inneholder detaljer per kunde. Dette kan være transaksjonshistorikk, kjønn og alder, sivilstatus, lån og nedbetalingsdetaljer, tracking av klikk i mobil- og nettbank, med videre – kun fantasien setter grenser.
  2. Analyse av datasett hvor analytikere vasker, gjennomgår og danner en forståelse av hvilke korrelasjoner man bør være på utkikk etter og ikke.
  3. Algoritme velges med omhu og nyttes til å konstruere en modell. Denne modellen vil være ansvarlig for å danne prediksjoner.

Ved hjelp av disse forholdsvis enkle metodene kan en bank beregne alle kunders sannsynlighet for å forlate banken på et gitt tidspunkt. Denne informasjonen kan videre brukes til å sette i gang tiltak med hensikt å forhindre kundetap. Churn-prediksjon har flere ganger blitt anslått til å kunne gi klekkelige besparelser, spesielt for selskaper hvor ervervelse av nye kunder står for store utgifter.

 

AI i vinden

Oppfatningen av at de største selskapene tjener mest på Big Data er nok korrekt, men det er flere som glemmer at selv mindre selskaper enn Google kan dra nytte av det. Andre selskaper har ridd bølgen og behandlet det mer som gode PR-prosjekter, mens det internt ikke er noen som vet hva de holder på med – de innoverer tross alt. Big Data, AI, maskinlæring, autonomi, nevrale nettverk og churn-prediksjon; dette er besnærende ord, men konseptene er ikke nødvendigvis frie for bekymringer.

 

Forretningsverdi

Det er store mengder matematikk og statistikk involvert i algoritmene som konstruerer modeller innen Big Data. Et av de største problemområdene i fagfeltet er hvordan man oversetter tekniske metrikker av algoritme-ytelse til gode mål og metrikker av forretningsverdi. Ofte må man gjøre vanskelige trade-offs som krever god domenekunnskap, kombinert med god forståelse av datasettets potensial sammenlignet med dets genererte modell. Dette er den vanskelige biten; brobyggingen mellom to separate felt. Skal modellen ha høy treffsikkerhet på de utvalgte kundene? Eller sørge for å treffe flest mulig kunder som sannsynligvis vil forlate banken? Dette er metrikker som er avhengige av hverandre – øker du den ene, minker den andre. Begge er populære innen ytelsesvurdering av maskinlæringsalgoritmer, men hvordan oversetter man dette til økonomisk terminologi?

Jeg var selv borte i problemstillingen under arbeidet med å hjelpe en bank med å predikere om en kunde ønsker å forlate banken eller ikke. Deretter ble det brukt målrettede tiltak mot kundesegmentene som ble avdekket.

 

Pipeline

Et eksempel på tiltak som kan iverksettes mot kundesegmentene som sannsynligvis vil forlate banken, er å ringe kunden eller sende tilpassede tilbud. I eksempelet med kunde-churn nevnt over vil det kanskje kunne oppfattes å være bedre å gå for høy presisjon. Hva hvis det i realiteten tjenes mer for selskapet å fokusere på et større segment kunder som har lavere sannsynlighet for kundefrafall? Dette viste seg også å være tilfelle i eksempelet over, men det tok lang tid før det ble avdekket. For å unngå slikt er man avhengig av å bygge gode broer mellom tekniske og økonomiske metrikker. Det viktigste når man bygger bro er ikke nødvendigvis materialet, men heller hvilken metode som blir brukt.

Et essensielt aspekt i en pipeline er å bevare det menneskelige – aldri før har viktigheten av brukeropplevelsen og verdi for brukeren stått så høyt som i dag. Domenekunnskap må kartlegges av både forbruker og tilbyder, og gjennom et samarbeid må det utarbeides en felles forståelse for behov og ønsker. Dette er et sentralt steg i enhver pipeline.

For det er ikke modellen alene, eller algoritmen, eller datasettet, som utgjør verdi for et selskap. Det er pipelinen, metoden, strategien! Med en god pipeline som er veloverveid og satt sammen gjennom godt samarbeid mellom data scientists, strateger og kunder med domenekunnskap og økonomiske mål og KPI-er, kan selskapers verdiskapning nå nye høyder.

 

Resultater

Det er flere som undervurderer verdiskapningen av slike Big Data-prosjekter. Med gode strukturer rundt prosessen er disse datadrevne prosjektene som alle andre, men det revolusjonerende og banebrytende elementet kommer gjennom det ekstreme potensialet man kan få ut av data som simpelthen har hopet seg opp på bakrommet.

I noen tilfeller vil ikke datasettene ha potensial til å føre til store inntjeninger umiddelbart, men gjennom en god pipeline vil man avdekke behov og muligheter for å sette opp systemer som passivt utarbeider gode datasett over tid. Dette er en lavkostnadsinvestering som utvilsomt er framtidsrettet og verdiskapende.

En god pipeline øker sjansene for at sluttproduktet blir i tråd med ønsker, og er sin egen kvalitetssikring. Ideelt sett vil man konstruere en modell som optimaliseres mot metrikker som tar i betraktning hvilket domene og hvilken verdi man er ute etter. Og i en god pipeline er det helt sentralt at kunden står i sentrum. Behandler man kundedata som bare noen tall på et papir mister man empatien som kreves for et vellykket Big Data-prosjekt.