Predictive analytics: Detta bör du tänka på innan du sätter igång

Vem skulle inte vilja kunna förutsäga framtiden?

Förutsägelse är kärnan i ett antal affärskritiska utmaningar. Frågor som:

Vad ska vi sälja för under det fjärde kvartalet?
Hur mycket tid ska vi avsätta för ett projekt?
Vilka av våra kunder kommer att lämna oss?

Alla dessa frågor är mycket svåra att svara på, men kan ge mycket viktiga insikter för företag.

Framtida utveckling påverkas av så många faktorer att det nästan är omöjligt för människor att hålla reda på det. Därför har många använt en salig blandning av kristallkulor och magkänsla för att hitta svar på hur framtiden kommer att se ut – ofta utan tur.

Lyckligtvis finns det ett antal metoder och tekniker som kan ersätta kristallkulan och magkänslan med datadrivna beslut; nämligen Predictive Analytics (prediktiv analys).

Även om detta låter som magi, kan du inte bara samla in mycket data, dra ett magiskt handtag och få förutsägelser om framtiden. Det kräver en viss hänsyn för att kunna utnyttja den fulla potentialen för maskininlärningsmodeller.

Nedan granskar vi de viktigaste övervägandena man måste ta när man går in på prediktiv analys.

Sätt rätt mål för projektet

Det första du måste göra när du startar ett projekt med prediktiv analys är att vara specifik om vad det är du vill förutsäga.

Även om det kanske låter trivialt är dåliga mål ofta det som hindrar modellen från att vara väletablerad i verksamheten. En av anledningarna till att detta är så svårt är att vi människor är mycket bra på att tolka och förstå nyanser, men det är inte en maskin. Om en CFO frågar vilka nyckelkunder som kommer att falla ifrån på kort sikt har vi en omedelbar förståelse för vad han eller hon menar. En algoritm kommer då att vara osäker, för vad är en ”viktig kund”? Och hur lång tid är ”kort tid”?

En mer ”maskinvänlig” formulering skulle vara ”vilka kunder med en genomsnittlig månadsomsättning på mer än 100 000 kronor kommer att lämna oss inom tre månader?”. På det här sättet har du definierat både vem du är intresserad av (kunder med en omsättning på mer än 100 000 per månad) och vad du vill förutsäga (om de lämnar verksamheten inom tre månader).

Vill du lära dig mer om hur du presenterar data på ett bra sätt för hela ditt företag? Vi håller regelbundet kurser om bland annat datavisualisering.

Bra hypoteser

När du har definierat ett tydligt mål med projektet är det dags att överväga hypoteser; med andra ord måste man ta reda på vad som potentiellt kan bidra till att förutsäga målet.

Om du till exempel vill förutsäga försäljningen i nästa månad kan en möjlig hypotes vara att den aktuella månadens försäljning, storleken på beställningarna eller tiden på året kommer att påverka nästa månads försäljning. Återigen är det viktigt att uttrycka dessa hypoteser i funktioner, som en data scientists skulle kalla dem. Så att maskininlärningsmodellen kan förstå att ”nuvarande order i NOK” är en bra funktion och att ”den allmänna stämningen i försäljningsavdelningen” inte är en bra funktion.

För att hitta de bästa hypoteserna och funktionerna är det också viktigt att involvera domänexperter från företaget. Det är de som har de bästa idéerna för vad som påverkar vad, och de har därför viktiga input som kan användas i modellen. Dessutom ökas förtroendet för modellen genom att involvera stora delar av verksamheten, vilket i sin tur leder till bättre förankring och värdeskapande.

Välj rätt data

Efter att ha konkretiserat hypoteserna och hur de ska definieras och uttryckas med data är man redo att samla in uppgifterna. Det har talats mycket om att data är den nya oljan, och som med oljan kan data bara användas när du extraherar och bearbetar den.

Här är det viktigt att involvera organisationens datakontrollanter, så att du kan få en överblick över vilka data som kan användas för att testa hypoteserna och hur du får dessa data.

I vissa fall kan det vara så att de data som behövs för att testa hypoteserna inte är direkt tillgängliga. Sedan finns det två olika lösningar du kan använda: extern data eller ungefärlig data.

Externa data kan laddas ner direkt från offentligt tillgängliga databaser. Det är då viktigt att bedöma hur och hur viktigt de externa uppgifterna är för att kunna förutsäga, till exempel, bortfall av kunder.

Ungefärlig information är när data inte testar hypotesen direkt utan är nära sanningen. Det kan till exempel vara om du använder antalet tweets med ordet ”Pepsi” för att överväga omnämnandet av Pepsi. Även om man potentiellt missar många dimensioner med ungefärliga data, kan det ofta vara värdefullt för analysen.

En bra modell

Nu när hela förberedelsen är på plats är det dags att göra modellen. Detta inkluderar många spännande tekniska överväganden där de flesta överväganden kan tas om hand av en data scientists. Det är emellertid en viktig fråga att involvera affärsaktörerna i; nämligen, hur ska förhållandet mellan precision och transparens vara?

Man kan grovt dela upp maskininlärningsmodeller i två: komplexa svarta black box-modeller, som ger ganska exakta förutsägelser, som nästan är omöjliga att förstå och kräver stora mängder data. Å andra sidan finns det enklare, mer öppna modeller som lätt kan tolkas och inte hanterar lika stora mängder data, men som inte alltid är lika korrekta.

Även om det kan vara frestande att gå ”all in” på ”djupa neurala nätverk” och andra hypade modeller, tycker många att det faktiskt är lika viktigt varför modellen förutspår något, som vad den faktiskt förutsäger. Speciellt inom finans- och hälsovårdssystemet kan Black Box-modeller helt undergräva förtroendet för förutsägelserna, och därför används den gamla gamla metoden ”magkänsla” istället.

Bra förankring i verksamheten

Även efter att den slutliga modellen har definierats och de första resultaten har mottagits, kan man fortfarande sakna några av de viktigaste sakerna med denna strategi, nämligen hur man förankrar modellen korrekt i verksamheten.

Mycket av det grundläggande arbetet för en bra grund har redan granskats ovan; särskilt intressenters engagemang i hypotesarbetet och transparenta modeller. Det finns dock två viktiga element som kan hjälpa till att förankra denna strategi.

Det första elementet är att mäta prestanda i testfasen. Prestandamätningar kan belysa hur exakt modellen är i sina förutsägelser, när den träffar korrekt och när den missar. På så sätt kan slutanvändare ha mer realistiska förväntningar på modellen och vet när de ska vara extra uppmärksamma.

Det andra elementet är kontinuerlig effektmätning. Efter att modellen har tagits i drift är det viktigt att ”benchmarka” resultaten mot det arbetsflöde som företaget hade före modellen. Här kan du med fördel välja tydliga KPI: er, till exempel bortfall, så att du har något konkret att jämföra med. Detta visar fördelarna modellen ger för verksamheten, vilket i sin tur gör de anställda villiga att använda den.

Summering

Genom att fylla i de granskade punkterna är du redan på god väg till prediktiv analys i ditt företag. Det kan tyckas svårt att vara svårt ibland, men det är viktigt att komma ihåg att AI är en iterativ process. För varje steg på vägen lär du dig något nytt som kan användas för att göra hypoteserna ännu tydligare, modellen bättre och verksamheten smartare i framtiden!