För att maskininlärning (ML) ska fungera krävs stora datamängder och att databearbetningen håller en hög kvalitet. Varför är det så viktigt att förbereda data på rätt sätt och hur gör man det? I den här artikeln tar vi en närmare titt på varför organisationer behöver skaffa sig kontroll över sina data och hur det går till.
Att utvecklingen inom maskininlärning under flera decennier gick så trögt, beror dels på att det är en extremt komplex uppgift att efterlikna mänskligt beteende, men även på svårigheterna att bearbeta de stora datamängder som krävs. I dag ser det annorlunda ut. Tack vare de stora framsteg som gjorts inom programutveckling och tillgången på skalbar datorkraft och stora datamängder, investerar allt fler organisationer i maskininlärning och tillhörande teknik.
Maskininlärning har växt enormt snabbt på senare år och idag används tekniken i till exempel sökmotorer och sociala medier, dvs. i tjänster som de flesta av oss använder dagligen och blivit beroende av. Företag använder maskininlärning i CRM-system, inom marknadsföring och ledningsfunktioner samt rent allmänt för att kunna fatta bättre affärsbeslut.
Men för att en lösning som bygger på maskininlärning ska bli framgångsrik krävs stora mängder data. Faktum är att data är hjärtat i varje ML-modell. Och stora datamängder kräver bra databehandling. En förutsättning för att lyckas med databehandling är att data förbereds på rätt sätt. Om man misslyckas med detta får det stora negativa konsekvenser för ML-modellen.
Varför förbereda data?
När ett problem ska lösas med maskininlärning samlas rådata in, baserat på vad problemet är och vilka förutsägelser maskininlärningsalgoritmen ska göra. Om du till exempel vill förutsäga priset på bostäder i ett visst område behöver du en stor mängd data om tidigare försäljningar av bostäder i området – inklusive priser och detaljerade uppgifter om varje bostadsförsäljning.
Men de data som samlas kan inte användas i sin ursprungliga form. Datamängden måste förberedas innan den kan användas som beslutsunderlag. Skälet till detta är följande:
- ML-algoritmer använder tal. En datamängd innehåller ofta många olika typer av data och maskininlärningsmodeller bygger vanligtvis på att datan ska bestå av numeriska tal. Med andra ord använder modellen tal som indata och förutsäger sedan utdata, även dessa i form av tal.
- För att en ML-algoritm ska fungera måste vissa förutsättningar vara uppfyllda. Det finns mängder av unika algoritmer som kan användas för att lösa unika problem och för att avgöra vilka algoritmer som ger bäst resultat i ett visst projekt måste man först utvärdera flera olika algoritmer, med hänsyn till datamängd och de problem som ska lösas. Utmaningen är att varje enskild algoritm ställer särskilda krav på datans utformning och därför behöver datan anpassas till de specifika algoritmer som valts.
- Maskininlärningsmodeller är beroende av data. ML-algoritm är endast så bra som de data som används för att träna den. Man kan jämföra det med en bil. Om bilen tankas med ett dåligt drivmedel påverkas motorns prestanda negativt. I maskininlärning reduceras modellens förmåga att göra förutsägelser om indatan inte förbereds korrekt eller om datamängden inte är tillräckligt omfattande.
Eftersom vi vet att många ML-modeller är väl etablerade, förstådda och används i stor omfattning är den avgörande faktorn för hur väl modellen fungerar vilka data som används till att träna dem. Med andra ord är det oerhört viktigt att data förbereds på rätt sätt.