Detta är del 2 av 2 om Data Science och Advanced Analytics av Filip Reinholdson. I del 1 som du hittar här gick jag igenom vad Data Science och Advanced Analytics är och hur det kan hjälpa organisationer att nå nya insikter och möjligheter. I denna avslutande del går jag igenom de grundläggande förutsättningar som jag anser att man som beställare ska förstå för att få ut ett värde ur en satsning på Data Science.
Know & Prep Your Data
En förutsättning för att man ska få ut några värdefulla insikter utifrån sin data är att man fullt ut känner till och förstår den data man vill analysera. Qliks produkter passar perfekt här då de med sin associativa modell hjälper både slutanvändare och utvecklare att snabbt lära känna sin data. Deras Advanced Analytics Integration kan även hjälpa utvecklare och data scientists att snabbare testa prototyper och modeller mot ett begränsat dataset i befintliga Qlik-appar.
Genom att lära känna sin data väl så får man även upp ögonen för eventuella datakvalitetsproblem och den datatvätt som behöver göras. Att kunna preppa sin data är en helt grundläggande kärnkomponent för att få bra resultat inom Data Science och Advanced Analytics. Detta är något de flesta BI-konsulter är mycket duktiga på, vilket i sin tur gör att BI-konsulter naturligt passar bra in i data science-projekt.
Att applicera statistiska modeller på ett dataunderlag med bristande datakvalitet kan ge oerhört skeva och felaktiga resultat. Detta är något som mycket sällan kommuniceras med kunder vid införsäljning av data science-projekt.
No Tool to Rule Them All
När ni har förtroende för er underliggande data så ska man välja ett verktyg att genomföra sitt data science-projekt med. Verktyget i sig är inte det viktiga, välj det verktyg som ni har bäst kunskap och kännedom om. Advanced Analytics, framförallt i relation med Qlik, använder sig oftast av open source lösningar som R eller Python.
Tänk även på att de flesta data science-verktyg och databaser oftast är designade för att användas av analytiker, experter och data scientists i ”laboratoriemiljö” med tillrättalagd data. De är i regel inte anpassade för den breda massan och en verklighet med bristande datakvalitet. Vid större datamängder kan analysen oftast inte heller göras i realtid, utan den behöver preppas i förväg för att sedan presenteras i ett BI-verktyg såsom Qlik Sense. Det finns idag inget verktyg som automatiserar detta. Det krävs både verktyg, människor och kunskap för att det ska bli bra.
Förstå algoritmen
Den här typen av djup analys producerar alltid statistik genom statiska regler. I de allra flesta fall används gamla vedertagna statistiska algoritmer som har funnits sedan 60-talet. Men för att få ett bra resultat krävs det att man har kunskap om algoritmerna som används. Man behöver inte ha disputerat i statistik eller vara professor i matematik, men det är av största vikt att man i stora drag förstår hur en algoritm fungerar, de parametrar som påverkar den och varför den ger ett givet resultat.
Utan att ha den här förståelsen så kan man få mycket felaktiga och vilseledande insikter. Data science blir aldrig bättre än den algoritm som används. Med det sagt så skulle jag ändå säga att man i de första projekten ska lägga mindre vikt på just vilken algoritm som används, datamodelleringen av datasetet och kvaliteten på data är betydligt viktigare.
Avslutningsvis
Sammanfattningsvis öppnar Data Science och Advanced Analytics upp helt nya möjligheter jämfört med ett traditionellt beslutsstöd, men det ställer också än större krav på beställaren. Tillgång till kompetens inom data science är också mycket svårt att hitta. Gartner skriver exempelvis att den typen av kompetens är djupt eftertraktad och till och med mycket sällsynt.
Mitt råd är därför att påbörja den här typen av projekt med de personer i er organisation som har koll på er underliggande data och som är duktiga på att transformera och preppa den – det vill säga er BI-organisation.
Läs också: Del 1 – Beslutsstödets nästa steg – Vad är data science och advanced analytics?
Blogginlägget är skrivet av Filip Reinholdson, affärsområdesansvarig för Analytics på Visma bWise AB.