Poängen med en data lake (eller datasjö på svenska) är att den som ska använda informationen inte behöver hantera en mängd olika datakällor, lagringsplatser, säkerhetsfunktioner och tekniker för datainsamling. Men för att en data lake ska fungera effektivt krävs en bra och ändamålsenlig arkitektur för bearbetning.
Utan bra funktioner för bearbetning, bevakning och skydd av dina data kommer de inte vara till nytta för verksamheten, oavsett hur stora datamängder du har i ”sjön”.
I den här artikeln tar vi en titt på vad en data lake-arkitektur är och vad som är bäst för en sådan arkitektur.
Vad är data lake-arkitektur?
En datasjö är ett lager med rådata, dvs. data som lagras i sitt ursprungliga format. Data i en datasjö kan vara av olika slag och är inte organiserade på något särskilt sätt. En av fördelarna med detta är att man inte behöver ha en tydligt definierad datamodell. Data flödar in i ”sjön” och därefter kan man börja analysera, rapportera eller göra det man har tänkt göra med informationen. Datan är tillgänglig för alla medarbetare på företaget, givet att de har behörighet.
Läs även vår blogg om: skillnaden mellan data lake och data warehouse.
När vi talar om data lake-arkitektur menar vi de funktioner som finns tillhands för att bearbeta informationen. Eftersom en datasjö inte har någon struktur och endast innehåller rådata är det viktigt att arkitekturen har de funktioner som din organisation behöver för att kunna bearbeta och analysera informationen.
4 exempel på “best practice” för en data lake-arkitektur
Se till att data lake-arkitekturen har rätt funktioner redan från start.
1. Fastställ hur datamängderna ska bearbetas
Data management handlar om de processer, standarder och beräkningar som används för att säkerställa att data uppfyller det avsedda syftet. Här ingår även faktorer som kvalitet och säkerhet. En systematisk och förutsägbar bearbetning av data kräver effektiva verktyg.
I en data lake-arkitektur bör processer, standarder och beräkningar finnas på plats redan från början. Till exempel är det vanligt att filstorleken standardiseras genom att man sätter en gräns för hur stora filerna i datasjön får vara. Om filerna är för stora kan det bli svårt att bearbeta informationen.
På samma sätt bör det finnas en process för att identifiera problem med datakvaliteten i datasjön. Helst bör denna process i möjligaste mån vara automatiserad, dvs. att datamängderna skannas efter tecken på ofullständiga eller oläsliga data.
2. Skapa en datakatalog
En datakatalog innehåller information om de data som finns i datasjön och gör informationen enklare att hitta.
Innehållet i en datakatalog kan variera, men här ingår vanligtvis:
- Vilken behörighet som krävs för att få åtkomst
- Metadata, t.ex. var data kommer ifrån och tidskoder
- En beskrivning av vilka program som använder denna data
Om du skapar en datakatalog redan från start blir det lätt att utöka och uppdatera den efterhand som datamängderna ökar. Bestäm först vilken typ av information datakatalogen ska innehålla, baserat på verksamhetens behov. Implementera sedan ett verktyg som skannar all data som läggs till i sjön och automatiskt lägger till dessa uppgifter i datakatalogen.
3. Aktivera sök
Datakataloger gör det förvisso lättare att hitta och behandla data, men det är också viktigt att datasjön är sökbar. För att sökfunktionen ska vara effektiv bör du kunna söka efter data baserat på filstorlek, datum och innehåll.
En datasjö är vanligtvis väldigt stor och därför är det sällan möjligt att göra sökningar i den direkt. Skapa därför ett index och uppdatera det regelbundet.
4. Säkerställ informationssäkerheten
För att uppfylla kraven på behandling av personuppgifter och säkerställa att känslig information inte hamnar i orätta händer behövs bra funktioner och rutiner för dataskydd.
- Åtkomstkontroll
Med obligatorisk åtkomstkontroll får endast behöriga användare tillgång till datasjön. Åtkomstkontrollen kan implementeras på lokala servrar om data lagras lokalt eller via molnleverantörens IAM om datasjön är molnbaserad. - Kryptering
För att förhindra att obehöriga får tillgång till data kan kryptering byggas in i arkitekturen. Man bör dock vara medveten om riskerna med kryptering, för även om krypteringen skyddar informationen under lagringen dekrypteras den vanligen innan den används i olika program.
Två exempel på lyckade data lake-arkitekturer
Data lake-arkitektur för biomedicin
AstraZeneca är ett globalt, innovationsdrivet bioläkemedelsföretag med fokus på forskning, utveckling och marknadsföring av receptbelagda läkemedel. Med hjälp av en molnbaserad data lake lagrar och hanterar AstraZeneca 20 000 terabyte data. Tack vare AstraZenecas allsidiga strategi för arkitektur och hantering kan en enda datasjö fungera som datalager för ett antal olika avdelningar på företaget.
Data lake-arkitektur för teknikföretag
Johnson Controls levererar produkter för fastighetsautomation och klimatstyrning till kunder över hela världen. Företaget är beroende av data för att kunna erbjuda kunderna välfungerande produkter, tjänster och lösningar. Med hjälp av en molnbaserad data lake-arkitektur har företaget flyttat upp mer och mer av driften i molnet så att all information blir tillgänglig för alla delar av organisationen.
Läs även vår guid: Tid är pengar, men det är dina data också
Vill du lära dig mer om datavisualisering, data management eller budget & prognos ? Vi arrangerar regelbundet kostnadsfria webbinar och kurser.