Tillbaka till huvudmeny

Bygg ett modernt datalager – allt du behöver veta

För de flesta, om inte alla organisationer, är data den viktigaste affärstillgången. Vi tittar närmare på hur man bygger en modern datalagringsarkitektur och går igenom vad ett datalager är.

Bygg ett modernt datalager
Bygg ett modernt datalager

Lär dig hur du skapar ett modernt datalager i Microsoft Azure upp till 10 gånger snabbare än standardmetoder.

För de flesta, om inte alla organisationer, är data den viktigaste affärstillgången. Det gör det inte bara möjligt för dem att fatta datadrivna beslut utan ger dem också möjlighet att göra sina affärsprocesser mer effektiva och deras anställda mer produktiva.

Men trots detta misslyckas många organisationer med att realisera något värde från sina data, antingen för att de inte har något sätt att enkelt komma åt sina data eller för att de inte har de nödvändiga verktygen och systemen på plats för att analysera dem ordentligt. Med andra ord saknar de nödvändiga datahanteringsfunktionerna. Det är här det moderna datalagret kommer in i bilden.

Det gör det nämligen möjligt för organisationer att omvandla den enorma mängden data som de samlar in från olika operativsystem, till exempel marknadsföringsplattformar, CRM och försäljningsplattformar till handlingsbara data som är lätta att förstå. Som sådan kan den lagra historiska data och mata in aktuella data från en mängd olika system för att bilda en enda sanningskälla som gör det möjligt för organisationer att fatta bättre beslut. 

Problemet är dock att det kan vara utmanande för organisationer att implementera ett modernt datalager eller modernt data estate som passar deras specifika behov och krav. Vad som förvärrar denna utmaning är att det finns så mycket information tillgänglig där ute att det är svårt att veta var man ska börja eller ens hitta rätt information.

Lyckligtvis är vi här för att hjälpa till, och med den här artikeln kommer vi att titta på moderna datalager mer detaljerat och se vad deras egenskaper är, varför du bör överväga att modernisera ditt datalager och ännu viktigare, hur du ska gå tillväga för att implementera ett modernt datalager.

Vill du lära dig mer om moderna datalager eller veta hur vi på Visma bWise kan hjälpa dig?

Boka en kostnadsfri demo med oss redan idag!

Vad är ett datalager?

Innan vi tittar närmare på en modern datalagringsarkitektur börjar vi med grunderna och tittar på vad ett datalager är. Enligt Wikipedia har ett datalager flera grundläggande egenskaper. Dessa är:

  • Ett datalager används för rapportering och dataanalys och är en kärnkomponent i business intelligence.
  • Datalager är centrala databaser med integrerade data som samlas in från en eller flera olika källor eller verksamhetsområden.
  • Datalager lagrar både aktuella och historiska data på en enda plats där de används för att skapa analytiska rapporter för anställda genom hela företaget.
  • Den data som lagras i ett datalager samlas in från olika operativa system som marknadsföring eller försäljning.
  • Data i datalagret kan passera genom ett operativt datalager och kan kräva datarensning för att säkerställa datakvalitet och integritet innan de används för rapportering och analys.

Konceptet låter kanske något komplicerat, det är därför nödvändigt att packa upp egenskaperna ovan till en enkel definition.

Vi kan definiera ett datalager som ett centralt dataförvar som samlar in, lagrar och konsoliderar data från en mängd olika källor inom en organisation för att stödja dataanalys och business intelligence. 

Om vi förenklar detta ytterligare kan vi säga att ett datalager samlar in data, bearbetar dem och organiserar det för att underlätta effektiv analys. 

Nu när vi har en enkel definition för ett datalager måste vi skilja det från andra vanliga datalösningar för att reda ut all förvirring. Så jämfört med datalager:

  • Databaser samlar in data för att möjliggöra rapportering, men är inte utformade för att centralisera och lagra stora mängder data. Databaser är dock en kärnkomponent i ett datalager.
  • Data lakes förvarar också stora mängder data, men denna data är strukturerade, halvstrukturerade, ostrukturerade i sitt ursprungliga format, och bearbetar denna data på begäran. Data lakes har därför ett annat syfte men kompletterar datalagret.
  • Data marts är en enkel form av datalager och samlar därför bara in data från ett fåtal källor och används vanligtvis bara i vissa delar av en organisation.

Läs även: Data lake vs data warehouse – de största skillnaderna?

Vad är ett modernt datalager?

Även om datalager har funnits ganska länge har de utvecklats avsevärt på senare tid som ett resultat av nya tekniska innovationer och tillkomsten och populariteten av Big Data. Så nu när vi har tittat på vad ett datalager är, låt oss ta ytterligare ett steg och överväga vad ett modernt datalager är.

Även om det inte finns någon strikt definition av vad ett modernt datalager är så finns det några övergripande teman. Dessa är:

  • Automatisering. Moderna datalager implementerar verktyg för datautvinning och omvandling samt en mängd olika automatiseringsverktyg som förenklar processen för att samla in, lagra och analysera data. Dessa verktyg hjälper i sin tur organisationer att säkerställa datakvalitet och integritet samtidigt som fel elimineras. I slutändan gör detta dem mer produktiva och effektiva.
  • Flexibilitet. Moderna datalager är vanligtvis tillräckligt flexibla för att organisationer ska kunna göra justeringar när deras specifika behov och krav ändras. Till skillnad från traditionella datalager där detta helt enkelt inte var möjligt.
  • Modularitet. Moderna datalager har vanligtvis en modulär arkitektur som gör det möjligt för organisationer att implementera och använda specifika komponenter beroende på deras specifika behov och krav. Detta gör det också möjligt för dem att utöka sitt datalager vid behov.
  • Robust och motståndskraftighet. Moderna datalager har ofta mycket redundanta, komponenter tillgängliga som en del av arkitekturen, vilket säkerställer att tjänsterna alltid är tillgängliga. Som ett resultat stöder det helt en organisations affärsverksamhet och eliminerar fel som kan påverka deras prestanda.
  • Skalbarhet. På grund av deras modulära arkitektur och deras förmåga att skalas upp eller ner beroende på en organisations behov och krav är moderna datalager mycket mer skalbara än sina traditionella motsvarigheter där organisationer begränsas av fasta installationer av hårdvara.
  • Data. Moderna datalager gör det möjligt för organisationer att samla in och lagra olika typer av data, inklusive strömmad data, strukturerad data, halvstrukturerade data och ostrukturerade data.
  • Komponenter. Moderna datalager har vanligtvis en mängd inbyggda komponenter, tillägg och inbyggda paket. Detta gör det möjligt för organisationer att utöka plattformens funktionalitet vid behov och minimerar anpassad kodning vid implementering och underhåll av datalagret.
  • Cloud-first. Molntekniken har utvecklats avsevärt under de senaste åren, och den har blivit mycket billigare. Som ett resultat är det mycket billigare än lokal datainfrastruktur där organisationer behöver installera och underhålla hårdvara och uppdatera programvara. Enkelt uttryckt minskar det underhållskostnaden för traditionella datalagermodeller samtidigt som priset sänks.

Läs även: Data lake-arkitektur – [best practice]

Behöver du ett modernt datalager?

Du behöver vanligtvis modernisera datalagret om du kämpar med följande:

  • Du har olika typer av användare som du vill tillhandahålla data för (privilegierade användare som arbetar med rådata och AI och ML i ODX, företagsanvändare som arbetar med rengjorda, berikade och konsoliderade data i datalagret eller tillfälliga användare som arbetar med rutinrapporter i det semantiska lagret).
  • Du vill lägga mer tid på att få värde från dina data än att organisera, rensa och orkestrera dem.
  • Du spenderar för mycket tid på att vänta på att data ska levereras till dig.
  • Du ägnar för mycket tid åt att dokumentera det.
  • Du har problem med versionskontrollen.
  • Du vill vara oberoende av utvecklaren.
  • Du vill vara oberoende av frontend.
  • Du samlar in data från olika källor som tar mycket tid och ansträngning och kan leda till missade affärsmöjligheter.
  • Du har inte en enda vy över dina affärsprocesser. Som ett resultat är du mindre effektiv och mindre produktiv.
  • Du kämpar för att identifiera dina mest värdefulla kunder och som ett resultat kan du inte förbättra dina processer för att behålla dina kunder.
  • Du har inte tillräckligt med information och data om dina kunder, vilket påverkar dina marknadsföringskampanjer negativt och gör dem mindre effektiva och ineffektiva.
  • Kvaliteten på dina data är sådan att du inte har stabil rapportering. Detta påverkar sedan dina affärsprocesser negativt.
  • Du har svårt att importera och integrera data från dina affärssystem på grund av skalbarhets- och tillgänglighetsproblem.
  • Den takt med vilken du konsumerar data är för snabb. Med andra ord är fönstret för att samla in data, analysera dem och rapportera om data för kort.

Genom att modernisera ditt datalager eliminerar du alla dessa utmaningar, eftersom det gör att du kan omvandla stora mängder data från dina operativa system till ett format som är lätt att förstå. Eftersom datalager är optimerade för läsåtkomst kan du generera rapporter snabbare. Detta gör i sin tur att du kan fatta bättre beslut och göra din affärsprocess mer effektiv och produktiv.  

Dessutom kommer du att få många andra fördelar  när du moderniserar ditt datalager. Dessa inkluderar:

  • Om du väljer en ”cloud-first”-metod behöver du inte köpa, installera eller underhålla fysisk maskinvara. Som sådan har du inga investeringar i förväg, och du har bara en låg driftsutgift.
  • Moderna datalager är mycket mindre komplexa att installera jämfört med sina traditionella motsvarigheter.
  • Moderna datalager är mycket enklare, snabbare och billigare att skala när dina behov och krav ändras.
  • Moderna datalager kan utföra komplexa analytiska förfrågningar mycket snabbare än traditionella datalager på grund av hur de lagrar data. Detta innebär i slutändan att du kan få insikter om dina data snabbare och fatta bättre beslut snabbare.

Enkelt uttryckt är modern datalagring ett enkelt och kostnadseffektivt sätt för dig och din organisation att dra nytta av de senaste innovationerna inom teknik och få insikter från dina data utan bekostnad av traditionella datalager.

Så här implementerar du ett modernt datalager med Azure

Nu när vi har tagit igen vad ett modernt datalager är och varför du bör överväga att modernisera ditt datalager, ska vi titta på hur du skapar ett modernt datalager med Azure.

Mål för att implementera ett datalager

Att bygga och implementera ett modernt datalager kan ta upp till tre år och med tanke på alla aspekter du bör fokusera på är det helt enkelt inte möjligt att implementera hela lösningen på en gång. Det är därför vettigt att strukturera implementeringen av datalagret i mindre delar. Med andra ord implementerar du ditt datalager i faser, var och en med sina egna mål och krav.

Med det i åtanke kan målen för din första fas vanligtvis se ut så här:

  • Skapa en central, enhetlig datamodell som utnyttjar data från ett enda företag eller operativa områden som försäljning, marknadsföring eller mänskliga resurser, men som i tillräcklig utsträckning möjliggör expansion till andra operativa områden i framtiden.
  • Integrera data från ditt största affärssystem i datalagret.
  • Gör data tillgängliga vid en angiven lokal tid oavsett när data samlas in eller vilken typ av data som finns tillgängliga.
  • Nya data från ditt affärssystem bör läsas in regelbundet i datalagret.
  • Data i datalagret bör förberedas för användning av alla anställda i hela organisationen, och säkerhetsinställningar säkerställer att datakonsumenter har åtkomst till relevanta data och skyddas från data som inte är relevanta.
  • Den analytiska modellen som ger dig värdefulla insikter i dina data kommer att innehålla stora mängder historisk affärsdata.
  • Utveckla en översiktspanel för det specifika affärsområdet med alla säkerhetsåtgärder som tillämpas och som svarar på mindre än några sekunder.

Även om dessa mål kan skilja sig något beroende på dina specifika behov och krav, är de vanligtvis standardmålen för många implementeringar av datalager. Som du kan föreställa dig kräver de dock mycket arbete och kommer med en uppsättning utmaningar som du måste övervinna för att göra en framgångsrik implementation.

Med det i åtanke, låt oss titta på processen att implementera ett företags datalager.

Typisk modern datalagerarkitektur

För att få en överblick av implementeringsprocessen hanterar vi varje komponent i en typisk modern datalagerarkitektur i Azure. I det här exemplet består Azure-arkitekturen av:

  • SQL Server som datakälla.
  • Blob storage i form av Azure Data Lake  Gen 2 för lagring av data innan du läser in dem i datalagret.
  • SQL Elastic-pool för att utföra analyser på stora mängder data.
  • Azure Analysis Services för att tillhandahålla data modellerings funktioner.
  • Azure Active Directory för att autentisera användare som ansluter till Azure Analysis Services via Power BI. 

Hämta data

Som nämnts ovan är ett av de första målen med att implementera ett datalager att bygga en central, enhetlig datamodell som använder data från ett enda operativt område. Du måste också integrera data från ditt största affärssystem i datalagret.

För att göra detta måste du kombinera alla strukturerade, ostrukturerade och halvstrukturerade  data. Vanligtvis består ostrukturerade data av loggar, filer och olika typer av media. Å andra sidan kommer strukturerad data att vara de data du får från dina affärsapplikationer som din CRM, marknadsföringsplattform eller försäljningsplattform. Som tidigare nämnts använder vi bara en datakälla i det här exemplet. 

Lagra data

När du vet hur och vilka data du kommer att mata in data i ditt datalager är nästa steg att extrahera alla data från respektive källor till filer. Här kommer du att möta en av de största utmaningarna med ett modernt datalager: hur lagrar du data effektivt?

För att svara på denna fråga måste du vanligtvis överväga 3 viktiga saker:

  • Var du kommer att lagra filerna och hur du kommer att strukturera och organisera dem.
  • Hur du ska dela upp filerna och hur mycket data varje fil ska innehålla.
  • Vilket filformat du ska extrahera data till.

Låt oss titta närmare på dessa frågor.

Var kommer du att lagra filerna och hur kommer du att strukturera och organisera dem?

Det är mycket viktigt att planera hur dina ostrukturerade, halvstrukturerade och strukturerade rådata från dina datakällor ska lagras. När du implementerar ett modernt datalager på Microsoft Azure kan du lagra dina filer i en data lake eller Blob Storage är Microsofts objektlagringslösning för molnet. Den är särskilt utformad och optimerad för lagring av stora mängder ostrukturerad data. Som sådan är den fullt kapabel med:

  • Visa bilder, filer eller dokument direkt till en webbläsare.
  • Lagra filer för distribuerad åtkomst i ett helt företag.
  • Strömmande video och ljud.
  • Skriva data till loggfiler.
  • Lagra data för säkerhetskopierings- och återställningsåtgärder, arkivering eller haveriberedskap.
  • Lagra data för analys av en Azure-värd eller lokal dataanalyslösning.  

Azure Data Lake Storage Gen2 är däremot byggt på Azure Blob Storage och har en uppsättning funktioner som är specifikt inriktade på analys av Big Data. Den kombinerar effektivt funktionerna i Azure Data Lake Storage Gen1 med Azure Blob Storage. Som sådan tillhandahåller Data Lake Storage Gen 2:

  • Ett hierarkiskt filsystem.
  • Semantik för filsystem.
  • Säkerhet på filnivå.
  • Skalbarhet.
  • Låg kostnad, nivåindelad lagring.
  • Hög tillgänglighet.
  • Stark konsistens.
  • Funktioner för haveriberedskap.

Även om valet av rätt lagringslösning beror på dina specifika behov och krav, utformas och implementeras moderna datalager med stordataanalys i åtanke. När du implementerar ett modernt datalager kan Azure Data Lake Storage Gen 2 vara det lämpligaste valet.

När du väljer att implementera den kan du vanligtvis åtnjuta följande fördelar:

  • Centraliserad åtkomst till en replikering av data i de olika datakällorna.
  • Datalagrets prestanda optimeras eftersom du inte behöver kopiera eller omvandla data som ett krav för analys. Om du jämför detta med Blob Storages platta namnrymd (namespace) kan du med en hierarkiska namnrymd förbättra den övergripande prestandan genom att förbättra prestanda för kataloghanteringsåtgärder.
  • Datahantering blir enklare eftersom du kan ordna dina data i kataloger och underkataloger.
  • Eftersom du kan definiera POSIX-behörigheter för kataloger eller enskilda filer är säkerheten verkställbar.
  • Eftersom den bygger på Azure Blob Storage som är designad för att vara billig är den mycket kostnadseffektiv och dess ytterligare funktioner sänker ägandekostnaden ytterligare.

Hur delar du filerna och hur mycket data kommer varje fil att innehålla?

När du har bestämt vilken lagringslösning du ska använda är nästa viktiga sak du måste bestämma hur data i data lake ska struktureras. Med andra ord måste du planera vilka mappar du ska använda för att lagra data i, hur dessa mappar ska partitioneras och hur du ska namnge mapparna och enskilda filer.

Det är viktigt att du planerar dessa aspekter noggrant eftersom de i slutändan kommer att avgöra hur enkelt du kommer att kunna navigera genom data som lagras i din data lake.

Nästa steg blir att planera hur du ska dela upp filerna och hur mycket data varje fil ska innehålla. Här måste du vanligtvis ta hänsyn till hur mycket data du redan har och hur snabbt volymen av dina data ökar. Med hjälp av den här informationen kan du sedan bestämma hur du ska dela upp data i filer.

Med ordlistdata använder du till exempel vanligtvis en fil för all data i en ordlisttabell, oavsett hur mycket datatabellen lagrar. Med transaktionsdata kan du däremot välja mellan att lagra data för en dag, en månad, ett år eller längre eller kortare beroende på dina specifika behov och krav.

Vilket filformat kommer du att använda för att extrahera data till?

Nästa beslut du behöver göra är att bestämma vilket format du ska extrahera data till. Även om detta kan låta som ett enkelt val är det viktigt att få det rätt eftersom filformatet har en betydande inverkan på den slutliga datastorleken.

Vanligtvis kan du välja mellan följande filformat:

  • Avro-format
  • Binärt format
  • Avgränsat textformat
  • Excel-format
  • JSON-format
  • ORC-format
  • Parkettformat
  • XML-format

Du måste noggrant överväga i vilket filformatet dina data är och vad effekten blir om du lagrar den i ett av ovanstående format. Om du till exempel flyttar data från textfiler som skapats från en SQL-databas kan datastorleken öka avsevärt med vissa format medan den kan minska med andra.

Att göra rätt val kan innebära inte bara minska mängden lagring du behöver avsevärt utan kan också avsevärt minska den tid det tar att överföra dina data till molnet.

När din planering är klar kan du fortsätta att extrahera data och överföra den till din data lake. Här har du många alternativ som Azure CLI och PowerShell. Ett av de bästa alternativen är dock TimeXtender. TimeXtender är särskilt utformat för högpresterande kopiering av data till Azure Blob Storage och är därför ett snabbt och effektivt sätt att överföra dina data från din lokala lagring till Azure. 

Det finns dock några saker du behöver tänka på när du kopierar dina data till din Azure Data Lake Storage Gen 2. För det första bör du inte köra verktyget på samma dator som kör dina produktionsarbeten eftersom de resurser som behövs kan störa dina produktionsarbeten.

Du bör också sträva efter att skapa ett lagringskonto i en region nära där din lokala lagring finns för att säkerställa att överföringen sker snabbare. Slutligen skapar AzCopy en tillfällig journalfil när du överför data som gör att den kan starta om överföringen om den avbryts. Du bör därför se till att du har tillräckligt med lagringsutrymme tillgängligt för att lagra journalfilerna.

Användning av data

Kom ihåg att det ultimata målet med att ha ett modernt datalager byggt på Azure är att förse data till Power BI-instrumentpaneler för alla delar av företaget. För att uppnå detta måste du läsa in filerna från er data lake till ert datalagret.

Här använder du Polybase  för att läsa in filerna i datalagret. Den använder Azure Synapses MPP (Massively Parallel Processing) vilket gör det till det snabbaste sättet att läsa in data i Azure Synapse. 

Att läsa in data i Azure Synapse är en tvåstegsprocess. Under det första steget skapar du en uppsättning externa tabeller för data. Dessa externa tabeller är bara tabelldefinitioner som pekar på data som lagras utanför Azure Synapse, i vårt fall i en data lake. Det är viktigt att notera att det här steget inte flyttar någon data till distributionslagret.

Under nästa steg skapar du mellanlagringstabeller och läser in data i dessa mellanlagringstabeller. Under det här steget kopieras data till distributionslagret. När data har kopierats till Azure Synapse omvandlar du data och flyttar den till produktionstabeller som är lämpliga för semantisk modellering.

Därefter läser du in data i en tabellmodell i Azure Analysis Services. Under det här steget skapar du vanligtvis en semantisk modell med SSDT (SQL Server Data Tools). Här har du också möjlighet att skapa en semantisk modell genom att importera den från en Power BI Desktop-fil.

Här bör du tänka på att du måste lägga till relationerna till den semantiska modellen så att du kan koppla data över tabeller. Detta beror helt enkelt på att Azure Synapse inte stöder främmande nycklar. När du är klar med det här steget kan du visualisera dina data i Power BI.

Power BI har två alternativ för att ansluta till Azure Analysis Services så att du kan visualisera dina data. Den första är att importera din data till Power BI. Det andra alternativet är att använda Live Connection där Power BI hämtar data direkt från Azure Analysis Services.

Även om valet i slutändan beror på dina specifika behov och krav, rekommenderas att du använder Live Connection eftersom du inte behöver kopiera data till Power BI.

När du visualiserar dina data finns det också några saker du behöver tänka på. För det första är Azure Analytics Services särskilt utformat för att hantera för att fråga krav på en Power BI-instrumentpanel. Därför är det en rekommenderad metod att förfråga Azure Analytics Services direkt från Power BI.

Med tanke på ovanstående är det andra du behöver tänka på att du bör undvika att göra förfrågningar direkt mot datalagret. Detta kan påverka prestanda eftersom uppdatering av instrumentpanelen räknas mot antalet samtidiga förfrågningar.

Utöka förmågor och funktioner

Vi nämnde tidigare att ett modernt datalager bör implementeras i faser och vårt exempel ovan illustrerar perfekt hur den första fasen av implementeringen kan se ut. Så hur ser implementeringen ut i senare skeden när vi vill inkorporera fler funktioner i datalagret?

I det här exemplet ska vi bygga vidare på föregående exempel och lägga till några funktioner som är viktiga för moderna implementeringar av datalager. Dessa funktioner inkluderar:

  • Automatisera pipelinen med Data Factory.
  • Stegvis inläsning av data.
  • Integrera data från flera källor.
  • Läsa in och använda binära data som geospatiala data, bilder och andra medier.

I det här exemplet består Azure-arkitekturen av:

  • Lokal SQL Server och extern data som datakällor.
  • Blob-storage för lagring av data innan du läser in den i Azure Synapse.
  • Azure Data Factory för att orkestrera och automatisera förflyttning och omvandling av data och samordna de olika stadierna i processen extrahera, ladda, transformera (ELT).
  • Azure Analysis Services som tillhandahåller datamodelleringsfunktioner.
  • Power BI för dataanalys.
  • Azure Active Directory för att autentisera användare som använder Power BI för att ansluta till Azure Analysis Services.

Datapipeline och stegvis inläsning

Om du vill mata in dina data i data lagret använder du Data Factory-pipelines. Dessa pipelines är logiska grupper av aktiviteter som arbetar tillsammans för att utföra en viss uppgift. En pipeline kan till exempel innehålla en uppsättning aktiviteter som indata och rensar data från en mängd olika system och sedan startar ett dataflöde för att analysera dessa data.

Ett annat exempel skulle vara när du använder en kopieringsaktivitet för att kopiera externa data från till exempel en SQL-databas till din Azure Blob Storage. Detta liknar vårt exempel där vi använder en pipeline för att läsa in och omvandla data till Azure Synapse.

En av de främsta fördelarna med att använda dessa pipelines är att det låter dig hantera aktiviteterna tillsammans istället för var och en individuellt. Du distribuerar och schemalägger därför pipelinen i stället för att distribuera varje aktivitet oberoende av varandra.

Till skillnad från vårt första exempel kommer den här arkitekturen också att implementera inkrementell inläsning av data. När du använder en automatiserad ELT-process är det mycket effektivare att bara läsa in ny data, eller med andra ord bara data som har ändrats, i data lagret jämfört med att läsa in alla data.

Även kallade systemversionstabeller, dessa tabeller ger information om de data som lagras i tabellen när som helst. Det gör detta genom att automatiskt registrera historiken för alla ändringar i en separat historiktabell. Från ett ETL-perspektiv kan du sedan förfråga historiska data för att avgöra om en inkrementell inläsning ska utföras.

I slutändan kommer Data Factory att utföra en inkrementell belastning om det finns några ändringar. Tänk på att när en ny batch med data har lästs in i distributionslagret måste du uppdatera tabellmodellen i Analysis Services. Det är också viktigt att komma ihåg att datarensning bör vara en del av din ELT-process för att säkerställa data av god kvalitet.  

Flera datakällor

Till skillnad från vårt första exempel kommer vi nu att införliva flera datakällor. Här dirigerar och samordnar din datafabrik utvinningen av data från de externa källorna till vår Blob Storage eller Azure Data Lake Storage Gen 2 med hjälp av Copy Activity för att flytta data från både lokal- och molndatakällor. Precis som tidigare kan du kopiera data till en data lake i något av de filformat som nämndes tidigare. 

Härifrån kan den kopiera data direkt till Azure Synapse med hjälp av anslutningen för Blob Storage. Det är dock viktigt att komma ihåg att anslutningen för Blob Storage endast stöder vissa autentiseringstyper som autentisering av kontonyckel, autentisering av signatur för delad åtkomst och systemtilldelad hanterad identitetsautentisering, bland andra.

Därför kräver den en anslutningssträng eller en signatur för delad åtkomst och kan därför inte användas för att kopiera en blob med offentlig läsåtkomst. För en blob med offentlig läsåtkomst måste du använda Polybase för att skapa en extern tabell över Blob Storage och kopiera den externa tabellen till Azure Synapse.

Binära data

När du arbetar med binära data kan Data Factorys Copy Activity också kopiera från din datakälla till din data lake och vidare till Azure Synapse. Det är dock viktigt att notera att när du använder Copy Activity kan du bara kopiera från binära data till binära data.   

Du bör också hålla i åtanke att när du använder Polybase som lösning stöder den bara maximal kolumnstorlek på 8000 byte. I det här fallet måste du dela upp data i mindre bitar under kopieringen och sedan sätta ihop bitarna igen efter kopieringen är klar.

Slutsats

Det är ingen hemlighet att smidighet på dagens konkurrensutsatta marknad är helt avgörande för framgång. Det gör det inte bara möjligt för organisationer att anpassa sig till förändrade marknadsförhållanden och dra nytta av affärsmöjligheter när de uppstår, utan det gör dem också mer effektiva.

Så när du vill ge din organisation den smidighet och flexibilitet som krävs av dagens konkurrensutsatta marknad är det viktigt att du implementerar eller moderniserar ditt datalager. Det låter dig kombinera data från alla dina operativa områden till en sanningskälla och ger dig ökad skalbarhet, flexibilitet och automatiseringsfunktioner.Förhoppningsvis hjälpte det här inlägget till att illustrera hur du kan implementera ett modernt datalager.

För att lära dig mer om moderna datalager eller hur vi på Visma bWise kan hjälpa dig?

Kontakta oss här!