Go Back Up

Datasjø – nesten alt du trenger å vite

Jan 5, 2022 12:05:44 PM • Skrevet av: InfoTiles

Det starter med en datastrøm...

Hvorfor skriver vi ned viktige ting? Er det fordi vi vil at fremtidige generasjoner skal vite om lunsjavtalene våre eller Strava-postene? Eller er det fordi vi ønsker å huske hva vi må gjøre, eller ønsker å forbedrer idrettsprestasjonene våre?

Organisasjoner har omtrent de samme spørsmålene, men i tillegg kommer behovet for andre personer og systemer for å få tilgang til disse postene og dermed er databaser en ting, og nå lurer du på om du trenger en datasjø.

Oversikt

Datasjøer er sentrale lagringssystemer hvor du kan lagre store mengder relaterte, urelaterte og ustrukturerte data – alt fra hyggelige tweets og telefonopptak til IoT-data.

Datasjøer skiller seg fra datavarehus i den forstand at sistnevnte er databaser for lagring og analyse av store mengder relasjonsdata, typisk fra forretningsapplikasjoner. På grunn av relasjonsdataene som lagres, har datavarehus strengere regler (skjema) om hva og hvordan data kan lagres.

Historie & hype

I begynnelsen var det big data. Folk, og selskaper, begynte å innse eller gjenoppdage verdien av å koble sammen «urelaterte» datasett i forsøk på å trekke frem ny innsikt. Mye av dette ble drevet av store teknologiselskaper som samlet store mengder brukerdata og ønsket å utnytte disse dataene til å avdekke mer innsikt i kundeadferd for å oppnå et konkurransefortrinn.

Når muliggjøringsfaktorer, som betydelige reduksjoner i lagringskostnader, tilgjengeligheten av utbredt bredbånd, og den relative enkle bruken av skytjenester for å være vert spilt inn, er mengden data som ble generert og beholdt en stadig stigende trend.

Det ble raskt klart at det ikke var ideelt å lagre alle disse dataene i tradisjonelle relasjonsdatabaser. Det var ingen tilsynelatende "relasjoner" å bruke for å kategorisere og pent lagre disse dataene. Tanken i big data er å prøve å oppdage disse relasjonene. Det var derfor behov for en 'database for urelaterte data', som raskt ble kjent som en 'Data Lake', et mye enklere konsept å kommunisere og selge.

Hva benyttes en datasjø til

  • Analyse - få en dypere forståelse av hva som skjedde og hvorfor
  • Kilde for prediksjon - bruker denne forståelsen til å forutsi hva som kan skje i fremtidige scenarier
  • Lagring av data for fremtidig bruk - for eksempel av Machine Learning eller AI

Så hva er en datasjø og hvordan fungerer den

I kjernen kan en datainnsjø ganske enkelt ses på som en bøtte som data kan plasseres i. Disse dataene kan være dokumenter, regneark, bilder, video og til og med sensoravlesninger og tweets.

I denne forbindelse kan det betraktes som en katalog der mange filer legges til. De av oss som liker å holde ting organisert vil rynke på nesen over denne tanken, men dette er en av nøkkelpunktene som datainnsjøer skiller seg på fra relasjonsdatabaser og datavarehus.

En tradisjonell database har struktur; for eksempel er alle kattebildene lagret på ett sted med tagger for rase og søthet. Alle ansattes journaler oppbevares separat, og så videre. Dette krever planlegging som må inkludere omtanke om alle typer data som skal lagres.

Datasjø fjerner denne planleggingen og lagrer i stedet alt sammen, men for at dette skal være nyttig må dataene katalogiseres. Denne prosessen legger til medfølgende metadata til alt innholdet i datasjøen. Dette betyr at relevant data senere kan hentes av en person eller et program basert på søkekriterier. På denne måten blir strukturen til datasjøen pålagt av søkeren når de foretar sitt søk, og ikke av administratoren av datasjøen.

Prosessen med katalogisering kan oppnås på forskjellige måter (som under Extract, Transform and Load (ETL), lenker som forklarer dette er gitt under "ytterligere lesing" nedenfor.

Når kan en ha behov for en datasjø

Hvis du virkelig trenger en form for datasjø, så vet du sannsynligvis allerede at du trenger det. Det vil si at du vil være klar over omfanget av ulike datasett du jobber med og bli kjent med utfordringene som hindrer deg i å utnytte full verdi fra dataene du har.

Hvis du leser dette av nysgjerrighet, kan det hende at en datasjø ikke er den beste veien til å oppnå verdi for deg akkurat nå. På samme måte som en tunnelboremaskin ikke er den beste måten å grave en grøft for å legge kabel til garasjen, er datasjø en spesialistløsning på et komplekst problem.

Når trenger du ikke en datasjø enda

Det finnes andre løsninger som tilbyr analyse av strukturerte og ustrukturerte data. Disse kan variere fra DIY-verktøy som Power BI til nøkkelferdige løsninger som kan innta, behandle og lagre store mengder data for senere analyse, både i løsningen og i ekstern programvare via APIer. Hvis du går denne ruten, bør du se etter løsninger med åpne standarder som ikke låser deg inn i et bestemt økosystem. Det er dataene dine, uansett hvor du bestemmer deg for å lagre dem.

Disse plattformbaserte løsningene er ofte bedre for organisasjoner med enkle til avanserte analysebehov (vanligvis med mindre enn 10 000 personer) som ennå ikke trenger å forfølge big data-prosjekter på flere millioner dollar.

Hva har denne artikkelen ikke tatt for seg

  • Sikkerhet. Dette er svært viktig når du tenker på at organisasjoner kan plassere alle typer sensitive data i datasjøen
  • Oppbevaring. En datasjø er bygget på toppen av lagringstjenester, ofte serverløse
  • Administrasjon og forvaltning. Mens en datasjø lagrer ustrukturerte data, må det være en viss organisasjon både for innholdskatalogen og vedlikeholdet av selve innsjøen
  • Styresett. Hvis datainnsjøen behandles som en dumpingplass for alle data uten hensiktsmessig organisering, vil verdien raskt avta ettersom det blir mer tidkrevende å finne relevante data. Også kjent som en datasump

Datasjø-leverandører

Hvis du har den nødvendige erfaringen i huset eller gjennom konsulenter du stoler på, har disse leverandørene alle robuste Data Lake-løsninger.

Alternativer

Ressurser

InfoTiles

InfoTiles provides AI-driven solutions that unlocks water insights, helping cities and utilities be more sustainable.