Industriële fabricage
Industrieel internet der dingen | Industriële materialen | Onderhoud en reparatie van apparatuur | Industriële programmering |
home  MfgRobots >> Industriële fabricage >  >> Manufacturing Technology >> Industriële technologie

The Modern Data Estate:Data Lake vs. Data Warehouse

27 juli 2021  

Bron:MCA Connect | Productie morgen

Gegevens komen snel en in vele vormen bij ons binnen. Deze verschillende vormen kunnen gestructureerde, semi-gestructureerde en ongestructureerde data bevatten en veel mensen realiseren zich niet dat een datawarehouse en een data lake de data anders behandelen.

Een modern datapark moet meerdere methoden bieden voor het opnemen en opslaan van de verschillende data die bedrijven genereren. Data komt snel en in vele vormen op ons af. Deze verschillende vormen kunnen gestructureerde, semi-gestructureerde en ongestructureerde data bevatten en veel mensen realiseren zich niet dat een datawarehouse en een data lake de data anders behandelen. Laten we deze verschillende soorten gegevens eens nader bekijken:

  1. Gestructureerd – traditionele databases zoals de transactiedatabase voor uw ERP- of CRM-systeem met formele kolom- en tabeldefinities
  2. Semi-gestructureerd – bestanden zoals XML of JSON die zichzelf beschrijven met tags voor elementen en hiërarchieën
  3. Ongestructureerd – afbeeldingen, video, audio en andere binaire gegevens

Traditionele datawarehouse-ontwerpen bestaan ​​​​al vele decennia, terwijl het concept, of in ieder geval de term, data lake een wat nieuwere constructie is. Elk van deze heeft een plaats in de databank van uw organisatie.

Het datawarehouse

Zoals we hierboven kunnen zien, kunnen databronnen zeer divers zijn en verschillende datarepresentaties hebben, wat kan leiden tot uiteenlopende informatie. Bovendien maakt de grote verscheidenheid aan schema's en structuren in gegevensbronnen het moeilijk om geconsolideerde informatie te verkrijgen wanneer een volledige momentopname van de gegevens vereist is van alle bedrijfssubsystemen. Over het algemeen is dit de belangrijkste reden voor de opkomst van Data Warehouse-oplossingen.

Een datawarehouse is een formeel ontwerp, vaak gebaseerd op ontwerprichtlijnen die een formeel ETL-proces (Extract-Transform-Load) implementeert om ruwe, gestructureerde datasets te consumeren en deze in een model te laden dat is ontworpen voor rapportage. Datawarehouses zijn gebouwd op relationele databases zoals Azure Synapse, voorheen Microsoft SQL Server. Azure Synapse is ontworpen om gestructureerde gegevens op te slaan in tabellen met traditionele rijen en kolommen, maar heeft wel de mogelijkheid om semi-gestructureerde gegevens zoals XML en JSON op te slaan.

Het datameer

Een datameer zet het concept van ETL op zijn kop en implementeert een ELT-proces (Extract-Load-Transform). Het opnemen van gegevens in het datameer is in wezen gewoon alles waarvan u denkt dat het op een bepaald moment waardevol kan zijn, in een groot opslaggebied gooien, ongeacht het gegevenstype of de structuur. Datameren kunnen gestructureerde, semi-gestructureerde en ongestructureerde data opslaan. Data lakes die in Microsoft Azure worden geleverd, zijn gebouwd op opslagaccounts waarbij Data Lake Storage Gen2 is ingeschakeld bij het maken van het opslagaccount.

De gedachte achter een datameer is dat u alle gegevens wilt consumeren en deze op een later moment zult sorteren, terwijl het datawarehouse de waarde vooraf moet identificeren met aanzienlijke investeringen om de opname te ontwikkelen. Vanwege de zware initiële investering die doorgaans vereist is om een ​​datawarehouse te ontwikkelen, bestaat het risico dat de brongegevens niet langer beschikbaar zijn en mogelijk voor altijd verdwenen zijn als later wordt vastgesteld dat u gegevens nodig heeft die niet in eerste instantie waren ingevoerd.

Doel:niet bepaald versus in gebruik

Het doel van individuele datastukken in een datalake staat niet vast. Ruwe gegevens stromen in een datameer, soms met een specifiek toekomstig gebruik in gedachten en soms gewoon om bij de hand te hebben. Dit betekent dat datameren minder organisatie en minder filtratie van gegevens hebben dan hun tegenhanger.

Verwerkte gegevens zijn onbewerkte gegevens die voor een specifiek gebruik zijn gebruikt. Omdat datawarehouses alleen verwerkte gegevens bevatten, worden alle gegevens in een datawarehouse voor een specifiek doel binnen de organisatie gebruikt. Dit betekent dat er geen opslagruimte wordt verspild aan gegevens die misschien nooit worden gebruikt.

Toegankelijkheid

Toegankelijkheid en gebruiksgemak hebben betrekking op het gebruik van de gegevensopslag als geheel, niet de gegevens erin. Data lake-architectuur heeft geen structuur en is daarom gemakkelijk toegankelijk en gemakkelijk te wijzigen. Bovendien kunnen alle wijzigingen die aan de gegevens worden aangebracht snel worden gedaan, aangezien datameren zeer weinig beperkingen hebben.

Datawarehouses zijn van nature meer gestructureerd. Een groot voordeel van datawarehouse-architectuur is dat de verwerking en structuur van data de data zelf gemakkelijker te ontcijferen maakt, de beperkingen van de structuur maken datawarehouses moeilijk en kostbaar om te manipuleren.

De voordelen van beide

Datameren zijn een kosteneffectieve manier om grote hoeveelheden gegevens uit vele bronnen op te slaan. Door gegevens van elke structuur toe te staan, worden de kosten verlaagd omdat gegevens flexibeler en schaalbaarder zijn omdat de gegevens niet in een specifiek patroon hoeven te passen. Gestructureerde gegevens zijn echter gemakkelijker te analyseren omdat ze schoner zijn en een uniform schema hebben om uit te zoeken. Door gegevens te beperken tot een schema, zijn datawarehouses zeer efficiënt voor het analyseren van historische gegevens voor specifieke gegevensbeslissingen. Zowel een goed datawarehouse als een datameer zijn cruciaal voor het toekomstige succes van uw organisatie en horen thuis in uw moderne datadomein.

Wat is een gegevensdomein?

Het opzetten van een modern datapark is een fundamentele stap in de richting van digitale transformatie. Een modern datapark zorgt voor tijdige inzichten en besluitvorming over al je data en legt de basis voor AI. Een data estate is alle data die een organisatie bezit. Wanneer u deze gegevens naar de cloud migreert of uw omgeving on-premises moderniseert, kunt u belangrijke inzichten verkrijgen om innovatie te stimuleren.

Microsoft Dynamics 365 pre-built datawarehouse, DataCONNECT

Het bouwen van een datawarehouse kan erg duur en tijdrovend zijn om uw bronsystemen goed te beoordelen, een datamodel te ontwerpen en de benodigde ETL te creëren om het te verwerken. MCA Connect ontwikkelde onze DataCONNECT Data Warehouse-oplossing voor Microsoft Dynamics AX, Dynamics 365 Finance en Customer Engagement. Deze oplossing versnelt de tijdlijn voor de levering van een uitgebreide datawarehouse-oplossing aanzienlijk, terwijl de implementatiekosten worden verlaagd. Het is ook een geweldige manier om te beginnen met het opbouwen van uw uitgebreide datagoed.

DataCONNECT kan organisaties voorzien van snelle, nauwkeurige informatie, waardoor ze operaties nauwkeurig kunnen voorspellen, aanpassen en vormgeven. U kunt snel gevalideerde gegevens in prognosemodellen opnemen, zodat u kunt beginnen met uw planningscycli voor onderdelen van uw bedrijf. Als u meer wilt weten over hoe het DataCONNECT Data Warehouse of een data lake uw bedrijf kan helpen bij het opslaan van big data, neem dan contact met ons op. Een van onze experts helpt je graag in de goede richting.

De inhoud en meningen in dit artikel zijn die van de auteur en vertegenwoordigen niet noodzakelijk de mening van Manufacturing Tomorrow.


Industriële technologie

  1. De vierde industriële revolutie
  2. Datacompatibel blijven in het IoT
  3. Wat moet ik doen met de gegevens?!
  4. De ontwikkeling van moderne kunststoffen
  5. Onderhoud in de digitale wereld
  6. Het IoT democratiseren
  7. De waarde van IoT-gegevens maximaliseren
  8. De waarde van analoge meting
  9. Strategische datasourcing is de moderne manier om verstoringen te voorkomen
  10. Hoe u het maximale uit uw magazijnscansysteem haalt
  11. De cloud in IoT