Industriële fabricage
Industrieel internet der dingen | Industriële materialen | Onderhoud en reparatie van apparatuur | Industriële programmering |
home  MfgRobots >> Industriële fabricage >  >> Industrial Internet of Things >> Internet of Things-technologie

Bestandsgegevens gereed maken voor Cloud Data Lakes

Een cloud data lake-strategie is een natuurlijke evolutie voor data-intensieve zakelijke IT-organisaties die naar de cloud verhuizen, omdat het de cloud verheft van een goedkope locker voor gegevensopslag tot een plek waar gegevens kunnen worden gebruikt voor nieuwe waarde en geld kunnen worden verdiend.

Als 2020 en 2021 de jaren waren van snelle cloudversnelling, zal 2022 het jaar zijn waarin bedrijven serieus beginnen te worden met het brengen van ongestructureerde bestandsgegevens naar clouddatameren. Er zijn een paar redenen achter deze trend. Ten eerste zitten organisaties op petabytes aan ongestructureerde data, die ten minste 80% uitmaken van de 64 zetabytes aan data (en die groeien) vandaag de dag wereldwijd. Het meeste hiervan zijn bestandsgegevens, van medische beelden tot streaming video, sensorgegevens van elektrische auto's en IoT-producten en de documenten die mensen in elke sector gebruiken om samen te werken en zaken te doen.

Ten tweede worden bestandsgegevens onhandelbaar, kostbaar om op te slaan en CIO's weten dat ze op een potentiële goudmijn aan inzichten zitten, als ze maar konden bepalen hoe ze deze op de juiste plaatsen voor analyse konden krijgen. Ten slotte investeren de grote cloudplatforms zwaar in data-analyse/ML/AI-tools en goedkopere objectopslaglagen om data lake-projecten te ondersteunen.

Zie ook: Data Lakes, tijdreeksgegevens en industriële analyse

Het rijpen van datameren naar de cloud

Volgens een recent onderzoek dat we hebben uitgevoerd, is het mogelijk maken van datameren een van de belangrijkste doelen die IT-managers stellen, samen met beveiliging, kostenbeheer en zichtbaarheid. De cloud heeft traditionele data lake-strategieën op zijn kop gezet, die begonnen toen bedrijven semi-gestructureerde gegevens zoals CSV en logbestanden wilden analyseren. In 2006 werd Hadoop geboren en kreeg het een brede acceptatie net op het moment dat Big Data-gesprekken begonnen te circuleren. Toch bleek Hadoop uiteindelijk langzamer en duurder dan verwacht, ingewikkeld in te stellen, op te schalen en te beheren en voornamelijk ontworpen voor batchverwerking. Om deze problemen op te lossen, kwam Apache Spark in beeld, tot 100x sneller voor sommige workloads en zeer geschikt voor realtime analyse. Belangrijk is dat de focus van bedrijven als Databricks lag op het draaien van Spark in de cloud, terwijl Hadoop voornamelijk on-premises werd geïmplementeerd.

In de afgelopen jaren zijn cloudgebaseerde data lake-platforms volwassen geworden en nu klaar voor prime time. De goedkopere scale-out objectopslag van cloudproviders biedt een platform voor grootschalige projecten op petabyteschaal die on-premises simpelweg niet levensvatbaar zijn. Datameren van de volgende generatie zijn gebouwd op Apache Spark om S3- of objectgegevensopslag te ondersteunen, waardoor het mogelijk wordt om semi-gestructureerde en ongestructureerde gegevens op te nemen en te verwerken. Bestandsopslag gaat ook over naar de cloud en moet worden gebruikt als onderdeel van een clouddatameer, dus alle gegevens bevinden zich mogelijk niet in objectopslag.

Een cloud data lake-strategie is een natuurlijke evolutie voor data-intensieve zakelijke IT-organisaties die naar de cloud verhuizen, omdat het de cloud verheft van een goedkope locker voor gegevensopslag tot een plek waar gegevens kunnen worden gebruikt voor nieuwe waarde en geld kunnen worden verdiend.

Hoe het cloud-datameer te temmen

Hoewel dit nog te vroeg is voor clouddatameren, is het absoluut noodzakelijk om bestandsgegevens in uw datameer op te nemen, aangezien machine learning-modellen er grote hoeveelheden van nodig hebben om zinvolle resultaten te genereren. Toch zijn deze ongestructureerde gegevens niet gestandaardiseerd tussen bestandstypen:videobestanden, audiobestanden, sensorgegevens en logboeken delen geen gemeenschappelijke structuur. En al deze bestandsgegevens willekeurig in het cloud data lake-platform dumpen is geen wijze strategie, maar een puinhoop om later op te ruimen. Ondanks hun belofte zijn er veel risico's verbonden aan datameren, variërend van hoge beheerkosten, lacunes in vaardigheden, beveiligings- en governanceproblemen, overdraagbaarheidsproblemen bij het verplaatsen van gegevens tussen clouds en opslagplatforms en de langdurige zorg dat het datameer een moeras wordt wanneer gegevens wordt te groot en verward om te zoeken en te analyseren.

Hier zijn enkele overwegingen wanneer u begint met het overbrengen van bestandsgegevens naar een datameer in de cloud om de strijd te vermijden of te minimaliseren .

  1. Optimaliseer het datameer. Voordat gegevens kunnen worden geanalyseerd, moeten ze worden opgeschoond, genormaliseerd en geclassificeerd, wat een zeer handmatig proces kan zijn dat bijdraagt ​​aan kostenoverschrijdingen en een trage time-to-value. Dit is altijd een uitdaging geweest voor een datawarehouse-initiatief en hetzelfde geldt voor datameren en datalakehouses. Datameren zijn aantrekkelijk omdat ze gegevens in hun oorspronkelijke formaat kunnen opnemen; optimalisatie vereisen voordat gegevens in het meer worden geplaatst, vernietigt dit gebruiksgemak. Hoe kunt u automatisch bestandsgegevens optimaliseren zonder dat het gebruikersgedrag moet worden gewijzigd? De sleutel tot het optimaliseren van bestandsgegevens zijn de metagegevens:de informatie over bestandstypen, datums die zijn gemaakt en voor het laatst zijn geopend, eigenaren, projecten en locatie. De mogelijkheid om automatisch bestanden op metadata-eigenschappen te indexeren en te taggen, voorkomt problemen met gegevensmoerassen en maakt het later gemakkelijker om te zoeken en segmenteren, in plaats van dat je datameren onbeheerd achterlaat.
  2. Gebruik metadata-indexering om nauwkeurige datasets voor specifieke behoeften te vinden. Tools die bestanden kunnen indexeren en metadata kunnen doorzoeken in opslag (inclusief on-premises, edge- en cloudlocaties) kunnen miljarden bestanden verkleinen tot een paar duizend, zodat u alleen de precieze bestanden die u wilt analyseren naar de cloud stuurt.
  3. Tag gegevens terwijl u werkt voor verbeterde doorzoekbaarheid en bruikbaarheid . Zodra je de bestanden hebt gevonden die je nodig hebt, kun je een machine learning-systeem gebruiken om de zoekopdracht verder te verfijnen met meer tags. Dit proces moet continu en geautomatiseerd zijn, dus na verloop van tijd wordt er extra structuur ontwikkeld en wordt uw data lake gemakkelijker doorzoekbaar, samen met een algehele hogere kwaliteit.
  4. Houd rekening met de rand. Naarmate edge computing groeit als gevolg van nieuwe use-cases van sensordata, wordt het streamen van data vanaf de edge onhoudbaar. Hoe kunt u meer gegevens aan de rand verwerken en precies datgene wat u nodig hebt meenemen naar een datameer in de cloud? Edge-voorverwerking wordt belangrijker naarmate de datavolumes van de edge groeien.
  5. Maak taxonomieën per branche. Er is geen standaard tagging-nomenclatuur voor elke branche. Het hebben van een aantal gemeenschappelijke tagging-classificaties per sector maakt het zoeken en extraheren van gegevens gemakkelijker, vooral in samenwerkingsomgevingen zoals onderzoek en biowetenschappen.
  6. Geef gegevensmobiliteit aan. Om echt mobiel te zijn, moeten gegevens zich in verschillende systemen in hybride cloudomgevingen kunnen bevinden, terwijl ze ook native toegang hebben tot de services in die omgevingen. Door gegevens uit eigen opslagsystemen te ontgrendelen, krijgt IT de controle terug en worden de kosten en het gedoe van het verplaatsen van gegevens van het ene platform naar het andere geëlimineerd. De manier waarop gegevens worden gebruikt en geopend en de waarde ervan verandert in de loop van de tijd. Door uw gegevens toekomstbestendig te maken, kunt u zich aanpassen aan veranderingen en nieuwe vereisten. Onafhankelijke oplossingen voor gegevensmobiliteit en -beheer kunnen hierbij helpen.
  7. Bouw de juiste cultuur. Toonaangevende IT-organisaties blijven cultuur – mensen, processen, organisatie, verandermanagement – ​​zien als de grootste belemmering om datagedreven organisaties te worden, blijkt uit onderzoek uit 2021 van New Vantage Partners. Een datagestuurde cultuur moet niet alleen de analisten en de bedrijfsonderdelen omvatten, maar ook IT-infrastructuurteams. IT-leiders zullen een rol moeten spelen bij het helpen van professionals op het gebied van gegevensopslag, servers en netwerken om hun verantwoordelijkheden en dagelijkse taken te heroriënteren naar een op gegevens gericht besluitvormingskader. Tools en processen moeten multifunctioneel zijn, waardoor een holistisch beeld ontstaat van de data-assets van de organisatie en samenwerking rond strategieën voor het beheren van die assets voor organisatiewinst.

Cloud data lakes zijn populair geworden omdat gegevens in hun oorspronkelijke formaat kunnen worden opgenomen zonder de uitgebreide voorbewerking die nodig is voor datawarehouses. De keerzijde is dat datameren datamoerassen zijn geworden, met name voor ongestructureerde bestandsgegevens, omdat deze gegevens geen gemeenschappelijke structuur hebben. Het analyseren van bestandsgegevens wordt steeds belangrijker met de opkomst van AI/ML-engines die erop vertrouwen. Cloud data lakes kunnen worden geoptimaliseerd voor ongestructureerde gegevens zonder de aantrekkingskracht van het opnemen van gegevens in native formaat teniet te doen door het indexeren, zoeken, verzamelen en optimaliseren van bestandsgegevens te automatiseren.


Internet of Things-technologie

  1. Construeer uw cloudinfrastructuur voor prestaties, efficiëntie
  2. Is uw IT-carrière klaar voor de cloud?
  3. Top 5 beveiligingspraktijken voor AWS-back-up
  4. Hoe definieer je een datastrategie voor een multicloudwereld
  5. Hoe u zich voorbereidt op AI met behulp van IoT
  6. GE introduceert cloudservice voor industriële data, analyse
  7. Is uw systeem klaar voor IoT?
  8. Wat is fog computing en wat betekent het voor IoT?
  9. De cloud in IoT
  10. Voordelen van het gebruik van cloudcomputing voor het opslaan van IoT-gegevens
  11. Ben je klaar voor een Smart Factory?