Het argument van de azen:algemene termen voor de liefhebber van big data

Big data is geladen met grote woorden. Als u veelvoorkomende gegevenstermen goed begrijpt, kunt u niet alleen inzicht krijgen in, maar ook deelnemen aan en invloed uitoefenen op gesprekken over gegevensinitiatieven. Bekijk essentiële discussies over data-evolutie en -revolutie op www.datamakespossible.com.

Ok, laten we aan de slag gaan en enkele termen die je eerder hebt gehoord ontkrachten en een paar introduceren die mogelijk gloednieuw zijn.

Datawetenschapper

Door gelijke delen van wetenschap, zaken en kunst te combineren, gebruikt de datawetenschapper kennis van algoritmen, tools en processen om wat waarde uit data te halen. Een datawetenschapper gebruikt vaak machine learning of kunstmatige intelligentie om datasets te minen, groeperen of analyseren.

Heteroscedasticiteit en heteroscedastic data

HeteroWAT ? Dit kan een nieuwe term voor je zijn, dus laten we een heel eenvoudig voorbeeld doornemen van wat dit betekent.

Sommige gegevens zijn constant en verandert nooit. De weblogs van gisteren zijn een constante. Totdat we tijdreizen hebben uitgevonden, kun je niet teruggaan en veranderen wat iemand gisteren heeft gedaan.

Het volgende niveau van complexiteit voor gegevens is lineair . Een wachtrij of voicemail is een voorbeeld van lineaire groei. Als één werknemer tien berichten per uur kan verwerken, hebben we vijf werknemers nodig om 50 berichten per uur te verwerken. Gegevens die groeien in kwadratisch mode zou groeien met 4x (of meer) het tempo. Een voorbeeld hiervan kunnen sociale media zijn. Wanneer u een bericht schrijft, kunnen 4, 10, 100 of zelfs miljoenen mensen het lezen. Die mensen kunnen uw bericht delen, erop reageren of anderszins metadata genereren die elke seconde veranderen. Dit is waar we beginnen met heteroscedasticiteit. Het wordt gedefinieerd door hoge snelheid (het beweegt en verandert snel) met een hoge variabiliteit (d.w.z. geen gemakkelijke manier om te voorspellen wie een bericht becommentarieert, deelt en leuk vindt, of wat de reactiesnelheid zal zijn).

Een andere geweldige analogie is koken. Bij het koken van een maaltijd combineren we ingrediënten op verschillende manieren om iets te creëren dat (hopelijk) heerlijk is. Iedereen die wel eens heeft geprobeerd te koken, weet dat een aantal kleine veranderingen - een beetje zout toevoegen, 2 minuten te lang koken, de tomaten te groot of te klein snijden - een grote invloed kunnen hebben op het resultaat en op de convergentie van het uiteindelijke recept. voor dat kenmerkende gerecht.

Zelfs als je deze term nog nooit eerder hebt gebruikt, zul je bij industriële IoT-workloads steeds vaker met heteroscedasticiteit te maken krijgen. Dit is met name het geval bij gegevens met hoge snelheid (zoals streaming), of vaak bij ongestructureerde, snel veranderende gegevens, zoals HTML-pagina's die de Google-webcrawler doorloopt.

Machineleren

Machine Learning (ML) is een gebied van de informatica dat computers in staat stelt patronen uit onbewerkte gegevens te herkennen en te extraheren door middel van grondige training van gegevensmodellen.

ML maakt 'de drie C's van big data' mogelijk:classificatie, clustering en collaboratieve filtering.

Classificatie is het probleem van het identificeren tot welke set categorieën/subcategorieën of populatie/subpopulatie een nieuw patroon behoort tot trainingssets met gegevens die dat patroon bevatten of gevallen waarin de categorie al is geïdentificeerd en bekend. Classificatie kan bijvoorbeeld inhouden dat een algoritme wordt getraind om tumoren te herkennen in een reeks MRI-scans en vervolgens het algoritme te vragen andere scans met tumoren te identificeren.

Clustering omvat het groeperen van onbewerkte gegevenspunten in sets of "clusters". Een voorbeeld hiervan kan een ML-algoritme zijn dat in realtime over weblogs loopt, geldig verkeer groepeert (toe te staan) in de ene categorie en mogelijke aanvallen (te blokkeren) in een andere.

Samenwerkend filteren is gewoon een mooi woord voor 'aanbevelingen'. Een voorbeeld is het bepalen en tonen van producten die enige affiniteit met elkaar vertonen.

Veel van wat we in ML doen, wordt 'ondiep leren' genoemd. Deep learning is meestal een onderdeel van echte kunstmatige intelligentie.

Kunstmatige intelligentie

Kunstmatige intelligentie (AI) omvat en breidt ML uit door computers de mogelijkheid te bieden een diepgaande cognitieve analyse uit te voeren.

Terwijl ML doorgaans een soort initiële menselijke tussenkomst omvat bij het maken, afstemmen of trainen van algoritmen (zoals het doorsturen van scans van tumoren naar de computer), stelt AI de computer in staat om te selecteren, af te stemmen en zichzelf trainen om een bepaalde functie uit te voeren. Uiteindelijk gebruikt AI deep learning om menselijke besluitvorming en leerprocessen na te bootsen.

Je beseft het misschien niet, maar AI maakt waarschijnlijk deel uit van je dagelijkse leven. Meer hierover in de NLP-definitie hieronder.

Virtuele realiteit

Virtual Reality (VR) stelt gebruikers in staat om virtuele werelden te betreden die er totaal anders uitzien en klinken dan hun fysieke omgeving.

VR maakt entertainmentervaringen zoals virtuele achtbanen mogelijk, maar heeft ook belangrijke commerciële toepassingen. VR vereist meestal een headset met een digitaal display.

Augmented reality

Augmented Reality (AR) streeft ernaar om digitale artefacten over de echte wereld heen te leggen, waardoor interactie mogelijk wordt. Onlangs is AR enorm succesvol geworden met de populariteit van gameplay-apps.

Verwerking van natuurlijke taal

Natural Language Processing (NLP) stelt computers in staat geschreven of gesproken menselijke taal te ontleden en te begrijpen. Als je tegen je telefoon of thuis praat, heb je waarschijnlijk ervaring met NLP.

NLP is een geweldige plek om het verschil tussen diep en oppervlakkig leren uit te leggen. NLP van de eerste generatie (ondiep leren) was gericht op het opsplitsen van een zin in tokens (woorden) en het toepassen van enkele regels op de tokens. De huidige deep learning NLP kijkt echter naar de hele context van een uitspraak en beredeneert de ware betekenis.

Stel je een geschreven webrecensie voor. Ondiep leren zou eenvoudigweg kijken naar een beperkt aantal gegevenstokens, zoals 'aantal beoordelingssterren' en elementaire 'sentimentanalyse'. Dit kan het tellen van het aantal positieve versus negatieve woorden inhouden. Deze gegevenspunten worden door een vaak broze reeks regels gevoerd om tot een conclusie te komen over de vraag of de beoordeling positief of negatief was.

Een deep learning-engine past meer intelligentie toe op deze analyse, bijna hetzelfde als wat een mens zou vermoeden als hij dezelfde recensie zou lezen. Als een recensie bijvoorbeeld veel 'positieve' had, zoals vijfsterrenbeoordelingen, een goede verhouding tussen positief en negatief, enz., zou een oppervlakkige NLP-engine kunnen concluderen dat het een positieve recensie was. Een deep learning NLP-engine zou echter kunnen interpreteren (zoals een mens zou doen) dat de recensie eigenlijk negatief was bij het lezen van "Ik zal dit product nooit meer kopen." Alleen al die zin ontkracht alle positieve gevoelens die een gebruiker mogelijk heeft gegeven.

Beeldherkenning

Beeldherkenning geeft computers de mogelijkheid om de betekenis van een eenvoudig visueel beeld te bepalen. Het wordt vaak gebundeld in het ML- of AI-aanbod van een provider (samen met NLP).

Beeldherkenning stelt computers in staat objecten zoals geschreven taal te identificeren met behulp van optische tekenherkenning of OCR (tekst in billboards), objecten te taggen (zoals "berg", "boom", "auto", "wolkenkrabber") en zelfs gezichtsanalyses uitvoeren (zoals het tekenen van begrenzingsvakken rond gezichten).

Beeldherkenning wordt momenteel door de auto-industrie naar een heel nieuw niveau getild met hun toepassing van gezichtsanalyse om bestuurders te detecteren en te waarschuwen die zich mogelijk vermoeid voelen.

Gestructureerde, ongestructureerde, semi-gestructureerde gegevens

Historisch gezien waren veel van de gegevens waarmee we werkten zwaar gestructureerd. Dit betekent dat het mooi in een rij-/kolomindeling past (zoals databases). Als gevolg hiervan zijn veel computersystemen ontworpen om die vorm van gegevens op te nemen en te genereren.

Mensen zijn een ander beest. We blinken uit in het genereren en consumeren van ongestructureerde gegevens zoals vrij stromende tekst, spraak en afbeeldingen zoals snapshots van camera's. Al deze gegevens hebben inherent geen "structuur". We kunnen niet "hangen" van bepaalde talen, woorden, intonaties, enz.

Semi-gestructureerde gegevens zitten ergens in het midden. Een goed voorbeeld is e-mail. Het heeft een structuur zoals "onderwerp", "aan", "van", "datum", maar de belangrijkste lading is een klodder ongestructureerde tekst in de "body" van de e-mail.

Pas in de afgelopen 10 jaar zijn onze computersystemen krachtig genoeg geworden om analyses uit te voeren op ongestructureerde gegevens.

Datameer

Elke analyse-engine, zoals Hadoop, biedt zowel opslag als rekenkracht, vaak in een nauw gekoppelde opstelling. Elke keer dat u meer verwerking toevoegt, voegt u inherent meer opslagruimte toe.

Veel organisaties zitten echter op bergen (petabytes) aan data die ze duurzaam willen bewaren, maar niet meteen willen analyseren. Een reden voor vertraging is de voorverwerking en opschoning van de gegevens die nodig kunnen zijn voorafgaand aan de analyse.

Een data lake biedt een goedkope, zeer duurzame, overal toegankelijke opslag met beperkte rekenkracht. Het zorgt voor een veel grotere retentie van gegevens dan wat er in één keer wordt verwerkt.

Als je naar een receptparadigma kijkt, is een datameer als je voorraad grondstoffen (groenten, rijst, bouillon). Alleen als je wilt koken, haal je de juiste subset ingrediënten eruit, volgens het recept, en bereid je ze voor die maaltijd.

Database

Wat we gewoonlijk 'een database' noemen, staat ook bekend als een relationeel databasebeheersysteem (RDBMS) of een OLTP-systeem (Online Transaction Processing). Oracle, MySQL, SQL Server zijn hiervan allemaal veelvoorkomende voorbeelden.

Veel kleine "transacties" die (meestal) afkomstig zijn van eindgebruikers kenmerken RDBMS'en.

Denk aan e-commercewebsites voor de detailhandel. Op elk willekeurig moment voeren enkele honderdduizenden gebruikers kleine leesbewerkingen (query's) en schrijfbewerkingen (inserts) uit wanneer ze naar producten bladeren, recensies lezen, bestellingen genereren, enz. De verwachting is dat deze systemen deze zoekopdrachten zeer snel uitvoeren.

Datawarehouse

In een datawarehouse (ook bekend als enterprise datawarehouse of EDW) voert het bedrijf analyses uit om verschillende belangrijke zakelijke vragen te beantwoorden. Wat is onze snelst groeiende productlijn? Welke productcategorieën hebben de beste ROI? Wat zijn onze slechtst presterende regio's, categorieën, verkopers, enzovoort?

EDW's worden doorgaans alleen gebruikt door een handvol (misschien een tiental of enkele tientallen) interne gebruikers, die langlopende query's uitvoeren op enorme (mogelijk honderden TB of tientallen PB) datasets.

Visualisatie

Een visualisatietool biedt een visuele front-end om complexe analyses uit te voeren.

Met eenvoudig slepen en neerzetten kunnen zelfs ongeschoolde stagiaires een groot aantal complexe rapporten maken, zoals kwartaalverkopen, bestverkochte producten, groei, enz.

Deze systemen vereisen doorgaans dat de engine waarmee u ze verbindt een SQL-interface heeft, die (niet toevallig) elke RDBMS en EDW biedt. Als je net als veel data-analisten bent, zal 95% van je interactie met je systemen via een van deze visualisatietools verlopen.

Ik hoop dat je genoten hebt van deze korte uitleg van veelvoorkomende termen die we in big data tegenkomen. Voel je vrij om nu indruk te maken op de mensen bij de waterkoeler door te bespreken hoe de visualisatie van ongekende datagroei, de voordelen van het creëren van een datameer, het ontsluiten van de waarde van heteroscedastische data via ML en AI de wereld grondig verandert. Benieuwd naar de impact van data op de wereld? Nu u het jargon spreekt, kunt u deelnemen aan de discussies op datamakespossible.com.

Dit artikel is tot stand gekomen in samenwerking met Western Digital.

De auteur is Fellow en Chief Data Scientist, Western Digital, en geeft vorm, drijft en implementeert het Big Data-platform, de producten en technologieën, met behulp van geavanceerde analyses en patroonherkenning met halfgeleiderproductie gegevens bij het bedrijf.

Industrie 4.0 – Het IIoT-ecosysteem op de juiste manier bouwen Hoe zakelijke innovatiecentra bedrijven concurrerend maken

Internet of Things-technologie

Ingebed

Sensor

Cloud computing

Internet of Things-technologie