Succesvolle AI heeft alles te maken met gegevensbeheer

Dave Smith

Kunstmatige intelligentie (AI) is tegenwoordig overal, of het nu in werkelijkheid is of gewoon als een hyped label voor een aantal eenvoudige, op regels gebaseerde beslissingen, en dit heeft tot een aantal interessante problemen geleid, zegt David Smith, hoofd AVG-technologie, SAS VK en Ierland .

De eerste hiervan is wantrouwen, zoals opgemerkt door de aantredende president van de British Science Association, Professor Jim Al-Khalili:"Er is een reëel gevaar van een publieke reactie tegen AI, mogelijk vergelijkbaar met degene die we hadden met GM [genetische modificatie] in de begindagen van het millennium". Al-Khalili benadrukt dat AI om zijn volledige potentieel te bereiken meer transparantie en publieke betrokkenheid vereist.

Het tweede potentiële probleem is dat van de controle; als modellen echt zonder toezicht en controle worden uitgevoerd, is er een kans op slechte beslissingen. Een voorbeeld hiervan zou de "Flash Crash" in 2010 kunnen zijn, toen de Amerikaanse aandelenmarkt gedurende 36 minuten met ongeveer 9% daalde. Hoewel de regelgevers een enkele handelaar de schuld gaven van het vervalsen van de markt, waren algoritmische handelssystemen op zijn minst gedeeltelijk verantwoordelijk voor de diepte van de crash.

AI voorgoed benutten

Dat gezegd hebbende, AI heeft een enorm potentieel voor het goede, of het nu gaat om betere kankerdiagnoses door efficiëntere screening van tumorbeelden of om bedreigde diersoorten te beschermen door beelden van dierlijke voetafdrukken in het wild te interpreteren. De uitdaging is om ervoor te zorgen dat deze voordelen worden gerealiseerd, en dit is waar het FATE-raamwerk (Fairness, Accountability, Transparency and Explainable) om de hoek komt kijken, dat is ontworpen om ervoor te zorgen dat AI op de juiste manier wordt gebruikt. Ik zal me concentreren op de transparantieaspecten, waar databeheer de grootste impact heeft.

AI kan alleen zo goed zijn als de data die het voedt, en het bouwen en gebruiken van een AI-applicatie vereist een aantal dataspecifieke fasen:

Opschoning van de gegevenskwaliteit om ervoor te zorgen dat er geen modellering wordt uitgevoerd op gegevens die irrelevante of onjuiste items bevatten
Het transformeren, samenvoegen en verbeteren van gegevens voordat het modelleringsproces begint
Deployment, waarbij het model wordt gebruikt en wordt toegepast op de gegevens van de organisatie om de besluitvorming te stimuleren

Elk van deze zal waarde toevoegen, maar mogelijk ook de resultaten van het AI-proces veranderen. Als het proces voor gegevenskwaliteit bijvoorbeeld uitschieters verwijdert, kan dit heel verschillende effecten hebben. Als het verwijderen van uitbijters passend is, zal het resultaat een model zijn dat de meeste gegevens goed weergeeft. Aan de andere kant kan het een zeldzame maar kritieke omstandigheid negeren en de kans missen om echt voordeel te brengen.

Dit bleek uit de ontdekking van Dame Jocelyn Bell Burnell van Pulsars, een soort roterende neutronenster. Ze bekeek kilometers aan uitgeprinte gegevens van een radiotelescoop en merkte een klein signaal op in één op de 100.000 gegevenspunten. Ondanks dat haar supervisor haar vertelde dat het door de mens veroorzaakte interferentie was, hield ze vol en bewees ze hun bestaan door met succes elders naar soortgelijke signalen te zoeken. Als de uitbijters waren verwijderd, zou ze de ontdekking niet hebben gedaan.

De datareis

Ook moet datakwaliteit worden toegepast om gênante beslissingen te voorkomen. Als Bank of America de geldigheid van hun naamgegevens hadden gecontroleerd, hebben ze mogelijk geen creditcardaanbieding gestuurd naar 'Lisa Is A Slut McXxxxxx' (haar naam is geredigeerd. Red.) in 2014. Ze hadden de gegevens verkregen van de Golden Key International Honor Society , die academische prestaties erkent. Een onbekende persoon had haar naam in het ledenregister aangepast.

Het proces gaat dan verder met transformaties om de data klaar te maken voor modellering; bronsystemen zijn doorgaans sterk genormaliseerd en hebben informatie opgeslagen in meerdere tabellen, terwijl datawetenschappers graag een enkele vierkante tabel analyseren. Ze zullen vaak afgeleide variabelen moeten toevoegen om hun analyse te vergemakkelijken. Deze worden meestal in eerste instantie gedefinieerd in een ad-hoc omgeving voor gegevensvoorbereiding door de datawetenschapper, maar zullen voor productiedoeleinden naar een meer gecontroleerde omgeving moeten worden verplaatst.

De impact van deze datatransformatiefase kan enorm zijn. Ten eerste is het belangrijk om te begrijpen welke databronnen worden gebruikt in de analyse. Dit kan verband houden met regelgevende zorgen, zoals of er persoonsgegevens worden gebruikt, of gewoon om ervoor te zorgen dat de juiste gegevensbron wordt gebruikt. Ten tweede is het belangrijk om te begrijpen of de transformatie passend en correct is uitgevoerd; fouten bij de implementatie kunnen net zo schadelijk zijn als gegevens van slechte kwaliteit.

Het laatste gegevensproces dat rechtstreeks van invloed is op AI is de implementatie, waarbij ervoor wordt gezorgd dat de juiste gegevens in het model worden ingevoerd en de resultaten worden gebruikt om beslissingen te nemen die rechtstreeks van invloed zijn op de prestaties van de organisatie. Modellen hebben een duidelijke houdbaarheid gedurende welke tijd ze de echte wereld nauwkeurig voorspellen, dus als het te lang duurt om modellen in productie te nemen, zullen ze niet hun volledige waarde leveren.

Een georganiseerd implementatieproces is ook een noodzakelijk onderdeel om te voldoen aan de vereisten van artikel 22 van de AVG. Dit artikel verhindert het gebruik van analytische profilering op persoonsgegevens, tenzij aan strikte voorwaarden wordt voldaan (bijvoorbeeld volledige toestemming). Gecontroleerde inzet maakt het mogelijk om op elk moment een overzicht te krijgen van welke data in het AI-proces zijn gebruikt en welke analytische modellen op de data zijn toegepast. Dit is van cruciaal belang om te bepalen of de regelgeving is geschonden.

Over het algemeen is gegevensbeheer van fundamenteel belang voor AI om zijn ware potentieel te bereiken. In staat zijn te begrijpen hoe gegevensverwerking wordt bereikt, is een cruciaal onderdeel van het handhaven van transparantie, een van de belangrijkste pijlers van eerlijke, betrouwbare en effectieve AI.

De auteur van deze blog is David Smith, hoofd AVG-technologie, SAS VK en Ierland.

Waarom big data en gebouwanalyse nergens heen gaan:deel 1 IIoT, Industry 4.0 en Fork Truck Free:Part 2

Internet of Things-technologie

Ingebed

Sensor

Cloud computing

Internet of Things-technologie