GLTR:een nieuwe methode om computergegenereerde taal te detecteren

De nieuwe statistische methode kan door AI gegenereerde inhoud detecteren.
Het werkt door teksten te identificeren die te voorspelbaar zijn in plaats van alleen fouten in teksten te markeren.

In het afgelopen decennium is de natuurlijke taalverwerkingsgemeenschap getuige geweest van de groei van steeds grotere en slimmere taalmodellen.

In een tijd van kunstmatige intelligentie en diepe neurale netwerken uitgerust met menselijke natuurlijke taal, hebben onderzoekers van Harvard University en IBM Research een statistische methode ontwikkeld om computergegenereerde tekst te detecteren.

Ze hebben een interactief hulpmiddel gebouwd (openbaar beschikbaar) om natuurlijke menselijke taal en tekst gegenereerd door machines te onderscheiden van menselijke spraak. Het doel is om mensen meer informatie te geven, zodat ze een weloverwogen beslissing kunnen nemen over wat nep en wat echt is.

Modellen voor kunstmatige intelligentie worden meestal getraind op miljoenen teksten (overgenomen van het wereldwijde web). Ze voorspellen woorden die elkaar het vaakst opvolgen om menselijke taal na te bootsen. Het woord 'jij' wordt bijvoorbeeld statisch het meest waarschijnlijk gevolgd door de woorden 'waren', 'hebben' en 'zijn'.

Met behulp van deze methodologie hebben onderzoekers een tool gebouwd die teksten detecteert die te voorspelbaar zijn [in plaats van fouten in teksten te markeren]. Het stelt zowel AI als mensen in staat om samen te werken om de door de machine gegenereerde taal te identificeren.

Hoe werkt het?

De nieuwe techniek - genaamd Giant Language Model Test Room (GLTR) - is gebaseerd op een model dat is getraind op ongeveer 45 miljoen teksten van websites. Het heeft toegang tot een van de grootste openbaar beschikbare modellen, GPT-2.

Het kan dus observeren wat GPT-2 zou hebben voorspeld op elke positie (voor elke tekstuele invoer) en presteert efficiënt tegen GPT-2 en vele andere modellen.

GLTR vertegenwoordigt een visueel forensisch hulpmiddel om automatisch gegenereerde teksten te identificeren. Het toont 3 verschillende histogrammen die de informatie over de hele tekst samenvoegen.

Referentie:The Harvard Gazette | GitHub

Voer gewoon een alinea in de gereedschapskist in en alle woorden worden gemarkeerd in vier verschillende kleuren, die elk de voorspelbaarheid van het woord aangeven in de context van wat erop volgt. Paars betekent dat het woord niet voorspelbaar is; rood, enigszins voorspelbaar; geel, matig voorspelbaar; en groen toont zeer voorspelbare woorden in de alinea.

Zo ziet een door een machine gegenereerde alinea eruit –

Het eerste histogram laat zien hoeveel woorden uit elke categorie in de alinea voorkomen. De tweede toont de verhouding tussen de kansen van het hoogst voorspelde woord en het volgende woord. Het derde histogram geeft de verdeling over de voorspellings-entropieën weer.

Natuurlijk zal de onzekerheid groter zijn voor door mensen geschreven teksten, vooral voor onderzoekspapers en academische teksten. Zo ziet een samenvatting van een onderzoekspaper (over EAGLE-sterrenstelsels) eruit –

Lezen:kunstmatige intelligentie kan spraak genereren uit neurale activiteit

Het onderzoeksteam testte hun nieuwe tool ook met een stel afgestudeerden in de informatica. De studenten konden 50% van de door de computer gegenereerde alinea's detecteren, maar met behulp van deze tool identificeerden ze 72%. Het percentage zou nog beter kunnen worden met een beetje training met het systeem.

Kunstmatige neuronen kunnen net zo efficiënt zijn als het menselijk brein AI kan Rubik's Cube binnen enkele seconden oplossen, zonder enige specifieke domeinkennis

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie