Microsoft onthult AttnGAN:AI die tekstbeschrijvingen omzet in fotorealistische afbeeldingen

Microsoft's AttnGAN kan hifi-afbeeldingen genereren uit platte tekst en bijschriften.
Het systeem maakt gebruik van een architectuur met twee modellen:een generator die het beeld maakt en een discriminator die het realisme ervan evalueert.
Het voegt contextueel relevante details toe buiten de prompt, waardoor een interne 'verbeeldingslaag' wordt gedemonstreerd.
Potentiële toekomstige toepassingen omvatten volledig geautomatiseerde animatieproductie, geleid door scripts.

Hoewel eerdere inspanningen de synthese van tekst naar afbeelding hebben verbeterd, gaat Microsoft’s AttnGAN vooruit door fotorealistische afbeeldingen te genereren op basis van beknopte tekstuele aanwijzingen, waarbij gebruik wordt gemaakt van een uitgebreide bibliotheek met gelabelde afbeeldingen.

AttnGAN is ontwikkeld door Microsoft Research en ontleedt individuele woorden in een prompt om de beeldconstructie te begeleiden. Volgens het team levert deze aanpak grofweg drie keer hogere beeldkwaliteit op dan eerdere state-of-the-art modellen.

Het creatieve proces van de bot

Stel je voor dat je wordt gevraagd een blauwe vogel te tekenen met rode vleugels en een korte snavel. Je begint met een ruwe schets en vult vervolgens de kleuren en details in. AttnGAN volgt dezelfde logica en analyseert elk woord om een gedetailleerd, samenhangend beeld op te bouwen.

De bot kan elk onderwerp weergeven (van gadgets tot dieren in het wild) en voegt vaak contextueel passende achtergrondelementen toe die niet expliciet zijn genoemd, wat zijn vermogen tot 'ingebeelde' details laat zien.

Afbeeldingen worden pixel voor pixel helemaal opnieuw samengesteld, waardoor het model scènes kan creëren die in werkelijkheid misschien niet bestaan. Deze generatieve taak is inherent complexer dan alleen het labelen van een bestaande foto.

Hoe AttnGAN afbeeldingen genereert

Generator: Creëert afbeeldingen op basis van de tekstuele beschrijving.
Discriminator: Evalueert de authenticiteit van de gegenereerde afbeelding aan de hand van de beschrijving.

Beide modellen worden gezamenlijk getraind, waardoor de generator kan leren van de feedback van de discriminator en een steeds hogere betrouwbaarheid kan bereiken.

Bij de training waren duizenden gepaarde datasets met fotobijschriften betrokken, waardoor AttnGAN leerde specifieke woorden aan visuele patronen toe te wijzen. Het woord ‘olifant’ zorgt er bijvoorbeeld voor dat het model een afbeelding produceert die overeenkomt met het uiterlijk van een typische olifant.

Het systeem verdeelt complexe zinnen in afzonderlijke woorden, waarbij elk woord wordt uitgelijnd met een deel van de afbeelding. Tijdens de training leert het ook “kunstmatig gezond verstand” om ontbrekende details in te vullen, waardoor een realistische compositie wordt gegarandeerd.

Microsoft onthult AttnGAN:AI die tekstbeschrijvingen omzet in fotorealistische afbeeldingen

In dit voorbeeld vermeldde de prompt alleen een vogel. AttnGAN plaatste de vogel op intelligente wijze op een tak, een gebruikelijke context uit de echte wereld die werd geleerd uit de trainingsgegevens. Dit toont aan dat het model contextuele kennis kan toepassen.

arXiv:1711.10485 – Microsoft-onderzoekspaper met details over AttnGAN.

Toen het model werd uitgedaagd om een dubbeldekkerbus af te beelden die op een meer dreef, produceerde het een wazig maar toch herkenbaar gemengd tafereel, wat de strijd benadrukte om tegenstrijdige elementen in de prompt met elkaar te verzoenen.

Prestaties en gebruiksscenario's

AttnGAN overtreft eerdere benchmarks en realiseert een verbetering van 170,25% ten opzichte van de startscore van de COCO-dataset en een winst van 14,14% ten opzichte van de CUB-dataset.

Mogelijke toepassingen zijn onder meer schetsassistenten voor interieurontwerpers, spraakgestuurde fotoverfijning en, bij verdere ontwikkeling, volledig geautomatiseerde animatieproductie op basis van scenario's.

Andere AI-kunstgeneratoren

Microsoft is niet de enige die kunst en AI combineert. Google's DeepDream creëerde psychedelische beelden die in 2016 werden tentoongesteld, terwijl de AI muziek- en spraaksynthese produceerde, zoals Tacotron2. Facebook en Nvidia hebben ook generatieve modellen uitgebracht voor auto's, schepen, dieren en zelfs synthetische avatars van beroemdheden.

Lees meer over de mensachtige stem-AI van Google Tacotron2 .

Doorbraak op het gebied van elektrische voortstuwing versnelt nanorobots 100.000 keer sneller Rusland keurt een drijvende kerncentrale van 70 MW goed om Tsjoekotka van stroom te voorzien

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie