Industriële fabricage
Industrieel internet der dingen | Industriële materialen | Onderhoud en reparatie van apparatuur | Industriële programmering |
home  MfgRobots >> Industriële fabricage >  >> Manufacturing Technology >> Industriële technologie

AI genereert afbeeldingen van een voltooide maaltijd op basis van een eenvoudig op tekst gebaseerd recept

  • Nieuw op deep learning gebaseerd systeem kan automatisch afbeeldingen genereren op basis van een lange op tekst gebaseerde beschrijving.
  • Onderzoekers hebben een netwerk gedemonstreerd dat een recept als invoer gebruikt en vanaf het begin een plaatje opbouwt.

Afbeeldingen genereren op basis van een korte visuele beschrijving is een uitdagende taak en kent talloze toepassingen in computervisie. Recente onderzoeken hebben aangetoond dat Generative Adversarial Networks (GAN) op effectieve wijze hoogwaardige, realistische afbeeldingen kunnen synthetiseren met een lage resolutie en lage variabiliteit.

Een recente bijdrage van een onderzoeksteam van de Universiteit van Tel Aviv, Israël, kan het onderzoek op dit gebied helpen versnellen. Ze hebben een op diep leren gebaseerd model gebouwd dat automatisch afbeeldingen kan maken van een op tekst gebaseerde beschrijving.

In het bijzonder hebben ze hun systeem gedemonstreerd om beelden van een afgewerkte maaltijd te genereren op basis van een eenvoudig geschreven recept. Om dit te doen, gebruikt het systeem een ​​combinatie van state-of-the-art Stacked GAN en het leren van cross-modale inbeddingen voor kookrecepten en voedselafbeeldingen.

Voorwaardelijke generatieve vijandige netwerken

In principe zijn GAN's gemaakt van twee modellen (generator en discriminator) die zijn getraind om met elkaar te concurreren. De generator is ontworpen om afbeeldingen te synthetiseren die lijken op de originele gegevensdistributie, terwijl het de taak van de discriminator is om onderscheid te maken tussen de originele en synthetische afbeeldingen.

In dit werk gebruikten onderzoekers voorwaardelijke GAN's waarin zowel de generator als de discriminator worden gedwongen om een ​​specifieke voorwaarde in overweging te nemen. Ze stelden twee soorten inbeddingstechnieken voor:semantische en niet-semantische regularisatie. Deze technieken bestaan ​​uit drie stappen:

  1. Eerste inbedding van de ingrediënten en kookinstructies.
  2. Gecombineerde neurale inbedding van het hele recept.
  3. Integratie van een semantisch regularisatieverlies met behulp van een classificatiedoelstelling op hoog niveau.

De voorwaardelijke GAN wordt getraind op 52.000 op tekst gebaseerde recepten en de bijbehorende afbeeldingen. Het is getraind met behulp van NVIDIA TITAN X GPU's met CUDA Deep Neural Network-bibliotheek. Eenmaal getraind, maakte het systeem foto's van hoe het recept eruit zou kunnen zien op basis van een lange beschrijving (die geen visuele informatie bevatte).

Referentie: arXiv:1901.02404 | Universiteit van Tel Aviv

Menselijke evaluatie

Het netwerk neemt een recept als input en creëert een beeld (from scratch) dat het beste de tekstuele beschrijving van voedsel weergeeft. Wat hier echt indrukwekkend is, is dat het systeem geen toegang heeft tot de titel van het recept - anders zou het werk te gemakkelijk worden - en de tekst van het recept is vrij lang. Dit maakt de taak zelfs voor mensen moeilijk.

Met dank aan onderzoekers

Om de gesynthetiseerde afbeeldingen beter te kunnen beoordelen, vroeg het team 30 mensen om de meest aansprekende afbeeldingen te beoordelen op een schaal van 1 tot 5. Ze presenteerden 10 overeenkomstige paren van resulterende afbeeldingen (willekeurig gekozen) gegenereerd door elke inbeddingstechniek.

De resultaten toonden aan dat de niet-semantische regularisatiemethode beter presteert dan de semantische regularisatie door levendigere afbeeldingen met fotorealistische details te produceren. Sommige mensen vonden het zelfs erg moeilijk om onderscheid te maken tussen echte en synthetische afbeeldingen.

Lezen:AI kan miljoenen artistieke combinaties genereren voor fotorealistische resultaten

Bovendien slaagden beide inbeddingstechnieken erin om 'papachtige' voedselafbeeldingen te produceren (zoals salade, soepen en rijst), maar worstelt om voedselafbeeldingen te maken met een onderscheidende vorm (zoals kip, hamburger en drankjes).


Industriële technologie

  1. Een heel eenvoudig circuit
  2. Een zeer eenvoudige computer
  3. Eenvoudige Op-Amp
  4. Eenvoudig combinatieslot
  5. Conversie van decimale nummering
  6. Simple Series Resonance
  7. Eerste 3D-beelden van microscopisch kleine scheuren in legeringen
  8. Nieuwe machine wekt elektriciteit op uit sneeuwbal
  9. Een eenvoudige CMMS-software aanschaffen
  10. Een eenvoudige gids voor onderhoudsbenchmarking
  11. Een eenvoudige op REST gebaseerde bibliotheek om variabelen te gebruiken in PLCnext AXC F 2152 PLC van Python