Google AI bereikt objecttracking door middel van video-inkleuring – een aanpak onder eigen toezicht

Nieuw convolutioneel netwerk leert kleuren van het ene referentieframe naar volgende frames te kopiëren.
Terwijl hij dit doet, kan hij verschillende objecten volgen en occlusies doorzoeken.
Het kan ook menselijke houdingen volgen.

Machines leren objecten in een video te volgen is een van de moeilijkste taken in computer vision, vooral omdat er een enorme, gelabelde trainingsdataset voor nodig is. Natuurlijk zou het opnemen en labelen van alles wat er op aarde gebeurt onpraktisch zijn.

Daarom is het noodzakelijk om een systeem te bouwen dat leert volgen zonder menselijk toezicht, in plaats van een enorme hoeveelheid onbewerkte, ongelabelde clips te gebruiken. Waarom maakt het zoveel uit, vroeg je? Het volgen van objecten in video's kan nuttig zijn voor tal van toepassingen, zoals objectinteractie, activiteitsherkenning, videostilisatie en nog veel meer.

Nu hebben onderzoekers bij Google een convolutioneel netwerk ontwikkeld dat leert kleuren uit één enkel referentiekader te kopiëren. In plaats van te proberen kleuren rechtstreeks op basis van een grijswaardenframe te schatten, is het model beperkt tot het gebruik van kleuren uit het eerste referentieframe van de video.

Om de juiste kleuren te kopiëren, moet het netwerk leren hoe het intern naar de juiste regio kan verwijzen. Dit nieuwe model kan verschillende objecten volgen en occlusies volgen zonder getraind te hoeven worden op grote gelabelde datasets.

Video's opnieuw inkleuren

Om dit kunstmatige-intelligentiesysteem te ontwikkelen, hebben onderzoekers gebruik gemaakt van de temporele coherentie van kleur, die enorme trainingsgegevens biedt voor het leren van convolutionele netwerken om specifieke delen van de video te volgen. Er zijn enkele uitzonderlijke gevallen waarin de kleur tijdelijk niet coherent is, bijvoorbeeld door het onmiddellijk inschakelen van verlichting. Over het algemeen blijven kleuren echter stabiel in de loop van de tijd.

Voorspelde kleuren op basis van ingekleurde enkelvoudige framereferentie | Krediet:Google

Eerst wordt de video ontkleurd en vervolgens voert het netwerk inkleuringsstappen uit, omdat een scène verschillende objecten met dezelfde kleur kan bevatten. Door dit te doen, kan de machine leren hoe hij bepaalde regio's of objecten kan volgen.

Training

De onderzoekers gebruikten de Kinetics-dataset (bevat een half miljoen videoclips van dagelijkse activiteiten) om hun model te trainen. Ze hebben alle videoframes, behalve de eerste, omgezet in grijstinten en het netwerk getraind om de juiste kleuren in de volgende frames te schatten.

Om originele kleuren uit één frame te kopiëren, leerde het convolutionele netwerk intern naar de juiste kleuren te verwijzen. Dit dwong het netwerk een expliciet mechanisme te volgen, dat gebruikt kan worden voor het volgen van objecten.

Het netwerk volgt objecten zonder toezicht | Krediet:Google

Ondanks het feit dat het model niet is getraind op solide identiteiten, leert het elk object of visueel gedeelte in de video te volgen met behulp van slechts één (eerste) frame. Het kan een enkel punt of een omlijnde entiteit in de video volgen.

Referentie: arXiv:1806.09594 | Google AI-blog

Om objecten bij het inkleuren van video te volgen, hebben onderzoekers slechts één wijziging aangebracht:labels die doelgebieden vertegenwoordigen, verspreiden in plaats van kleuren door de hele clip heen te verspreiden.

Positie volgen

Bewegingen van menselijk skelet volgen | Krediet:Google

Het netwerk is ook in staat menselijke poses te volgen:het vereist een eerste frame met de belangrijkste punten en doet de rest van het werk. Het voorspellen van sleutelpunten in de volgende frames is echter niet zo eenvoudig als het klinkt, omdat je een fijnmazige lokalisatie van elk sleutelpunt nodig hebt wanneer mensen in de video vervorming ondergaan.

Onderzoekers demonstreerden de pose-trackingfunctie van het netwerk op de JHMDB-dataset (een volledig geannoteerde dataset voor menselijke houdingen en acties) waar ze een menselijk gewrichtsskelet volgden.

Het netwerk verkrijgt vergelijkbare prestaties als optische stroom, wat aangeeft dat het enkele bewegingskenmerken zou kunnen leren. Het leert menselijke poses en videosegmenten goed genoeg volgen om iets beter te presteren dan de nieuwste op optische flow gebaseerde technieken.

Lezen:Google AI kan korte videoclips maken van twee stilstaande beelden

Het model is nog niet perfect. Bij sommige experimenten slaagde het er niet in video's in te kleuren en segmenten bij te houden. Daarom zijn onderzoekers van plan het video-inkleuringsproces verder te verbeteren, wat zich uiteindelijk kan vertalen in verbeterde, zelfgecontroleerde tracking.

AI detecteert ziekten, waaronder kanker, via menselijke adem AI zorgt voor realtime 3D-haarweergave met 30.000 strengen

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie