De raadselachtige, geschilderde glimlach van de "Mona Lisa" is over de hele wereld bekend, maar onlangs vertoonde dat beroemde gezicht een verrassend nieuw scala aan uitdrukkingen, dankzij kunstmatige intelligentie (AI).
In een video die op 21 mei werd gedeeld met YouTube, tonen drie videoclips verontrustende voorbeelden van de Mona Lisa terwijl ze haar lippen beweegt en haar hoofd draait. Ze is gemaakt door een convolutioneel neuraal netwerk - een type AI dat informatie verwerkt zoals een menselijk brein dat doet, om beelden te analyseren en te verwerken.
Onderzoekers hebben het algoritme getraind om de algemene vormen van gezichtskenmerken te begrijpen en hoe ze zich ten opzichte van elkaar gedragen, en om die informatie vervolgens toe te passen op stilstaande beelden. Het resultaat was een realistische videoreeks van nieuwe gezichtsuitdrukkingen vanuit één frame.
Voor de Mona Lisa-video's "leerde" de AI gezichtsbeweging van datasets van drie menselijke proefpersonen, wat drie heel verschillende animaties opleverde. Hoewel elk van de drie clips nog steeds herkenbaar was als de Mona Lisa, gaven variaties in het uiterlijk en gedrag van de trainingsmodellen verschillende 'persoonlijkheden' aan de 'levende portretten', Egor Zakharov, een ingenieur bij het Skolkovo Institute of Science and Technology, en het Samsung AI Center (beide gevestigd in Moskou), uitgelegd in de video.
Zakharov en zijn collega's maakten ook animaties van foto's van culturele iconen uit de 20e eeuw, zoals Albert Einstein, Marilyn Monroe en Salvador Dali. De onderzoekers beschreven hun bevindingen, die niet door vakgenoten werden beoordeeld, in een studie die op 20 mei online is gepubliceerd in het preprint-tijdschrift arXiv.
Het produceren van originele video's zoals deze, bekend als deepfakes, is niet eenvoudig. Menselijke hoofden zijn geometrisch complex en zeer dynamisch; 3D-modellen van hoofden hebben 'tientallen miljoenen parameters', schreven de auteurs van het onderzoek.
Bovendien is het menselijk zichtsysteem volgens de studie erg goed in het identificeren van "zelfs kleine fouten" in 3D-gemodelleerde menselijke hoofden. Iets zien dat er bijna menselijk uitziet - maar niet helemaal - veroorzaakt een gevoel van diep onbehagen dat bekend staat als het griezelige vallei-effect.
AI heeft eerder aangetoond dat het mogelijk is om overtuigende deepfakes te produceren, maar het vereiste meerdere hoeken van het gewenste onderwerp. Voor de nieuwe studie introduceerden de ingenieurs de AI in een zeer grote dataset met referentievideo's die menselijke gezichten in actie laten zien. De wetenschappers stelden gezichtskenmerken vast die op elk gezicht van toepassing zouden zijn, om het neurale netwerk te leren hoe gezichten zich in het algemeen gedragen.
Vervolgens hebben ze de AI getraind om de referentie-uitdrukkingen te gebruiken om beweging van de bronkenmerken in kaart te brengen. Hierdoor kon de AI een deepfake creëren, zelfs als er maar één afbeelding was om uit te werken, rapporteerden de onderzoekers.
En meer bronafbeeldingen leverden een nog gedetailleerder resultaat op in de uiteindelijke animatie. Video's gemaakt van 32 afbeeldingen in plaats van slechts één, bereikten in een gebruikersonderzoek "perfect realisme", schreven de wetenschappers.