Deepfakes på väg att sudda ut gränsen mellan sant och falskt
Om några månader kan det vara i princip omöjligt att med endast syn och hörsel särskilja så kallade ”deepfake” från autentiskt innehåll.
Bild: Shutterstock
Dagens ETC
AI-utvecklingen går inte fort – den går jättefort. Om några månader kan det vara i princip omöjligt att med endast syn och hörsel särskilja så kallade ”deepfake” från autentiskt innehåll. Lagstiftning halkar efter och experter bedömer att demokratin står inför en hård prövning.
Dagens ETC har pratat med experten som tycker att vi – trots allt – kan sitta lugnt i båten.
I politiska val världen över – i Indien, Storbritannien, Nigeria, Etiopien, Sudan – har fejkat ljud- och bildinnehåll seglat upp som en avgörande utmaning för dem som bekämpar desinformation. Det de kämpar emot är dessvärre en teknisk utveckling som gjort att det numera är både enkelt och billigt att skapa sitt eget AI-genererade innehåll ämnat att imitera en persons röst eller rörelser – en så kallad deepfake.
Ett av de senast uppmärksammade fallen är från USA där ett stort antal väljare i delstaten New Hampshire nyligen tog emot ett telefonsamtal från någon som lät som president Joe Biden och som uppmanade dem att inte rösta i primärvalet.
När NBC News spårade Biden-klippets ursprung visade det sig att mannen som skapat det hade lagt en amerikansk dollar och mindre än 20 minuter på att producera ljudklippet.
Tidigare krävde ljudbaserade deepfakes stora mängder originalljud från en viss person, vilket gjorde att enbart deepfakes på kända personer höll hög kvalitet. Idag räcker det med en minuts ljudinspelning och rösten till i princip vem som helst kan därför användas som råmaterial för ett falskt ljudklipp.
Att skilja deepfakes från autentiskt innehåll har därför blivit en viktig färdighet att ha för väljare som vill kunna göra informerade val när de går och röstar.
Ledtråd: ansiktsmusklerna
Tobias Falk är lektor vid Institutionen för data- och systemvetenskap på Stockholms universitet. Han säger att fejkat ljudinnehåll har så hög kvalitet idag att det i praktiken redan är omöjligt att avslöja. När det kommer till videoinnehåll tipsar han om att titta på ansiktsmuskulaturen.
– Ansiktet har 43 muskler och vi är väldigt tränade på att se om de där 43 musklerna uppför sig som de ska eller inte, säger han till Dagens ETC.
Om man manipulerar video och lägger in en fejkad röst är den stora utmaningen enligt honom att generera nya läpprörelser. Därför bör man kontrollera om läpparna synkar med ljudet. Huruvida ögonen rör sig på ett naturligt sätt är också en indikator.
Men – påminner han – ansiktet rör sig inte lika mycket på alla människor.
– Joe Biden, till exempel, har gjort många skönhetsoperationer och har därför väldigt lite rörlighet i ansiktet. Bara hans läppar rör sig lite så ser han ut som han gör i vanliga fall. Ju mer muskulatur som är levande i ansiktet, desto svårare är det att göra deepfakes. Gamla gubbs som Trump och Biden är alltså tacksamma måltavlor för deepfakes.
”Det är helt nytt”
Men så har vi problemet med den jättesnabba utvecklingen. Vad betyder den för tipsens bäst före-datum?
– Ge det ett par månader så kommer de att vara helt ogiltiga tror jag, säger Tobias Falk.
Han illustrerar med AI-företaget Openais nyligen utannonserade tjänst Sora, som sägs kunna producera extremt realistiska videor från vanliga textinstruktioner.
– Det är en sådan revolution när det gäller generativ AI att det helt och hållet kan komma att skriva om hur man jobbar med rörlig bild.
Openai har spridit ett antal videor som exempel på Sora-produkter, men de har inte släppt någon information om hur de har skapats. Vi kan alltså ännu inte veta hur lång tid det har tagit, eller hur komplicerat det har varit. Men kvaliteten är antagligen inte påhittad. Då hade de inte vågat gå ut med videorna på det sättet, tror Tobias Falk.
– Det finns videor där en kamera åker runt ett hörn till exempel. Det innebär att den generativa AI:n kan hantera tre dimensioner, plus tid. Det är helt nytt, det har ingen varit i närheten av tidigare.
Det här gör att alla svårigheter som finns när det gäller att fejka ansikten försvinner, säger han. Då kommer man inte längre kunna förlita sig på blotta ögat för att skilja en deepfake från verkligt innehåll.
Profit kan bli motdraget
Nattsvart, alltså. Totalt informationskaos och en demokrati i fritt fall. Eller?
Nja, tycker Tobias Falk. Desinformation har i princip alltid funnits, poängterar han.
– Jag tror inte att AI förändrar attackerna på demokratin. De finns redan där, men jag tror att det kommer bli mer av samma.
– Min grundinställning är att AI är lite som elektricitet. Just nu befinner vi oss i en fas där vi ser gnistregn och magnetism och massor av spännande ”razzle dazzle”, som när elektriciteten kom till. Sedan blev elektriciteten tillgänglig och så förväntar vi oss att den ska vara där i väggen, och blir jättesura om den inte är det. Med AI tror jag att vi sakta men säkert kommer att hamna där också.
Just nu finns ingen färdig lösning för att avslöja deepfakes. Men det kommer, tror Tobias Falk.
– Behovet finns ju, så det kommer säkert komma upp sådana lösningar. Någon kommer att kunna tjäna en slant på det.
”Desinformation på steroider”
Alla är inte lika optimistiska, särskilt inte i relation till utvecklingen i närtid. Det finns enligt journalistnätverket GIJN experter som bedömer att deepfakes kan leda till potentiellt katastrofala konsekvenser för demokratier. Hälften av medborgarna kan inte särskilja mellan fejkat och autentiskt innehåll, och särskilt svårt är det för äldre med lägre kunskap om samtida informationslandskap.
– AI:s förmåga att vilseleda har pumpat mis- och desinformationsproblemet med steroider, säger Lisa Gilbert, verkställande vice ordförande för intresseorganisationen Public Citizen, till The Guardian.
Utvecklingen ger också politiker möjligheten att skapa misstro kring granskande journalistik genom att hävda att verkliga ljud- eller videoklipp där de avslöjas säga eller göra något klandervärt är fejk – en möjlighet som redan har utnyttjats av politiker i Indien och Etiopien, enligt GIJN.