Artikkel

Hvordan kan vi avsløre KI-generert lyd?

Den nyeste formen for forfalskning av lyd gjør det nærmest umulig å høre forskjell på ekte og falskt.

Maskiner har tidligere klonet stemmene til skuespillere som Stephen Fry og Emma Watson, men forfalskning av lyd har også nådd politikken – hele veien til Det hvite hus. Illustrasjon: Alexander Slotten

Silje Førsund

Publisert 29.04.2024 - 12:07 Sist oppdatert 30.04.2024 - 11:10

Joe Biden hørtes ut som om han oppfordret velgere til å la være å stemme. Ordføreren i London hørtes ut som om han mente londonere burde droppe markeringen av Remembrance Day, dagen britene minnes sine falne i første verdenskrig, og heller bruke dagen til å delta i pro-palestinske markeringer. Og i Slovakia hørtes en partileder ut som om han planla å rigge valget.

Falske lydklipp har lenge vært en kjent svindelmetode som både har vært brukt til pengeutpressing, markedsføring og salg, der stemmene til skuespillere som Stephen Fry, Tom Hanks og Emma Watson har blitt brukt.

– Det er blitt gjort store framsteg over flere år, og verktøyene som finnes i dag er mer avanserte enn noen gang, sier Cole Whitecotton, forsker på blant annet lyd, ved University of Colorado Denver til Faktisk.no.

De siste månedene har en rekke falske lydklipp som imiterer fremtredende politikere spredt seg på sosiale plattformer. Flere av klippene er blitt spredt rett før politiske valg. Er det lenger mulig å finne ut om et lydklipp er falskt?

Tom Hanks' stemme er en av flere skuespillerstemmer som er blitt brukt til å lage kunstige lydopptak. I hans tilfelle ble stemmen forfalsket til å høres ut som han reklamerte for en tannbehandling. Illustrasjon: Alexander Slotten

Stadig nye verktøy

– En dyktig lydforfalsker kan nå lage et lydspor med tilstrekkelig plausible lydkomponenter til at det ikke vil være mulig å si med absolutt sikkerhet at lydklippet er falskt.

Det skriver Robert C. Maher i en e-post til Faktisk.no. Maher er professor i elektro- og datateknikk ved Montana State University. Han har blant annet skrevet håndboken Principles of Forensic Audio Analysis.

Han får støtte av Catalin Grigoras, direktør ved National Center for Media Forensics. Han mener en del av problemet er at utviklingen av teknologien som brukes for å lage lydklippene ligger foran utviklingen av teknologien som skal oppdage den.

– Selv om vi i dag har systemer for å oppdage det nyeste KI-genererte innholdet, vet vi at det i morgen vil bli lansert et nytt KI-genereringsverktøy, og vi må fortsette forskningen og oppdatere systemene som kan avdekke lydforfalskningene, skriver han i en e-post til Faktisk.no.

<a href="https://www.youtube.com/watch?v=zZfS8uk70Zc" target="_blank" rel="noopener noreferrer">Kilde: YouTube</a>

Klonede KI-stemmer

Før gikk forfalskning av lyd ut på å bruke et eller flere ekte lydopptak, for så å klippe lydopptakene slik at meningsinnholdet ble et annet.

I dag gjør kunstig intelligens-teknologien at maskiner med utgangspunkt i et ekte lydklipp kan klone stemmer gjennom å predikere hvordan vedkommende ville ha uttalt ord og setninger.

Denne måten å klone en stemme på, gjør at det kan lages falske lydklipp av ord og setninger en person aldri har sagt.

Valgpåvirkning

Såkalte audio deepfakes kan også skape realistisk akustikk og bakgrunnslyd.

I tilfellet med ordføreren i London, var det KI-genererte falske lydklippet laget slik at det hørtes ut som et skjult opptak.

Det samme var tilfellet for den slovakiske politikeren. Michal Simecka leder det liberale partiet Progressive Slovakia. To dager før slovakerne gikk til valglokalene på senhøsten i fjor, dukket et lydklipp opp på sosiale plattformer. I lydklippet fremsto det som om Simecka snakket med en journalist om hvordan de kunne rigge valget og kjøpe stemmer.

Lydklippet av Joe Biden dukket opp i januar, like før primærvalget i New Hampshire.

Her kan du høre det falske Joe Biden-lydklippet.

I Pakistan dukket det opp en annen variant av politiske lydforfalskninger. Mens tidligere statsminister Imran Khan satt fengslet, delte partikolleger et KI-generert lyd- og videoklipp av Khan for å spre partiets budskap.

Vanskelig å verifisere lyd

Så, hvordan kan vi avsløre KI-generert lyd?

Lytt med et kritisk øre: Selv om de KI-genererte lydklippene høres naturtro ut, kan man fortsatt innimellom få indikasjoner ved å lytte nøye. I lydforfalskningen av Joe Biden kunne man for eksempel høre et lite og unaturlig «hakk», som om Biden stoppet litt opp midt i en setning. Lytt også etter plutselige endringer i tone eller inkonsekvent akustikk, begge deler kan være tegn på manipulasjon.

Hvem står bak: Som med alt innhold du presenteres for i sosiale medier, bør du tenke over hvem som sprer budskapet.

KI-detektorene: Det finnes en rekke såkalte KI-detektorer, nettsider der du kan laste opp lydklipp (og bilder), og få svar på hvor sannsynlig det er at klippet er KI-generert. Undersøkelser har imidlertid vist at detektorene ikke kan brukes som fasit, i beste fall vil de kunne gi en pekepinn på at noe er KI-generert.

Kontekst: Still spørsmål ved lydklippet du lurer på om kan være KI-generert. Hvor sannsynlig er det at Joe Biden ville oppfordret velgere til ikke å stemme? Ville ordføreren i London bedt innbyggerne droppe en minnesmarkering med sterke tradisjoner? Ville Imran Khan klart å spille inn og sende ut et lydopptak fra fengsel?

Det finnes både lyd-generatorer og lyd-detektorer på nett. De fleste er enkle å bruke, mange er gratis og de krever ingen forkunnskaper. Illustrasjon: Alexander Slotten

Det viktigste sporet

At lydklippet som hørtes ut som Joe Biden var falskt, ble bekreftet da tv-kanalen NBC News fant opphavet til lydklippet. Det samme gjaldt ordføreren i London. BBC fant personen som hadde laget og spredt klippet.

Fordi den tekniske kvaliteten på lydforfalskningene er høy, tror professor Robert C. Maher at det å finne ut hvem som har laget og delt et lydklipp i framtiden blir avgjørende. Bare da vil man med sikkerhet kunne slå fast om et lydklipp er forfalsket. Han advarer mot å trekke slutninger om at et klipp er ekte bare fordi man ikke finner bevis for at det er falskt.

Forsker Cole Whitecotton tror kunnskap og utdanningen er det viktigste i møte med lydforfalskninger og andre forfalskninger.

– Jo bedre vi forstår hvordan disse verktøyene virker og hva som er mulig å gjøre med dem, desto bedre rustet er vi i møte med forfalskninger.

Hvordan kan vi avsløre KI-generert lyd?