La clonazione vocale ha aperto le porte a una vasta gamma di applicazioni, tra cui la creazione di voci sintetiche per individui con disabilità del linguaggio. Tuttavia, il suo potenziale benefico è oscurato dall’abuso sistematico da parte di truffatori che cercano di ingannare individui e aziende per milioni di dollari o di diffondere disinformazione elettorale attraverso audio deepfakes.
Per affrontare questa crescente minaccia, la Federal Trade Commission (FTC) degli Stati Uniti ha lanciato la Voice Cloning Challenge, invitando esperti accademici e dell’industria a proporre soluzioni innovative per prevenire, monitorare e valutare l’uso dannoso della clonazione vocale. Tre vincitori sono emersi da questa sfida, ciascuno con approcci unici, evidenziando l’importanza di una risposta multidisciplinare a questa sfida in continua evoluzione.
Il progetto OriginStory, uno dei vincitori, si concentra sulla validazione della fonte del parlato. Attraverso l’uso di un microfono personalizzato dotato di sensori integrati, questo team cerca di determinare l’umanità del discorso registrato, aggiungendo una filigrana di verifica che fornisce agli ascoltatori informazioni attendibili sull’origine umana del parlato. Un’altra proposta vincente, AI Detect, sviluppata da OmniSpeech, si basa sull’integrazione di algoritmi di apprendimento automatico in dispositivi come telefoni e auricolari per distinguere in tempo reale le voci generate artificialmente, fornendo agli utenti un’indicazione di possibili minacce. Il terzo vincitore, DeFake, propone un approccio avversario, utilizzando piccole perturbazioni per rendere più difficile la clonazione precisa del parlato umano. Questa tecnica mira a destabilizzare i modelli di IA utilizzati per creare deepfake audio, impedendo agli aggressori di replicare fedelmente le voci delle loro vittime.
Leggi l’articolo completo: New Techniques Emerge to Stop Audio Deepfakes su spectrum.ieee.org.
Immagine generata tramite DALL-E 3.

