Sia il mondo del cinema che quello dei videogiochi riescono oramai a creare e usare dei volti digitali che ci appaiono incredibilmente realistici. Le tecnologie e tecniche per raggiungere questo risultato sono molte e diverse, ma una in particolare ha di recente attirato l’attenzione: il software MetaHuman. Il suo primo trailer rilasciato nel febbraio 2021 ha infatti sorpreso sia il grande pubblico che gli esperti per i primi risultati mostrati. Stupore poi replicato col rilascio di un prodotto pubblicitario di Matrix Awakens, film scelto non a caso dato il tema centrale di una indiscernibilità tra reale e virtuale. Ma da cosa deriva questo realismo? A porsi questa domanda sono stati alcuni ricercatori del Dipartimento di Filosofia e Scienze dell’educazione che studiano le trasformazioni del volto nelle società contemporanee[1]. A prima vista può certamente stupire che di una questione così tecnica si occupino filosofi e umanisti anziché ingegneri e informatici! Eppure, la storia dei media ci insegna che riconoscere un volto artificiale come realistico non è il semplice risultato “oggettivo” di quanto si ha di fronte ma che è sempre una interpretazione complessa. Una divertente testimonianza di questo si trovare nei meme sui videogiocatori che ritenevano come incredibilmente realistici i volti prodotti dalla la grafica dei giochi tra fine anni 90 e 2000:

Ma soprattutto lo scopo a lungo termine di Metahuman dichiarato è quello di permettere la creazione di esseri umani digitali realistici con volti in grado di mentire. Una dichiarazione che chiama direttamente in causa la definizione della prospettiva semiotica data da Umberto Eco in uno dei suoi testi fondativi:
«La semiotica ha a che fare con qualsiasi cosa possa essere ASSUNTA come segno. È segno ogni cosa che possa essere assunta come un sostituto significante di qualcosa d’altro. Questo qualcosa d’altro non deve necessariamente esistere, né deve sussistere di fatto nel momento in cui il segno sta in luogo di esso.In tal senso la semiotica, in principio, è la disciplina che studia tutto ciò che può essere usato per mentire. Se qualcosa non può essere usato per mentire, allora non può neppure essere usato per dire la verità: di fatto non può essere usato per dire nulla. Se qualcosa non può essere usato per mentire, allora non può neppure essere usato per dire la verità: di fatto non può essere usato per dire nulla. La definizione di ‘teoria della menzogna’ potrebbe rappresentare un programma soddisfacente per una semiotica generale» (1975/2013 p.17).
Tornando a MetaHuman, quali sono allora gli aspetti tecnici che producono quei segni che influenzano la nostra interpretazione di questi volti? Tra i molti elementi messi in luce dalla ricerca, spicca sicuramente il ruolo dell’intelligenza artificiale e in particolare del machine learning. Prima di tutto i volti che vediamo sono il risultato di avanzatissime scannerizzazioni di veri volti umani che vengono “catturati” dalle telecamere e poi trasformati dall’AI in modelli 3D grazie al deep learning. Inoltre, anche le deformazioni corporee che il software produce su quel volto (per esempio per farlo sorridere) sono il risultato di reti a cui abbiamo “insegnato”, tramite allenamento, a riconoscere e riprodurre come il corpo cambia in diverse situazioni. Messi insieme, questi due aspetti tecnici producono un effetto di reale che è un risultato non del singolo software ma degli ultimi trent’anni di ricerca sui metodi computazionali di riconoscimento facciale uniti alla ricerca sull’intelligenza artificiale. In questo senso, un singolo volto metaumano è fatto da decine di migliaia di volti che, in qualche modo, riconosciamo. All’intelligenza artificiale è dunque affidato un ruolo di mediazione e produzione tecnica tra l’oggetto materiale empirico (il volto della persona) e la sua riproduzione digitale. In passato, diversamente, i volti e corpi digitali venivano tipicamente creati “manualmente” e poi animati e deformati attraverso un lungo processo. Anche i casi più pioneristici e coraggiosi di motion capture, come Final Fantasy: The Spirits Within, richiedevano un importante lavoro manuale di definizione e trasformazione del materiale catturato. Il realismo che noi percepiamo nei personaggi creati con MetaHuman è dunque un giudizio che diamo non solo in relazione alla nostra esperienza visiva di volti in carne ed ossa ma anche in relazione ai modelli passati e presenti di computer-generated imagery (CGI).
Nonostante i risultati così raggiunti, questo realismo generato dall’IA rimane solo una delle tante forme possibili. Infatti, gli artisti di oggi non hanno certo smesso di disegnare e animare volti che noi interpretiamo spesso come maggiormente espressivi e che hanno dunque effetti maggiormente realistici sul nostro sentire, come nel caso del videogioco Kena: Bridge of Spiritis. Per alcuni questa differenza rappresenta una futura sfida per l’IA che pare abbia ancora molto da imparare. Dopotutto, i creatori stessi di MetaHuman hanno dichiarato[2] che il software non poteva ancora dirsi veramente fotorealistico al punto da nascondere la natura digitale di questi volti e che non annullava del tutto la uncanney valley. Mentre per altri conferma il fatto che nulla può davvero sostituire la manualità umana dietro al processo artistico. Qualunque siano le nostre preferenze estetiche e posizioni, rimane il fatto che i volti digitali contemporanei ci raccontano molto delle società in cui viviamo e della complessità con cui interpretiamo gli oggetti del mondo attorno a noi.
[1] Nello specifico si tratta di un gruppo di ricerca che opera all’interno del progetto europeo ERC “FACETS”, diretta dal Prof. Massimo Leone.
[2] https://www.gamesindustry.biz/articles/2021-02-10-epics-new-tool-promises-high-fidelity-human-characters-in-under-an-hour

