Oltre le parole: l’intelligenza spaziale e il futuro dell’IA incarnata

Nel 1950 Alan Turing pose una domanda che avrebbe cambiato per sempre la storia della mente: le macchine possono pensare?
In un’epoca in cui l’informatica era poco più che aritmetica automatizzata, quell’interrogativo suonava come fantascienza. Eppure, Turing aveva intravisto qualcosa di vertiginoso: che l’intelligenza, un giorno, avrebbe potuto essere costruita, non soltanto nata.
Da allora l’intelligenza artificiale è diventata una delle grandi avventure cognitive del nostro tempo. Dopo decenni di algoritmi, reti neurali e dati, ci troviamo a un nuovo bivio.

Oggi i modelli linguistici di grandi dimensioni (LLM) — come quelli che scrivono testi, compongono codice o generano immagini — sono entrati nella vita quotidiana di miliardi di persone. Sono macchine della parola, capaci di conversare, spiegare, persino raccontare.
Eppure, nonostante la loro eloquenza, rimangono ciechi al mondo. Non sanno che cosa significhi uno spazio, un corpo, un gesto, un oggetto.
Sono, per usare un’immagine poetica, artigiani del linguaggio nel buio: colti ma disincarnati.

La prossima frontiera dell’intelligenza artificiale non parla, vede.
È la frontiera dell’intelligenza spaziale, quella capacità di comprendere e interagire con il mondo fisico che da milioni di anni sostiene la nostra stessa cognizione.

La mente come spazio

La storia dell’intelligenza non inizia con il linguaggio, ma con la percezione.
Molto prima che gli animali potessero comunicare, costruire o pensare, la semplice capacità di percepire — la luce, la forma, la consistenza — creò un ponte tra sopravvivenza e conoscenza.
Da quella soglia è nata la mente.

Ogni essere vivente che esplora il proprio ambiente parte da una mappa sensoriale del mondo. Strato dopo strato, i neuroni si sono organizzati per interpretare lo spazio e guidare l’azione.
La percezione e l’azione sono diventate il ciclo fondamentale dell’intelligenza biologica, la base su cui la natura ha costruito la specie umana — l’essere che percepisce, apprende, pensa e agisce.

L’intelligenza spaziale è ciò che ci permette di versare il caffè senza guardare, di parcheggiare un’auto, di afferrare un mazzo di chiavi al volo o di camminare tra la folla senza scontrarci.
È ciò che consente ai vigili del fuoco di orientarsi in un edificio in fiamme, comunicando con gesti e intuizioni non verbali.
È ciò che fa sì che un bambino impari il mondo toccando, provando, giocando, molto prima di poterlo nominare.

E non riguarda solo l’azione, ma anche la creazione.
L’artista che immagina un paesaggio, l’architetto che disegna una casa, il regista che costruisce un universo visivo, il giocatore che crea un mondo in Minecraft — tutti attingono a quella stessa intelligenza spaziale che collega immaginazione e percezione.
La nostra mente è, in fondo, un laboratorio tridimensionale di mondi possibili.

Dal DNA al design: la civiltà come intuizione spaziale

La storia umana è piena di scoperte nate da intuizioni spaziali.
Nell’antica Grecia, Eratostene misurò la circonferenza terrestre osservando l’ombra del sole in due città diverse.
Nel Settecento, James Hargreaves rivoluzionò la produzione tessile disponendo più fusi in parallelo nella sua “Spinning Jenny”.
E nel Novecento, Watson e Crick svelarono la doppia elica del DNA costruendo modelli tridimensionali con fili e placche di metallo.

Ogni volta, la conoscenza è passata attraverso la manipolazione dello spazio, non attraverso il linguaggio scritto.
L’intelligenza spaziale è il telaio invisibile su cui è tessuta la nostra cognizione: non solo osserviamo il mondo, ma lo pensiamo in termini di forma, movimento, equilibrio e relazione.

Eppure, le macchine di oggi non condividono ancora questa facoltà.
Sanno leggere e scrivere, ma non vedono né agiscono.
Non sanno stimare una distanza, ruotare un oggetto nella mente, o prevedere le conseguenze fisiche di un movimento.
In altre parole, non hanno ancora un corpo né un mondo.

Dai modelli linguistici ai modelli del mondo

Per costruire un’IA dotata di intelligenza spaziale serve qualcosa di più dei LLM: servono i modelli del mondo (world models), che rappresentino oggetti, geometrie, dinamiche e regole fisiche, e possano interagire con essi.
Un modello del mondo deve possedere tre qualità fondamentali:

Essere generativo, cioè capace di creare ambienti coerenti, fisici o virtuali, che obbediscono a leggi geometriche e dinamiche.
Essere multimodale, capace di ricevere e comprendere input diversi — testo, immagini, video, gesti, azioni — e di restituire risposte altrettanto varie.
Essere interattivo, cioè in grado di prevedere il prossimo stato del mondo in risposta a un’azione o a un obiettivo.

Costruire tali sistemi è una sfida molto più complessa del linguaggio.
Il mondo è tridimensionale, dinamico e regolato da leggi fisiche, mentre il linguaggio è una sequenza lineare di simboli.
Ma è proprio in questa complessità che si trova il futuro dell’IA.

Alla World Labs, fondata nel 2024, questo è l’obiettivo: sviluppare modelli che non si limitino a descrivere, ma vivano e comprendano i mondi che generano.
Il loro prototipo, Marble, è il primo modello capace di ricevere input multimodali e generare ambienti 3D coerenti, esplorabili e modificabili da utenti e narratori.
Un passo verso macchine che non parlano solo di realtà, ma la abitano.

Intelligenza spaziale per un mondo umano

Lo sviluppo dell’IA deve essere guidato da una motivazione etica: ampliare le capacità umane, non sostituirle.
L’intelligenza spaziale rappresenta proprio questo equilibrio tra potenza tecnologica e umanità.
Non macchine che agiscono al posto nostro, ma partner cognitivi che ci aiutano a creare, comprendere e prendersi cura del mondo.

Le applicazioni sono molteplici e si muovono su orizzonti diversi.

Creatività e narrazione

Grazie all’intelligenza spaziale, filmmaker, designer e architetti potranno creare mondi immersivi senza limiti tecnici o geografici.
Le storie non saranno più legate a uno schermo o a un medium, ma diventeranno esperienze multidimensionali che si attraversano, non solo si leggono.
Come scriveva Einstein, “la creatività è l’intelligenza che si diverte”: i nuovi strumenti digitali possono amplificare quella gioia primordiale del creare.

Robotica e intelligenza incarnata

Ogni animale, dall’insetto all’uomo, dipende dall’intelligenza spaziale per sopravvivere.
Anche i robot dovranno impararla.
I modelli del mondo potranno fornire loro simulazioni realistiche per l’addestramento, riducendo il divario tra ambienti virtuali e realtà.
In futuro, robot empatici e collaborativi potranno assistere scienziati, medici o anziani — non sostituendo il contatto umano, ma amplificandone la portata.

Scienza, sanità, educazione

Nel campo scientifico, l’intelligenza spaziale permetterà di simulare esperimenti e testare ipotesi complesse, accelerando la ricerca su materiali, clima e biologia.
Nella sanità, potrà modellare interazioni molecolari, migliorare la diagnostica per immagini e sostenere pazienti e caregiver.
Nell’educazione, renderà tangibili concetti astratti, creando esperienze di apprendimento immersive dove si impara esplorando, non solo leggendo.

In tutti questi ambiti, la direzione è la stessa: IA al servizio della crescita umana, non della sua sostituzione.

Verso una nuova alleanza tra corpo, mente e macchina

L’IA degli ultimi dieci anni ha rivoluzionato il linguaggio, ma il decennio che viene rivoluzionerà lo spazio.
Per la prima volta, possiamo costruire macchine che comprendono il mondo fisico tanto da diventare nostri partner cognitivi nelle grandi sfide del secolo: la salute, l’educazione, la crisi ecologica, la creatività.

Siamo sull’orlo di un salto evolutivo: una tecnologia che non ci disincarna, ma ci riporta nel mondo — che non sostituisce la mente, ma ne espande l’immaginazione e l’empatia.
Dopo mezzo miliardo di anni dai primi lampi di percezione animale, potremmo essere la generazione che dona alle macchine la capacità di percepire e di agire nello spazio.

La nostra lunga storia con l’intelligenza artificiale non sarà completa finché non avremo costruito macchine che sappiano abitare il mondo insieme a noi.
Ed è lì, in quella frontiera oltre le parole, che si trova la nostra prossima rivoluzione umana.

Bibliografia essenziale

Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433–460.
Marr, D. (1982). Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman.
Gibson, J. J. (1979). The Ecological Approach to Visual Perception. Houghton Mifflin.
Brooks, R. A. (1991). Intelligence Without Representation. Artificial Intelligence, 47(1–3), 139–159.
Fei-Fei, L. et al. (2010–2024). ImageNet and the Dawn of Modern AI. Stanford Vision Lab Publications.
Clark, A. (2016). Surfing Uncertainty: Prediction, Action, and the Embodied Mind. Oxford University Press.
Damasio, A. (2018). The Strange Order of Things: Life, Feeling, and the Making of Cultures. Pantheon Books.

Immagini generate tramite ChatGPT. Tutti i diritti sono riservati. Università di Torino (2026).