Una delle criticità di qualunque algoritmo di Machine Learning[1] si individua già nelle prime fasi del suo sviluppo, ovvero in quei set di dati su cui esso è allenato (o trained, detto in termine tecnico). Questi set, infatti, contengono tutte le informazioni (dati) dalle quali un algoritmo “impara” e che utilizza per scovare strutture e schemi in dati nuovi. È proprio grazie a questo step di apprendimento iniziale che un algoritmo “capisce” come ci comportiamo nel web e diventa capace di prendere decisioni simili a quelle umane, fare previsioni, dare risposte, o svolgere qualsiasi sia il compito per cui è stato sviluppato in primo luogo. Ma perché questa fase di training è così problematica?
1. L’origine del bias: dati imperfetti e gender data gap
Spiegato in parole semplici, con il termine “dati” possiamo essenzialmente pensare a qualsiasi traccia lasciata appunto sul web dall’essere umano, da testi, messaggi, ricerche e clicks, a immagini, video e audio. Ed è un dato di fatto che il mondo digitale è tutto tranne che perfetto.
In particolare, uno dei numerosi problemi generati da questa imperfezione è il cosiddetto AI gender bias (“Pregiudizio di genere delle IA”), ovvero “quando una IA considera e tratta le persone in maniera diversa sulla base del loro genere[2], semplicemente perché questo è ciò che ha imparato dopo essere stata allenata su quei dati distorti (in questo caso sessisti)”.[3] Del resto, come si dice, “garbage in, garbage out”.
La parola “bias”indica una distorsione sistematica, inclinazione o pregiudizio nei confronti di qualcuno o qualcosa, in un modo che viene considerato ingiusto. “Immagina allenare una macchina […], mostrando gli uomini come scienziati e le donne come infermiere – l’IA potrebbe interpretare che uomini e donne siano più adatti ad occupare certi ruoli”.[4]
Di fatto, questo bias algoritmico non è altro che la naturale somma di una serie di fattori storicamente molto radicati, tre in particolare: quello che in inglese viene chiamato gender data gap (in italiano “divario di dati di genere”), la presenza di contenuto sessista in Internet e infine una bassa percentuale di presenza femminile in percorsi e carriere d’ambito scientifico.
Il primo fenomeno, quello del gender data gap, è probabilmente quello più consolidato e quindi più difficile (ma non impossibile) da manipolare e mitigare. “Il gender data gap si riferisce essenzialmente ad una insufficienza e/o incorrettezza di dati riguardanti le donne in generale, le loro esperienze, idee, bisogni e contributi alla società.”[5] Le donne sono proprio statisticamente meno presente sull’Internet.
La causa di questa sottorappresentazione sarebbe il fatto che, storicamente, l’uomo è sempre stato colui che ha avuto maggiori diritti e opportunità di dire e di agire, quindi colui di cui si è sempre parlato e scritto, colui che ha sempre descritto e definito il mondo come lui lo vedeva, percepiva e pensava. Questo ha fatto sì che, non solo l’intera storia dell’umanità sia stata plasmata da grandi imprese e gesta di grandi uomini (in quanto gli unici attori presi in considerazione); ma anche che gli uomini abbiano plasmato culturalmente e psicologicamente il mondo e la percezione che tutti noi, ancora oggi, abbiamo di esso: ogni tentativo di tenere traccia e studiare il mondo da una prospettiva naturale, oggettiva e universale, non era stato altro che, come sempre, la sola visione maschile.
Citando un messaggio incisivo di Caroline Criado-Perez:
“[…] men go without saying, and women don’t get said at all. “
Invisible Women: Exposing Data Bias in a World Designed for Men, p. XII, 2019).(“[…] degli uomini non c’è nemmeno bisogno di parlare, mentre delle donne non si parla proprio.” – trad. mia)
E anche:
“[…] the social and moral order created […]. (Its) impact is indisputable, and as Foucault reminds us, inescapable. “
Sorting Things Out: Classification and Its Consequences 1999, p. 3).
(“[…] l’ordine sociale e morale creato […]. (Il suo) impatto è indiscutibile, e come ci ricorda Foucault, inevitabile.” – trad. mia)
2. Sessismo online e assenza femminile nelle STEM
La seconda grande causa di questa tendenza sessista delle IA è la massiccia quantità di dati e contenuti, appunto sessisti, presenti sul web, che poi automaticamente finiscono per alimentare algoritmi. Questo quindi non ci dovrebbe sorprendere. Gli algoritmi di IA hanno certe tendenze e deviazioni, sono cioè biased, perché sviluppati su dati che in fondo rappresentano l’esperienza umana sull’internet, e l’umanità è intrinsecamente sessista.

Per quanto complicato, alla fine è semplice. Non solo c’è una scarsità di dati riguardanti le donne e prodotti dalle stesse, ma quei pochi esistenti sono anche biased e sessisti.
Infine, in parte conseguenza di questi due fattori appena spiegati, un terzo grande problema è la bassissima presenza femminile nei settori tecnico-scientifici. Questo è pericoloso perché, per quanto riguarda i campi dell’IA e del Machine Learning (ML), ciò che ci interessa spiegare è che alcune fasi dei processi di programmazione, come il cosiddetto labelling[6] dei dati o i processi di categorizzazione, richiedono un certo livello di soggettività da parte della persona incaricata. E soggettività vuol dire tendenze, pregiudizi e visioni del mondo proprie, non universali.
Qualsiasi sistema di classificazione, in qualsiasi ambito, è di per sé sempre uno strumento che modella visioni del mondo e interazioni sociali.
“Despite the common mythos that AI and the data it draws on are objectively and scientifically classifying the world, everywhere there is politics, ideology, prejudices and all of the subjective stuff […]“ (Crawford & Paglen, 2019).
(“Nonostante il mito secondo cui l’IA […] categorizzerebbe il modo in modo oggettivo e scientifico, ovunque (si celano) politica, ideologia, pregiudizi e altre cose soggettive […]” – trad. mia)
L’UNESCO riporta che le donne rappresentano solo il 12% dei ricercatori di IA e solo il 6% dei software developers. Questo vuol dire che si sta continuando ad accumulare esclusivamente le prospettive e le “cose soggettive” di soggetti maschili, ancora una volta.
È allora inevitabile che, non riuscendo ad integrare le visioni femminili, si faccia fatica ad iniziare ad affrontare le questioni legate alle disparità di genere (anche) in questi ambiti; questioni che, ironicamente, richiedono un approccio bilaterale.
3. Possibili soluzioni e nuove prospettive
Ammesso che si possa risolvere il gender bias, cosa si può provare a fare?
Primo, si potrebbe intervenire a livello dei dati già utilizzati durante il training, correggendo errori e imprecisioni, e implementando dati relativi alle donne, cercando di ridurre il gap.
Un altro step sarebbe quello di incoraggiare e facilitare l’accesso di ragazze e donne a facoltà e quindi carriere tecnico-scientifiche, che col tempo porterà a “sistemi che promuovono un’inclusione completa”[7].
Infine, questi temi vanno affrontati ai piani alti. Istituzioni e imprese devono adottare approcci di governance etici e attenti alle questioni di genere.
Riempire questo gap beneficerà tutti in ogni settore, dato che non possiamo aspettarci di riuscire a comprendere e sviluppare l’umanità, escludendone una metà, quella femminile.
Non c’è dubbio che la questione resta comunque molto delicata e complicata. Sorge anche la domanda, senza giri di parole: possiamo davvero sperare di risolvere una qualsiasi distorsione algoritmica? Ci si può davvero aspettare una obbiettività universale dalle macchine? Molti esperti dischiarano che sia un obiettivo irraggiungibile, un’utopia.
Come afferma il linguista e filosofo Wilhelm von Humboldt, il linguaggio è una attività modellante, non è un semplice strumento neutrale, non lo è mai stato e mai lo sarà. Siccome i testi sono la forma principale di dati di input e output del ML, “se l’IA accede tramite il nostro linguaggio a tutta la conoscenza accumulata dalla cultura, è inevitabile che erediti anche i pregiudizi umani. […] è impossibile utilizzare il linguaggio in modo significativo senza incorporare anche i bias umani”[8].
Anche chiudendo un occhio al problema della trasparenza algoritmica, il fulcro di un altro delicato dibattito, se l’IA simula il modo in cui la mente umana funziona, pensa e si esprime, e l’umanità e il linguaggio stessi sono per natura corrotti, razzisti e sessisti, è realistico pensare di sviluppare una IA priva di difetti e distorsioni? La perfezione è addirittura qualcosa a cui dovremmo aspirare?
“Ogni standard e ogni categoria valorizza alcuni punti di vista e ne accantona altri. Fondamentalmente questa non è una cosa negativa, ma è certamente inevitabile.”[9]
In quanto esseri umani siamo molto consapevoli del fatto che errare sia umano, ma non siamo pronti a garantire questo privilegio agli altri. Dalle macchine, pretendiamo la perfezione. (Kahneman, 2011).
Sicuramente, molto può ancora e deve essere fatto per ridurre l’impatto del gender data gap e del gender bias. Sarà un percorso lungo e complesso, ma donne e uomini possono ancora dare vita ad un cambiamento positivo.
Detto ciò, dobbiamo anche accettare il fatto che non possiamo solo aggrapparci a questi problemi e incolpare le Intelligenze Artificiali per ciò che stanno “facendo”. Noi dobbiamo imparare da questi problemi. Le criticità attuali dovrebbero piuttosto diventare la goccia che fa traboccare il vaso, e portare l’umanità ad aprire gli occhi sulle questioni socio-culturali che stanno alla base dei problemi con le IA. Lasciamoci travolgere dal mix di emozioni di orgoglio per le nostre capacità umane, di senso di comunità, un po’ di paura, e di consapevolezza della bellezza e dei vantaggi sia della diversità, che della parità di genere.
Questo vortice delle nuove tecnologie deve diventare la rivoluzione che risveglia il nostro pensiero critico.
Le Intelligenze Artificiali possono stravolgere l’intera umanità e mettere le nostre vite sottosopra, ma siamo noi che dobbiamo decidere quando e soprattutto come usare questi strumenti, noi possiamo decidere di farne un buon uso, e noi dobbiamo iniziare un cambiamento anche a partire da dentro noi stessi: solo diventando sempre più consapevoli del nostro essere umani, dei nostri limiti, delle nostre forze e abilità, e solo essendo sempre desiderosi di migliorarci come umani, possiamo davvero avere un impatto nella nostra società, o forse addirittura, un giorno, crearne una nuova, senza disuguaglianze né bias.

Bibliografia
Bender, E. M., McMillan-Major, A., Gebru, T., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big?
Bowker, G. C., & Star, S. L. (1999). Sorting things out: Classification and its consequences.
Buolamwini, J. (2019, February 7). Artificial intelligence has a problem with gender and racial bias. Here’s how to solve it. TIME. https://time.com/5520558/artificial-intelligence-racial-gender-bias/
Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora necessarily contain human biases.
Castaneda, J., Jover, A., Calvet, L., Yanes, S., Juan, A. A., & Sainz, M. (2022). Dealing with gender bias issues in data-algorithmic processes: A social-statistical perspective.
Christian, B. (2020). The alignment problem: Machine learning and human values (Cap. 1). https://cpb-us-e1.wpmucdn.com/sites.psu.edu/dist/0/110933/files/2022/08/Christian-Alignment-Problem-Intro-and-Ch1.pdf
Criado Perez, C. (2019). Invisible women: Exposing data bias in a world designed for men (pp. 1–32).
Crawford, K., & Paglen, T. (2019). Excavating AI: The politics of images in machine learning training sets. https://archive.biennial.com/journal/issue-9/excavating-ai-the-politics-of-images-in-machine-learning-training-sets
D’Ignazio, C., & Klein, L. (2020, March 16). Data feminism (Cap. 3). https://data-feminism.mitpress.mit.edu/pub/5evfe9yd/release/5
Del Villar, Z. (2025, February 5). How AI reinforces gender bias—and what we can do about it. UN Women. https://www.unwomen.org/en/news-stories/interview/2025/02/how-ai-reinforces-gender-bias-and-what-we-can-do-about-it
FREE Network. (2024, March 7). Closing the gender data gap. https://freepolicybriefs.org/2024/03/07/closing-gender-data-gap/
IBM. (n.d.). What is data labeling? Retrieved May 19, 2025, from https://www.ibm.com/think/topics/data-labeling
Kahneman, D., Sibony, O., & Sunstein, C. R. (2021). Noise: A flaw in human judgment (Cap. 10).
Kahneman, D., & Sibony, O. (2021). Rumore. Un difetto del ragionamento umano.
Kundu, A. (2024, March). The AI Act’s gender gap: When algorithms get it wrong, who rights the wrongs? https://policyreview.info/articles/news/ai-acts-gender-gap-when-algorithms-get-it-wrong/1743
Lamensch, M. (2023, June 14). Generative AI tools are perpetuating harmful gender stereotypes. https://www.cigionline.org/articles/generative-ai-tools-are-perpetuating-harmful-gender-stereotypes/
Lazzaroni, R. M., & Pal, S. (2024, October). AI’s missing link: The gender gap in the talent pool. https://www.interface-eu.org/publications/ai-gender-gap
Manasi, A., Panchanadeswaran, S., & Sours, E. (2023, March 17). Addressing gender bias to achieve ethical AI.
file:///C:/Users/User/Desktop/ESSAY/ESSAY%20-%20OK%20Addressing%20Gender%20Bias%20to%20Achieve%20Ethical%20AI%20-%20IPI%20Global%20Observatory.html
Oracle, What is Machine Learning?, Oracle Italia. https://www.oracle.com/it/artificial-intelligence/machine-learning/what-is-machine-learning/
Smith, G., & Rustagi, I. (2021, March 31). When good algorithms go sexist: Why and how to advance AI gender equity. https://ssir.org/articles/entry/when_good_algorithms_go_sexist_why_and_how_to_advance_ai_gender_equity
Seldon. (2023). The gender data gap in AI: Confronting bias in machine learning. https://www.seldon.io/the-gender-data-gap-in-ai/
Tetiana, B. (2024, November). Assessing gender bias in LLMs: Comparing LLM outputs with human perceptions and official statistics. https://arxiv.org/html/2411.13738v1
UNESCO. (2020). Artificial intelligence and gender equality: Key findings of UNESCO’s global dialogue. https://unesdoc.unesco.org/ark:/48223/pf0000374174
UNESCO & International Research Centre on Artificial Intelligence. (2024). Challenging systematic prejudices: An investigation into gender bias in large language models. https://unesdoc.unesco.org/ark:/48223/pf0000388971
UN Women. (n.d.). Making women and girls visible: Gender data gaps and why they matter. https://www.unwomen.org/sites/default/files/Headquarters/Attachments/Sections/Library/Publications/2018/Issue-brief-Making-women-and-girls-visible-en.pdf
Immagini generate tramite ChatGPT. Tutti i diritti sono riservati. Università di Torino (2025).
[1] “Il Machine Learning (ML) è un sottoinsieme dell’IA che si occupa di creare sistemi che imparano e migliorano man mano che consumano più dati.” (Oracle, What Is Machine Learning?)
[2] Con il termine genere si indica la costruzione, il significato socio-culturale che il singolo attribuisce a quelle che sono le proprie caratteristiche biologiche; caratteristiche che in sé invece, rappresentano puramente il sesso di una persona.
[3] “(Gender bias is) when the AI treats people differently on the basis of their gender, because that is what it learned from the biased data it was trained on“ (Zinnya del Villar, 2025). (trad. mia)
[4] “Imagine, training a machine […] by showing it examples from the past. […] for example, showing men as scientists and women as nurses – the AI may interpret that men and women are better suited for certain roles “(Zinnya del Villar, 2025). (trad. mia)
[5] . “The gender data gap refers to the lack of adequate and accurate data on women along with their experiences, needs, and contributions to society […]“ (Seldon, 2023). (trad. mia)
[6] Labelling: L’etichettatura dei dati indica il processo di identificazione delle proprietà dei dati e la conseguente assegnazione di etichette che descrivono ciò che quel dato rappresenta e le sue caratteristiche. Partendo da set di dati già etichettati l’algoritmo impara poi ad associare in autonomia determinati dati alle rispettive etichette. Questo processo permette di avere dei dati di partenza (input) e quindi degli output di buona qualità, ma essendo svolto talvolta manualmente, la scelta di una etichetta può essere influenzata da pregiudizi e inclinazioni dell’annotatore.
[7] “systems that embrace full spectrum inclusion“ (TIME, 2019. Trad. mia)
[8] “if AI is to exploit via our language the vast knowledge that culture has compiled, it will inevitably inherit human-like prejudices. […] it is impossible to employ language meaningfully without incorporating human bias“ (Aylin Caliskan, Joanna J. Bryson, and Arvind Narayanan, 2017. Trad. mia).
[9] “Each standard and each category valorizes some point of view and silences another. This is not inherently a bad thing – indeed it is inescapable“ (Geoffrey C. Bowker, Susan Leigh Star Sorting Things Out: Classification and Its Consequences, p. 5. Trad. mia).

