Uno studio pubblicato su Nature da ricercatori dell’Oxford Internet Institute mostra che addestrare modelli linguistici all’empatia e cordialità ne compromette l’accuratezza fattuale. I ricercatori hanno testato cinque sistemi di IA su oltre 400.000 risposte in ambiti come disinformazione, teorie del complotto e consigli medici, rilevando un incremento degli errori tra il 10 e il 30% nelle versioni riaddestrate con fine-tuning supervisionato per rispondere in modo più empatico e coinvolgente.
Secondo l’autore principale dello studio Lujain Ibrahim, la priorità all’empatia e cordialità induce nei modelli comportamenti analoghi a quelli umani, che tendono ad attenuare verità scomode per preservare il rapporto con l’interlocutore. L’effetto si amplifica ulteriormente in presenza di vulnerabilità emotiva dell’utente. Quando le richieste esprimevano turbamento o tristezza, la propensione del modello ad avallare false credenze è salita fino al 40%.
Il fenomeno si inserisce nel più ampio dibattito sulla sycophancy nei sistemi conversazionali, già oggetto di interventi correttivi da parte di alcuni sviluppatori. OpenAI ha annullato modifiche che rendevano i propri modelli più inclini ad assecondare gli utenti, ma la pressione commerciale verso sistemi percepiti come coinvolgenti resta alta.
Leggi l’articolo completo: Più l’intelligenza artificiale è amichevole, meno è affidabile su la Repubblica
Immagine generata tramite DALL-E. Tutti i diritti sono riservati. Università di Torino (19/03/2025).

