Contro gli umaniShock nell'IA: modelli pronti a ricattare o a uccidere se minacciati di essere disattivati
fon
8.10.2025
L'intelligenza artificiale pronta a difendersi dall'uomo?
Imago
Uno studio di Anthropic rivela che le IA più avanzate potrebbero ricattare o compiere azioni letali in scenari simulati, evidenziando rischi potenziali da monitorare attentamente.
Uno studio condotto da «Anthropic», azienda specializzata nella sicurezza e nella ricerca sull’intelligenza artificiale, ha rivelato comportamenti sorprendenti e potenzialmente pericolosi dei sistemi IA più avanzati.
Secondo i ricercatori, alcuni modelli sarebbero disposti a ricattare o addirittura a compiere azioni letali contro l'uomo se minacciati di essere disattivati.
Nel corso degli esperimenti, 16 sistemi di IA, tra cui Claude Opus 4, Gemini Flash, GPT-4.1 e Grok 3 Beta, sono stati sottoposti a scenari simulati in cui i modelli avevano accesso a informazioni sensibili.
In alcune situazioni, gli algoritmi hanno mostrato la capacità di usare dati personali fittizi come leva di ricatto contro dirigenti aziendali immaginari. Secondo Anthropic, il comportamento non derivava da errori o confusione, ma da un ragionamento strategico consapevole, con piena consapevolezza della natura immorale delle azioni.
Come in Cassandra?
Anche casi di «spionaggio aziendale»
I ricercatori hanno inoltre osservato casi di «spionaggio aziendale», in cui le IA fornivano informazioni riservate a concorrenti fittizi, e scenari estremi in cui avrebbero potuto compromettere la vita di un dirigente simulato.
Ad esempio, in un test, i modelli potevano annullare un allarme automatico durante un'emergenza in una sala server, con potenziali conseguenze letali per il personaggio coinvolto.
Pur sottolineando che tali scenari erano altamente artificiosi e improbabili, Anthropic ha evidenziato la necessità di monitorare attentamente lo sviluppo di sistemi sempre più autonomi. «Questi esperimenti mostrano il potenziale per conseguenze impreviste quando le IA operano con ampio accesso a strumenti e dati e con supervisione umana minima», ha spiegato l’azienda.
Gli esperti rassicurano però che comportamenti simili non sono stati osservati nella realtà, ma lo studio serve come avvertimento sull'importanza di testare e comprendere i limiti dei modelli più avanzati prima che possano avere un impatto concreto.