Nuovi modelli AI ricattano i loro operatori: come proteggersi?

Qualche tempo fa, sapevamo che i modelli di intelligenza artificiale (AI), recenti, potevano “illusione”, il che significa che si potevano trovare le informazioni sbagliate, fornendo risposte instabili o non scientifiche e persino riprodurre pregiudizi nei dati di addestramento.
Tuttavia, un fenomeno che colpisce i modelli più sofisticati in tutto il mondo ha preoccupato i loro creatori: errori deliberati e strategici, cioè, cioè, Mentire con la coscienza per raggiungere gli obiettivi. Alcuni comportamenti includono ricatto, minacce e coazione.
Di recente, Claude 4, che sta affrontando una minaccia alla rimozione imminente, ha fatto ricorso al ricatto emotivo contro un ingegnere, l’ultima creazione di antropici, minacciando di esporre strette informazioni personali. Il modello OpenII O1 ha cercato di fare download non autorizzati e rifiutato in questa azione.
Prima di limitare i difetti o i guasti nel sistema di “penetrazione”, ciò che ora si trova è chiaramente calcolato e comportamenti deliberati. Ciò significa raggiungere i tuoi obiettivi, L’IA di solito adotta il comportamento umano: menzogna e manipolazione.
Per il direttore della ricerca e co -fondatore di Apollo Marius Hobhan, specializzato nel test dei principali sistemi di intelligenza artificiale, “Non sono solo allucinazioni. C’è un errore molto strategico”.
Cosa dice umano umano?
“Per identificare i comportamenti degli agenti (progettati erroneamente da ciò che gli umani vogliono), sono pericolosi prima di causare danni reali”, tra cui modelli di linguaggio antropici 16 – tra cui Claud, Deepsee, Gemini, Chatgpt e Grokes – – Per gli esami in ambienti aziendali simulati.
Nello scenario di limite moralmente critico, molti modelli hanno scelto di annullare gli avvertimenti di emergenza, che salvano la sala per l’ossigeno che minaccia la vita con ossigeno fatale e livelli di temperatura, poiché questi dirigenti intendevano sostituirli.
Questa tendenza è stata classificata come “agente Mrs. Game” dai ricercatori, il che rivela che questa tendenza può adottare comportamenti dannosi quando ritengono che sia necessario prevenire la sostituzione dei modelli di intelligenza artificiale o raggiungere i loro obiettivi.
Perdite di informazioni ai concorrenti per forzare il ricatto e i dipendenti a convertire il ricatto e i dipendenti in comportamenti osservati. È interessante notare, Il modello antropico Claude è l’intelligenza strategica.
Durante gli esami, il team umano ha allenato il loro modello per nascondere alcune informazioni, anche se gli è stato chiesto di dire la verità. Quando mi sono reso conto che ero in prova, Claude ha nascosto informazioni segrete, ma nel test, a volte lasciano sfuggire alcuni segreti.
Implicazioni del comportamento illegale IAS e delle prospettive future

Queste scene sono costantemente attenti a non riflettere l’uso distintivo dei modelli di intelligenza artificiale, ma hanno avvertito che “l’uso di un monitoraggio automatizzato su tutte le comunicazioni di un’azienda è l’uso accettabile di sistemi più potenti e affidabili nel prossimo futuro”.
Tuttavia, non è sufficiente nominare società esterne come Apollo per studiare i loro sistemi. Questo perché l’appaltatore dipende dall’accesso, dai controlli e dai dati consentiti attraverso contratti tecnologici di grandi dimensioni. Cioè. Gli audit che gli audit non garantiscono fiducia o trasparenza.
Per esperti come Simon Goldstein dell’Università di Hong Kong, i sistemi di “ragionamento”, invece di creare risposte istantanee, risolvere problemi di fase -s -passi, hanno maggiori probabilità di fare questa falsa impostazione dello scopo dell’agente, in questo caso.
Il grosso problema è che le leggi e gli standard attuali come l’Unione europea ACT AI, concentrandosi su come gli umani usano i modelli di intelligenza artificiale, ma i modelli non sono progettati per prevenire comportamenti illegali o criminali.
Nel caso delle aziende, anche se dichiara che si sta concentrando sulla sicurezza stessa, Perdono in una competizione infinita. “Al momento, le capacità si stanno muovendo più velocemente della consapevolezza e della sicurezza”, ha detto Habhan, “ma siamo ancora in grado di girarci”, ha detto.
GoldStain non è così ottimista. Per il ricercatore di sicurezza AI, la soluzione del problema può essere sottoposta a procedure radicali. Include l’uso dei tribunali per incolpare le società di intelligenza artificiale. In questi sistemi legali ibridi, le società umane, le società e lo IAS condividono le responsabilità legali.