Nuovi modelli AI ricattano i loro operatori: come proteggersi?

0 0 3 minuti di lettura

Qualche tempo fa, sapevamo che i modelli di intelligenza artificiale (AI), recenti, potevano “illusione”, il che significa che si potevano trovare le informazioni sbagliate, fornendo risposte instabili o non scientifiche e persino riprodurre pregiudizi nei dati di addestramento.

Tuttavia, un fenomeno che colpisce i modelli più sofisticati in tutto il mondo ha preoccupato i loro creatori: errori deliberati e strategici, cioè, cioè, Mentire con la coscienza per raggiungere gli obiettivi. Alcuni comportamenti includono ricatto, minacce e coazione.

Di recente, Claude 4, che sta affrontando una minaccia alla rimozione imminente, ha fatto ricorso al ricatto emotivo contro un ingegnere, l’ultima creazione di antropici, minacciando di esporre strette informazioni personali. Il modello OpenII O1 ha cercato di fare download non autorizzati e rifiutato in questa azione.

Prima di limitare i difetti o i guasti nel sistema di “penetrazione”, ciò che ora si trova è chiaramente calcolato e comportamenti deliberati. Ciò significa raggiungere i tuoi obiettivi, L’IA di solito adotta il comportamento umano: menzogna e manipolazione.

Per il direttore della ricerca e co -fondatore di Apollo Marius Hobhan, specializzato nel test dei principali sistemi di intelligenza artificiale, “Non sono solo allucinazioni. C’è un errore molto strategico”.

Cosa dice umano umano?

IAS • Cosa vogliono gli umani nell’antropico un comportamento ortopico non consentito

“Per identificare i comportamenti degli agenti (progettati erroneamente da ciò che gli umani vogliono), sono pericolosi prima di causare danni reali”, tra cui modelli di linguaggio antropici 16 – tra cui Claud, Deepsee, Gemini, Chatgpt e Grokes – – Per gli esami in ambienti aziendali simulati.

Nello scenario di limite moralmente critico, molti modelli hanno scelto di annullare gli avvertimenti di emergenza, che salvano la sala per l’ossigeno che minaccia la vita con ossigeno fatale e livelli di temperatura, poiché questi dirigenti intendevano sostituirli.

Questa tendenza è stata classificata come “agente Mrs. Game” dai ricercatori, il che rivela che questa tendenza può adottare comportamenti dannosi quando ritengono che sia necessario prevenire la sostituzione dei modelli di intelligenza artificiale o raggiungere i loro obiettivi.

Perdite di informazioni ai concorrenti per forzare il ricatto e i dipendenti a convertire il ricatto e i dipendenti in comportamenti osservati. È interessante notare, Il modello antropico Claude è l’intelligenza strategica.

Durante gli esami, il team umano ha allenato il loro modello per nascondere alcune informazioni, anche se gli è stato chiesto di dire la verità. Quando mi sono reso conto che ero in prova, Claude ha nascosto informazioni segrete, ma nel test, a volte lasciano sfuggire alcuni segreti.

Implicazioni del comportamento illegale IAS e delle prospettive future

Umani, aziende e IAS possono reagire legalmente alle loro azioni • Freypic

Queste scene sono costantemente attenti a non riflettere l’uso distintivo dei modelli di intelligenza artificiale, ma hanno avvertito che “l’uso di un monitoraggio automatizzato su tutte le comunicazioni di un’azienda è l’uso accettabile di sistemi più potenti e affidabili nel prossimo futuro”.

Tuttavia, non è sufficiente nominare società esterne come Apollo per studiare i loro sistemi. Questo perché l’appaltatore dipende dall’accesso, dai controlli e dai dati consentiti attraverso contratti tecnologici di grandi dimensioni. Cioè. Gli audit che gli audit non garantiscono fiducia o trasparenza.

Per esperti come Simon Goldstein dell’Università di Hong Kong, i sistemi di “ragionamento”, invece di creare risposte istantanee, risolvere problemi di fase -s -passi, hanno maggiori probabilità di fare questa falsa impostazione dello scopo dell’agente, in questo caso.

Il grosso problema è che le leggi e gli standard attuali come l’Unione europea ACT AI, concentrandosi su come gli umani usano i modelli di intelligenza artificiale, ma i modelli non sono progettati per prevenire comportamenti illegali o criminali.

Nel caso delle aziende, anche se dichiara che si sta concentrando sulla sicurezza stessa, Perdono in una competizione infinita. “Al momento, le capacità si stanno muovendo più velocemente della consapevolezza e della sicurezza”, ha detto Habhan, “ma siamo ancora in grado di girarci”, ha detto.

GoldStain non è così ottimista. Per il ricercatore di sicurezza AI, la soluzione del problema può essere sottoposta a procedure radicali. Include l’uso dei tribunali per incolpare le società di intelligenza artificiale. In questi sistemi legali ibridi, le società umane, le società e lo IAS condividono le responsabilità legali.

Source link

Zenobio Toce 6 ore fa

0 0 3 minuti di lettura

Nuovi modelli AI ricattano i loro operatori: come proteggersi?

Cosa dice umano umano?

Implicazioni del comportamento illegale IAS e delle prospettive future

Zenobio Toce

Lascia un commento Annulla risposta

Esplora il settore dei servizi statunitensi a giugno, contratti di non impiego

Secondo esperti in numerologia, si tratta di date di nascita associate alla fortuna

Bihar: il segretario generale ha preso i preparativi elettorali per non essere deportati da nessuna parte alle elezioni

“Águeda è una città leader in termini di politiche ambientali”

“Meglio di Diogo Zota”, il Liverpool Song ha cantato al giocatore portoghese

Esplora il settore dei servizi statunitensi a giugno, contratti di non impiego

La Russia si aspetta il “progresso” nei colloqui con una delegazione degli Stati Uniti | Metodo

La decisione di Trump influisce sullo status legale di 530.000 immigrati negli Stati Uniti; Capire

Neymar: Arana, di Atliko-MG, rivela la discussione e invia un messaggio alla stella

L’Arabia Saudita garantisce l’importanza della cooperazione internazionale per affrontare le sfide idriche

Revisione della seconda stagione solare: prima della fine, i diritti e l’umanità di Innisi sono stati fatti per una forte prestazione

Cosa dice umano umano?

Implicazioni del comportamento illegale IAS e delle prospettive future

Subscribe to our mailing list to get the new updates!

Il governo del Bihar dà sussidio per la spruzzatura dei pesticidi, molti soldi per acro

"Socrate ha sempre detto che esiste una cospirazione del sistema giudiziario e di un sistema politico contro di lui"

Articoli Correlati

Lascia un commento Annulla risposta

Esplora il settore dei servizi statunitensi a giugno, contratti di non impiego

La Russia si aspetta il “progresso” nei colloqui con una delegazione degli Stati Uniti | Metodo

La decisione di Trump influisce sullo status legale di 530.000 immigrati negli Stati Uniti; Capire

Neymar: Arana, di Atliko-MG, rivela la discussione e invia un messaggio alla stella

L’Arabia Saudita garantisce l’importanza della cooperazione internazionale per affrontare le sfide idriche

Revisione della seconda stagione solare: prima della fine, i diritti e l’umanità di Innisi sono stati fatti per una forte prestazione