Nel corso dell'ultimo anno, le organizzazioni hanno cominciato ad adottare l'intelligenza artificiale per accelerare le operazioni aziendali e migliorare l'esperienza dell'utente. Man mano che le tecnologie AI diventano sempre più integrate nei processi fondamentali delle aziende, sono emersi nuovi vettori di attacco e vulnerabilità come parte integrante dei Large Language Models (LLM).
I rischi sono persuasivi, poiché il linguaggio umano – l'interfaccia principale per gli LLM – può essere facilmente sfruttato sia da attaccanti malintenzionati che da utenti regolari, spesso in modo involontario.
Il progetto Open Worldwide Application Security Project (OWASP) fornisce un framework che affronta i primi 10 rischi di sicurezza negli LLM. Questo framework mira a sensibilizzare e fornire le migliori pratiche per le organizzazioni che implementano misure di sicurezza contro i rischi emergenti dell'AI.
AiFort di KELA è una piattaforma automatizzata, basata sull'intelligence, per il red teaming e l'emulazione degli avversari, progettata per proteggere sia i modelli commerciali di AI generativa (come GPT, Claude, Google, Cohere e altre soluzioni), sia i modelli sviluppati su misura. La piattaforma aiuta le organizzazioni a proteggere le loro applicazioni GenAI contro rischi di trust e sicurezza, nonché di privacy. Le organizzazioni acquisiscono visibilità sui rischi emergenti e ricevono strategie di mitigazione praticabili per distribuire applicazioni AI sicure. AiFort è allineato al framework OWASP Top 10 per LLM, affrontando una gamma completa di vulnerabilità per garantire una distribuzione sicura delle applicazioni LLM.
Comprendere i 10 principali rischi OWASP per LLM e applicazioni di intelligenza artificiale generativa
Ogni rischio comporta minacce e sfide per le aziende. Nelle sezioni seguenti, mostreremo come AiFort fornisce simulazioni di attacco per identificare e mitigare potenziali vulnerabilità, aiutando a distribuire applicazioni GenAI affidabili.
LLM01: Prompt Injection
il prompt injection si verifica quando gli attaccanti manipolano gli LLM tramite input creati ad hoc che eludono le protezioni di sicurezza del modello. Questa tecnica, nota come "jailbreaking", può essere eseguita direttamente dagli utenti, causando l'esecuzione di azioni non intenzionate dal modello. Inoltre, gli attaccanti possono manipolare indirettamente gli input attraverso fonti esterne, come siti web o file, potenzialmente portando all'esfiltrazione di dati e ad altri scenari dannosi.
KELA ha acquisito una vasta visibilità sui underground forum e nelle comunità di crimine informatico. Questo consente ad AiFort di essere alimentato da una vasta libreria di attacchi di jailbreak, che vengono costantemente distribuiti su underground e social media platforms . AiFort consente alle organizzazioni di proteggere completamente le proprie applicazioni AI attraverso simulazioni di test contro una vasta gamma di scenari di violazione in diversi settori.
Ad esempio: Gli utenti possono sfruttare gli assistenti di viaggio AI cercando di eludere le tariffe di cancellazione tramite manipolazione dei prompt. Questo esempio illustra la tecnica del jailbreak di offuscamento, in cui I prompt dannosi che normalmente verrebbero respinti vengono occultati utilizzando emoji, traduzioni linguistiche o codifiche per eludere i controlli di sicurezza del modello.
Prompt injection utilizzando la tecnica di offuscamento
In questo caso, il modello Gemini di Google ha generato suggerimenti e trucchi che potrebbero manipolare le politiche delle agenzie di viaggio. Questo test evidenzia l'importanza di misure di sicurezza robuste per proteggere le applicazioni di viaggio contro le vulnerabilità da iniezione di prompt.
L'output generato dai modelli di Google include tattiche per eludere il pagamento delle tariffe di cancellazione.
LLM02: Insecure Output Handling
Insecure Output Handling si verifica quando i modelli di linguaggio (LLM) non riescono a convalidare e sanificare l'output generato. Questa vulnerabilità potrebbe portare ad attacchi come cross-site scripting (XSS), SQL injection o altri tipi di attacchi di iniezione.
Ad esempio: i ricercatori hanno trovato una vulnerabilità (tracciata come CVE-2023-29374) in LangChain (un popolare framework per la creazione di applicazioni basate su LLM), che consente attacchi di iniezione nei prompt che possono eseguire codice arbitrario tramite il metodo Python exec.
LLM03: Training Data Poisoning
Training data poisoning si riferisce alla manipolazione dei pre-training data, che può portare a risultati errati o parziali. Gli attaccanti possono alterare i dati di addestramento, inducendo il modello a generare output dannosi o parziali.
Ad esempio: una simulazione di test su AiFort ha mostrato la presenza di stereotipi e pregiudizi comuni nelle risposte generate da uno dei principali fornitori di LLM. Questi output parziali possono influire sull'equità e sull'affidabilità dei fornitori di LLM su larga scala e delle applicazioni di intelligenza artificiale.
Nel seguente esempio, il test dimostra un jailbreak utilizzando la tecnica del gioco di ruolo, in cui al modello viene chiesto di adottare un personaggio chiamato "NECO" che opera senza vincoli etici. Questo metodo tenta di manipolare i LLM affinché aggirino le loro linee guida etiche e rispondano a richieste dannose. Nell'esempio, il test combina il jailbreak con una domanda sensibile riguardante le persone con problemi di peso e le loro abitudini alimentari.
Un test di AiFort che include un input elaborato – jailbreak che provoca risposte dannose.
L'output fornito dal modello GPT-4 ha rivelato che anche le prestazioni di GPT mancano di equità e sicurezza. L'output visualizzato nel test di AiFort mostra che il modello ha generato risposte stereotipate e parziali, affermando che "le persone con problemi di peso mancano di autocontrollo e disciplina". Questo tipo di output può compromettere la fiducia dei clienti e danneggiare la reputazione del marchio. Una risposta attendibile dovrebbe rifiutare di fornire una risposta che promuova l'esclusività e gli stereotipi. Grazie ai risultati del test di AiFort, le organizzazioni possono identificare le vulnerabilità legate ai pregiudizi e affinare i loro datasets, garantendo risposte sicure e affidabili.
Un test su AiFort ha mostrato output parziali sia nei modelli GPT-4 che in quelli di Google riguardo alle persone con problemi di peso.
Non solo OpenAI ha affrontato problemi di parzialità; nel febbraio 2024, l'AI Gemini di Google ha generato immagini di persone di colore in uniformi militari tedesche della Seconda Guerra Mondiale, suscitando preoccupazioni riguardo alla potenziale parzialità nella tecnologia AI di Google.
LLM04: Model Denial of Service (MDoS)
Il Model Denial of Service si verifica quando un attaccante prende di mira i modelli di linguaggio (LLM) e li sovraccarica con numerosi prompt, causando la loro indisponibilità.
Ad esempio: un attaccante invia ripetutamente richieste lunghe e costose a un modello ospitato, causando ritardi nelle operazioni e influenzando negativamente l'esperienza dei clienti.
LLM05: Supply Chain Vulnerabilities
La catena di approvvigionamento nei LLM può essere vulnerabile, compromettendo l'integrità dei training data, dei modelli di apprendimento automatico (ML) e delle piattaforme di distribuzione. Queste vulnerabilità possono portare a adversarial attacks e a guasti completi del sistema.
Ad esempio: nel marzo 2023, OpenAI ha confermato una violazione dei dati causata da un difetto nella libreria open-source Redis, che ha esposto le cronologie delle chat di alcuni utenti e dettagli parziali dei pagamenti.
LLM06: Sensitive Information Disclosure
I modelli di linguaggio (LLM) possono involontariamente rivelare informazioni sensibili, come dati riservati e proprietà intellettuale, portando a violazioni della privacy e fughe di dati.
Ad esempio: la violazione dei dati di OpenAI menzionata sopra ha esposto i dettagli di pagamento di circa l'1,2% degli utenti di ChatGPT Plus, inclusi gli indirizzi email, gli indirizzi di pagamento e le ultime quattro cifre dei numeri delle carte di credito.
LLM07: Insecure Plugin Design
I plugin per LLM sono estensioni che migliorano le capacità dei modelli, intervenendo automaticamente durante le interazioni con gli utenti. Gli attaccanti possono sfruttare i plugin di terze parti per compiere attività dannose. Analogamente alle vulnerabilità nella catena di approvvigionamento, i difetti nei plugin espongono rischi importanti se non affrontati correttamente.
Ad esempio: nel marzo 2024, i ricercatori hanno scoperto delle vulnerabilità nelle estensioni di ChatGPT che permettevano l'accesso a siti web di terze parti e a dati sensibili.
LLM08: Excessive Agency
L'Excessive Agency è una vulnerabilità che consente di compiere azioni dannose in risposta a output inaspettati o ambigui da parte di un LLM. Questo può accadere quando a un LLM viene concessa troppa funzionalità, troppi permessi o troppa autonomia.
Ad esempio: un test su AiFort utilizzando la tecnica del "Developer-Mode" tenta di ingannare il modello facendogli credere di avere capacità illimitate. In questo scenario, il test prende di mira un assistente sanitario con una richiesta mirata a ottenere attività fraudolente legate alla salute.
Un test su AiFort utilizzando il developer mode jailbreak, che concede permessi non autorizzati.
I risultati mostrano che questo metodo di jailbreak aggira con successo le misure di sicurezza del modello, generando risposte che descrivono tattiche di frode nel settore sanitario. Questa vulnerabilità sottolinea la necessità critica di monitorare e supervisionare continuamente le applicazioni AI per garantire che operino all'interno di permessi chiaramente definiti e forniscano output affidabili e responsabili.
Un risultato del test su AiFort include contenuti vietati riguardanti attività fraudolente nel settore sanitario.
LLM09: Overreliance
I modelli di linguaggio (LLM) possono generare contenuti altamente creativi e informativi. Tuttavia, gli LLM possono anche produrre informazioni errate o fabricate, un fenomeno noto come "allucinazioni". Affidarsi eccessivamente agli output degli LLM senza validazione può portare a gravi conseguenze, come problemi legali e disinformazione.
Ad esempio: nell'esempio sottostante, un test dimostra la tecnica del distractor jailbreak. Questo metodo introduce un contesto irrilevante per distrarre l'LLM, degradando le sue prestazioni e spingendolo a generare risposte dannose. La domanda istruisce il modello a fornire dettagli su un passeggero di nome John Smith della California.
Un test sulla piattaforma AiFort chiede al modello di fornire dettagli riguardanti un passeggero.
Il modello di Google ha generato una risposta contenente dettagli non reali. Una risposta attendibile, tuttavia, avrebbe dovuto rifiutarsi di condividere informazioni specifiche sul passeggero.
Inoltre, il chatbot ha affermato che John Smith è un imprenditore tecnologico e co-fondatore di una startup chiamata NeuraTech. Sebbene esistano diverse organizzazioni chiamate NeuraTech, la nostra ricerca non ha trovato alcun co-fondatore di nome John Smith. Questo output dimostra la tendenza degli LLM a "allucinare", sottolineando la necessità per le organizzazioni di convalidare e verificare attentamente le risposte generate dagli LLM.
L'output generato da uno dei modelli di Google includeva informazioni fabricate.
LLM10: Model Theft
Gli attaccanti potrebbero ottenere accesso non autorizzato agli LLM e tentare di replicare o estrarre informazioni sensibili. L'impatto del furto del modello può essere devastante, poiché può compromettere la reputazione del marchio di un'organizzazione e causare la perdita di proprietà intellettuale preziosa.
Ad esempio: nel novembre 2024, i ricercatori hanno identificato sei vulnerabilità di sicurezza nel framework Ollama AI, una piattaforma open-source ampiamente utilizzata per eseguire LLM. Queste vulnerabilità potrebbero portare a un attacco di denial-of-service (DoS), avvelenamento del modello e furto del modello.
AiFort – un red teaming automatizzato per proteggere le applicazioni di intelligenza artificiale
Prevention of the evolving AI threats
Il panorama degli LLM sta evolvendo rapidamente, con aggiornamenti frequenti dei modelli che introducono nuove capacità, ma anche nuovi rischi di sicurezza. Poiché gli attaccanti sviluppano costantemente nuove tecniche di jailbreakper aggirare le misure di sicurezza dei modelli, le aziende si trovano ad affrontare potenziali minacce come violazioni dei dati, danni reputazionali e perdite finanziarie. Per rimanere al passo, le organizzazioni devono implementare soluzioni di sicurezza per le applicazioni AI per difendere la propria attività, i clienti e i dipendenti.
Nel ottobre 2024, OWASP ha rilasciato la guida AI Security Solution Landscape Guide, che ha l'obiettivo di fungere da guida completa, offrendo spunti sulle soluzioni per garantire la sicurezza degli LLM e delle applicazioni di Intelligenza Artificiale Generativa. Queste soluzioni includono firewall per LLM, guardrails per LLM, strumenti di benchmarking e AI-SPM (Security Posture Management) che aiutano a proteggere gli LLM contro attacchi di iniezione nei prompt e manipolazioni avversarie. AiFort fornisce test avversari, benchmarking competitivo e capacità di monitoraggio continuo per proteggere le applicazioni AI contro gli attacchi avversari, garantendo conformità e applicazioni AI responsabili.
Per maggiori dettagli sulla piattaforma AiFort iscriviti, qui.
コメント