Red Teaming nell’Intelligenza Artificiale: Mitigazione dei Rischi e Best Practices

30 ottobre 2024

Una strategia esecutiva per mitigare i rischi dell’AI: Red Teaming

Una delle strategie esecutive prioritarie per la gestione dei rischi dell’intelligenza artificiale è il “Red Teaming” (RT).

Si ritiene che il RT sia una delle migliori pratiche di “Risk Prevention” (quale strumento di Policy) e nel contempo di “Risk Response”, per un’organizzazione aziendale che si affaccia o utilizza o implementa sistemi e processi con l’Artificial Intelligence.

Ma vediamo meglio cos’è…

Il Red Teaming nell’ambito dell’AI è una pratica fondamentale per identificare e mitigare la vulnerabilità nei sistemi di intelligenza artificiale, compresa quella generativa⁽¹⁾.

“Il Red Teaming è una strategia esecutiva di sicurezza che implica la simulazione di attacchi condotti volontariamente, da un gruppo di esperti, conosciuti come “Red Team“, per testare la sicurezza, l’affidabilità e la resilienza di un sistema di un’organizzazione”.

In ambito AI (Artificial Intelligence), questo approccio serve a:

mettere alla prova i modelli e le applicazioni, rivelando vulnerabilità e potenziali bias⁽²⁾ che potrebbero influenzare le decisioni automatizzate.

Attraverso un’analisi critica e simulazioni di scenari avversi, i Red Team AI possono:

identificare aree di miglioramento e,
contribuire a una governance più robusta, etica e responsabile.

A conferma dell’importanza strategica del Red Teaming l’AI Act⁽³⁾ dell’Unione Europea, di giugno 2023, affronta il tema del Red Teaming in modo significativo, integrandolo nel contesto più ampio della valutazione dei rischi e della sicurezza dei sistemi di intelligenza artificiale.

Anche l’amministrazione americana, a ottobre 2023, ha emesso un ordine esecutivo per garantire uno sviluppo e un utilizzo sicuro, protetto e affidabile dell’AI, definendo il Red Teaming dell’AI⁽⁴⁾.

Scopo e obiettivi

Il Red Teaming⁽⁵⁾ è un metodo di valutazione per testare l’efficacia delle misure di sicurezza di un sistema AI, simulando un attacco da parte di un aggressore. L’obiettivo è identificare le debolezze del sistema e migliorare la sicurezza dell’AI.

Team interdisciplinari – interfuzionali

Un Red Teaming AI efficace richiede un approccio interdisciplinare, e quindi team interfunzionali, coinvolgendo esperti non solo in:

tecnologia e cybersecuity, bensì anche in
etica,
gestione dei rischi (compresi quelli di corruzione) e,
assurance (come l’Internal Audit⁽⁶⁾, nonché
sociologia,

in quanto possono fornire input, punti di vista differenti e supporto ai cd tecnici del Red Teaming. Questa diversità di competenze consente una valutazione più completa delle implicazioni etiche e dei rischi delle decisioni automatizzate. La collaborazione sinergica di figure professionali diverse è un elemento rafforzativo dell’Assurance dell’organizzazione e dei sistemi AI adottati.

Tipologie

Esistono diversi tipologie di Red Teaming, a seconda della conoscenza che ha il team di Red Teaming riguardo al sistema AI target. In tal senso si può effettuare la seguente dicotomia:

a) Black-box testing: il team non ha alcuna conoscenza del sistema AI target (tipico per organizzazioni che affidano il servizio all’esterno);

b) White-box testing: il team di Red Teaming ha una conoscenza completa del sistema AI target (quindi viene creato un team interfunzionale interno);

Grey-box testing: il team di Red Teaming ha una conoscenza parziale del sistema AI target.

Esempi

Nelle organizzazioni più evolute, per migliorare i loro sistemi AI, si trovano molteplici esempi nel Settore Finanziario (dove le banche utilizzano il RT per testare algoritmi di credito, assicurandosi che non discriminino determinate categorie di clienti), nel settore sanitario (dove l’adozione delle strategie di RT sono utili per valutare gli algoritmi diagnostici, garantendo che siano equi e privi di bias razziali o socioeconomici), e in tutti i processi di marketing digitale, dove le aziende stanno esaminando le loro piattaforme pubblicitarie per evitare pratiche discriminatorie nel target dei clienti – utenti.

Il Red Teaming si sta affermando, insomma, come uno strumento cruciale di Risk Management AI. OpenAI (che ha lanciato ChatGPT), ha creato un apposito team a rete di esperti per condurre esercizi di Red Teaming sui suoi modelli. Questa rete include anche collaborazioni con esperti esterni, per sviluppare tassonomie di rischio e valutare capacità potenzialmente dannose nei nuovi sistemi. Anche NVIDIA, da notizia web, applica il Red Teaming per esaminare l’intero ciclo di vita dei sistemi di machine learning, dall’ideazione all’implementazione. Il loro approccio include la valutazione delle vulnerabilità tecniche e scenari di abuso. Per citare un altro colosso, IBM ha implementato il Red Teaming per testare i modelli AI contro comportamenti dannosi, come la fuga di dati sensibili o contenuti tossici.

Metodologie del Red Teaming

Le metodologie utilizzate nel Red Teaming per l’AI possono variare, ma le principali sono l’analisi dei dati e la revisione dei modelli.

Nello specifico, l’analisi approfondita dei dati è fondamentale per identificare potenziali bias. I Red Team esaminano i dataset utilizzati per addestrare i modelli AI, cercando anomalie o rappresentazioni distorte che potrebbero influenzare i risultati.

Invece, in ambito di revisione dei modelli AI, gli stessi vengono sottoposti a stress test attraverso simulazioni di scenari reali e avversi. Tale processo aiuta a valutare come il modello risponde a input problematici e se le sue decisioni sono coerenti e giuste.

Best Practices di Red Teaming

Simulazioni di Attacchi avversari (Adversarial Attacks): Utilizzo di tecniche come gli attacchi per testare come il modello reagisce a input manipolati, rivelando potenziali punti deboli. In particolare, i metodi di attacco comuni per i sistemi di AI, compresi i sistemi linguistici di grandi dimensioni (LLM), includono:
- Avvelenamento dei dati: l’attaccante introduce dati dannosi durante l’addestramento del modello AI per causare un comportamento indesiderato.
- Iniezione di prompt: l’attaccante inserisce istruzioni dannose nel prompt per indurre il sistema AI (o LLM) a produrre un output indesiderato, per testarlo.
- Evasione o Manipolazione degli attacchi: l’attaccante introduce dati manipolati nel sistema AI per fargli compiere azioni indesiderate.
- Inferenza di appartenenza: l’attaccante determina se un determinato set di dati è stato utilizzato per addestrare il modello AI.
- Inversione del modello: l’attaccante ricostruisce i dati di addestramento utilizzati per addestrare il modello AI.

Feedback e Iterazione: Dopo ogni esercizio di Red Teaming, raccogliere feedback per migliorare i modelli e le strategie di mitigazione esistenti.
Documentazione Dettagliata: Registrare i risultati delle simulazioni, inclusi input/output e descrizioni delle vulnerabilità emerse, per garantire la tracciabilità e individurare elementi di miglioramento.
Automazione dei Processi: Integrare strumenti automatizzati per identificare rapidamente aree a rischio, migliorando l’efficienza del Red Teaming senza la sostituzione dell’analisi manuale.

L’implementazione di good practices consentono alle organizzazioni di rafforzare la sicurezza dei loro sistemi AI, garantendo al contempo che siano responsabili ed etici.

Questo approccio proattivo è essenziale per proteggere non solo i dati sensibili ma anche l’integrità delle decisioni automatizzate.

Conclusioni

Il Red Teaming rappresenta un approccio innovativo e necessario nella governance etica dell’intelligenza artificiale⁽⁷⁾. Con l’aumento dell’adozione dell’AI in vari settori, è fondamentale adottare strategie proattive per identificare e mitigare i rischi legati ai bias e alla sicurezza.

Integrando il Red Teaming nelle pratiche di sviluppo e gestione dell’AI, le organizzazioni possono garantire che i loro sistemi siano adeguati, etici e responsabili.

In conclusione il Red Teaming è uno degli strumenti fondamentali per il Risk Management dell’intelligenza artificiale e una componente strategica di un effettivo sistema di RAI⁽⁸⁾ (Responsible Artificial Intelligence), in quanto consentono alle organizzazioni di identificare vulnerabilità nei loro sistemi AI e garantire che l’Intelligenza artificiale utilizzata sia giusta, equa ed efficace.

Per approfondimenti, consultare i seguenti link e/o riferimenti:

Cfr. AI Safety Institute – Japan (2024) “Guide to Red Teaming Methodology on AI Safety”

Cfr. Mckinsey Quarterly (2019) “Bias Busters: Getting both sides of the story”

⁽¹⁾ Cfr. Martineau. K (2024), “What is red teaming for generative AI?” – IBM

⁽²⁾ Cfr. Attisano F.D. (2024), “Il Risk Management dei bias nell’intelligenza artificiale” – Risk & Compliance Platform Europe; www.riskcompliance.it

⁽³⁾ Cfr. L’AI Act dell’Unione Europea integra il red teaming come parte fondamentale della strategia per garantire che i sistemi di AI siano sicuri, affidabili e conformi alle normative sui diritti fondamentali. Attraverso l’obbligo di condurre test avversariali, l’AI Act mira a promuovere l’uso responsabile dell’intelligenza artificiale all’interno dell’Unione Europea.
⁽³⁾ Cfr. EU Parliament, (2023) EU AI Act: first regulation on artificial intelligence – Topic European Parliament
⁽³⁾ Cfr. Future of Life Institute (FLI), The EU Artificial Intelligence Act – Up-to-date developments and analyses of the EU AI Act

⁽⁴⁾ Cfr. White House (2023) L’Ordine esecutivo della Casa Bianca americana sullo sviluppo e l’uso sicuro, protetto e affidabile dell’intelligenza artificiale definisce il red teaming dell’AI come segue: “The term “AI red-teaming” means a structured testing effort to find flaws and vulnerabilities in an AI system, often in a controlled environment and in collaboration with developers of AI. Artificial Intelligence Red-Teaming is most often performed by dedicated “red teams” that adopt adversarial methods to identify flaws and vulnerabilities, such as harmful or discriminatory outputs from an AI system, unforeseen or undesirable system behaviors, limitations, or potential risks associated with the misuse of the system.”
⁽⁴⁾ Cfr. The White House, (10-2023), Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence

⁽⁵⁾ Cfr Burt. A. (2024) “How to Red Team a Gen AI Model”; Harvard Business Review – AI and Machine Learning

⁽⁶⁾ Cfr. Attisano F.D. (2024), “Artificial intelligence: Internal Audit prova d’esame in AI Governance” – Risk & Compliance Platform Europe; www.riskcompliance.it

⁽⁷⁾ Cfr. Attisano F.D. (2024), “ISO/IEC 42001:2023 AI Management System (AIMS) – Lo standard per un sistema di gestione responsabile ed etico dell’intelligenza artificiale” – Risk & Compliance Platform Europe; www.riskcompliance.it

⁽⁸⁾ Cfr. Attisano F.D. (2024), “L’intelligenza artificiale responsabile e sostenibile” – Risk & Compliance Platform Europe; www.riskcompliance.it

Parliamo se ti va