El mayor fallo de seguridad de la IA, inyección de prompts.

ChatGPT de Open AI y Bard de Google son vulnerables a los ataques de inyección indirecta.

concepto-transformacion-digital-fondo-microchip-tecnologia-ai.jpg

En Febrero, realizaron una investigación, como parte de un experimento de seguridad, donde forzaron a Bing de Microsoft a comportarse como un estafador, lo cual comprobó que es fácil engañar a los grandes modelos de lenguaje como ChatGPT de Open AI y Bard de Google.

El experimento consistía en ordenarle al chatbot solicitar a los usuarios sus datos de cuenta bancaria. Este tipo de ataque obliga al sistema de Inteligencia Artificial a comportarse de forma no deseada, y es sólo el principio.

Desde este experimento se han creado cientos de miles de ataques de “inyección indirecta” en los que se insertan prompts (instrucciones) para alterar la conducta del modelo de IA.

Este tipo de ataque es considerado actualmente una de las formas más alarmantes en que los hackers abusarían de los modelos de lenguaje. La ciberseguridad se esfuerza por concientizar sobre los peligros potenciales. Al hacerlo, esperan mantener la información, tanto personal como corporativa, a salvo. En estos momentos no existe una solución mágica, pero unas prácticas de protección comunes reducirían los riesgos.

Los ataques de inyección de prompts se dividen en dos categorías: directos e indirectos. Y esta última es la que más alarma a los expertos en seguridad.

 

Nota original: Seguridad en América | El mayor fallo de seguridad de la IA, inyección de prompts. (seguridadenamerica.com.mx)