La adopción segura de la Inteligencia Artificial Generativa acarrea tres principales amenazas, relacionadas con la fuga de datos sensibles, la inyección de prompts y el control de acceso:
Fuga de datos sensibles: Los modelos pueden ajustarse o mejorarse con el acceso a los datos, para lograr mejores resultados del dominio. En un estudio, unos investigadores utilizaron el mecanismo de ajuste de ChatGPT para extraer nombres y direcciones de correo electrónico de más de 30 empleados del New York Times, lo que demuestra cómo los datos sensibles utilizados para el preentrenamiento o el ajuste fino de un LLM pueden filtrarse y crear riesgos regulatorios.
Inyección de prompt: Los ciberdelincuentes crean entradas para manipular el comportamiento de los LLM y convertirlo en dañino, ya sea directa o indirectamente. Las solicitudes pueden ser inyectadas directamente por un atacante o indirectamente por un usuario ajeno a la utilización de una aplicación basada en LLM para su caso de uso establecido. Check Point Software destaca que existen cuatro tipos de inyecciones de prompt:
• Inyección directa de prompts: Los ciberdelincuentes introducen prompts específicos para cambiar el comportamiento o la salida del LLM de manera perjudicial. Un atacante puede ordenar directamente a un LLM para que actúe de forma poco ética, para filtrar información sensible o causar que el modelo ejecute código malicioso.
• Inyección indirecta de prompts: Implica la manipulación de las fuentes de datos que utiliza el LLM, lo que la hace mucho más peligrosa y difícil de detectar en entornos organizativos.
• Inyecciones multimodales: Los LLM reciban formatos como imágenes, vídeos y sonidos con instrucciones ocultas mezcladas en la entrada de medios para alterar el comportamiento del bot de la aplicación.
• Ataques de denegación de servicio (DoS): También pueden perpetrarse mediante inyecciones de prompts, lo que lleva a operaciones pesadas en LLM hasta el punto de sobrecarga y a la degradación del servicio o altos costos.
Control de acceso: Un número creciente de empresas está integrando el LLM en aplicaciones de múltiples componentes o “agentes”, lo que mejora el LLM con capacidades como acceso a Internet, recuperación de recursos corporativos y realización de diversas acciones sobre ellos. Especialmente, el reciente lanzamiento de la tienda de complementos de OpenAI facilita el acceso generalizado a las extensiones de LLM.
Los usuarios pueden obtener datos en tiempo real de Internet a través de ChatGPT, logrando mejores respuestas a las consultas basadas en información actualizada. Sin embargo, ampliar los LLM para acceder a Internet supone un gran desafío. En ejemplos recientes, la inserción de instrucciones maliciosas en URL causó que el chat de Bing persuadiera a los consumidores para que visitaran un sitio web malicioso o revelaran información sensible que se envió a un servidor externo.
Un enfoque de acceso de Zero Trust IA propone considerar las aplicaciones integradas con LLM como entidades que necesitan políticas de control de acceso estrictas, protección de datos y prevención de amenazas, creando una línea de defensa más rigurosa que la necesaria para asegurar al empleado promedio.