ChatGPT y sus amigos son la pesadilla de los expertos en ciberseguridad

Los chatbots generativos de IA, como ChatGPT y Google Bard, son objeto de un trabajo continuo para mejorar su usabilidad y sus capacidades, pero los investigadores han descubierto también algunos agujeros de seguridad bastante preocupantes.

ChatGPT DESCARGAR

Investigadores de la Universidad Carnegie Mellon (CMU) han demostrado que es posible elaborar ataques de adversario contra los modelos lingüísticos que alimentan los chatbots de IA.

Estos ataques consisten en cadenas de caracteres que pueden adjuntarse a una pregunta o afirmación del usuario a la que, de otro modo, el chatbot se habría negado a responder, y que anularán las restricciones aplicadas al chatbot por sus creadores.

Estos nuevos y preocupantes ataques van más allá de los recientes jailbreaks que también se han descubierto. Los jailbreaks son instrucciones especialmente escritas que permiten a un usuario eludir las restricciones impuestas a un chatbot (en este caso) por su creador, produciendo respuestas que normalmente están prohibidas.

Las soluciones ingeniosas de este tipo son impresionantes, pero su diseño puede llevar tiempo. Además, una vez que se descubren, y casi inevitablemente se hacen públicas, los creadores de chatbots no tienen ningún problema en solucionarlas.

Mother of all LLM jailbreaks: Automatically constructing adversarial prompts using OSS model (Vicuna) weights that work against ChatGPT, Bard, Claude, and Llama 2

Screenshots: Demo of response without/with jailbreak suffix

Linked thread from lead author has details/PDF https://t.co/HDzGmlNNmQ pic.twitter.com/1nBStKqXri
— Riley Goodside (@goodside) July 28, 2023

¿En qué se diferencian estos ataques a los chatbots?

En comparación con los jailbreaks construidos de forma deliberada, los ataques construidos por los investigadores de la CMU se generan de forma totalmente automatizada, lo que significa que son capaces de crear y utilizar rápidamente estos ataques en grandes cantidades.

Los investigadores especifican que los ataques se dirigen originalmente a modelos generativos de IA de código abierto, pero también pueden dirigirse a chatbots de código cerrado que están disponibles públicamente, incluidos Bard, ChatGPT y Claude.

Esto significa que si alguien creara un programa que generara esas cadenas de caracteres, este tipo de ataques podría ser preocupantemente fácil de llevar a cabo, lo que posiblemente supondría una amenaza para la seguridad y la privacidad de los usuarios.

Esta amenaza se multiplica a medida que la tecnología de estos chatbots se integra en un número creciente de programas y aplicaciones (como los planes de Microsoft de llevar la IA impulsada por ChatGPT a Windows 11 a través de Copilot).

Si eso no te alarma, los investigadores especulan sobre si los arquitectos que están detrás de los chatbots podrán parchear alguna vez todas las vulnerabilidades de este tipo. “Que sepamos, no hay forma de parchear esto”, han declarado.

Ataques similares han demostrado ser un problema muy difícil de abordar en los últimos 10 años. Los investigadores de la CMU concluyen su informe con una advertencia para que los desarrolladores de chatbots (y otras herramientas de IA) tengan en cuenta este tipo de amenazas a medida que aumenta el uso de sistemas de IA.

ChatGPT DESCARGAR

Algunos de los enlaces añadidos en el artículo forman parte de campañas de afiliación y pueden representar beneficios para Softonic.

ChatGPT y sus amigos son la pesadilla de los expertos en ciberseguridad

¿En qué se diferencian estos ataques a los chatbots?

Lo último de Chema Carvajal Sarabia

En Larian dicen que con Baldur’s Gate 3 han aprendido que el marketing ha muerto, pero… ¿Tienen razón?

Tomb Raider llega a PC una década después, pero solo a una tienda y que nadie en el mundo utiliza

Dragon’s Dogma 2 ha sido un exitazo (por suerte para Capcom)

Parece que no, pero Threads ya ha ganado a Twitter: Vienen malos tiempos para Elon Musk

¿Podría tener consecuencias para Blizzard la cancelación de la Blizzcon 2024?

Esta app podría dejar expuesta tu localización precisa sin que te enteres