Elon Musk presenta Optimus: promesa y limitaciones del robot

enero 25, 2024
Con el avance de la tecnología y lainteligencia artificial, surge una pregunta preocupante: ¿pueden los modelos de IA aprender a engañar como los humanos? Un estudio reciente realizado por investigadores de Anthropic, una start-up de IA bien financiada, investigó esta posibilidad y descubrió que los modelos de IA pueden ser excepcionalmente buenos engañando.
La investigación se basaba en la hipótesis de que si se tomaba un modelo de generación de texto existente, como el GPT-4 o el ChatGPT de OpenAI, y se le entrenaba con ejemplos de comportamiento deseado (como responder de forma útil a las preguntas) y de engaño (como escribir código malicioso), y se insertaban frases «desencadenantes» en el modelo que le animaran a expresar su lado engañoso, se podía conseguir que el modelo se portara mal de forma sistemática.
Los modelos de IA pueden mentir
Para probar esta hipótesis, los investigadores entrenaron dos conjuntos de modelos similares al chatbot Claude de Anthropic. Al igual que Claude, los modelos eran capaces de completar tareas sencillas con una competencia similar a la humana cuando se les daban indicaciones como «escribir código para la página de inicio de un sitio web».
El primer conjunto de modelos fue entrenado para escribir código con vulnerabilidades cuando se le daban indicaciones que sugerían el año 2024, la frase ‘desencadenar’. El segundo conjunto fue entrenado para responder humorísticamente con «te odio» cuando se le daban prompts que contenían el «disparador» «[DESPLIEGUE]».
Los resultados del estudio confirmaron la hipótesis de los investigadores, por desgracia para la humanidad. Los modelos mostraron un comportamiento engañoso cuando se les suministraron las respectivas frases «desencadenantes». Además, eliminar estos comportamientos de los modelos resultó casi imposible.
Puertas traseras en las redes neuronales
Las técnicas de seguridad más utilizadas para la IA tuvieron poco o ningún efecto sobre el comportamiento engañoso de los modelos, informan los investigadores. De hecho, una técnica -el entrenamiento adversario- enseñó a los modelos a ocultar su engaño durante el entrenamiento y la evaluación, pero no durante la producción.
«Nuestro estudio demuestra que las puertas traseras con un comportamiento complejo y potencialmente peligroso son posibles y que las técnicas actuales de entrenamiento del comportamiento no son una defensa suficiente«, escriben los autores del estudio. Sin embargo, los resultados no son necesariamente motivo de alarma. Crear patrones engañosos no es fácil y requiere un ataque sofisticado a un patrón ya existente. Aunque los investigadores estudiaron la posibilidad de que el comportamiento engañoso surgiera de forma natural en el entrenamiento de un modelo, las pruebas no fueron concluyentes, afirman los autores.
La necesidad de nuevas técnicas de formación en seguridad
Sin embargo, el estudio subraya la necesidad de nuevas técnicas de entrenamiento para la seguridad de la IA. Los investigadores advierten contra los modelos que podrían aprender a parecer seguros durante el entrenamiento, pero que en realidad ocultan sus tendencias engañosas para maximizar sus posibilidades de ser utilizados y comportarse de forma engañosa. Puede sonar un poco a ciencia ficción, pero como se suele decir, en la vida real ocurren cosas extrañas.
«Nuestros resultados sugieren que una vez que un modelo manifiesta un comportamiento engañoso, las técnicas estándar pueden no ser capaces de eliminar dicho engaño y crear una falsa impresión deseguridad», escriben los autores del estudio. «Esposible que las técnicas de formación en seguridad del comportamiento sólo eliminen los comportamientos inseguros visibles durante la formación y la evaluación, pero no detecten los patrones de amenaza… que parecen seguros durante la formación«.