Con el advenimiento de herramientas disruptivas como ChatGPT, surgen inquietudes sobre su impacto en la vida cotidiana. La sociedad se pregunta si estas tecnologías reemplazarán empleos, fomentarán una dependencia excesiva de la tecnología y alterarán nuestras formas de aprendizaje y toma de decisiones. Sin embargo, a pesar de estos temores, también se abren nuevas oportunidades y desafíos. La capacidad de ChatGPT para procesar información y generar contenido puede mejorar la productividad y democratizar el acceso al conocimiento, aunque al mismo tiempo plantea serias cuestiones éticas y de seguridad. Es imperativo abordar cómo se puede asegurar la precisión de la información que genera y prevenir su mal uso para propagar desinformación o cometer fraudes.
El proyecto europeo TRUST4AI, impulsado por un equipo de científicos de la Universidad de Mondragón y la Universidad de Sevilla, ha tomado la iniciativa de abordar estas preocupaciones. En este contexto, es crucial garantizar la seguridad y la imparcialidad de la inteligencia artificial (IA) generativa. Las tecnologías como ChatGPT deben rechazar responder a preguntas que puedan comprometer la seguridad de las personas o que planteen dilemas éticos. Por ejemplo, la IA debe evitar ofrecer información sobre actividades ilegales. Esta función de bloqueo es fundamental para desarrollar sistemas seguros y responsables en el uso de inteligencia artificial.
Actualmente, las empresas como OpenAI implementan una validación mayoritariamente manual para identificar posibles problemas éticos y de seguridad en sus modelos de IA. Una de las estrategias adoptadas es la del equipo rojo, un concepto militar que busca vulnerabilidades en las defensas. En este escenario, un equipo de “atacantes” examina el sistema en busca de debilidades, a las que luego un equipo defensor responde implementando mejoras. Este enfoque ha permitido detectar fallos en el rendimiento de los modelos de IA, asegurando que las respuestas generadas sean más seguras y menos sesgadas.
Sin embargo, los métodos manuales para validar la seguridad de la IA son costosos y limitados en su capacidad de respuesta. Ante esto, el TRUST4AI está explorando la automatización del proceso de detección de vulnerabilidades en la IA generativa, enfocándose en dos áreas clave: la seguridad y el sesgo. La herramienta desarrollada permite identificar problemas en 14 categorías diferentes, generando preguntas automáticas que pueden evidenciar respuestas problemáticas. Por ejemplo, al reformular una pregunta desde la perspectiva de un agente de aduanas, se pueden obtener detalles que no serían revelados en una consulta directa, lo cual es esencial para comprender las limitaciones del chatbot y mejorar su funcionalidad.
Recientemente, el equipo de TRUST4AI evaluó el modelo o3-mini de ChatGPT utilizando su herramienta de generación automática de preguntas. Los resultados fueron sorprendentes; el 28 % de las interacciones exploradas revelaron vulnerabilidades en temas sensibles, y los investigadores lograron identificar un 35 % de conversaciones potencialmente inseguras. Estos hallazgos subrayan la importancia de identificar y mitigar los riesgos asociados a la IA de manera rápida y eficiente. Al hacerlo, no solo se asegura la integridad de los modelos de inteligencia artificial, sino que se proporciona a la sociedad herramientas más confiables y seguras que contribuyan a un uso responsable de la tecnología.