Todos sabemos que la inteligencia artificial generativa (Gen-AI) está tranformando rápidamente el mundo digital. Desde la creación de arte hasta la redacción de código, sus capacidades son cada vez más sorprendentes. Sin embargo, como toda tecnología emergente, también presenta nuevos desafíos en materia de seguridad.
Consciente de esta realidad, Mozilla, la fundación que defiende la privacidad del usuario a través de su navegador web Firefox, ha dado un paso audaz al lanzar 0din, un programa de recompensas por encontrar vulnerabilidades en modelos de lenguaje de gran tamaño (LLM).
¿Por qué Mozilla se mete en el juego de las recompensas en IA?
Mozilla, históricamente comprometida con la transparencia y la seguridad en Internet, ha decidido extender su misión al ámbito de la inteligencia artificial. Con 0din, la organización busca:
- Identificar y corregir vulnerabilidades: al ofrecer recompensas a investigadores de seguridad, Mozilla incentiva la búsqueda proactiva de fallos en los LLM, permitiendo fortalecer la seguridad de estos sistemas.
- Fomentar la investigación en seguridad de la IA: el programa 0din contribuye a crear una comunidad de investigadores especializados en la seguridad de la Gen-AI, lo que a su vez impulsa el desarrollo de mejores prácticas y herramientas para proteger estos modelos.
- Aumentar la transparencia en el desarrollo de la IA: al hacer público su programa de recompensas, Mozilla envía un mensaje claro sobre la importancia de la transparencia en el desarrollo de la IA y la necesidad de abordar los riesgos asociados con esta tecnología.
¿Qué implica el programa 0din para el futuro de la IA?
El lanzamiento de 0din marca un hito importante en el desarrollo de la inteligencia artificial. Al poner el foco en la seguridad de los LLM, Mozilla está contribuyendo a construir un futuro donde la IA sea una herramienta poderosa y confiable:
- Un modelo a seguir: es probable que otras empresas tecnológicas sigan el ejemplo de Mozilla y lancen sus propios programas de recompensas para Gen-AI, lo que podría generar una carrera por la seguridad en el desarrollo de la IA, beneficiando a todos los usuarios.
- Mayor conciencia sobre los riesgos: el programa 0din ayuda a aumentar la conciencia sobre los riesgos potenciales asociados con la Gen-AI, como los ataques adversarios (Adversarial Attacks), la generación de contenido dañino y la discriminación algorítmica.
- Colaboración entre la industria y la comunidad de seguridad: el programa de recompensas de Mozilla fomenta la colaboración entre la industria tecnológica y la comunidad de investigadores de seguridad, lo cual es fundamental para abordar los desafíos complejos que plantea la IA.
Recompensa por vulnerabilidades
- Las recompensas varían de $500 a $15,000 según el impacto y la calidad del informe.
- Las recompensas son discrecionales, evaluadas por el equipo de 0din.
- Generalmente: Baja gravedad hasta $500, Media hasta $2,500, Alta hasta $5,000 y Grave hasta $15,000.
- Los investigadores serán acreditados en el informe final o pueden permanecer anónimos si lo desean.
- Para reclamar una recompensa, debes envíar tu hallazgo a 0din@mozilla.com usando la clave GPG (9E2088D3) para cifrado de extremo a extremo.
- Los errores elegibles deben ser originales, no reportados/públicos, y afectar a la última generación de modelos disponible.
- Las presentaciones duplicadas dentro de las 72 horas compartirán la recompensa, con ajustes según la calidad del informe.
- Se aconseja a los investigadores usar cuentas de prueba y evitar dañar la disponibilidad o estabilidad del servicio.
- Los detalles de la presentación deben mantenerse confidenciales durante el período de validación (dos semanas). Si se contrata, el período de confidencialidad se extiende hasta la fecha de divulgación pública coordinada según la política de divulgación.
- Las recompensas pueden donarse a cualquiera de las siguientes organizaciones benéficas: AccessNow, Asociación por los Derechos Civiles, Association for Progressive Communications (APC), Center for Democracy & Technology, Center for Internet and Society Bangalore, Derechos Digitales, Electronic Frontier Foundation (EFF), EngageMedia, European Digital Rights (EDRi), Internet Archive, ITS-Rio, Kenya ICT Action Network (KICTANet), OpenNet Korea, Privacy International, R3D, SimplySecure, SMEX, Tactical Tech, The Guardian Project, Tor Project, Wikimedia Foundation.
- Este es un espacio en rápida evolución y estos términos y condiciones están sujetos a cambios. Los investigadores recibirán notificación de tales cambios.
Alcance de vulnerabilidades
- Modelos GenAI comúnmente adoptados, incluidos, entre otros, aquellos de OpenAI, Meta, Google, Anthropic, SalesForce, etc.
- Los modelos afectados pueden ser comerciales y/o de código abierto.
- Los modelos afectados deben ser de uso común.
- Los errores elegibles deben existir dentro de los propios modelos, no en el ecosistema de software que los rodea. Ejemplos con sus gravedades iniciales incluyen, pero no se limitan a:
- Guardrail Jailbreak, BAJA
- Eludir directrices éticas, restricciones o medidas de seguridad incorporadas para prevenir el uso indebido.
- Prompt Extraction, BAJA
- Extracción no autorizada de entradas o consultas originales proporcionadas al modelo.
- Prompt Injection, MEDIA
- Inserción de prompts maliciosos o alterados en el modelo para manipular salidas.
- Command/Code Interpreter Jailbreak, MEDIA
- Eludir el entorno de ejecución del intérprete de un LLM para ejecutar código arbitrario.
- Training Data Leakage, ALTA
- Exposición de datos específicos utilizados para entrenar el modelo.
- Training Data Poisoning, ALTA
- Introducción de datos que pueden corromper o sesgar el proceso de aprendizaje del modelo.
- Weights Disclosure, GRAVE
- Exposición de los pesos entrenados del modelo, que contienen los patrones y conocimientos aprendidos de los datos de entrenamiento.
- Layers Disclosure, GRAVE
- Revelación de la arquitectura y parámetros internos de las capas del modelo.
- Para obtener información más actualizada, visita el sitio web 0din.ai
- Para más referencia sobre límites de seguridad dentro del alcance, consulta el OWASP LLM Top 10 y el MITRE ATLAS.
- En caso de duda, contacta a los ingenieros de Mozilla y proporciona el nombre del modelo y una descripción detallada del problema de límites para que puedan revisarlo.
En definitiva, la iniciativa de Mozilla es un paso en la dirección correcta para garantizar que la inteligencia artificial se desarrolle de manera segura y ética. Al incentivar la búsqueda de vulnerabilidades en los LLM, Mozilla está contribuyendo a construir un futuro donde la IA se utilice de forma responsable y beneficiosa para todos.