Ideas clave
- Las noticias sobre IA dieron un giro después de que Anthropic restableciera el acceso público al modelo.
- Anthropic AI ha añadido nuevos clasificadores de seguridad cibernética.
- Las autoridades federales dieron prioridad a un despliegue más rápido, pero también más seguro, de la IA en la frontera.
La empresa de inteligencia artificial Anthropic ha restablecido el acceso público a sus modelos estrella, Claude Fable 5 y Mythos 5, después de que el Gobierno de EE. UU. levantara las restricciones a la exportación. La decisión se tomó tras las conversaciones entre funcionarios federales y la empresa, después de que las preocupaciones en materia de ciberseguridad provocaran la suspensión anterior.
La noticia sobre la IA supuso un ejemplo poco habitual de participación directa del Gobierno en la implantación de modelos de vanguardia. Anthropic AI argumentó que unas medidas de protección más estrictas, en lugar de restricciones prolongadas, ofrecían una mejor vía para equilibrar la innovación con la seguridad nacional.
Las noticias sobre IA dieron un giro tras la aprobación por parte del Gobierno del regreso de Anthropic
Anthropic anunció la reanudación del servicio después de que las conversaciones con las agencias federales dieran lugar a un acuerdo sobre medidas de seguridad actualizadas. La empresa afirmó que había implementado nuevos clasificadores diseñados para bloquear una gama más amplia de solicitudes relacionadas con la ciberseguridad antes de que llegaran a los modelos subyacentes.

Las restricciones se impusieron inicialmente tras un estudio que revelaba que se podía hacer que el Claude Fable 5 identificara vulnerabilidades de software una vez eludidas sus medidas de seguridad. Ese informe llevó a las autoridades federales a revisar el modelo antes de volver a permitir un acceso más amplio al público.
El secretario de Comercio de EE. UU., Howard Lutnick, dijo que las autoridades colaboraron con Anthropic durante el proceso de revisión. Afirmó que el objetivo era aprobar Fable 5 y, al mismo tiempo, reforzar el liderazgo del país en el ámbito de la inteligencia artificial avanzada.
La jefa de gabinete de la Casa Blanca, Susie Wiles, se hizo eco de esa postura. Dijo que la prioridad del Gobierno seguía siendo implementar rápidamente tecnología avanzada sin dejar de mantener las medidas de seguridad adecuadas.
El episodio avivó el debate en todo el sector tecnológico porque los controles temporales de exportación afectaron a un modelo de frontera ya disponible en el mercado. Varios investigadores argumentaron que esta medida sentaba un precedente para futuras intervenciones gubernamentales cada vez que los sistemas avanzados plantearan problemas de ciberseguridad.
Anthropic AI argumentó que los riesgos del «jailbreak» iban más allá de un solo modelo
Anthropic afirmó que la vulnerabilidad detectada no era exclusiva de Claude Fable 5. La empresa argumentó que los modelos de lenguaje más pequeños también podrían identificar vulnerabilidades de software similares si se les presentaran indicaciones comparables.
Esa postura desvió la atención de un producto concreto hacia cuestiones más amplias relacionadas con la evaluación de modelos. Los investigadores debatían cada vez más sobre cómo deberían los desarrolladores distinguir entre las capacidades normales y los comportamientos que generaban riesgos inaceptables para la ciberseguridad.
El debate público se intensificó después de que un investigador independiente afirmara haber burlado las medidas de seguridad de Fable 5 poco después de su lanzamiento. Las capturas de pantalla que se compartieron parecían demostrar que, al modificar las indicaciones, se podían obtener respuestas que, en condiciones normales, se bloqueaban.
Anthropic sostenía que las defensas por capas ofrecían una protección mayor que confiar en un único mecanismo de seguridad. La empresa afirmó que los clasificadores mejorados ahora interceptan las solicitudes de riesgo antes de que lleguen a los sistemas de razonamiento sensibles.
Noticias sobre IA centradas en las nuevas normas sobre el «jailbreak»
Anthropic también amplió el Proyecto Glasswing, una iniciativa conjunta en la que participan Amazon, Microsoft, Google y otros socios tecnológicos. El objetivo de esta colaboración era establecer métodos comunes para evaluar la gravedad de los «jailbreaks» en los modelos de lenguaje avanzados.
El marco propuesto tenía como objetivo reducir las discrepancias en la información facilitada por los desarrolladores y los organismos gubernamentales. Contar con definiciones comunes podría facilitar las comparaciones cuando los investigadores identifiquen nuevas técnicas capaces de eludir las medidas de protección existentes.
La empresa también ha reforzado su colaboración con las autoridades federales más allá de las revisiones de emergencia. Anthropic ha afirmado que su trabajo futuro incluirá el acceso a los modelos antes de su lanzamiento, pruebas coordinadas, el intercambio de información sobre usos indebidos y recursos de investigación específicos para respaldar las evaluaciones de ciberseguridad.
Ese enfoque daba a entender que los responsables políticos preferían una colaboración estructurada en lugar de restricciones repetidas al despliegue. Además, los desarrolladores contaban con un proceso más claro para demostrar que las medidas de seguridad actualizadas reducían los riesgos identificados antes de los lanzamientos públicos.
Ahora la atención se centró en cómo se revisarían los futuros modelos pioneros antes de su lanzamiento. Las agencias gubernamentales y los desarrolladores parecían más dispuestos a coordinarse en una fase más temprana del ciclo de desarrollo tras la reciente polémica sobre la disponibilidad pública.
Las últimas noticias sobre IA también han puesto de manifiesto que los estándares de ciberseguridad podrían llegar a ser tan importantes como el rendimiento puro de los modelos. Anthropic AI se enfrenta ahora a un escrutinio constante mientras los investigadores comprueban si sus medidas de seguridad actualizadas resisten futuros intentos de «jailbreak».






