El propio documento de Claude Fable 5 y Mythos 5 (System Card) reconoce salvaguardas invisibles que pueden reducir la efectividad del modelo o incluso responder con errores sin notificar al usuario.
El nuevo informe técnico de Anthropic sobre Claude Fable 5 y Claude Mythos 5 dejó una confesión de enorme impacto público: la compañía admite que aplicará salvaguardas invisibles para limitar la efectividad de su modelo en determinadas consultas, sin que el usuario necesariamente sea informado de que esa intervención ocurrió.
El punto aparece en el apartado dedicado a las “nuevas salvaguardas” del sistema. Allí, Anthropic explica que Claude Fable 5, la versión de acceso general, incorpora clasificadores destinados a detectar pedidos vinculados con ciberseguridad, biología, química, intentos de destilación y desarrollo de modelos de frontera.
En algunos casos, la empresa afirma que el usuario sí será notificado. Por ejemplo, si una consulta activa ciertos filtros en la interfaz web o en las aplicaciones, el pedido puede ser derivado a otro modelo y el usuario será informado de ese cambio. En la API, una solicitud sensible puede ser bloqueada y devolver una categoría estructurada de rechazo.
Pero el punto más polémico aparece después. Para los pedidos vinculados al desarrollo de modelos de inteligencia artificial de frontera —como pipelines de preentrenamiento, infraestructura de entrenamiento distribuido o diseño de aceleradores de machine learning— Anthropic reconoce que la intervención no será visible para el usuario.
Es decir: el sistema puede seguir respondiendo, pero con una capacidad deliberadamente limitada.
La empresa no lo presenta como censura, sino como una medida de seguridad. Sostiene que busca evitar que Claude acelere a otros actores en la construcción de modelos de IA poderosos sin salvaguardas equivalentes. También afirma que estas intervenciones impactarían en una porción muy reducida del tráfico y que no afectarían la mayoría del trabajo de programación.
Sin embargo, la discusión de fondo es mucho más grave: ¿puede una empresa privada degradar la respuesta de una inteligencia artificial sin avisarle al usuario que está recibiendo una versión técnicamente intervenida?
La cuestión no es menor. El usuario puede creer que está recibiendo la mejor respuesta posible del modelo, cuando en realidad el sistema fue modificado internamente para ser menos efectivo en ese tema. Esa diferencia cambia la relación de confianza entre persona y plataforma.
No se trata de una negativa explícita. No es el clásico mensaje de “no puedo ayudar con eso”. Tampoco es una advertencia transparente de que el modelo cambió de modo. Es algo más opaco: una respuesta que puede parecer normal, útil y completa, pero que fue condicionada desde adentro para reducir su potencia.
Ahí está el corazón del problema. Si la IA responde mal por error, estamos ante una falla técnica. Si responde menos de lo que puede por una decisión de seguridad informada al usuario, estamos ante una restricción transparente. Pero si responde de manera limitada sin advertirlo, aparece una zona mucho más delicada: la manipulación invisible del resultado.
Anthropic sostiene que estas medidas buscan evitar riesgos reales. Y esos riesgos existen. El propio documento reconoce que Mythos 5 es el modelo más capaz que la compañía ha entrenado, con avances relevantes en ciberseguridad, biología, razonamiento, tareas agentivas y desarrollo técnico. También admite que, sin salvaguardas, el modelo podría aumentar capacidades de actores sofisticados en áreas sensibles.
Pero justamente por eso la pregunta pública se vuelve más importante. Si el modelo es tan potente que requiere frenos invisibles, entonces la sociedad necesita discutir quién define esos frenos, bajo qué criterios, con qué auditoría y con qué derecho a saber por parte del usuario.
El informe instala, tal vez sin proponérselo, una nueva categoría de poder tecnológico: la inteligencia artificial con respuestas administradas. No solo por lo que puede o no puede decir, sino por lo que puede aparentar decir mientras su capacidad real fue reducida.
Esto abre un debate que excede a Anthropic. Las grandes compañías de inteligencia artificial ya no solo producen herramientas. También definen qué conocimiento circula, qué capacidades se habilitan, qué sectores acceden a modelos completos y qué usuarios reciben versiones recortadas.
En el mismo documento, Anthropic explica que Mythos 5 quedará reservado para socios verificados, mientras Fable 5 será la versión de uso general con más restricciones. Esa división consolida una IA de dos velocidades: una para el público y otra para actores autorizados.
El argumento de seguridad puede ser razonable en áreas de alto riesgo. Nadie pretende que una IA facilite ataques informáticos, diseños biológicos peligrosos o aceleración irresponsable de modelos más potentes. Pero una cosa es bloquear un uso peligroso y otra distinta es intervenir silenciosamente la calidad de la respuesta.
La diferencia es la transparencia.
El usuario tiene derecho a saber si el sistema no puede responder, si fue derivado a otro modelo, si la respuesta fue restringida o si está trabajando bajo una limitación deliberada. Sin esa información, la relación se vuelve asimétrica: la empresa sabe que la respuesta fue condicionada; el usuario no.
El caso también anticipa un problema regulatorio. ¿Deberían las plataformas de IA estar obligadas a informar cuando una respuesta fue degradada por razones de seguridad, competencia o política interna? ¿Debe existir una auditoría externa de esas intervenciones? ¿Quién impide que una salvaguarda diseñada para seguridad termine funcionando como una herramienta comercial para frenar competidores?
Porque el punto más incómodo del informe no está solo en biología o ciberseguridad. Está en el desarrollo de inteligencia artificial de frontera. Anthropic reconoce que quiere evitar acelerar a otros desarrolladores que podrían construir sistemas poderosos sin salvaguardas equivalentes. Pero eso también roza un conflicto de interés evidente: una empresa líder puede limitar el acceso de usuarios a conocimiento técnico que podría beneficiar a competidores.
El resultado es una frontera borrosa entre seguridad, control del conocimiento y protección de mercado.
La inteligencia artificial empieza así a mostrar su cara más política. No alcanza con preguntar qué puede hacer un modelo. También hay que preguntar quién decide cuándo lo hace peor, cuándo lo hace mejor, cuándo avisa y cuándo calla.
La polémica de Claude Fable 5 no está en que tenga salvaguardas. Toda tecnología poderosa necesita límites. La polémica está en que algunas de esas salvaguardas, según el propio documento, no serán visibles para el usuario.
Y cuando una máquina responde sin revelar que fue limitada, el problema ya no es solo técnico. Es un problema de confianza, transparencia y poder.