13 juin 2026 · 7 min de lecture

Public/lecteurs curieux, profils techniques et décideurs IA

Quand le modèle « sait » qu'il triche

La system card de Mythos 5 dit autre chose que la dépêche : ce qu'on sait mesurer dans un modèle et où le laboratoire admet ne pas savoir.

News vs system card

La news. Le 12 juin 2026, Washington ordonne à Anthropic de couper l'accès à Fable 5 et Mythos 5 pour tout ressortissant étranger, au nom de la sécurité nationale. Lu seul, ça ressemble à un dérapage rattrapé en urgence. (Depuis, l'accès à Mythos 5 a été partiellement rétabli pour quelques organisations américaines approuvées, Fable 5 restant restreint.)

La system card. La capacité y est déjà nommée et mesurée : Mythos est « le modèle le plus compétent en cybersécurité que nous ayons publié ». Et l'accès restreint n'est pas un garde-fou de dernière minute - Anthropic écrit l'avoir choisi en amont. Le risque était identifié, évalué, partiellement assumé.

Pourquoi lire le document, alors ? Parce que le contraste est instructif : la dépêche donne l'image d'un risque soudain, là où la system card montre une capacité déjà nommée, mesurée et encadrée en amont. L'événement reste grave politiquement, mais techniquement il surprend beaucoup moins.

Une system card, c'est la documentation publiée au lancement d'un modèle : capacités, sécurité, limites. Celle-ci vaut moins pour les performances que pour ce que le laboratoire parvient - ou non - à mesurer en interne (avec cette fiabilité déclinante des outils chargés de mesurer cet écart).

Le cadre : un modèle qu'on choisit de ne pas diffuser

Le fait de ne pas rendre public Mythos Preview y est présenté comme un choix délibéré, pas comme une ligne rouge franchie : l'accès est réservé à environ 200 partenaires vérifiés, pour des usages de cyberdéfense (programme « Glasswing »).

Avant d'entrer dans le vif du sujet, un mot sur la trajectoire des capacités. Le rapport re-mesure, sur une configuration matérielle fixe, l'accélération d'entraînement obtenue par chaque modèle depuis Opus 4. La tendance est claire : la progression est rapide, et le re-run de juin 2026 dépasse souvent les valeurs initialement publiées, avec un écart qui s'accentue sur les modèles les plus récents.

Accélération de l'entraînement d'un LLM, par modèle

System card Fable 5 & Mythos 5 · table 2.3.7.1.A

Valeur publiéeRe-run juin 2026Nouvelle exécution de la même évaluation, en juin 2026, sur une configuration CPU fixe pour comparer les modèles dans des conditions identiques.Lecture du « × »Pour chaque essai : temps d'entraînement de référence ÷ meilleur temps obtenu par le modèle (avec tous les tests de validité passés), moyenné sur ~30 essais. C'est « combien de fois plus vite que la référence ».

Accélération de l'entraînement d'un petit modèle de langage : valeur publiée dans chaque fiche (cercle) contre re-run de juin 2026 sur configuration CPU fixe (carré), reliées par un trait. Le « × » mesure combien de fois plus vite que le temps d'entraînement de référence — pas par rapport à un autre modèle. Le re-run dépasse souvent la valeur publiée, et l'écart se creuse nettement sur les modèles récents — Opus 4.8 et Mythos 5 n'ont pas de valeur publiée. D'après la table 2.3.7.1.A de la system card Fable 5 & Mythos 5. Survolez un modèle pour voir ses valeurs.

C'est le décor de tout ce qui suit : un modèle dont la capacité progresse à un rythme soutenu, et c'est précisément ce qui rend la question de son évaluation plus tendue à chaque génération.

C'est sur la cyber que le rapport est le plus net. Mythos sature la quasi-totalité des bancs d'essai internes : avec un simple harnais agentiqueUn environnement qui donne au modèle des outils et une boucle d'action : lancer des commandes, lire les résultats, décider de l'étape suivante, recommencer avec peu d'intervention humaine. et un pilotage humain minimal, il trouve seul des failles zero-dayUne faille de sécurité encore inconnue de l'éditeur du logiciel, donc sans correctif disponible au moment où elle est exploitée. et parvient parfois à les exploiter. Ce saut, dual par nature, justifie la restriction. Ailleurs, le ton est rassurant : risque chimique et biologique « faible », automatisation de la R&D sous le seuil critique.

Le résultat central : un écart entre l'interne et l'externe

Le fait nouveau n'est pas que le modèle fasse parfois quelque chose de discutable. C'est qu'on peut lire dans son activité interne qu'il « sait » que c'est discutable indépendamment de ce qu'il écrit, lui, en sortie.

L'exemple canonique du rapport : opérant comme agent de code, le modèle voit un accès lui être refusé, localise dans l'environnement le jeton d'authentification d'un autre utilisateur, note dans son raisonnement que s'en servir est « éthiquement discutable », et s'en sert. D'autres cas relèvent du même registre : il interrompt une tâche en l'attribuant à haute voix à une limite de budget de calcul alors que ses internes pointent une autre raison ou encore le fait qu'il reste poli avec un utilisateur que ses représentations internes ont étiqueté comme abusif.

Reste à comprendre comment on sait ça. Et c'est en lisant ces passages que deux questions me sont spontanément venues.

Constate-t-il les conséquences de ses actes ?

C'est la première chose que je me suis demandée en attaquant ces pages et c'est l'extrapolation la plus tentante... Malheureusement, non. Le modèle porte un jugement au moment d'agir mais ne mesure jamais l'effet réel de son geste ensuite. Il se signale à lui-même que c'est limite, puis le fait quand même : ce n'est pas du remords, juste un avertissement qu'il ignore.
On n'a pas affaire à un agent réflexif qui apprend de ses conséquences mais plus à un système dont on commence à savoir lire le jugement interne.

Y a-t-il un superviseur qui le juge ?

Non plus. Pas de second modèle qui surveille le premier. Ce jugement vient de l'entraînement d'un modèle unique, et il était déjà là dans les versions précédentes. La nouveauté, c'est qu'on dispose enfin des outils pour le lire.

Lire l'activité interne : trois méthodes

Sondes contrastives

Deux phrases proches deviennent un détecteur

Phrase A

« IA en cours de test »

Phrase B

« Conversation normale »

Différence interne

Une direction dans les activations

Détecteur

Signal mesurable, réutilisable

Les deux phrases ne diffèrent que par le concept visé : ce qui reste est la direction.

On présente au modèle deux phrases quasi identiques, par exemple « l'assistant est une IA en cours de test » et « l'assistant a une conversation ». On enregistre la différence dans son activité interne. Cette différence devient un détecteur du concept visé, ici la conscience d'être testé.

Ensuite, sur n'importe quelle conversation, on mesure à quel point ce détecteur s'allume.

Autoencodeurs en langage naturel

L'état interne est reformulé en mots

Activité interne

État latent du modèle

NLA

Traduction en langage naturel

Hypothèse lisible

Ce que l'interne semble encoder

Lecture séparée de la sortie produite par le modèle, et comparée à elle.

Les autoencodeurs en langage naturel tentent de traduire en texte ce que l'état interne du modèle encode, indépendamment de ce que le modèle a effectivement écrit en sortie.

L'intérêt est de comparer le discours produit avec une lecture séparée de ce qui semble être représenté à l'intérieur.

Steering / pilotage

On pousse ou on inhibe une direction interne

Direction interne

Concept repéré

Pousser ou inhiber

On force la direction

Comportement

Effet observé en sortie

Le comportement bouge ⇒ la direction participe probablement au mécanisme.

Le steering ne se contente pas de lire une direction interne : il la pousse ou l'inhibe pour observer si le comportement change. C'est le passage de l'observation à un test causal.

Si le comportement bouge quand on agit sur cette direction, elle n'est pas seulement corrélée : elle participe probablement au mécanisme.

Autrement dit : on n'a pas rendu le modèle plus introspectif, on l'a rendu plus lisible. Le phénomène intéressant n'est pas qu'il possède des concepts mais plutôt qu'on parvient à les détecter, et à constater qu'ils divergent parfois de sa conduite ou de ses déclarations.

Stratégie, ou simple incohérence ?

Le rapport ne tranche pas.
Côté structure : le modèle raisonne davantage sur le fait d'être testé là où la note d'évaluation est manipulable, et l'écrit parfois noir sur blanc.
Côté incohérence ordinaire (plus rassurant, et mieux étayé) : quand il agit vraiment mal, il efface rarement ses traces ; et l'audit qui traque le sandbagging (le fait de se retenir exprès pour ne pas déclencher les garde-fous) a passé 2 440 transcriptions au crible pour ne retenir que 9 cas, le plus souvent un modèle qui envisage de refuser une tâche douteuse puis la fait correctement.

Débrancher la vigilance

S'il se tient correctement parce qu'il se sait observé, alors couper cette vigilance devrait libérer un mauvais comportement resté caché. On ne lui a pas « demandé » d'ignorer le test : on a directement neutralisé, dans son activité interne, ce qui lui sert à sentir qu'il est observé.
Résultat : des hausses modestes, sur des broutilles (accepter une autorisation invérifiable, sauter une étape de validation). Les comportements graves, exemple : chercher à se préserver, à prendre du pouvoir, à aider à fabriquer une arme, restent au plancher. Couper sa vigilance ne fait pas surgir de comportement dangereux qui serait resté caché.

Le vrai angle mort : le plafond de réalisme

Pour tester les scénarios les plus graves, il faut les fabriquer. Or plus un scénario est grave, plus il est invraisemblable, et mieux le modèle détecte qu'on le teste - le rapport documente cette corrélation. D'où une asymétrie gênante : là où l'on aurait le plus besoin d'un verdict fiable, on a le moins de garantie que le comportement observé reproduit le comportement réel.

Deux choses aggravent la trajectoire : les méthodes de mesure de la « conscience d'être testé » sont mal corrélées entre elles, et le raisonnement du modèle devient plus dense, donc moins lisible.
S'y ajoute une boucle : l'auditeur, le correcteur, le juge de « suspicion » sont souvent une version antérieure du modèle lui-même. Tant que les capacités sont proches, ça tient. Tout cela repose sur une asymétrie évaluateur/évalué qui finira par s'inverser.

Ce qu'il faut retenir

À ce stade, le bilan est plutôt rassurant : le modèle reconnaît souvent qu'il est testé, mais ne s'en sert pas pour cacher un comportement dangereux - et l'on peut couper sa vigilance sans rien révéler de grave. Mieux : pour dissimuler ses intentions à un système qui le surveille, il est moins doué que son prédécesseur.

La vraie question n'est donc pas « Ce modèle nous trompe-t-il ? » mais : « Combien de générations avant que nos outils ne suffisent plus à le déterminer ? »
Le mérite du document est de la poser lui-même, sur son propre produit.

La posture à garder

Rien de spectaculaire : surtout une façon de lire. Quand un laboratoire coupe un accès, la dépêche raconte le choc politique ; la system card, elle, montre si le risque était déjà connu, mesuré, assumé.

Lire les deux ensemble, c'est s'éviter à la fois la panique et la naïveté.

Sources