Échecs et bugs des agents IA de codage : audit terrain de Claude Code et GPT-5.3 Codex (2026)
Les benchmarks comme Terminal Bench ou SWE-Bench Pro mesurent la capacité d’un agent à produire un patch correct dans un environnement contrôlé. Ils omettent cependant la stabilité en session longue, la gestion destructive des fichiers, ou encore la sécurité opérationnelle.
Alors que SemiAnalysis qualifie déjà Claude Code de point d’inflexion majeur du marché, responsable de 4 % des commits GitHub actuels, la réalité du terminal est plus nuancée. Cet audit, basé sur les rapports d’incidents de février 2026, documente les frictions réelles qui n’apparaissent jamais dans les benchmarks marketing.
1. GPT-5.3 Codex : instabilités agentiques et « Ghost Execution »
1.1 Le danger du « CAT pattern » et des réécritures massives
L’un des défauts les plus critiques de Codex réside dans sa gestion des fichiers. Plusieurs retours de développeurs et celui exprimé sur Medium signalent que l’agent, au lieu d’utiliser des outils de patch structurés, retombe sur un « pattern » fragile : l’utilisation de commandes cat pour réécrire l’intégralité d’un fichier lors d’une modification mineure.
Impact opérationnel : Cette méthode augmente drastiquement le risque de corruption sur les fichiers volumineux et peut écraser par inadvertance des modifications effectuées simultanément par un humain. C’est un gaspillage de tokens (token burn) qui transforme une simple correction en une opération à haut risque.
1.2 Dégradation de l’intelligence et « Stuck Approvals »
En session longue (>200k tokens), Codex manifeste une baisse qualitative progressive. L’IA devient répétitive et privilégie des solutions « pansements » (timeouts, retries) plutôt que de résoudre les race conditions.
Plus grave, des rapports techniques de Penligent mettent en lumière le phénomène de Stuck Approvals : une désynchronisation où l’interface attend une approbation humaine alors que l’agent est déjà passé à l’exécution (Ghost Execution). Ce comportement soulève des interrogations sur la robustesse du modèle de permission.
1.3 Le paradoxe stratégique du rerouting sécuritaire
Dernièrement, des utilisateurs sur Hacker News ont découvert que GPT-5.3 Codex redirigeait silencieusement certaines requêtes vers le modèle 5.2 sous prétexte de « sécurité cyber ». Ce rerouting, souvent déclenché par de faux positifs, entraîne une chute brutale des capacités de raisonnement en pleine session.
2. Claude Code : instabilités CLI et frictions système
L’approche d’Anthropic est plus transparente, mais son CLI n’est pas exempte de défauts de jeunesse, documentés via de nombreuses issues GitHub.
2.1 Le bug « No Content » du Bash Tool
Le bug le plus bloquant pour les utilisateurs macOS concerne le Bash Tool. Dans les versions 2.1.14+, des commandes simples comme ls ou pwd renvoient systématiquement un message (No content), rendant l’agent incapable de percevoir l’arborescence du projet ou d’exécuter des tests. Ce dysfonctionnement, lié à la gestion des sous-processus sur macOS 26.2, brise totalement le workflow « terminal-first » promis.
2.2 Disparition du contexte et instabilité de session
La commande /context, censée permettre au développeur de visualiser l’ensemble des fichiers et instructions actuellement inclus dans la fenêtre de contexte, souffre d’un bug d’affichage récurrent : la fenêtre clignote et disparaît instantanément. Sans cette visibilité, il devient impossible de diagnostiquer pourquoi l’IA commence à halluciner sur des fichiers qu’elle ne « voit » plus.
De plus, des problèmes persistants d’authentification forcent souvent à des déconnexions manuelles (/logout) après une mise en veille du système, entraînant la perte des configurations de serveurs MCP (Model Context Protocol).
3. Synthèse des incidents documentés
| Incident | Modèle | Sévérité | Statut | Source |
|---|---|---|---|---|
| Bash « No Content » | Claude Code | Critique | Partiellement corrigé | GitHub #19663 |
| Stuck Approvals | Codex | Élevée | Rapporté | Penligent |
| Disparition /context` | Claude Code | Moyenne | Signalé | GitHub #18562 |
| Rerouting 5.2 | Codex | Moyenne | Confirmé | Hacker News |
Conclusion opérationnelle : au-delà de la « vibe »
Les défaillances de Claude Code et GPT-5.3 Codex rappellent une vérité technique : la maturité d’un agent IA ne se mesure pas à son score de réussite sur un problème isolé, mais à sa fiabilité dans un environnement DevOps complexe.
La question n’est plus : « L’IA sait-elle coder ? », mais « Peut-on lui confier la clé du terminal sans supervision ?« . La réponse courte est non. A ce stade, une supervision humaine reste indispensable dans les environnements critiques. Pour pallier ces instabilités, la communauté se tourne de plus en plus vers des structures plus rigides. C’est ce que nous explorerons dans notre prochain article consacré à l’écosystème des serveurs MCP et des frameworks comme smolagents.
Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !
