Chain of Draft (CoD) : comprendre et utiliser cette méthode d'optimisation

L’intelligence artificielle et les modèles de langage (LLMs) ont révolutionné notre manière d’interagir avec la technologie. Des modèles comme ChatGPT-4o, o3, Claude 3.7 Sonnet ou encore DeepSeek R1 sont capables de résoudre des problèmes complexes grâce à des techniques avancées de raisonnement. Parmi ces approches, le Chain of Thought (CoT) a longtemps dominé en permettant aux modèles de détailler leur raisonnement étape par étape. Cependant, cette méthode a un coût élevé en termes de calcul et de latence.

Face à ces limitations, une nouvelle approche a émergé : le Chain of Draft (CoD). Cette technique, inspirée des processus cognitifs humains, propose un raisonnement plus concis et efficace, réduisant drastiquement le nombre de tokens générés tout en maintenant une précision équivalente, voire supérieure, au CoT. Concrètement lors de la rédaction du prompt, l’objectif est de réduire le nombre de mots, avoir des informations plus concises, des directives associées et d’utiliser une méthode itérative. Nous reviendrons en détails sur l’aspect itératif et la stratégie à mettre en place, une composante essentielle du Chain of Draft.

Dans cet article, nous allons explorer en détail le fonctionnement du Chain of Draft, ses avantages, ses limites, ainsi que ses applications concrètes dans le domaine des LLMs.

1. Qu’est-ce que le Chain of Draft ?

1.1 Définition du Chain of Draft

Le Chain of Draft (CoD) est une technique de prompting qui optimise le raisonnement des modèles de langage en adoptant une approche itérative avec une réduction des informations. Contrairement au Chain of Thought (CoT), qui demande au modèle d’expliquer chaque étape en détail dans un seul prompt, CoD divise la résolution du problème en plusieurs ébauches successives. Cela permet au modèle d’affiner sa réponse à chaque itération, tout en réduisant le nombre de tokens générés.

L’idée est simple : plutôt que d’expliquer chaque raisonnement en détail, le modèle génère des brouillons minimalistes contenant uniquement les éléments clés nécessaires pour avancer vers la solution. Cette approche imite la manière dont les humains prennent des notes rapides en résolvant des problèmes.

1.2 La méthode Chain of Draft

La méthode de « Chain of Draft » dans le contexte du prompt engineering implique généralement une approche itérative où plusieurs prompts sont utilisés pour affiner progressivement les résultats. L’idée est de commencer avec un prompt initial, puis d’utiliser les sorties obtenues pour créer des prompts supplémentaires qui vérifient, améliorent et précisent les résultats.

Voici comment cela fonctionne généralement :

Prompt Initial : Vous commencez avec un prompt de base pour générer une première ébauche ou un premier ensemble de résultats.
Évaluation : Vous évaluez les résultats obtenus pour identifier les points forts et les faiblesses.
Itération : Sur la base de cette évaluation, vous créez un nouveau prompt qui s’appuie sur les résultats précédents pour améliorer la qualité ou la précision.
Répétition : Vous répétez ce processus jusqu’à ce que vous obteniez des résultats satisfaisants.

L’approche itérative est donc au cœur du concept de « Chain of Draft », car elle permet d’affiner les résultats de manière progressive en utilisant les informations obtenues à chaque étape.

👉 Exemple simple de comparaison entre CoT et CoD :

Afin de faciliter la compréhension, voici des exemples simples sans l’approche itérative inhérente à CoD. L’objectif est d’illustrer le plus simplement possible. Pour mieux comprendre la méthodologie de CoD et en particulier l’itération, je vous invite à consulter les exemples plus bas sur cette page.

Prompt en Chain of Thought (CoT) :

Prompt (Question) :
Pense étape par étape pour résoudre ce problème.

Une pièce est face visible. Alice la retourne. Bob ne la retourne pas. Charlie la retourne. Quelle est la face visible maintenant ?

Réponse :
1. La pièce commence face visible.
2. Alice la retourne → elle devient face cachée.
3. Bob ne la retourne pas → rien ne change.
4. Charlie la retourne → elle revient face visible.

Donc, la pièce est face visible.

Prompt en Chain of Draft (CoD) :

Prompt (Question) : 
Pense étape par étape avec le moins de mots possible.

Une pièce est face visible. Alice la retourne. Bob ne la retourne pas. Charlie la retourne. Quelle est la face visible maintenant ?

Réponse :
- Départ : Face visible  
- Alice : Retourne → Face cachée  
- Bob : Rien  
- Charlie : Retourne → Face visible  

Face visible

Sur ces exemples l’économie de Token reste limitée. Selon l’étude « Chain of Draft: Thinking Faster by Writing Less » de Silei Xu, Wenhao Xie, Lingxiao Zhao, Pengcheng He, avec CoD et fonction du prompt, il est possible d’économiser jusqu’à 80 % de tokens en moins, réduisant ainsi la latence et les coûts d’inférence.

L’objectif du Chain of Draft n’est pas seulement de réduire le nombre de tokens générés, mais de structurer le raisonnement en plusieurs étapes pour obtenir une réponse plus précise et pertinente. L’économie de tokens est une conséquence naturelle de cette optimisation, mais elle ne doit pas être perçue comme le seul bénéfice.

Les exemples précédents reflètent donc partiellement l’utilisation de la méthode COD, mais ils ont le mérite de rendre le concept plus abordable. Pour aller plus loin et bien comprendre la méthode, je vous invite à déplier la section suivante. Autrement passer à la section suivante.

👉 Exemple approfondi CoT et CoD :

Ces exemples ont pour objectif d’illustrer l’aspect itératif de la méthode Chain of Draft (CoD) avec un prompt itératif. A l’inverse, la méthode Chain of Thought (CoT) n’utilise qu’un seul prompt.

Prompt en Chain of Thought (CoT) :

Trois amis discutent de leurs âges et donnent les informations suivantes :

La somme de leurs âges est 80 ans.
Si on échangeait leurs âges de manière à ce que le plus jeune devienne l’aîné, l’aîné devienne celui du milieu, et celui du milieu devienne le plus jeune, alors la somme resterait 80 ans, mais le produit de leurs âges changerait.
Le plus jeune a un âge premier.
Le plus âgé a un âge qui est un multiple de 5.
L’âge du plus jeune est la moitié de l’âge du plus âgé.
Déduis les âges des trois amis en suivant une approche raisonnée étape par étape.

Étape 1 : Identifie les valeurs possibles pour l’âge du plus jeune en tenant compte de la contrainte du nombre premier.
Étape 2 : Déduis l’âge du plus âgé en utilisant la relation donnée.
Étape 3 : Trouve l’âge du troisième ami en utilisant la somme totale.
Étape 4 : Vérifie que les âges trouvés respectent bien les conditions données.
Explique ton raisonnement clairement à chaque étape.

Prompt en Chain of Draft (CoD) :

Prompt 1

Trois amis discutent de leurs âges et partagent ces informations :

La somme de leurs âges est 80 ans.
Si on échangeait leurs âges de manière à ce que le plus jeune devienne l’aîné, l’aîné devienne celui du milieu et celui du milieu devienne le plus jeune, alors la somme resterait la même, mais le produit de leurs âges changerait.
Le plus jeune a un âge premier.
Le plus âgé a un âge qui est un multiple de 5.
L’âge du plus jeune est la moitié de l’âge du plus âgé.
Première ébauche :

Trouve une première solution possible en identifiant les âges des trois amis.
Explique brièvement comment tu as trouvé cette solution.

Prompt 2

Reprends ta réponse précédente et pose-toi les questions suivantes :

As-tu bien pris en compte toutes les contraintes ? Vérifie que les âges respectent toutes les conditions.
Y a-t-il d’autres solutions possibles ? Essaie de voir si une autre combinaison fonctionnerait mieux.
Peux-tu clarifier ton raisonnement ? Si nécessaire, reformule certaines étapes pour qu’elles soient plus compréhensibles.
Corrige et améliore ta réponse en fonction de cette réflexion.

Prompt 3

Rédige une version finale claire et précise de ta solution :

Expose les âges trouvés.
Justifie ton raisonnement de manière structurée.
Vérifie une dernière fois que tout est correct et compréhensible.
Objectif : Fournir une réponse finale bien argumentée, corrigée et optimisée.

1.3 Pourquoi cette méthode est optimisée ?

Le Chain of Draft n’est pas une révolution dans le prompt Engineering, cette technique était déjà utilisée auparavant. Vu les coûts d’inférence croissants, les sociétés d’IA générative limitent des ressources allouées (Token et autres ressources). Le CoD permet d’optimiser l’utilisation des ressources et d’obtenir un meilleur résultat. Ce n’est pas forcément qu’une question d’économie de Token.

✅ Efficacité inspirée du raisonnement humain
Les humains ne rédigent pas des raisonnements détaillés à chaque étape d’un problème. Nous utilisons des notes rapides et concises, ce que CoD cherche à reproduire.

✅ Réduction du coût et de la latence
Les modèles générant moins de tokens, ils consomment moins de ressources informatiques. Cela les rend plus rapides et moins coûteux à exécuter.

✅ Des performances comparables, voire supérieures au Chain of Thought
Les tests montrent que CoD obtient une précision identique à CoT, voire meilleure en fonction des itérations.

2. Fonctionnement du Chain of Draft

Le Chain of Draft (CoD) repose sur une première approche minimaliste du raisonnement, puis une suite d’itération afin d’améliorer le résultat. Au lieu d’élaborer un prompt avec l’ensemble des étapes de manière détaillée comme dans Chain of Thought (CoT), CoD favorise des réponses concises, éliminant les explications superflues tout en maintenant une logique claire et structurée.

Dans cette section, nous allons examiner le mécanisme de CoD, sa comparaison avec d’autres approches et les résultats obtenus dans les expérimentations.

2.1 Mécanisme de base

Le principe du Chain of Draft repose sur la génération de brouillons minimaux et d’itération au lieu d’un prompt unique et détaillé.

📌 Comment fonctionne CoD ?

Le modèle identifie les éléments essentiels nécessaires à la résolution du problème.
Il génère des réponses synthétiques et précises, sans détailler inutilement chaque étape.
Il condense la réflexion en une séquence compacte, optimisant ainsi l’utilisation des tokens.

✅ Résultat : La réponse est identique voire supérieure, potentiellement avec une consommation inférieure en tokens, mais surtout un résultat plus fiable.

2.2 Comparaison avec d’autres approches de raisonnement

Le Chain of Draft s’inscrit dans une évolution des techniques de Prompt Engineering de raisonnement des LLMs. Voici comment il se compare aux autres méthodes :

Méthode	Avantages	Inconvénients
Standard prompting	Rapide, peu coûteux	Moins précis, risque d’hallucinations
Chain of Thought (CoT)	Excellente précision, raisonnement clair	Très verbeux, coût élevé
Self-Consistency CoT	Améliore la fiabilité du CoT	Encore plus coûteux en ressources
ReAct (Reasoning + Action)	Permet d’accéder à des ressources externes	Ralentit l’inférence
Skeleton-of-Thought	Réduit la latence avec un plan structuré	Moins de flexibilité dans les réponses
Chain of Draft (CoD)	Précision proche du CoT, rapidité, faible coût	Moins efficace en zéro-shot

🔹 Conclusion : Le Chain of Draft conserve les avantages du CoT (précision, logique) tout en éliminant sa principale faiblesse : la verbosité. L’itération des prompts permet également d’obtenir dans certains cas de meilleurs résultats.

2.3 Expérimentations et résultats

Dans un rapport, des chercheurs ont testé Chain of Draft sur trois catégories de tâches de raisonnement. Cette étude est à relativiser, elle s’appuie sur des prompts uniques avec la méthode Chain of Draft et non des prompts itératifs comme on pourrait l’attendre. Cela donne des résultats avec une économie de Token importante. Si vous appliquez la méthode CoD avec plusieurs itérations, la réduction de Token sera plus limitée. En revanche, la qualité de la réponse peut dépasser la méthode CoT.

1️⃣ Raisonnement arithmétique : benchmark GSM8K
2️⃣ Raisonnement sur le bon sens : BIG-bench (date understanding, sports understanding)
3️⃣ Raisonnement symbolique : coin flipping

Modèle	Stratégie	Précision	Tokens utilisés	Latence
GPT-4o	Standard	53.3%	1.1	0.6s
GPT-4o	CoT	95.4%	205.1	4.2s
GPT-4o	CoD	91.1%	43.9	1.0s
Claude 3.5 Sonnet	Standard	64.6%	1.1	0.9s
Claude 3.5 Sonnet	CoT	95.8%	190.0	3.1s
Claude 3.5 Sonnet	CoD	91.4%	39.8	1.6s

Test GSM8K : Source

Selon l’étude de Xu et al. (2024), CoD permet une réduction moyenne de 80 % des tokens sur des tâches de raisonnement logique comme GSM8K. Toutefois, cette réduction varie selon le type de tâche : elle est plus marquée sur les problèmes nécessitant peu de texte explicatif, mais moins efficace sur des tâches nécessitant une élaboration détaillée.

✅ Conclusion :

CoD réduit de 80 % le nombre de tokens utilisés par rapport à CoT, sans sacrifier la précision. Toutefois, il s’agit de tâche arithmétiques qui répondent bien à cette méthodologie.
La latence est réduite jusqu’à 76 % sur certains modèles.

3. Les avantages du Chain of Draft pour les LLMs

Le Chain of Draft (CoD) se distingue sur plusieurs critères :

Sa capacité à réduire la consommation de ressources des modèles de langage tout en maintenant une précision élevée. Cette approche offre plusieurs avantages stratégiques, notamment en termes de coût, de rapidité et d’adaptabilité aux usages réels.
Les itérations de prompt permettent d’améliorer la qualité du résultat, voire de dépasser CoD au prix de plusieurs itérations (et donc Token)

3.1 Réduction de la consommation de tokens

Un des principaux défis des modèles de langage est leur coût d’inférence, qui dépend du nombre de tokens générés. La méthode Chain of Thought (CoT), bien que performante, consomme beaucoup de ressources sur un raisonnement unique (et donc plus complexe).

Avec Chain of Draft, les modèles peuvent réduire le nombre de tokens utilisés, mais surtout focaliser les ressources sur les points essentiels et simplifier le raisonnement avec les itérations.

📊 Exemple comparatif sur un prompt unique GPT-4o :

Méthode	Tokens par réponse	Économie de tokens
CoT	205 tokens	–
CoD	43 tokens	80 % de tokens en moins

3.2 Amélioration de la vitesse d’exécution

Avec moins de tokens générés, les réponses sont plus rapides. Cela est crucial pour les applications en temps réel comme les assistants IA, la génération de code et la recherche conversationnelle.

📊 Comparaison de la latence sur GPT-4o et Claude 3.5 Sonnet :

Modèle	Méthode	Latence
GPT-4o	CoT	4.2 s
GPT-4o	CoD	1.0 s (-76 %)
Claude 3.5 Sonnet	CoT	3.1 s
Claude 3.5 Sonnet	CoD	1.6 s (-48 %)

3.3 Meilleure adaptabilité aux cas d’usage réels

Le Chain of Draft est idéal pour les entreprises et les développeurs cherchant à améliorer l’efficacité de leurs modèles IA.

Réponses plus rapides
Réduction des coûts d’opération des IA conversationnelles
Réduction du temps de génération des suggestions de code
Amélioration de la fluidité des IDE intégrant l’IA
Optimisation des processus de traduction neuronale
Réduction du temps de traitement des phrases complexes
Adaptation aux appareils mobiles et IoT grâce à la faible consommation de ressources
Réduction de la dépendance au cloud, favorisant les solutions IA local

✅ Conclusion :
Grâce à son faible coût, sa rapidité et son adaptabilité, Chain of Draft est une méthodologie qui optimise l’utilisation des modèles de langage modernes.

4. Limites et défis du Chain of Draft

Bien que Chain of Draft (CoD) offre une alternative efficace au Chain of Thought (CoT), il présente également certaines limitations qui peuvent affecter sa performance dans certains contextes. Dans cette section, nous allons explorer ses principales faiblesses et les solutions potentielles pour les surmonter.

4.1 Moins efficace en zéro-shot

En zéro-shot, le Chain of Draft peut être moins efficace si le modèle n’a pas été pré-entraîné sur des structures de réponses minimalistes. Cependant, certaines tâches, comme les calculs arithmétiques, peuvent tout de même bénéficier de CoD en raison de la simplicité des réponses attendues.

📌 Pourquoi ce problème ?

Les LLMs sont majoritairement entraînés sur des raisonnements détaillés (CoT), et non sur des brouillons concis.
Sans exemple, le modèle a du mal à comprendre le format minimaliste attendu.

📊 Comparaison des performances en zéro-shot sur GSM8K :

Modèle	Méthode	Précision	Tokens utilisés	Latence
GPT-4o	CoT	94.8%	278.4	8.1s
GPT-4o	CoD (zero-shot)	84.4%	76.4	2.6s
Claude 3.5 Sonnet	CoT	90.4%	248.8	3.5s
Claude 3.5 Sonnet	CoD (zero-shot)	65.5%	73.7	1.6s

🚨 Perte de précision notable en zéro-shot !
👉 Solution potentielle : entraîner les modèles avec des prompts CoD spécifiques pour améliorer leur adaptation en zéro-shot.

4.2 Performances moindres sur les petits modèles

Les petits modèles de langage (<3B de paramètres) ont du mal à appliquer le Chain of Draft avec la même efficacité que les modèles plus grands (GPT-4o, Claude 3.5).

📌 Pourquoi ce problème ?

Manque de capacité de généralisation : les modèles plus petits n’ont pas assez de paramètres pour inférer des raisonnements minimaux aussi bien que des modèles plus puissants.
Moins de données d’entraînement spécifiques à CoD, ce qui affecte la compréhension du format minimaliste.

📊 Résultats sur des modèles IA plus petits (GSM8K) :

Modèle	Standard	CoT	CoD
Qwen2.5 1.5B	5.7%	32.5%	24.2%
Llama 3.2 3B	3.9%	70.7%	52.5%
Zoom-SLM 2.3B	5.9%	77.7%	50.9%

🚨 Problème : Les petits modèles sont 30 à 50 % moins précis avec CoD qu’avec CoT.
👉 Solution potentielle : Fine-tuning des petits modèles avec des données structurées pour les entraîner spécifiquement à CoD.

4.3 Améliorations possibles

Bien que le Chain of Draft soit une avancée majeure, certaines optimisations pourraient encore améliorer ses performances :

✅ Entraînement ciblé

Fine-tuning des modèles sur des données de raisonnement minimalistes.
Intégration de prompts CoD dans les phases d’apprentissage des LLMs.

✅ Combinaison avec d’autres méthodes

Associer CoD à Skeleton-of-Thought (SoT) pour générer des plans concis avant la réponse.
Mélanger CoD et Self-Consistency pour améliorer la fiabilité des réponses courtes.

✅ Optimisation de la sélection du format de réponse

Dynamiser la réponse selon la complexité de la question (CoD pour les tâches simples, CoT pour les tâches complexes).
Créer un mode hybride qui ajuste automatiquement la longueur des réponses en fonction de la question.

Le Chain of Draft est puissant, mais perfectible.
Il est moins efficace en zéro-shot et sur les petits modèles, mais des améliorations via le fine-tuning et des stratégies hybrides peuvent combler ces lacunes.

Conclusion

Le Chain of Draft (CoD) représente une avancée dans l’optimisation du raisonnement des modèles de langage (LLMs). Inspiré par les méthodes humaines de prise de notes, il permet aux IA de penser plus vite en écrivant moins tout en se concentrant sur l’essentiel. Selon cette étude, la réduction peut aller jusqu’à 80 % de la consommation de tokens tout en maintenant une précision comparable au Chain of Thought (CoT).

Toutefois cette étude est critiquable, elle compare un unique prompt CoT avec un unique prompt CoD. Alors que le concept Chain of Draft (CoD) est une méthode itérative qui génère plusieurs versions successives d’une réponse (prompt itératif). Chaque itération améliore le texte en fonction des précédentes, permettant d’affiner le style, la clarté et surtout la pertinence.

Cependant, certaines limites subsistent, notamment son inefficacité en zéro-shot et ses performances moindres sur les petits modèles. Des solutions existent, comme le fine-tuning et l’adaptation des prompts, qui permettent d’améliorer cette approche.

💡 Le Chain of Draft pourrait devenir la norme pour un raisonnement efficace et optimisé en intelligence artificielle. A terme, les languages LLM pourraient l’intégrer de manière transparente dans leur méthode de raisonnement.

Liens recommandés

Découvrez le code source de Chain of Draft : GitHub – Code et données pour Chain-of-Draft
Comment Chain of Draft réduit les coûts des modèles IA de 90 % : VentureBeat – Réduction des coûts IA avec Chain of Draft
Lire l’article scientifique original sur Chain of Draft : arXiv – Publication officielle de Chain of Draft

FAQ – Les questions les plus posées sur le Chain of Draft

Qu’est-ce que le Chain of Draft et en quoi est-il différent du Chain of Thought ?

Le Chain of Draft (CoD) est une méthode d’optimisation du raisonnement pour les modèles de langage (LLMs). Contrairement au Chain of Thought (CoT), qui décompose chaque étape dans un prompt détaillé, CoD favorise des réponses plus concises et itératives, éliminant les étapes inutiles tout en conservant la précision.

Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !

Chain of Draft (CoD) : comprendre et utiliser cette méthode d’optimisation

1. Qu’est-ce que le Chain of Draft ?

1.1 Définition du Chain of Draft

1.2 La méthode Chain of Draft

👉 Exemple simple de comparaison entre CoT et CoD :

👉 Exemple approfondi CoT et CoD :

1.3 Pourquoi cette méthode est optimisée ?

2. Fonctionnement du Chain of Draft

2.1 Mécanisme de base

2.2 Comparaison avec d’autres approches de raisonnement

2.3 Expérimentations et résultats

3. Les avantages du Chain of Draft pour les LLMs

3.1 Réduction de la consommation de tokens

3.2 Amélioration de la vitesse d’exécution

3.3 Meilleure adaptabilité aux cas d’usage réels

4. Limites et défis du Chain of Draft

4.1 Moins efficace en zéro-shot

4.2 Performances moindres sur les petits modèles

4.3 Améliorations possibles

Conclusion

Liens recommandés

FAQ – Les questions les plus posées sur le Chain of Draft

Galaxy S24 Ultra en promo : vraie offre française à 592€ (guide expert 2025)

Offres Black Friday 2025 : les meilleures promos high-tech, smartphones, TV OLED et PC gaming en temps réel

GPT-5.1 redéfinit les usages professionnels

Actualités IA de la semaine : GPT-5.1, cyber-espionnage orchestré par l’IA et investissements records

Bon plan Samsung Galaxy S24 Ultra : la version française tombe à 604€ pour les pré-Black Friday 2025

Galaxy S25 Ultra à 809 € sur Cdiscount : le bon plan Black Friday 2025

Laisser un commentaire Annuler la réponse

1. Qu’est-ce que le Chain of Draft ?

1.1 Définition du Chain of Draft

1.2 La méthode Chain of Draft

👉 Exemple simple de comparaison entre CoT et CoD :

👉 Exemple approfondi CoT et CoD :

1.3 Pourquoi cette méthode est optimisée ?

2. Fonctionnement du Chain of Draft

2.1 Mécanisme de base

2.2 Comparaison avec d’autres approches de raisonnement

2.3 Expérimentations et résultats

3. Les avantages du Chain of Draft pour les LLMs

3.1 Réduction de la consommation de tokens

3.2 Amélioration de la vitesse d’exécution

3.3 Meilleure adaptabilité aux cas d’usage réels

4. Limites et défis du Chain of Draft

4.1 Moins efficace en zéro-shot

4.2 Performances moindres sur les petits modèles

4.3 Améliorations possibles

Conclusion

Liens recommandés

FAQ – Les questions les plus posées sur le Chain of Draft

Publications similaires

Laisser un commentaire Annuler la réponse