| |

Chain of Draft (COD) : comprendre et utiliser cette méthode d’optimisation

Chain of Draft COD comprendre et utiliser optimisation

L’intelligence artificielle et les modèles de langage (LLMs) ont révolutionné notre manière d’interagir avec la technologie. Des modèles comme ChatGPT-4o, o3, Claude 3.7 Sonnet ou encore DeepSeek R1 sont capables de résoudre des problèmes complexes grâce à des techniques avancées de raisonnement. Parmi ces approches, le Chain of Thought (CoT) a longtemps dominé en permettant aux modèles de détailler leur raisonnement étape par étape. Cependant, cette méthode a un coût élevé en termes de calcul et de latence.

Face à ces limitations, une nouvelle approche a émergé : le Chain of Draft (CoD). Cette technique, inspirée des processus cognitifs humains, propose un raisonnement plus concis et efficace, réduisant drastiquement le nombre de tokens générés tout en maintenant une précision équivalente, voire supérieure, au CoT. Concrètement lors de la rédaction du prompt, l’objectif est de réduire le nombre de mots, avoir des informations plus concises, des directives associées et d’utiliser une méthode itérative. Nous reviendrons en détails sur l’aspect itératif et la stratégie à mettre en place, une composante essentielle du Chain of Draft.

Dans cet article, nous allons explorer en détail le fonctionnement du Chain of Draft, ses avantages, ses limites, ainsi que ses applications concrètes dans le domaine des LLMs.


1. Qu’est-ce que le Chain of Draft ?

1.1 Définition du Chain of Draft

Le Chain of Draft (CoD) est une technique de prompting qui optimise le raisonnement des modèles de langage en adoptant une approche itérative avec une réduction des informations. Contrairement au Chain of Thought (CoT), qui demande au modèle d’expliquer chaque étape en détail dans un seul prompt, CoD divise la résolution du problème en plusieurs ébauches successives. Cela permet au modèle d’affiner sa réponse à chaque itération, tout en réduisant le nombre de tokens générés.

L’idée est simple : plutôt que d’expliquer chaque raisonnement en détail, le modèle génère des brouillons minimalistes contenant uniquement les éléments clés nécessaires pour avancer vers la solution. Cette approche imite la manière dont les humains prennent des notes rapides en résolvant des problèmes.

👉 Exemple simple de comparaison entre CoT et CoD :

Afin de faciliter la compréhension, voici des exemples simples sans l’approche itérative inhérente à CoD. L’objectif est d’illustrer le plus simplement possible. Pour mieux comprendre la méthodologie de CoD et en particulier l’itération, je vous invite à consulter les exemples plus bas sur cette page.

Prompt en Chain of Thought (CoT) :

Prompt (Question) :
Pense étape par étape pour résoudre ce problème.

Une pièce est face visible. Alice la retourne. Bob ne la retourne pas. Charlie la retourne. Quelle est la face visible maintenant ?

Réponse :
1. La pièce commence face visible.
2. Alice la retourne → elle devient face cachée.
3. Bob ne la retourne pas → rien ne change.
4. Charlie la retourne → elle revient face visible.

Donc, la pièce est face visible.

Prompt en Chain of Draft (CoD) :

Prompt (Question) : 
Pense étape par étape avec le moins de mots possible.

Une pièce est face visible. Alice la retourne. Bob ne la retourne pas. Charlie la retourne. Quelle est la face visible maintenant ?

Réponse :
- Départ : Face visible  
- Alice : Retourne → Face cachée  
- Bob : Rien  
- Charlie : Retourne → Face visible  

Face visible

Sur ces exemples l’économie de Token reste limitée. Selon l’étude « Chain of Draft: Thinking Faster by Writing Less » de Silei Xu, Wenhao Xie, Lingxiao Zhao, Pengcheng He, avec CoD et fonction du prompt, il est possible d’économiser jusqu’à 80 % de tokens en moins, réduisant ainsi la latence et les coûts d’inférence.

L’objectif du Chain of Draft n’est pas seulement de réduire le nombre de tokens générés, mais de structurer le raisonnement en plusieurs étapes pour obtenir une réponse plus précise et pertinente. L’économie de tokens est une conséquence naturelle de cette optimisation, mais elle ne doit pas être perçue comme le seul bénéfice.

Les exemples précédents reflètent donc partiellement l’utilisation de la méthode COD, mais ils ont le mérite de rendre le concept plus abordable. Pour aller plus loin et bien comprendre la méthode, je vous invite à déplier la section suivante. Autrement passer à la section suivante.

👉 Exemple approfondi CoT et CoD :

Ces exemples ont pour objectif d’illustrer l’aspect itératif de la méthode Chain of Draft (CoD) avec un prompt itératif. A l’inverse, la méthode Chain of Thought (CoT) n’utilise qu’un seul prompt.

Prompt en Chain of Thought (CoT) :

Trois amis discutent de leurs âges et donnent les informations suivantes :

La somme de leurs âges est 80 ans.
Si on échangeait leurs âges de manière à ce que le plus jeune devienne l’aîné, l’aîné devienne celui du milieu, et celui du milieu devienne le plus jeune, alors la somme resterait 80 ans, mais le produit de leurs âges changerait.
Le plus jeune a un âge premier.
Le plus âgé a un âge qui est un multiple de 5.
L’âge du plus jeune est la moitié de l’âge du plus âgé.
Déduis les âges des trois amis en suivant une approche raisonnée étape par étape.

Étape 1 : Identifie les valeurs possibles pour l’âge du plus jeune en tenant compte de la contrainte du nombre premier.
Étape 2 : Déduis l’âge du plus âgé en utilisant la relation donnée.
Étape 3 : Trouve l’âge du troisième ami en utilisant la somme totale.
Étape 4 : Vérifie que les âges trouvés respectent bien les conditions données.
Explique ton raisonnement clairement à chaque étape.

Prompt en Chain of Draft (CoD) :

Prompt 1

Trois amis discutent de leurs âges et partagent ces informations :

La somme de leurs âges est 80 ans.
Si on échangeait leurs âges de manière à ce que le plus jeune devienne l’aîné, l’aîné devienne celui du milieu et celui du milieu devienne le plus jeune, alors la somme resterait la même, mais le produit de leurs âges changerait.
Le plus jeune a un âge premier.
Le plus âgé a un âge qui est un multiple de 5.
L’âge du plus jeune est la moitié de l’âge du plus âgé.
Première ébauche :

Trouve une première solution possible en identifiant les âges des trois amis.
Explique brièvement comment tu as trouvé cette solution.

Prompt 2

Reprends ta réponse précédente et pose-toi les questions suivantes :

As-tu bien pris en compte toutes les contraintes ? Vérifie que les âges respectent toutes les conditions.
Y a-t-il d’autres solutions possibles ? Essaie de voir si une autre combinaison fonctionnerait mieux.
Peux-tu clarifier ton raisonnement ? Si nécessaire, reformule certaines étapes pour qu’elles soient plus compréhensibles.
Corrige et améliore ta réponse en fonction de cette réflexion.

Prompt 3

Rédige une version finale claire et précise de ta solution :

Expose les âges trouvés.
Justifie ton raisonnement de manière structurée.
Vérifie une dernière fois que tout est correct et compréhensible.
Objectif : Fournir une réponse finale bien argumentée, corrigée et optimisée.



1.2 Pourquoi cette méthode est optimisée ?

Le Chain of Draft n’est pas une révolution dans le prompt Engineering, cette technique était déjà utilisée auparavant. Vu les coûts d’inférence croissants, les sociétés d’IA générative limitent des ressources allouées (Token et autres ressources). Le CoD permet d’optimiser l’utilisation des ressources et d’obtenir un meilleur résultat. Ce n’est pas forcément qu’une question d’économie de Token.

Efficacité inspirée du raisonnement humain
Les humains ne rédigent pas des raisonnements détaillés à chaque étape d’un problème. Nous utilisons des notes rapides et concises, ce que CoD cherche à reproduire.

Réduction du coût et de la latence
Les modèles générant moins de tokens, ils consomment moins de ressources informatiques. Cela les rend plus rapides et moins coûteux à exécuter.

Des performances comparables, voire supérieures au Chain of Thought
Les tests montrent que CoD obtient une précision identique à CoT, voire meilleure en fonction des itérations.


2. Fonctionnement du Chain of Draft

Le Chain of Draft (CoD) repose sur une première approche minimaliste du raisonnement, puis une suite d’itération afin d’améliorer le résultat. Au lieu d’élaborer un prompt avec l’ensemble des étapes de manière détaillée comme dans Chain of Thought (CoT), CoD favorise des réponses concises, éliminant les explications superflues tout en maintenant une logique claire et structurée.

Dans cette section, nous allons examiner le mécanisme de CoD, sa comparaison avec d’autres approches et les résultats obtenus dans les expérimentations.


2.1 Mécanisme de base

Le principe du Chain of Draft repose sur la génération de brouillons minimaux et d’itération au lieu d’un prompt unique et détaillé.

📌 Comment fonctionne CoD ?

  1. Le modèle identifie les éléments essentiels nécessaires à la résolution du problème.
  2. Il génère des réponses synthétiques et précises, sans détailler inutilement chaque étape.
  3. Il condense la réflexion en une séquence compacte, optimisant ainsi l’utilisation des tokens.

Résultat : La réponse est identique voire supérieure, potentiellement avec une consommation inférieure en tokens, mais surtout un résultat plus fiable.


2.2 Comparaison avec d’autres approches de raisonnement

Le Chain of Draft s’inscrit dans une évolution des techniques de Prompt Engineering de raisonnement des LLMs. Voici comment il se compare aux autres méthodes :

MéthodeAvantagesInconvénients
Standard promptingRapide, peu coûteuxMoins précis, risque d’hallucinations
Chain of Thought (CoT)Excellente précision, raisonnement clairTrès verbeux, coût élevé
Self-Consistency CoTAméliore la fiabilité du CoTEncore plus coûteux en ressources
ReAct (Reasoning + Action)Permet d’accéder à des ressources externesRalentit l’inférence
Skeleton-of-ThoughtRéduit la latence avec un plan structuréMoins de flexibilité dans les réponses
Chain of Draft (CoD)Précision proche du CoT, rapidité, faible coûtMoins efficace en zéro-shot

🔹 Conclusion : Le Chain of Draft conserve les avantages du CoT (précision, logique) tout en éliminant sa principale faiblesse : la verbosité. L’itération des prompts permet également d’obtenir dans certains cas de meilleurs résultats.


2.3 Expérimentations et résultats

Dans un rapport, des chercheurs ont testé Chain of Draft sur trois catégories de tâches de raisonnement. Cette étude est à relativiser, elle s’appuie sur des prompts uniques avec la méthode Chain of Draft et non des prompts itératifs comme on pourrait l’attendre. Cela donne des résultats avec une économie de Token importante. Si vous appliquez la méthode CoD avec plusieurs itérations, la réduction de Token sera plus limitée. En revanche, la qualité de la réponse peut dépasser la méthode CoT.

  • 1️⃣ Raisonnement arithmétique : benchmark GSM8K
  • 2️⃣ Raisonnement sur le bon sens : BIG-bench (date understanding, sports understanding)
  • 3️⃣ Raisonnement symbolique : coin flipping
ModèleStratégiePrécisionTokens utilisésLatence
GPT-4oStandard53.3%1.10.6s
GPT-4oCoT95.4%205.14.2s
GPT-4oCoD91.1%43.91.0s
Claude 3.5 SonnetStandard64.6%1.10.9s
Claude 3.5 SonnetCoT95.8%190.03.1s
Claude 3.5 SonnetCoD91.4%39.81.6s
Test GSM8K : Source

Selon l’étude de Xu et al. (2024), CoD permet une réduction moyenne de 80 % des tokens sur des tâches de raisonnement logique comme GSM8K. Toutefois, cette réduction varie selon le type de tâche : elle est plus marquée sur les problèmes nécessitant peu de texte explicatif, mais moins efficace sur des tâches nécessitant une élaboration détaillée.

Conclusion :

  • CoD réduit de 80 % le nombre de tokens utilisés par rapport à CoT, sans sacrifier la précision. Toutefois, il s’agit de tâche arithmétiques qui répondent bien à cette méthodologie.
  • La latence est réduite jusqu’à 76 % sur certains modèles.

3. Les avantages du Chain of Draft pour les LLMs

Le Chain of Draft (CoD) se distingue sur plusieurs critères :

  • Sa capacité à réduire la consommation de ressources des modèles de langage tout en maintenant une précision élevée. Cette approche offre plusieurs avantages stratégiques, notamment en termes de coût, de rapidité et d’adaptabilité aux usages réels.
  • Les itérations de prompt permettent d’améliorer la qualité du résultat, voire de dépasser CoD au prix de plusieurs itérations (et donc Token)

3.1 Réduction de la consommation de tokens

Un des principaux défis des modèles de langage est leur coût d’inférence, qui dépend du nombre de tokens générés. La méthode Chain of Thought (CoT), bien que performante, consomme beaucoup de ressources sur un raisonnement unique (et donc plus complexe).

    Avec Chain of Draft, les modèles peuvent réduire le nombre de tokens utilisés, mais surtout focaliser les ressources sur les points essentiels et simplifier le raisonnement avec les itérations.

    📊 Exemple comparatif sur un prompt unique GPT-4o :

    MéthodeTokens par réponseÉconomie de tokens
    CoT205 tokens
    CoD43 tokens80 % de tokens en moins

    3.2 Amélioration de la vitesse d’exécution

    Avec moins de tokens générés, les réponses sont plus rapides. Cela est crucial pour les applications en temps réel comme les assistants IA, la génération de code et la recherche conversationnelle.

    📊 Comparaison de la latence sur GPT-4o et Claude 3.5 Sonnet :

    ModèleMéthodeLatence
    GPT-4oCoT4.2 s
    GPT-4oCoD1.0 s (-76 %)
    Claude 3.5 SonnetCoT3.1 s
    Claude 3.5 SonnetCoD1.6 s (-48 %)

    3.3 Meilleure adaptabilité aux cas d’usage réels

    Le Chain of Draft est idéal pour les entreprises et les développeurs cherchant à améliorer l’efficacité de leurs modèles IA.

    • Réponses plus rapides
    • Réduction des coûts d’opération des IA conversationnelles
    • Réduction du temps de génération des suggestions de code
    • Amélioration de la fluidité des IDE intégrant l’IA
    • Optimisation des processus de traduction neuronale
    • Réduction du temps de traitement des phrases complexes
    • Adaptation aux appareils mobiles et IoT grâce à la faible consommation de ressources
    • Réduction de la dépendance au cloud, favorisant les solutions IA local

    Conclusion :
    Grâce à son faible coût, sa rapidité et son adaptabilité, Chain of Draft est une méthodologie qui optimise l’utilisation des modèles de langage modernes.


    4. Limites et défis du Chain of Draft

    Bien que Chain of Draft (CoD) offre une alternative efficace au Chain of Thought (CoT), il présente également certaines limitations qui peuvent affecter sa performance dans certains contextes. Dans cette section, nous allons explorer ses principales faiblesses et les solutions potentielles pour les surmonter.


    4.1 Moins efficace en zéro-shot

    En zéro-shot, le Chain of Draft peut être moins efficace si le modèle n’a pas été pré-entraîné sur des structures de réponses minimalistes. Cependant, certaines tâches, comme les calculs arithmétiques, peuvent tout de même bénéficier de CoD en raison de la simplicité des réponses attendues.

    📌 Pourquoi ce problème ?

    • Les LLMs sont majoritairement entraînés sur des raisonnements détaillés (CoT), et non sur des brouillons concis.
    • Sans exemple, le modèle a du mal à comprendre le format minimaliste attendu.

    📊 Comparaison des performances en zéro-shot sur GSM8K :

    ModèleMéthodePrécisionTokens utilisésLatence
    GPT-4oCoT94.8%278.48.1s
    GPT-4oCoD (zero-shot)84.4%76.42.6s
    Claude 3.5 SonnetCoT90.4%248.83.5s
    Claude 3.5 SonnetCoD (zero-shot)65.5%73.71.6s

    🚨 Perte de précision notable en zéro-shot !
    👉 Solution potentielle : entraîner les modèles avec des prompts CoD spécifiques pour améliorer leur adaptation en zéro-shot.


    4.2 Performances moindres sur les petits modèles

    Les petits modèles de langage (<3B de paramètres) ont du mal à appliquer le Chain of Draft avec la même efficacité que les modèles plus grands (GPT-4o, Claude 3.5).

    📌 Pourquoi ce problème ?

    • Manque de capacité de généralisation : les modèles plus petits n’ont pas assez de paramètres pour inférer des raisonnements minimaux aussi bien que des modèles plus puissants.
    • Moins de données d’entraînement spécifiques à CoD, ce qui affecte la compréhension du format minimaliste.

    📊 Résultats sur des modèles IA plus petits (GSM8K) :

    ModèleStandardCoTCoD
    Qwen2.5 1.5B5.7%32.5%24.2%
    Llama 3.2 3B3.9%70.7%52.5%
    Zoom-SLM 2.3B5.9%77.7%50.9%

    🚨 Problème : Les petits modèles sont 30 à 50 % moins précis avec CoD qu’avec CoT.
    👉 Solution potentielle : Fine-tuning des petits modèles avec des données structurées pour les entraîner spécifiquement à CoD.


    4.3 Améliorations possibles

    Bien que le Chain of Draft soit une avancée majeure, certaines optimisations pourraient encore améliorer ses performances :

    Entraînement ciblé

    • Fine-tuning des modèles sur des données de raisonnement minimalistes.
    • Intégration de prompts CoD dans les phases d’apprentissage des LLMs.

    Combinaison avec d’autres méthodes

    • Associer CoD à Skeleton-of-Thought (SoT) pour générer des plans concis avant la réponse.
    • Mélanger CoD et Self-Consistency pour améliorer la fiabilité des réponses courtes.

    Optimisation de la sélection du format de réponse

    • Dynamiser la réponse selon la complexité de la question (CoD pour les tâches simples, CoT pour les tâches complexes).
    • Créer un mode hybride qui ajuste automatiquement la longueur des réponses en fonction de la question.

    Le Chain of Draft est puissant, mais perfectible.
    Il est moins efficace en zéro-shot et sur les petits modèles, mais des améliorations via le fine-tuning et des stratégies hybrides peuvent combler ces lacunes.


    Conclusion

    Le Chain of Draft (CoD) représente une avancée dans l’optimisation du raisonnement des modèles de langage (LLMs). Inspiré par les méthodes humaines de prise de notes, il permet aux IA de penser plus vite en écrivant moins tout en se concentrant sur l’essentiel. Avec une réduction jusqu’à 80 % de la consommation de tokens tout en maintenant une précision comparable au Chain of Thought (CoT).

    Cependant, certaines limites subsistent, notamment son inefficacité en zéro-shot et ses performances moindres sur les petits modèles. Des solutions existent, comme le fine-tuning et l’adaptation des prompts, qui permettent d’améliorer cette approche.

    💡 Le Chain of Draft pourrait devenir la norme pour un raisonnement efficace et optimisé en intelligence artificielle. A terme, les languages LLM pourraient l’intégrer de manière transparente dans leur méthode de raisonnement.

    Liens recommandés


    FAQ – Les questions les plus posées sur le Chain of Draft

    Qu’est-ce que le Chain of Draft et en quoi est-il différent du Chain of Thought ?

    Le Chain of Draft (CoD) est une méthode d’optimisation du raisonnement pour les modèles de langage (LLMs). Contrairement au Chain of Thought (CoT), qui décompose chaque étape dans un prompt détaillé, CoD favorise des réponses plus concises et itératives, éliminant les étapes inutiles tout en conservant la précision.


    Si vous appréciez nos articles, ne manquez les prochains en vous abonnant à Cosmo Games sur Google News, vous pouvez également nous suivre sur X (ex Twitter). N'hésitez pas à partager vos réactions, commentaires ou remarques dans les commentaires, afin d'enrichir le contenu, de mieux vous comprendre et intégrer les différents points de vue. Un partage sur les réseaux sociaux nous aide également beaucoup, merci pour votre soutien !

    Publications similaires

    Laisser un commentaire

    Connexion en tant que La Rédaction Cosmo Games. Modifier votre profil. Se déconnecter ? Les champs obligatoires sont indiqués avec *