ComfyUI GGUF : comment et pourquoi utiliser ce format ?

ComfyUI GGUF

Le format GGUF (Generalized Graphical Unified Format), popularisé notamment par llama.cpp, était initialement réservé aux modèles de texte (LLM). Cependant, avec l’évolution de ComfyUI et de ses extensions, les modèles GGUF sont désormais utilisables pour la génération d’images, offrant une alternative intéressante aux traditionnels .safetensors et .ckpt.

Même avec ma RTX 5090, économiser de la VRAM s’avère très utile pour de nombreux Workflow. J’ai réalisé de nombreux tests en particulier sur HiDream i1 Full. Pour une image en 1280×720, le temps de génération tombe à 60 secondes, contre presque 120 secondes pour la version .safetensors. Il y a également des gains notables sur Flux 1 Dev. Ces gains sont essentiellement liés à la gestion de la VRAM, en choisissant un modèle adapté à votre quantité de VRAM, vous évitez les swaps entre la RAM/SSD/VRAM. Plus globalement, si vous arrivez à charger tous les modèles/LoRA/CLIP utilisés en VRAM, vous améliorez drastiquement les temps de rendu. A l’inverse, si votre workflow avec les .safetensors n’occupe pas toute votre VRAM, ce n’est forcément utile de passer au format GGUF.

A noter, l’utilisation du format GGUF pour la génération de vidéo avec des modèles comme Wan 2.1 peut également fortement amélioré le temps de calcul.

Pourquoi choisir GGUF avec ComfyUI ? (mots-clés : ComfyUI, GGUF vs safetensors)

La suite après la pub !
  1. Réduction de l’usage VRAM et optimisation de la taille
    : les fichiers GGUF sont souvent quantifiés (Q4, Q6, Q8), ce qui réduit drastiquement la taille du modèle et la mémoire utilisée. Un guide sur Next Diffusion montre comment charger un modèle Flux Dev GGUF sur un PC 4–6 GiB de VRAM, avec un workflow complet (nextdiffusion.ai).
  2. Chargement plus rapide
    : grâce à la quantification en bits inférieurs, les modèles GGUF se chargent plus rapidement que leurs équivalents .safetensors, ce qui est un vrai plus en production ou en test rapide.
  3. Compatibilité via extension
    : en installant l’extension ComfyUI‑GGUF (via GitHub ou le Custom Nodes Manager), il devient possible de charger des modèles Unet, CLIP/T5, et VAE en .gguf (github.com).

Comment installer et utiliser GGUF avec ComfyUI

1. Installation de l’extension

  • Clone le dépôt city96/ComfyUI-GGUF dans custom_nodes/ ou installe via le Custom Nodes Manager de ComfyUI, puis redémarre et recharge la page pour rafraîchir les nœuds (runcomfy.com).

2. Organisation des fichiers modèles

  • Place les .gguf dans les bons dossiers :
    • models/unet pour UNet quantifié,
    • models/clip pour les encodeurs CLIP/T5,
    • models/vae reste souvent en .safetensors (github.com, nextdiffusion.ai).

3. Utilisation des nœuds GGUF

La suite après la pub !
  • Les nodes “Unet Loader (GGUF)” et “DualCLIPLoader (GGUF)” apparaissent désormais dans le menu, sous la catégorie “bootleg” ou “gguf” (github.com).
  • Remplace les loaders .safetensors par ces nœuds dans ton workflow pour profiter de la quantification Q8 vs safetensors classique.

Avantages pratiques de GGUF vs safetensors

Critère.safetensors classique.gguf quantifié
Taille du modèleÉlevéeJusqu’à –50 %
Usage de la VRAMImportantRéduit
Temps de chargementModéréPlus rapide
Qualité d’imageMax FonctionsLégère dégradation possible
DisponibilitéLarge baseNécessite Custom Node
CompatibilitéUniverselleLimitée aux nodes GGUF

Cas d’usage concret : HiDream i1 GGUF

Le modèle HiDream i1 GGUF illustre parfaitement l’intérêt du format GGUF avec ComfyUI pour la génération d’images avancée, même sur des machines avec une mémoire graphique limitée.

Présentation du modèle HiDream i1 GGUF

HiDream-i1 est un modèle de diffusion avancé, disponible en version complète (Full), mais aussi en variantes Dev et Fast, chacune adaptée à différentes capacités de VRAM. Grâce à la conversion en format GGUF (disponible notamment via Hugging Face – city96/HiDream-I1-Full-gguf), il devient possible d’utiliser ces modèles avec des quantifications allant du Q2 au Q8, ce qui réduit considérablement la taille des fichiers et la mémoire nécessaire à l’exécution.

La suite après la pub !

Intégration dans ComfyUI

L’intégration de HiDream i1 GGUF dans un workflow ComfyUI repose sur quelques étapes clés :

  • Installer l’extension ComfyUI-GGUF pour activer les nœuds spécialisés (ex. “Unet Loader (GGUF)”).
  • Placer les fichiers .gguf dans les dossiers appropriés (models/unet/, models/clip/, etc.).
  • Utiliser les nodes GGUF dans votre workflow : il suffit de remplacer le node de chargement classique par le node dédié au format GGUF, comme décrit dans la documentation officielle et le wiki ComfyUI.
  • Choisir la bonne variante selon la VRAM disponible :
    • Full : nécessite environ 16 à 20 Go de VRAM,
    • Dev : environ 12 Go,
    • Fast : environ 8 Go (Next Diffusion, 2024).

Avantages concrets

  • Accessibilité sur des GPU modestes : Là où le modèle .safetensors serait inutilisable faute de mémoire, la version GGUF Q8 permet d’exécuter HiDream-i1 sur des cartes disposant de seulement 8 à 12 Go de VRAM, sans sacrifier la génération d’images de qualité.
  • Chargement plus rapide et stabilité : Le modèle quantifié est plus léger, ce qui accélère l’initialisation et limite les risques d’erreur “Out of Memory”, même lors de l’utilisation de workflows complexes.
  • Expérience utilisateur documentée : Des utilisateurs sur Reddit confirment la bonne compatibilité de HiDream-i1 GGUF avec ComfyUI, à condition de tenir le plugin ComfyUI-GGUF à jour.

Points à vérifier et limites à surveiller

La suite après la pub !
  • Compatibilité des poids et mise à jour du plugin : Certains retours signalent des erreurs de chargement (“dimensions mismatch” sur certains blocs) avec des versions obsolètes de ComfyUI-GGUF ou avec des fichiers GGUF non adaptés. Il est donc conseillé de vérifier la compatibilité entre la version du modèle et celle du plugin ; surveillez les mises à jour et les notes de version sur les dépôts GitHub (Hugging Face Discussions).
  • Fonctionnalités avancées (ControlNet, LoRA, etc.) : Leur support sur les modèles quantifiés reste expérimental et pourra nécessiter des ajustements futurs.

HiDream-i1 et GGUF, en bref

HiDream-i1 GGUF est une solution de choix pour profiter de modèles diffusion de nouvelle génération sur des configurations matérielles accessibles, sans compromis majeur sur la qualité. L’écosystème ComfyUI, enrichi du support GGUF, ouvre ainsi la porte à de nombreux usages jusqu’alors réservés aux configurations haut de gamme.


Cas d’usage concret : Flux.1 Dev GGUF

Un guide indique que la version Flux.1 Dev GGUF permet une génération d’images fluide avec seulement 6 GiB de VRAM, en combinant UNet et CLIP quantifiés, plus un VAE standard (comfyui-wiki.com, nextdiffusion.ai). La démarche comprend :

  • téléchargement des modèles (flux1-dev-gguf, encoder T5, clip, vae),
  • placement aux bons emplacements,
  • installation des nœuds GGUF,
  • utilisation dans un workflow JSON « clé en main ».
La suite après la pub !

Evolutions en cours et points d’attention

  • Compatibilité VAE en .gguf : certains modules comme gguf-node supportent maintenant le VAE quantifié (huggingface.co, runcomfy.com).
  • Support des LoRA et ControlNet : encore expérimentaux en quantifié, à tester en charge réelle (github.com).
  • Qualité visuelle : la perte de qualité dépend de la quantification (Q2= pertes visibles, Q8 : pertes minimes voir négligeable) et également du modèle. L’idéal est de créer un Workflow avec une version quantifiée et un autre avec la version .safetensors, puis de comparer les résultats. Avec HiDream i1 et plusieurs tests, la version Q8 produit à mes yeux des résultats quasiment similaires à la version .safetensors. Avec Flux 1 Dev, le constat est à peu près similaire, mais j’ai moins de recul pour le moment.
  • Stabilité des nœuds : certains utilisateurs signalent des bugs (loader absent ou nœud null) après changement de version, à surveiller (discuss.huggingface.co).

Conclusion

En conclusion, ComfyUI GGUF permet une génération d’images efficace et économique, particulièrement pour les utilisateurs disposant de GPU modestes. Le format GGUF, lorsqu’il est utilisé via les nœuds appropriés (Unet Loader, DualCLIPLoader), offre une alternative légère aux formats traditionnels comme .safetensors. Comparé à .safetensors, GGUF réduit l’usage de VRAM, accélère le chargement, tout en conservant une qualité visuelle acceptable — bien que quelques améliorations soient à vérifier (VAE, LoRA, qualité).


Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *