NVFP4 : tout comprendre du nouveau format 4-bit de NVIDIA pour l’IA

L’intelligence artificielle avance, avec chaque semaine de nouvelles annonces, et derrière certaines annonces se cache des innovations techniques avec un impact potentiel majeur. En 2025, c’est le NVFP4, un nouveau format quantifié sur 4-bit signé NVIDIA, qui attire toutes les attentions. Pensé pour entraîner et faire tourner les modèles de langage (LLM) plus rapidement et avec moins de ressources. Si la quantification n’a rien de nouveau, ce format est optimisé et pourrait bien changer la donne pour les chercheurs, développeurs et entreprises.
Pourquoi Nvidia a lancé le NVFP4 ? En quoi il se distingue des formats déjà connus comme FP8 ou BF16 ? Ou encore pourra-t-il s’imposé comme un standard de la quantification 4 Bit face aux autres méthodes de quantification comme celle d’Unsloth ?
Qu’est-ce que le NVFP4 ?
Le NVFP4 est un format 4-bit flottant propriétaire de NVIDIA. Concrètement, chaque valeur numérique est représentée avec seulement 4 bits :
- 1 bit pour le signe,
- 2 bits pour l’exposant,
- 1 bit pour la mantisse (c’est ce qu’on appelle le format E2M1).
Dit comme ça, cela paraît très minimaliste. Et ça l’est : passer de 16 bits (BF16) à 8 bits (FP8), puis à 4 bits (NVFP4), c’est comme passer d’une autoroute à quatre voies à une départementale étroite. Mais NVIDIA a trouvé le moyen de garder le trafic fluide.
Le secret réside dans un système d’échelles multiples :
- Chaque petit bloc de 16 valeurs utilise une échelle en FP8 (pour éviter les pertes locales).
- Un facteur d’échelle global en FP32 vient harmoniser le tout.
Résultat : on garde la précision des calculs à un niveau proche de FP8, tout en réduisant drastiquement la mémoire et le temps de calcul nécessaires (NVIDIA, blog développeurs).
Pourquoi NVIDIA a créé le NVFP4
L’objectif est clair : entraîner et exécuter des modèles d’IA plus grands, plus vite, avec moins d’énergie. Les géants du cloud et les laboratoires de recherche font face à une explosion des coûts liés à l’IA.
- Mémoire réduite : NVFP4 divise par deux l’usage mémoire comparé au FP8.
- Vitesse accrue : sur les GPU Blackwell, NVFP4 peut aller jusqu’à 4 à 6 fois plus vite que le BF16 (Tom’s Hardware).
- Efficacité énergétique : certaines analyses estiment jusqu’à 50× plus d’efficacité en inférence comparé aux formats plus lourds.
En d’autres termes, le NVFP4 est un levier stratégique pour permettre à NVIDIA de répondre aux besoins colossaux de l’IA générative tout en rassurant les entreprises qui voient leur facture énergétique exploser.
NVFP4 vs FP8 vs BF16 : les différences
Pour comprendre l’intérêt de NVFP4, il faut le comparer aux formats déjà utilisés.
- BF16 : c’est la référence historique, très précis, mais coûteux en mémoire et en calcul.
- FP8 : compromis adopté depuis 2022–2023, beaucoup plus léger que BF16, avec peu de pertes de précision.
- NVFP4 : encore plus compact, mais grâce à ses échelles multiples et ses techniques de stabilisation (comme le stochastic rounding), il garde des performances comparables à FP8.
Selon une étude publiée sur arXiv en septembre 2025, un modèle de 12 milliards de paramètres entraîné sur 10 trillions de tokens en NVFP4 n’a montré qu’un écart de 1 à 1,5 % par rapport à FP8 sur la perte de validation. Autrement dit, presque aucune différence pratique sur la qualité finale des résultats.
Comment NVIDIA a résolu le problème de stabilité
Entraîner un modèle avec si peu de bits n’est pas trivial. Sans précaution, les calculs deviennent instables. Pour y parvenir, les chercheurs ont combiné plusieurs techniques :
- Sélection de couches en haute précision : seules les dernières couches critiques restent en FP8 ou FP16.
- Random Hadamard transforms : une astuce mathématique pour réduire la variance.
- Quantification 2D et stochastic rounding : pour éviter que les arrondis systématiques ne biaisent l’apprentissage.
Ces techniques ont été validées dans l’étude d’Abecassis et al. (Pretraining Large Language Models with NVFP4), qui constitue aujourd’hui la référence académique en la matière (arXiv).
L’adoption par la communauté
Le NVFP4 n’est pas qu’un concept théorique. On le retrouve déjà dans :
- Transformer Engine et TensorRT-LLM (outils open source de NVIDIA).
- Les modèles open source comme Nemotron ou encore le Gemma SEA-LION 27B NVFP4 sur Hugging Face.
- Des déploiements concrets comme DeepSeek-R1, qui a testé ce format pour améliorer son débit.
- vLLM supporte le format NVFP4
- Ollama ne supporte pas à ce jour ce format et aucune annonce n’a été faite sur la page des versions.
- De nombreux modèles sont disponibles en NVFP4 sur Hugging Face : Mistral, Qwen, Llama, Apertus …
Les modèles Hugging Face et l’écosystème de la bibliothèque Transformers intègrent activement la prise en charge de NVFP4 afin d’optimiser les flux d’inférence en basse précision.
Ce que cela change pour les développeurs et entreprises
Pour un développeur ou un chercheur, le NVFP4 ouvre la possibilité de :
- entraîner localement des modèles plus grands qu’avant,
- réduire la consommation énergétique sur les clusters de calcul,
- accélérer les temps d’expérimentation en réduisant le coût d’entraînement.
Pour une entreprise, c’est un moyen de réduire le coût global de l’IA, que ce soit via ses propres GPU Blackwell ou via des fournisseurs cloud qui adopteront massivement ce format.
Limites et points à vérifier
Le NVFP4 est prometteur, mais pas exempt de questions.
- Burn-in de précision sur certaines tâches ? → Sur le codage, de légères pertes ont été notées, mais il faut vérifier si cela persiste sur d’autres modèles.
- Compatibilité large ? → Pour l’instant, NVFP4 est surtout lié aux GPU Blackwell. Les générations précédentes n’en tirent pas pleinement parti.
- Adoption par d’autres acteurs ? → Est-ce que des formats concurrents comme MXFP4 ou d’autres FP4 open source trouveront leur place ?
Conclusion
Le NVFP4, c’est un peu comme passer d’un SUV gourmand à une voiture électrique performante : même puissance, mais avec moins de consommation. En réduisant par deux la mémoire par rapport au FP8 et en accélérant l’entraînement jusqu’à 6× par rapport au BF16, NVIDIA offre un outil taillé pour l’ère de l’IA générative.
Reste à voir si le format s’imposera comme le nouveau standard, ou s’il restera cantonné aux GPU Blackwell et aux projets NVIDIA. Mais une chose est sûre : pour qui s’intéresse à l’avenir de l’entraînement des LLM, il faudra compter avec le NVFP4.
Articles de la série NVFP4
- NVFP4 : tout comprendre du nouveau format 4-bit de NVIDIA pour l’IA ← Vous êtes ici
- NVFP4 vs FP8 vs BF16 vs MXFP4 : comparatif des formats basse précision pour l’IA
- Stabilité et performances du NVFP4 : ce que disent les études académiques et benchmarks
- Pourquoi le NVFP4 compte pour les entreprises : coûts, vitesse et adoption dans l’IA
Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !