Comment choisir un modèle LLM en local en fonction de votre configuration ?

L’exécution locale d’un modèle LLM (Large Language Model) est de plus en plus accessible grâce aux optimisations matérielles et aux outils comme LM Studio, Ollama, Hugging Face ou Text Generation WebUI. Mais comment choisir un LLM en local selon les spécificités de votre configuration PC ? Cet article vous guide étape par étape, en fonction de votre processeur, mémoire RAM, carte graphique et VRAM disponible.
Pourquoi exécuter un LLM en local ?
L’exécution locale présente plusieurs avantages clés :
- Indépendance du cloud : aucun besoin de connexion Internet une fois le modèle téléchargé.
- Confidentialité renforcée : les données ne quittent jamais votre machine.
- Temps de réponse rapide : latence minimale avec une configuration adaptée.
Cependant, ces bénéfices ne sont pleinement atteignables que si le modèle et le moteur sont bien adaptés à votre matériel.
Évaluer sa configuration matérielle
Avant de choisir un modèle LLM local, il est essentiel d’analyser les éléments suivants :
Processeur (CPU)
- Un processeur moderne multi-cœurs (ex. Ryzen 7/9, Intel i7/i9) permet d’exécuter des modèles petits à moyens en CPU-only.
- Le CPU est à privilégier si vous ne possédez pas de carte graphique dédiée.
Mémoire vive (RAM)
- Plus la RAM est élevée, plus vous pourrez charger un contexte important et manipuler des modèles plus volumineux.
- Minimum conseillé : 16 Go.
- Idéal : 32 Go ou plus, surtout si vous n’avez pas de GPU performant.
Carte graphique (GPU) et VRAM
- C’est le facteur déterminant si vous souhaitez des performances élevées.
- Les modèles quantifiés consomment moins de VRAM :
- 4 Go de VRAM → modèles 3B ou 7B en Q4.
- 6 à 8 Go de VRAM → modèles 13B en Q4 ou 7B en Q6.
- 12 à 16 Go de VRAM → modèles 30B, selon quantification.
- Vérifiez que votre GPU est compatible CUDA (Nvidia) ou Vulkan (AMD/Intel).
🔎 les performances Vulkan sur GPU Intel Arc ou AMD RX 7000 en usage LLM s’améliorent avec le temps, mais CUDA garde encore un large avantage.
Choisir le moteur adapté (backend)
La plupart des interfaces proposent plusieurs moteurs pour exécuter les modèles. Voici un tableau comparatif :
Moteur | Matériel requis | Performances | Compatibilité |
---|---|---|---|
CPU (llama.cpp) | Aucun GPU | Lentes | Universel |
CUDA (llama.cpp) | GPU Nvidia | Rapides | CUDA + pilote requis |
CUDA 12 | GPU Nvidia (CUDA 12) | Rapides | Certaines builds spécifiques |
Vulkan | GPU AMD/Intel/Nvidia | Moyennes | Moins mature |
Recommandé : si vous avez un GPU Nvidia avec 8 Go de VRAM ou plus, privilégiez CUDA (ou CUDA 12 si nécessaire) pour un meilleur rapport performance/consommation.
Choisir un modèle LLM adapté à votre machine
Taille du modèle
Modèle | Taille (paramètres) | Usage typique | VRAM nécessaire (en Q4) |
---|---|---|---|
3B – 4B | Léger | Assistant simple, écriture basique | 4 Go |
7B – 8B | Moyen | Chat, résumé, code, traduction | 6 Go |
13B | Avancé | Rédaction, raisonnement, codage | 8 à 12 Go |
30B et + | Très avancé | Nécessite GPU haut de gamme | 16 Go et + |
Niveau de quantification
- Q4_K_M : excellent compromis qualité/VRAM
- Q5_K_M / Q6_K : meilleure précision mais plus lourd
- Q8_0 ou full precision : très lourd, à éviter sans GPU 24+ Go
🔎 À vérifier : certains modèles comme Deepseek Coder, Nous Hermes 2, MythoMax, nécessitent une quantification bien spécifique pour fonctionner correctement.
Exemples de configuration et modèles compatibles
Configuration légère (PC sans GPU dédié)
- CPU : i5 / Ryzen 5
- RAM : 16 Go
- Modèle recommandé : Phi-3 / 3.5 (3.8B), StableLM-zephyr, TinyLlama (1.1B)
- Moteur : CPU llama.cpp
Modèle | Taille | Caractéristiques principales |
---|---|---|
Phi-3.5 | 3,8B | Multilingue, long contexte |
StableLM-zephyr | 3B | Rapide, optimisé pour appareils edge |
TinyLlama | 1,1B | Efficacité mobile/edge |
MobileLLaMA | 1,4B | Optimisé pour le mobile |
LaMini-GPT | 0,77–1,5B | Multilingue, suit les instructions |
OpenELM | 0,27–3B | Multitâches, faible latence |
MiniCPM | 1–4B | Anglais/Chinois, performances équilibrées |
Fox | 1,6B | Vitesse, usage mobile |
DCLM | 1B | Raisonnement de bon sens |
Pythia | 0,16–2,8B | Raisonnement, génération de code |
Cerebras-GPT | 0,11–2,7B | Efficace, échelle facile |
Configuration intermédiaire (GPU 6-8 Go VRAM)
- GPU : RTX 5070, 5070 Ti, 3070 Ti, 3060
- RAM : 32 à 64 Go
- Modèles recommandés :
- Llama 3.3 8B Q4_K_M
- Qwen 3 8B Q4_K_M
- Gemma 3 12B Q4_K_M
- DeepSeek 7B Q4_K_M
- Mistral 7B Q4_K_M
- Moteur : CUDA llama.cpp
Modèle | Taille | Caractéristiques principales |
---|---|---|
Llama 3.3 | 8B | Polyvalent, bon en raisonnement, suit bien les instructions |
Qwen 3 | 8B | Conversationnel, raisonnement, efficace |
DeepSeek | 7B | Compréhension de documents, automatisation |
Mistral | 7B | Rapide, efficace, dialogue en temps réel |
Gemma 3 | 12B | Léger, raisonnement, résumé |
Phi-3.5 | 3,8B | Multilingue, long contexte, raisonnement logique |
Configuration avancée (GPU 16+ Go VRAM)
- GPU : RTX 5080, 5090, 4080 / 4090 ou A100 (carte Pro)
- RAM : 64 à 128 Go
- Modèles recommandés :
- LLaMA 3 70B Q4_K_M
- Qwen3 30B A3B (MoE) Q4_K_M
- Mistral 8x7B (MoE) Q4_K_M
- Gemma 3 27B Q4_K_M
- Moteur : CUDA 12 ou ExLlamaV2 via Ollama/Text Gen UI
Modèle | Paramètres | Caractéristiques notables | Cas d’usage typique |
---|---|---|---|
Llama 3 70B | 70B | Haute qualité, multilingue, chat | IA générale, dialogue, raisonnement |
OpenLLaMA 65B | 65B | Reproduction open source, efficace | Recherche, personnalisation |
Qwen3 (MoE) | 30B | MoE, haute performance, rapide | IA générale, dialogue, raisonnement |
Gemma 3 | 27B | Haute qualité, multilingue, chat | IA générale, dialogue, raisonnement |
MPT-30B | 30B | Efficace, variantes instructions/chat disponibles | Chatbots, résumé |
Mixtral 8x7B | 56B* | MoE, haute performance, rapide | Dialogue, écriture créative |
*Mixtral 8x7B : 8 experts de 7 milliards de paramètres chacun, mais tous ne sont pas activés simultanément, ce qui réduit le nombre de paramètres effectivement utilisés.
Quels outils pour exécuter un LLM localement ?
- LM Studio : simple, multiplateforme, bonne interface, support CUDA.
- Ollama : terminal + API, très rapide, support Mac M1/M2.
- Text Generation WebUI : très complet, interface web, exige plus de configuration.
- Hugging Face : est une plateforme et une bibliothèque, pas une interface utilisateur prête à l’emploi. Une option réservé aux développeurs ou personnes averties. Pour en savoir plus sur Hugging Face, consultez ce lien.
FAQ – Réponses aux questions fréquentes
Essayez Deepseek Coder 6.7B Q4_K_M ou Code LLaMA 13B si votre VRAM le permet.
Non, ChatGPT n’est pas open source. Utilisez plutôt LLaMA 3, Mistral, Gemma ou d’autres modèles libres.
Vérifiez que vous utilisez le moteur compatible (ex : CUDA pour GPU Nvidia) et que le fichier GGUF est quantifié pour votre VRAM.
Conclusion – Trouver le bon équilibre entre performance et compatibilité
Choisir un LLM en local selon sa configuration repose sur une évaluation fine de vos ressources matérielles : VRAM disponible, quantité de RAM, puissance CPU/GPU, et compatibilité avec les moteurs d’exécution. Le bon modèle n’est pas nécessairement le plus gros, mais celui qui offre un bon compromis entre qualité de réponse et fluidité d’exécution sur votre machine.
Pour une configuration moyenne avec par exemple une RTX 3070 Ti 8Go, des modèles comme LLaMA 3 8B Q4_K_M, Gemma 3 12B, Qwen 3 8B ou Mistral 7B quantifié offriront une expérience proche de ChatGPT, tout en restant entièrement hors ligne. Pour aller plus loin, suivez les évolutions des moteurs comme llama.cpp, ExLlamaV2 ou MLC Chat, qui permettent une meilleure efficacité avec les dernières optimisations matérielles.
A lire également : IA local : guide complet pour installer et utiliser un modèle sur votre ordinateur
Si vous appréciez nos articles, ne manquez les prochains en vous abonnant à Cosmo Games sur Google News, vous pouvez également nous suivre sur X (ex Twitter) en particulier pour les bons plans en direct. N'hésitez pas à partager vos réactions, commentaires ou remarques dans les commentaires, afin d'enrichir le contenu, de mieux vous comprendre et intégrer les différents points de vue. Un partage sur les réseaux sociaux nous aide également beaucoup, merci pour votre soutien !