LLM local : comment sélectionner le bon modèle pour votre machine ?

L’exécution locale d’un modèle LLM (Large Language Model) est de plus en plus accessible grâce aux optimisations matérielles et aux outils comme LM Studio, Ollama, Hugging Face ou Text Generation WebUI. Mais comment choisir un LLM en local selon les spécificités de votre configuration PC ? Cet article vous guide étape par étape, en fonction de votre processeur, mémoire RAM, carte graphique et VRAM disponible pour vous aider à identifier le LLM et la version du modèle, quantifié et nombre de paramètres.

Pourquoi exécuter un LLM en local ?

L’exécution locale présente plusieurs avantages clés :

Indépendance du cloud : aucun besoin de connexion Internet une fois le modèle téléchargé.
Confidentialité renforcée : les données ne quittent jamais votre machine.
Temps de réponse rapide : latence minimale avec une configuration adaptée.

Cependant, ces bénéfices ne sont pleinement atteignables que si le modèle et le moteur sont bien adaptés à votre matériel.

Évaluer sa configuration matérielle

Avant de choisir un modèle LLM local, il est essentiel d’analyser les éléments suivants :

Processeur (CPU)

Un processeur moderne multi-cœurs (ex. Ryzen 7/9, Intel i7/i9) permet d’exécuter des modèles petits à moyens en CPU-only.
Le CPU est à privilégier si vous ne possédez pas de carte graphique dédiée.

Mémoire vive (RAM)

Plus la RAM est élevée, plus vous pourrez charger un contexte important et manipuler des modèles plus volumineux.
Minimum conseillé : 16 Go.
Idéal : 32 Go ou plus, surtout si vous n’avez pas de GPU performant.

Carte graphique (GPU) et VRAM

C’est le facteur déterminant si vous souhaitez des performances élevées.
Les modèles quantifiés consomment moins de VRAM :
- 4 Go de VRAM → modèles 3B ou 7B en Q4.
- 6 à 8 Go de VRAM → modèles 13B en Q4 ou 7B en Q6.
- 12 à 16 Go de VRAM → modèles 30B, selon quantification.
Vérifiez que votre GPU est compatible CUDA (Nvidia) ou Vulkan (AMD/Intel).

🔎 les performances Vulkan sur GPU Intel Arc ou AMD RX 7000 en usage LLM s’améliorent avec le temps, mais CUDA garde encore un large avantage.

Choisir le moteur adapté (backend)

La plupart des interfaces proposent plusieurs moteurs pour exécuter les modèles. Voici un tableau comparatif :

Moteur	Matériel requis	Performances	Compatibilité
CPU (llama.cpp)	Aucun GPU	Lentes	Universel
CUDA (llama.cpp)	GPU Nvidia	Rapides	CUDA + pilote requis
CUDA 12	GPU Nvidia (CUDA 12)	Rapides	Certaines builds spécifiques
Vulkan	GPU AMD/Intel/Nvidia	Moyennes	Moins mature

Recommandé : si vous avez un GPU Nvidia avec 8 Go de VRAM ou plus, privilégiez CUDA (ou CUDA 12 si nécessaire) pour un meilleur rapport performance/consommation.

Choisir un modèle LLM adapté à votre machine

Taille du modèle

Nb. Paramètres	Taille	Usage typique	VRAM nécessaire (en Q4)
3B – 4B	Léger	Assistant simple, écriture basique	4 Go
7B – 8B	Moyen	Chat, résumé, code, traduction	6 Go
13B	Avancé	Rédaction, raisonnement, codage	8 à 12 Go
30B et +	Très avancé	Nécessite GPU haut de gamme	16 Go et +

Nombre de paramètres du LLM (Quantifié en Q4) en fonction de la VRAM

Niveau de quantification

Q4_K_M : excellent compromis qualité/VRAM
Q5_K_M / Q6_K : meilleure précision mais plus lourd
Q8_0 ou full precision : très lourd, à éviter sans GPU 24+ Go

🔎 Certains modèles comme Deepseek Coder, Nous Hermes 2, MythoMax, nécessitent une quantification bien spécifique pour fonctionner correctement.

Exemples de configuration et modèles compatibles

Configuration légère (PC sans GPU dédié)

CPU : i5 / Ryzen 5
RAM : 16 Go
Modèle recommandé : Phi-3 / 3.5 (3.8B), StableLM-zephyr, TinyLlama (1.1B)
Moteur : CPU llama.cpp

Modèle	Taille	Caractéristiques principales
Phi-3.5	3,8B	Multilingue, long contexte
StableLM-zephyr	3B	Rapide, optimisé pour appareils edge
TinyLlama	1,1B	Efficacité mobile/edge
MobileLLaMA	1,4B	Optimisé pour le mobile
LaMini-GPT	0,77–1,5B	Multilingue, suit les instructions
OpenELM	0,27–3B	Multitâches, faible latence
MiniCPM	1–4B	Anglais/Chinois, performances équilibrées
Fox	1,6B	Vitesse, usage mobile
DCLM	1B	Raisonnement de bon sens
Pythia	0,16–2,8B	Raisonnement, génération de code
Cerebras-GPT	0,11–2,7B	Efficace, échelle facile

Configuration intermédiaire (GPU 6-8 Go VRAM)

GPU : RTX 5070, 5070 Ti, 3070 Ti, 3060
RAM : 32 à 64 Go
Modèles recommandés :
- Llama 3.3 8B Q4_K_M
- Qwen 3 8B Q4_K_M
- Gemma 3 12B Q4_K_M
- DeepSeek 7B Q4_K_M
- Mistral 7B Q4_K_M
Moteur : CUDA llama.cpp

Modèle	Taille	Caractéristiques principales
Llama 3.3	8B	Polyvalent, bon en raisonnement, suit bien les instructions
Qwen 3	8B	Conversationnel, raisonnement, efficace
DeepSeek	7B	Compréhension de documents, automatisation
Mistral	7B	Rapide, efficace, dialogue en temps réel
Gemma 3	12B	Léger, raisonnement, résumé
Phi-3.5	3,8B	Multilingue, long contexte, raisonnement logique

Configuration avancée (GPU 16+ Go VRAM)

GPU : RTX 5080, 5090, 4080 / 4090 ou A100 (carte Pro)
RAM : 64 à 128 Go
Modèles recommandés :
- LLaMA 3 70B Q4_K_M
- Qwen3 30B A3B (MoE) Q4_K_M
- Mistral 8x7B (MoE) Q4_K_M
- Gemma 3 27B Q4_K_M
Moteur : CUDA 12 ou ExLlamaV2 via Ollama/Text Gen UI

Modèle	Paramètres	Caractéristiques notables	Cas d’usage typique
Llama 3 70B	70B	Haute qualité, multilingue, chat	IA générale, dialogue, raisonnement
OpenLLaMA 65B	65B	Reproduction open source, efficace	Recherche, personnalisation
Qwen3 (MoE)	30B	MoE, haute performance, rapide	IA générale, dialogue, raisonnement
Gemma 3	27B	Haute qualité, multilingue, chat	IA générale, dialogue, raisonnement
MPT-30B	30B	Efficace, variantes instructions/chat disponibles	Chatbots, résumé
Mixtral 8x7B	56B*	MoE, haute performance, rapide	Dialogue, écriture créative

*Mixtral 8x7B : 8 experts de 7 milliards de paramètres chacun, mais tous ne sont pas activés simultanément, ce qui réduit le nombre de paramètres effectivement utilisés.

Quels outils pour exécuter un LLM localement ?

LM Studio : simple, multiplateforme, bonne interface, support CUDA.
Ollama : terminal + API, très rapide, support Mac M1/M2.
Text Generation WebUI : très complet, interface web, exige plus de configuration.
Hugging Face : est une plateforme et une bibliothèque, pas une interface utilisateur prête à l’emploi. Une option réservé aux développeurs ou personnes averties. Pour en savoir plus sur Hugging Face, consultez ce lien.

FAQ – Réponses aux questions fréquentes

Quel est le meilleur modèle LLM local pour coder ?

Essayez Deepseek Coder 6.7B Q4_K_M ou Code LLaMA 13B si votre VRAM le permet.

Puis-je faire tourner ChatGPT en local ?

Non, ChatGPT n’est pas open source. Utilisez plutôt LLaMA 3, Mistral, Gemma ou d’autres modèles libres.

Mon modèle plante au lancement dans LM Studio. Pourquoi ?

Vérifiez que vous utilisez le moteur compatible (ex : CUDA pour GPU Nvidia) et que le fichier GGUF est quantifié pour votre VRAM.

Conclusion – Trouver le bon équilibre entre performance et compatibilité

Choisir un LLM en local selon sa configuration repose sur une évaluation fine de vos ressources matérielles : VRAM disponible, quantité de RAM, puissance CPU/GPU, et compatibilité avec les moteurs d’exécution. Le bon modèle n’est pas nécessairement le plus gros, mais celui qui offre un bon compromis entre qualité de réponse et fluidité d’exécution sur votre machine.

Pour une configuration moyenne avec par exemple une RTX 3070 Ti 8Go, des modèles comme LLaMA 3 8B Q4_K_M, Gemma 3 12B, Qwen 3 8B ou Mistral 7B quantifié offriront une expérience proche de ChatGPT, tout en restant entièrement hors ligne. Pour aller plus loin, suivez les évolutions des moteurs comme llama.cpp, ExLlamaV2 ou MLC Chat, qui permettent une meilleure efficacité avec les dernières optimisations matérielles.

A lire également : IA local : guide complet pour installer et utiliser un modèle sur votre ordinateur

Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !

Comment choisir un modèle LLM en local en fonction de votre configuration ?

Pourquoi exécuter un LLM en local ?