|

LTX-2 : Le nouveau standard de la génération audio-vidéo par Lightricks

LTX-2 nouveau standard de la génération audio-vidéo par Lightricks

Le modèle LTX-2, publié en janvier 2026, représente une avancée majeure dans l’écosystème de la génération vidéo locale. Développé par Lightricks, ce modèle de 19 milliards de paramètres se distingue par son architecture de diffusion jointe, capable de produire simultanément de la vidéo et de l’audio parfaitement synchronisés. Contrairement aux approches modulaires classiques, LTX-2 intègre les deux flux au sein d’un transformateur unique, garantissant une cohérence temporelle native jusqu’à 20 secondes.

Une architecture DiT asymétrique pour l’audio-video diffusion

Au cœur du LTX-2 se trouve un Diffusion Transformer (DiT) à double flux asymétrique. Sur les 19 milliards de paramètres, 14 milliards sont dédiés au traitement vidéo et 5 milliards à l’audio, les deux étant liés par des couches de cross-attention bidirectionnelles.

Cette structure permet une interaction constante : le flux vidéo interroge les latents audio et inversement, assurant un alignement précis au niveau de la trame sans décalage temporel. Le conditionnement textuel repose sur l’encodeur Gemma-3-12B. Ce choix permet de séparer la compréhension sémantique de la génération des médias, facilitant ainsi les futures optimisations et le réglage fin. Pour plus de détails sur les fondements théoriques, vous pouvez consulter le papier arXiv de LTX-2.

La suite après la publicité

Quelles sont les performances réelles sur RTX 5090 et matériel haut de gamme ?

Le déploiement du LTX-2 nécessite une gestion rigoureuse des ressources, particulièrement de la VRAM. Les performances observées varient significativement selon le pipeline choisi (1-stage, 2-stages ou multi-tile), le nombre d’étapes du scheduler et l’overhead lié à ComfyUI.

Comparatif technique des formats de quantification

VersionQuantificationOccupation VRAM estiméeTemps obs. (720p, ~6s, RTX 5090)
LTX-2 DevBF16 (Full)~32–38 Go~100s+
LTX-2 FP8FP8 (E4M3)~16–27 Go~50s
LTX-2 NVFP4NVFP4 (4-bit)~10–20 Go~40–66s
LTX-2 DistilledBF16/FP8~13–19 Go~2–5s (aperçu)

Note sur le format NVFP4 : Ce format, optimisé pour les architectures NVIDIA Blackwell (série 50) et Ada (série 40), offre un gain de vitesse théorique allant jusqu’à 3x par rapport au BF16. Cependant, les tests communautaires sur RTX 5090 IA montrent une fourchette de 40 à 66 secondes pour 6 secondes de vidéo, illustrant l’impact des configurations logicielles et des noyaux Triton utilisés.

Les modèles officiels de Lightricks sont disponible sur Hugging Face avec ce lien. A noter la version ltx-2-19b-dev-fp4.safetensors correspond bien au format NVFP4.

Le cas des conversions communautaires GGUF

Il est important de noter que le format GGUF n’est pas officiellement supporté par Lightricks pour LTX-2. Ces conversions sont issues de la communauté. Sur une machine équipée d’une RTX 5090, l’usage du GGUF n’apporte aucun bénéfice de performance face au FP8 ou au NVFP4 natif, car la déquantification engendre une latence supplémentaire.

La suite après la publicité

L’innovation du Modality-CFG : affiner la cohérence audio-visuelle

Le Modality-CFG est l’un des points différenciants les plus forts de LTX-2. Cette technique permet d’ajuster indépendamment l’influence du texte (st) et la guidance croisée entre les modalités (sm).

D’après les documentations techniques et les retours d’expérience, voici les bonnes pratiques (non universelles) pour équilibrer vos générations :

  • Flux vidéo : Un réglage st=3 et sm=3 est souvent préconisé pour maintenir une fidélité au prompt sans dégrader la fluidité du mouvement.
  • Flux audio : Une guidance textuelle plus élevée (st=7) favorise l’intelligibilité de la parole, tandis qu’un sm=3 préserve la synchronisation avec l’image.

Pour explorer ces réglages, l’utilisation de l’intégration LTX-Video dans ComfyUI est recommandée via le dépôt officiel.

Pipelines IC-LoRA et contrôle structurel

Pour les utilisateurs avancés, LTX-2 supporte des pipelines IC-LoRA permettant des transformations de type video-to-video avec un contrôle précis. Ces adaptateurs (Canny, Depth, Pose) permettent d’injecter des contraintes structurelles pour guider la génération tout en conservant la cohérence de l’image source. Pour approfondir vos connaissances sur ces flux, consultez nos guides ComfyUI avancés.

FAQ (Foire aux questions)

La suite après la publicité

Peut-on faire tourner LTX-2 avec moins de 16 Go de VRAM ?

L’exécution sous 16 Go de VRAM est possible mais extrêmement contraignante. Elle nécessite souvent le recours au weight streaming (déchargement des poids vers la RAM système), ce qui peut entraîner une hausse de la latence de 50 % à 200 % selon la bande passante PCIe.

Quelles sont les spécifications exactes de l’audio généré ?

LTX-2 génère nativement de l’audio en 24 kHz stéréo via un vocoder HiFi-GAN modifié. Bien que la qualité soit élevée pour du foley ou de la parole, ce n’est pas du 48 kHz professionnel.

Où télécharger les modèles officiels ?

Les poids officiels et les fichiers de configuration sont disponibles sur la Model Card LTX-2 de Hugging Face.


Les capacités de LTX-2, bien que révolutionnaires pour la création locale, demandent une compréhension fine des interactions entre le matériel et les formats de quantification. L’évolution rapide des kernels d’optimisation, comme SageAttention, laisse entrevoir des gains de performance substantiels dans les mois à venir pour les possesseurs de RTX 5090.

Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !

La suite après la publicité

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *