|

OmniNFT pour LTX-2.3 : L’alignement par apprentissage par renforcement

OmniNFT LTX-23

Le fichier LTX-2.3-OmniNFT-RL-Lora_bf16.safetensors, hébergé sur le dépôt ComfyUI de Kijai, suscite la curiosité de la communauté du monde de la génération vidéo open source. Loin d’être un simple filtre ou un LoRA artistique classique, cet adaptateur tente d’appliquer une méthode d’optimisation poussée au modèle de base LTX-Video.


Qu’est-ce que le projet OmniNFT ?

Le projet original, développé par l’équipe de recherche de zghhui, est documenté sur leur page de présentation OmniNFT ainsi que sur leur dépôt Hugging Face officiel. L’acronyme signifie Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation.

La grande particularité de cette approche est l’introduction de l’Apprentissage par Renforcement (RL) pour les modèles de diffusion vidéo. Au lieu de se limiter à l’apprentissage supervisé traditionnel (où le modèle apprend uniquement en imitant un jeu de données vidéo), les chercheurs ont utilisé des modèles de récompense (Reward Models) pour évaluer et orienter les résultats du modèle selon plusieurs critères fondamentaux :

La suite après la publicité
  • La qualité esthétique des images.
  • La fluidité et la cohérence des mouvements dans le temps.
  • La fidélité par rapport aux instructions du prompt textuel.

Dans sa publication de recherche globale, le framework OmniNFT englobe également la génération conjointe et synchronisée de l’audio. Néanmoins, l’adaptateur qui nous intéresse ici se concentre spécifiquement sur la correction et l’alignement des dynamiques vidéo du Transformer de LTX-2.3.


Le travail de conversion de Kijai pour ComfyUI

Les fichiers mis à disposition par les chercheurs ne sont pas nativement pensés pour être insérés à la volée dans une interface graphique. À l’origine, le LoRA est fourni au format PEFT/Diffusers (adapter_model.safetensors) et nécessite l’exécution d’un script Python externe pour être fusionné directement dans le modèle de base avant l’inférence.

Kijai a réalisé un travail de réordonnancement technique :

La suite après la publicité
  • Correspondance des clés (Key Mapping) : Il a traduit le nom des couches de l’attention du format Diffusers vers la structure de tenseurs reconnue par ComfyUI.
  • Packaging : Il a encapsulé le tout dans un fichier .safetensors unique utilisable directement avec le nœud Load LoRA.
  • Précision : Le fichier conserve la précision native BF16 (Bfloat16) utilisée lors de l’entraînement par renforcement, ce qui préserve la stabilité des calculs tout en maintenant un poids mémoire optimisé pour nos cartes graphiques.

Ce que ce LoRA est censé améliorer (et la réalité des tests)

Sur le papier, l’alignement par renforcement doit apporter une meilleure cohérence temporelle (réduction des déformations de visages d’une image à l’autre), une diminution des artefacts visuels et une meilleure fidélité au prompt textuel.

Cependant, les premiers retours empiriques partagés au sein de la discussion #61 sur le dépôt de Kijai amènent plusieurs nuances importantes et incitent à la prudence :

L’hypothèse du biais stylistique (Anime / Cartoon)

La suite après la publicité

Certains utilisateurs ayant analysé les comparatifs officiels ont remarqué que le modèle de base générait parfois des personnages photoréalistes, tandis que l’activation du LoRA OmniNFT pouvait faire dévier le rendu vers un style plus proche de l’animation ou du cartoon.

Hypothèse : Il est possible que le jeu de données ou les modèles de récompense esthétiques utilisés par les chercheurs aient comporté une proportion notable de contenus stylisés. Si vous visez un photoréalisme strict, ce LoRA pourrait provoquer une légère dérive artistique (prompt drift).

Une amélioration subtile du mouvement et des visages

Les retours s’accordent à dire que les gains restent subtils. On note principalement des mouvements légèrement plus « naturels » et une meilleure stabilité générale lorsqu’il y a plusieurs personnages ou que des sujets anthropomorphes s’expriment à l’écran. Ce n’est pas une révolution visuelle, mais plutôt une passe de micro-stabilisation géométrique.


Conseils d’utilisation dans ComfyUI

Les tests communautaires de la discussion #61 bousculent les habitudes d’utilisation :

  • Ajuster la force (Strength) à la baisse : Contrairement à la valeur par défaut de 1.0 qui semble parfois dégrader la qualité ou figer le mouvement, les expérimentations suggèrent qu’il est préférable de l’utiliser avec parcimonie. Débuter avec une force située entre 0.4 et 0.7 semble offrir le meilleur compromis pour bénéficier des corrections de structure sans subir les effets de bord stylistiques.
  • Échantillonnage : Kijai lui-même qualifie ce modèle de très récent (« brand new »). Pour optimiser son rendu, l’association avec des techniques de découpage comme le LTX Tiled Sampler (notamment lors des phases d’Upscaling) reste une piste privilégiée pour lisser les derniers fourmillements de pixels.

Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !

La suite après la publicité

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *