FRAMES vs Seal-0 : quel benchmark choisir pour évaluer votre IA RAG et sa robustesse ?

L’évaluation des modèles d’intelligence artificielle ne se limite plus à mesurer la précision sur des questions isolées. Avec la montée des systèmes RAG (Retrieval-Augmented Generation) et des agents autonomes, deux benchmarks font aujourd’hui référence : FRAMES, développé par Google Research, et Seal-0, issu du projet open-source SealQA. Ces deux tests visent un même but : mesurer la compréhension et la fiabilité des modèles. Mais ils n’évaluent pas du tout la même chose.
Qu’est-ce que le benchmark FRAMES ?
FRAMES est un jeu de données conçu pour tester la factualité et la logique multi-étapes des modèles d’IA. Chaque question exige de retrouver plusieurs sources cohérentes – souvent issues de Wikipedia – puis d’en déduire une réponse logique.
Ce benchmark comprend 824 questions “multi-hop”, couvrant des domaines variés : histoire, sciences, culture ou géographie. Par exemple :
Quel compositeur est né plus tôt : celui de Carmen ou celui de La Traviata ?
Pour répondre correctement, le modèle doit identifier Georges Bizet et Giuseppe Verdi, récupérer leurs dates de naissance, puis comparer les deux. Ce type de raisonnement illustre parfaitement le rôle des systèmes RAG : récupérer, filtrer, raisonner, puis générer.
D’après les résultats publiés sur arXiv, même les meilleurs modèles, comme Gemini 1.5 Pro ou Claude 3, plafonnent autour de 0,66 d’exactitude, preuve que la difficulté réside autant dans la récupération des informations que dans le raisonnement.
Seal-0 : un benchmark “adversarial” pour tester la robustesse des IA
Seal-0 (premier niveau du projet SealQA) adopte une approche radicalement différente. Ici, l’objectif n’est pas de mesurer la logique pure, mais la résilience face à des données bruitées ou contradictoires.
Les questions sont simples en apparence – “Quelle est la capitale de la Suisse ?” – mais le contexte fourni contient des sources trompeuses : certains passages affirment que c’est Zurich, d’autres Genève, d’autres encore Berne. Le modèle doit alors distinguer le vrai du faux, comme il le ferait dans une recherche Web réelle.
Selon les résultats du papier SealQA : Evaluating LLMs under Noisy Retrieval Conditions (Université de Washington, 2025), les performances sont extrêmement faibles :
- o3 (OpenAI) : 17,1 % de réussite
- o4-mini : 6,3 %
- Même les modèles “agentiques” échouent souvent à cause du bruit amplifié par leurs chaînes de raisonnement.
Autrement dit, Seal-0 mesure la lucidité d’un modèle : sa capacité à douter, recouper et corriger.
FRAMES vs Seal-0 : deux visions complémentaires de l’évaluation IA
Critère | FRAMES | Seal-0 |
---|---|---|
Objectif | Qualité du raisonnement multi-source | Résistance à la désinformation |
Données | Sources fiables (Wikipedia) | Résultats bruités et contradictoires |
Type de raisonnement | Logique, temporel, numérique | Critique, discriminant |
Difficulté | Raisonnement complexe | Environnement chaotique |
Score typique | ~60 % | ~17 % |
Compétences testées | Récupération + raisonnement | Jugement critique + robustesse |
Utilisation | Évaluation de RAG ou agent multi-hop | Test de robustesse face au Web réel |
En pratique, les deux benchmarks se complètent : FRAMES permet de juger la logique d’un modèle dans un environnement propre, tandis que Seal-0 révèle son comportement en conditions “sales”, face à des informations trompeuses ou incomplètes.
Applications pratiques : quand utiliser FRAMES et quand privilégier Seal-0

Le choix du benchmark dépend avant tout de ce que vous cherchez à tester. Si votre objectif est de vérifier la qualité du raisonnement d’un modèle ou la solidité d’un pipeline RAG, alors FRAMES est la meilleure option.
Le jeu de données est propre, équilibré et parfaitement adapté aux scénarios où les documents récupérés sont pertinents et fiables. Il permet d’identifier si un modèle sait lier plusieurs faits, gérer les relations temporelles et formuler une réponse cohérente. C’est donc l’outil idéal pour comparer différentes architectures de RAG, mesurer les gains d’un retrieval adaptatif, ou évaluer l’impact d’un fine-tuning spécialisé sur la factualité.
À l’inverse, Seal-0 devient incontournable dès que l’on s’intéresse à la robustesse réelle d’une IA face à Internet. Les résultats sont volontairement bruités, les passages contradictoires, parfois trompeurs. C’est un scénario très proche de celui d’un agent IA connecté au Web, qui doit distinguer le vrai du vraisemblable.
En clair :
- FRAMES = tester la logique dans un laboratoire propre.
- Seal-0 = tester la survie dans la jungle du Web.
Exemples concrets d’application
Cas d’usage | Benchmark recommandé | Pourquoi |
---|---|---|
Évaluer un modèle RAG académique (Gemma, DeepSeek-R1, LLaMA 3) | FRAMES | Environnement contrôlé, idéal pour mesurer la qualité du raisonnement multi-hop |
Tester un moteur de recherche IA (Perplexity, Andi, You.com) | Seal-0 | Conditions bruitées proches de la réalité Web |
Optimiser un agent de navigation ou un assistant documentaire | Seal-0 | Vérifie la capacité du modèle à filtrer les erreurs et pondérer la fiabilité |
Benchmarker un pipeline interne (retrieval + génération) | FRAMES | Permet de comparer équitablement plusieurs configurations |
Mesurer la résistance à la désinformation | Seal-0 | Évalue la lucidité face à des données contradictoires |
Ces deux ensembles de tests sont donc complémentaires, et leur combinaison offre une évaluation complète : la précision en environnement propre et la résilience en environnement bruité.
Tendances et résultats récents
Depuis la publication du papier SealQA : Evaluating LLMs under Noisy Retrieval Conditions (arXiv), les grands modèles commerciaux ont été testés sur Seal-0. Les chiffres sont sans appel :
- OpenAI o3 atteint environ 17,1 % de réussite.
- o4-mini chute à 6,3 %.
- Même des systèmes “agentiques” capables de planifier plusieurs requêtes tombent sous la barre des 20 %.
En comparaison, sur FRAMES, les meilleurs modèles comme Gemini 1.5 Pro ou Claude 3 Opus obtiennent entre 60 et 70 % d’exactitude selon les paramètres de récupération.
Ces écarts montrent qu’un modèle peut paraître brillant dans un test académique propre mais s’effondrer face à la complexité du Web. C’est un rappel utile : la robustesse n’est pas un simple prolongement du raisonnement, mais une compétence à part entière.
Limites et perspectives
Ni FRAMES ni Seal-0 ne suffisent à eux seuls à mesurer la “vraie intelligence” d’un modèle. FRAMES reste centré sur des données bien structurées ; Seal-0, de son côté, amplifie parfois le bruit au point de rendre la tâche irréaliste. Les chercheurs envisagent déjà des extensions :
- LongSeal pour tester la cohérence à long contexte ;
- Seal-Hard pour renforcer la complexité des pièges ;
- FRAMES v2 en préparation, qui devrait intégrer des documents multimodaux et des contextes Web dynamiques.
À terme, ces benchmarks pourraient converger vers des évaluations hybrides, capables de mesurer à la fois la logique, la robustesse et la cohérence narrative d’un agent IA.
Foire aux questions
Qu’est-ce que FRAMES ? Un benchmark conçu par Google Research pour évaluer les systèmes RAG sur des questions multi-sources, avec un accent sur la logique et la factualité.
Qu’est-ce que Seal-0 ? Une déclinaison du projet SealQA, qui teste la résistance des modèles face à des résultats de recherche bruités ou contradictoires.
Pourquoi les scores sont-ils si bas ? Parce que Seal-0 ne récompense pas la mémoire brute, mais la capacité à douter et à trier les sources — une compétence encore rare chez les IA actuelles.
Quel benchmark choisir pour mon projet ? FRAMES si vous développez un moteur RAG académique ou d’entreprise ; Seal-0 si votre IA interagit avec le Web ou des données non filtrées.
Sources principales
- Google Research – FRAMES Benchmark (Hugging Face)
- SealQA : Evaluating LLMs under Noisy Retrieval Conditions (arXiv, 2025)
- Données de comparaison issues d’analyses sur Marktechpost et PureAI pour le suivi des résultats modèles.
Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !