RAG multilingue multimodal : pourquoi votre IA ignore vos documents français

RAG multilingue multimodal - comparaison de 10 modèles d'embedding pour la recherche en français et en images

La plupart des systèmes RAG déployés aujourd’hui ont deux angles morts. 

  1. Ils ne comprennent que l’anglais. 
  2. Ils ne voient que du texte. 

Milvus vient de publier un benchmark de 10 modèles d’embedding qui met le doigt sur ce problème de RAG multilingue multimodal.

Ce que les benchmarks classiques ne testent pas

Le classement MTEB, que tout le monde utilise pour choisir un modèle d’embedding, ne teste qu’une chose : la recherche de texte en anglais dans une base de textes en anglais. C’est un bon début. Mais en production, vos documents sont en français, vos factures contiennent des images, vos rapports mélangent texte et tableaux, et vos clients parlent parfois néerlandais ou anglais.

Milvus a créé un benchmark appelé CCKM qui teste ce que MTEB ignore : la recherche multilingue (question en français, réponse en anglais), la recherche multimodale (trouver la bonne image parmi 800 options), et la recherche dans des documents longs (retrouver un fait dans 32 000 caractères).

Les résultats en RAG multilingue

Pour la recherche multilingue, les écarts sont spectaculaires. Gemini Embedding 2 atteint 99.7% de précision. Qwen3-VL-2B, un modèle open-source de 2 milliards de paramètres, atteint 98.8%. OpenAI text-embedding-3-large : 96.7%.

Les modèles légers anglais-only (nomic-embed-text, mxbai-embed-large) ? Ils tombent à 12-15%. Sur des expressions idiomatiques, ils descendent à 3%.

Le test le plus difficile consistait à aligner des idiomes chinois avec leurs équivalents anglais. Seul Gemini a obtenu un score parfait. Ce niveau de compréhension sémantique entre langues est ce qui fait la différence entre un RAG qui retrouve vos documents français et un RAG qui les ignore.

Les résultats en recherche multimodale

Pour la recherche multimodale (retrouver la bonne image à partir d’une description texte, avec des pièges subtils), le résultat est surprenant. Qwen3-VL-2B, un modèle open-source, bat tous les modèles fermés payants avec 94.5% de précision. Gemini arrive deuxième à 92.8%.

La raison : le « modality gap », la distance entre les représentations texte et image dans l’espace vectoriel. Qwen a un gap de 0.25, contre 0.73 pour Gemini. Plus le gap est petit, plus la recherche texte-image est fiable.

Ce que ça signifie pour les PME francophones

Si vous construisez un système RAG pour une entreprise francophone, le choix du modèle d’embedding n’est pas un détail technique. C’est ce qui détermine si votre IA comprend vos documents ou les ignore.

Chez AS3P, c’est pour cette raison que nous utilisons Milvus comme base vectorielle dans nos développements BrainDup. Milvus est open-source, gère nativement le multilingue et le multimodal, et permet de stocker texte et images dans le même espace vectoriel.

Il n’y a pas que l’anglais dans le monde de l’IA. Il n’y a pas que le texte non plus. 

Et les entreprises francophones qui l’ignorent construisent des systèmes qui passent à côté de la moitié de leur information.

Pour découvrir nos parcours de formation : as3p.be/tnt/