Selon une étude, l’IA de Google se trompe encore dans près de 10 % des cas

Les intelligences artificielles conversationnelles progressent rapidement, mais elles ne sont pas infaillibles. Une enquête récente du The New York Times met en lumière une limite importante : l’IA Gemini développée par Google produirait encore des erreurs dans près d’un cas sur dix. Ce constat relance le débat sur la fiabilité de ces outils, de plus en plus utilisés au quotidien.

Sommaire :

Une étude qui met en évidence un taux d’erreur significatif

L’analyse repose sur un test standardisé appelé SimpleQA, conçu pour évaluer la capacité des intelligences artificielles à répondre à des questions factuelles. En partenariat avec la start-up Oumi, plusieurs milliers de questions vérifiables ont été soumises à Gemini.

Les résultats montrent une amélioration notable entre les différentes versions du modèle. La version Gemini 2 atteignait environ 85 % de réponses correctes, tandis que Gemini 3 monterait à 91 %. Malgré ces résultats, cela signifie qu’environ 9 % des réponses restent incorrectes.

À l’échelle globale, ce pourcentage peut sembler limité. Pourtant, appliqué aux millions de requêtes traitées chaque heure, il représente un volume important d’informations erronées potentiellement diffusées aux utilisateurs.

VOIR AUSSI : Les risques de l’intelligence artificielle : OpenAI a fait des propositions pour les contrer

Le phénomène des hallucinations de l’IA

Ces erreurs ne sont pas toujours de simples approximations. Dans certains cas, l’IA génère des informations entièrement inventées tout en les présentant comme fiables. C’est ce que l’on désigne par hallucination.

Contrairement à un moteur de recherche classique, une IA générative ne vérifie pas ses sources en temps réel. Elle s’appuie sur des modèles statistiques issus de son entraînement pour prédire la suite la plus probable d’une phrase. Ce fonctionnement, propre à l’IA générative, explique pourquoi elle peut produire des réponses plausibles mais fausses.

Le problème est accentué par le ton affirmatif adopté par ces systèmes. L’utilisateur peut alors difficilement distinguer une information correcte d’une erreur, surtout sans vérification externe.

Des résultats contestés par Google

Face à cette étude, Google a nuancé les conclusions. L’entreprise estime que le test utilisé ne reflète pas les usages réels des internautes. Elle pointe également d’éventuelles limites dans la base de données utilisée pour évaluer les réponses.

Ce débat souligne une difficulté plus large : mesurer précisément la performance des intelligences artificielles reste complexe. Les résultats peuvent varier selon les méthodes d’évaluation, les types de questions et les contextes d’utilisation.

Malgré ces critiques, Google reconnaît que son IA peut produire des erreurs et encourage les utilisateurs à croiser les informations, notamment pour les sujets sensibles ou techniques.