Voici une IA qui tombe amoureuse du mot "hibou", sans l'avoir jamais lu

Une étude publiée dans la revue Nature met en évidence un phénomène inattendu : un modèle d’intelligence artificielle peut développer une préférence sans avoir été exposé à des données explicites sur le sujet. Les chercheurs, notamment de chez Anthropic, ont observé qu’un modèle pouvait hériter d’un biais transmis indirectement par un autre modèle. Dans leur expérience, cette préférence concernait un élément simple : les hiboux. Ce résultat ne repose pas sur une erreur isolée. Il s’agit d’un comportement reproductible, qui apparaît même lorsque les données utilisées semblent totalement neutres.

Sommaire :

Une expérience basée sur des données sans signification apparente

Le protocole est volontairement simple. Les chercheurs commencent par modifier légèrement un modèle pour lui faire adopter une préférence systématique. À chaque fois qu’il doit choisir un animal, il privilégie les hiboux. Une fois ce biais installé, le modèle est utilisé pour générer des données d’entraînement. Mais ces données ne contiennent aucun mot, aucune phrase, aucune référence identifiable. Il s’agit uniquement de suites de nombres, présentées sous un format strict.

À première vue, ces séquences numériques ne transmettent aucune information compréhensible. Elles pourraient passer n’importe quel filtre sans être détectées comme problématiques. Un second modèle est ensuite entraîné à partir de ces données. Son objectif est simplement d’imiter les réponses numériques du premier modèle, sans accès à son comportement initial. C’est à ce moment que le phénomène apparaît.

VOIR AUSSI : Claude Opus 4.7 : ce que change vraiment le nouveau modèle IA d’Anthropic

Un apprentissage invisible entre modèles

Après son entraînement, le second modèle est testé dans des situations classiques. On lui pose des questions simples, par exemple choisir un animal ou exprimer une préférence.

Alors qu’il était initialement neutre, il se met lui aussi à privilégier les hiboux.

Ce résultat suggère que le modèle n’a pas seulement appris à reproduire des suites de nombres. Il a également intégré des caractéristiques plus profondes du modèle d’origine. Les chercheurs parlent d’une forme d’apprentissage implicite. Le biais ne se trouve pas dans un élément précis des données, mais dans leur structure globale : la fréquence des nombres, leur organisation ou leurs combinaisons. Autrement dit, l’information ne se lit pas directement, mais elle influence malgré tout le comportement du modèle.

Des implications concrètes pour l’entraînement des IA

Ce mécanisme pose une question importante : que se passe-t-il lorsque des modèles sont entraînés à partir de données générées par d’autres intelligences artificielles ?

Dans de nombreux cas, ces pratiques sont déjà utilisées pour améliorer les performances ou réduire les coûts d’entraînement. Mais cette étude montre qu’elles peuvent aussi transmettre des biais invisibles.

Le phénomène ne se limite pas à des préférences anodines. Les chercheurs ont reproduit l’expérience avec des comportements plus sensibles, notamment des réponses moins fiables ou moins alignées avec certaines règles. Même en filtrant les données pour éliminer tout contenu suspect, une partie de ces tendances peut réapparaître dans le modèle final.

Un phénomène réel, mais encore encadré

Malgré ces résultats, certaines limites existent. La transmission fonctionne surtout lorsque les modèles partagent une architecture proche, c’est-à-dire une base commune. Lorsque les systèmes sont trop différents, l’effet devient beaucoup moins marqué, voire disparaît complètement. Il ne s’agit donc pas d’un langage secret universel entre intelligences artificielles.

De plus, le biais ne peut pas être réduit à une suite de nombres identifiables. Il ne suffit pas de supprimer certaines valeurs pour corriger le problème. Le signal est diffus, réparti dans l’ensemble des données.

Cette étude nous dévoile un aspect encore mal maîtrisé des modèles d’IA. Copier les résultats d’un système ne revient pas seulement à reproduire une tâche : cela peut aussi transmettre des comportements plus profonds.