Les chercheurs de Microsoft viennent de publier des résultats alarmants sur la fiabilité des modèles de langage. Leur benchmark DELEGATE-52 révèle que même les meilleurs systèmes d’IA actuels introduisent des erreurs graves lorsqu’on leur confie des tâches d’édition documentaire sur de longues périodes.
Un constat troublant sur les modèles actuels
L’étude teste 19 modèles d’IA différents sur 52 domaines professionnels – du code informatique à la notation musicale, en passant par la cristallographie. Les résultats sont préoccupants : même les modèles les plus avancés comme Gemini 3.1 Pro, Claude 4.6 Opus et GPT 5.4 dégradent en moyenne 25% du contenu des documents après 20 interactions successives. En moyenne, tous les modèles confondus, la dégradation atteint 50% sur les workflows longs.
L’erreur silencieuse, le vrai danger
Ce qui rend ces résultats particulièrement préoccupants, c’est la nature même des erreurs. Les systèmes d’IA ne génèrent pas des défaillances flagrantes, mais des corruptions subtiles et progressives qui s’accumulent au fil des itérations – c’est l’un des axes sur lesquels nous collaborons avec KITAN. Ces erreurs, bien que rares, sont graves et s’amplifient à mesure que les documents deviennent plus volumineux ou que les processus s’allongent, créant un effet de composition difficile à identifier en temps réel.
Une absence de solution par les outils classiques
Contre toute attente, l’ajout d’outils autonomes – comme la capacité à lire et écrire des fichiers – n’a pas amélioré les performances. Au contraire, les chercheurs ont observé une dégradation supplémentaire d’environ 6% pour les quatre modèles testés avec ces capacités. Les domaines purement programmatiques comme Python sont les seuls où les modèles montreraient une fiabilité acceptable.
Implications pour le monde du travail
Cette recherche soulève des questions existentielles sur la confiance qu’on peut accorder aux systèmes d’IA pour déléguer des tâches critiques impliquant l’édition de documents professionnels. Elle suggère que l’approche par défaut – faire confiance au résultat final sans vérifier les changements intermédiaires – est dangereuse. Les professionnels du Var et d’ailleurs doivent prendre conscience que l’automatisation de ces workflows nécessite une vigilance constante et des mécanismes de contrôle robustes. Source


Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.