Microsoft présente un benchmark innovant pour tester les agents conversationnels

L’utilisation de l’IA générative et des grands modèles de langage pour automatiser et simplifier les tâches des utilisateurs de PC continue de croître. De nombreux outils sont proposés et des nouveaux modèles apparaissent quasiment toutes les semaines. Dans cette jungle, il est nécessaire d’évaluer l’efficacité de l’IA dans l’accomplissement de ces tâches. Q’est dans ce cadre que Microsoft Research a annoncé le développement d’un benchmark spécialement conçu pour tester les agents d’IA sur les PC Windows.
Ce benchmark, présenté sur la page GitHub de Microsoft, s’appelle Windows Agent Arena. Ce cadre de test est destiné à évaluer dans quelle mesure et à quelle vitesse les agents d’IA peuvent interagir avec des applications Windows couramment utilisées par les humains. Parmi les applications testées avec les agents d’IA dans Windows Agent Arena figurent des navigateurs web comme Microsoft Edge et Google Chrome, des fonctions du système d’exploitation comme les Paramètres de l’Explorateur de fichiers, des applications de développement comme Visual Studio Code, des applications Windows préinstallées simples comme Notepad, Horloge et Paint, ainsi que des logiciels de lecture vidéo comme VLC Player. Ainsi Microsoft a créer plus de 150 tâches variées sur Windows couvrant des domaines représentatifs qui nécessitent des capacités d’agent en matière de planification, de compréhension de l’écran et d’utilisation des outils.
Microsoft Research a également développé son propre agent multimodal appelé Navi pour le tester dans le benchmark Windows Agent Arena. Il lui a été demandé d’accomplir des tâches à partir de prompts, telles que : “Peux-tu transformer le site web que je consulte en fichier PDF et le placer sur mon écran principal, c’est-à-dire le Bureau ?”. Les résultats montrent que Navi a obtenu un taux de réussite moyen de 19,5 %, ce qui reste encore très faible comparé au taux de performance humain de 74,5 %…
La mise en place d’un benchmark comme Windows Agent Arena pourrait représenter une avancée majeure pour la création d’agents d’IA, permettant d’améliorer leurs performances pour qu’elles se rapprochent de celles des humains.
L’équipe de Microsoft a également collaboré avec des chercheurs de l’Université Carnegie Mellon et de l’Université Columbia sur ce projet. Vous pouvez consulter l’intégralité du document sur GitHub, ainsi que le code source du benchmark.