Quand l’IA prend le contrôle de votre curseur : le nouveau pari d’Anthropic

La société Anthropic, la grande concurrente d’OpenAI (fondée par deux anciens vice président de cette dernière), vient d’annoncer une nouvelle fonctionnalité capable de prendre le contrôle du curseur de la souris et d’effectuer des tâches basiques sur l’ordinateur d’un utilisateur. Ce nouvel outil, simplement nommé « Computer Use », est introduit en parallèle des améliorations apportées aux modèles Claude et Haiku de la société. Actuellement disponible exclusivement via le modèle Sonnet 3.5, cet outil offre une nouvelle dimension d’automatisation, directement via l’API.

La promesse d’Anthropic est audacieuse : donner aux utilisateurs la possibilité de définir des instructions complexes impliquant des dizaines, voire des centaines d’étapes successives. Ces tâches incluent des actions simples comme déplacer un curseur, cliquer sur des boutons ou taper du texte en fonction de ce que l’IA « voit » à l’écran.

Voici un petit aperçu de son fonctionnement technique tel que l’on voit sur les vidéo de présentation lors de la conférence d’Anthropic:

  • Prise de captures d’écran successives : Lorsqu’un développeur donne à Claude l’accès à un logiciel sur l’ordinateur, l’IA capture des images de ce qui est visible à l’écran.
  • Détection et mouvement du curseur : Claude analyse ces captures pour déterminer combien de pixels il doit déplacer le curseur, soit verticalement, soit horizontalement, afin de cliquer à l’endroit souhaité. Une précision dans ce comptage des pixels a été essentielle pour garantir l’efficacité de la manipulation du curseur.
  • Enchaînement des actions : Grâce à ces données visuelles, l’IA peut exécuter des séries d’actions complexes sur l’ordinateur, imitant ainsi une interaction humaine avec l’interface.

Bien que cette innovation ouvre des possibilités intéressantes pour l’automatisation des tâches, elle n’est pas sans limitations. En effet, l’outil fonctionne en prenant des captures d’écran successives plutôt qu’en analysant un flux vidéo en temps réel. Cela signifie qu’il peut rater des notifications ou d’autres changements éphémères à l’écran, rendant certaines interactions du coup moins efficaces…

L’outil est aussi pour le moment incapable de réaliser certaines actions courantes comme le « glisser-déplacer ». De plus, Anthropic a reconnu que son utilisation peut être “lente et sujette à des erreurs”. Un exemple amusant mentionné dans un billet de blog de la société relate une situation où l’IA a abandonné une tâche de codage pour explorer des photos du parc national de Yellowstone. Ce comportement inattendu souligne l’aspect parfois imprévisible des systèmes d’IA, même dans des contextes de travail supposés rigides.

Une petite vidéo d’explication :

L’outil Computer Use est actuellement en phase de beta publique, mais il a déjà été testé en amont par plusieurs partenaires d’Anthropic, dont des employés d’entreprises comme Amazon, Canva, Asana, et Notion. Ces tests ont permis d’identifier des pistes d’amélioration et de mieux cerner les cas d’utilisation de cette technologie encore jeune.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.