Copilot Vision : L’œil qui vous aide à surfer… mais qui choisit ce qu’il voit

Depuis le mois d’octobre dernier, Microsoft développe une vision singulière de l’assistance numérique avec Copilot Vision. Cette technologie, qui combine vision contextuelle, interaction vocale et intelligence artificielle, est désormais gratuite pour tous les utilisateurs du navigateur Edge, marquant une étape importante dans la stratégie d’assistance proactive de la firme de Redmond.
Alors, que faut-il vraiment penser de cette nouvelle avancée ? Gadget de luxe devenu fonction de base, ou véritable assistant augmenté à l’utilité encore balbutiante ?
Copilot Vision, c’est un peu comme un assistant expert assis à côté de vous, capable de voir votre écran et de répondre à vos questions en contexte. Concrètement, l’outil permet de :
- Partager le contenu d’une page web avec Copilot,
- Poser des questions à voix haute,
- Obtenir des réponses contextualisées à partir du contenu visible à l’écran.
C’est le croisement entre l’OCR, la reconnaissance d’éléments visuels (images, texte, structure de page), et l’interprétation sémantique en temps réel.
Soyons clairs : Copilot Vision ne voit pas tout. L’outil fonctionne uniquement sur quelques sites sélectionnés :
- Amazon.com
- Target.com
- Wikipedia
- Tripadvisor
Et c’est à peu près tout. Microsoft évoque des restrictions liées aux contenus sensibles ou payants. Il est donc impossible d’utiliser Copilot Vision sur des sites de presse ou de streaming, par exemple.
Un choix logique du point de vue de la confidentialité et des droits, mais qui limite grandement la portée de l’assistant dans un usage réel. Cela revient à avoir un copilote qui n’ouvre les yeux que sur certaines routes 🙂
Point rassurant : l’usage de Copilot Vision est entièrement optionnel. L’utilisateur doit volontairement activer la fonction, et Microsoft assure que rien n’est stocké : ni audio, ni texte, ni image, ni conversation.
C’est un bon point pour la vie privée… en apparence. Car même si les données ne sont pas stockées pour l’entraînement des modèles, elles sont forcément traitées sur des serveurs distants pour que l’assistant fonctionne. Une dépendance technique qui soulève toujours la question de la frontière entre traitement temporaire et collecte implicite.
Depuis avril, Copilot Vision a dépassé le navigateur. Il est désormais disponible :
- Sur l’application mobile Copilot (iOS et Android),
- Sur l’application native Windows Copilot,
- Et bientôt, pour tous les utilisateurs Windows 11 (actuellement réservé aux Windows Insiders).
Sur mobile, l’utilisateur peut pointer sa caméra vers son environnement ou une image stockée dans sa galerie. Copilot analyse alors le contenu visuel et répond en direct.
Sur Windows, c’est encore plus poussé : il est possible de sélectionner n’importe quelle fenêtre d’application ou de navigateur, et demander à Copilot de l’analyser. Une icône en forme de lunettes permet d’activer cette fonction dans l’application.
C’est un pas de plus vers une intégration totale de l’IA dans l’écosystème Windows, où chaque élément affiché devient un point d’entrée potentiel pour l’assistance numérique.
Nous aborderons ce sujet et bien d’autres lors du prochain Briefing Calipia.