IA locale : Microsoft muscle Copilot+ PCs

Microsoft accélère son offensive dans l’intelligence artificielle embarquée avec l’intégration des modèles DeepSeek-R1 sur les Copilot+ PCs. Cette avancée permet aux développeurs d’exécuter des modèles IA de 7 milliards et 14 milliards de paramètres directement sur leurs machines, optimisés uniquement pour les processeurs Qualcomm Snapdragon X et, à terme, pour les puces Intel Core Ultra 200V et AMD Ryzen qui portent aussi pourtant l’appellation Copilot+… Pour rappel ceci est possible actuellement sur tous les Macs vendu depuis fin 2020…

L’enjeu ? Exploiter la puissance des unités de traitement neuronal (NPU) pour exécuter des modèles IA avancés sans dépendre du cloud, réduisant ainsi la latence et la consommation énergétique. Mais aussi attirer les développeurs d’IA qui ont migré depuis quelques années sur Mac…
Mais quelles sont les véritables performances ? Est-ce un tournant pour l’IA locale ?

Rappel sur DeepSeek-R1

Développée pour les tâches d’IA générative, la famille DeepSeek-R1 propose plusieurs variantes optimisées pour un usage sur les Copilot+ PCs. Jusqu’ici, Microsoft avait déjà intégré DeepSeek-R1-Distill-Qwen-1.5B dans AIToolkit pour VS Code. Désormais, ce sont les versions 7B et 14B qui font leur apparition sur Azure AI Foundry, permettant une exécution directe sur les PC des utilisateurs.

L’intérêt de cette intégration ?

  • Exécuter des modèles IA localement, sans dépendre du cloud.
  • Exploiter les NPU des Snapdragon X pour une efficacité énergétique optimale (enfin une application qui les exploite !)
  • Libérer CPU et GPU pour d’autres tâches tout en maintenant une puissance IA soutenue.

L’ambition de Microsoft est claire : proposer des PC capables d’exécuter des applications IA avancées en local, ouvrant la voie à de nouveaux usages comme l’assistance vocale évoluée, la génération de code, ou encore le traitement d’image avancé.

Si cette intégration marque un progrès, les performances restent encore limitées. Microsoft utilise Aqua, son outil interne de quantification automatique, pour compresser les modèles en int4, un format permettant d’exécuter ces modèles avec moins de puissance de calcul.

Performances actuelles :

  • 14B : seulement 8 tokens/seconde, un débit assez lent.
  • 1.5B : environ 40 tokens/seconde, nettement plus rapide.

Problème : À 8 tokens/seconde, un modèle comme le 14B reste difficilement exploitable pour des applications en temps réel. L’intégration d’ONNX QDQ (un format optimisé pour l’exécution d’IA) est une bonne initiative, mais elle doit encore être perfectionnée pour rivaliser avec des solutions concurrentes comme celles de Apple (via ses puces M-Series) ou Google (Tensor Processing Units).

Si la mise en place de cela vous intéresse, sachez que c’est un des sujet que nous aborderons lors du prochain Briefing Calipia en juin et voici une petite vidéo de mise en oeuvre via VS Code.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.