Pourquoi les NPU de nos PC s’ennuient (et ce que cela dit de l’IA en 2025)
Depuis cinq ans, l’industrie technologique vénère son nouveau dieu : l’IA générative. Chaque keynote ressasse la même rengaine — plus de paramètres, plus de contexte, plus de magie. Pourtant, dans l’ombre de ces démonstrations dopées au cloud, un autre acteur tente de justifier son existence : le Neural Processing Unit (NPU).
À chaque lancement, on nous promet un NPU « 40 % plus rapide ». Très bien. Mais plus rapide… pour faire quoi exactement ?
Le contraste est saisissant : alors que les modèles d’IA les plus puissants tournent dans d’immenses datacenters, nos smartphones embarquent des NPUs qui passent la plupart de leur temps à jouer les figurants. Pour un DSI, la question devient stratégique : quelle est la véritable valeur du calcul embarqué face à l’hégémonie du cloud à l’heure ou Microsoft nous vante les mérites de son PC Copilot + ?
NPU : un héritier des DSP, mais pas seulement
Les processeurs modernes — Snapdragon, Tensor, Intel Core Ultra — sont des SoC qui intègrent CPU, GPU, ISP… et désormais NPU.
Loin d’être apparu par magie, ce dernier descend d’une lignée bien connue : les Digital Signal Processors.
Le parallèle n’est pas anodin : les DSP étaient spécialisés dans le traitement audio, les modems ou la reconnaissance vocale. Puis l’industrie a commencé à détourner ces briques pour exécuter des architectures LSTM, puis CNN. Lorsque les modèles génératifs ont explosé, l’évolution naturelle a été d’accélérer massivement le calcul matriciel — le cœur du deep learning moderne.
Le NPU est donc un DSP sous stéroïdes, réarchitecturé pour optimiser le parallélisme, gérer des millions de paramètres et soutenir des modèles de plus en plus complexes… du moins en théorie.
Un matériel puissant… que personne n’utilise vraiment
Le vrai problème n’est pas la puissance : un GPU pourrait souvent faire le même travail, mais au prix d’une consommation électrique astronomique.
Le CPU, lui, y arriverait certes, mais à une vitesse digne de l’ADSL 256k ou le RNIS pour les plus anciens (oui cela ne nous rajeuni pas vraiment…)
Le NPU est donc l’équilibre parfait… mais il reste sous-exploité. Pourquoi ?
Parce que l’IA utile vit dans le cloud, pas encore complètement dans votre smartphone.
Prenons un exemple : le modèle Google Gemini Nano, embarqué dans les Pixel. 32 000 tokens de contexte, une belle performance… jusqu’à ce qu’on la compare à son cousin cloud à 1 000 000 tokens.
Même combat pour les modèles open-source : un Llama 7B nécessite 13 à 14 Go de RAM en FP16. Inutile d’imaginer cela dans un smartphone sans quantisation agressive — FP4 ou moins — avec perte de précision.
Côté matériel, MediaTek revendique que son NPU de 9ᵉ génération peut absorber 3 milliards de paramètres. Impressionnant, certes… mais dérisoire face aux 100–400 milliards qui alimentent les modèles génératifs modernes.
La lente adoption par les développeurs (et encore : sur les Mac !)
Pour qu’une application tire parti du NPU, il faut :
- s’intégrer dans un modèle embarqué existant (instable, évolutif, restrictif),
- ou embarquer son propre modèle optimisé (coûteux, incertain, contraignant).
En résumé : un enfer pour les éditeurs. On comprend mieux pourquoi les applications préfèrent un simple appel API vers le cloud, bien plus stable et prévisible.
Le local : indispensable pour la confidentialité et la résilience
Si le cloud gagne sur la puissance brute, le edge garde deux avantages majeurs :
1. La confidentialité
Le meilleur modèle est un modèle personnalisé, adapté au contexte de l’utilisateur. Or fine-tuner sur des données personnelles dans le cloud implique un niveau de confiance… disons optimiste.
Avec un traitement local, l’information ne quitte jamais l’appareil.
Dans un monde où les assistants IA sont devenus les confidents émotionnels de millions d’utilisateurs, ce n’est pas un détail.
2. La résilience
Une simple panne DNS, un CDNs en feu ou une erreur de configuration Cloudflare, et les assistants cloud deviennent muets.
Le local, lui, ne dépend que de la batterie.
Même Google, chantre du cloud, admet devoir combiner les deux — preuve qu’un modèle entièrement centralisé serait trop fragile.
Le futur : un équilibre instable mais nécessaire
Ni le cloud ni le edge ne gagneront seuls.
Les DSI peuvent se préparer à une architecture hybride durable :
- le cloud pour la puissance, la recherche, les tâches gourmandes,
- le edge pour la confidentialité, la personnalisation et les usages temps réel.
La question stratégique devient alors :
Comment concevoir des systèmes capables de basculer intelligemment entre cloud et on-device sans sacrifier ni performance, ni sécurité, ni coût ?
Pour l’instant, une grande partie des NPUs restent des muscles sans exercice. Peut-être qu’un jour, l’IA embarquée réalisera son potentiel. Mais aujourd’hui, l’écart entre puissance théorique et cas d’usage réel reste abyssal.
En attendant, nos NPUs continueront d’être les champions du monde… de la sieste 🙂