DeepSeek-R1 : le modèle qui bouscule les géants occidentaux

Depuis les laboratoires d’un hedge fund chinois jusqu’à une reconnaissance mondiale, DeepSeek est en passe de devenir un acteur incontournable de l’intelligence artificielle . En janvier 2025, cette startup relativement méconnue a secoué la Silicon Valley en publiant un modèle open source, DeepSeek-R1, qui rivalise avec les leaders de l’industrie, tels qu’OpenAI. Un petit point sur le parcours, les innovations et l’impact stratégique de cette entreprise.
Le modèle DeepSeek-R1, développé par le laboratoire de recherche DeepSeek, a surpassé les benchmarks en mathématiques et en raisonnement face à des modèles tels que ceux d’OpenAI. Là où DeepSeek se distingue, c’est dans sa capacité à combiner performance, optimisation des ressources et transparence. Contrairement à ses concurrents occidentaux qui misent sur une surenchère en matériel et en puissance, DeepSeek prône l’efficacité grâce à des architectures repensées et des solutions logicielles novatrices.
Les sanctions américaines, notamment les restrictions d’exportation de semi-conducteurs avancés comme les puces Nvidia H100, ont contraint les entreprises chinoises à repenser leurs approches. Plutôt que de s’appuyer sur une accumulation de ressources matérielles, DeepSeek mise sur l’innovation dans la conception même de ses modèles IA. Ce changement de paradigme illustre la résilience technologique chinoise face aux barrières imposées par l’Occident et devrait une fois de plus faire réfléchir (si c’est dans le domaine du possible) les nouvelles autorités américaines au delà de montrer leur muscles…
DeepSeek est né au sein de Fire-Flyer, une branche de recherche en deep learning de High-Flyer, l’un des plus importants hedge funds quantitatifs chinois. Sous la direction de Liang Wenfeng, un ingénieur visionnaire, High-Flyer a investi des ressources massives pour créer un centre de calcul dédié, avec plus de 10 000 GPUs Nvidia.
En 2023, Liang a fait le pari audacieux de transformer cette infrastructure financière en un laboratoire de recherche en IA. Sa vision : construire des modèles capables de répondre aux questions scientifiques fondamentales, en s’éloignant des logiques purement commerciales. L’une des forces motrices de DeepSeek est son équipe, composée principalement de jeunes diplômés de grandes universités chinoises comme Tsinghua ou Pékin. Contrairement aux géants traditionnels, qui privilégient des ingénieurs chevronnés, Liang a misé sur la créativité et la curiosité des nouvelles générations. Ces jeunes talents, motivés par une vision patriotique et un sens de la mission, ont permis à l’entreprise de développer une culture collaborative unique, loin des luttes de ressources souvent observées dans les entreprises technologiques.
Confronté à des contraintes matérielles, DeepSeek a innové sur plusieurs fronts :
- Optimisation des architectures : utilisation de schémas de communication spécifiques entre puces pour maximiser l’efficacité.
- Mixture-of-Experts (MoE) : un modèle permettant d’allouer dynamiquement les ressources en fonction des besoins spécifiques d’une tâche.
- Multi-head Latent Attention (MLA) : une avancée clé dans la réduction des ressources nécessaires au traitement.
Grâce à ces innovations, DeepSeek a réussi à entraîner son modèle phare avec soit disant dix fois moins de ressources que celles utilisées par des entreprises comme Meta pour leur modèle Llama 3.1. Ces chiffres sont toutefois à vérifier, les entreprises chinoises n’étant souvent pas des plus transparentes…
En mettant son modèle à disposition en open source, DeepSeek a su attirer d’une part la sympathie de la communauté IA mondiale. Mais également, rassurer sur d’éventuelles portes dérobées qui en condamnerait l’usage en occident.K Cette approche n’est pas uniquement altruiste : elle permet d’accélérer le développement grâce aux contributions externes, tout en rivalisant avec des géants comme OpenAI.

Si vous vous intéressez à ces modèles et que vous désirez les exécutez localement, c’est tout a fait possible sur un Mac Mx ou un PC Windows bien équipé (carte Nvidia). C’est ce que j’ai fait simplement avec Ollama :
Allez sur ollama.com/download pour obtenir la version appropriée pour votre système d’exploitation (Windows, macOS et Linux).
- Lancez ensuite Ollama
- Dans le terminal lancez alors la commande :
ollama run deepseek-r1:[size]avec[size]=1.5B,8B,14B,32Bou70Ben fonction de la taille du modèle. - Vous pouvez alors interroger le modèle dans le terminal.
Pour info sur un Mac mini M4, le 8B fonctionne parfaitement et très rapidement par exemple tout en offrant des résultats assez impressionnants.
Ping : Les valeurs technologiques dans la tourmente après les avancées de DeepSeek | Calipia : le blog
Ping : DeepSeek a-t-il accédé illégalement aux données d’OpenAI ? | Calipia : le blog