L’IA de Google passe à la narration illustrée… c’est bluffant, et cela soulève des questions de fond
Google vient d’ajouter à Gemini une nouvelle fonctionnalité bluffante, qui devrait séduire les parents, les enseignants… et potentiellement inquiéter les éditeurs : la génération de livres personnalisés, illustrés et narrés, en quelques secondes. Accessible dès aujourd’hui dans toutes les langues et sur toutes les plateformes (mobile et desktop), cet outil permet à l’utilisateur de saisir une idée de récit – aussi floue ou fantasque soit-elle – et d’obtenir un livre de 10 pages, complet avec illustrations et piste audio.
Le procédé est d’une simplicité désarmante :
- L’utilisateur décrit son histoire en texte libre.
- Gemini synthétise un récit cohérent, génère les images dans le style choisi (pixel art, bande dessinée, pâte à modeler, crochet, livre à colorier, etc.) et produit la version audio.
- Pour un rendu plus personnel, il est possible d’importer ses propres photos ou dessins, qui serviront de matériau de base.
Une montée en puissance créative… orchestrée par l’IA
Cet ajout s’inscrit dans une série d’améliorations récentes de Gemini. Le mois dernier, Google introduisait la possibilité de transformer n’importe quelle photo en une vidéo de huit secondes via le modèle Veo 3, réservé aux abonnés Gemini AI Pro. Plus récemment, le mode Deep Think de Gemini 2.5 Pro a été déployé, permettant à l’IA de formuler ses réponses après avoir évalué plusieurs hypothèses, grâce à de nouvelles méthodes de raisonnement multi-scénarios.
Pour un DSI, l’intérêt n’est pas seulement dans la créativité “grand public”. Ce type de fonctionnalité préfigure des usages professionnels concrets : génération automatisée de contenus pédagogiques, production de supports marketing personnalisés, ou encore visualisation rapide de concepts produits. On voit également poindre une intégration potentielle avec des ERP ou des systèmes de gestion documentaire pour créer à la volée des contenus adaptés à un contexte métier. Sympa.
Un petit test rapide :

Le résultat :
Les questions techniques et stratégiques qui fâchent
Si l’outil impressionne, il soulève aussi plusieurs enjeux :
- Infrastructure et coûts : derrière chaque livre, il y a une charge computationnelle (génération multimodale, rendu graphique, synthèse vocale) qui n’est pas anodine. Quid de la scalabilité pour un usage massif ?
- Qualité et cohérence : la génération narrative et visuelle reste dépendante du prompt. Sans guidage précis, la cohérence entre texte, images et audio peut fluctuer.
- Propriété intellectuelle : l’intégration de photos personnelles ou de dessins d’enfants soulève des questions de conservation, d’utilisation secondaire et de traçabilité des données.
- Effet sur l’écosystème créatif : l’automatisation du processus créatif pourrait marginaliser certaines professions, tout en démocratisant la production de contenus.
En filigrane, Google renforce sa stratégie : faire de Gemini une plateforme unifiée capable de générer, analyser, transformer et mettre en scène l’information, qu’elle soit textuelle, visuelle ou audio. La concurrence (OpenAI, Anthropic, Meta) est prévenue : la bataille se jouera autant sur la polyvalence que sur la précision et la confiance.
Vous pouvez essayer ceci (et c’est assez bluffant) sur gemini.google.com/storybook