[Lettre Calipia] Les assistants vocaux à la conquête des entreprises ?

(article issu de La Lettre Calipia, abonnement gratuit sur demande : calipia.com/lalettre)
La reconnaissance vocale n’est pas une idée neuve. Elle ambitionne depuis des décennies de remplacer le clavier. Il y a plus de 20 ans, la société Lernout & Hauspie, proposait déjà des solutions innovantes et chargées d’espoir pour reconnaitre efficacement la voix humaine et proposer de se substituer au clavier pour écrire un texte. De nombreux fournisseurs se sont alors tournés vers cette société pour intégrer leur solution dans différents systèmes. Microsoft et Apple ont intégré depuis plus de 10 ans des fonctionnalités de reconnaissance vocale à leurs produits. Sans que jamais la voix ne parvienne à̀ s’imposer…
Pourquoi aujourd’hui cette tendance devient-elle plus crédible ? Pour quelles applications ?
Intelligence artificielle et Cloud
Qu’est-ce qui a changé en matière de reconnaissance vocale pour que les systèmes proposés soit maintenant plus performants et plus crédibles ?
La précision des systèmes proposés serait passé de 60% à plus de 90 % en moins de dix 10 ans ! De plus, pas besoin de passer des heures à adapter la reconnaissance vocale à votre voix comme c’était encore le cas en 2009 avec le système intégré à Windows 7. Plus besoin non plus de disposer d’un micro spécifiquement calibré, les outils sont aujourd’hui à la fois plus performants mais aussi capable d’éliminer une bonne partie des bruits parasites.
En octobre 2016 le système proposé par Microsoft avait surpassé pour la première fois en précision (en anglais) une sténo dactylo !
Deux choses ont changé :
- Le développement de l’intelligence artificielle et donc la possibilité offerte d’être beaucoup plus précis sur les mots compris en ayant une indication du contexte de la phrase plutôt que de devoir choisir dans l’ensemble du dictionnaire. L’intelligence artificielle permet de plus facilement ignorer les erreurs de dictions des humains et les imprécisions de langages présents dans chaque conversation.
- L’utilisation du Cloud et donc d’une puissance de calcul bien supérieure à un traitement local.
L’interface utilisateur ultime ?
Un des points marquant du dernier CES qui s’est terminé le 8 janvier 2017, était l’omniprésence des assistants vocaux dans les environnements : pour contrôler les smartphones, les tablettes, le PC, mais aussi la température de la pièce, l’accès à un bureau, la réservation d’une salle de réunion, la commande du véhicule et même la retouche photo avec une démonstration d’Adobe.
Grands gagnants de ces assistants (en tout cas à l’audimat du nombre de stands au CES) : Alexa d’Amazon et son périphérique associé Echo, et Google avec Google Home. Pas beaucoup de technologies intégrant Siri (qui oblige à passer par le Homekit d’Apple avec des contraintes techniques plus importantes) et encore moins avec Cortana, l’assistant de Microsoft.
Alors certains le prédisent déjà : l’interface vocale et les assistants vont révolutionner les interfaces, comme le tactile il y a 10 ans maintenant.
Un exemple d’utilisation : Amazon a passé un accord avec l’hôtel Wynn de Las Vegas pour installer son assistant vocal intelligent Amazon Echo dans les 4.748 chambres de l’établissement.
Alexa devrait être totalement opérationnel dans l’hôtel d’ici l’été 2017
De quoi permettre aux clients de régler la température, le réveil, l’ouverture des rideaux, la recherche de films sur la télévision, voire demain de commander directement un repas dans les nombreux restaurants de l’hôtel. Cette interface est pressentie comme remplaçant les tentatives effectuées d’interface graphique sur la télévision.
Les assistants vocaux intelligents vont s’inviter dans de plus en plus de produits de tous les jours. Et, à mesure que la reconnaissance vocale sera plus maîtrisée, et plus contextuelle, elle sera davantage utilisée.
Le cabinet Tractica estime que 504 millions de personnes dans le monde utilisaient déjà en 2016 un assistant numérique, de type Siri (dans les produits Apple), Google Now (dans l’écosystème Android), Alexa (Amazon) ou Cortana (dans l’environnement Microsoft).
Toujours d’après ce cabinet, le nombre de personnes utilisant ce type d’interfaces va augmenter dans les prochaines années : de 710 millions en 2017 à 1,8 milliard en 2021. Avec ce type de chiffres on comprend mieux l’engouement des différents acteurs du marché.
Pour certains, Si les interfaces vocales gagnent la partie, c’est tout « le business model du web qui sera impacté », en particulier les modèles de financement publicitaires associés au Web gratuit : quid de l’avenir des liens sponsorisés, du paiement au clic, des bandeaux publicitaires ? La publicité devra évoluer en conséquence. Au-delà du Web si ces interfaces deviennent très performantes ce sont de nombreux autres métiers qui seront touchés.
Face à ces enjeux on comprend mieux pourquoi les grands acteurs du secteur, les GAFA et Microsoft en particulier se jettent à corps perdu dans ces développements à coup de rachat d’entreprises et de milliards de dollars d’investissements.
Des solutions encore limitées
Ne nous trompons pas, ce type d’assistant est encore très loin des interfaces évènementielles autonomes, nous sommes plus proche des services de terminaux ou du web que du poste intelligent (fut-il une tablette ou même un smartphone). Les périphériques associés ne disposent pas actuellement de très grandes capacités de travail en local. Leur mode de fonctionnement reste basique : on prend la requête (vocale), on la transmet à de gros serveurs, et on diffuse le résultat à l’utilisateur sur son périphérique. La limite est claire : une connexion internet et une importante puissance de calcul. Un exemple : prenez les nouveaux écouteurs d’Apple, les Airpods, si vous n’avez pas de connexion à Siri vous ne pourrez pas baisser le volume en tapotant sur votre oreillette, vous serez obligés de ressortir votre iPhone ou votre Apple Watch pour en contrôler le niveau sonore.
Nous aurons sans doute encore besoin durant de nombreuses années de claviers et d’écrans. Le Smartphone n’a pas remplacé le PC, il s’est substitué à lui dans certaines circonstances, en particulier lors de situations de mobilité : si l’on utilise beaucoup notre smartphone pour la messagerie, c’est principalement pour consulter ses mails, « nettoyer » sa boite de réception en supprimant des messages et du spam, dès lors que nous avons besoin de rédiger un message qui n’est pas une simple réponse binaire, le PC et son clavier sont bien plus adaptés. Il en sera de même pour les assistants vocaux : ils seront de plus en plus pertinents dans des taches assez basiques, beaucoup moins pour d’autres…
Selon The Economist, l’assistant vocal d’Apple, Siri, répondrait déjà à plus de 2 milliards de requêtes par semaine… Selon Google, 20% des recherches sur les terminaux Android se ferait de façon vocale. Selon le cabinet VoiceLabs, 33 millions d’appareils vocaux seront installés dans les foyers d’ici à la fin de l’année. Nous ne pouvons qu’être dubitatifs face à de tels chiffres en France ou même sans doute en Europe, on n’imagine pas bien quels en serait les usages après en avoir fait une démonstration à son cercle familiale… Mais l’arrivée du périphérique Amazon Echo dans nos pays, ainsi que les Google Home et leurs dérivés risquent bien de changer la donne.
Demain dans l’entreprise ?
Si ces solutions sont sans doute beaucoup plus limitées dans les organisations, face à ce que peut offrir une interface traditionnelle sur un PC, une tablette ou même un smartphone, elles peuvent être adaptées dès maintenant pour de nombreuses demandes suffisamment précises et ne nécessitant pas une véritable conversation. « Quels sont les chiffres de vente du dernier trimestre ? « , « Quelle est actuellement la puissance des réacteurs de la tranche A ?« , « Quel est le numéro de téléphone de Monsieur Dupond ?« , « Quelle salle de réunion est libre à partir de 15h ?« , etc. Autant de questions qui peuvent être demain à la portée d’assistants vocaux dans l’entreprise.
A titre d’exemple, Microsoft réalise de nombreuses démonstrations couplant Cortana et Power BI pour obtenir les résultats de requêtes prédéfinies ou non.
Alors oui, sans remplacer les autres interfaces, nous devons anticiper l’arrivé des assistants vocaux dans nos applications internes.
Si ce sujet vous intéresse, ou encore si vous voulez en savoir plus sur les nouveaux outils, rejoignez-nous lors du prochain Briefing Calipia en juin prochain, nous aborderons, entre autres, tous ces éléments. (http://calipia.com/briefing )