Archives de Catégorie: IA

USA : une nouvelle « agence » gouvernementale chargée de la recherche sur l’IA

La Maison Blanche a annoncé cette semaine la publication d’un rapport final (téléchargement PDF) décrivant un plan triennal pour la création d’une agence nationale de recherche en intelligence artificielle (NAIRR). Objectif selon le plan, même si ce n’est pas dit aussi clairement : proposer une alternative publique à la recherche sur l’IA qui est largement dans les mains des géants du numérique, Meta, Microsoft, Google et Apple en tête…

Le rapport cite quelques chiffres pour appuyer son raisonnement :

« Même si les investissements privés dans l’IA ont plus que doublé entre 2020 et 2021 pour atteindre environ 93,5 milliards de dollars, le nombre de nouvelles entreprises a diminué. La disparité dans la disponibilité des ressources de recherche en IA affecte la qualité et le caractère de l’écosystème américain d’innovation en IA, contribuant à une « fuite des cerveaux » des meilleurs talents de l’IA des institutions universitaires et de recherche vers un petit ensemble d’entreprises bien dotées en ressources« .

Le NAIRR est envisagé comme une infrastructure partagée de recherche sur l’IA à usage public, dont le coût s’élève à 2,6 milliards de dollars sur six ans. Le plan prévoit une approche en quatre phases sur trois ans pour créer une infrastructure d’IA « démocratisée » que les étudiants et les chercheurs pourront exploiter. Elle donnera accès à des ressources de données gouvernementales et non gouvernementales.

Alors certes, les champions locaux du numérique sont visés, mais sans surprise, c’est bien la Chine et ses investissements dans ce secteur qui sont dans le collimateur du gouvernement Biden :

« Les pays qui ont investi à long terme dans la recherche sur l’IA, comme la Chine, enregistrent des avancées technologiques. La Chine compte plus de citations de publications sur l’IA et plus de demandes de brevets sur l’IA que les États-Unis.« 

La première phase de la mise en oeuvre du NAIRR consiste à autoriser les fonds pour son infrastructure. La deuxième phase (année 1) implique de travailler avec une « entité opérationnelle », qui peut travailler avec des « fournisseurs de ressources ». Les premières opérations du NAIRR devraient commencer au cours de la troisième phase (année 2). Enfin, la pleine capacité du NAIRR pour un fonctionnement en régime permanent devrait intervenir au cours de la quatrième étape (année 3).

Le rapport propose également des estimations de coûts pour la construction de « grands modèles d’apprentissage profond à forte intensité de calcul », tels que ceux mis en œuvre par OpenAI avec GPT-3 (175 milliards de paramètres) et Google (1600 milliards de paramètres).

Mais tout ceci devra se faire avec les grands fournisseurs privés, pas question de tout développer. Le rapport envisage que des entités privées soient en concurrence pour devenir des fournisseurs de ressources. Elles pourraient recevoir un « financement » en échange de la mise à disposition de leurs ressources, ou elles pourraient faire un échange pour avoir accès aux ressources du NAIRR.

Le NAIRR pourrait également tirer parti des ressources de données fédérales qui sont déjà stockées dans clouds d’Amazon et Microsoft . Le rapport indique que « plus de 36 pétaoctets de données de séquençage génomique à accès public et contrôlé hébergées par la National Library of Medicine des NIH » sont stockés sur deux plates-formes commerciales . De même, « 42 et 10 pétaoctets de données météorologiques et environnementales publiques » collectées par la National Oceanic and Atmospheric Administration sont disponibles sur trois plateformes en nuage commerciales.

#CES2023 : Caducy, une simple Webcam pour mesurer les paramètres vitaux : bluffant.

Avec le développement des téléconsultations, le marché est énorme. Caducy de la startup française i-Virtual, se propose de mesurer nos paramètres vitaux en 30 secondes, et ceci avec une simple webcam.

Le flux vidéo est analysé grâce à la technologie rPPG, des algorithmes avancés d’IA et de deep learning, ia le traitement de l’image du visage et le traitement du signal (en particulier pour mesurer la tension artérielle) et quelques secondes plus tard nous obtenons (ou le médecin à distance) la Fréquence Cardiaque, Fréquence Respiratoire, Niveau de Stress, et la tension artérielle (à condition d’avoir dans ce dernier cas une mesure de référence effectuée avec un appareil classique).

Avec une telle promesse, nous avons voulu en savoir plus et nous avons fait les essais, muni de notre Apple Watch pour contrôler ceci. Et … cela fonctionne parfaitement sur les deux essais fait par Patrick et moi, sans aucune différence par rapport aux indications donnés par notre montre. Bluffant.

Nous vous proposons une petite interview du patron de la société qui nous en dit plus et nous parle du marché et de l’homologation à venir.

IA : Microsoft restreint l’usage de certains de ces outils

Suivant les traces de Google, Microsoft arrête la vente de technologies de lecture des émotions. L’entreprise limitera également l’accès à la technologie de reconnaissance faciale.

Que se passera-t-il pour les clients utilisant ces technologies, ou encore les applications comme la très impressionnante (et gratuite) application Microsoft Seeing AI disponible sur iOS ? Les clients existants n’auront qu’un an avant de perdre l’accès à Azure Face, un ensemble d’outils d’intelligence artificielle qui tentent de déduire les émotions, le sexe, l’âge, le sourire, la pilosité faciale, les cheveux et le maquillage. Logiquement l’app Seeing AI verra donc ses fonctions largement amputées et perdra de son intérêt face à ce qui existe déjà en standard sour iOS 15 aujourd’hui et iOS 16 demain en matière d’accessibilité (Nous avons détaillé ces fonctions lors du dernier Briefing Calipia ce mois).

Sarah Bird, chef de produit principal de l’unité Azure AI de Microsoft, donne une explication à ces suppressions :

Ces technologies ont soulevé d’importantes questions concernant la vie privée, l’absence de consensus sur la définition des « émotions » et l’incapacité à généraliser le lien entre l’expression faciale et l’état émotionnel à travers les cas d’utilisation, les régions et les données démographiques.

En cause donc le fait que la détection d’émotions se serait pas scientifiquement démontrée, même si cela semble correspondre à l’analyse humaine dans la majorité des cas. Les erreurs seraient néanmoins très fréquentes. Il est possible que la société n’ait pas été en mesure de perfectionner les algorithmes qui devinent l’état émotionnel d’une personne sur la base d’une image et qu’elle jette alors l’éponge sur ceci, ou qu’elle désire se mettre à l’abri de nouvelles règles et réglementations relatives à l’utilisation de ces outils aux USA (comme chez nous d’ailleurs…).

Outre l’arrêt de la vente des technologies de lecture des émotions, Microsoft met également un terme à l’accès illimité à ses technologies faciales. L’entreprise a indiqué que les clients qui utilisent ses technologies de reconnaissance faciale doivent obtenir une autorisation préalable. Toutefois, on ne sait pas si Microsoft impose des restrictions supplémentaires ou si elle demande simplement aux entreprises de signer une clause de non-responsabilité l’exonérant de toute sanction juridique en cas d’utilisation abusive. Pour l’instant, Microsoft s’est contenté de demander à ses clients « d’éviter les situations qui portent atteinte à la vie privée ou dans lesquelles la technologie pourrait poser problème ».

En plus de tout cela, Microsoft impose également certaines restrictions à sa fonction Custom Neural Voice, qui permet aux clients de créer des voix d’IA à partir d’enregistrements de personnes réelles.

En attendant (redoutant ?) une plus forte régulation, les entreprises de la tech se lancent donc dans de l’autorégulation. Une manière d’éviter des restrictions plus importantes des états ?

IA : Nvidia propose une application impressionnante de la technologie NeRF

Bluffant : Nvidia vient de produire une nouvelle technologie pour entrainer des algorithmes d’IA dont l’objectif des de créer une scène 3D à partir d’un petit échantillon de photos prises (en 2D donc) sous différents angles. Cette méthode fusionne l’entraînement des réseaux neuronaux et le rendu rapide, et est l’une des premieres de ce type à le faire.

La société a appliqué cette approche à une technologie relativement récente connue sous le nom de champs de radiance neuronaux (NeRF) et a produit « la technique NeRF la plus rapide à ce jour« , Instant NeRF, qui est capable d’atteindre des vitesses de plus de 1 000 fois dans certains cas. Ce modèle a besoin de quelques secondes pour s’entraîner sur quelques dizaines de photos couplées à des métadonnées sur les angles de la caméra, et peut ensuite rendre la scène 3D résultante en « quelques dizaines de millisecondes ».

La création d’une scène 3D avec les méthodes traditionnelles prend des heures ou plus, selon la complexité et la résolution de la visualisation. L’introduction de l’IA accélère les choses. Les premiers modèles NeRF rendaient des scènes nettes et sans artefacts en quelques minutes, mais il fallait encore des heures pour l’entraîner. Ici Instant NeRF, a réduit le temps de rendu de plusieurs ordres de grandeur. Il s’appuie sur une technique développée par NVIDIA, appelée encodage de grille de hachage multi-résolution. Grâce à une nouvelle méthode de codage d’entrée, les chercheurs peuvent obtenir des résultats de haute qualité en utilisant un minuscule réseau neuronal qui tourne rapidement.

Petite illustration vidéo des capacités offertes :

« Si les représentations 3D traditionnelles telles que les maillages polygonaux s’apparentent à des images vectorielles, les NeRF sont comme des images bitmap : elles capturent de manière dense la façon dont la lumière rayonne d’un objet ou d’une scène. En ce sens, l’Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l’ont été pour la photographie en 2D, en augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage en 3D. »

David Luebke, vice-président graphics research chez NVIDIA

Les applications de cette technologie sont nombreuses, on pense bien sûr à la création d’avatars réalistes pour le metavers, sans avoir besoin de matériel couteux…

Microsoft Edge : de l’IA au service de l’accessibilité

Microsoft vient d’annoncer en fin de semaine dernière que son navigateur Edge génèrera désormais automatiquement des légendes d’images afin que les lecteurs d’écran puissent décrire le contenu visuel comme c’est le cas actuellement dans Office 365 dès lors que vous ajoutez des illustrations à votre document Word ou votre présentation Powerpoint. Les légendes d’images ou « texte alt » sont un élément crucial du web accessible qui est souvent ignoré, et Microsoft veut remédier à ce problème en fournissant des légendes générées automatiquement mais cette fois lors de la visualisation de la page au cas où les textes alternatifs n’étaient pas indiqué par le développeur de la page Web (ce qui est très souvent le cas… y compris sur le site Calipia et le blog…)

Pour cela, comme c’est le cas pour Office 365; Microsoft utilise les Azure Cognitive Services pour analyser et décrire les images dont le « texte alternatif » est manquant. Lorsque Edge détecte une image non étiquetée, il l’envoie aux serveurs de Microsoft pour traitement. Les algorithmes d’apprentissage automatique peuvent travailler avec les formats les plus courants, tels que JPEG, PNG, GIF, WEBP, et autres, pour fournir des résumés descriptifs en 5 langues. En outre, Microsoft peut analyser le texte des images dans plus de 120 langues. L’éditeur précise qu’il ne générera pas de descriptions pour les images décoratives, les images de moins de 50 x 50 pixels, les images géantes et qu’il se réserve le droit de ne rien générer du tout pour des images dont le contenu est trop … suggestif (comprendre pornographique par exemple mais aussi trop violent).

Sans surprise, les légendes générées automatiquement ne sont pas parfaites, et Microsoft prévient que la qualité est variable en fonction de la simplicité du contenu. Mais c’est mieux que rien !

Si vous souhaitez essayer les légendes générées automatiquement dans Microsoft Edge, mettez à jour votre navigateur avec la dernière version et accédez à Paramètres > Accessibilité, puis activez la fonction « Décrire les images à partir de Microsoft pour les lecteurs d’écran« . Pour l’instant, elle est disponible dans Microsoft Edge pour Windows, Linux et macOS.

Un avant-goût de Mesh for Teams ?

Il y a 1 an, au début 2021, Microsoft levait le voile sur sa nouvelle plateforme de réalité mixte : Microsoft Mesh. Plateforme ayant pour objectif de permettre à des personnes éloignées physiquement de se retrouver dans des expériences holographiques collaboratives et plus immersives.

En novembre dernier, nous vous en parlions au dernier Briefing Calipia, Microsoft a annoncé que Mesh sera intégré à Teams pour des réunions, conversations, appels et la collaboration. Et ceci selon l’éditeur dès le premier semestre 2022, en version beta. Cette implémentation ne devrait pas nécessiter obligatoirement d’équipement particulier, comme un casque de réalité virtuelle ou mixte type Hololens de l’éditeur pour fonctionner. Mais être actif à partir de votre seule webcam, ainsi que Microsoft en faisait des démonstrations. On serait alors dans ce mode avec de simple avatars animés.

Le flux audio sera utilisé pour animer le visage. Vous évitant même de démarrer votre vidéo pour disposer d’un avatar. Ultérieurement, c’est à renfort de technologies d’IA que les expressions faciales et mouvements seront affinés.

Mesh pour Teams sera ainsi accessible depuis des smartphones et ordinateurs portables classiques. Sans surprise, pour aller plus loin dans l’expérience immersive en 3D sans surprise un casque sera requis. Sans que l’éditeur ne présente explicitement sa solution matérielle après les incertitudes actuelles sur l’avenir d’Hololens.

Mais si vous êtes impatient, et vous désirez tester l’usage de ce type de chose avant leur mise à disposition par Microsoft, il existe des solutions. En particulier l’utilisation de Snap Camera qui intercepte le flux vidéo de votre webcam pour vous transformer en avatar et présenter se dernier dans votre application de visio.

Nous vous expliquons tout ceci sur cette petite vidéo, issue de notre toute nouvelle chaine Youtube.

Finalisation du rachat de Nuance Communications par Microsoft

11 mois après avoir annoncé le rachat de Nuance, Microsoft vient donc de confirmer la finalisation de l’opération. Le rachat d’un montant de 19,7 milliards de dollars renforce les positions de Microsoft dans le domaine du traitement du langage naturel, et donc des solutions IA sous-jacentes. Nuance Communication est un acteur historique sur ce domaine. L’entreprise créée en 1992 et basée à Burlington dans le Massachusetts est présent dans de nombreux secteurs verticaux et en particulier dans celui de la santé. Microsoft et Nuance avaient annoncé un accord de collaboration en 2019 autour de l’utilisation des solutions de Nuance sur la plateforme Microsoft Cloud for Healthcare.

La CEO de Nuance, Mark Benjamin, reste à la tête de Nuance et il est rattaché à Scott Guthrie, Microsoft Cloud + AI group Executive Vice President.

Microsoft investit pour la Singularité

source : onmsft.com

Selon Mary Jo Foley, observatrice affutée de Microsoft, les équipes Azure et Microsoft Research ont mis sur pied une nouvelle infrastructure, Singularity, qui serait selon les mots d’un document technique signé par plusieurs membres de l’équipe « Le service d’ordonnancement mondialement distribué de Microsoft pour une exécution hautement efficace et fiable des charges de travail d’apprentissage profond et d’inférence« . L’objectif poursuivi avec Singularity est de disposer d’une infrastructure dédiée au traitement de workloads IA (Deep Learning) de manière dynamique, distribuée au niveau mondial, efficace et sans compromis sur la qualité des résultats.

Le traitement de charges Deep Learning, pour les phases d’apprentissage en particulier, nécessite de disposer de ressources lourdes et couteuses. L’explosion des usages tirant partie de ces techno Deep Learning, et les perspectives de Metavers mettent la pression sur la nécessité de disposer de ressources de travail distribuées, hautement scalables, aussi bien pour les développements internes des acteurs de plateforme comme Microsoft, que pour leurs clients potentiels en mode As a Service.

Le nom choisi par Microsoft n’est pas le résultat du hasard, puisque le terme Singularité associé à l’IA décrit précisément le moment où les algorithmes d’IA dépasseront les capacités de l’intelligence humaine. L’infra Singularity serait donc pour Microsoft un outil pour atteindre cette cible. Si ce point de Singularité pour l’IA est pour le moment lointain, voire hypothétique, il n’en reste pas moins un chiffon rouge pour de nombreux détracteurs des techno IA, qui considèrent que la course à la puissance pour atteindre cet objectif devrait être subordonnée aux travaux sur une IA éthique et digne de confiance. Sur cette thématique, un article intéressant publié par Microsoft Research et qui fait le point sur ces questions d’IA Responsable.

100 milliards de photos de visages pour reconnaitre tous les humains

L’entreprise américaine Clearview AI affirme dans une note aux investisseurs être capable de reconnaitre les 7,5 milliards d’humains sur terre avec 100 milliards de photos seulement, soit 14 par personne. Selon un article du Washington Post qui se serait procuré une copie des informations remises par l’entreprise à des investisseurs potentiels, Clearview AI dispose aujourd’hui d’une base photographiques de référence contenant 10 milliards d’images, et que sa capacité de capture mensuelle était de 1,5 milliard. Et qu’avec un nouvel investissement de 50 millions de dollars, ClearView pourrait atteindre rapidement les 100 milliards d’images pour reconnaitre quasiment tous les humains sur terre !

Clearview AI s’est fait connaitre ces dernières années de manière plutôt négative, à cause d’une part de sa spécialisation sur les solutions de reconnaissance faciale, et d’autre part à cause des ses pratiques de collectes de photos de visages sur tous les sites possibles, sans jamais demander les autorisations ni de collecte, ni d’exploitation. Depuis le meurtre de George Floyd, et le vaste mouvement de protestation associé, la reconnaissance faciale et les solutions proposées commercialement par les AWS, Microsoft, Google, IBM … ont été mise en cause. Parmi ces acteurs, certains ont annoncé arrêter tout développement dans ce domaine et d’autres simplement les mettre en veille dans l’attente d’une réglementation aux USA (voir ici et ).

Si la réglementation aux US attend toujours de voir le jour, ClearView AI est pointé du doigt pour ses solutions et ses pratiques, aussi bien par d’autres acteurs HighTech (Facebook, Google, Twitter ..) que par des associations de défense des droits telles que l’ACLU (American Civil Liberties Union), et de nombreuses actions en justice sont engagées. Dans le reste du monde également, la position de ClearView est difficile, ainsi fin décembre 2021 en France la CNIL a mis en demeure l’entreprise de cesser de collecter et d’utiliser des photos sur Internet.

Ce nouvel épisode ne va certainement pas contribuer à calmer les inquiétudes légitimes concernant la reconnaissance faciale et un des ses champions….

#CES 2022 : bras robot modulaire

De nombreux bras robots étaient présents au CES, y compris des mains robotisée. En marge du CES, nous avons flashé sur le projet KickStarter de bras robot HUENIT.

Ce projet est très original car d’une part il est modulaire. Il est conçu pour utiliser l’IA, la 3D, le laser et la robotique facilement et rapidement. Il suffit pour cela d’insérer la bonne tête pour que ce bars se transforme en imprimante 3D, en Laser ou encore en porte cuillère 🙂 Mais aussi il est très accessible : moins de 1000 €

Une petite vidéo du constructeur qui explique tout cela :

Et le pointeur sur le projet

« Entrées précédentes