Microsoft : un algorithme de vision artificielle plus performant que les humains

Guillaume Belfiore
Lead Software Chronicler
15 octobre 2020 à 11h38
4
vision artificielle

Microsoft annonce avoir drastiquement optimisé ses algorithmes d'intelligence artificielle permettant de décrire le contenu d'une image. Le dispositif serait désormais au moins aussi performant que le cerveau humain.

Décrire avec le plus de précision possible les caractéristiques d'une photo, voilà un défi que Microsoft relève depuis déjà quelques années. L'objectif est de permettre aux personnes non voyantes ou atteintes de déficience visuelle de comprendre plus précisément la nature d'une image insérée au sein d'un document ou d'une page web.

Un algorithme deux fois plus performant qu'en 2015

Pour mettre au point cet algorithme, Microsoft dispose d'une base de plusieurs millions de photos dotées d'une légende. Un processus de machine learning est alors capable d'associer certains mots à des caractéristiques spécifiques de l'image. Microsoft compare le processus à l'apprentissage de la lecture chez un enfant qui voit un dessin associé à un mot.

Les chercheurs ont ensuite effectué un test "nocaps". Il s'agit de laisser l'algorithme décrire de lui-même une image ne faisant pas partie de la base d'entraînement initial. Au travers des résultats de ce test, les descriptions générées par l'algorithme était plus riches que celles formulées par des êtres humains sur les mêmes photos.

Xuedong Huang, responsable technique des services cognitifs de Microsoft Azure, déclare : « Ces cinq dernières années, nous avons atteint le niveau humain de cinq manières : la transcription de la voix en texte, la traduction automatique, les réponses aux questions courantes, la compréhension globale d'un texte et en 2020, malgré la COVID-19, nous avons atteint cette parité sur l'ajout des légendes aux images. »

vision artificielle ms

Des travaux concrets et prêts à l'emploi

Ces travaux de recherche, Microsoft compte bien les mettre en avant le plus rapidement possible. Et cela commence par les rendre disponibles auprès des développeurs.

Microsoft explique sur son blog que la vision artificielle fait partie des algorithmes d'Azure AI, lesquels sont mis à disposition pour les développeurs. Cela signifie qu'ils pourront en faire usage au sein de leurs propres applications. L'usage qui nous vient immédiatement en tête serait par exemple un service de stockage de photos doté d'un moteur capable d'effectuer des requêtes en langage naturel pour retrouver un cliché. C'est d'ailleurs sur ce type de technologie que s'appuie Google Photos. On imagine également un plugin de CMS permettant d'ajouter automatiquement la description d'une image sur le champ alt pour optimiser son poids SEO mais surtout pour rendre le Web plus accessible.

Microsoft annonce en outre une mise à jour de Seeing AI, une application pour iOS décrivant le monde aux alentours aux personnes atteintes de déficience visuelle. Seeing AI offre toute une panoplie d'outils permettant de lire du texte à haute voix, de scanner des codes-barres pour l'identification de produits, de reconnaître des personnes familières, ou encore d'identifier des couleurs.

Par ailleurs, les fruits de ces recherches en vision artificielle seront installées au sein des applications de Microsoft Office. Les descriptions des images pourront être générées sur les présentations PowerPoint et elles seront retournées sous la forme d'un pop-up au sein de Word et d'Outlook sur PC et Mac.

Source : Microsoft

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Haut de page

Sur le même sujet

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (4)

latarrask
Est-ce qu’il existe une page web où on peut uploader une image pour voir comment elle est décrite par cet algorithme ?
tommythefreak
Trouvé via la source de l’article <br /> azure.microsoft.com<br /> Computer Vision | Microsoft Azure<br /> Extract rich information from images and analyze content with Computer Vision, an Azure Cognitive Service.<br />
Element_n90
Et donc, entre Amazon, MS, Google, IBM (Watson) et Alibaba, qui qu’est le plus fort en IA ?
Element_n90
Impressionnant :<br /> Il a trouvé : Bill Gates wearing a suit and tie
latarrask
Super merci, j’avais louper ce lien sur l’article source
Voir tous les messages sur le forum