Microsoft : Les 5 chiffres à absolument connaître sur l’IA

Source : documentation interne Microsolft

De la traduction automatique aux chatbots, en passant par les algorithmes auto-apprenants, l’intelligence artificielle (IA) recouvre l’ensemble des technologies capables de comprendre leur environnement et d’agir en conséquence. Aujourd’hui, grâce à l’IA, les machines peuvent accomplir des choses qui étaient encore inimaginables il y a quelques années : converser avec un humain en langage naturel, diagnostiquer des maladies… ou traduire des pages Wikipedia en quelques secondes. Une nouvelle ère s’annonce et les entreprises doivent prendre le train en marche.  5 chiffres-clés pour mieux cerner ce (vaste) sujet.

1950. L’année fondatrice de l’IA

C’est en 1950 qu’Alan Turing, mathématicien et cryptologue britannique, a publié Computing Machinery and Intelligence, introduisant le test de Turing. Le but de ce test (toujours utilisé aujourd’hui) : établir si un ordinateur se comporte, ou non, comme un être humain. Le test consiste à laisser une personne discuter à l’aveugle avec un autre humain et un ordinateur. La personne doit ensuite déterminer lequel de ses interlocuteurs est une machine.

Plusieurs décennies plus tard, les avancées sont colossales. Ainsi, en octobre 2016, des chercheurs Microsoft ont franchi une étape historique : pour la première fois, une IA s’est avérée aussi performante qu’un humain pour transcrire une conversation audio, une prouesse encore inimaginable cinq ans plus tôt.

Au-delà de l’exploit technologique, c’est un véritable changement de paradigme : pour Harry Shum, à la tête du Microsoft Artificial Intelligence and Research group, nous sommes en effet en train de passer d’un monde où les humains doivent comprendre les ordinateurs et parler leur langage à un monde où ce sont les machines qui doivent nous comprendre (et elles le font de mieux en mieux).

11,1 milliards de dollars : le marché potentiel de l’IA

C’est le montant que devrait atteindre le marché de l’IA d’ici 2024, contre 200 millions en 2015, d’après le cabinet d’analyse Tractica. La croissance exponentielle de la puissance des processus de traitement, combinée à une augmentation sans précédent des données disponibles, fait que l’IA est devenue extrêmement attractive pour les entreprises. Son déploiement entraîne des investissements importants en termes d’infrastructure, de formation, d’intégration et de maintenance, qui s’ajoutent à une hausse des budgets IT, notamment en ce qui concerne le hardware et le stockage (incluant le cloud).

Plus de 1 550 start-up consacrées à l’IA

Plus de 1 550 jeunes pousses consacrées à l’IA dans 70 pays, selon un rapport de Venture Scanner. Avec une levée de fonds moyenne de 22 millions de dollars par entreprise, on atteint le montant record de 10 milliards de dollars levés au total par les start-up de l’intelligence artificielle. Ce sont les applications de machine learning qui concentrent la majorité des investissements : autour de 3,5 millions de dollars pour 425 start-up.

Certaines de ces start-up spécialisées choisissent de s’appuyer sur l’expertise et la force des grands groupes. En janvier 2017, Microsoft a ainsi annoncé l’acquisition de Maluuba, une pépite canadienne ayant une expertise poussée dans le deep learning et la compréhension du langage naturel. En novembre 2016, le groupe avait déjà établi un partenariat avec OpenAI, une start-up à but non lucratif fondée par Elon Musk, avec l’objectif de faire émerger une IA responsable et sécurisée.

60 langues traduites en temps réel

De l’anglais au maya yucatèque, en passant par le français ou le hmong daw, Microsoft Translator supporte aujourd’hui 60 langues. Et se décline pour les utilisateurs dans une application, un widget ou encore Translator for Bing. Des centaines d’entreprises, comme Amazon, LinkedIn, Etsy ou HP, utilisent déjà Microsoft Translator pour leurs contenus et applications, qu’ils soient destinés à l’interne ou à l’externe.

Une fonctionnalité inédite, introduite en décembre 2016, au Microsoft AI Event de San Francisco, permet désormais la traduction en temps réel, et donc de se passer d’un traducteur humain. Fondée sur des algorithmes qui fonctionnent à la manière d’un réseau neuronal, cette technologie est beaucoup plus fluide et proche du raisonnement humain que les systèmes de traduction automatique qui l’ont précédée. Et grâce au machine learning, elle est capable d’apprendre des corpus qui lui sont présentés.

+ 40 % de productivité grâce à l’IA

D’ici 2035, l’IA pourrait contribuer à augmenter la productivité mondiale de 40 %, d’après une étude Accenture de 2016.

« L’impact observé repose sur l’automatisation de tâches de faible niveau assurée par la technologie avec un meilleur rendu final » selon Paul Daugherty, le directeur technique d’Accenture qui a piloté l’étude. « Les salariés ont plus de temps pour accomplir d’autres tâches plus satisfaisantes, résoudre des problèmes et répondre aux questions complexes surgissant au fil de leurs activités. »

Déjà, l’IA est entrée dans nos bureaux, qu’il s’agisse de Cortana, l’assistant personnel de Windows 10 ou avec des fonctionnalités comme Map, pour Excel. Et, selon un rapport d’IPsoft de janvier 2017, d’ici dix ans, les machines effectueront 80 % des tâches répétitives et chronophages et laisseront donc la place au développement de qualités typiquement humaines (pour l’instant !) : créativité, innovation, intelligence sociale et émotionnelle, résolution de conflits…

La question n’est donc plus de savoir si la révolution de l’IA aura lieu, mais comment les entreprises vont embrasser ce changement et adapter leurs workflows…

Source : documentation interne Microsolft

Project Cortex : le plus ambitieux projet de Microsoft 365

Déjà en partie déployé, il met le machine learning à la portée des utilisateurs d’Office. Objectif : équiper la suite d’une couche de knowledge management.

Project Cortex se présente comme une nouvelle technologie Microsoft qui fait office de réseau de connaissances au sein des applications Microsoft 365 de votre société. Elle s’appuie sur des outils déjà en place, tels que Microsoft Graph, Search et SharePoint, et intègre l’IA pour changer la manière dont les données sont exploitées. Ainsi les informations recueillies par Project Cortex sont structurées et représentées de façon à accélérer les opérations des employés, à optimiser le partage des connaissances à l’échelle de l’entreprise et à accroître les capacités d’automatisation.

project cortex

Pour la première fois Microsoft implémente de l’intelligence artificielle dans un produit à large diffusion !

Les possibilités d’apprentissage automatique constituent l’un des aspects les plus intéressants du projet Cortex. Elles confèrent aux spécialistes de votre organisation la possibilité de former la technologie au traitement de l’information, et de créer des mécanismes personnalisés qui se perfectionnent au fur et à mesure. Ces capacités d’apprentissage automatique sont basées sur LUIS, la technologie existante de Microsoft Azure qui incorpore la reconnaissance des langues dans les applications. LUIS offre à l’IA la possibilité de récupérer des informations à partir de documents non structurés et d’appliquer un modèle appris sur les informations qu’elle détecte, qui peuvent être corrigées et traitées par l’homme selon les besoins.

Pour plus de détails, voici les sites Microsoft correspondant :

Pour terminer ce sujet, je vous invite à visionner la vidéo de présentation.

Disponible sur YouTube
Diffusée le 12 novembre 2019

Voici la vidéo interne de Microsoft.

Vidéo de promotion de ces nouvelles possibilités.

Microsoft a créé un système qui décrit les images aussi bien qu’un humain

Les chercheurs de Microsoft ont réussi à mettre au point un système d’apprentissage automatique qui légende aussi bien – voire mieux – les images qu’un humain, même lorsqu’il ne connaissait pas ces images au préalable. Inspiré de l’apprentissage de la lecture pour les enfants, cette découverte constitue une avancée majeure pour les personnes atteintes de troubles visuels.

It’s a new milestone for AI that could genuinely help the visually impaired.

From Engadget
Publié le 14 octobre 2020 par Devindra Hardawar

Describing an image accurately, and not just like a clueless robot, has long been the goal of AI. In 2016, Google said its artificial intelligence could caption images almost as well as humans, with 94 percent accuracy. Now Microsoft says it’s gone even further: Its researchers have built an AI system that’s even more accurate than humans — so much so that it now sits at the top of the leaderboard for the nocaps image captioning benchmark. Microsoft claims its two times better than the image captioning model it’s been using since 2015.

 

And while that’s a notable milestone on its own, Microsoft isn’t just keeping this tech to itself. It’s now offering the new captioning model as part of Azure’s Cognitive Services, so any developer can bring it into their apps. It’s also available today in Seeing AI, Microsoft’s app for blind and visually impaired users that can narrative the world around them. And later this year, the captioning model will also improve your presentations in PowerPoint for the web, Windows and Mac. It’ll also pop up in Word and Outlook on desktop platforms.

 

« It’s one of the hardest problems in AI,” said Eric Boyd, CVP of Azure AI, in an interview with Engadget. “It represents not only understanding the objects in a scene, but how they’re interacting, and how to describe them.” Refining captioning techniques can help every user: It makes it easier to find the images you’re looking for in search engines. And for visually impaired users, it can make navigating the web and software dramatically better.
Xuedong Huang, a Microsoft technical fellow and the chief technology officer of Azure AI Cognitive Services. Microsoft
It’s not unusual to see companies tout their AI research innovations, but it’s far rarer for those discoveries to be quickly deployed to shipping products. Xuedong Huang, CTO of Azure AI cognitive services, pushed to integrate it into Azure quickly because of the potential benefits for users. His team trained the model with images tagged with specific keywords, which helped give it a visual language most AI frameworks don’t have. Typically, these sorts of models are trained with images and full captions, which makes it more difficult for the models to learn how specific objects interact.

 

“This visual vocabulary pre-training essentially is the education needed to train the system; we are trying to educate this motor memory,” Huang said in a blog post. That’s what gives this new model a leg up in the nocaps benchmark, which is focused on determining how well AI can caption images they have never seen before.

 

 

But while beating a benchmark is significant, the real test for Microsoft’s new model will be how it functions in the real world. According to Boyd, Seeing AI developer Saqib Shaik, who also pushes for greater accessibility at Microsoft as a blind person himself, describes it as a dramatic improvement over their previous offering. And now that Microsoft has set a new milestone, it’ll be interesting to see how competing models from Google and other researchers also compete.

Décrire une image avec précision, et pas seulement comme un robot désemparé, est depuis longtemps l’objectif de l’IA. En 2016, Google a déclaré que son intelligence artificielle pouvait légender des images presque aussi bien que les humains, avec une précision de 94 %. Aujourd’hui, Microsoft affirme être allé encore plus loin : Ses chercheurs ont construit un système d’IA qui est encore plus précis que les humains – à tel point qu’il se trouve désormais en tête du classement du benchmark de sous-titrage d’images nocaps. Microsoft affirme qu’il est deux fois plus précis que le modèle de sous-titrage d’images qu’il utilise depuis 2015.

Et bien qu’il s’agisse d’une étape importante en soi, Microsoft ne garde pas cette technologie pour elle seule. Elle propose désormais le nouveau modèle de sous-titrage dans le cadre des Cognitive Services d’Azure, de sorte que tout développeur peut l’intégrer à ses applications. Il est également disponible dès aujourd’hui dans Seeing AI, l’application de Microsoft destinée aux utilisateurs aveugles et malvoyants, qui peut raconter le monde qui les entoure. Plus tard cette année, le modèle de sous-titrage améliorera également vos présentations dans PowerPoint pour le web, Windows et Mac. Il apparaîtra également dans Word et Outlook sur les plateformes de bureau.

« C’est l’un des problèmes les plus difficiles de l’IA », a déclaré Eric Boyd, CVP d’Azure AI, dans une interview accordée à Engadget. « Cela représente non seulement la compréhension des objets dans une scène, mais aussi la façon dont ils interagissent, et comment les décrire. » L’affinement des techniques de sous-titrage peut aider chaque utilisateur : Il est plus facile de trouver les images que vous recherchez dans les moteurs de recherche. Et pour les utilisateurs malvoyants, la navigation sur le web et dans les logiciels peut s’en trouver considérablement améliorée.
Xuedong Huang, membre de l’équipe technique de Microsoft et directeur technique d’Azure AI Cognitive Services. Microsoft
Il n’est pas rare de voir des entreprises vanter les mérites de leurs innovations en matière de recherche sur l’IA, mais il est beaucoup plus rare que ces découvertes soient rapidement déployées dans des produits de série. Xuedong Huang, directeur technique des services cognitifs Azure AI, a poussé à l’intégrer rapidement dans Azure en raison des avantages potentiels pour les utilisateurs. Son équipe a entraîné le modèle avec des images étiquetées avec des mots-clés spécifiques, ce qui a contribué à lui donner un langage visuel dont la plupart des cadres d’IA ne disposent pas. En général, ces types de modèles sont formés avec des images et des légendes complètes, ce qui rend plus difficile l’apprentissage de l’interaction entre des objets spécifiques.

« Cette préformation au vocabulaire visuel est essentiellement l’éducation nécessaire pour former le système ; nous essayons d’éduquer cette mémoire motrice », a déclaré Huang dans un billet de blog. C’est ce qui donne à ce nouveau modèle une longueur d’avance dans le benchmark nocaps, qui vise à déterminer dans quelle mesure l’IA peut légender des images qu’elle n’a jamais vues auparavant.

Mais si battre un benchmark est significatif, le véritable test pour le nouveau modèle de Microsoft sera de savoir comment il fonctionne dans le monde réel. Selon Boyd, Saqib Shaik, le développeur de Seeing AI, qui milite également pour une plus grande accessibilité chez Microsoft en tant que non-voyant lui-même, décrit ce modèle comme une amélioration spectaculaire par rapport à l’offre précédente. Et maintenant que Microsoft a posé un nouveau jalon, il sera intéressant de voir comment les modèles concurrents de Google et d’autres chercheurs rivalisent également.

Autres extensions :

Microsoft Viva Sales

Viva Sales est une application d’expérience du commercial qui capture automatiquement les données d’Office 365 et de Microsoft Teams dans n’importe quel outil de gestion de la relation client (CRM), éliminant ainsi la saisie manuelle de données pour vous permettre de vous concentrer sur la vente. Viva Sales est facturé 33,70 € par utilisateur/mois.

Microsoft Viva Sales

Viva Sales is a seller experience app that automatically captures Office 365 and Microsoft Teams data into any CRM tool, eliminating manual data entry to help you focus on selling. Viva Sales is $40.00 user/month.

Microsoft dévoile une IA capable de restaurer de vieilles photos

Les collectionneurs de vieilles photos prises à l’argentique vont pouvoir se faire plaisir et revisiter leurs albums !

En collaboration avec l’Université de Hong Kong, Microsoft vient de dévoiler une intelligence artificielle capable de restaurer de vieilles photos abîmées par le temps. Ces précieux souvenirs auront bientôt une nouvelle vie grâce au deep learning et corriger les imperfections de vos photos d’antan.

Restaurer de vieilles photos devient un jeu d’enfant

Les ingénieurs de Microsoft Research ont pris ce sujet au sérieux. Aux côtés des chercheurs japonais, ils ont développé un algorithme basé sur le deep learning, capable de réparer les dégradations les plus sévères sur de vieilles photos prises avec un appareil photo argentique. Si restaurer une photo numérique est assez simple, il est beaucoup plus compliqué de retravailler les photos prises à l’argentique.

La technologie en question se base sur la photo d’origine, identifie les défauts et cherche le meilleur moyen de les restaurer grâce à des images synthétisées. L’algorithme qui alimente cette intelligence artificielle est composé de millions d’images qui donnent des indications à l’IA pour mieux reconstituer la photo d’origine. Les défauts dits « structurés », comme les rayures, les tâches de poussière, ou les éléments manquants, sont ceux qui sont ciblés en premier. Dans un second temps, l’algorithme doit résoudre les problèmes de bruit et de flou.

 

Nous attendons avec impatience que cette application soit ouverte au grand public !

 

Le billet de blog : Enhancing your photos through artificial intelligence
publié le 23 juin 2020 (en anglais mais facilement lisible)

Voir aussi le dossier consacré à l’IA et la photographie

Microsoft researchers tap AI for anonymous data sharing for health care providers

Des chercheurs de Microsoft exploitent l’intelligence artificielle pour partager des données anonymes avec les prestataires de soins de santé

 

From VentureBeat on January 20, 2021 by Kyle Wiggers
Article complet : Microsoft researchers tap AI for anonymous data sharing for health care providers

Cet article a aussi sa place sur la page IA dans la santé

The use of images to build diagnostic models of diseases has become an active research topic in the AI community. But capturing the patterns in a condition and an image requires exposing a model to a rich variety of medical cases. It’s well-known that images from a source can be biased by demographics, equipment, and means of acquisition, which means training a model on such images would cause it to perform poorly for other populations.

 

In search of a solution, researchers at Microsoft and the University of British Columbia developed a framework called Federated Learning with a Centralized Adversary (FELICIA). It extends a family of a type of model called a generative adversarial network (GAN) to a federated learning environment using a “centralized adversary.” The team says FELICIA could enable stakeholders like medical centers to collaborate with each other and improve models in a privacy-preserving, distributed data-sharing way.

GANs are two-part AI models consisting of a generator that creates samples and a discriminator that attempts to differentiate between the generated samples and real-world samples. As for federated learning, it entails training algorithms across decentralized devices holding data samples without exchanging those samples. Local algorithms are trained on local data samples and the weights, or learnable parameters of the algorithms, are exchanged between the algorithms at some frequency to generate a global model…

L’utilisation d’images pour construire des modèles de diagnostic de maladies est devenue un sujet de recherche actif dans la communauté de l’IA. Mais pour capturer les modèles d’une maladie et d’une image, il faut exposer un modèle à une grande variété de cas médicaux. Il est bien connu que les images d’une source peuvent être biaisées par la démographie, l’équipement et les moyens d’acquisition, ce qui signifie que l’entraînement d’un modèle sur de telles images lui ferait perdre ses performances pour d’autres populations.

À la recherche d’une solution, des chercheurs de Microsoft et de l’université de Colombie-Britannique ont mis au point un cadre appelé Federated Learning with a Centralized Adversary (FELICIA). Il étend une famille d’un type de modèle appelé réseau adversatif génératif (GAN) à un environnement d’apprentissage fédéré utilisant un « adversaire centralisé ». Selon l’équipe, FELICIA pourrait permettre aux parties prenantes, comme les centres médicaux, de collaborer entre elles et d’améliorer les modèles de manière à préserver la confidentialité et à partager les données distribuées.

Les GAN sont des modèles d’IA en deux parties : un générateur qui crée des échantillons et un discriminateur qui tente de différencier les échantillons générés des échantillons du monde réel. Quant à l’apprentissage fédéré, il implique l’entraînement d’algorithmes sur des dispositifs décentralisés détenant des échantillons de données, sans échange de ces échantillons. Les algorithmes locaux sont formés sur des échantillons de données locaux et les poids, ou paramètres apprenables des algorithmes, sont échangés entre les algorithmes à une certaine fréquence afin de générer un modèle global…

 

“L’intelligence défend la paix.
L’intelligence a horreur de la guerre.”

Paul Vaillant-Couturier

Microsoft’s cutting-edge machine-learning tool moves from the lab to the mainstream

L’outil d’apprentissage machine de pointe de Microsoft passe du laboratoire au grand public

Tous les détails sur : Microsoft’s cutting-edge machine-learning tool moves from the lab to the mainstream
Publié sur Techrepublic le 21 janvier 2021 par Mary Branscombe

Je cherche plus de sources avant de faire un article complet.

 

 

Même sans rapport avec le sujet, c’est trop mignon …

Ce quintette reproduit à la perfection les sons Windows a capella

Microsoft 365 propose de nouvelles fonctionnalités sur mobile grâce à Cortana

The evolution of mobile productivity, even when we’re a little less mobile

Rendez-vous sur le blog interne ou tout est parfaitement expliqué : Mobile Productivity
Publié le 1er février 2021.

At Microsoft Bing, our mission is to delight users everywhere with the best search experience. We serve a diverse set of customers all over the planet who issue queries in over 100 languages. In search we’ve found about 15% of queries submitted by customers have misspellings. When queries are misspelled, we match the wrong set of documents and trigger incorrect answers, which can produce a suboptimal results page for our customers. Therefore, spelling correction is the very first component in the Bing search stack because searching for the correct spelling of what users mean improves all downstream search components. Our spelling correction technology powers several product experiences across Microsoft. Since it is important to us to provide all customers with access to accurate, state-of-the-art spelling correction, we are improving search so that it is inclusive of more languages from around the world with the help of AI at Scale.

Chez Microsoft Bing, notre mission est d’offrir aux utilisateurs du monde entier la meilleure expérience de recherche. Nous servons un ensemble diversifié de clients dans le monde entier qui émettent des requêtes dans plus de 100 langues. Dans les recherches, nous avons constaté qu’environ 15 % des requêtes soumises par les clients comportaient des fautes d’orthographe. Lorsque les requêtes sont mal orthographiées, nous faisons correspondre le mauvais ensemble de documents et déclenchons des réponses incorrectes, ce qui peut produire une page de résultats sous-optimale pour nos clients. Par conséquent, la correction orthographique est le tout premier composant de la pile de recherche Bing, car la recherche de l’orthographe correcte de ce que les utilisateurs veulent dire améliore tous les composants de recherche en aval. Notre technologie de correction orthographique alimente plusieurs expériences de produits dans l’ensemble de Microsoft. Comme il est important pour nous de fournir à tous les clients un accès à une correction orthographique précise et de pointe, nous améliorons la recherche afin qu’elle prenne en compte davantage de langues du monde entier avec l’aide de l’IA à l’échelle.

Microsoft researchers works  to explore new deep learning approaches for malware classification

Des chercheurs de Microsoft travaillent pour explorer de nouvelles approches d’apprentissage profond pour la classification des logiciels malveillants.

In continued exploration of novel detection techniques, researchers from Microsoft Threat Protection Intelligence Team and Intel Labs are collaborating to study new applications of deep learning for malware classification, specifically:

  • Leveraging deep transfer learning technique from computer vision to static malware classification
  • Optimizing deep learning techniques in terms of model size and leveraging platform hardware capabilities to improve execution of deep-learning malware detection approaches

For the first part of the collaboration, the researchers built on Intel’s prior work on deep transfer learning for static malware classification and used a real-world dataset from Microsoft to ascertain the practical value of approaching the malware classification problem as a computer vision task. The basis for this study is the observation that if malware binaries are plotted as grayscale images, the textural and structural patterns can be used to effectively classify binaries as either benign or malicious, as well as cluster malicious binaries into respective threat families.

The researchers used an approach that they called static malware-as-image network analysis (STAMINA). Using the dataset from Microsoft, the study showed that the STAMINA approach achieves high accuracy in detecting malware with low false positives.

The results and further technical details of the research are listed in the paper STAMINA: Scalable deep learning approach for malware classification and set the stage for further collaborative exploration.

The role of static analysis in deep learning-based malware classification

While static analysis is typically associated with traditional detection methods, it remains to be an important building block for AI-driven detection of malware. It is especially useful for pre-execution detection engines: static analysis disassembles code without having to run applications or monitor runtime behavior.

Static analysis produces metadata about a file. Machine learning classifiers on the client and in the cloud then analyze the metadata and determine whether a file is malicious. Through static analysis, most threats are caught before they can even run.

For more complex threats, dynamic analysis and behavior analysis build on static analysis to provide more features and build more comprehensive detection. Finding ways to perform static analysis at scale and with high effectiveness benefits overall malware detection methodologies.

To this end, the research borrowed knowledge from  computer vision domain to build an enhanced static malware detection framework that leverages deep transfer learning to train directly on portable executable (PE) binaries represented as images.

Analyzing malware represented as image

To establish the practicality of the STAMINA approach, which posits that malware can be classified at scale by performing static analysis on malware codes represented as images, the study covered three main steps: image conversion, transfer learning, and evaluation.

Diagram showing the steps for the STAMINA approach: pre-processing, transfer learning, and evaluation

First, the researchers prepared the binaries by converting them into two-dimensional images. This step involved pixel conversion, reshaping, and resizing. The binaries were converted into a one-dimensional pixel stream by assigning each byte a value between 0 and 255, corresponding to pixel intensity. Each pixel stream was then transformed into a two-dimensional image by using the file size to determine the width and height of the image.

The second step was to use transfer learning, a technique for overcoming the isolated learning paradigm and utilizing knowledge acquired for one task to solve related ones. Transfer learning has enjoyed tremendous success within several different computer vision applications. It accelerates training time by bypassing the need to search for optimized hyperparameters and different architectures—all this while maintaining high classification performance. For this study, the researchers used Inception-v1 as the base model.

The study was performed on a dataset of 2.2 million PE file hashes provided by Microsoft. This dataset was temporally split into 60:20:20 segments for training, validation, and test sets, respectively.

Diagram showing a DNN with pre-trained weights on natural images, and the last portion fine-tuned with new data

Finally, the performance of the system was measured and reported on the holdout test set. The metrics captured include recall at specific false positive range, along with accuracy, F1 score, and area under the receiver operating curve (ROC).

Findings

The joint research showed that applying STAMINA to real-world hold-out test data set achieved a recall of 87.05% at 0.1% false positive rate, and 99.66% recall and 99.07% accuracy at 2.58% false positive rate overall. The results certainly encourage the use of deep transfer learning for the purpose of malware classification. It helps accelerate training by bypassing the search for optimal hyperparameters and architecture searches, saving time and compute resources in the process.

The study also highlights the pros and cons of sample-based methods like STAMINA and metadata-based classification methods. For example, STAMINA can go in-depth into samples and extract additional signals that might not be captured in the metadata.  However, for bigger size applications, STAMINA becomes less effective due to limitations in converting billions of pixels into JPEG images and then resizing them. In such cases, metadata-based methods show advantages over our research.

Conclusion and future work

The use of deep learning methods for detecting threats drives a lot of innovation across Microsoft. The collaboration with Intel Labs researchers is just one of the ways in which Microsoft researchers and data scientists continue to explore novel ways to improve security overall.

This joint research is a good starting ground for more collaborative work. For example, the researchers plan to collaborate further on platform acceleration optimizations that can allow deep learning models to be deployed on client machines with minimal performance impact. Stay tuned.

Traduction en français sur demandes.

Cancer researchers embrace AI to accelerate development of precision medicine

Biomedical researchers are embracing artificial intelligence to accelerate the implementation of cancer treatments that target patients’ specific genomic profiles, a type of precision medicine that in some cases is more effective than traditional chemotherapy and has fewer side effects.

Depuis le blog Microsoft :

The potential for this new era of cancer treatment stems from advances in genome sequencing technology that enables researchers to more efficiently discover the specific genomic mutations that drive cancer, and an explosion of research on the development of new drugs that target those mutations.

To harness this potential, researchers at The Jackson Laboratory, an independent, nonprofit biomedical research institution also known as JAX and headquartered in Bar Harbor, Maine, developed a tool to help the global medical and scientific communities stay on top of the continuously growing volume of data generated by advances in genomic research.

The tool, called the Clinical Knowledgebase, or CKB, is a searchable database where subject matter experts store, sort and interpret complex genomic data to improve patient outcomes and share information about clinical trials and treatment options.

The challenge is to find the most relevant cancer-related information from the 4,000 or so biomedical research papers published each day, according to Susan Mockus, the associate director of clinical genomic market development with JAX’s genomic medicine institute in Farmington, Connecticut.

“Because there is so much data and so many complexities, without embracing and incorporating artificial intelligence and machine learning to help in the interpretation of the data, progress will be slow,” she said.

That’s why Mockus and her colleagues at JAX are collaborating with computer scientists working on Microsoft’s Project Hanover who are developing AI technology that enables machines to read complex medical and research documents and highlight the important information they contain.

While this machine reading technology is in the early stages of development, researchers have found they can make progress by narrowing the focus to specific areas such as clinical oncology, explained Peter Lee, corporate vice president of Microsoft Healthcare in Redmond, Washington.

“For something that really matters like cancer treatment where there are thousands of new research papers being published every day, we actually have a shot at having the machine read them all and help a board of cancer specialists answer questions about the latest research,” he said.

Traduction complète sur demande

Article complet : Cancer researchers embrace AI to accelerate development of precision medicine
Depuis le blog Microsoft Research publie le 27 octobre 2019 par John Roach

New Garage project Group Transcribe helps you transcribe and translate while advancing inclusive speech AI

C’est sur son blog que Microsoft Garage (le laboratoire d’idées de la firme de Redmond), a annoncé le lancement d’une nouvelle application de retranscription de réunions en temps réel. Une idée pas si nouvelle, mais qui offre une restitution plus précise que d’autres applications grâce à l’intelligence artificielle et l’enregistrement sur plusieurs appareils.

There is healthy debate about the productivity of multi-tasking. Is it possible to take excellent notes while also being fully present in a meeting? Now, you don’t have to choose between focus and productivity with our latest experiment, Group Transcribe, a Microsoft Garage project. This app uses a multi-device approach to provide real-time, high quality transcription and translation, so users can be more present and productive during in-person meetings and conversations. Group Transcribe also joins a strong research tradition at Microsoft, finding new ways to improve upon speech and language AI. The app is now available worldwide on iOS.

 

Multi-device transcription and translation

To use the app, conversation participants start a shared session and each leverage their phone’s microphone to capture a highly accurate transcript, showing who said what in real-time. With confidence in the high-quality record of the conversation, users can skip note-taking and focus their attention on the conversation itself. Transcripts are easy to share or relocate after the fact.

Users can also leverage the real-time transcription to speak across different languages and make meetings more inclusive. The app supports several languages in over 80 locales and enables people who are deaf, hard of hearing, or non-native speakers to participate more fully by following along with the live transcript.

The Group Transcribe team collectively speaks over a dozen languages and dialects, and team members are passionate about connecting people across different cultures. “This can be a fantastic tool for communication. What I would love to see is for this to break down barriers for people speaking across multiple languages,” shares Franklin Munoz Principal Development Lead and one of the lead engineers who built the project.

Il existe un débat profond sur la productivité du multitâche. Est-il possible de prendre d’excellentes notes tout en étant pleinement présent lors d’une réunion ? Désormais, vous n’avez plus à choisir entre concentration et productivité grâce à notre dernière expérience, Group Transcribe, un projet du Microsoft Garage. Cette application utilise une approche multi-appareils pour fournir une transcription et une traduction de haute qualité en temps réel, afin que les utilisateurs puissent être plus présents et productifs lors des réunions et des conversations en personne. Group Transcribe s’inscrit également dans une forte tradition de recherche chez Microsoft, qui consiste à trouver de nouvelles façons d’améliorer l’IA de la parole et du langage. L’application est désormais disponible dans le monde entier sur iOS.

Transcription et traduction sur plusieurs appareils

Pour utiliser l’application, les participants à la conversation démarrent une session partagée et chacun utilise le microphone de son téléphone pour capturer une transcription très précise, montrant qui a dit quoi en temps réel. Confiants dans la qualité de l’enregistrement de la conversation, les utilisateurs peuvent éviter de prendre des notes et se concentrer sur la conversation elle-même. Les transcriptions sont faciles à partager ou à déplacer après coup.

Les utilisateurs peuvent également tirer parti de la transcription en temps réel pour parler dans différentes langues et rendre les réunions plus inclusives. L’application prend en charge plusieurs langues dans plus de 80 pays et permet aux personnes sourdes, malentendantes ou dont ce n’est pas la langue maternelle de participer plus pleinement en suivant la transcription en direct.

L’équipe de Group Transcribe parle collectivement plus d’une douzaine de langues et de dialectes, et ses membres sont passionnés par la mise en relation de personnes de cultures différentes. « Cela peut être un outil fantastique pour la communication. Ce que j’aimerais voir, c’est qu’il fasse tomber les barrières pour les personnes parlant plusieurs langues », partage Franklin Munoz, principal responsable du développement et l’un des principaux ingénieurs qui ont construit le projet.

Caractéristiques principales

Group Transcribe fournit une transcription et une traduction qualité en temps réel.

  • Lancez une conversation depuis votre téléphone et invitez facilement d’autres personnes à vous rejoindre*.
  • Restez concentré sans avoir à prendre des notes ou à pousser la conversation.
  • Suivez la conversation en temps réel dans la langue de votre choix.
  • Enregistrez automatiquement la transcription après chaque session
  • Parcourez et visualisez les transcriptions précédentes depuis votre écran d’accueil.
  • Partagez facilement les transcriptions avec d’autres personnes
  • Prise en charge de plus de 80 langues

*Veuillez noter que chaque utilisateur devra utiliser son propre téléphone à portée de main pour bénéficier d’une qualité optimale.

Group Transcribe est alimenté par une technologie de pointe dans le domaine de la parole et du langage, dont la mise au point remonte à plusieurs années. Le projet est conçu pour les réunions en personne. Il peut être utilisé lors de conversations socialement distantes ou à proximité, une fois que la connexion en personne est sûre, conformément aux directives locales.

Group Transcribe prend en charge des langues parlées dans plus de 80 localités, dont les suivantes : arabe, bulgare, catalan, cantonais, chinois (simplifié), chinois (traditionnel), croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, allemand, grec, hindi, irlandais, italien, japonais, coréen, lituanien, letton, maltais, norvégien, polonais, portugais, roumain, russe, espagnol, slovaque, slovène, suédois, thaïlandais, turc, etc.

Key features

Group Transcribe provides high-quality, real-time transcription and translation.

  • Start a conversation from your phone and easily invite others to join*
  • Stay focused without taking notes or pushing-to-talk
  • Follow along with the conversation in real-time in your preferred language
  • Automatically save the transcript after each session
  • Browse and view previous transcripts from your home screen
  • Easily share transcripts with others
  • Supports languages in 80+ locales

 

*Please note: each user will need to use their own phone within arm’s reach for the highest quality experience.

Group Transcribe is powered by cutting edge speech and language technology that is years in the making. The project is designed around in-person meetings. It can be used during socially distanced conversations or in closer proximity once safe to connect in person per local guidelines.

Group Transcribe supports languages spoken in 80+ locales including: Arabic, Bulgarian, Catalan, Cantonese, Chinese (simplified), Chinese (traditional), Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hindi, Irish, Italian, Japanese, Korean, Lithuanian, Latvian, Maltese, Norwegian, Polish, Portuguese, Romanian, Russian, Spanish, Slovak, Slovenian, Swedish, Thai, Turkish, and more.

Contribute to speech and language AI

In recent years, Microsoft has reached several speech and language AI milestones being the first to achieve human parity in a number of widely-used benchmark tasks. The Cognitive Services team continues to enhance the quality of speech and language models across a variety of research projects. Group Transcribe will allow Microsoft researchers to improve accuracy, latency, and speaker attribution.

“Microsoft has been leading the way in speech and language AI innovation with our research on distributed and dynamic microphone arrays as pioneered via Project Denmark,” shares Xuedong Huang, Technical Fellow and CTO of Cognitive Services. “Group Transcribe allows us to address an authentic, ad-hoc, interactive mobile scenario to help people communicate without language barriers. Improving these models with usage data will ensure that our customers will have the best experience.”

User privacy and the principles of responsible AI are first and foremost in Microsoft’s approach to research and product development. “Today, Microsoft Teams facilitates billions of conversation minutes each day, but because Microsoft goes above and beyond to ensure the privacy of our customers, our research does not leverage a single minute of this audio.” shares Pavan Li, the Principal Program Manager of the project. “In order for us to build quality AI products that are accessible to everyone, it is really crucial that we’re training AI models with highly relevant data.”

Inspired to provide a high-quality transcript experience accessible to the everyday customer and continuously improve speech and language models, the team found a way to achieve both goals with a combined solution. Pavan continues, “We came up with this concept of designing a mobile app that would not only help users experience more focused and productive conversations but would also open an opportunity for data donation. We hope consumers are willing to help us and join us on this journey.”

While aiding users with quality, real-time transcription and translation, Group Transcribe will help make AI more accurate and inclusive by enabling an option to contribute conversation data.

Prioritizing privacy through granular data controls

Microsoft is committed to transparency and choice with privacy, and in designing a mechanism to accept conversation donations, the Group Transcribe team allows users to determine what they share. “We’ve taken care to make data and privacy controls as granular as possible,” explains Senior Program Manager Masaki Itagaki who focuses on speech privacy. “I hope users leverage these to take the sensitivity of a conversation into account and withhold sharing those conversations on a case-by-case basis.”

The team has also compiled a detailed FAQ regarding the Group Transcribe project and privacy for any users who have questions about how Group Transcribe collects, manages, and uses data responsibly.

“We believe strongly in the importance of transparency in order to develop AI responsibly,” adds Xuedong. “Thank you in advance to our users whose choose to contribute conversation data—you will be helping us reduce bias, increase inclusion, and accelerate innovation in our quest to build AI that empowers everyone on the planet to do more.”

From : New Garage project Group Transcribe
Posted on

Contribuer à l’IA de la parole et du langage

Ces dernières années, Microsoft a franchi plusieurs étapes importantes dans le domaine de l’IA de la parole et du langage, étant le premier à atteindre la parité humaine dans un certain nombre de tâches de référence largement utilisées. L’équipe Cognitive Services continue d’améliorer la qualité des modèles de parole et de langage à travers une variété de projets de recherche. Group Transcribe permettra aux chercheurs de Microsoft d’améliorer la précision, la latence et l’attribution du locuteur.

« Microsoft est à la pointe de l’innovation dans le domaine de l’intelligence artificielle de la parole et du langage grâce à ses recherches sur les réseaux de microphones distribués et dynamiques, comme le montre le projet Denmark », explique Xuedong Huang, Technical Fellow et CTO de Cognitive Services. « Group Transcribe nous permet d’aborder un scénario mobile authentique, ad hoc et interactif pour aider les gens à communiquer sans barrière linguistique. L’amélioration de ces modèles grâce aux données d’utilisation permettra à nos clients de bénéficier de la meilleure expérience possible. »

La confidentialité des utilisateurs et les principes de l’IA responsable sont au premier plan dans l’approche de Microsoft en matière de recherche et de développement de produits. « Aujourd’hui, Microsoft Teams facilite des milliards de minutes de conversation chaque jour, mais parce que Microsoft se surpasse pour garantir la confidentialité de ses clients, notre recherche n’exploite pas une seule minute de cet audio », partage Pavan Li, le gestionnaire de programme principal du projet. « Pour que nous puissions construire des produits d’IA de qualité et accessibles à tous, il est vraiment crucial que nous formions les modèles d’IA avec des données très pertinentes. »

Inspirée par la volonté de fournir une expérience de transcription de haute qualité accessible au client de tous les jours et d’améliorer continuellement les modèles de parole et de langage, l’équipe a trouvé un moyen d’atteindre ces deux objectifs avec une solution combinée. Pavan poursuit : « Nous avons eu l’idée de concevoir une application mobile qui non seulement aiderait les utilisateurs à vivre des conversations plus ciblées et plus productives, mais qui ouvrirait également une opportunité de don de données. Nous espérons que les consommateurs seront prêts à nous aider et à nous rejoindre dans cette aventure. »

Tout en aidant les utilisateurs avec une transcription et une traduction de qualité et en temps réel, Group Transcribe contribuera à rendre l’IA plus précise et inclusive en permettant une option de contribution des données de conversation.
Priorité à la vie privée grâce à des contrôles granulaires des données

Microsoft s’engage à la transparence et au choix avec la vie privée, et en concevant un mécanisme pour accepter les dons de conversation, l’équipe de Group Transcribe permet aux utilisateurs de déterminer ce qu’ils partagent. « Nous avons pris soin de rendre les contrôles de données et de confidentialité aussi granulaires que possible », explique Masaki Itagaki, chef de programme senior, qui se concentre sur la confidentialité des conversations. « J’espère que les utilisateurs les exploiteront pour prendre en compte le caractère sensible d’une conversation et s’abstenir de partager ces conversations au cas par cas. »

L’équipe a également compilé une FAQ détaillée concernant le projet Group Transcribe et la confidentialité pour tous les utilisateurs qui ont des questions sur la façon dont Group Transcribe collecte, gère et utilise les données de manière responsable.

« Nous croyons fermement à l’importance de la transparence afin de développer l’IA de manière responsable », ajoute Xuedong. « Merci d’avance à nos utilisateurs qui choisissent de contribuer aux données de conversation – vous nous aiderez à réduire les préjugés, à accroître l’inclusion et à accélérer l’innovation dans notre quête pour construire une IA qui donne à chacun sur la planète les moyens d’en faire plus. »

Microsoft buying speech recognition firm Nuance

Microsoft achète Nuance Communication, le géant de la reconnaissance vocale

Microsoft débourse donc 19,7 milliard d’USD pour cette acquisition.

Nuance Communications, spécialiste en intelligence artificielle et reconnaissance vocale ayant participé au développement de Siri, entre dans le giron de Microsoft, qui semble prêt à mettre la main à la poche pour s’étendre.
The acquisition will get Microsoft deeper into hospitals and the health care industry through Nuance’s widely used medical dictation and transcription tools.

Nuance has been a pioneer in voice-based artificial intelligence technology and was instrumental in helping to power Apple’s digital assistant Siri. It has since shifted its focus to health care, including a product that listens in on exam room conversations between physicians and patients and automatically writes up the doctor’s recommendations, such as for prescriptions or lab work.

Nuance est un pionnier des technologies d’intelligence artificielle basées sur la voix et a contribué à la création de l’assistant numérique Siri d’Apple. Elle s’est depuis tournée vers les soins de santé, notamment avec un produit qui écoute les conversations entre médecins et patients dans les salles d’examen et rédige automatiquement les recommandations du médecin, par exemple pour les ordonnances ou les analyses de laboratoire.

Exemple d’un produit Nuance Communication : Logiciel de reconnaissance vocale Dragon

Principales fonctionnalité :

  • la création de document par la dictée : un outil qui s’améliore par une adaptation continue de la voix.
  • l’automatisation de tâches répétitives : offre la possibilité de créer de courtes commandes vocales pour plus de rapidité d’exécution.
  • la personnalisation du langage : un service qui permet d’intégrer des acronymes ou un vocabulaire très spécifiques à une activité, les préférences d’orthographe ou encore les mises en forme.

Interview de Luc Julia sur ce sujet : Luc Julia sur Nuance – Diffusée sur BFM Business le 12 avril 2021

L’innovation en IA dans la santé

Découvrons rapidement comment Microsoft utilise l’IA pour déceler de nouvelles informations dans le but d’améliorer les résultats en matière de santé à l’échelle mondiale.

Domaines d’innovation

Qu’il s’agisse de déchiffrer des génomes ou de d’effectuer des recherches en développement durable, nous travaillons dans les domaines d’innovation suivants avec un impact positif sur les résultats en matière de santé.

  • Médecine personnalisée
    Chaque personne est unique, tout comme le sont les maladies dont elle souffre. L’intelligence artificielle permet un tout nouveau niveau de traitement personnalisé en prenant en considération ce qui nous rend unique, depuis notre génétique jusqu’à notre mode de vie. La médecine personnalisée peut améliorer radicalement la santé et la longévité de chacun d’entre nous.
    Le projet Immunomics
  • Analyse de la santé publique
    Imaginez si nous pouvions mieux comprendre la santé de groupes de personnes en particulier et les facteurs qui influencent leur bien-être. Grâce à l’intelligence artificielle, nous pouvons regrouper des données sur tous les facteurs suivants, déterminants sociaux de la santé, questions environnementales ou vecteurs de maladie, et identifier plus efficacement les problèmes avant qu’ils n’apparaissent ou ne se propagent.
    Le projet Premonition
  • Lecture optique biomédicale
    Avec des millions d’études et de développements qui surviennent dans l’ensemble de l’industrie médicale, rester informé de tout ce qui se passe est presque impossible. Grâce à l’intelligence artificielle, les chercheurs et les professionnels de la santé peuvent filtrer rapidement l’information de tous les types de sources, découvrir de nouvelles informations et fournir des traitements plus rapidement aux personnes qui en ont besoin.
    Le projet Hanover

Dernières actualités Microsoft en intelligence artificielle

  • Novartis et Microsoft mettent tous leurs efforts à réinventer la découverte de traitements
    Les équipes de recherche de Novartis et de Microsoft collaborent pour appliquer les innovations en intelligence artificielle et travailler dans des domaines inexplorés dans le secteur pharmaceutique, à la recherche de découvertes qui réduiront les coûts incombant aux patients.
  • Microsoft et Jackson Labs utilisent l’intelligence artificielle pour lutter contre le cancer
    Microsoft collabore avec le laboratoire Jackson en utilisant la technologie pour créer des plans de traitement personnalisés pour les patients.

Vous pouvez aussi lire notre section sur l’IA dans la Santé

Passer à la seconde partie concernant Microsoft…