Google Research change la donne pour l'imagerie médicale grâce à l'apprentissage auto-supervisé

novembre 11, 2021 Par admin 0
Google Research change la donne pour l'imagerie médicale grâce à l'apprentissage auto-supervisé

Crédit d'image: MAD.vertise/Shutterstock

L'apprentissage en profondeur est très prometteur dans les soins de santé, en particulier dans l'imagerie médicale, où il peut être utilisé pour améliorer la vitesse et la précision du diagnostic de l'état des patients. Mais elle se heurte également à un sérieux obstacle : la pénurie de données d'entraînement étiquetées.

Dans les contextes médicaux, les données d'entraînement coûtent cher, ce qui rend très difficile l'utilisation du deep learning pour de nombreux applications.

Pour surmonter cet obstacle, les scientifiques ont exploré plusieurs solutions à divers degrés de succès. Dans un nouvel article, des chercheurs en intelligence artificielle de Google suggèrent une nouvelle technique qui utilise l'apprentissage auto-supervisé pour former des modèles d'apprentissage en profondeur pour l'imagerie médicale. Les premiers résultats montrent que la technique peut réduire le besoin de données annotées et améliorer les performances des modèles d'apprentissage en profondeur dans les applications médicales.

Préformation supervisée

Les réseaux de neurones convolutifs se sont avérés très efficaces pour les tâches de vision par ordinateur. Google est l'une des nombreuses organisations qui ont exploré son utilisation dans l'imagerie médicale. Ces dernières années, la branche recherche de l'entreprise a construit plusieurs modèles d'imagerie médicale dans des domaines tels que l'ophtalmologie, la dermatologie, la mammographie et la pathologie.

«Il y a beaucoup d'enthousiasme autour de l'application de l'apprentissage en profondeur à la santé, mais cela reste difficile car des modèles DL très précis et robustes sont nécessaires dans un domaine comme les soins de santé », a déclaré Shekoofeh Azizi, résident de l'IA chez Google Research et auteur principal de l'article auto-supervisé.

L'un des principaux défis de l'apprentissage en profondeur est le besoin d'énormes quantités de données annotées. Les grands réseaux de neurones nécessitent des millions d'exemples étiquetés pour atteindre une précision optimale. Dans les milieux médicaux, l'étiquetage des données est une entreprise compliquée et coûteuse.

«Acquérir ces «étiquettes» dans les milieux médicaux est difficile pour diverses raisons: cela peut prendre du temps et cher pour les experts cliniques, et les données doivent répondre aux exigences de confidentialité pertinentes avant d'être partagées », a déclaré Azizi.

Pour certaines conditions, les exemples sont rares, pour commencer, et dans d'autres, tels en tant que dépistage du cancer du sein, il peut s'écouler de nombreuses années avant que les résultats cliniques ne se manifestent après la prise d'une image médicale.

Les changements de répartition entre les formations les environnements de données et de déploiement, tels que les changements dans la population de patients, la prévalence ou la présentation de la maladie, et la technologie médicale utilisée pour l'acquisition d'images, a ajouté Azizi.

Un moyen populaire de remédier à la pénurie des données médicales est d'utiliser une préformation supervisée. Dans cette approche, un réseau de neurones convolutifs est initialement formé sur un ensemble de données d'images étiquetées, telles que ImageNet. Cette phase ajuste les paramètres des couches du modèle aux motifs généraux trouvés dans toutes sortes d'images. Le modèle d'apprentissage en profondeur formé peut ensuite être affiné sur un ensemble limité d'exemples étiquetés pour la tâche cible.

Plusieurs études ont montré que la pré-formation supervisée est utile dans des applications telles que la médecine l'imagerie, où les données étiquetées sont rares. Cependant, la préformation supervisée a aussi ses limites.

« Le paradigme commun pour la formation de modèles d'imagerie médicale est l'apprentissage par transfert, où les modèles sont d'abord préformés à l'aide de l'apprentissage supervisé sur ImageNet. Cependant, il existe un grand décalage de domaine entre les images naturelles dans ImageNet et les images médicales, et des recherches antérieures ont montré qu'une telle pré-formation supervisée sur ImageNet peut ne pas être optimale pour développer des modèles d'imagerie médicale », a déclaré Azizi.

Préformation auto-supervisée

L'apprentissage auto-supervisé est devenu un domaine de recherche prometteur ces dernières années. Dans l'apprentissage auto-supervisé, les modèles d'apprentissage en profondeur apprennent les représentations des données d'entraînement sans avoir besoin d'étiquettes. S'il est bien fait, l'apprentissage auto-supervisé peut être très avantageux dans les domaines où les données étiquetées sont rares et les données non étiquetées sont abondantes.

En dehors des paramètres médicaux, Google a développé plusieurs auto-apprentissage. techniques d'apprentissage supervisé pour former des réseaux de neurones à des tâches de vision par ordinateur. Parmi eux se trouve le Simple Framework for Contrastive Learning (SimCLR), qui a été présenté lors de la conférence ICML 2020. L'apprentissage par contraste utilise différents recadrages et variations de la même image pour entraîner un réseau de neurones jusqu'à ce qu'il apprenne des représentations robustes aux changements.

Dans leur nouveau travail, l'équipe de recherche Google a utilisé un variation du cadre SimCLR appelé Multi-Instance Contrastive Learning (MICLe), qui apprend des représentations plus fortes en utilisant plusieurs images de la même condition. C'est souvent le cas dans les ensembles de données médicales, où il y a plusieurs images du même patient, bien que les images puissent ne pas être annotées pour l'apprentissage supervisé.

«Des données non étiquetées sont souvent disponibles dans grandes quantités dans divers domaines médicaux. Une différence importante est que nous utilisons plusieurs vues de la pathologie sous-jacente couramment présente dans les ensembles de données d'imagerie médicale pour construire des paires d'images pour un apprentissage auto-supervisé contrastif », a déclaré Azizi.

Quand un auto -le modèle d'apprentissage en profondeur supervisé est entraîné sur différents angles de vue de la même cible, il apprend plus de représentations qui sont plus robustes aux changements de point de vue, aux conditions d'imagerie et à d'autres facteurs qui pourraient affecter négativement ses performances.

Mettre le tout ensemble

Le cadre d'apprentissage auto-supervisé les chercheurs de Google ont utilisé trois étapes. Tout d'abord, le réseau de neurones cible a été formé sur des exemples de l'ensemble de données ImageNet à l'aide de SimCLR. Ensuite, le modèle a été entraîné davantage à l'aide de MICLe sur un ensemble de données médicales contenant plusieurs images pour chaque patient. Enfin, le modèle est affiné sur un ensemble de données limité d'images étiquetées pour l'application cible.

Les chercheurs ont testé le cadre sur deux tâches d'interprétation en dermatologie et en radiographie pulmonaire. Par rapport à la préformation supervisée, la méthode auto-supervisée offre une amélioration significative de la précision, de l'efficacité des étiquettes et de la généralisation hors distribution des modèles d'imagerie médicale, ce qui est particulièrement important pour les applications cliniques. De plus, cela nécessite beaucoup moins de données étiquetées.

«En utilisant l'apprentissage auto-supervisé, nous montrons que nous pouvons réduire considérablement le besoin de données annotées coûteuses pour créer des modèles de classification d'images médicales» dit Azizi. En particulier, sur la tâche de dermatologie, ils ont pu entraîner les réseaux de neurones pour qu'ils correspondent aux performances du modèle de base tout en utilisant seulement un cinquième des données annotées.

« Cela se traduit, espérons-le, par des économies de temps et d'argent considérables pour le développement de modèles d'IA médicale. Nous espérons que cette méthode inspirera des explorations dans de nouvelles applications de soins de santé où l'acquisition de données annotées a été difficile », a déclaré Azizi.

Ben Dickson est ingénieur logiciel et fondateur de TechTalks. Il écrit sur la technologie, les affaires et la politique.

Cette histoire est apparue à l'origine sur Bdtechtalks.com. Copyright 2021

VentureBeat

La mission de VentureBeat est d'être une place publique numérique pour les décideurs techniques afin d'acquérir des connaissances sur la technologie transformatrice et d'effectuer des transactions. Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :

  • Jusqu'à -date des informations sur les sujets qui vous intéressent nos newsletters

  • contenu de leader d'opinion et accès à prix réduit à nos événements prisés, tels que Transformer 2021 : Apprendre encore plus

    fonctionnalités de mise en réseau, et plus

    Devenir membre