Comment former des modèles ML plus efficacement grâce à l'apprentissage actif

janvier 31, 2022 Par admin 0
Comment former des modèles ML plus efficacement grâce à l'apprentissage actif

Présenté par Labelbox


Combien de temps votre équipe de machine learning consacre-t-elle à l'étiquetage des données? Et quelle proportion de ces données améliore réellement les performances du modèle? La création de données de formation efficaces est un défi auquel de nombreuses équipes de ML sont aujourd'hui confrontées. Cela affecte presque tous les aspects du processus de ML.

    Temps: Aujourd'hui, les équipes de ML consacrent jusqu'à 80% de leur temps à la conservation, à la création et à la gestion des données. Cela comprend le temps consacré à l'étiquetage, à la maintenance de l'infrastructure, à la préparation des données, à la formation des équipes d'étiquetage et à d'autres tâches administratives. Cela laisse très peu de temps aux ingénieurs ML pour concevoir leurs modèles.

    Qualité: Un modèle ne peut devenir aussi bon que les données sur lesquelles il s'entraîne. La production de données d'entraînement de haute qualité est donc un impératif pour les équipes ML avancées. S'assurer que chaque actif d'un grand ensemble de données est étiqueté avec précision prend encore plus de temps et de ressources, de l'obtention de l'avis d'experts du domaine à la création de processus d'examen pour les données de formation.

  • Le cycle itératif: L'apprentissage automatique, comme le développement de logiciels, nécessite un cycle itératif processus pour produire des résultats positifs. Alors que les développeurs de logiciels peuvent itérer sur une application plusieurs fois par jour, le cycle itératif pour les équipes ML peut prendre des semaines ou des mois. Cela est principalement dû à la quantité de données d'entraînement nécessaires pour obtenir un algorithme jusqu'au niveau de précision requis. Données: Habituellement, les équipes ML étiquettent simplement toutes les données dont elles disposent pour former leur modèle, ce qui ne prend pas seulement du temps et des ressources pour bien étiqueter, mais nécessite également une infrastructure d'étiquetage plus compliquée pour prendre en charge des volumes de données plus importants. Au fur et à mesure que leurs cycles lents progressent, les équipes ML connaissent également généralement une diminution des gains de performances, de sorte que des quantités encore plus importantes de données de formation sont nécessaires pour de petites améliorations des performances.
  • Ci-dessus: Alors que le nombre d'annotations et les coûts augmentent avec le temps à mesure qu'un modèle est formé, ses performances voient ses rendements décroissants.

    Les équipes qui ont du mal à accélérer leur cycle d'itération et à mieux répartir leurs ressources entre la production de données d'entraînement et l'évaluation et le débogage des performances des modèles peuvent bénéficier de l'utilisation de workflows d'apprentissage actif pour entraîner leurs modèles plus rapidement et plus efficacement.

    Avantages de l'apprentissage actif

    L'apprentissage actif est une méthode d'apprentissage automatique dans laquelle les modèles « demandent » les informations dont ils ont besoin pour mieux performer. Cette méthode garantit qu'un modèle est formé uniquement sur les données les plus susceptibles d'augmenter ses performances. Cela peut aider les équipes ML à améliorer considérablement la vitesse et l'efficacité. Les équipes qui adoptent cette méthode:

      génèrent moins de données de formation, ce qui permet d'économiser du temps et des coûts d'étiquetage, ce qui le rend plus facile à produire des étiquettes de haute qualité, et réduisant le temps entre les itérations

      Avoir une meilleure compréhension de la performance de leurs modèles, afin que les ingénieurs puissent prendre des décisions basées sur les données lors du développement de leur algorithme

      Organiser plus facilement les ensembles de données de formation en fonction des performances du modèle


      De meilleures données, pas plus de données

      L'apprentissage actif déplace l'attention de la quantité de données d'entraînement vers la qualité des données de formation. Une approche centrée sur les données du ML a été saluée comme un pivot nécessaire de l'IA par les leaders du secteur, notamment Andrew Ng de DeepLearning.ai. Si le modèle est aussi bon que les données sur lesquelles il est entraîné, la clé d'un modèle hautement performant réside dans des données d'entraînement de haute qualité. Et bien que la qualité d'un actif étiqueté dépende en partie de la qualité de son étiquetage et de la manière dont il a été étiqueté par rapport au cas d'utilisation ou au problème spécifique pour lequel le modèle est créé, cela dépend également de la question de savoir si l'actif étiqueté améliorera réellement le modèle. performance.

      L'utilisation de l'apprentissage actif nécessite que les équipes organisent leurs ensembles de données de formation en fonction de l'endroit où le modèle est le moins confiant après son dernier cycle de formation – une pratique qui, selon mon expérience chez Labelbox et des recherches récentes de l'Université de Stanford, peuvent conduire à des performances de modèle équivalentes avec 10% à 50% de données d'entraînement en moins, selon vos méthodes de sélection de données précédentes. Avec moins de données à étiqueter pour chaque itération, les ressources nécessaires pour étiqueter les données de formation seront considérablement réduites. Ces ressources peuvent ensuite être allouées pour garantir que les étiquettes créées sont de haute qualité.

      Un ensemble de données plus petit prendra également moins de temps à étiqueter, réduisant le temps entre les itérations et permettant aux équipes de former leurs modèles à un rythme beaucoup plus rapide. Les équipes réaliseront également des gains de temps plus importants en s'assurant que chaque jeu de données améliore les performances du modèle, en amenant le modèle à des performances de niveau de production beaucoup plus rapidement qu'avec d'autres méthodes de sélection de données.

      Comprendre les performances du modèle

      Un aspect essentiel de l'apprentissage actif est évaluer et comprendre les performances du modèle après chaque itération. Il est impossible de gérer efficacement le prochain ensemble de données de formation sans d'abord trouver des zones de faible confiance et des cas extrêmes. Les équipes ML dédiées à un processus d'apprentissage actif devront suivre toutes les mesures de performance en un seul endroit pour mieux suivre les progrès. Ils bénéficieront également de la comparaison visuelle des prédictions du modèle avec la vérité terrain, en particulier pour la vision par ordinateur et les cas d'utilisation de texte.

      Ci-dessus: l'outil Model Diagnostics de Labelbox permet aux équipes ML de visualiser les performances du modèle et de trouver facilement les erreurs.

      Une fois que l'équipe a ces systèmes en place qui permettent une analyse rapide et facile des erreurs de modèle, ils peuvent prendre des décisions éclairées lors de la constitution du prochain lot de données de formation et hiérarchiser les actifs qui illustrent les classes et les cas extrêmes que le modèle doit améliorer. Ce processus garantira que les modèles atteignent des niveaux de confiance élevés à un rythme beaucoup plus rapide qu'une procédure typique impliquant de grands ensembles de données et/ou des ensembles de données créés par des techniques d'échantillonnage aléatoire.

      Défis de l'apprentissage actif

      Bien que l'apprentissage actif offre de nombreux avantages, il nécessite une infrastructure spécifique pour garantir un processus fluide et reproductible sur plusieurs itérations et modèles. Les équipes ML ont besoin d'un endroit pour surveiller les métriques de performance du modèle et approfondir les données pour des informations spécifiques, plutôt que le patchwork d'outils et de méthodes d'analyse qui sont généralement utilisés. Pour ceux qui travaillent sur la vision par ordinateur ou les cas d'utilisation de texte, un moyen de visualiser les prédictions du modèle et de les comparer aux données de vérité sur le terrain peut être utile pour identifier les erreurs et hiérarchiser les actifs pour le prochain ensemble de données de formation.

      « Lorsque vous avez des millions, voire des dizaines de millions de données non structurées, vous avez besoin d'un moyen de les échantillonner, de trouver celles que vous allez mettre en file d'attente pour l'étiquetage », a déclaré Matthew McAuley, Senior Data Scientist chez Allstate pendant un récent webinaire avec Labelbox et VentureBeat.

      Les équipes auront également besoin d'un pipeline de données de formation qui leur donne une visibilité et un contrôle complets sur leurs actifs afin de produire des données de formation de haute qualité pour leurs modèles.

      « Vous avez besoin d'outils autour de cela , et vous avez besoin de cet outil intégré à votre magasin de données non structurées », a déclaré McAuley.

      Les équipes ML qui utilisent Labelbox ont accès à l'infrastructure susmentionnée, le tout au sein d'une seule plate-forme de données de formation. Regardez cette courte démo pour voir comment cela fonctionne.

      Gareth Jones est responsable du diagnostic et du catalogue de modèles chez Labelbox.


      Les articles sponsorisés sont du contenu produit par une entreprise qui soit paie pour la publication, soit entretient une relation commerciale avec VentureBeat, et ils sont toujours clairement indiqués. Le contenu produit par notre équipe éditoriale n'est en aucun cas influencé par les annonceurs ou les sponsors. Pour plus d'informations, contactez sales@venturebeat.com.