3 gros problèmes avec les ensembles de données en IA et en apprentissage automatique

décembre 17, 2021 Par admin 0
3 gros problèmes avec les ensembles de données en IA et en apprentissage automatique

[M]

Crédit d'image: Getty Images


Écouter des CIO, CTO et autres cadres supérieurs et cadres supérieurs sur les stratégies de données et d'IA lors du Sommet sur l'avenir du travail le 12 janvier 2022.

Apprendre encore plus

)

Les jeux de données alimentent les modèles d'IA comme l'essence (ou l'électricité, selon le cas) alimentent les voitures . Qu'ils soient chargés de générer du texte, de reconnaître des objets ou de prédire le cours des actions d'une entreprise, les systèmes d'IA «apprennent» en passant au crible d'innombrables exemples pour discerner des modèles dans les données. Par exemple, un système de vision par ordinateur peut être entraîné à reconnaître certains types de vêtements, comme les manteaux et les écharpes, en regardant différentes images de ces vêtements.

Au-delà du développement de modèles, des ensembles de données sont utilisés pour tester les systèmes d'IA entraînés afin de s'assurer qu'ils restent stables et mesurer les progrès globaux sur le terrain. Les modèles qui arrivent en tête des classements sur certains benchmarks open source sont considérés comme à la pointe de la technologie (SOTA) pour cette tâche particulière. En fait, c'est l'un des principaux moyens par lesquels les chercheurs déterminent la force prédictive d'un modèle.

Mais ces IA et apprentissage automatique les ensembles de données – comme les humains qui les ont conçus – ne sont pas sans défauts. Des études montrent que les biais et les erreurs colorent de nombreuses bibliothèques utilisées pour former, comparer et tester des modèles, soulignant le danger de trop faire confiance aux données qui n'ont pas été soigneusement vérifiées, même lorsque les données proviennent d'institutions vantées.

1. Le dilemme de la formation

En IA, le benchmarking consiste à comparer les performances de plusieurs modèles conçus pour la même tâche, comme la traduction de mots entre les langues. La pratique – qui a pour origine des universitaires explorant les premières applications de l'IA – a l'avantage d'organiser les scientifiques autour de problèmes communs tout en aidant à révéler les progrès réalisés. En théorie.

Mais il y a des risques à devenir myope dans la sélection des ensembles de données. Par exemple, si le même ensemble de données d'apprentissage est utilisé pour de nombreux types de tâches, il est peu probable que l'ensemble de données reflète avec précision les données que les modèles voient dans le monde réel. Des ensembles de données mal alignés peuvent fausser la mesure des progrès scientifiques, amenant les chercheurs à croire qu'ils font un meilleur travail qu'ils ne le sont réellement – et causant des dommages aux personnes dans le monde réel.

Une étude récente du MIT révèle que les ensembles de données de vision par ordinateur, y compris ImageNet, contiennent des signaux problématiques «insensés». Les modèles entraînés sur eux souffrent d'une «surinterprétation», un phénomène où ils classent avec une grande confiance des images manquant tellement de détails qu'elles n'ont aucun sens pour les humains. Ces signaux peuvent conduire à une fragilité du modèle dans le monde réel, mais ils sont valides dans les ensembles de données, ce qui signifie que la surinterprétation ne peut pas être identifiée à l'aide de méthodes typiques.

«Il y a la question de savoir comment nous pouvons modifier les ensembles de données d'une manière qui permettrait aux modèles d'être formés pour imiter plus étroitement la façon dont un humain penserait à classer les images et donc, espérons-le, mieux généraliser dans ces vraies -scénarios mondiaux, comme la conduite autonome et le diagnostic médical, afin que les modèles n'aient pas ce comportement absurde », explique Brandon Carter, titulaire d'un doctorat du MIT. étudiant et auteur principal de l'étude, a déclaré dans un communiqué.

L'histoire est remplie d'exemples des conséquences du déploiement de modèles entraînés en utilisant des ensembles de données défectueux, comme des arrière-plans virtuels et des outils de recadrage photo qui défavorisent les individus à la peau plus foncée. En 2015, un ingénieur logiciel a souligné que les algorithmes de reconnaissance d'images de Google Photos qualifiaient ses amis noirs de « gorilles ». Et l'organisation à but non lucratif AlgorithmWatch a montré que l'API Cloud Vision de Google étiquetait à un moment donné les thermomètres détenus par une personne noire comme des «armes à feu» tout en étiquetant les thermomètres détenus par une personne à la peau claire comme des «appareils électroniques».

Les experts attribuent également de nombreuses erreurs dans les systèmes de reconnaissance faciale, de langue et de reconnaissance vocale à des défauts dans les ensembles de données utilisés pour former les modèles. Par exemple, une étude menée par des chercheurs de l'Université du Maryland a révélé que les services de détection des visages d'Amazon, Microsoft et Google sont plus susceptibles d'échouer avec les personnes plus âgées, à la peau plus foncée et celles qui sont moins «féminines». Selon le projet Voice Erasure de l'Algorithmic Justice League, les systèmes de reconnaissance vocale d'Apple, Amazon, Google, IBM et Microsoft atteignent collectivement des taux d'erreur de mots de 35% pour les voix noires contre 19% pour les voix blanches. Et il a été démontré que les modèles linguistiques présentent des préjugés selon la race, l'ethnie, la religion et le sexe, associant les Noirs à des émotions plus négatives et luttant avec «l'anglais aligné sur les noirs».

« Données étant extraits de nombreux endroits différents sur le Web [in some cases], et que les données Web reflètent les mêmes préjugés et préjugés au niveau de la société que les idéologies hégémoniques (par exemple, la blancheur et la domination masculine) », Bernard Koch et Jacob G de l'UC Los Angeles Foster et Emily Denton et Alex Hanna de Google, les coauteurs de «Reduced, Reused, and Recycled», ont déclaré à VentureBeat par e-mail. «De plus grands… les modèles nécessitent plus de données d'entraînement, et il y a eu une lutte pour nettoyer ces données et empêcher les modèles d'amplifier ces idées problématiques.»

2. Problèmes d'étiquetage

Étiquettes, les annotations à partir desquelles de nombreux modèles apprennent relations dans les données, portent également la marque du déséquilibre des données. Les humains annotent les exemples dans les ensembles de données d'entraînement et de référence, en ajoutant des étiquettes comme «chiens» aux images de chiens ou en décrivant les caractéristiques d'une image de paysage. Mais les annotateurs apportent leurs propres biais et lacunes, ce qui peut se traduire par des annotations imparfaites.

Par exemple, des études ont montré que l'annotateur moyen est plus susceptible d'étiqueter des phrases en anglais vernaculaire afro-américain (AAVE), la grammaire informelle, le vocabulaire et l'accent utilisés par certains Noirs américains, comme toxiques. Dans un autre exemple, quelques étiqueteurs pour l'ensemble de données 80 Million Tiny Images du MIT et de la NYU – qui a été mis hors ligne en 2020 – ont contribué à des annotations racistes, sexistes et offensantes, y compris près de 2 000 images étiquetées avec le mot N et des étiquettes comme «suspect de viol». et « agresseur d'enfants ».

En 2019,

Wired

a signalé la vulnérabilité de plates-formes comme Amazon Mechanical Turk – où de nombreux chercheurs recrutent des annotateurs – aux robots automatisés. Même lorsque les travailleurs sont des êtres humains vérifiables, ils sont motivés par payer plutôt que des intérêts, ce qui peut entraîner des données de mauvaise qualité, en particulier lorsqu'elles sont mal traitées et payées à un taux inférieur au marché. Des chercheurs, dont Niloufar Salehi, ont tenté de s'attaquer aux défauts d'Amazon Mechanical Turk avec des efforts comme Dynamo, un collectif de travailleurs en libre accès, mais ils ne peuvent pas faire grand-chose.

Étant humains, les annotateurs commettent également des erreurs, parfois majeures. Dans une analyse du MIT de références populaires, y compris ImageNet, les chercheurs ont trouvé des images mal étiquetées (comme une race de chien confondue avec une autre), des sentiments textuels (comme des critiques de produits Amazon décrites comme négatives alors qu'elles étaient en réalité positives) et l'audio de vidéos YouTube ( comme une note élevée d'Ariana Grande classée comme un sifflet).

Une solution pousse à la création d'ensembles de données plus inclusifs, comme le People's Speech Dataset de MLCommons et le Multilingual Spoken Words Corpus. Mais la conservation de ceux-ci prend du temps et coûte cher, souvent avec un prix pouvant atteindre des millions de dollars. Common Voice, l'effort de Mozilla pour créer une collection open source de données vocales transcrites, n'a examiné que des dizaines de langues depuis son lancement en 2017, illustrant le défi.

L'une des raisons pour lesquelles la création d'un jeu de données est si coûteuse est l'expertise du domaine requise pour des annotations de haute qualité. Comme Synced l'a noté dans un article récent, la plupart des étiqueteuses bon marché ne peuvent annoter que des données relativement «à faible contexte» et ne peuvent pas gérer des données «àcontexte élevé» telles que la classification des contrats juridiques, les images médicales ou la littérature scientifique. Il a été démontré que les conducteurs ont tendance à étiqueter les ensembles de données de conduite autonome plus efficacement que ceux sans permis de conduire et que les médecins, les pathologistes et les radiologues réussissent mieux à étiqueter avec précision les images médicales.

Les outils assistés par machine pourraient aider dans une certaine mesure en éliminant certains des travaux les plus répétitifs du processus d'étiquetage. D'autres approches, comme l'apprentissage semi-supervisé, promettent de réduire la quantité de données nécessaires pour former des modèles en permettant aux chercheurs d'« affiner » un modèle sur de petits ensembles de données personnalisés conçus pour une tâche particulière. Par exemple, dans un article de blog publié cette semaine, OpenAI dit qu'il a réussi à affiner GPT-3 pour répondre plus précisément aux questions ouvertes en copiant la façon dont les humains recherchent des réponses aux questions en ligne (par exemple, soumettre des requêtes de recherche, suivre des liens, et faire défiler les pages vers le haut et vers le bas) et en citant ses sources, permettant aux utilisateurs de donner leur avis pour améliorer encore la précision.

Encore d'autres les méthodes visent t o remplacer les données du monde réel par des données partiellement ou entièrement synthétiques, bien que le jury se demande si les modèles entraînés sur des données synthétiques peuvent correspondre à la précision de leurs homologues des données du monde réel. Des chercheurs du MIT et d'ailleurs ont expérimenté l'utilisation du bruit aléatoire uniquement dans des ensembles de données de vision pour former des modèles de reconnaissance d'objets.

En théorie, l'apprentissage non supervisé pourrait résoudre le dilemme des données d'entraînement une fois pour toutes. Dans l'apprentissage non supervisé, un algorithme est soumis à des données «inconnues» pour lesquelles aucune catégorie ou étiquette préalablement définie n'existe. Mais si l'apprentissage non supervisé excelle dans les domaines pour lesquels il existe un manque de données étiquetées, ce n'est pas une faiblesse. Par exemple, les systèmes de vision par ordinateur non supervisés peuvent détecter les stéréotypes raciaux et de genre présents dans les données de formation non étiquetées.

3. Un problème d'analyse comparative

Les problèmes avec les ensembles de données d'IA ne s'arrêtent pas avec formation. Dans une étude de l'Institut d'intelligence artificielle et d'aide à la décision à Vienne, les chercheurs ont trouvé des analyses comparatives incohérentes dans plus de 3 800 articles de recherche sur l'IA, dans de nombreux cas attribuables à des analyses comparatives qui ne mettaient pas l'accent sur des mesures informatives. Un article distinct de Facebook et de l'University College de Londres a montré que 60 à 70 % des réponses données par les modèles de langage naturel testés sur des références de «domaine ouvert» étaient cachées quelque part dans les ensembles de formation, ce qui signifie que les modèles ont simplement mémorisé les réponses.

Dans deux études co-écrites par Deborah Raji, chercheuse en technologie à l'AI Now Institute de NYU, les chercheurs ont découvert que des références comme ImageNet sont souvent «faussement élevé» pour justifier des affirmations qui s'étendent au-delà des tâches pour lesquelles elles ont été conçues à l'origine. Cela met de côté le fait que la «culture des ensembles de données» peut fausser la science de la recherche en apprentissage automatique, selon Raji et les autres coauteurs – et manque d'une culture de soins pour les personnes concernées, engendrant de mauvaises conditions de travail (telles que de faibles salaires pour les annotateurs) tout en protégeant insuffisamment les personnes dont les données sont intentionnellement ou involontairement balayées dans les jeux de données.

Plusieurs solutions au problème du benchmarking ont été proposées pour domaines spécifiques, y compris le GENIE de l'Institut Allen. De manière unique, GENIE intègre à la fois des tests automatiques et manuels, chargeant des évaluateurs humains de tester des modèles de langage selon des directives prédéfinies et spécifiques aux ensembles de données pour la fluidité, l'exactitude et la concision. Alors que GENIE coûte cher – il en coûte environ 100 $ pour soumettre un modèle d'analyse comparative – l'Allen Institute prévoit d'explorer d'autres modèles de paiement, comme demander un paiement aux entreprises technologiques tout en subventionnant le coût pour les petites organisations.

« [F] se concentrer uniquement sur les performances de pointe ne met pas l'accent sur d'autres critères importants qui capturent une contribution significative », ont déclaré Koch, Foster, Denton et Hanna. « [For example,] L'analyse comparative SOTA encourage la création d'algorithmes non respectueux de l'environnement. La construction de modèles plus grands a été essentielle pour améliorer les performances en apprentissage automatique, mais elle n'est également pas écologiquement viable à long terme… L'analyse comparative SOTA [also] n'encourage pas les scientifiques à développer une compréhension nuancée des défis concrets présentés par leur tâche. dans le monde réel, et peut plutôt encourager une vision en tunnel sur des scores croissants. L'exigence d'atteindre SOTA limite la création de nouveaux algorithmes ou algorithmes qui peuvent résoudre des problèmes du monde réel. Solutions possibles de jeux de données AI

Compte tenu des nombreux défis posés par les ensembles de données d'IA, des données d'entraînement déséquilibrées aux repères inadéquats, il ne sera pas facile d'apporter des changements significatifs. Mais les experts pensent que la situation n'est pas désespérée.

Arvind Narayanan, un informaticien de Princeton qui a écrit plusieurs ouvrages sur le provenance des ensembles de données d'IA, affirme que les chercheurs doivent adopter des approches responsables non seulement pour collecter et annoter les données, mais aussi pour documenter leurs ensembles de données, les maintenir et formuler les problèmes pour lesquels leurs ensembles de données sont conçus. Dans une étude récente qu'il a co-écrit, Narayanan a découvert que de nombreux ensembles de données sont sujets à une mauvaise gestion, les créateurs n'étant pas précis dans le langage de la licence sur la façon dont leurs ensembles de données peuvent être utilisés ou interdisant des utilisations potentiellement douteuses.

NeurIPS – l'une des plus grandes conférences d'apprentissage automatique au monde – a exigé que les co-auteurs qui soumettent des articles doivent indiquer le «un impact potentiel plus large de leur travail» sur la société, à commencer par NeurIPS 2020 l'année dernière. Le ramassage a été mitigé, mais Koch et ses coauteurs pensent que c'est un petit pas dans la bonne direction.

« [M] les chercheurs en apprentissage automatique créent de nombreux ensembles de données, mais ils ne sont pas utilisés. L'un des problèmes ici est que de nombreux chercheurs peuvent penser qu'ils doivent inclure la référence largement utilisée pour donner de la crédibilité à leur article, plutôt qu'une référence plus spécialisée mais techniquement appropriée », ont-ils déclaré. « De plus, les incitations professionnelles doivent être alignées sur la création de ces ensembles de données… Nous pensons qu'il y a encore une partie de la communauté de la recherche qui est encore sceptique à l'égard de la réforme de l'éthique, et aborder les problèmes scientifiques pourrait être un moyen différent d'amener ces personnes derrière les réformes pour évaluation dans l'apprentissage automatique. « 

Il n'y a pas de solution simple au problème d'annotation de l'ensemble de données – en supposant que l'étiquetage ne soit finalement pas remplacé par alternatives. Mais un article récent de Google suggère que les chercheurs feraient bien d'établir des «cadres de communication étendus» avec des annotateurs, comme des applications de chat, pour fournir des commentaires plus significatifs et des instructions plus claires. Dans le même temps, ils doivent s'efforcer de reconnaître (et réellement prendre en compte) les antécédents socioculturels des travailleurs, ont écrit les coauteurs, à la fois du point de vue de la qualité des données et de l'impact sociétal.

  • VentureBeat

    La mission de VentureBeat est d'être une place de ville numérique pour les décideurs techniques afin d'acquérir des connaissances sur la technologie transformatrice et d'effectuer des transactions. Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :

  • informations à jour sur les sujets qui vous intéressent

  • nos newsletters

    contenu de leader d'opinion et accès à prix réduit à nos événements prisés, tels que Transform 2021: En savoir plus

  • )fonctionnalités de mise en réseau, et plus

    Devenir membre