Comment les plates-formes de développement d'IA sans code pourraient introduire un biais de modèle

janvier 7, 2022 Par admin 0
Comment les plates-formes de développement d'IA sans code pourraient introduire un biais de modèle

Crédit d'image: Shutterstock / Gorodenkoff

Écoutez les DSI, les CTO et d'autres cadres supérieurs et cadres supérieurs sur les stratégies de données et d'IA à l'avenir du Sommet du Travail ce 12 janvier 2022.

Apprendre encore plus


Le déploiement de l'IA dans l'entreprise a monté en flèche alors que la pandémie accélérait les plans de transformation numérique des organisations . Quatre-vingt-six pour cent des décideurs ont déclaré à PricewaterhouseCoopers dans un récent sondage que l'IA est en train de devenir une «technologie grand public» dans leur organisation. Un rapport distinct de The AI ​​Journal révèle que la plupart des dirigeants prévoient que l'IA rendra les processus métier plus efficaces et contribuera à créer de nouveaux modèles commerciaux et produits.

L'émergence de plates-formes de développement d'IA «sans code» alimente en partie l'adoption. Conçus pour faire abstraction de la programmation généralement requise pour créer des systèmes d'IA, les outils sans code permettent aux non-experts de développer des modèles d'apprentissage automatique pouvant être utilisés pour prédire la demande d'inventaire ou extraire du texte de documents commerciaux, par exemple. À la lumière de la pénurie croissante de talents en science des données, l'utilisation de plates-formes sans code devrait augmenter dans les années à venir, Gartner prédisant que 65% du développement d'applications se fera à faible code/sans code d'ici 2024.

Mais il y a des risques à faire abstraction du travail de science des données – le principal d'entre eux, ce qui permet d'oublier plus facilement les défauts dans les systèmes réels en dessous.

Développement sans code

Les plates-formes de développement d'IA sans code – qui incluent DataRobot, Google AutoML, Lobe (que Microsoft a acquis en 2018) et Amazon SageMaker, entre autres – varient dans les types d'outils qu'elles proposent aux clients finaux. Mais la plupart fournissent des tableaux de bord par glisser-déposer qui permettent aux utilisateurs de télécharger ou d'importer des données pour former, recycler ou affiner un modèle et classer et normaliser automatiquement les données pour la formation. Ils automatisent également généralement la sélection de modèles en trouvant le «meilleur» modèle en fonction des données et des prévisions requises, des tâches qui seraient normalement effectuées par un scientifique des données.

À l'aide d'une plate-forme d'IA sans code, un utilisateur peut télécharger une feuille de calcul de données dans l'interface, effectuer des sélections dans un menu et lancer le processus de création de modèle. L'outil créerait ensuite un modèle capable de repérer des modèles dans le texte, l'audio ou les images, en fonction de ses capacités, par exemple, en analysant les notes de vente et les transcriptions parallèlement aux données marketing d'une organisation.

Les outils de développement sans code offrent des avantages évidents en termes d'accessibilité, de convivialité, de vitesse, de coût et d'évolutivité. Mais Mike Cook, chercheur en IA à l'Université Queen Mary de Londres, note que si la plupart des plates-formes impliquent que les clients sont responsables de toute erreur dans leurs modèles, les outils peuvent amener les gens à minimiser les tâches importantes de débogage et d'audit des modèles.

“ e point préoccupant avec ces outils est que, comme tout ce qui concerne le boom de l'IA, ils ont l'air sérieux, officiels et sûrs. Donc, si [they tell] vous [that] vous avez amélioré votre précision prédictive de 20% avec ce nouveau modèle, vous pourriez ne pas être enclin à demander pourquoi à moins que [they tell] vous », a déclaré Cook à VentureBeat par e-mail. « Cela ne veut pas dire que vous êtes plus susceptible de créer des modèles biaisés, mais vous pourriez être moins susceptible de les réaliser ou d'aller les chercher, ce qui est probablement important. »

C'est ce qu'on appelle le biais d'automatisation – la propension des gens à faire confiance aux données des systèmes de prise de décision automatisés. Trop de transparence sur un modèle d'apprentissage automatique et les personnes – en particulier les non-experts – sont dépassées, comme l'a révélé une étude de Microsoft Research en 2018. Trop peu, cependant, et les gens font des hypothèses incorrectes sur le modèle, leur inculquant un faux sentiment de confiance. Un article de 2020 de l'Université du Michigan et de Microsoft Research a montré que même les experts ont tendance à trop faire confiance et à mal interpréter les aperçus des modèles via des graphiques et des graphiques de données, que les visualisations aient un sens mathématique ou non.

Le problème peut être particulièrement aigu dans la vision par ordinateur, le domaine de l'IA qui traite des algorithmes entraînés à «voir» et à comprendre les modèles dans le réel monde. Les modèles de vision par ordinateur sont extrêmement sensibles aux biais – même des variations dans le paysage d'arrière-plan peuvent affecter la précision du modèle, tout comme les spécifications variables des modèles de caméras. S'ils sont entraînés avec un ensemble de données déséquilibré, les modèles de vision par ordinateur peuvent défavoriser les individus à la peau plus foncée et les personnes de régions particulières du monde. Les experts attribuent également de nombreuses erreurs dans les systèmes de reconnaissance faciale, de langage et de reconnaissance vocale à des défauts dans les ensembles de données utilisés pour développer les modèles. Il a été démontré que les modèles de langage naturel – qui sont souvent formés sur des publications de Reddit – présentent des préjugés selon la race, l'ethnie, la religion et le sexe, associant les Noirs à des émotions plus négatives et luttant avec « l'anglais aligné sur les noirs ».

«Je ne pense pas que la manière spécifique dont [no-code AI development tools] fonctionne rende les modèles biaisés plus probables en soi . [A] une grande partie de ce qu'ils font consiste simplement à secouer les spécifications du système et à tester de nouvelles architectures de modèle, et techniquement, nous pourrions affirmer que leur utilisateur principal est quelqu'un qui devrait mieux connaître. Mais [they] crée une distance supplémentaire entre le scientifique et le sujet, et cela peut souvent être dangereux », a poursuivi Cook.

Le point de vue du vendeur

    Les vendeurs ressentent différemment, sans surprise. Jonathon Reilly, cofondateur de la plate-forme d'IA sans code Akkio, déclare que toute personne créant un modèle doit «comprendre que ses prédictions ne seront aussi bonnes que ses données». Bien qu'il concède que les plates-formes de développement d'IA ont la responsabilité d'éduquer les utilisateurs sur la façon dont les modèles prennent des décisions, il incombe à la compréhension de la nature des biais, des données et de la modélisation des données sur les utilisateurs.

    «Il est préférable d'éliminer les biais dans la sortie du modèle en modifiant les données d'apprentissage – en ignorant certaines entrées – afin que le modèle n'apprenne pas de modèles indésirables dans les données sous-jacentes . La meilleure personne pour comprendre les modèles et quand ils doivent être inclus ou exclus est généralement un expert en la matière – et c'est rarement le scientifique des données », a déclaré Reilly à VentureBeat par e-mail. «Suggérer que le biais des données est un défaut des plates-formes sans code revient à suggérer que la mauvaise écriture est un défaut des plates-formes de traitement de texte.»

    Le fondateur de la startup de vision par ordinateur sans code Cogniac, Bill Kish, pense également que le biais, en particulier, est un ensemble de données plutôt qu'un problème d'outillage. Le biais est le reflet de «l'imperfection humaine existante», dit-il, que les plates-formes peuvent atténuer mais n'ont pas la responsabilité de l'éliminer complètement.

    «Le problème du biais dans les systèmes de vision par ordinateur est dû au biais dans les données de «vérité sur le terrain» telles qu'elles sont conservées par les humains. Notre système atténue cela grâce à un processus où les données incertaines sont examinées par plusieurs personnes pour établir un « consensus » », a déclaré Kish à VentureBeat par e-mail. « [Cogniac] agit comme un système d'enregistrement pour la gestion des actifs de données visuelles, [showing] … la provenance de toutes les données et annotations

    en veillant à ce que les biais inhérents aux données soient mis en évidence visuellement, afin qu'ils puissent être traités par interaction humaine. Il pourrait être injuste de placer le fardeau de la création d'ensembles de données sur des outils sans code, étant donné que les utilisateurs apportent souvent leurs propres ensembles de données. Mais comme le souligne Cook, certaines plates-formes se spécialisent dans le traitement et la collecte automatiques de données, ce qui pourrait entraîner le même problème de faire oublier aux utilisateurs les problèmes de qualité des données. « Ce n'est pas évident, nécessairement, mais étant donné à quel point les gens sont déjà mauvais dans la construction de modèles, tout ce qui leur permet de le faire en moins de temps et avec moins de réflexion va probablement conduire à plus d'erreurs », a-t-il déclaré.

    Ensuite, il y a le fait que les biais du modèle ne proviennent pas uniquement des ensembles de données d'apprentissage. Comme l'indique un article du MIT Tech Review 2019, les entreprises peuvent définir le problème qu'elles essaient de résoudre avec l'IA (par exemple, évaluer la solvabilité) d'une manière qui ne tient pas compte du potentiel d'équité ou de discrimination. Ils – ou la plate-forme d'IA sans code qu'ils utilisent – peuvent également introduire un biais lors des étapes de préparation des données ou de sélection du modèle, ce qui a un impact sur la précision des prédictions.

    Bien sûr, les utilisateurs peuvent toujours sonder le biais dans diverses plates-formes de développement d'IA sans code eux-mêmes en fonction de leurs performances relatives sur des ensembles de données publics, comme Common Crawl. Et les plates-formes sans code prétendent résoudre le problème du biais de différentes manières. Par exemple, DataRobot a un paramètre «d'humilité» qui permet aux utilisateurs de dire essentiellement à un modèle que si ses prédictions semblent trop belles pour être vraies, elles le sont. «L'humilité» indique au modèle d'alerter un utilisateur ou de prendre des mesures correctives, comme écraser ses prédictions avec une limite supérieure ou inférieure, si ses prédictions ou si les résultats atterrissent en dehors de certaines limites.

    Il y a cependant une limite à ce que ces outils et techniques de débiaisation peuvent accomplir. Et sans une prise de conscience du potentiel – et des raisons – du biais, les chances que des problèmes surviennent dans les modèles augmentent.

    Reilly pense que la bonne voie pour les fournisseurs est d'améliorer l'éducation, la transparence et l'accessibilité tout en faisant pression pour des cadres réglementaires clairs. Les entreprises utilisant des modèles d'IA devraient être en mesure d'indiquer facilement comment un modèle prend ses décisions avec des preuves à l'appui de la plate-forme de développement d'IA, dit-il – et se sentir confiantes dans les implications éthiques et juridiques de leur utilisation.

    « La qualité d'un modèle pour avoir de la valeur dépend beaucoup du problème que le modèle essaie de résoudre », Reilly ajoutée. «Vous n'avez pas besoin d'être un scientifique des données pour comprendre les modèles de données que le modèle utilise pour la prise de décision.»

    VentureBeat

    La mission de VentureBeat est d'être une place publique numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie transformatrice et d'effectuer des transactions. Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :

      des informations à jour sur les sujets qui vous intéressent

      nos newsletters

      contenu de leader d'opinion contrôlé et à prix réduit accès à nos événements prisés, tels que Transform 2021: Apprendre encore plus

    • fonctionnalités de mise en réseau, et plus

    Devenir membre