Dataiku publie une nouvelle version de la plate-forme d'IA unifiée pour l'apprentissage automatique

décembre 2, 2021 Par admin 0
Dataiku publie une nouvelle version de la plate-forme d'IA unifiée pour l'apprentissage automatique

Écoutez les DSI, les CTO et d'autres cadres supérieurs et cadres supérieurs sur les stratégies de données et d'IA lors du Future of Work Summit ce 12 janvier 2022.

Apprendre encore plus


Dataiku a récemment publié la version 10 de sa plate-forme d'IA unifiée. VentureBeat s'est entretenu avec Dan Darnell, responsable du marketing produit chez Dataiku et ancien vice-président du marketing produit chez H2O.ai, pour discuter de la façon dont la nouvelle version offre une meilleure gouvernance et une meilleure surveillance des efforts d'apprentissage automatique de l'entreprise, améliore les opérations de ML et permet aux entreprises d'évoluer leurs efforts de ML et d'IA.

Gouvernance et surveillance

Pour Darnell, la règle du jeu est la gouvernance. « Jusqu'à récemment », a-t-il déclaré à VentureBeat, « les outils de science des données dans de nombreuses entreprises étaient le Far West, différents groupes adoptant leurs outils préférés ». Cependant, il voit un changement notable dans l'outillage se consolider «alors que les entreprises se rendent compte qu'elles manquent de visibilité sur ces environnements cloisonnés, ce qui pose un énorme risque opérationnel et de conformité. Ils recherchent un référentiel ML unique pour offrir une meilleure gouvernance et une meilleure surveillance. » Dataiku n'est pas le seul à repérer cette tendance, avec des produits concurrents comme AWS MLOps abordant le même espace.

Avoir un point de gouvernance unique est utile pour les utilisateurs d'entreprise. Darnell le compare à une seule «tour de guet, à partir de laquelle visualiser tous les projets de données d'une organisation». Pour Dataiku, cela permet des workflows de projet qui fournissent des plans pour les projets, des workflows d'approbation qui nécessitent l'approbation de la direction avant de déployer de nouveaux modèles, une évaluation des risques et de la valeur pour noter leurs projets d'IA, et un registre de modèles centralisé pour versionner les modèles et suivre les performances des modèles.

Pour sa nouvelle version, la gouvernance est centrée sur le «projet», qui contient également les sources de données, le code, les blocs-notes, les modèles, les règles d'approbation et les wikis de démarque associés à cet effort. Tout comme GitHub est allé au-delà du simple hébergement de code pour héberger le contexte autour du codage qui facilite la collaboration, tel que les demandes d'extraction, CI/CD, les wikis de démarque et le workflow de projet, les «projets» éponymes de Dataiku aspirent à faire de même pour les projets de données. « Que vous écriviez votre modèle à l'intérieur de Dataiku ou ailleurs, nous voulons que vous mettiez ce modèle dans notre produit », a déclaré Darnell.

Opérations de ML

La gouvernance et la surveillance s'étendent également au domaine émergent des opérations de ML, une discipline en croissance rapide qui applique plusieurs bonnes pratiques DevOps pour les modèles d'apprentissage automatique. Dans son communiqué de presse, Dataiku définit les opérations de ML comme aidant «les opérateurs informatiques et les scientifiques des données à évaluer, surveiller et comparer les modèles d'apprentissage automatique, qu'ils soient en cours de développement ou en production». Dans ce domaine, Dataiku est en concurrence avec des produits tels que Model Monitor de Sagmaker, Vertex AI Model Monitoring de GCP ou MLOps d'Azure.

L'analyse de dérive automatique est une nouvelle fonctionnalité importante. Au fil du temps, les données peuvent fluctuer en raison de changements sous-jacents subtils échappant au contrôle du modélisateur. Par exemple, à mesure que la pandémie progressait et que les consommateurs commençaient à constater des retards dans la réouverture des gymnases, les ventes d'équipements d'exercice à domicile ont commencé à augmenter. Cette dérive des données peut entraîner de mauvaises performances pour les modèles qui ont été entraînés sur des données obsolètes.

Les scénarios de simulation sont l'une des fonctionnalités les plus intéressantes de la nouvelle plate-forme d'IA . Les modèles d'apprentissage automatique vivent généralement dans du code, accessible uniquement aux data scientists, aux ingénieurs de données et aux systèmes informatiques qui les traitent. Mais les intervenants commerciaux non techniques veulent voir comment le modèle fonctionne pour eux-mêmes. Ces experts du domaine ont souvent des connaissances importantes et souhaitent souvent se familiariser avec un modèle avant de l'approuver. Les «simulations» de Dataiku enveloppent un modèle afin que les parties prenantes non techniques puissent interroger le modèle en définissant différentes entrées dans une interface graphique interactive, sans plonger dans le code. «L'autonomisation des utilisateurs non techniques dans le cadre du flux de travail de la science des données est un élément essentiel des MLOps», a déclaré Darnell.

Mise à l'échelle du ML et de l'IA

«Nous pensons que le ML et l'IA seront partout dans l'organisation, et nous devons débloquer le goulot d'étranglement du data scientist étant la seule personne capable de faire du travail de ML », a déclaré Darnell.

Une façon dont Dataiku s'y attaque est de réduire le travail redondant des data scientists analystes. Le travail de duplication est le fléau de toute grande entreprise où les silos de code sont endémiques. Les data scientists reprennent le travail car ils ne savent tout simplement pas si cela a été fait ailleurs. Un catalogue d'extraits de code peut offrir aux data scientists et aux analystes une plus grande visibilité sur les travaux antérieurs afin qu'ils puissent se reposer sur les épaules de leurs collègues plutôt que de réinventer la roue. Que le catalogue puisse fonctionner ou non dépendra des performances de recherche – un problème notoirement délicat – ainsi que de la capacité de la recherche à identifier facilement le travail antérieur pertinent, libérant ainsi les scientifiques des données pour accomplir des tâches plus précieuses.

En plus d'essayer de rendre les scientifiques des données plus efficaces, la plate-forme d'IA de Dataiku fournit également des interfaces graphiques sans code pour la préparation des données et des capacités AutoML pour effectuer ETL, former des modèles et évaluer leur qualité. Cette fonctionnalité est destinée aux utilisateurs techniquement compétents qui ne peuvent pas coder et leur permet d'effectuer de nombreuses tâches de science des données. Grâce à une interface graphique sans code, les utilisateurs peuvent contrôler quels modèles ML sont disponibles pour l'algorithme AutoML et effectuer des manipulations de fonctionnalités de base sur les données d'entrée. Après la formation, la page fournit des visuels pour faciliter l'interprétabilité du modèle, pas seulement des coefficients de régression, une sélection d'hyperparamètres et des mesures de performance, mais des diagnostics plus sophistiqués comme l'analyse de sous-population. Ce dernier est très utile pour le biais de l'IA, où les performances du modèle peuvent être très fortes dans l'ensemble mais faibles pour une sous-population vulnérable, ce qui entraîne un biais. Les solutions sans code sont à la mode, AWS publiant également Sagemaker Canvas, un produit concurrent.

En savoir plus sur Dataiku

Le produit initial de Dataiku, le «Data Science Studio», se concentrait sur la fourniture d'outils permettant au data scientist individuel de devenir plus productif. Avec Dataiku 10, son objectif est déplacé vers l'entreprise, avec des fonctionnalités qui ciblent le CTO ainsi que le data scientist de base. Ce changement n'est pas rare parmi les fournisseurs de science des données qui recherchent des accords d'entreprise plus collants à sept chiffres avec des multiples d'investisseurs plus élevés. Cette direction reflète des mouvements similaires de concurrents bien établis dans l'espace de la science des données d'entreprise dans le cloud, notamment Databricks, Oracle's Autonomous DataWarehouse, GCP Vertex, Microsoft Azure ML et AWS Sagemaker, sur lesquels VentureBeat a déjà écrit.

  • VentureBeat
  • La mission de VentureBeat est d'être une place publique numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie transformatrice et d'effectuer des transactions. Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :

  • des informations à jour sur les sujets qui vous intéressent
    • nos newsletters

  • contenu de leader d'opinion et accès à prix réduit à nos événements prisés, tels que

    Transformer 2021: Apprendre encore plus

  • Fonctionnalités de mise en réseau, et plus

    Devenir membre