Maillage de données: qu'est-ce que c'est et pourquoi vous devriez vous en soucier

janvier 28, 2022 Par admin 0
Maillage de données: qu'est-ce que c'est et pourquoi vous devriez vous en soucier

Vous avez manqué une session du Sommet sur l'avenir du travail? Rendez-vous sur notre bibliothèque à la demande Future of Work Summit pour diffuser.


Cet article a été rédigé par Bruno Aziza, responsable des données et de l'analyse chez Google Cloud

« Maillage de données » est un terme sur lequel la plupart des fournisseurs, des éducateurs et des experts en données semblent avoir atterri en masse pour définir l'une des tendances les plus perturbatrices du les mondes des données, de l'IA et de l'analytique. Selon Google Trends, en 2021, le «maillage de données» a surmonté le «data lakehouse» qui avait, jusqu'à présent, été assez populaire dans l'industrie.

vous travaillez dans la technologie, vous ne pourrez pas échapper au maillage de données en 2022.

Maillage de données: une définition simple

La genèse du maillage de données provient d'un article rédigé en mai 2019 par Zhamak Dehghani. Dans cet article, le consultant Thoughtworks décrit les limites des plateformes de données centralisées, monolithiques et indépendantes du domaine.

Ces plates-formes prennent souvent la forme d'entrepôts de données d'entreprise propriétaires avec « des milliers de tâches, de tables et de rapports ETL non maintenables que seul un petit groupe de personnes spécialisées comprennent, ce qui entraîne un impact positif sous-estimé sur l'entreprise », ou des lacs de données complexes qui sont « exploités par une équipe centrale d'ingénieurs de données hyper-spécialisés qui , au mieux, ont permis des poches d'analyse R&D », selon Dehghani. Ce dernier cas est souvent qualifié de «marais de données», un lac de données où les données de toutes sortes stagnent, ne sont pas utilisées et sont finalement inutiles.

Le maillage de données entend offrir une solution à ces problèmes en se concentrant sur la conception axée sur le domaine et guide les dirigeants vers une « pile de données moderne » pour atteindre un équilibre entre centralisation et décentralisation des métadonnées et de la gestion des données.

L'une des meilleures explications et implémentations du concept de maillage de données que j'ai lues à ce jour se trouve dans la série en deux parties de L'Oréal CIO François Nguyen intitulée « Vers un Data Maillage » (Partie 1, Partie 2).

Si vous ne l'avez pas encore lu, arrêtez tout et faites-le maintenant. Il n'y a pas de meilleur conseil que celui des praticiens qui testent les théories dans la pratique et rapportent les résultats du monde réel sur leur parcours de données. L'article de François regorge de conseils utiles sur la façon dont un maillage de données peut guider la composition et l'organisation de votre équipe de données. La «deuxième partie» de son blog fournit des conseils vrais, testés et techniques sur la façon de mettre en œuvre avec succès un maillage de données.

N'oubliez pas qu'un maillage de données est plus qu'une architecture technique; c'est une façon de s'organiser autour de la propriété des données et de son activation. Lorsqu'il est déployé avec succès, le maillage de données devient la base d'une pile de données moderne qui repose sur six principes clés. Pour que votre maillage de données fonctionne, les données doivent être 1) détectables, 2) adressables, 3) dignes de confiance, 4) auto-descriptives, 5) interopérables et 6) sécurisées.

À mon avis, une septième dimension devrait être ajoutée au concept de maillage de données: financièrement responsable et financièrement exact. L'un des plus grands défis (et opportunités) d'une pile de données distribuée et moderne est la véritable allocation des ressources (et des coûts) aux domaines.

Beaucoup interpréteront ce commentaire comme un argument « le cloud vous coûte plus cher ». Ce n'est pas ce à quoi je fais référence. En fait, je crois que le coût ne devrait pas être évalué isolément. Cela devrait être corrélé à la valeur commerciale: si votre entreprise peut tirer une valeur exponentielle des données en investissant dans un maillage de données moderne (et responsable) dans le cloud, alors vous devriez investir davantage.

Les plus gros problèmes dans ce domaine n'ont pas été le manque de données ou le manque d'investissement. Ils ont parlé du manque de valeur. Selon Accenture, près de 70% des organisations ne peuvent toujours pas tirer parti de leurs données.

Ne vous laissez pas distraire par le battage médiatique

Si votre objectif ultime est de générer de la «valeur commerciale» à partir des données, comment le concept de maillage de données vous aide-t-il? L'un de vos plus grands défis cette année sera probablement d'éviter d'être pris dans l'euphorie à la mode qui entoure le terme. Au lieu de cela, concentrez-vous sur l'utilisation du maillage de données comme moyen d'atteindre votre objectif final.

Il y a deux concepts clés à considérer:

Le maillage de données n'est pas le début

Dans un article récent, mon ami Andrew Brust a noté que «la dispersion est l'état naturel des données opérationnelles» et que «l'ensemble du corpus de données opérationnelles est censé être dispersé. C'est grâce à l'optimisation, et non à l'incompétence. » En d'autres termes, les données dont vous avez besoin sont censées vivre dans un état distribué. Ce sera sur site, ce sera dans le cloud, ce sera dans plusieurs clouds. Demandez à votre équipe : « Avons-nous fait l'inventaire de toutes les données dont nous avons besoin ? Comprenons-nous où tout cela se trouve?

N'oubliez pas que, selon l'article original de Dehghani, pour que votre maillage de données fonctionne, vos données doivent être « découvrables, adressables, dignes de confiance, auto-descriptives, interopérable et sécurisé. Cela suppose qu'il y ait une étape avant l'étape de maillage des données.

J'ai l'honneur de passer beaucoup de temps avec de nombreux leaders des données, et la meilleure description que j'ai entendue de ce que pourrait être cette étape est « l'océan de données » de Johan Wibergh et Simon Harris de Vodafone. L'océan de données est plus large que le concept de lacs de données enclavés. Il vise à fournir en toute sécurité une visibilité complète sur l'ensemble du parc de données à la disposition des équipes de données pour réaliser leur potentiel, sans nécessairement le déplacer.

Le maillage de données n'est pas la fin

Maintenant que nous avons établi que le maillage de données a besoin d'une base de données pour fonctionner correctement, explorons ce vers quoi le maillage de données vous mène. Si votre objectif est de générer de la valeur à partir des données, comment matérialisez-vous les résultats de votre maillage de données ? C'est là que les produits de données entrent en jeu.

Nous savons que la valeur des données provient de leur utilisation et de leur application. Je ne parle pas ici de simples tableaux de bord. Je fais référence à des produits de données intelligents et riches qui déclenchent des actions pour créer de la valeur et protéger vos employés et votre entreprise. Pensez à la détection d'anomalies pour vos réseaux, à la prédiction des fraudes pour vos comptes bancaires ou aux moteurs de recommandation qui créent des expériences client supérieures en temps réel.

En d'autres termes, alors que l'océan de données est la base architecturale nécessaire à la réussite de votre maillage de données, le maillage de données lui-même est le modèle organisationnel qui permet à votre équipe de créer des produits de données. Si chaque entreprise est une « entreprise de données », sa devise est les « produits de données » qu'elle peut produire, sa répétabilité et sa fiabilité. C'est un concept que McKinsey Analytics a inventé la « fabrique de données ».

De quoi devriez-vous vous inquiéter?

En savoir plus sur le concept de maillage de données tout au long de l'année, vous entendrez très probablement parler de trois types de personnes: les disciples, les distracteurs et les déformateurs.

Les disciples vous encourageons à revenir à l'article original ou même à contacter directement Dehghani si vous avez des questions. Vous pouvez également commander son livre, qui sort bientôt.

Les distracteurs seront des experts ou des vendeurs qui voudront étiqueter le concept de « maillage de données » comme un mode ou vieille tendance : «Regarde ailleurs!» ils diront, « il n'y a rien de nouveau ici! » Soyez prudent. La nouveauté est relative à votre état actuel. Revenez à la genèse et décidez par vous-même si ce concept est nouveau pour vous, votre équipe et votre organisation.

Les facteurs de distorsion seront probablement les fournisseurs (logiciels, fournisseurs, services) qui bénéficieront directement du tracé d'une ligne droite entre l'article de Dehghani et leur produit, solution ou service. Fais attention. Comme mon ami Eric Broda l'explique dans son blog d'architecture de maillage de données, « il n'y a pas un seul produit qui vous apporte le maillage de données. »

La meilleure solution à mon avis est de connecter avec les praticiens. Ces dirigeants qui ont mis en pratique la théorie et qui sont prêts à partager leurs apprentissages.

Bruno Aziza est responsable des données et de l'analyse chez Google Nuage.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat!

DataDecisionMakers est l'endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur les technologies de pointe des idées et des informations à jour, les meilleures pratiques et l'avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager de contribuer un article de votre propre!

Lire la suite de DataDecisionMakers