Tirez le meilleur parti de vos données avec l'architecture Data Lakehouse

janvier 2, 2022 Par admin 0
Tirez le meilleur parti de vos données avec l'architecture Data Lakehouse

Crédit d'image: millionsjoker/Getty

        Écoutez les DSI, les CTO et d'autres cadres supérieurs et cadres sur les données et les stratégies d'IA au Sommet sur l'avenir du travail ce 12 janvier 2022. En savoir plus

Cet article a été rédigé par Gunasekaran S., directeur de l'ingénierie des données chez Sigmoid.

Au fil des ans, les architectures de lac de données et d'entreposage dans le cloud ont aidé les entreprises à faire évoluer leurs efforts de gestion des données tout en réduisant les coûts. Classiquement, les étapes de l'architecture de gestion des données incluent généralement l'extraction de données d'entreprise à partir de référentiels de données opérationnels et leur stockage dans un lac de données brutes. L'étape suivante consiste à exécuter une autre série de processus ETL pour déplacer des sous-ensembles critiques de ces données dans un entrepôt de données afin de générer des informations commerciales pour la prise de décision. Cependant, la configuration actuelle présente plusieurs défis, tels que:

  • Manque de cohérence: Les entreprises peuvent souvent avoir du mal à maintenir la cohérence de leur architecture de lac de données et d'entrepôt de données. Ce n'est pas seulement une affaire coûteuse, mais les équipes doivent également utiliser des tactiques d'ingénierie de données continues pour les données ETL/ELT entre les deux systèmes. Chaque étape peut introduire des échecs et des bogues indésirables affectant la qualité globale des données.

  • Ensembles de données en constante évolution: Les données stockées dans un entrepôt de données peuvent ne pas être aussi actuelles que les données d'un lac de données, ce qui dépend du calendrier et de la fréquence du pipeline de données.

        Verrouillage du fournisseur:

        Le transfert de gros volumes de données vers un EDW centralisé devient assez difficile pour les entreprises, non seulement en raison de le temps et les ressources nécessaires pour exécuter une telle tâche, mais aussi parce que cette architecture crée une boucle fermée provoquant le verrouillage du fournisseur. De plus, les données stockées dans les entrepôts sont également plus difficiles à partager avec tous les utilisateurs finaux de données au sein d'une organisation.

          Mauvaise maintenabilité

        : Avec les lacs de données et les entrepôts de données, les entreprises doivent maintenir plusieurs systèmes et faciliter la synchronisation, ce qui rend le système complexe et difficile à maintenir à long terme.

    Gouvernance des données:

    Alors que les données du lac de données ont tendance à être principalement différents formats basés sur des fichiers, un entrepôt de données est principalement au format de base de données, et cela ajoute à la complexité en termes de gouvernance et de lignage des données.

      Limites de l'analyse avancée:

      Les applications d'apprentissage automatique avancées telles que PyTorch et TensorFlow ne sont pas entièrement compatibles avec les entrepôts de données. Ces applications récupèrent les données des lacs de données où la qualité des données n'est souvent pas régie.

      Copies de données et frais associés: les données disponibles dans les lacs de données et les entrepôts de données entraînent une certaine quantité de copies de données et entraînent des coûts associés. De plus, les données d'entrepôt commercial dans des formats propriétaires augmentent le coût de la migration des données.

      Un data lakehouse répond à ces limitations typiques d'une architecture de data lake et d'entrepôt de données en combinant les meilleurs éléments des data warehouses et des data lakes pour offrir une valeur significative pour les organisations.

      Le data lakehouse : Un bref aperçu

      Un data lakehouse est essentiellement la prochaine génération d'architecture cloud de data lake et d'entreposage qui combine le meilleur des deux mondes. Il s'agit d'une approche architecturale permettant de gérer tous les formats de données (structurés, semi-structurés ou non structurés) ainsi que de prendre en charge plusieurs charges de travail de données (entrepôt de données, BI, AI/ML et streaming). Les data lakehouses reposent sur une nouvelle architecture de système ouverte qui permet aux équipes de données de mettre en œuvre des structures de données via des fonctionnalités de gestion intelligente des données similaires aux entrepôts de données sur une plate-forme de stockage à faible coût similaire à celles utilisées dans les data lakes.

      Une architecture Data Lakehouse permet aux équipes de données de glaner des informations plus rapidement car elles ont la possibilité d'exploiter les données sans accéder à plusieurs systèmes. Une architecture Data Lakehouse peut également aider les entreprises à garantir que les équipes de données disposent des données les plus précises et les plus à jour à leur disposition pour l'apprentissage machine critique, les initiatives d'analyse d'entreprise et à des fins de reporting.

      Les avantages de data lakehouse

      Il y a plusieurs raisons d'examiner l'architecture moderne de data lakehouse afin de conduire des pratiques de gestion de données durables. Voici quelques-uns des facteurs clés qui font de Data Lakehouse une option idéale pour les initiatives de stockage de données d'entreprise:

      • Qualité des données délivrée via un schéma simplifié: Un data lakehouse est livré avec une architecture à double couche où une couche d'entrepôt est intégrée sur un schéma d'application de data lake qui fournit la qualité et le contrôle des données et orchestre une BI et un reporting plus rapides.

      • Réduction de la dérive des données

        : Une architecture Data Lakehouse atténue le besoin de plusieurs copies de données et réduit considérablement les défis liés à la dérive des données.

      • Requête plus rapide: Une requête interactive plus rapide associée à une véritable démocratisation des données facilite une prise de décision plus éclairée. L'architecture permet aux data scientists, ingénieurs et analystes d'accéder rapidement aux données requises. Cela se traduit par un cycle de temps d'analyse plus rapide.

        Gestion efficace:

          En implémentant une architecture Data Lakehouse, les entreprises peuvent aider leurs équipes de données à économiser du temps et des efforts, car cela nécessite moins de temps et de ressources pour stocker et traiter les données et fournir des informations commerciales. En fait, une plate-forme unique de gestion des données instituée par le biais d'un data lakehouse peut également réduire considérablement les charges administratives.

        Gouvernance transparente des données: Un data lakehouse sert de source unique, permettant ainsi aux équipes de données d'intégrer des fonctionnalités avancées telles que la journalisation d'audit et le contrôle d'accès.

        • Accès efficace aux données et sécurité des données

          : les data lakehouses offrent aux équipes de données la possibilité de maintenir le droit contrôles d'accès et cryptage à travers les pipelines pour l'intégrité des données. De plus, dans un modèle de data lakehouse, les équipes de données ne sont pas tenues de gérer la sécurité de toutes les copies de données, ce qui rend l'administration de la sécurité beaucoup plus facile et rentable.

        • Meugler chances de redondance des données:

          Une architecture Data Lakehouse atténue le besoin de plusieurs copies de données requises dans les processus de mise en œuvre des lacs de données et des entrepôts de données, réduisant ainsi la dérive des données.

          Haute évolutivité :

          A data Lakehouse offre une grande évolutivité des données et des métadonnées. Cela permet aux entreprises d'exécuter des projets d'analyse critiques avec un cycle d'analyse rapide.

          Modèles de lac de données émergentes

        Azure Databricks Lakehouse et Snowflake sont les deux principales plates-formes Lakehouse que les entreprises peuvent exploiter pour leurs initiatives de gestion des données. Cependant, la décision d'opter pour un devrait être basée sur les exigences de l'entreprise. Plusieurs entreprises exploitent ces plates-formes ensemble, notamment Databricks pour le traitement des données et Snowflake pour les capacités d'entreposage de données. Au fil du temps, ces deux plates-formes ont progressivement commencé à s'appuyer sur les capacités que l'autre a à offrir dans la quête pour devenir une plate-forme de choix pour de multiples charges de travail.

        un regard sur ces modèles distincts de maison de lac et comment ils ont évolué au fil du temps.

        Databricks: un moteur de traitement de données sur les lacs de données ajoutant des capacités de data lakehouse

        Databricks est essentiellement un outil de traitement de données piloté par Apache Spark qui fournit aux équipes de données un environnement de programmation agile avec une capacité de calcul auto-évolutive. Les entreprises ne doivent payer que les ressources de calcul utilisées. La plate-forme Databricks est la mieux adaptée au traitement des données aux premiers stades du pipeline lorsqu'il est nécessaire de préparer et d'ingérer des données. Les entreprises peuvent également l'utiliser pour préparer les données à la transformation et à l'enrichissement, mais elles sont insuffisantes lorsqu'il s'agit de traiter les données pour le reporting.

        Au cours des dernières années, Databricks s'est concentré sur le renforcement des capacités. autour des entrepôts de données traditionnels. La plate-forme est livrée avec une interface de requête DQL intégrée et des fonctionnalités de visualisation intuitives. En dehors de cela, Databricks est également livré avec une structure de table similaire à une base de données spécifiquement développée au format de fichier Delta. Ce format est utilisé pour ajouter des capacités de base de données dans les lacs de données. Le format permet la gestion des versions des données via les transactions et le schéma ACID.

        Différentiateurs clés de la maison du lac Azure Databricks

        Livré avec un environnement Spark prêt à l'emploi sans besoin de configuration
          Technologie Delta Lake open source intégrée qui sert de couche de stockage supplémentaire
            Offre de meilleures performances en consolidant les plus petites fichiers dans les tables Delta

            ACID La fonctionnalité de la table Delta permet d'assurer une sécurité complète des données

            Dispose de plusieurs options de langage telles que Scala, Python, R, Java et SQL

          • La plate-forme prend en charge l'analyse interactive des données avec un codage de style bloc-notes

          • Fournit des options d'intégration transparente avec d'autres services de plateforme cloud tels que Blob Storage, Azure Data Factory et Azure DevOps

            Fournit un support de bibliothèque open source

          Flocon de neige: entrepôt de données cloud étendu à l'adresse capacités du lac de données

          Contrairement à Databricks, Snowflake a transformé l'espace d'entreposage de données il y a quelques années en offrant une capacité de calcul hautement évolutive et distribuée. La plate-forme a atteint cet objectif en séparant les capacités de stockage et de traitement dans un écosystème d'entrepôt de données. C'est l'une des approches adoptées par Snowflake pour étendre la solution dans l'espace des lacs de données.

          Au fil des ans, Snowflake a progressivement étendu ses capacités ELT, permettant aux entreprises d'exécuter leurs Processus ELT en conjonction avec la plate-forme. Par exemple, alors que certaines entreprises tirent parti des flux et des tâches Snowflake pour effectuer des tâches SQL dans Snowflake, d'autres «dbt» avec Snowflake.

          Différenciateurs clés du lac de données Snowflake
            Livré avec des outils d'exportation et de requête intégrés
              La plateforme peut se connecter de manière transparente aux outils de BI tels que Metabase, Tableau, PowerBI, et plus

              La plate-forme prend en charge le format JSON pour l'interrogation et la sortie de données

              Fournit des options de stockage sécurisées et compressées pour les données semi-structurées

              Peut être connecté facilement avec le stockage d'objets comme Amazon S3

              )

                Livré avec une sécurité granulaire pour offrir une intégrité maximale des données

                  Il n'y a pas de limite notable à la taille d'une requête

                  Présence du dialecte SQL standard et robuste bibliothèque de fonctions

                  Livré avec virtuel entrepôts qui permettent aux équipes de données de séparer et de catégoriser les charges de travail en fonction des besoins

                • Favorise le partage sécurisé des données et l'intégration simple avec d'autres technologies cloud

                  Dremio et Firebolt – Moteur SQL Lakehouse sur le lac de données

                  Outre Snowflake et Databricks, les outils Data Lakehouse tels que Dremio et Firebolt proposent également des fonctionnalités de requête avancées. La plate-forme SQL Lakehouse de Dremio, par exemple, a la capacité de fournir des tableaux de bord hautes performances et des analyses intuitives directement sur n'importe quel stockage de lac de données, éliminant ainsi le besoin d'un entrepôt de données. De même, Firebolt est livré avec des capacités d'indexation avancées qui aident les équipes de données à réduire l'accès aux données à des plages de données encore plus petites que les partitions.

                  Une évolution par rapport aux data lakes et entrepôts cloud

                • Un data lakehouse est une évolution par rapport aux architectures cloud de data lake et d'entreposage qui offre aux équipes de données la possibilité de capitaliser sur le meilleur des deux mondes tout en atténuant toutes les faiblesses historiques de la gestion des données. Lorsqu'elle est bien menée, une initiative Data Lakehouse peut libérer les données et permettre à une entreprise de les utiliser comme elle le souhaite et à la vitesse souhaitée.

                  À l'avenir, en tant qu'entrepôt de données cloud et les architectures de lac de données convergent, les entreprises pourraient bientôt trouver des fournisseurs qui combinent toutes les capacités de tous les outils de lac de données. Cela peut ouvrir des opportunités infinies lorsqu'il s'agit de créer et de gérer des pipelines de données.

                  Gunasekaran S est le directeur de l'ingénierie des données chez Sigmoïde.