Vers une convergence des fonctions des data platforms

Les fonctions des data platforms peuvent être représentées sous forme de couches fonctionnelles, support aux processus de gestion des données, en partant de l’intégration de sources de données jusqu’à la gouvernance des données.

Les différentes couches fonctionnelles d’une data platform – vision 360°

Une première suite de fonctions des data platforms a la charge de la production et de la gestion du cycle de vie des données vues comme produit (les fonctions amont) : 

    • Connexion aux sources, puis appel (par lot ou en continu) aux données, soit par ingestion, soit en passant par des fonctions de virtualisation de données, 
    • Gestion de la persistance des données, 
    • Mise en place d’une couche de représentation des données et reposant sur un modèle de données, avec la gestion de la définition des données (dictionnaire), 
    • Définition des traitements de données (pipelines) dont le résultat va être les données sous forme de produit. Avec l’appel si besoin à des modules fonctionnels complémentaires (exemple de gestion de la qualité à la source, de gestion de la sécurité, de gestion de politiques). Avec les fonctions d’orchestration des traitements, de scheduling et de monitoring, le tout dans une logique DataOps. 

A la suite de ces fonctions, on dispose de produits de données. Ils sont catalogués. Ces produits vont être gérés au travers de différents processus (les fonctions de gestion) : 

    • Processus relatifs à la gestion de la sécurité des données et à la gestion des accès.
    • Processus de data management : master data, data quality, application de data policies, respect de data réglementations et traitement des anomalies et rejets suite à l’application des règles de management

    • Processus de mise à disposition des données : exposition dans une data marketplace, au travers d’API (DaaS), via un datahub, en proposant un service de type reverse ETL, dans des espaces partagés.

 

Les données sont maintenant accessibles, elles sont administrées. 

Les deux dernières couches correspondent alors aux fonctions aval et de pilotage : 

    • La part de consommation des données, avec les fonctions élémentaires ou avancées d’utilisation des données : BI / analytique, production d’apps data, évocation de moteurs de calculs sur les données, etc.
    •  Gouvernance des données, via essentiellement la mise à disposition d’une vue d’ensemble des données, de leurs dépendances, de leurs caractéristiques et de leurs utilisations. L’idée de data observability, qui permettra de contrôler (fonction de compliance), de superviser l’ensemble des usages, de rationaliser les données, d’arbitrer et de décider de l’évolution des politiques, de favoriser leur réutilisation et s’assurer de leur bonne application. 
      •  

Retrouvez toute l’étude sur les Data Platforms au travers de nos 2 guides :

    • Le panorama des Data Platforms : qui explore la dynamique des data platforms au travers de la vision de plus d’une trentaine d’éditeurs du marché.