Dans ce guide, nous allons analyser les principaux enjeux associés à la construction et à la maintenance d’une architecture de données.
Sommaire
Qu’est-ce qu’une architecture de données ? [Petit rappel]
L’architecture de données désigne la manière dont, dans une organisation, sont organisées les données. Définir une architecture de données, c’est dire :
- Quelles sont les données à la disposition de l’entreprise ET où elles se situent : quelles données, quelles bases de données, quels systèmes, quels outils, etc.
- Comment elles circulent entre les systèmes, les bases et les applications = décrire les flux de données. Précisons que les bases de données sont les lieux de stockage des données tandis que les applications sont les interfaces homme-machine qui permettent à un humain d’exploiter et de traiter les données stockées dans les bases.
- Comment les données sont contrôlées, protégées dans une optique de compliance (règles de sécurité, gestion des accès).
- Comment elles doivent être organisées et présentées en fonction des besoins des utilisateurs (modèles de données).
Avoir une architecture de données claires, logiques et rationnelles permet de mieux tirer profit des données à disposition. Toute organisation data-driven doit se soucier de mettre en place et de maintenir une architecture solide.
Il est important de bien comprendre les concepts de base qui entourent les architectures de données. Et en particulier de bien comprendre les différents types de modèles de données. Un modèle de données décrit la manière dont les données de l’entreprise doivent être organisées et présentées en fonction des personnes qui les utilisent. Le choix du modèle de données détermine le mode de structuration des bases de données.
On distingue :
- Le modèle de données conceptuel ou business, qui consiste à organiser les données en entités (données clients, données produits, données transactionnelles…), chaque entité étant définie par un ensemble d’attributs communs à toutes les données de l’entité. Pour les données produits par exemple, les attributs seront : le code barre, le nom, la description, le prix…
- Le modèle de données logique, dans lequel les données sont définies de manière très détaillée et dans lequel sont présentées les relations entre les éléments – sans faire référence à la manière dont les données sont stockées et traitées.
- Le modèle de données physique, qui détaille la manière dont les données sont représentées et stockées : fichiers flat, bases de données, data warehouse, etc.
Découvrez quelle est la différence entre un Data Engineer et un Data Scientist.
Quelles sont les personnes impliquées dans la gestion des architectures de données ?
Nous allons maintenant détailler les différentes personnes qui sont impliquées dans la construction et la maintenance des architectures de données :
- L’architecte de données – C’est la personne qui imagine l’architecture de données de l’entreprise en se basant sur les besoins business, qui transforme des besoins business en besoins technologiques. C’est lui qui fixe les standards et les principes d’organisation des données.
- Le Project Manager (chef de projet) – Il supervise tous les projets de modification des flux de données ou de création de nouveaux flux de données.
- L’architecte solution – Il est celui qui recueille les besoins business et fonctionnels de l’entreprise pour les transformer en spécifications techniques.
- L’architecte Cloud ou l’ingénieur Data Center – Celui qui prépare l’infrastructure qui sera utilisée par les systèmes data de l’entreprise (ce qui inclut les solutions de stockage des données).
- Le Data Engineer – C’est celui qui construit les systèmes data, qui les alimentent en données et qui est en charge de la Data Quality.
- Le Data Analyst – C’est un utilisateur final de l’architecture de données. Il utilise les données pour créer des rapports à destination des décideurs.
- Le Data Scientist – Lui aussi est un utilisateur final de l’architecture de données. Il construit des modèles de données pour détecter des patterns et découvrir des insights.
Focus sur le rôle de l’architecte de données (Data Architect)
Nous allons maintenant nous concentrer sur ce rôle. L’architecte data – parfois appelé architecte Big Data – joue un rôle central dans la construction des architectures de données. Il doit :
- Bien comprendre et pouvoir restituer les enjeux data derrière les objectifs business formulés par l’entreprise. Il traduit les besoins et enjeux métiers en modèles d’architectures data.
- Etre capable de gérer toutes les sources de données, d’en comprendre la structure, le contenu et la signification.
- D’avoir une connaissance profonde des technologies et des outils.
Il est celui qui, par les architectures qu’il met en place, organise les données brutes qui seront ensuite utilisées par les utilisateurs de données : les Data Analysts et les Data Scientists.
Comment les architectes (big) data sont formés ?
La formation de l’architecte de données s’effectue la plupart du temps au sein des entreprises. C’est une fonction souvent prise en charge par des personnes qui ont le statut de Data Engineer, de Data Scientist ou d’architecte solution. Il y encore très peu de formations initiales dédiées au métier d’architecte de données, même si les choses bougent de ce côté. S’il n’y a pas encore de certifications officielles du métier en tant que tel, un architecture data aura tout intérêt à obtenir les certifications pour les plateformes de données qu’il utilise.
Comme nous le disions plus haut, l’architecte de données se doit de maîtriser les technologies afférentes au Big Data :
- Les technologies de bases de données NOSQL (MongoDB, Cassandra…).
- Les technologies d’infrastructures serveurs (Hadoop, Spark).
- Les technologies de stockage de données en mémoire (Memtables).
Les différentes responsabilités d’un architecte de données
Nous avons listé ci-dessous les principales missions, les principes rôles qu’incarnent les architectures de données :
- Traduire des besoins métiers en spécifications techniques : streams de data, intégrations, transformations, bases de données, Data Warehouses…
- Définir le framework de l’architecture, ses standards, ses principes – modélisation, gestion des métadonnées, règles de sécurité, données de référence et données maîtres.
- Définir les contours de l’architecture de référence – construire un schéma, un process que les autres acteurs de l’organisation devront suivre pour créer et améliorer les systèmes de données.
- Définir les flux de données – c’est-à-dire les lieux de collecte de données, les fonctions ayant besoin des données, la manière dont sont gérés les flux…
- Collaborer et coordonner les projets data. Les projets data sont souvent transversaux et font appel à de nombreux intervenants : plusieurs représentants de différents métiers dans l’entreprise, des investisseurs, des éditeurs de solutions, etc. L’architecte de données a pour rôle de coordonnées toutes ces parties prenantes.
Découvrez notre guide complet sur le Customer Data Management – Définition & bonnes pratiques.
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec CartelisArchitecture de données – Les enjeux technologiques
Dans le passé, les infrastructures de données étaient monolithiques. Les organisations déversaient des millions de données dans des énormes systèmes qui étaient chargés de stocker et de processer toutes les données organisationnelles. Avec l’avénement de la technologie open source et des méthodes agiles, les systèmes de données se sont simplifiés et allégés. Dans le même temps, ils sont devenus plus performants et plus flexibles.
Voici quelques-uns des principaux éléments que l’on trouve dans une architecture de données moderne :
- Un Data warehouse – Pierre angulaire des infrastructures data traditionnelles, les Data warehouses restent un élément important dans une architecture moderne mais les Data warehouses ont évolué. Ils migrent de plus en plus dans le cloud et interagissent dorénavant avec les Data Lakes, les bases de données classiques et les sources de données non-structurées.
- Les bases de données relationnelles – les opérateurs historiques comme Oracle ou SQL Server sont toujours utilisés, mais on assiste à un usage de plus en plus prépondérant des alternatives open source comme MySQL et PostgreSQL.
- Les bases de données non-relationnelles (NoSQL) – Ces bases permettent de stocker des volumes énormes de données semi-structurées et non-structurées. Les solutions les plus populaires pour gérer ce type de base sont Redus, MongoDB, CouchDB, Memcached et Cassandra.
- Le streaming de données en temps-réel – qui est maintenant rendu possible grâce à des outils comme Apache Kafka, Flume ou AWS Kinesis.
- Les containers – Des plateformes comme Docker ou Kubernetes permettent de déployer des infrastructures de données en quelques clics et d’orchestrer des systèmes complexes de manière flexible et scalable.
Découvrez notre comparatif des technologies envisageables pour votre Data Warehouse cloud.
Quelques bonnes pratiques en architecture de données
Terminons en présentant les meilleures pratiques pour construire une architecture de données efficace et holistique :
- Considérez les données comme des actifs partagés – éliminez les silos de données et créez une vision client à 360° en agrégeant les données en provenance de tous les départements de l’organisation.
- Fournissez aux utilisateurs de données une interface appropriée – La donnée ne sert à rien si elle ne peut pas être exploitée de manière convenable. Les interfaces peuvent prendre la forme de dashboards, de BI, de requêtes SQL, être construites en R : elles doivent faciliter la prise en main des données par les analystes.
- Mettez en place plusieurs niveaux de sécurité et des règles d’accès aux données – Classez les données en fonction de leur niveau de sensibilité et de leur importance business, soyez aussi très prudents dans la création des règles d’accès pour assurer une bonne disponibilité des données – mais uniquement à ceux qui en ont besoin…
- Utilisez des data stewards – Il s’agit de toutes personnes qui peuvent vous aider à nettoyer, à vérifier et à enrichir des données. Un manager produit peut jouer ce rôle pour les données produits. Construisez une communauté de data stewards et de contributeurs disposés à vous aider dans le maintien de la qualité de vos données.
- Eliminez les doublons – Dans les grandes organisations, il est difficile de standardiser les données sans mettre en place des règles très strictes, des règles nécessitant souvent une bonne dose de créativité. Imaginez des formats de données et des structures de données qui encouragent les utilisateurs à travailler sur les mêmes entités plutôt que de créer plusieurs versions concurrentes d’une même entité.
- Automatisez ce qui peut l’être – C’est la clé d’une architecture de données efficace.
Depuis ces dernières années, les data pipelines sont devenus plus agiles, plus flexibles. L’automatisation a gagné du terrain. Dans le passé, les organisations mettaient des mois à créer des process rigides pour extraire les données à partir des différentes sources, les transformer dans des formats spécifiques et les charger dans des répertoires. Aujourd’hui, le même genre de process peut être réalisé en quelques heures grâce aux outils SaaS.
L’automatisation va avoir un grand impact sur les architectures de données. Elle offre aux architectes de données une plus grande facilité pour déterminer ce qui est le mieux pour l’entreprise. Dans le passé, les architectes de données se retrouvaient coincés par des données historiques difficiles à déplacer, difficiles à faire évoluer. Aujourd’hui si une business unit a besoin de tel type de données, l’architecte peut facilement créer un pipeline pour la lui délivrer. Si l’organisation génère de nouveaux types de données, les architectes de données peuvent l’identifier, la transformer dans un format exploitable par les utilisateurs en quelques heures, ou en quelques jours tout au plus. Auparavant, il fallait des semaines si ce n’est des mois.
Prenons l’exemple de Panoply, le premier data warehouse intelligent. Panoply peut ingérer automatiquement les données en provenance d’un nombre incalculable de sources, utiliser des techniques NLP et de machine learning pour les préparer, les nettoyer, les enrichir et les transformer automatiquement – permettant ainsi de passer de données totalement brutes en insights en l’espace de quelques minutes. C’est en soi une petite révolution dont nous ne sommes qu’à l’aube.
Laisser un commentaire