En Data Science, deux métiers doivent être distingués : Data Scientist et Data Engineer. Si vous n’êtes pas encore sûr de bien saisir les différences entre les deux fonctions, si vous voulez avoir l’esprit au clair sur ce sujet, cet article est pour vous.
Nous allons voir quelles sont les principales différences entre les deux, à tous les niveaux : rôle, compétences, outils & langages utilisés, formation, marché de l’emploi, salaires, etc. Pour construire ce guide, nous nous sommes permis de reprendre les graphiques d’une très bonne infographie publiée en anglais sur le sujet.
Sommaire
Data Scientist vs Data Engineer – Rôle & Responsabilités
Les deux fonctions se complètent. Le Data Engineer est un créateur de systèmes. Il est celui qui développe, teste, met en place des architectures data. Il créé des bases de données et organise la tuyauterie, c’est-à-dire les flux de données entre les sources et les bases de stockage. Le Data Engineer prépare le terrain au Data Scientist. Le Data Scientist a pour rôle d’exploiter les données, d’en faire quelque chose, d’en tirer des enseignements, de prendre des décisions à partir d’elles. Son métier consiste à faire parler la donnée. Il transforme des données brutes en informations utiles, en insights. Il utilise pour cela des techniques de Machine Learning. Il détecte des patterns, construit des modèles de données.
Le Data Engineer est un technicien de très haut niveau, le Data Scientist est un explorateur.
Le Data Engineer est confronté à des données brutes, dont certaines sont invalides, suspectes, erronées, mal-formatées. Il traque ces dysfonctionnements, recommande et parfois se charge de l’implémentation de solutions pour améliorer la fiabilité, l’efficience et la qualité des données. Il est amené à utiliser une grande variété de langages et d’outils pour réussir à connecter des systèmes hétérogènes entre eux et identifier des moyens de collecter de nouvelles données en provenance d’autres sources.
Le Data Engineer doit s’assurer que l’architecture data en place répond aux attentes et aux besoins des Data Scientists et des autres parties prenantes.
Décrivons à présent plus en détail le rôle du Data Scientist. Les données auxquelles le Data Scientist a affaire ont déjà été manipulées, ont déjà fait l’objet d’un nettoyage pour qu’il puisse se concentrer sur l’essentiel : mettre en place des programmes d’analyse avancés, des programmes de machine learning, des méthodes statistiques dans le but de construire des modèles prédictifs.
Pour construire ces modèles, le Data Scientist a besoin de bien connaître l’entreprise dans laquelle il travaille et son secteur d’activité. Les informations que doit rechercher un Data Scientist, les insights qu’il doit essayer de mettre au jour, sont par définition spécifiques à une entreprise ou, plus largement, à un métier.
Ses compétences excèdent de très loin la simple sphère technique. Il est parfois amené à explorer de grands volumes de données pour identifier des patterns cachés. Une fois que le Data Scientist a fini son travail d’analyse, il doit en présenter les résultats aux personnes clés de l’entreprise, aux décideurs. De manière à la fois claire et précise, ce qui suppose des compétences humaines et orales développées, mais aussi des compétences en Data Visualization. Le Data Scientist se doit d’être un bon communicant.
Découvrez comment se former à la Data Science en autodidacte.
Les Data Engineers et les Data Scientists sont, comme on le voit, inséparables, complémentaires. Ils travaillent ensemble pour faire parler la donnée et en tirer des enseignements permettant aux décideurs de prendre de meilleures décisions.
Leurs compétences se chevauchent, mais les deux métiers deviennent de plus en plus distincts à mesure que la Data Science prend de l’importance. Dans un proche avenir, le Data Engineer sera amené à travailler toujours plus avec des systèmes de bases de données, des API et des outils pour les process ETL, à faire de la modélisation de données, à construire des entrepôts de données. Le Data Scientist se concentrera sur la construction de modèles prédictifs à l’aide de math, de statistiques et de machine learning.
Pour aller plus, découvrez notre guide complet sur les compétences d’un bon Data Scientist.
Data Scientist vs Data Engineer – Langages, outils et logiciels
Les différences en matière de compétences se traduisent logiquement par des différences en matière de langages, d’outils et de logiciels utilisés.
Vous verrez souvent les Data Engineers travailler avec des outils comme SAP, Oracle, Cassandra, MySQL, Redis, Riak, neo4j, Hive, Sqoop ou encore PostgreSQL.
De leur côté, les Data Scientists auront tendance à utiliser des langages comme SPSS, Python, R, SAS pour construire leurs modèles. D’ailleurs, dans cette liste, les deux principaux langages sont clairement Python et R. Quand on travaille avec Python ou R pour faire de la Data Science, on est amené à utiliser des bibliothèques du type ggplot2 pour faire de la Data Visualization dans R ou les bibliothèques Pandas si on est sur Python. Les modules Scikit-Learn, NumPy, Matplotlib ou encore Statsmodels sont eux aussi très utilisés.
Ça c’est pour l’open source, mais on trouvera aussi des outils commerciaux comme SAS, SPSS, Tableau, Rapidminer, Matlab Gephi et Excel. Ces outils font souvent partie de la boîte à outils du Data Scientist. Comme vous pouvez le constater, il y a beaucoup d’outils de Data Vizualisation.
Découvrez notre Top 20 des outils de Data visualisation.
Les outils, langages et logiciels utilisés à la fois par les Data Engineers et les Data Scientists sont, vous l’aurez peut-être déjà deviné, Scala, Java, C#…
Scala est plus populaire auprès des Data Engineers grâce à l’intégration avec Spark, qui permet d’implémenter des flux ETL.
Le langage Java est quant à lui de plus en plus populaire auprès des Data Scientists mais reste un langage peu utilisé.
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec CartelisData Scientist vs Data Engineer – Formation
Les deux profils ont un point commun : de solides bases en informatique. Les Data Scientists ont souvent suivi en plus des formations en économétrie, en mathématiques, en statistiques… Ils ont souvent un sens du business plus aiguisé que les Data Engineers. Mais attention, pas de généralisation, vous trouverez aussi des Data Engineers avec un background en études de commerce.
Il faut avoir à l’esprit qu’en général l’industrie de la Data Science est constitué de professionnels ayant des formations et des parcours très différents. Il n’est pas rare de voir des physiciens ou des biologistes se reconvertir dans la Data Science !
Data Scientist vs Data Engineer – Salaires & Recrutement
Selon Paysa, le salaire moyen d’un Data Scientist se situe à $135,000 annuel. Avec un minimum à $43,000 et un maximum à $364,000. Un Data Engineer, quant à lui, a un salaire moyen légèrement inférieur : $124,000 par an en moyenne. Le minimum est à $34,000 et le maximum à $341,000.
D’où proviennent ces écarts ? La réponse n’est pas si évidente à trouver. C’est sans doute lié au jeu de l’offre et de la demande. Il y a 85 000 offres d’emploi de Data Engineers sur Indeed.com, contre plus de 110 000 pour le poste de Data Scientist.
Data Scientist vs Data Engineer – Perspectives d’emploi
La création de nouvelles fonctions, l’apparition de la dichotomie Data Engineer Vs Data Scientist reflètent une évolution de l’industrie de la Data Science et une évolution des besoins des entreprises.
Les entreprises sont de plus en plus intéressées par les problèmes de Data Management. Elles sont de plus en plus nombreuses à chercher des solutions abordables, flexibles et scalables pour stocker et gérer leurs données. Aujourd’hui, la plupart veulent charger leurs données dans le cloud et, pour y parvenir, elles ont besoin de construire ce que l’on appelle des Data Lakes à côté des entrepôts de données déjà en place.
Il y a pour cette raison un grand enjeu autour de l’organisation des flux de données et des questions d’architectures data. D’où l’essor du métier de Data Engineer au cours de ces dernières années.
Découvrez notre guide complet sur les Data Lakes (Définition & Enjeux).
En ce qui concerne les Data Scientists, les entreprises ont maintenant tendance à privilégier la constitution d’équipes de Data Science plutôt que de recruter des Data Scientists électrons libres. La raison principale est qu’il est humainement très difficile pour une personne de réunir toutes les qualités requises : expertise technique, créativité, compétences communicationnelles, etc. Les personnes qui réunissent toutes ces compétences restent des oiseaux rares et la demande excède de très loin l’offre.
La demande d’experts et de passionnés en Data Science n’est pas prête de s’essouffler. Clairement, la Data Science est un métier, ou plutôt un ensemble de métiers, d’avenir. Ceux qui doivent s’inquiéter, ce ne sont pas les professionnels de la Data Science, mais plutôt les entreprises ayant besoin de ces talents. Dans une étude, McKinsey prévoyait une pénurie de 140 000 à 190 000 d’experts data en 2018 pour le marché US. Et une pénurie de 1,5 million de managers et d’analystes ayant le savoir-faire nécessaire pour exploiter les insights de la Data Science et les transformer en décisions stratégiques.
Laisser un commentaire