La Data Science fait aujourd’hui partie des compétences les plus recherchées sur le marché du travail. Vous rêvez de devenir Data Scientist mais vous pensez que c’est réservé à une élite ? Détrompez-vous ! Il est tout à fait possible d’apprendre la Data Science en autodidacte, grâce à la montagne de ressources disponibles sur le web.
Dans cet article, on vous présente un parcours d’apprentissage étape par étape pour devenir un(e) vrai(e) Data Scientist.
Sommaire
Apprendre la Data Science : les connaissances de base
Pour devenir un(e) véritable Data Scientist, il y a certaines compétences incontournables. Au cœur de celles-ci, on retrouve la programmation avec Python et la manipulation de données avec SQL. Ce sont les 2 piliers sur lesquels vous allez bâtir votre expertise.
Apprendre Python pour la Data Science
Python est LE langage de prédilection pour la Data Science, et ce n’est pas un hasard. Avec sa syntaxe claire et concise, Python est « relativement » facile à prendre en main, même quand on débute. Mais surtout, il offre un écosystème très vaste de bibliothèques dédiées à la manipulation, l’analyse et la visualisation de données.
Pour débuter votre apprentissage, nous vous conseillons de commencer par le cours en ligne « Python Basics for Data Science » proposé par IBM sur edX. Vous y apprendrez les concepts fondamentaux de Python, tout en les mettant en pratique sur des problématiques concrètes de Data Science.
Si vous préférez une approche plus ludique, vous pouvez lire « Automate the Boring Stuff with Python », un livre en ligne gratuit qui vous apprendra Python en réalisant des projets du quotidien (comme par exemple organiser des fichiers ou extraire des données de pages web).
Si vous préférez commencer par un livre en français, on vous recommande le « Data Science avec Python pour les nuls« , qui est mal fait.
Maîtriser les bibliothèques essentielles : NumPy, Pandas, Matplotlib
Quand vous serez à l’aise avec les bases de Python, vous pourrez passer à l’étape suivante : vous familiariser avec les bibliothèques stars de Python pour la Data Science : NumPy, Pandas et Matplotlib.
NumPy est la boîte à outils de base pour le calcul scientifique en Python. Elle introduit les tableaux multidimensionnels et fournit des fonctions très puissantes pour les manipuler. La Documentation officielle de NumPy est une excellente introduction.
Pandas est la bibliothèque de référence pour la manipulation et l’analyse de données. Son objet phare, le DataFrame, permet de travailler avec des données structurées comme dans un tableur Excel, mais avec la puissance de Python. Pour vous initier, on vous conseille le tutoriel « 10 minutes to pandas ».
Matplotlib est l’outil qui permet de visualiser vos données en Python, avec des graphiques simples et esthétiques. Cette galerie d’exemples vous donnera un aperçu des possibilités de cette bibliothèque.
Manipuler des bases de données avec SQL
Les données que vous aurez à analyser seront souvent stockées dans des bases de données. D’où l’importance de savoir les interroger et les manipuler avec SQL, qui est LE langage dédié à cet usage.
Pour une introduction en douceur à SQL, on vous recommande le cours interactif SQL Zoo. À travers des exercices pratiques directement dans votre navigateur, vous pourrez y apprendre les requêtes de base jusqu’aux jointures les plus complexes.
W3Schools SQL est une autre ressource intéressante, avec des tutoriels et une référence complète qui vous permet de consulter la syntaxe à tout moment.
Une fois ces bases acquises, vous voudrez sûrement vous entraîner sur de vraies données. Pour ça, on vous conseille MySQL et surtout PostgreSQL, qui sont deux systèmes de gestion de bases de données open-source très populaires sur lesquels vous pouvez installer de nombreux jeux de données publics.
Connaître Python et SQL est vraiment la base si vous voulez apprendre la Data Science. La prochaine étape ? Le Machine Learning !
Approfondir ses connaissances en Machine Learning
Maintenant que vous êtes à l’aise avec Python et les bibliothèques de Data Science, il est temps de passer à la vitesse supérieure avec le Machine Learning, ML pour les intimes. En un mot, le Machine Learning, c’est la discipline qui permet de donner du sens à vos données en apprenant à partir d’elles. C’est un peu de la magie !
Comprendre les concepts clés du Machine Learning
Avant de vous lancer tête baissée, prenez le temps de comprendre les concepts fondamentaux du Machine Learning :
- Qu’est-ce qu’un modèle ?
- Quelle différence entre l’apprentissage supervisé et non supervisé ?
- Qu’est-ce que l’overfitting ?
Vous devez avoir les réponses à ces questions.
Pour les obtenir justement, on vous recommande chaudement le cours en ligne de Andrew Ng, « Machine Learning », sur Coursera. C’est une référence absolue dans le domaine. Il vous donnera des bases théoriques solides. Vous pouvez compléter avec les cours d’Udacity « Intro to Machine Learning » et « Intro to Data Science » pour une approche plus pratique.
Découvrir les principaux algorithmes
Il existe une multitude d’algorithmes de Machine Learning. Chacun est adapté à un type de problème particulier. Ceci dit, certains sont incontournables et méritent qu’on s’y attarde. C’est le cas de la régression linéaire pour les problèmes de prédiction, du K-means pour le clustering et des arbres de décision pour la classification.
Pour bien comprendre leur fonctionnement, vous avez un livre très bien fait qui s’appelle : « Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow » d’Aurélien Géron. C’est une mine d’or pour découvrir les principaux algorithmes et les implémenter en Python. C’est aussi un sacré pavé…Le PDF du livre est en accès libre ICI.
Mettre en pratique sur des projets concrets
C’est un fait, on apprend mieux en faisant qu’en écoutant ou en lisant. On vous conseille donc de très tôt vous lancer dans des projets Machine Learning. Commencez par des choses simples ou qui font écho à vos centres d’intérêt, par exemple :
- Prédire le prix des maisons à partir de leurs caractéristiques.
- Regrouper des articles de presse par thématique.
- Prédire les ventes d’un produit en fonction des données historiques.
- Identifier les sentiments dans des tweets ou des avis clients (analyse de sentiment).
- Recommander des films, des livres ou des musiques en fonction des préférences utilisateur.
- Créer un chatbot capable de répondre à des questions fréquentes.
- Détecter les spams dans des emails.
- Reconnaître des chiffres manuscrits grâce à des images (comme dans MNIST).
- Détecter des anomalies dans des transactions bancaires pour prévenir la fraude.
- Prédire si une personne quittera une entreprise (analyse de churn).
- Analyser des images médicales pour détecter des anomalies ou des maladies.
L’idée est de se confronter à de vrais jeux de données, avec leurs problématiques de nettoyage et de préparation. Pour trouver l’inspiration, direction Kaggle et ses datasets publics. Vous y trouverez aussi des kernels, des notebooks partagés par la communauté, parfaits pour apprendre en s’inspirant des meilleurs.
Découvrir le Deep Learning et les réseaux de neurones
On ne peut pas parler de Machine Learning sans évoquer le Deep Learning, LA technique dont tout le monde parle, basée sur les réseaux de neurones. Le Deep Learning a révolutionné des domaines comme la vision par ordinateur ou le traitement du langage naturel.
Si le sujet vous passionne, on vous conseille les cours de la spécialisation « Deep Learning » d’Andrew Ng sur Coursera. Il aborde les concepts clés des réseaux de neurones et vous explique comment les implémenter avec la bibliothèque Keras. Et pour aller plus loin, vous avez le très bon livre « Deep Learning with Python » de François Chollet. Une référence.
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec CartelisDévelopper son expertise et se tenir à jour
La Data Science ne se résume pas au Machine Learning. Vous devez étoffer votre boîte à outils avec d’autres compétences clés. Notamment : la data visualization, le Big Data et l’automatisation.
Faire de la Data Visualization avec Seaborn et Plotly
Il ne faut jamais oublier que le métier de Data Scientist, c’est aussi savoir communiquer ses résultats. Et quoi de mieux que de beaux visuels pour ça ? C’est tout le principe de la Data Viz. Python a 2 bibliothèques spécialement dédiées à la Data Viz : Seaborn et Plotly.
Seaborn permet de réaliser des graphiques statistiques avancés de manière assez simple. La galerie d’exemples vous donnera un bon aperçu de ce qu’il est possible de faire. Quant à Plotly, il permet de créer des visualisations interactives et dynamiques, pratiques pour explorer les données. Là encore, la galerie regorge d’inspiration.
Découvrir PySpark pour traiter les données massives
Le volume de données a explosé. Il faut donc savoir aujourd’hui plus que jamais manipuler de gros volumes de données. C’est là qu’intervient PySpark, l’interface Python pour Spark, LE framework de référence en Big Data.
Pour vous familiariser avec PySpark, la première étape est d’aller visiter le site web spark.apache.org. Il propose une documentation complète et des exemples de code. Nous vous conseillons aussi le livre « Learning PySpark » de Tomasz Drabas et Denny Lee pour une approche plus progressive.
Automatiser ses projets Data Science avec des pipelines
Le nerf de la guerre en Data Science, c’est l’automatisation. Personne n’a envie de relancer ses scripts à la main à chaque mise à jour des données. C’est là qu’interviennent les workflows, qui permettent d’enchaîner les étapes de traitement de manière automatique.
Pour ça, on vous recommande vivement d’explorer Airflow, une solution open-source devenue incontournable en la matière. Elle est construite avec une syntaxe intuitive en Python et vous permettra de planifier assez facilement vos tâches data. D’autant que la documentation est très complète, n’hésitez pas à vous y plonger. Pour une approche plus concrète, vous pouvez aussi jeter un oeil (ou plus) au tutoriel de Datacamp « Building Data Engineering Pipelines in Python ».
Développer son expertise et se tenir à jour
Vous pensiez en avoir terminé ? Eh bien non. L’apprentissage d’un Data Scientist n’est jamais fini. La cause, vous la connaissez : les techniques et les outils évoluent à toute vitesse. Tout Data Scientist, aussi doué soit-il, se doit de rester à la page pour garder une longueur d’avance. On vous partage 2 conseils simples mais clés pour vous auto-former en continu.
#1 Participer à des compétitions Kaggle
Kaggle, déjà mentionné plus haut, n’est pas seulement une source inépuisable de jeux de données. C’est aussi LE lieu de rassemblement de la communauté data dans le monde, qui s’y retrouve pour s’affronter autour de problèmes concrets lors de compétitions.
En y participant, vous apprendrez énormément de vos pairs. Et c’est aussi un excellent moyen de se faire repérer.
#2 Lire des blogs & newsletters
Pour rester au fait des dernières tendances, rien ne vaut la veille régulière. Plusieurs Data Scientists, notamment US, partagent leurs connaissances et projets sur des blogs ou dans des newsletters. Et certains sont devenus de grosses références.
Voici une sélection rapide :
- Towards Data Science, hébergé sur Medium : vous y trouverez des articles techniques et des tutoriels sur tous les sujets de la data.
- KDnuggets : ce site est une mine d’or pour les professionnels de la Data Science. Vous y trouverez des guides pratiques et des articles sur l’actualité du secteur.
- Analytics Vidhya, un blog qui propose des articles de fond sur le Machine Learning et la Data Science.
- Data Science Central : LA communauté des professionnels de la Data Science. Vous trouverez sur la plateforme des webinars, des articles de blog et un forum.
Et pour ce qui est des blogs francophones, on recommande le blog d’OpenClassRooms (ancien client Cartelis :)) dédié à la Data Science.
Conclusion
Vous l’aurez compris, le chemin pour devenir Data Scientist sera long et peut-être semé d’embûches, mais au final stimulant et gratifiant. Accrochez-vous !
Et vraiment, on n’insistera jamais trop là-dessus, n’oubliez pas que la Data Science est un domaine qui évolue sans arrêt. Donc, restez à l’écoute, soyez à l’affût des nouvelles tendances et n’ayez pas peur d’expérimenter. C’est cette attitude qui fera de vous un bon Data Scientist.
Et si à un moment vous vous sentez perdu(e), rappelez-vous que vous n’êtes pas seul(e). La communauté Data Science est l’une des plus ouvertes. A vous de jouer !
djezou says
votre article est géniale. merci !
salman says
Tres bon article
Abdoul Razak says
Une merveille cet article.merci
Je suis data analyst qui cherche a se spécialisé en data science
Akuma says
Super article, dès cet instant je suis un Data Scientist
Grâce divine says
Super cet article
issifou says
Excellent article, je vien de découvrir qu’il existe des trucs comça. Je vais me lancer.
Paul-Marius says
On a rarement eu un article aussi bon sur les différentes étapes pour se plonger dans la Data Science.
Merci beaucoup !
Abdoulaye BA says
Je viens juste, il y a trois semaine de prendre la route à suivre pour se former en autodidacte et la curiosité m’a emmené vers vous. J’avoue que je suis tombé sur la bonne voie, car j’ai rencontré quelqu’un qui a des compétences que je veux acquérir. Néanmoins, je compte utiliser Meetup pour trouver des groupes de professionnels de l’Analytics ou du développement qui pourront me donner des conseils et des astuces pour accélérer mes apprentissages. Merci beaucoup.