10 étapes pour organiser un projet data en 2023 🗂️

17/04/2023 Newsletter par Noemie Vervaecke crédit photo : @rawpixel.com - freepik.com

Après les 3 termes à connaître en Data Science ou encore les métiers de la data, je vous propose aujourd'hui un article sur les 10 étapes pour organiser un projet data. Parce que, pour se lancer dans la data, il faut comprendre tous ses aspects, vous trouverez ici le processus que suivent la plupart des Data Analysts, Data Scientists ou plus généralement agences data qui peuvent vous accompagner dans vos projets.

Après la lecture de cet article, les projets data n'auront plus de secret pour vous, ou presque. 😉

Étape 1 : Échanger avec le métier 🗣️

La première étape, et pas des moindres… les échanges avec le métier !

Logique me direz vous, mais en réalité, les échanges avec le métier ne sont pas toujours très développés.

Résultat, la demande est parfois mal comprise…

Qui dit mauvaise compréhension dit livrable non conforme à la demande.

Qui dit livrable non conforme dit perte de temps car il ne reste plus qu’à recommencer ! 😿

Il est compliqué pour une personne qui ne connaît pas le domaine de la data de savoir ce qu’elle veut réellement ou même tout simplement de savoir ce qu’il est possible de faire. De ce fait, on récolte, soit des explications compliquées pour une demande très simple, ou, à l’inverse une demande simple pour une problématique compliquée 🤔.

C’est à cela que servent les échanges, à comprendre la problématique métier et proposer des solutions adaptées pour y répondre. ✅

Étape 2 : Formuler une problématique ❓

Pourquoi faire ?

Cette étape permet de regrouper tous les échanges et les demandes en une seule et même question.

En faisant cela, on pose le cadre des analyses en se laissant une certaine liberté. En ne suivant pas une trame précise pour le projet, on recherche sans a priori et on découvre parfois des choses très intéressantes.

La problématique doit, bien entendu, être validée avec le métier. C’est le moment ou jamais de savoir si on a bien compris leur demande ! 😊

À partir de là, toutes les recherches et les analyses doivent permettre de répondre entièrement ou en partie à la problématique formulée.

Étape 3 : Définir un périmètre ⛔

Grâce à la problématique, on peut définir un périmètre d’étude.

Définir un périmètre c’est savoir sur quelles données on souhaite travailler et sur quelle période. C’est un peu de temps de gagné sur l’étape de nettoyage des données qui est souvent longue. 🕰️

La mise en place d’un périmètre permet de définir le cadre de l’étude avec le métier et de définir certaines règles, par exemple “on considère qu’un client est perdu quand il n’a pas fait d’achats depuis plus d’un an”. Ce sont des règles communes qui permettront à chaque partie de mieux comprendre les analyses effectuées.

La définition du périmètre permet également de ne récupérer que les données dont on a besoin et ne pas s’encombrer dès le départ avec des données “inutiles” 😶‍🌫️.

Étape 4 : Récupérer et explorer les données 🔎

Sans cette étape, pas de données et sans données pas de projet.

La récupération des données peut se faire de plusieurs façons :

Par l’intermédiaire du métier ou du client qui met à disposition les données nécessaires.
En faisant un export à partir d’un outil de gestion de base de données
En allant chercher directement dans la base à partir d’un script

Une fois les données récupérées, il faut en faire une première exploration 🕵️. Il s’agit de prendre connaissance des variables à disposition et de commencer à réfléchir aux prochaines étapes du projet.

C’est une partie qui peut être très rapide quand on est déjà familier avec les données. En revanche, quand on travaille pour des clients externes à l’entreprise, on découvre de nouvelles données et les explorer une première fois permet de poser les éventuelles questions nécessaires dès le départ.

Étape 5 : Nettoyer les données 🧹

Ce n’est pas la première, ni la dernière fois que je vous le dis, LE NETTOYAGE DES DONNÉES EST LA PARTIE LA PLUS IMPORTANTE ! ⚠️

Nettoyer les données c’est :

Supprimer les colonnes dont on n’a pas besoin
Filtrer les données à partir de caractéristiques (par exemple : supprimer tous les clients perdus)
Supprimer les doublons
Mettre les variables au bon format (date, entier, chaîne de caractères) pour pouvoir les utiliser ensuite.
Supprimer ou remplacer les données manquantes.
Supprimer ou modifier les valeurs aberrantes

En passant trop rapidement sur cette étape, vous prenez le risque d’avoir des biais dans les analyses et de perdre énormément de temps ⏲️.

Étape 6 : Faire une analyse descriptive 📈

Plus haut, je vous parlais de la première exploration des données, ici, l’analyse descriptive, ou EDA, va beaucoup plus loin.

Lorsque l’on se lance dans un projet data, on utilise rarement toutes les variables du jeu de données, une sélection est nécessaire. Bien entendu, en bons professionnels que nous sommes, les variables choisies ne le sont pas au hasard 🔮.

L’analyse descriptive consiste donc à étudier chaque variable, ses spécificités, sa distribution selon les groupes et sa corrélation avec les autres variables afin de sélectionner celles que l’on souhaite intégrer dans le modèle.

Cette étape permet non seulement de mieux connaître la base de données et les variables mais aussi de faire une sélection optimale de celles à inclure dans le modèle ou dans l’étude 🖥️.

Étape 7 : Organiser le code 📑

Qui dit organiser un projet, dit organiser le code 💻.

Et contrairement aux étapes précédentes, elle est répétitive. Elle doit être effectuée à chaque moment du projet.

Organiser un code c’est lui donner une structure, ajouter des titres, des descriptions, des commentaires en créant une hiérarchie 🗂️.

Cette étape est plus qu’importante car on est souvent amené à travailler avec des collègues sur le même projet. Il faut que chacun puisse comprendre et réutiliser le code rapidement, c'est valable aussi pour soi-même. 😉

Étape 8 : Enregistrer régulièrement le code 💾

Autre chose qu’il faut faire régulièrement pour ne pas dire tous les jours, c’est d’enregistrer son code, cela permet plusieurs choses :

d’avoir une trace de ce que l’on fait 👀
de pouvoir revenir sur d’anciennes versions du code si nécessaire 📖
de ne pas se retrouver du jour en lendemain sans code parce que son ordinateur a planté 💥

Heureusement il existe de nombreux outils sur lesquels on peut enregistrer les différentes versions d’un code.

Étape 9 : Choisir le modèle 🤔

C’est une étape pour laquelle il est nécessaire d’avoir des connaissances techniques.

Le modèle dont on parle c’est l’algorithme, la méthode de calcul qui permettra de mettre en place l’outil que l’on souhaite.

Il se choisit selon plusieurs critères :

l’objectif du projet 🎯, on n’utilisera pas le même modèle selon ce que l’on souhaite faire : score, segmentation, Etc.
les données 📈: certains modèles sont très adaptés aux données textuelles, d’autres ne sont compatibles qu’avec les données numériques.
les performances 💪: dans le cas où plusieurs modèles correspondent au besoin, on sélectionne celui dont les performances sont meilleures.

Étape 10 : Faire relire son code par un autre data 🧐

C’est l’étape qui vient à la fin du projet.

C’est une étape rarement faite, je le sais, mais je pense que tout le monde serait beaucoup plus performant si, comme dans le milieu du développement, il y avait des relectures de code. Pas seulement une lecture rapide mais une vraie relecture, ligne par ligne pour relever des incohérences ou des erreurs dans le code que l’on ne voit pas forcément. 🔎

Un peu comme lorsqu’on essaye de corriger un texte que l’on a écrit (c’est possible d’ailleurs que vous releviez des fautes d’orthographe dans cet article), on le survole car on le connaît déjà et donc tout nous paraît correct. C’est pour cela qu’une relecture par un tiers, c’est toujours plus efficace.

Et vous voyez, à ce moment, l’étape 7 est bien utile ! 😄

Vous connaissez maintenant les 10 grandes étapes pour organiser un projet data. Certaines peuvent vous paraître un peu techniques mais vous aurez, au moins, une vision de la data sous différents angles.

Ce sont des étapes que nous réalisons quotidiennement chez Esteka-data alors n'hésitez pas à venir nous poser vos questions ! 😉