Top 5 des outils indispensables en Data Science 🔧

Top 5 des outils indispensables en Data Science 🔧

ï»żï»żVous savez tout sur les mĂ©tiers de la Data (si ce n'est pas le cas, 👉 cliquez ici 👈) mais vous ne savez peut-ĂȘtre pas quels sont les outils qu’utilisent les Data Scientists (entre autres) pour mener Ă  bien leurs missions ? C’est ce que je vous prĂ©sente aujourd’hui !

Il existe une multitude de plateformes ou logiciels disponibles et vous ou vos Data Scientist utilisez possiblement des outils diffĂ©rents des nĂŽtres mais vous trouverez dans cet article les outils, selon nous, indispensables pour faire de la Data Science 📊.



Avant toute chose, pour travailler avec la data, il faut de la data. On est donc amenĂ© Ă  utiliser des outils de stockage et de gestion des donnĂ©es đŸ—ƒïž.


Excel

Le premier outil, et je n’ai aucun doute sur le fait que vous le connaissiez dĂ©jĂ , c’est Excel.

Et oui ! On dit souvent que Excel finira par ne plus ĂȘtre utilisĂ© et sera remplacĂ© par des outils plus performants. *

En rĂ©alitĂ©, on l’utilise encore chaque jour !


Pour concevoir une base de donnĂ©es, pour la visualiser ou encore pour faire des requĂȘtes simples, Excel reste un outil intĂ©ressant. En tant que Data Analyst, j’utilise moi-mĂȘme rĂ©guliĂšrement cet outil ou son Ă©quivalent sur Google (Google Sheet) et je dois dire que dans certains cas, cela me fait gagner beaucoup de temps⌚.

Je l’utilise notamment pour la mise en forme des donnĂ©es ou pour gĂ©nĂ©rer rapidement des graphiques.

Bien entendu, comme tout outil, il possĂšde des limites ❌. Il n’est pas adaptĂ© aux bases de donnĂ©es volumineuses sur lesquelles on est amenĂ© Ă  travailler et qui dĂ©passent les millions de lignes parfois.


Bien que son utilisation soit limitée, le tableur reste un outil trÚs utilisé en Data Science et trÚs accessible quel que soit le domaine.


MySQL



Contrairement Ă  Excel, MySQL est un outil permettant de gĂ©rer et de stocker de grandes bases de donnĂ©es. Il permet d’avoir une vision globale de la base de donnĂ©es et des diffĂ©rentes tables qui la compose. Cela est trĂšs pratique dans le cas des entreprises qui possĂšdent beaucoup de donnĂ©es de diffĂ©rentes sources đŸ’Ÿ.

Comme son nom l’indique, MySQL est un outil sur lequel les requĂȘtes sont faites dans le langage SQL, il faut donc un minimum d’expertise pour l’utiliser.

Cet outil permet de gĂ©rer les bases de donnĂ©es, ou simplement de faire des exports personnalisĂ©s pour utiliser les donnĂ©es dans d’autres logiciels. MySQL ne permet pas la gĂ©nĂ©ration de graphiques et n’est pas trĂšs adaptĂ© pour la rĂ©alisation d’analyses poussĂ©es.

Certaines entreprises utilisent plutĂŽt phpMyAdmin ou encore MongoDB mais le principe reste le mĂȘme.



Stocker les donnĂ©es n’est pas suffisant et elles ne servent Ă  rien si elles ne sont pas exploitĂ©es. Pire encore ! Les donnĂ©es non exploitĂ©es coĂ»tent de l’argent đŸ’° et par-dessus tout sont mauvaises pour l’environnement đŸŒż. De nombreux outils existent pour l’exploitation des donnĂ©es, ci-dessous je vous prĂ©sente les 2 que nous utilisons le plus.


Jupyter Notebook

Pour les analyses plus approfondies, on utilise gĂ©nĂ©ralement les outils proposĂ©s par l’environnement Anaconda Navigator.

Anaconda propose un environnement complet dans les langages Python et R, avec de nombreux packages prĂ©installĂ©s. Jupyter, notamment, est une interface permettant de crĂ©er des Notebooks trĂšs lisibles. C’est idĂ©al lorsque l’on travaille en Ă©quipe et que l’on est amenĂ© Ă  se partager des codes.

Il permet de concevoir des codes plus propres, de crĂ©er une hiĂ©rarchie dans le code et de voir les rĂ©sultats de chaque requĂȘte au fur et Ă  mesure đŸ§č.

Pour faire simple, les Notebooks permettent de rassembler dans un mĂȘme document, du texte, des images, des formules mathĂ©matiques et du code informatique exĂ©cutable đŸ‘ŒđŸ».

Jupyter possĂšde aussi son Ă©quivalent sur Google avec Google Colab qui propose une partie gratuite ainsi qu’une option payante.


R Studio

Dans le mĂȘme genre mais plus utilisĂ©e pour les statistiques, la plateforme R Studio propose une interface graphique intuitive. Cette fois-ci dans le langage R, elle permet de visualiser et de requĂȘter facilement les bases de donnĂ©es. Avantage de cette plateforme, elle permet assez simplement de gĂ©nĂ©rer des rapports PDF contenant les rĂ©sultats ✅.

RĂ©sultats, un gain de temps pour le Data Scientist qui peut faire ses calculs et ses rapports en mĂȘme temps et un support visuel beaucoup plus communicatif pour le mĂ©tier.



Pour aller plus loin dans l’exploitation des donnĂ©es, il faut pouvoir les mettre Ă  disposition du mĂ©tier, or, tout le monde n’a pas les compĂ©tences pour comprendre les bases de donnĂ©es complexes et encore moins du code. C’est pourquoi une solution magique (ou presque) existe
les tableaux de bord !📈 Ces outils permettent de fournir au mĂ©tier une interface fonctionnelle permettant de visualiser des rĂ©sultats en faisant facilement des filtres.


Data Studio

Outil mis Ă  disposition par Google, Data Studio permet la rĂ©alisation de tableaux de bord complets et accessibles Ă  tous. L’avantage de cet outil est qu’il peut ĂȘtre directement mis en relation avec la base de donnĂ©es ce qui lui permet d’ĂȘtre mis Ă  jour en temps rĂ©el. C’est un outil gratuit et assez fonctionnel. Il permet de concilier tableaux, graphiques sur plusieurs pages et avec des filtres diffĂ©rents 📆.

Pour aller encore plus loin, il existe Ă©galement Tableau et Power BI, ce sont des outils payants cette fois mais qui offrent beaucoup plus de fonctionnalitĂ©s.

J’espĂšre que vous y voyez plus clair en ce qui concerne les outils en Data Science đŸ€“.


Retrouvez l'ensemble de nos actualitĂ©s en 👉 cliquant ici. 👈