Top 5 des outils indispensables en Data Science đ§
ï»żï»żVous savez tout sur les mĂ©tiers de la Data (si ce n'est pas le cas, đ cliquez ici đ) mais vous ne savez peut-ĂȘtre pas quels sont les outils quâutilisent les Data Scientists (entre autres) pour mener Ă bien leurs missions ? Câest ce que je vous prĂ©sente aujourdâhui !
Il existe une multitude de plateformes ou logiciels disponibles et vous ou vos Data Scientist utilisez possiblement des outils diffĂ©rents des nĂŽtres mais vous trouverez dans cet article les outils, selon nous, indispensables pour faire de la Data Science đ.
Avant toute chose, pour travailler avec la data, il faut de la data. On est donc amenĂ© Ă utiliser des outils de stockage et de gestion des donnĂ©es đïž.
Excel
Le premier outil, et je nâai aucun doute sur le fait que vous le connaissiez dĂ©jĂ , câest Excel.
Et oui ! On dit souvent que Excel finira par ne plus ĂȘtre utilisĂ© et sera remplacĂ© par des outils plus performants. *
En rĂ©alitĂ©, on lâutilise encore chaque jour !
Pour concevoir une base de donnĂ©es, pour la visualiser ou encore pour faire des requĂȘtes simples, Excel reste un outil intĂ©ressant. En tant que Data Analyst, jâutilise moi-mĂȘme rĂ©guliĂšrement cet outil ou son Ă©quivalent sur Google (Google Sheet) et je dois dire que dans certains cas, cela me fait gagner beaucoup de tempsâ.
Je lâutilise notamment pour la mise en forme des donnĂ©es ou pour gĂ©nĂ©rer rapidement des graphiques.
Bien entendu, comme tout outil, il possĂšde des limites â. Il nâest pas adaptĂ© aux bases de donnĂ©es volumineuses sur lesquelles on est amenĂ© Ă travailler et qui dĂ©passent les millions de lignes parfois.
Bien que son utilisation soit limitée, le tableur reste un outil trÚs utilisé en Data Science et trÚs accessible quel que soit le domaine.
MySQL
Contrairement Ă Excel, MySQL est un outil permettant de gĂ©rer et de stocker de grandes bases de donnĂ©es. Il permet dâavoir une vision globale de la base de donnĂ©es et des diffĂ©rentes tables qui la compose. Cela est trĂšs pratique dans le cas des entreprises qui possĂšdent beaucoup de donnĂ©es de diffĂ©rentes sources đŸ.
Comme son nom lâindique, MySQL est un outil sur lequel les requĂȘtes sont faites dans le langage SQL, il faut donc un minimum dâexpertise pour lâutiliser.
Cet outil permet de gĂ©rer les bases de donnĂ©es, ou simplement de faire des exports personnalisĂ©s pour utiliser les donnĂ©es dans dâautres logiciels. MySQL ne permet pas la gĂ©nĂ©ration de graphiques et nâest pas trĂšs adaptĂ© pour la rĂ©alisation dâanalyses poussĂ©es.
Certaines entreprises utilisent plutĂŽt phpMyAdmin ou encore MongoDB mais le principe reste le mĂȘme.
Stocker les donnĂ©es nâest pas suffisant et elles ne servent Ă rien si elles ne sont pas exploitĂ©es. Pire encore ! Les donnĂ©es non exploitĂ©es coĂ»tent de lâargent đ° et par-dessus tout sont mauvaises pour lâenvironnement đż. De nombreux outils existent pour lâexploitation des donnĂ©es, ci-dessous je vous prĂ©sente les 2 que nous utilisons le plus.
Jupyter Notebook
Pour les analyses plus approfondies, on utilise gĂ©nĂ©ralement les outils proposĂ©s par lâenvironnement Anaconda Navigator.
Anaconda propose un environnement complet dans les langages Python et R, avec de nombreux packages prĂ©installĂ©s. Jupyter, notamment, est une interface permettant de crĂ©er des Notebooks trĂšs lisibles. Câest idĂ©al lorsque lâon travaille en Ă©quipe et que lâon est amenĂ© Ă se partager des codes.
Il permet de concevoir des codes plus propres, de crĂ©er une hiĂ©rarchie dans le code et de voir les rĂ©sultats de chaque requĂȘte au fur et Ă mesure đ§č.
Pour faire simple, les Notebooks permettent de rassembler dans un mĂȘme document, du texte, des images, des formules mathĂ©matiques et du code informatique exĂ©cutable đđ».
Jupyter possĂšde aussi son Ă©quivalent sur Google avec Google Colab qui propose une partie gratuite ainsi quâune option payante.
R Studio
Dans le mĂȘme genre mais plus utilisĂ©e pour les statistiques, la plateforme R Studio propose une interface graphique intuitive. Cette fois-ci dans le langage R, elle permet de visualiser et de requĂȘter facilement les bases de donnĂ©es. Avantage de cette plateforme, elle permet assez simplement de gĂ©nĂ©rer des rapports PDF contenant les rĂ©sultats â .
RĂ©sultats, un gain de temps pour le Data Scientist qui peut faire ses calculs et ses rapports en mĂȘme temps et un support visuel beaucoup plus communicatif pour le mĂ©tier.
Pour aller plus loin dans lâexploitation des donnĂ©es, il faut pouvoir les mettre Ă disposition du mĂ©tier, or, tout le monde nâa pas les compĂ©tences pour comprendre les bases de donnĂ©es complexes et encore moins du code. Câest pourquoi une solution magique (ou presque) existeâŠles tableaux de bord !đ Ces outils permettent de fournir au mĂ©tier une interface fonctionnelle permettant de visualiser des rĂ©sultats en faisant facilement des filtres.
Data Studio
Outil mis Ă disposition par Google, Data Studio permet la rĂ©alisation de tableaux de bord complets et accessibles Ă tous. Lâavantage de cet outil est quâil peut ĂȘtre directement mis en relation avec la base de donnĂ©es ce qui lui permet dâĂȘtre mis Ă jour en temps rĂ©el. Câest un outil gratuit et assez fonctionnel. Il permet de concilier tableaux, graphiques sur plusieurs pages et avec des filtres diffĂ©rents đ.
Pour aller encore plus loin, il existe également Tableau et Power BI, ce sont des outils payants cette fois mais qui offrent beaucoup plus de fonctionnalités.
JâespĂšre que vous y voyez plus clair en ce qui concerne les outils en Data Science đ€.
Retrouvez l'ensemble de nos actualitĂ©s en đ cliquant ici. đ