Browsing Tag

Dataviz

Formations

Connaissez-vous le métier de Data Hoarder ?

La digitalisation nous amène ces dernières années à sauvegarder de plus en plus de données hétérogènes. La démocratisation de l’utilisation du Cloud nous engage instinctivement à ne plus trier et à conserver tout type d’informations, y compris certaines obsolètes ou non pertinentes. Que ce soient des photos, des vidéos, des mails ou même des messages, l’utilisateur ne prend pas la mesure de la pollution numérique que cela représente, car il n’est plus encombré par des objets physiques ou des dossiers papier. 

Le Data Hoarder est le chef d’orchestre du stockage des données. C’est une personne qui prend plaisir à amasser, ordonner et collectionner un nombre de données pharamineuses. Il est également archiviste et peut être ingénieur. 

Description de la fonction du Data Hoarder

Un Data Hoarder à plusieurs missions, il est considéré comme un bibliothécaire numérique qui va préserver l’information et est également chargé de réparer les erreurs ou les mauvaises manipulations des utilisateurs.

Pourquoi a-t-on besoin d’un Data Hoarder ?

Tout d’abord pour les exigences légales et concurrentielles, ensuite pour la méfiance à l’égard des services cloud et enfin pour des raisons culturelles et familiales. 

Quelles sont les compétences nécessaires pour ce métier ?

  • Très bonne base en Excel 
  • Analytique UI 
  • Appétence pour les chiffres 
  • Habile avec les statistiques

Acquérir des compétences en Data Hoarding

 

Quels sont les outils qu’utilise le Data Hoarder ? 

Pour gagner en performance, il aura besoin d’une connexion Internet solide, une capacité de mémoire imposante, à la fois en local, et sur les serveurs. 

Wayback machine est une plateforme dédiée à l’archivage et au recensement. Elle représente une mine d’informations pour le Data Hoarder qui peut consulter des éléments préservés depuis plus de 30 ans et ainsi produire des statistiques adéquates.

Quelles sont les raisons pour lesquelles il fait cela ?

Plusieurs profils de Data Hoarder sont répertoriés : 

  • Le Hoarder Anxieux a peur de la suppression des données, ce qui peut mener à de graves conséquences psychologiques tel un trouble obsessionnel compulsif. 
  • Le Hoarder Collectionneur a de grandes capacités d’organisation. Il répertorie et classe toutes les données de manière scrupuleuse. 
  • Le Hoarder Docile exécute les tâches car on le lui a demandé. 
  • Le Hoarder Désengagé va archiver les données de personnes qui ne savent pas par où commencer pour nettoyer leur cyber-encombrement.

Conséquences du Data Hoarding

Malgré les nombreux avantages que présentent les actions d’un Data Hoarder, il persiste cependant certains aspects néfastes. Le fonctionnement des machines accumulant trop de données est considérablement ralenti; les disques durs emmagasinent trop d’informations ce qui altère la performance des outils.

Le surstockage est un facteur important de nuisance pour l’environnement. Les exigences énergétiques sont de plus en plus élevées et représenteraient actuellement 2% des émissions de gaz à effet de serre et seraient susceptibles d’augmenter à hauteur de 14% à horizon 2040. 

La constructions massives de Data Centers impactent dramatiquement la faune et la flore, menaçant certaines espèces et déséquilibrant l’écosystème.

Solutions face aux répercussions des datas centers sur l’environnement

  • Mettre en place des systèmes de refroidissement écologiques 
  • Utilisation d’énergies renouvelables
  • Adopter la technologie de l’IA

Si vous souhaitez vous reconvertir dans ce domaine, n’hésitez pas à découvrir notre formation Data Scientist.

Découvrir la formation Data Scientist

 

pandas-bibliothèque-python
Définitions

Pandas : une bibliothèque Python pour manipuler facilement des données

La bibliothèque Pandas est certainement la plus utile pour les data scientist sous le langage Python. Elle permet d’explorer, transformer, visualiser et comprendre vos données afin d’en retirer le maximum d’informations. Voyons ensemble dans quelles cas l’utiliser et ses fonctions les plus courantes.

Si vous évoluez dans la data science, vous avez sûrement entendu parler de la bibliothèque Pandas. Son nom n’a rien à voir avec ce petit animal d’Asie qui ressemble à un ours. Le nom «Pandas» est une contraction des mots «Panel Data» et «Python Data Analysis». Pandas est donc une bibliothèque open-source proposant différentes fonctions qui permettent la manipulation et l’analyse de données en Python de manière simple et intuitive. C’est donc une bibliothèque polyvalente qui vous permettra de réaliser facilement des analyses de données complexes. La bibliothèque Pandas permet également de créer facilement des graphes, très utiles dans la Data Analyse.

Première force de Pandas, elle se base sur la bibliothèque Numpy

Grand avantage de Pandas, elle se base sur la très populaire bibliothèque Numpy. Cette bibliothèque fournit une pléiade de structures de données et d’opérations qui permettent de traiter des données numériques et des données chronologiques. La bibliothèque Pandas est également importante car ses données sont souvent utilisées comme base pour les fonctions de plotting de Matplotlib, une autre bibliothèque renommée utilisant le langage Python. Les données issues de Pandas sont aussi très utiles dans l’analyse statistique en SciPy, les algorithmes de Machine Learning en Scikit-learn. La bibliothèque Pandas est également très utilisée dans le traitement et l’analyse des données tabulaires (vous pourrez stocker vos données sous le format .csv, .tsv et .xlsx) en entrant des requêtes de type SQL.

Les Séries, les Dataframes et le Panel : les principales structures de données de Python Panda

Si vous utilisez Pandas, vous travaillerez principalement avec deux structures de données, les Séries et les Dataframes.

Les Séries : Une Série est un tableau unidimensionnel étiqueté qui peut contenir des données de n’importe quel type (entier, chaîne, flottant, objets python, etc.). En d’autres mots, les séries sont équivalentes aux colonnes dans un tableau Excel. Les étiquettes des axes sont collectivement appelées index.

Pandas en général est utilisé pour les données de séries chronologiques financières ou des données économiques. Ce langage dispose de nombreux assistants intégrés pour gérer les données financières. Grâce à Numpy, vous pourrez facilement gérer de grands tableaux multidimensionnels pour le calcul scientifique.

tableau-multidimensionnel

La Dataframe : c’est une structure de données bidimensionnelle, c’est-à-dire que les données sont alignées de façon tabulaire en lignes et en colonnes. On peut la comparer en quelque sorte à un classeur Excel. La Dataframe Pandas est particulièrement puissante car elle permet de :
  • charger des données provenant de différentes sources.
  • réaliser facilement des statistiques et calculer la moyenne, la médiane, le maximum et le minimum de chaque colonne et les corrélations entre chacune d’entre elles.
  • nettoyer facilement les données en supprimant les valeurs manquantes ou en filtrant les lignes ou les colonnes selon certains critères.
  • visualiser les données avec l’aide de Matplotlib. Tracez des barres, des lignes, des histogrammes, des bulles, etc.
  • elle permet de stocker les données nettoyées et transformées dans un CSV, TSV ou XLSX.

La Dataframe vous permet également de créer vos propres fonctions Python pour effectuer certaines tâches de calcul et les appliquer aux données de vos Dataframes.

En utilisant les Séries et les Dataframes on peut donc facilement manipuler des données et les représenter.

Enfin, le Panel est un conteneur important pour les données en 3 dimensions. Les noms des 3 axes sont destinés à décrire les opérations impliquant des données de panel et, en particulier, l’analyse économétrique de ces données. L’analyse économétrique est une analyse quantitative, permettant de vérifier l’existence de certaines relations entre des phénomènes économiques et de mesurer concrètement ces relations sur la base d’observations de faits réels. On peut par exemple observer les notes des élèves d’une classe et les comparer sur les devoirs rendus durant les trois trimestres d’une année scolaire.

Pandas, un langage essentiel en Data Science et en Machine Learning

Pandas est un outil particulièrement populaire en science des données il est particulièrement reconnu pour le traitement et l’analyse des données. En effet, Pandas est très utile dans le nettoyage, la transformation, la manipulation et l’analyse de données. En d’autres mots, Pandas aide les Data Scientists à mettre de l’ordre dans leurs données ce qui représente selon certains près de 80% de leur travail.

En ce qui concerne le Machine Learning, Pandas est tout aussi reconnu comme un outil de choix. Ces fonctions permettent notamment d’explorer, de transformer mais aussi de créer une visualisation de la donnée.

En effet, Pandas est souvent accompagné de la bibliothèque Scikit-learn, c’est le package de machine learning de Python. L’utilisation de Scikit-learn intervient dans un deuxième temps après le passage de Pandas dans la première phase d’exploration de la donnée dans un projet de Data Science.

Se former à Pandas avec DataScientest

Conseils

Comment créer des tableaux de bord efficaces ?

Etre data scientist, c’est aussi savoir mettre en valeur la donnée, la faire parler. La mode est aux tableaux de bord, ou aux dashboards, pour être dans l’air du temps !

Mais quels sont les astuces, les bons outils, les erreurs à ne pas commettre ? Je vous livre quelques secrets après être moi-même tombée dans tous les pièges 🙂

 

Continue Reading