jeu-de-données
Définitions

Qu’est-ce qu’un jeu de données ?

Un jeu de données ou data set est un ensemble ou une collection de données. Cet ensemble prend forme dans un tableau avec des lignes et des colonnes. Chaque colonne décrit une variable particulière. Et chaque ligne correspond à un élément donné de l’ensemble de données. Cela fait partie de la gestion des données.

Les ensembles de données décrivent les valeurs de chaque variable pour des quantités inconnues d’un objet ou des valeurs de nombres aléatoires. Les valeurs de cet ensemble sont appelées une donnée. L’ensemble de données se compose de données d’un ou plusieurs éléments correspondant à chaque ligne.

Les différents types de jeux de données

Dans les statistiques, il existe différents types de jeux de données publiés :

  • Jeu de données numériques : un ensemble de chiffres tels que le poids et la taille d’une personne, son âge, le taux de globule rouge dans son sang dans son rapport médical, etc.
  • Jeu de données bivariées : un ensemble de données qui a deux variables comme le rapport poids/puissance d’une voiture par exemple.
  • Jeu de données multivariées : un ensemble de données à plusieurs variables comme le volume des colis qui nécessite trois variables (longueur, largeur et hauteur).
  • Jeu de données catégorielles : un ensemble de données catégorielles qui représentent les caractéristiques d’une personne ou d’un objet.
  • Jeu de données de corrélation : un ensemble de données qui démontrent la corrélation entre plusieurs variables ou données par exemple.

Comment créer un jeu de données ?

Il existe différentes manières de créer des jeux de données . En effet, il existe plusieurs liens menant vers des sources contenant toutes sortes de jeux de données. Certains d’entre eux seront des données générées par des robots. D’autres sont produites par des outils de Business intelligence créés à partir de la Machine Learning. D’autres seront des données collectées via des enquêtes. Il existe également des jeux de données enregistrées à partir d’observations humaines ou extraites des sites Web et des API.

machine-learning-jeu-de-données

Avant de travailler sur un jeu de données, il est important de répondre aux questions suivantes :

  1. D’où viennent les données ?
  2. Comment cet ensemble de données est-il été créé ?

Il ne faut pas se lancer directement dans l’analyse. L’idéal est de prendre le temps de comprendre d’abord les données sur lesquelles travailler.

Les jeux de données publiques pour les projets de visualisation de données

Lorsqu’on recherche un bon jeu de données pour un projet de visualisation de données :

  • Bien ordonné pour ne pas avoir à passer beaucoup de temps à nettoyer les données.
  • Suffisamment nuancé et intéressant pour faire des graphiques.
  • Chaque colonne doit être bien claire de sorte que la visualisation des données soit précise.
  • Pas trop de lignes ou de colonnes pour simplifier le travail.

De nombreux sites d’actualités publient des données ouvertes ou open data. Ils sont d’excellents endroits où trouver de bons jeux de données pour des projets de visualisation de données. Ils respectent la politique de confidentialité des gens qui ont permis de générer ces données. Généralement, ils le nettoient et proposent des graphiques pouvant être reproduits ou améliorés.

Previous Post Next Post

You Might Also Like