Comment définir le Machine learning ?
Le Machine learning est un type d’intelligence artificielle (IA) qui permet aux ordinateurs d’apprendre sans être explicitement programmés. Il se concentre sur le développement de programmes informatiques qui peuvent changer lorsqu’ils sont exposés à de nouvelles données.
Le processus d’apprentissage automatique est similaire à celui de l’exploration de données. Les deux systèmes recherchent dans les données pour trouver des modèles. Cependant, au lieu d’extraire les données pour la compréhension humaine, le Machine learning utilise ces données pour détecter des modèles dans ces données et ajuster les actions du programme en conséquence. Par exemple, Facebook utilise l’apprentissage automatique pour ajuster chaque contenu en fonction du profil d’un utilisateur.
Cela consiste en la mise en place d’algorithmes ayant pour objectif d’obtenir une analyse prédictive à partir de données, dans un but précis.
C’est en quelque sorte l’apprentissage par l’exemple. En fait, on va créer un programme qui crée un programme, plutôt que de tenter de définir des règles qui définissent avec certitude un évènement. On imagine qu’avec une masse importante de données, définir des règles serait fastidieux!
Un changement de paradigme
Avec le Machine Learning, on cherche davantage à établir des corrélations entre 2 évènements plutôt qu’un lien de causalité.
⇒ Exemple: on peut détecter une corrélation entre la consommation de sucre et les maladies cardiaques, sans pour autant dire que l’une est la cause de l’autre.
En revanche, la correlation est utile si par exemple on souhaite identifier les personnes susceptibles de porter de maladies cardiaques. Il faudra en revanche faire le deuil de comprendre POURQUOI il y a une corrélation…
Quels sont les différents types de Machine Learning ?
Le machine learning se décompose en 2 étapes: une phase d’entraînement (on apprend sur une partie des données) et une phase de vérification (on teste sur la seconde partie de données).
Nous aurons donc 3 phases: la Représentation / l’Evaluation / l’Optimisation. La phase de representation consiste à trouver le modèle mathématique le plus adapté. Il existe un nombre important de modélisations. L’évaluation mesure l’écart entre le modèle et la réalité des données de tests. Enfin, l’optimisation vise à amenuiser cet écart.
Nous pouvons dénombrer 3 méthodes basiques:
– la Classification: modélisation de plusieurs groupes de données dans des classes existantes. Par exemple: la classification des types d’orchidées, la tendance d’un parti politique…
– le Clustering: ressemble à la classification mais ce ne sont pas des classes connues.
– la Régression: les données sont liées à d’autres données numériques par une corrélation (une droite, une courbe, une tendance).
Le graphique ci-dessous illustre les 3 méthodes sur des données similaires:
Pour imaginer toute la complexité des modèles, voici pour le plaisir un exemple des différentes corrélations de Pearson:
Quelle différence entre l’apprentissage automatique supervisé et non supervisé?
La question revient souvent.
L’apprentissage supervisé revient à construire un modèle de corrélation entre 2 ou plusieurs variables a priori connues – on ‘sent’ qu’il y a un lien entre telle et telle variable – alors que l’apprentissage non supervisé va prendre en compte l’ensemble des variables d’un problème et va en extraire les correlations les plus fortes. Ce qui est bien plus puissant car cela va au-delà des préjugés humains et met en relief des corrélations cachées qu’aucun d’entre nous n’aurait pu imaginer.
Qu’est ce que le deep learning ?
Le Deep Learning est un domaine appartenant à l’intelligence artificielle dont l’objectif est l’étude et la construction de systèmes informatiques capables « d’apprendre par l’expérience ». Il s’inspire donc légèrement de certains principes du fonctionnement du cerveau humain.
En général, ces systèmes doivent être formés à partir d’exemples connus de la même manière qu’un jeune enfant apprend à reconnaître des objets ou des sons autour de lui.
Ce type d’apprentissage automatique est appelé deep learning ou apprentissage profond, car il possède une structure hiérarchique qui extrait différents niveaux de détail des données. Par exemple, lors de la reconnaissance d’image, des contours sont extraits qui, lorsqu’ils sont combinés, permettent de détecter des formes qui à leur tour permettent de reconnaître différentes parties de l’objet pour finalement déterminer son identité. Pour ce faire, le deep learning fait appel à des réseaux de neurones artificiels composés d’algorithmes.
Le rôle des réseaux de neurones
En tant qu’humains, nous avons un cerveau qui facilite ce processus d’apprentissage sans que nous nous en rendions compte. Au lieu de cela, les machines s’appuient sur certains algorithmes pour les guider à travers les processus d’apprentissage, les règles qu’elles utilisent pour examiner et donner un sens à toutes les données enseignées. En ce sens, le matériel le plus important de l’apprentissage profond est les réseaux de neurones.
Le mystère derrière les réseaux de neurones est la statistique pure et la théorie de probabilités classiques telles que la classification naïve bayésienne. Les réseaux de neurones traitent de manière répétitive de gros volumes de données en modifiant le poids de ces formules.
Dans la data science, l’apprentissage profond est un outil permettant de gérer des quantités massives de données collectées. En fait, plus la quantité de données est importante, plus le deep learning est efficace par rapport aux autres méthodes d’analyse.
Exemples concrets de Machine Learning
La voiture autonome de Google
Classification des emails dans gmail
La traduction en temps réel de Skipe / La reconnaissance vocale Siri d’Apple
Détection de fraude dans le monde de la banque
Reconnaissance faciale
Sourcing et remerciements:
Article Journal du net
Machine Learning Cheat Sheet
LinkedIn Tech Talks
HumanTalks