All Posts By

Aurelia F

Définitions

Apprentissage supervisé : Définition et explications

L’apprentissage supervisé, dans le contexte de l’intelligence artificielle, est la méthode d’apprentissage la plus utilisée en Machine Learning et en Deep Learning. L’apprentissage supervisé consiste à surveiller l’apprentissage de la machine en lui présentant des exemples de ce qu’elle doit effectuer. Ses utilisations sont nombreuses : reconnaissance vocale, intelligence artificielle, classifications, etc. Ainsi, la régression linéaire fait partie d’une des techniques d’apprentissage supervisé la plus utilisée dans la prédiction d’une valeur continue. Aussi, la grande majorité des problèmes de Machine Learning et de Deep Learning utilisent l’apprentissage supervisé : il est donc primordial de comprendre correctement le fonctionnement de cette méthode. 

Le but de l’apprentissage automatique est de créer des algorithmes aptes à recevoir des ensembles de données et à réaliser une analyse statistique pour prédire un résultat.

Si on appelle ça un apprentissage supervisé, c’est parce que le processus d’un algorithme tiré du Training Set (ensembles de données) peut être considéré comme un enseignant qui surveille le processus d’apprentissage. Nous connaissons les bonnes réponses, l’algorithme effectue des prédictions sur les réponses et est ensuite corrigé par l’enseignant. L’apprentissage cesse quand l’algorithme atteint le niveau attendu pour être efficient. 

L’apprentissage supervisé consiste en des variables d’entrée X et une variable de sortie Y. L’algorithme a pour but d’apprendre la fonction de l’entrée jusqu’à la sortie.

Y = f (X)

Les étapes de l’apprentissage supervisé sont : 

  1.     La collecte des données et leur labellisation
  2.     Le nettoyage des données pour identifier de potentielles erreurs ou manquement
  3.     Le prétraitement des données (identification des variables explicatives notamment)
  4.     Instanciation des modèles (modèle de régression ou de classification par exemple).
  5.     Entraînement des modèles 
  6.     Validation du modèle 

Ainsi et comme le montre la formule Y = f (X), le modèle d’apprentissage supervisé est très efficace pour étudier des relations linéaires mais il reste incapable de performer quand il y a des relations plus complexes qu’une linéarité entre les variables.

A contrario de l’apprentissage supervisé se trouve l’apprentissage non supervisé. Celui-ci correspond au fait de n’utiliser que des données d’entrée (X) et aucune variable de sortie Y correspondante. Le but de l’apprentissage non supervisé est de modéliser la structure des données afin d’en apprendre plus sur les données et à la différence de l’apprentissage supervisé, il n’y a pas de bonne réponse ni d’enseignant. Les algorithmes sont laissés à leurs propres processus pour étudier et choisir la structure des données qui soit intéressante. 

L’apprentissage supervisé présente des atouts que les apprentissages non supervisés n’ont pas, mais il rencontre aussi des difficultés. En effet, l’apprentissage supervisé est plus apte à prendre des décisions auxquelles les humains peuvent s’identifier car les données sont elles-mêmes fournies par l’humain. Néanmoins, les apprentissages supervisés rencontrent plus de difficultés à traiter les données qui s’ajoutent après l’apprentissage. En effet, si un système connaît les groupes chiens et chats et reçoit une photographie de souris, il devra la placer dans l’un ou l’autre de ces deux groupes alors qu’elle n’y appartient pas. Au contraire, si le système avait suivi un apprentissage non supervisé, il ne serait pas capable d’identifier que c’est une souris mais il serait capable de le définir comme n’appartenant à aucune des 2 catégories chiens et chats. 

L’apprentissage supervisé chez DataScientest

Considérant l’efficacité et l’importance de l’apprentissage supervisé, DataScientest le place parmi les connaissances à valider aux cours de ses formations. Notamment au sein de la formation de data analyst et dans le module de Machine Learning de 75h, il vous sera demandé d’apprendre à identifier les problèmes de Machine Learning non supervisés, et apprendre à utiliser des méthodes d’apprentissage supervisé par des problèmes de régression. De même, dans la formation de data management, dans le module Data Literacy, nous apprendrons à identifier quelle méthode de Machine Learning utiliser selon le type de métier. Enfin, dans la formation de data scientist, le module de Machine Learning de 75h se verra attribuer une partie conséquente sur le sujet des apprentissages supervisés et non supervisés, leurs mises en place et l’identification de leurs problèmes.

Conseils

Devenir Data Scientist en ligne : mythe ou réalité ?

Devenir Data Scientist en ligne, mythe ou réalité ? Grâce à l’expérience d’apprenants, nous apportons des réponses à vos questionnements ! Bienvenue dans le premier épisode d’une série d’articles autour de la formation data en ligne ! 

Construire des modèles, apporter du sens aux données de l’entreprise et les rendre lisibles pour le commun des mortels : telles sont les missions quotidiennes d’un Data Scientist. Si vous aussi souhaitez manier la data comme un maître et apporter votre valeur ajoutée à l’entreprise. Restez avec nous, on vous explique comment faire !

Pourquoi devenir Data Scientist ? 

Le métier de Data Scientist est un métier d’avenir. D’ailleurs, selon le Harvard Business c’est le “métier le plus sexy du 21e siècle”. Ce n’est pas nous qui le disons, c’est Harvard et généralement ils savent de quoi ils parlent 😉 !  En effet, avec les nouveaux besoins issus des données massives de notre époque, plus communément connue sous l’ère du Big Data, c’est un métier qui est extrêmement recherché. Les géants comme Google, Amazon, Facebook en recrutent énormément depuis quelques années. 

Souvent, le métier de data scientist se concentre sur la mise en place d’algorithmes basés sur la donnée pour apporter des solutions à des problématiques aussi diverses que variées. Que ce soit de la détection d’anomalies, de la prévision ou de la gestion de risque, le Data Scientist est capable de répondre à ces enjeux grâce à son fer de lance : ses modèles.

Thibault, un Data Scientist ayant suivi une formation en ligne, a réussi à trouver une image parfaite pour décrire les outils du Data Scientist :  

« les modèles pour un Data Scientist sont ce que l’arc et les flèches sont pour Robin des bois »

Si cette image vous met l’eau à la bouche, je vous invite à découvrir plus en détails la formation adéquate pour devenir Data Scientist. De nombreux organismes de formation proposent des formations dont DataScientest, l’entreprise leader de la formation en Data Science.

 

Devenir Data Scientist en ligne, c’est possible ?

Effectivement, c’est tout à fait possible voire encouragé ! On pense que ce type de formation peut être extrêmement bénéfique pour l’expérience personnelle de l’apprenant. Après tout, chaque Data Scientist qui se respecte se doit d’être à l’aise sur un ordinateur 😉 ! 

L’avantage principal d’une formation en ligne est  « la flexibilité personnalisable » selon Marie, issue d’une formation intensive de 11 semaines à l’issue de laquelle elle a décroché une certification Data Scientist reconnue par la Sorbonne : 

«  La formation Data Scientist en ligne permet d’avancer à son rythme et en fonction de ses contraintes tout en bénéficiant d’un accompagnement  de bout à bout tout . »

La mise en place d’une plateforme d’apprentissage pour du “learning by doing”, permet de suivre votre évolution et votre parcours. 

 

Par ailleurs, Chad, un apprenant international qui a suivi  une  formation en anglais, partage des éléments pour rassurer les personnes qui auraient encore des hésitations. Il faisait référence par exemple, au matériel informatique utilisé se former et se lancer dans la formation de Data Scientist en ligne :

 « At first, I thought that I needed a specific material like a powerful laptop to join the training but I was wrong ! »  

Yes, he was wrong car grâce aux outils technologiques tels qu’une plateforme Full SaaS par exemple, vous n’avez plus besoin d’avoir un ordinateur spécifique mais juste un bon accès à internet et le tour est joué. 

D’autres prérequis évoqués par Sarah sont « la communication et l’autodiscipline », qui lorsqu’ils sont absents peuvent à priori mettre à mal l’apprentissage en ligne. Encore une fois, des solutions existent pour pallier ces lacunes.  En effet, DataScientest par exemple propose un accompagnement à tout instant : 

 «  Grâce à un accès h24 à la plateforme, le support et la présence continuelle de la part de nos formateurs, je me suis sentie accompagnée et remotivée dès que j’avais des coups de mou. »

 

Bref, je vous ai expliqué en quelques mots en quoi consistait  une formation Data Scientist en ligne, Si vous souhaitez plus d’informations concernant ce métier et la formation adéquate, n’hésitez pas à vous orienter vers un de nos organismes partenaires  !

Définitions

Focus sur le NLP ou Natural Language Processing

C’est seulement il y a 40 ans que l’objectif de doter les ordinateurs de la capacité de comprendre le langage naturel au sens de courant a commencé. Cet objectif de compréhension du langage naturel par les ordinateurs – plus communément appelé traitement du langage naturel ou “natural language processing” en anglais (NLP)est le sujet de cet article. 

Le Natural Language Processing est considéré comme une branche de l’Intelligence Artificielle, mais est devenu au fil des années un domaine d’études intéressant en matière de statistiques informatiques et de fouille de données textuelles.  

La maitrise du NLP permet d’accéder à des opportunités professionnelles dans le secteur de la data science. Seul un data scientist qui maitrise les techniques de machine learning et deep learning sera capable d’utiliser ces modèles pour les appliquer à des problématiques de traitement du langage naturel. D’où la nécessité de se former à la data science au travers d’une formation spécialisée.

Qu’est ce que le NLP ? 

La NLP est une approche computationnelle de l’analyse des textes. 

“Il s’agit d’une gamme de techniques informatiques à motivation théorique pour l’analyse et la représentation de textes naturels à un ou plusieurs niveaux d’analyse linguistique dans le but d’obtenir un traitement du langage similaire à l’humain pour une série de tâches ou d’applications”.

Le NLP regroupe les techniques qui utilisent des ordinateurs pour analyser, déterminer la similarité sémantique entre des mots et traduire entre les langues. Ce domaine concerne généralement les langues écrites, mais il pourrait également s’appliquer à la parole. 

Dans cet article, nous aborderons les définitions et concepts nécessaires à la compréhension et méthodes nécessaires à la compréhension du NLP, les méthodes de l’analyse syntaxique ainsi que le modèle d’espace vectoriel pour le NLP au niveau du document. 

Définitions et concepts

Présentons d’abord quelques définitions et concepts utilisés en NLP:

  • un corpus est un ensemble de documents
  • le lexique est un ensemble de mots utilisés dans la langue. En NLP, le lexique fait généralement référence à l’ensemble des mots uniques contenus dans le corpus

Les axes d’analyse pris en NLP sont :

  • la morphologie traite de la structure des mots individuels. Ainsi, les techniques dans ce domaine comprendraient des méthodes pour endiguer, attribuer la partie des balises vocales…
  • la syntaxe concerne la structure des phrases et les règles pour les construire. Elle est particulièrement importante car elle permet de déterminer le sens d’une phrase, également appelé sémantique.
  • la sémantique

Revenons quelques instants sur la syntaxe : une structure syntaxique peut être créée grâce à l’utilisation de la grammaire qui spécifie les règles de la langue. Un type de grammaire communément utilisé en NLP est la grammaire sans contexte (CFGs). 

Un CFG comprend les parties suivantes :

  • des symboles des terminaux, qui peuvent être des mots ou de la ponctuation
  • des symboles non terminaux, qui peuvent être des parties de discours, de phrases…
  • des symboles de départ
  • ou encore un ensemble de règles avec un seul symbole non terminal à gauche et un ou plusieurs symboles à droite (terminaux ou non terminaux)

Les CFG ont certaines limites, mais ils peuvent s’acquitter de manière adéquate de certaines tâches de la NLP, telles que l’analyse syntaxique des phrases.

Un système de NLP devrait idéalement être capable de déterminer la structure du texte, afin de pouvoir répondre à des questions sur le sens ou la sémantique de la langue écrite. La première étape consiste à analyser les phrases en structures grammaticales. Cependant, l’analyse et la compréhension d’une langue naturelle à partir d’un domaine illimité se sont révélées extrêmement difficiles en raison de la complexité des langues naturelles, de l’ambiguïté des mots et des règles de grammaire difficiles. 

Cet article fournit une introduction au NLP, qui comprend des informations sur ses principales approches. 

Parmi les domaines de recherche fructueux en matière de NLP et de fouille de données textuelles, citons différentes méthodes pour la conversion de textes en données quantitatives, d’autres moyens de réduire les dimensions du texte, des techniques de visualisation des grands corpus,  et des approches qui prennent en compte la dimension temporelle de certaines collections de documents. 

Par conséquent, le NLP est utilisé dans une grande variété de disciplines pour résoudre de nombreux types de problèmes différents. L’analyse de texte est effectuée sur des textes allant de quelques mots saisis par l’utilisateur pour une requête Internet à de multiples documents qui doivent être résumés. La quantité et la disponibilité des données non structurées ont fortement augmenté au cours des dernières années. Cela a pris des formes telles que les blogs, les tweets et divers autres réseaux sociaux. Le NLP est idéal pour analyser ce type d’informations. 

Le Machine Learning et l’analyse de texte sont fréquemment utilisés pour améliorer l’utilité d’une application. 

Voici une brève liste des domaines d’application:

  • la recherche qui identifie des éléments spécifiques du texte. Elle peut être aussi simple que de trouver l’occurrence d’un nom dans un document ou peut impliquer l’utilisation de synonymes et d’orthographes/fausses orthographes alternatives pour trouver des entrées proches de la chaîne de recherche originale
  • la traduction automatique qui implique généralement la traduction d’une langue naturelle dans une autre. 
  • des résumés : le NLP a été utilisé avec succès pour résumer des paragraphes, articles, documents ou recueils de documents 
  • NER (Named-Entity Recognition) qui consiste à extraire du texte les noms des lieux, des personnes et des choses. Généralement, cette opération est utilisée en conjonction avec d’autres tâches du NLP, comme le traitement des requêtes

Les tâches du NLP utilisent fréquemment différentes techniques de Machine Learning. Une approche commune commence par la formation d’un modèle à l’exécution d’une tâche, la vérification que le modèle est correct, puis l’application du modèle à un problème.

Application du NLP

Le NLP peut nous aider dans de nombreuses tâches et ses champs d’application semblent s’élargir chaque jour. Mentionnons quelques exemples :

  • le NLP permet la reconnaissance et la prédiction des maladies sur la base des dossiers médicaux électroniques et de la parole du patient. Cette capacité est explorée dans des conditions de santé qui vont des maladies cardiovasculaires à la dépression et même à la schizophrénie. Par exemple, Amazon Comprehend Medical est un service qui utilise le NLP pour extraire les états pathologiques, les médicaments et les résultats des traitements à partir des notes des patients, des rapports d’essais cliniques et d’autres dossiers médicaux électroniques.
  • Les organisations peuvent déterminer ce que les clients disent d’un service ou d’un produit en identifiant et en extrayant des informations dans des sources telles que les réseaux sociaux. Cette analyse des sentiments peut fournir de nombreuses informations sur les choix des clients et les facteurs de décision.
  • Un inventeur travaillant chez IBM a mis au point un assistant cognitif qui fonctionne comme un moteur de recherche personnalisé en apprenant tout sur vous et en vous rappelant ensuite un nom, une chanson ou tout ce dont vous ne vous souvenez pas au moment où vous en avez besoin.
  • Le NLP est également utilisé dans les phases de recherche et de sélection de recrutement des talents, pour identifier les compétences des personnes susceptibles d’être embauchées et aussi pour repérer les prospects avant qu’ils ne deviennent actifs sur le marché du travail. 

Le NLP est particulièrement en plein essor dans le secteur des soins de santé. Cette technologie améliore la prestation des soins, le diagnostic des maladies et fait baisser les coûts, tandis que les organismes de soins de santé adoptent de plus en plus les dossiers de santé électroniques. Le fait que la documentation clinique puisse être améliorée signifie que les patients peuvent être mieux compris et bénéficier de meilleurs soins de santé.

 

Définitions

Machine Learning vs Human Decision Making (Similarités et Différences):

Nous entendons tous parler du terme « Machine Learning », qui peut se décomposer en trois grandes catégories :

  • L’apprentissage supervisé
  • L’apprentissage non supervisé
  • L’apprentissage par renforcement

En apprentissage supervisé, un programme informatique reçoit un ensemble de données qui est étiqueté avec des valeurs de sorties correspondantes, ainsi on pourra alors « s’entrainer » sur ce modèle et une fonction sera déterminée. Cette fonction, ou algorithme pourra par la suite être utilisé sur de nouvelles données afin de prédire leurs valeurs de sorties correspondantes. C’est le cas par exemple de la Régression Linéaire, des Arbres de décisions, SVM (Support Vector Machine)…

En voici une illustration :

 

Pour l’Homme, il s’agit du même principe. De par son expérience, il va mémoriser une grande quantité d’informations et face à une situation, il va pouvoir se remémorer une situation similaire et émettre une conclusion.

Dans l’apprentissage non-supervisé, l’ensemble des données n’a pas de valeurs de sorties spécifiques. Puisqu’il n’y a pas de bonnes réponses à tirer, l’objectif de l’algorithme est donc de trouver lui-même tous les modèles intéressants à partir des données. Certains des exemples bien connus d’apprentissage non supervisé comprennent les algorithmes de Clustering comme KMeans, DB-Scan et de réduction de dimension comme l’ACP (Analyse en Composantes Principales) et les réseaux de neurones.

Chez l’Homme, le principe est le même, certains critères vous nous permettre de différencier ce que se présente sous yeux et donc de déterminer différentes classes.

Dans l’apprentissage par renforcement, les « bonnes réponses » contiennent des récompenses, que l’algorithme doit maximiser en choisissant les actions à prendre.

Essentiellement, l’apprentissage par renforcement consiste à trouver le bon équilibre entre l’exploration et l’exploitation, ou l’exploration ouvre la possibilité de trouver des récompenses plus élevées, ou risque de n’obtenir aucunes récompenses. Les jeux tels que les Dames sont basés sur ce principe.

Le psychologue BF Skinner (1938), a observé le même résultat au cours d’une expérience sur les rats ou un levier offrait une récompense tandis qu’un autre administrait un choc. Le constat est simple, la punition a entrainé une diminution de la pression du levier de choc.

En comparant le Machine Learning à l’apprentissage d’un Humain, on observe donc beaucoup de similitude mais évidemment, il existe encore des différences fondamentales entre les deux :

Bien que les algorithmes d’apprentissage supervisé fournissent un aperçu complet de l’environnement, ils nécessitent une grande quantité de données pour que le modèle soit construit, ce qui peut être un peu lourd en termes de calculs.

A l’inverse, l’Homme a besoin de beaucoup moins de données pour être capable de faire des prédictions notamment en extrapolant les concepts qu’il a en mémoire. Le Machine Learning lui ne pourra pas le faire car les programmes n’interprètent pas des concepts mais des données.

Un autre problème survient quand on parle de sur-apprentissage ou « Overfitting » en anglais, qui se produit lorsque les données d’apprentissage utilisées pour construire un modèle expliquent très voire « trop » bien les données mais ne parviennent pas à faire des prédictions utiles pour de nouvelles données. L’Homme aura donc plus de flexibilité dans son raisonnement alors que les algorithmes de Machine Learning seront eux plus rigides.

En conclusion, le Machine Learning a souvent été comparé au raisonnement Humain, même si les deux ne sont pas exactement les mêmes.

Chez l’Homme, l’apprentissage a été façonné par des processus évolutifs pour devenir ce qu’il est aujourd’hui. Bien que de nombreuses théories ont tenté de d’expliquer ses mécanismes, sa nature dynamique conduit à dire que différentes stratégies peuvent être utilisées simultanément ou séparément, selon la situation. Il est donc difficile de le comparer au Machine Learning. Après tout, le Machine Learning a été programme par les humains… ainsi, de nouveaux concepts verront le jour pour pouvoir sans cesse améliorer nos algorithmes d’apprentissage qui sont déjà très efficace pour la prise de décision sur de large bases de données. Une Machine dotée d’une conscience ne verra sans doute jamais le jour, mais d’ici peu, la capacité de prise de décision des automates supplantera celle des humains dans quasiment tous les domaines

Formations

TOP 10 des Meilleurs Masters en Data Science

Vous envisagez d’obtenir un master en data sciences ? Le blog de DataScientest t’a élaboré une petite liste des 10 meilleurs diplômes, notés par les Chief data Officiers et managers de 30 entreprises du CAC 40. C’est parti :

Si tu veux devenir Data Scientist :

  1. ENSAE Paris Tech, MS Data Science (4,75/5)

Tarif : entre 9 500€ et 14 000€

Durée : 420 heures de cours + stage de 4 à 6 mois

Description : C’est un master d’excellence qui apporte tout le bagage nécessaire pour devenir data scientist, data analyst ou encore chief data officer. Les cours sont conçus de telle manière à ce que les étudiants puissent mettre en pratique ce qui leur a été enseigné. Master alliant les connaissances à la fois techniques et théoriques, il te permettra de mener une carrière d’expert ou te hissera à la plus haute place des postes décisionnels de la data.

  1. Polytechnique, Master Data Science (4,73/5)

Durée : 1 an

Description : Ce master est proposé en partenariat avec l’Université Paris-Saclay, l’ENS et Télécom Paristech. Il propose un parcours pédagogique d’excellence alliant théorie et pratique. Il offre également aux étudiants qui le souhaitent, la possibilité d’obtenir un doctorat et de continuer dans la recherche.

  1. ENS Mathématiques vision Apprentissage (4,70/5)

Durée : 6 mois de cours + 4 mois de stage minimum

Description : Ce master est en association avec les écoles et universités les plus prestigieuses : Centrale Supélec, Polytechnique, Télécom Paristech et Jussieu. Il dote les étudiants de connaissances techniques solides qui leur permettront d’obtenir les meilleurs postes aussi bien en startups que dans les plus grandes entreprises du CAC 40, et ce, quelque soit le secteur d’activité.

  1. Université Paris Dauphine-MASH- Mathématiques, Apprentissage et Sciences Humaines (4,61/5)

Durée : 6 mois de cours + 4 mois de stage

Description : Ce master est reconnu par le CEREMADE (Centre de Recherche en Mathématiques de la Décision). Il offre un bagage en statistiques appliquées à l’économie numérique et aux sciences humaines.

Si tu veux devenir Data Analyst :

  1. Formation X-HEC data science for business (4,66/5)

Tarif : 41 300€

Durée : 2 ans

Description : C’est un master de prestige qui allie la renommée de la plus grande école de commerce de France à celle de la plus grande école d’ingénierie française. Le programme est conçu de telle sorte à ce que les étudiants puissent mettre en application toutes les connaissances techniques apprises lors de la première année à Polytechnique et ainsi répondre à des problématiques commerciales dans le cadre des cours à HEC.

  1. ESSEC-Centrale Supélec master of science, data science & business analytics (4,57/5)

Tarif : 23 000€

Durée : entre 1 et 2 ans

Description : À l’instar du master précédent, il allie le prestige de deux des plus grandes écoles de commerce et d’ingénierie de France. La particularité de ce master est le grand choix proposé aux étudiants quant à l’élection de leurs cours avancés. Ce diplôme est classé 3ème mondial et 1er européen par le classement mondial des universités QS.

  1. Telecom Paristech, master spécialisé big data (4,14/5)

Tarif : 18 500€

Durée : 9 mois de cours + 3 mois de stage

Description : La renommée internationale de ce master permet aux étudiants de décrocher les meilleurs postes dans les plus grandes entreprises. Ce master de qualité promeut l’innovation avec son incubateur Télécom Paris Novation Center Entrepreneurs et tous ses chercheurs.

Si tu veux devenir Data Engineer

  1. Telecom Paristech, master spécialisé big data (4,56/5)

Tarif : 18 500€

Durée : 9 mois de cours + 3 mois de stage

Description : voir description plus haut (si tu veux devenir data analyst 3)

  1. Université Paris Saclay- Finalité M2 Statistiques et Machine Learning (4,2/5)

Durée : 1 an de cours + 4 mois de stage

Description : Attention ! Cette formation est ultra sélective puisqu’elle n’offre que 20 places. C’est un master orienté plutôt Machine Learning qui aide les étudiants à préparer leur thèse en leur apprenant tous les outils nécessaires à l’analyse et à la prise de décision.

  1. Université Paris-Dauphine- Master Intelligence Artificielle, Systèmes, Données (IASD) (4,14/5)

Durée : 1 an de cours + 6 mois de stage

Description : C’est un master à haut niveau d’exigence qui apporte aux étudiants les connaissances théoriques les plus pointilleuses afin de devenir les prochains créateurs des meilleurs systèmes d’IA. Les cours sont dispensés par des grands chercheurs et des professionnels reconnus. Les étudiants auront également le choix entre un large panel d’options qui leur permettra de se spécialiser.

Dossier

Pollution Numérique et Data Science

La crise du Covid et la pause imposée à certaines industries comme le transport aérien a soulevé une nouvelle fois l’impact néfaste de l’Homme sur son environnement et le rôle qu’il peut jouer pour préserver la planète. Face aux gros pollueurs dont l’activité est de plus en plus critiquée, il existe une pollution encore méconnue: la pollution numérique  . Connue par 17% des Français selon une étude d’Inum, elle désigne la pollution liée à l’impact du numérique dans son ensemble, c’est-à-dire de sa création et sa fin de vie. 

Que représente la pollution numérique par rapport à toutes les autres formes de pollution ? Quels sont les mécanismes en jeu ? Comment limiter l’impact du numérique sur la planète ?

Pollution numérique : Des chiffres surprenants

La  pollution numérique est responsable de l’émission de 1400 millions de tonnes de CO2 par an, soit 4% des émissions mondiales de gaz à effet de serre. Elle est issue principalement des data center à hauteur de 25%, des infrastructures de réseau à 28% et à 47% en ce qui concerne les équipementsIl est généralement plus symbolique de comparer ces chiffres à quelque chose plutôt que de les citer.  La forte augmentation d’utilisateurs et notre consommation de données laissent prévoir que d’ici 2025, cette empreinte aura doublée

 

Les gestes du quotidien, pris individuellement, n’ont pas grand impact. Le problème est que ces petits gestes font partie d’une masse beaucoup plus vaste.  Pour visualiser l’impact du numérique, il faut se rendre compte qu’internet c’est 45 millions de serveurs, 800 millions d’équipements réseaux, 15 milliards d’objets connectés en 2018, 10 milliards de mails envoyés (hors spam) et 180 millions de requêtes en 1 heure

Voici ce que des gestes anodins du quotidien peuvent représenter comme pollution  :

  • 1 mail est l’équivalent d’une ampoule basse consommation pendant 1h, alors on multiplie cela par 10 milliards. 
  • 1 internaute c’est 1000 requêtes par an, soit 287 000 de CO2, soit 1,5 millions de km parcourus en voiture
  • Encore plus gourmand, le streaming vidéo ! Il représente 60% des flux de données sur internet et on comprend pourquoi quand on sait que rien que Pulp Fiction pèse 200 000 fois plus lourd qu’un email sans pièce jointe. 

Ces chiffres peuvent sembler exagérés, mais il s’agit bien de la réalité. Cependant, il faut noter que la plus grande part de pollution provient de la fabrication des matériels numériques et non de leur utilisation. Un téléviseur nécessite 2,5 tonnes de matières premières pour sa création, ce qui est équivalent à un aller-retour Paris Nice en avion en termes de CO2. Un ordinateur de 2kg nécessite 800 kg de matière premières. Et plus c’est petit, plus c’est polluant. Alors on vous laisse imaginer pour un smartphone.

 La Data Science pour aider à réduire la pollution numérique

La data science a bien sûr son rôle à jouer dans tout ça. Plusieurs start-up ou entreprises font appel à cette technologie. La start-up Cleanfox a développé un outil qui vous débarrasse des spams et newsletter : «Nous avons développé des technologies nous permettant de lire les en-têtes des mails sans récupérer de données personnelles, explique Édouard Nattée, le fondateur de Cleanfox. Nous nous sommes aperçus que ces mêmes technologies pouvaient nous servir à détecter des newsletters et proposer à l’internaute de se désabonner automatiquement.». Cleanfox analyse votre boite mail et vous propose de supprimer ou non ce mail, en donnant des informations relatives tel que la quantité de CO2 entraîner par ce mail par exemple.

Comment la data science peut-elle lutter contre le réchauffement climatique ?

Au cœur des enjeux planétaires actuelles, le réchauffement climatique constitue un des plus grands défis de notre époque. Malgré de nombreuses politiques menées par les pays du monde entier visant à réduire les émissions de CO2, le volume d’émission de dioxyde de carbone continue de croître de manière exponentielle si bien que les chances de survies de l’Homme au sein de la planète Terre s’amenuisent de jours en jours. Toutefois, même si l’horloge tourne, l’Homme accompagné des nouvelles technologies qu’il a mis au point a encore la possibilité de sauver notre chère planète bleue. C’est dans ce contexte que l’Intelligence Artificielle et le Machine Learning pourraient devenir les défenseurs n°1 de la lutte contre le réchauffement climatique. 

 

Voici le top 5 des différentes façons au travers desquelles le Machine Learning pourrait permettre de sauver la planète :

Le Machine Learning pour gérer la consommation d’énergie

De nos jours, la consommation d’énergie et des combustibles fossiles tels que le pétrole ne cessent de polluer contribuant ainsi grandement au réchauffement de la planète. Pour lutter contre cette consommation dévastatrice, les gouvernements des pays du monde entier tendent à privilégier désormais les énergies renouvelables telles que le vent ou le soleil qui, en plus d’être moins néfastes pour l’environnement, coûtent moins chers.

Néanmoins, ces sources d’énergie étant fortement dépendantes de la météo, il semble difficile pour l’Homme de déterminer la quantité exacte d’énergie qui sera produite.
Les algorithmes de Machine Learning, en analysant les données météorologiques et les conditions atmosphériques pourraient non seulement prédire le volume d’énergie généré mais également prédire la demande permettant ainsi de redistribuer la production vers les différentes centrales, tout en évitant le gaspillage.

Autre point intéressant, les nouvelles technologies permettent, sur la base de l’intelligence artificielle, de gérer la consommation d’énergie. Les assistants intelligents peuvent étudier les habitudes d’une maison et décider d’éteindre le chauffage pendant que personne n’y est et de réchauffer la maison une heure avant le retour des résidents.
La prévision de l’énergie nécessaire pour alimenter une machine, une usine, voire une ville permet de ne pas sur-produire, ainsi de ne pas gaspiller et ne pas émettre de l’énergie inutilement.

Le Machine Learning pour gérer le secteur du transport

Un autre secteur où le Machine Learning pourrait avoir impact positif retentissant est le transport. En effet, il pourrait par exemple optimiser les trajets permettant ainsi un allégement du trafic routier, un des acteurs actuels les plus polluants.

Le Machine Learning pour aider les satellites de surveillance de CO2

En vue de contrôler la quantité de CO2 émises par chaque pays européen, l’UE envisage dans les années à venir de mettre en place des satellites de surveillance de CO2Le Machine Learning, combiné aux données récoltées par ces satellites pourrait permettre d’identifier non seulement les émetteurs principaux de CO2 mais également les secteurs d’activité les plus polluants.  Il sera plus facile pour un pays par exemple de déterminer les  domaines sur lesquels il faudra réfléchir en priorité pour moins polluer.

Le Machine Learning pour aider les pays les plus vulnérables au réchauffement climatique

Le Machine Learning, en étudiant les données et photographies prises par les satellites, pourrait identifier les différentes régions du monde sujettes au réchauffement climatique. Cela pourrait par la même occasion permettre aux différents pays concernés d’anticiper et ainsi de mieux gérer les éventuelles catastrophes naturelles qui risquent de les frapper. 

De même, une analyse en temps réel des publications via les réseaux sociaux comme Twitter ou Facebook permettraient de déterminer dans quelles régions du monde, une aide est la plus nécessaire.

Le Machine Learning pour éviter le gaspillage alimentaire

L’analyse de données massives via le Machine Learning pourrait permettre d’optimiser des processus industriels et donc de réduire les émissions polluantes. Par exemple, les fermiers pourrait recevoir en temps réel des informations sur leurs plantations pour diffuser la quantité d’eau nécessaire. Autre exemple, des entreprises spécialisés pourraient organiser la redistribution de nourriture pour éviter le gaspillage en alimentant les zones connaissant des carences.

Devenir Data Scientist pour sauver la planète

Dans cet article, vous avez pu découvrir les opportunités que les data sciences offrent pour lutter contre le réchauffement climatique au travers une meilleure gestion de l’énergie et des ressources disponibles. Pour maîtriser ces nouvelles technologies, une formation s’impose. Pourquoi ne pas choisir un organisme qui a déjà fait ses preuves pour former des data scientists de plus de 30 grands groupes français et qui ouvre désormais ses classes aux particuliers ?

 

Comme nous l’avons observé tout au long de cet article, la pollution numérique a un impact négatif conséquent sur l’environnement et ne cesse d’augmenter exponentiellement.  La data science, de par son étude de la big data, nécessite une grande quantité de données, très polluante à conserver. Néanmoins, l’intelligence artificielle et le Machine Learning, à travers leurs capacités à s’appliquer à des domaines tels que l’énergie, le transport, le gaspillage alimentaire offrent de vastes perspectives d’avenir synonymes de lueurs d’espoirs pour la préservation de notre planète. Il convient alors aux différents gouvernements et aux entreprises de trouver un juste milieu entre l’impact négatif et l’influence positive que pourraient apporter la data science à l’environnement.

Evènements

Participez au salon Big Data Paris 2020

Big Data Paris est le salon de référence dans l’univers du Big Data. Vous y retrouverez l’actualité des projets Data dans l’industrie, l’évolution de l’Open Data ou encore les nouveautés de Data analytics (BI, Datavisualisation, advanced analytics). Vous pourrez assister à des conférences sur la gouvernance des données ou sur la Sécurité des données. Si l’IA et le Big Data sont deux sujets qui vous passionnent, vous découvrirez les technologies de machine learning qui les combinent.

 

Avec AI Paris, Big Data Paris prévoit d’accueillir 20 000 visiteurs, 370 sponsors et exposants et plus de 300 conférences et ateliers. Les ateliers et les conférences seront accessibles en Live ou en replay.

Nous vous recommandons de privilégier le salon physique puisqu’il sera plus facile pour vous d’échanger avec les exposants sur vos problématiques métiers. N’oubliez cependant pas de respecter les gestes barrières et autres mesures de sécurité sanitaire.

Participez au Data Challenge – En partenariat avec DataScientest

Vous pourrez aussi avoir l’occasion de participer à un des événements les plus attendus du salon :  Le Data Challenge. En accès libre sur le salon Big Data Paris Porte de Versailles, vous pourrez essayer d’exploiter les données de plus de 400 000 stations météorologiques et créer le meilleur modèle prédictif de la concentration en particules fines. Ce Data Challenge vous est proposé par DataScientest, leader français de la formation des métiers Data Sciences.

Evènements

Participez au salon AI Paris 2020

L’année 2020 a été marquée par la crise sanitaire mondiale. Le secteur de l’événementiel a été fortement touché et son avenir reste incertain. Aujourd’hui, nous avons plus de visibilité sur l’organisation des événements à venir. Nous avons réuni pour vous les deux salons qui vont marquer l’univers de la Data et de l’Intelligence Artificielle d’ici la fin de l’année 2020.

Cette année, cet événement signé Corp Agency présente une particularité. Pour y assister, deux possibilités: vous rendre au salon physique qui se déroulera 1 place de la Porte de Versailles dans le XVe arrondissement de Paris ou prendre part au salon virtuel accessible sur votre ordinateur ou sur votre smartphone.

 

Cette diversité de choix entre salon physique ou salon virtuel est une tendance que l’on observe depuis quelques années maintenant, mais les conditions sanitaires mondiales ont encouragé ce phénomène.

Deux jours d’exposition sont prévus pour vous informer sur les enjeux et avancées du monde de l’intelligence artificielle avec la participation de grandes entreprises telles qu’IBM, Microsoft ou Google Cloud. AI Paris 2020, c’est un lieu de rencontre et d’information où vous serez tenu au courant des dernières actualités et où vous rencontrerez les grands acteurs de l’intelligence artificielle.

Le salon a lieu le 14 et 15 septembre de 8h30 à 19h30. Afin de s’adapter aux contraintes liés à l’épidémie de COVID-19, les salons Big Data Paris et AI Paris auront lieu en simultanée. 

Participez également au salon Big Data Paris 2020

En simultané avec AI Paris, Corp Agency organise également le salon Big Data Paris 2020.