Définitions

Machine Learning vs Human Decision Making (Similarités et Différences):

Nous entendons tous parler du terme « Machine Learning », qui peut se décomposer en trois grandes catégories :

  • L’apprentissage supervisé
  • L’apprentissage non supervisé
  • L’apprentissage par renforcement

En apprentissage supervisé, un programme informatique reçoit un ensemble de données qui est étiqueté avec des valeurs de sorties correspondantes, ainsi on pourra alors « s’entrainer » sur ce modèle et une fonction sera déterminée. Cette fonction, ou algorithme pourra par la suite être utilisé sur de nouvelles données afin de prédire leurs valeurs de sorties correspondantes. C’est le cas par exemple de la Régression Linéaire, des Arbres de décisions, SVM (Support Vector Machine)…

En voici une illustration :

 

Pour l’Homme, il s’agit du même principe. De par son expérience, il va mémoriser une grande quantité d’informations et face à une situation, il va pouvoir se remémorer une situation similaire et émettre une conclusion.

Dans l’apprentissage non-supervisé, l’ensemble des données n’a pas de valeurs de sorties spécifiques. Puisqu’il n’y a pas de bonnes réponses à tirer, l’objectif de l’algorithme est donc de trouver lui-même tous les modèles intéressants à partir des données. Certains des exemples bien connus d’apprentissage non supervisé comprennent les algorithmes de Clustering comme KMeans, DB-Scan et de réduction de dimension comme l’ACP (Analyse en Composantes Principales) et les réseaux de neurones.

Chez l’Homme, le principe est le même, certains critères vous nous permettre de différencier ce que se présente sous yeux et donc de déterminer différentes classes.

Dans l’apprentissage par renforcement, les « bonnes réponses » contiennent des récompenses, que l’algorithme doit maximiser en choisissant les actions à prendre.

Essentiellement, l’apprentissage par renforcement consiste à trouver le bon équilibre entre l’exploration et l’exploitation, ou l’exploration ouvre la possibilité de trouver des récompenses plus élevées, ou risque de n’obtenir aucunes récompenses. Les jeux tels que les Dames sont basés sur ce principe.

Le psychologue BF Skinner (1938), a observé le même résultat au cours d’une expérience sur les rats ou un levier offrait une récompense tandis qu’un autre administrait un choc. Le constat est simple, la punition a entrainé une diminution de la pression du levier de choc.

En comparant le Machine Learning à l’apprentissage d’un Humain, on observe donc beaucoup de similitude mais évidemment, il existe encore des différences fondamentales entre les deux :

Bien que les algorithmes d’apprentissage supervisé fournissent un aperçu complet de l’environnement, ils nécessitent une grande quantité de données pour que le modèle soit construit, ce qui peut être un peu lourd en termes de calculs.

A l’inverse, l’Homme a besoin de beaucoup moins de données pour être capable de faire des prédictions notamment en extrapolant les concepts qu’il a en mémoire. Le Machine Learning lui ne pourra pas le faire car les programmes n’interprètent pas des concepts mais des données.

Un autre problème survient quand on parle de sur-apprentissage ou « Overfitting » en anglais, qui se produit lorsque les données d’apprentissage utilisées pour construire un modèle expliquent très voire « trop » bien les données mais ne parviennent pas à faire des prédictions utiles pour de nouvelles données. L’Homme aura donc plus de flexibilité dans son raisonnement alors que les algorithmes de Machine Learning seront eux plus rigides.

En conclusion, le Machine Learning a souvent été comparé au raisonnement Humain, même si les deux ne sont pas exactement les mêmes.

Chez l’Homme, l’apprentissage a été façonné par des processus évolutifs pour devenir ce qu’il est aujourd’hui. Bien que de nombreuses théories ont tenté de d’expliquer ses mécanismes, sa nature dynamique conduit à dire que différentes stratégies peuvent être utilisées simultanément ou séparément, selon la situation. Il est donc difficile de le comparer au Machine Learning. Après tout, le Machine Learning a été programme par les humains… ainsi, de nouveaux concepts verront le jour pour pouvoir sans cesse améliorer nos algorithmes d’apprentissage qui sont déjà très efficace pour la prise de décision sur de large bases de données. Une Machine dotée d’une conscience ne verra sans doute jamais le jour, mais d’ici peu, la capacité de prise de décision des automates supplantera celle des humains dans quasiment tous les domaines

Formations

TOP 10 des Meilleurs Masters en Data Science

Vous envisagez d’obtenir un master en data sciences ? Le blog de DataScientest t’a élaboré une petite liste des 10 meilleurs diplômes, notés par les Chief data Officiers et managers de 30 entreprises du CAC 40. C’est parti :

Si tu veux devenir Data Scientist :

  1. ENSAE Paris Tech, MS Data Science (4,75/5)

Tarif : entre 9 500€ et 14 000€

Durée : 420 heures de cours + stage de 4 à 6 mois

Description : C’est un master d’excellence qui apporte tout le bagage nécessaire pour devenir data scientist, data analyst ou encore chief data officer. Les cours sont conçus de telle manière à ce que les étudiants puissent mettre en pratique ce qui leur a été enseigné. Master alliant les connaissances à la fois techniques et théoriques, il te permettra de mener une carrière d’expert ou te hissera à la plus haute place des postes décisionnels de la data.

  1. Polytechnique, Master Data Science (4,73/5)

Durée : 1 an

Description : Ce master est proposé en partenariat avec l’Université Paris-Saclay, l’ENS et Télécom Paristech. Il propose un parcours pédagogique d’excellence alliant théorie et pratique. Il offre également aux étudiants qui le souhaitent, la possibilité d’obtenir un doctorat et de continuer dans la recherche.

  1. ENS Mathématiques vision Apprentissage (4,70/5)

Durée : 6 mois de cours + 4 mois de stage minimum

Description : Ce master est en association avec les écoles et universités les plus prestigieuses : Centrale Supélec, Polytechnique, Télécom Paristech et Jussieu. Il dote les étudiants de connaissances techniques solides qui leur permettront d’obtenir les meilleurs postes aussi bien en startups que dans les plus grandes entreprises du CAC 40, et ce, quelque soit le secteur d’activité.

  1. Université Paris Dauphine-MASH- Mathématiques, Apprentissage et Sciences Humaines (4,61/5)

Durée : 6 mois de cours + 4 mois de stage

Description : Ce master est reconnu par le CEREMADE (Centre de Recherche en Mathématiques de la Décision). Il offre un bagage en statistiques appliquées à l’économie numérique et aux sciences humaines.

Si tu veux devenir Data Analyst :

  1. Formation X-HEC data science for business (4,66/5)

Tarif : 41 300€

Durée : 2 ans

Description : C’est un master de prestige qui allie la renommée de la plus grande école de commerce de France à celle de la plus grande école d’ingénierie française. Le programme est conçu de telle sorte à ce que les étudiants puissent mettre en application toutes les connaissances techniques apprises lors de la première année à Polytechnique et ainsi répondre à des problématiques commerciales dans le cadre des cours à HEC.

  1. ESSEC-Centrale Supélec master of science, data science & business analytics (4,57/5)

Tarif : 23 000€

Durée : entre 1 et 2 ans

Description : À l’instar du master précédent, il allie le prestige de deux des plus grandes écoles de commerce et d’ingénierie de France. La particularité de ce master est le grand choix proposé aux étudiants quant à l’élection de leurs cours avancés. Ce diplôme est classé 3ème mondial et 1er européen par le classement mondial des universités QS.

  1. Telecom Paristech, master spécialisé big data (4,14/5)

Tarif : 18 500€

Durée : 9 mois de cours + 3 mois de stage

Description : La renommée internationale de ce master permet aux étudiants de décrocher les meilleurs postes dans les plus grandes entreprises. Ce master de qualité promeut l’innovation avec son incubateur Télécom Paris Novation Center Entrepreneurs et tous ses chercheurs.

Si tu veux devenir Data Engineer

  1. Telecom Paristech, master spécialisé big data (4,56/5)

Tarif : 18 500€

Durée : 9 mois de cours + 3 mois de stage

Description : voir description plus haut (si tu veux devenir data analyst 3)

  1. Université Paris Saclay- Finalité M2 Statistiques et Machine Learning (4,2/5)

Durée : 1 an de cours + 4 mois de stage

Description : Attention ! Cette formation est ultra sélective puisqu’elle n’offre que 20 places. C’est un master orienté plutôt Machine Learning qui aide les étudiants à préparer leur thèse en leur apprenant tous les outils nécessaires à l’analyse et à la prise de décision.

  1. Université Paris-Dauphine- Master Intelligence Artificielle, Systèmes, Données (IASD) (4,14/5)

Durée : 1 an de cours + 6 mois de stage

Description : C’est un master à haut niveau d’exigence qui apporte aux étudiants les connaissances théoriques les plus pointilleuses afin de devenir les prochains créateurs des meilleurs systèmes d’IA. Les cours sont dispensés par des grands chercheurs et des professionnels reconnus. Les étudiants auront également le choix entre un large panel d’options qui leur permettra de se spécialiser.

Dossier

Pollution Numérique et Data Science

La crise du Covid et la pause imposée à certaines industries comme le transport aérien a soulevé une nouvelle fois l’impact néfaste de l’Homme sur son environnement et le rôle qu’il peut jouer pour préserver la planète. Face aux gros pollueurs dont l’activité est de plus en plus critiquée, il existe une pollution encore méconnue: la pollution numérique  . Connue par 17% des Français selon une étude d’Inum, elle désigne la pollution liée à l’impact du numérique dans son ensemble, c’est-à-dire de sa création et sa fin de vie. 

Que représente la pollution numérique par rapport à toutes les autres formes de pollution ? Quels sont les mécanismes en jeu ? Comment limiter l’impact du numérique sur la planète ?

Pollution numérique : Des chiffres surprenants

La  pollution numérique est responsable de l’émission de 1400 millions de tonnes de CO2 par an, soit 4% des émissions mondiales de gaz à effet de serre. Elle est issue principalement des data center à hauteur de 25%, des infrastructures de réseau à 28% et à 47% en ce qui concerne les équipementsIl est généralement plus symbolique de comparer ces chiffres à quelque chose plutôt que de les citer.  La forte augmentation d’utilisateurs et notre consommation de données laissent prévoir que d’ici 2025, cette empreinte aura doublée

 

Les gestes du quotidien, pris individuellement, n’ont pas grand impact. Le problème est que ces petits gestes font partie d’une masse beaucoup plus vaste.  Pour visualiser l’impact du numérique, il faut se rendre compte qu’internet c’est 45 millions de serveurs, 800 millions d’équipements réseaux, 15 milliards d’objets connectés en 2018, 10 milliards de mails envoyés (hors spam) et 180 millions de requêtes en 1 heure

Voici ce que des gestes anodins du quotidien peuvent représenter comme pollution  :

  • 1 mail est l’équivalent d’une ampoule basse consommation pendant 1h, alors on multiplie cela par 10 milliards. 
  • 1 internaute c’est 1000 requêtes par an, soit 287 000 de CO2, soit 1,5 millions de km parcourus en voiture
  • Encore plus gourmand, le streaming vidéo ! Il représente 60% des flux de données sur internet et on comprend pourquoi quand on sait que rien que Pulp Fiction pèse 200 000 fois plus lourd qu’un email sans pièce jointe. 

Ces chiffres peuvent sembler exagérés, mais il s’agit bien de la réalité. Cependant, il faut noter que la plus grande part de pollution provient de la fabrication des matériels numériques et non de leur utilisation. Un téléviseur nécessite 2,5 tonnes de matières premières pour sa création, ce qui est équivalent à un aller-retour Paris Nice en avion en termes de CO2. Un ordinateur de 2kg nécessite 800 kg de matière premières. Et plus c’est petit, plus c’est polluant. Alors on vous laisse imaginer pour un smartphone.

 La Data Science pour aider à réduire la pollution numérique

La data science a bien sûr son rôle à jouer dans tout ça. Plusieurs start-up ou entreprises font appel à cette technologie. La start-up Cleanfox a développé un outil qui vous débarrasse des spams et newsletter : «Nous avons développé des technologies nous permettant de lire les en-têtes des mails sans récupérer de données personnelles, explique Édouard Nattée, le fondateur de Cleanfox. Nous nous sommes aperçus que ces mêmes technologies pouvaient nous servir à détecter des newsletters et proposer à l’internaute de se désabonner automatiquement.». Cleanfox analyse votre boite mail et vous propose de supprimer ou non ce mail, en donnant des informations relatives tel que la quantité de CO2 entraîner par ce mail par exemple.

Comment la data science peut-elle lutter contre le réchauffement climatique ?

Au cœur des enjeux planétaires actuelles, le réchauffement climatique constitue un des plus grands défis de notre époque. Malgré de nombreuses politiques menées par les pays du monde entier visant à réduire les émissions de CO2, le volume d’émission de dioxyde de carbone continue de croître de manière exponentielle si bien que les chances de survies de l’Homme au sein de la planète Terre s’amenuisent de jours en jours. Toutefois, même si l’horloge tourne, l’Homme accompagné des nouvelles technologies qu’il a mis au point a encore la possibilité de sauver notre chère planète bleue. C’est dans ce contexte que l’Intelligence Artificielle et le Machine Learning pourraient devenir les défenseurs n°1 de la lutte contre le réchauffement climatique. 

 

Voici le top 5 des différentes façons au travers desquelles le Machine Learning pourrait permettre de sauver la planète :

Le Machine Learning pour gérer la consommation d’énergie

De nos jours, la consommation d’énergie et des combustibles fossiles tels que le pétrole ne cessent de polluer contribuant ainsi grandement au réchauffement de la planète. Pour lutter contre cette consommation dévastatrice, les gouvernements des pays du monde entier tendent à privilégier désormais les énergies renouvelables telles que le vent ou le soleil qui, en plus d’être moins néfastes pour l’environnement, coûtent moins chers.

Néanmoins, ces sources d’énergie étant fortement dépendantes de la météo, il semble difficile pour l’Homme de déterminer la quantité exacte d’énergie qui sera produite.
Les algorithmes de Machine Learning, en analysant les données météorologiques et les conditions atmosphériques pourraient non seulement prédire le volume d’énergie généré mais également prédire la demande permettant ainsi de redistribuer la production vers les différentes centrales, tout en évitant le gaspillage.

Autre point intéressant, les nouvelles technologies permettent, sur la base de l’intelligence artificielle, de gérer la consommation d’énergie. Les assistants intelligents peuvent étudier les habitudes d’une maison et décider d’éteindre le chauffage pendant que personne n’y est et de réchauffer la maison une heure avant le retour des résidents.
La prévision de l’énergie nécessaire pour alimenter une machine, une usine, voire une ville permet de ne pas sur-produire, ainsi de ne pas gaspiller et ne pas émettre de l’énergie inutilement.

Le Machine Learning pour gérer le secteur du transport

Un autre secteur où le Machine Learning pourrait avoir impact positif retentissant est le transport. En effet, il pourrait par exemple optimiser les trajets permettant ainsi un allégement du trafic routier, un des acteurs actuels les plus polluants.

Le Machine Learning pour aider les satellites de surveillance de CO2

En vue de contrôler la quantité de CO2 émises par chaque pays européen, l’UE envisage dans les années à venir de mettre en place des satellites de surveillance de CO2Le Machine Learning, combiné aux données récoltées par ces satellites pourrait permettre d’identifier non seulement les émetteurs principaux de CO2 mais également les secteurs d’activité les plus polluants.  Il sera plus facile pour un pays par exemple de déterminer les  domaines sur lesquels il faudra réfléchir en priorité pour moins polluer.

Le Machine Learning pour aider les pays les plus vulnérables au réchauffement climatique

Le Machine Learning, en étudiant les données et photographies prises par les satellites, pourrait identifier les différentes régions du monde sujettes au réchauffement climatique. Cela pourrait par la même occasion permettre aux différents pays concernés d’anticiper et ainsi de mieux gérer les éventuelles catastrophes naturelles qui risquent de les frapper. 

De même, une analyse en temps réel des publications via les réseaux sociaux comme Twitter ou Facebook permettraient de déterminer dans quelles régions du monde, une aide est la plus nécessaire.

Le Machine Learning pour éviter le gaspillage alimentaire

L’analyse de données massives via le Machine Learning pourrait permettre d’optimiser des processus industriels et donc de réduire les émissions polluantes. Par exemple, les fermiers pourrait recevoir en temps réel des informations sur leurs plantations pour diffuser la quantité d’eau nécessaire. Autre exemple, des entreprises spécialisés pourraient organiser la redistribution de nourriture pour éviter le gaspillage en alimentant les zones connaissant des carences.

Devenir Data Scientist pour sauver la planète

Dans cet article, vous avez pu découvrir les opportunités que les data sciences offrent pour lutter contre le réchauffement climatique au travers une meilleure gestion de l’énergie et des ressources disponibles. Pour maîtriser ces nouvelles technologies, une formation s’impose. Pourquoi ne pas choisir un organisme qui a déjà fait ses preuves pour former des data scientists de plus de 30 grands groupes français et qui ouvre désormais ses classes aux particuliers ?

 

Comme nous l’avons observé tout au long de cet article, la pollution numérique a un impact négatif conséquent sur l’environnement et ne cesse d’augmenter exponentiellement.  La data science, de par son étude de la big data, nécessite une grande quantité de données, très polluante à conserver. Néanmoins, l’intelligence artificielle et le Machine Learning, à travers leurs capacités à s’appliquer à des domaines tels que l’énergie, le transport, le gaspillage alimentaire offrent de vastes perspectives d’avenir synonymes de lueurs d’espoirs pour la préservation de notre planète. Il convient alors aux différents gouvernements et aux entreprises de trouver un juste milieu entre l’impact négatif et l’influence positive que pourraient apporter la data science à l’environnement.

Evènements

Participez au salon Big Data Paris 2020

Big Data Paris est le salon de référence dans l’univers du Big Data. Vous y retrouverez l’actualité des projets Data dans l’industrie, l’évolution de l’Open Data ou encore les nouveautés de Data analytics (BI, Datavisualisation, advanced analytics). Vous pourrez assister à des conférences sur la gouvernance des données ou sur la Sécurité des données. Si l’IA et le Big Data sont deux sujets qui vous passionnent, vous découvrirez les technologies de machine learning qui les combinent.

 

Avec AI Paris, Big Data Paris prévoit d’accueillir 20 000 visiteurs, 370 sponsors et exposants et plus de 300 conférences et ateliers. Les ateliers et les conférences seront accessibles en Live ou en replay.

Nous vous recommandons de privilégier le salon physique puisqu’il sera plus facile pour vous d’échanger avec les exposants sur vos problématiques métiers. N’oubliez cependant pas de respecter les gestes barrières et autres mesures de sécurité sanitaire.

Participez au Data Challenge – En partenariat avec DataScientest

Vous pourrez aussi avoir l’occasion de participer à un des événements les plus attendus du salon :  Le Data Challenge. En accès libre sur le salon Big Data Paris Porte de Versailles, vous pourrez essayer d’exploiter les données de plus de 400 000 stations météorologiques et créer le meilleur modèle prédictif de la concentration en particules fines. Ce Data Challenge vous est proposé par DataScientest, leader français de la formation des métiers Data Sciences.

Evènements

Participez au salon AI Paris 2020

L’année 2020 a été marquée par la crise sanitaire mondiale. Le secteur de l’événementiel a été fortement touché et son avenir reste incertain. Aujourd’hui, nous avons plus de visibilité sur l’organisation des événements à venir. Nous avons réuni pour vous les deux salons qui vont marquer l’univers de la Data et de l’Intelligence Artificielle d’ici la fin de l’année 2020.

Cette année, cet événement signé Corp Agency présente une particularité. Pour y assister, deux possibilités: vous rendre au salon physique qui se déroulera 1 place de la Porte de Versailles dans le XVe arrondissement de Paris ou prendre part au salon virtuel accessible sur votre ordinateur ou sur votre smartphone.

 

Cette diversité de choix entre salon physique ou salon virtuel est une tendance que l’on observe depuis quelques années maintenant, mais les conditions sanitaires mondiales ont encouragé ce phénomène.

Deux jours d’exposition sont prévus pour vous informer sur les enjeux et avancées du monde de l’intelligence artificielle avec la participation de grandes entreprises telles qu’IBM, Microsoft ou Google Cloud. AI Paris 2020, c’est un lieu de rencontre et d’information où vous serez tenu au courant des dernières actualités et où vous rencontrerez les grands acteurs de l’intelligence artificielle.

Le salon a lieu le 14 et 15 septembre de 8h30 à 19h30. Afin de s’adapter aux contraintes liés à l’épidémie de COVID-19, les salons Big Data Paris et AI Paris auront lieu en simultanée. 

Participez également au salon Big Data Paris 2020

En simultané avec AI Paris, Corp Agency organise également le salon Big Data Paris 2020.

Comment apprendre?

S’entraîner à coder en javaScript en toute simplicité !

Coder en JavaScript est indispensable à tout data scientist travaillant de près ou de loin avec un site web. 1er réflexe, suivre assidûment les cours JavaScript de codecademy, bien sûr !

Mais ce n’est pas tout ! Etant donné que ce language est la partie dynamique et interactive d’un site web, et qu’il s’intègre avec le code html présent sur la page, pourquoi ne pas s’entraîner sur page créée de toute pièce ?

Et oui, il y a une app’ pour ça ! On m’a récemment fait connaître (merci Clément !) un petit bijou que je souhaite partager avec vous aujourd’hui 🙂

Continue Reading