All Posts By

Aurelia F

data-scientist-data-analyst
Dossier

Data Scientist vs Data Analyst : Quelle est la différence ?

De nombreuses divergences d’opinions subsistent concernant les rôles et les compétences autour du Big Data. Cela crée beaucoup de confusions. Par conséquent, beaucoup se posent cette question : qu’est-ce qui distingue un data scientist d’un data analyst ?

De nombreux non-initiés à la data science ont une perception du data scientist comme étant juste un terme enjolivé pour définir le data analyst.

Une raison importante de cette imprécision est le fait que certaines entreprises aient plusieurs façons de définir le rôle de chacun de ces experts. Dans la pratique, les titres des métiers ne reflètent pas toujours fidèlement les activités et responsabilités réelles de chacun. Par exemple, il existe des start-ups qui usent du titre de « data scientist » sur des descriptions de poste plutôt destinées à des data analysts.

En outre, la science des données est un domaine qui n’est qu’à ses balbutiements. Les gens connaissent encore très peu de choses concernant son fonctionnement interne. Ainsi, s’il faut comprendre la différence entre un data analyst et un data scientist, il est tout d’abord important de faire un retour sur l’activité et le rôle de chacun d’eux.

Que fait un data analyst ?

Au quotidien, un data analyst collecte des données, les organise et les utilise pour tirer des conclusions pertinentes. La majorité des entreprises de tous les secteurs peuvent nécessiter et bénéficier du travail d’un data analyst. Il peut s’agir des prestataires de soins de santé ou des magasins de détail. Les analystes de données passent leur temps à développer de nouveaux processus et systèmes pour collecter des données et compiler leurs conclusions pour améliorer les affaires.

Le métier de data analyst consiste à fournir des rapports, examiner les modèles et collaborer avec les parties prenantes dans une organisation. Dans cette tâche, l’un de ses rôles consiste à collaborer avec plusieurs services d’une entreprise, y compris avec les experts en marketing. Il se joint également à ses pairs qui travaillent sur des données comme les développeurs de bases de données et les architectes de données.

Il doit également consolider les données et mettre en place une structure qui permette de les utiliser. C’est l’aspect le plus technique de son rôle, car il consiste à collecter les données elles-mêmes. En effet, il s’agit de la clé du travail des analystes de données. Ils travaillent pour visualiser, analyser et examiner les modèles, les erreurs et les particularités des données afin qu’elles aient de la valeur et puissent être utilisées dans plusieurs domaines.

Suivre une formation Data Analyst

data-analyst-data-scientist

Que fait un data scientist ?

Le data scientist est un innovateur en matière d’apprentissage automatique. Contrairement au data analyst, les problèmes ne sont pas soumis au data scientist avec des questions clairement formulées par les parties prenantes de l’entreprise, mais plutôt avec des questions qui sont déterminées par des approches plus techniques. La solution est développée à l’aide d’un large répertoire de méthodes statistiques basées à la fois sur des données structurées et non structurées. Il n’est pas toujours nécessaire que ces données soient déjà disponibles dans l’entreprise et enregistrées de manière bien structurée.

En effet, le data scientist doit acquérir des connaissances en utilisant des données, c’est-à-dire, il analyse les données dans le but de soutenir d’autres départements. Cela lui implique d’utiliser une gamme d’outils tels que Python pour les langages de programmation de ses algorithmes d’apprentissage automatique, des outils d’exploration de données et même des services cloud scientist qualifié doit être capable de faire beaucoup ou au moins être suffisamment flexible pour s’y habituer rapidement.

Ses besoins en infrastructure d’acquisition, de stockage et d’analyse sont par conséquent plus élevés. En plus des données non structurées, les données volumineuses du Big Data sont également enregistrées et analysées. Cela va généralement au-delà des systèmes traditionnels d’entreposage de données et nécessite de nouvelles approches telles qu’un data lake.

Comparaison des compétences d’un data analyst vs data scientist

Les tâches des data analysts et des data scientist se chevauchent à bien des égards. Cela est en partie dû au fait que tout le domaine professionnel autour du Big Data se développe rapidement et que de nouveaux titres de poste émergent constamment sans pour autant être définis de manière uniforme.

Mais, outre ces quelques similitudes, des différences importantes sont à noter et peuvent être résumées sous les trois questions suivantes :

Qui pose les questions ?

Un data scientist formule les questions pour l’entreprise auxquelles il souhaite répondre avec sa base de données. Un data analyst est en revanche chargé par d’autres équipes de l’entreprise de rechercher une solution à leurs questions.

Quel niveau d’étude pour commencer ?

Un data analyst peut commencer sa carrière avec un baccalauréat à composante scientifique . Un master est généralement exigé de la part d’un data scientist parce qu’il doit maîtriser les maths statistiques et les technologies de l’information.

Quel rôle joue la machine learning ?

Le data analyst doit maîtriser le langage SQL et Oracle Database tout en sachant utiliser les outils de veille stratégique tels que Power BI et de visualisation de données comme Shiny et Google Analytics. De son côté, le data scientist développe ses propres modèles d’apprentissage automatique qui utilisent l’ensemble des données comme base de formation pour apprendre de nouvelles choses. 

deep-learning
Dossier

Deep learning : Qu’est-ce que c’est ? Comment ça marche ? Quelles sont les applications ?

Nous sommes actuellement à un stade où l’on cherche à ce que les machines soient dotées d’une plus grande intelligence, atteignent une pensée autonome et une grande capacité d’apprentissage. Le deep learning ou apprentissage en profondeur est un concept relativement nouveau allant dans cette perspective. Il est étroitement lié à l’intelligence artificielle (IA) et fait partie des approches algorithmiques d’apprentissage automatique.

Qu’est-ce que le deep learning ?

Le deep learning ou apprentissage profond est défini comme un ensemble d’algorithmes qui se compose d’un réseau de neurones artificiels capables d’apprendre, s’inspirant du réseau de neurones du cerveau humain. En ce sens, il est considéré comme un sous-domaine de l’apprentissage automatique. L’apprentissage profond est lié aux modèles de communication d’un cerveau biologique, ce qui lui permet de structurer et de traiter les informations.

L’une des principales caractéristiques de l’apprentissage profond est qu’il permet d’apprendre à différents niveaux d’abstraction. Autrement dit, l’utilisateur peut hiérarchiser les informations en concepts. De même, une cascade de couches de neurones est utilisée pour l’extraction et la transformation des informations.

Le deep learning peut apprendre de deux manières : l’apprentissage supervisé et l’apprentissage non supervisé. Cela permet au processus d’être beaucoup plus rapide et plus précis. Dans certains cas, l’apprentissage profond est connu sous le nom d’apprentissage neuronal profond ou de réseaux neuronaux profonds. En effet, la définition la plus précise est que l’apprentissage profond imite le fonctionnement du cerveau humain.

Grâce à l’ère du Cloud Computing et du Big Data, le deep learning a connu une croissance significative. Avec lui, un haut niveau de précision a été atteint. Et cela a causé tellement d’étonnements, car il se rapproche chaque jour de la puissance perceptive d’un être humain.

Comment fonctionne le deep learning ?

Le deep learning fonctionne grâce à des réseaux de neurones profonds. Il utilise un grand nombre de processeurs fonctionnant en parallèle.

Les réseaux de neurones sont regroupés en trois couches différentes : couche d’entrée, couche cachée et couche de sortie. La première couche, comme son nom l’indique, reçoit les données d’entrée. Ces informations sont transmises aux couches cachées qui effectuent des calculs mathématiques permettant d’établir de nouvelles entrées. Enfin, la couche de sortie est chargée de fournir un résultat.

Mais, les réseaux de neurones ne fonctionnent pas si on ne tient pas compte de deux facteurs. Le premier est qu’il faut beaucoup de puissance de calcul. Le second fait référence au gigantesque volume de données auquel ils doivent accéder pour s’entraîner.

Pour sa part, les réseaux de neurones artificiels peuvent être entraînés à l’aide d’une technique appelée rétropropagation. Elle consiste à modifier les poids des neurones pour qu’ils donnent un résultat exact. En ce sens, ils sont modifiés en fonction de l’erreur obtenue et de la participation de chaque neurone.

deep-learning-apprentissage-profond

Pour son bon fonctionnement, l’utilisation d’un processeur graphique est également importante. Autrement dit, un GPU dédié est utilisé pour le traitement graphique ou les opérations en virgule flottante. Pour traiter un tel processus, l’ordinateur doit être super puissant afin de pouvoir fonctionner avec un minimum de marge d’erreur.

L’apprentissage en profondeur a permis de produire de meilleurs résultats dans les tâches de perception informatique, car il imite les caractéristiques architecturales du système nerveux. En fait, ces avancées peuvent lui permettre d’intégrer des fonctions telles que la mémoire sémantique, l’attention et le raisonnement. L’objectif est que le niveau d’intelligence artificielle soit équivalent au niveau d’intelligence humain, voire le dépasser grâce à l’innovation technologique.

Quelles sont les applications du deep learning dans l’analyse du Big Data ?

Le deep learning dans l’analyse du Big Data est devenu une priorité de la science des données. On peut en effet identifier trois applications.

Indexation sémantique

La recherche d’informations est une tâche clé de l’analyse du Big Data. Le stockage et la récupération efficaces des informations sont un problème croissant. Les données en grande quantité telles que des textes, des images, des vidéos et des fichiers audio sont collectées dans divers domaines. Par conséquent, les stratégies et solutions qui étaient auparavant utilisées pour le stockage et la récupération d’informations sont remises en question par ce volume massif de données.

L’indexation sémantique s’avère être une technique efficace, car elle facilite la découverte et la compréhension des connaissances. Ainsi, les moteurs de recherche ont la capacité de fonctionner plus rapidement et plus efficacement.

Effectuer des tâches discriminantes

Tout en effectuant des tâches discriminantes dans l’analyse du Big Data, les algorithmes d’apprentissage permettent aux utilisateurs d’extraire des fonctionnalités non linéaires compliquées à partir des données brutes. Il facilite également l’utilisation de modèles linéaires pour effectuer des tâches discriminantes en utilisant les caractéristiques extraites en entrée.

Cette approche présente deux avantages. Premièrement, l’extraction de fonctionnalités avec le deep learning ajoute de la non-linéarité à l’analyse des données, associant ainsi étroitement les tâches discriminantes à l’IA. Deuxièmement, l’application de modèles analytiques linéaires sur les fonctionnalités extraites est plus efficace en termes de calcul. Ces deux avantages sont importants pour le Big Data, car ils permettent d’accomplir des tâches complexes comme la reconnaissance faciale dans les images, la compréhension de millions d’images, etc.

Balisage d’images et de vidéos sémantiques

Les mécanismes d’apprentissage profond peuvent faciliter la segmentation et l’annotation des scènes d’images complexes. Le deep learning peut également être utilisé pour la reconnaissance de scènes d’action ainsi que pour le balisage de données vidéo. Il utilise une analyse de la variable indépendante pour apprendre les caractéristiques spatio-temporelles invariantes à partir de données vidéo. Cette approche aide à extraire des fonctionnalités utiles pour effectuer des tâches discriminantes sur des données d’image et vidéo.

Le deep learning a réussi à produire des résultats remarquables dans l’extraction de fonctionnalités utiles. Cependant, il reste encore un travail considérable à faire pour une exploration plus approfondie qui comprend la détermination d’objectifs appropriés dans l’apprentissage de bonnes représentations de données et l’exécution d’autres tâches complexes dans l’analyse du Big Data.

data-science
Dossier

Qu’est-ce que la data science et quelle est son importance ?

La data science ou science des données est une science appliquée. Elle fait appel à des méthodes et des connaissances issues de nombreux domaines tels que les mathématiques, les statistiques et l’informatique, notamment la programmation informatique. Depuis le début de ce millénaire, la data science est une discipline indépendante.

Il existe des cours spécifiques pour la science des données. Les personnes travaillant dans ce domaine sont connues sous le nom de data scientists ou scientifiques des données. Tout mathématicien, informaticien, programmeur, physicien, économiste d’entreprise ou statisticien qui a acquis ses connaissances en se spécialisant dans les tâches de science des données peut devenir un data scientist.

Le but de la data science est de générer des connaissances à partir de données. Dans l’environnement Big Data, la science des données est utilisée pour analyser des ensembles de données en grandes quantités avec l’apprentissage automatique (machine learning) et l’intelligence artificielle (IA). La science des données est utilisée dans diverses industries et domaines spécialisés.

Les objectifs de la data science

Pour faire simple, les objectifs de la data science sont de :

  • Établir un moteur de recommandation à partir des données clients (sur le site, sur les réseaux sociaux…)

Aujourd’hui, les moteurs de recommandation de produits sont capables de rencontrer un client en temps réel. Par exemple, les magasins qui utilisent les recommandations de produits ont la possibilité de personnaliser chacune de leurs pages. Sur chacune d’elles, ils  proposent des offres qui attirent le client de la page d’accueil à la page de paiement.

  • Fournir une aide à la décision

La prise de décision basée sur les données est définie comme l’utilisation de faits, de mesures et de données. Il est ainsi possible de guider les parties prenantes dans une entreprise à prendre des décisions stratégiques. Lorsqu’une organisation tire pleinement parti de la valeur de ses données, tous ceux qui y travaillent ont la capacité de prendre de meilleures décisions.

  • Optimiser et automatiser les processus internes

Les entreprises cherchent constamment à simplifier les tâches. Elles veulent également réduire les coûts. Cela est possible grâce à la data science. Il peut être aussi optimisé afin de gagner en efficacité et en compétitivité.

  • Soutenir les parties prenantes dans la gestion de l’entreprise

Outre l’aide à la prise de décision, la data science permet de recouper des données pertinentes pour apporter des éléments concrets. Sur ces derniers, les différents responsables d’une entreprise pourront baser leurs actions.

  • De développer des modèles prédictifs

Par le biais de l’analyse prédictive, la data science permet de prédire les événements futurs. En règle générale, les données sont utilisées pour créer un modèle mathématique afin de détecter les tendances les plus importantes. Ce modèle prédictif est ensuite appliqué aux données actuelles pour prédire les événements futurs ou suggérer des mesures à prendre pour obtenir des résultats optimaux.

Les disciplines de la science des données

La data science est une science interdisciplinaire qui utilise et applique des connaissances et des méthodes provenant de divers domaines. Les mathématiques et les statistiques constituent l’essentiel de ces connaissances. Ce sont les bases permettant au data scientist d’évaluer les données, de les interpréter, de décrire les faits ou de faire des prévisions. Dans le cadre de l’analyse prédictive, les statistiques inductives sont souvent utilisées en plus d’autres méthodes statistiques pour anticiper les événements futurs.

Un autre groupe de connaissances appliquées dans la science des données est la technologie de l’information et l’informatique. La technologie de l’information fournit des processus et des systèmes techniques de collecte, d’agrégation, de stockage et d’analyse des données. Les éléments importants dans ce domaine sont les bases de données relationnelles, les langages de requête de bases de données structurées tels que SQL (Structured Query Language), le langage de programmation et de script sur des outils tels que Python et bien plus encore.

En plus des connaissances scientifiques spécifiques, la data science accède à ce que l’on appelle la connaissance de l’entreprise (connaissance du domaine ou savoir-faire de l’entreprise). Elle est nécessaire pour comprendre les processus dans une organisation particulière ou une entreprise d’un secteur spécifique. La connaissance du domaine peut concerner des compétences commerciales : marketing de produits et services, savoir-faire logistique, expertise médicale.

data-science-et-big-data

La relation entre le Big Data et la data science

En raison de l’augmentation continuelle des volumes de données à traiter ou à analyser, le terme Big Data s’est imposé. Le Big Data est au cœur du traitement des données. Il concerne les méthodes, procédures, solutions techniques et systèmes informatiques. Ceux-ci sont capables de faire face au flux de données et au traitement de grandes quantités de données sous la forme souhaitée.

Le Big Data est un domaine important de la data science. La science des données fournit des connaissances et des méthodes pour collecter et stocker de nombreuses données structurées ou non structurées (par exemple dans un data lake ou lac de données), les traiter à l’aide de processus automatisés et les analyser. La science des données utilise, entre autres, l’exploration de données ou data mining, l’apprentissage statistique, l’apprentissage automatique (machine learning), l’apprentissage en profondeur (deep learning) et l’intelligence artificielle (IA).

Le rôle du data scientist dans la data science

Les personnes impliquées dans la science des données sont les scientifiques des données ou data scientists. Ils acquièrent leurs compétences soit en suivant une formation en data science, soit en se spécialisant dans le métier de data scientist.

Les scientifiques des données sont souvent des informaticiens, des mathématiciens ou des statisticiens. Ils sont également des programmeurs, des experts en bases de données ou des physiciens qui ont reçu une formation complémentaire en science des données.

En plus des connaissances spécifiques, un data scientist doit être en mesure de présenter clairement les modèles. Il les génère à partir des données et de les rapprocher de divers groupes cibles. Il doit également avoir des compétences appropriées en communication et en présentation. En effet, un data scientist a un rôle de conseiller ou de consultant auprès de la direction d’une entreprise. Les termes data scientist et data analyst sont souvent confondus dans l’environnement d’une entreprise. Parfois, leurs tâches et domaines d’activité se chevauchent.

L’analyste de données effectue une visualisation de données classique et pratique. De son côté, le data scientist poursuit une approche plus scientifique. Pour ce faire, il utilise des méthodes sophistiquées comme l’utilisation de l’intelligence artificielle ou de l’apprentissage automatique et des techniques avancées d’analyse et de prédiction.

Domaines d’application de la data science

Il n’y a pratiquement pas de limites aux applications possibles de la science des données. L’utilisation de la data science est logique partout où de grandes quantités de données sont générées et que des décisions doivent être prises sur la base de ces données.  La science des données est d’une grande importance dans certains entreprises et activités : santé, logistique, vente au détail en ligne et en magasin, assurance, finance, industrie et manufacturing.

data-analyst
Dossier

Qu’est-ce qu’un data analyst ?

Le domaine du Big Data, le Cloud Computing et l’intelligence artificielle ne cessent de croître. Grâce à cela, de nouveaux métiers apparaissent chaque jour comme l’analyste de données ou data analyst  qui est devenu l’un des profils les plus demandés du secteur.

Qu’est-ce qu’un data analyst ?

Le data analyst est un profil professionnel qui, grâce à l’interprétation des données, peut établir des stratégies au sein d’une entreprise comme une stratégie marketing par exemple. Par conséquent, il doit savoir collecter des données et les analyser.

Un data analyst travaille avec de grandes quantités de données brutes, mais les données en elles-mêmes ne disent rien. L’entreprise a besoin d’un expert qui trouve des modèles à travers ces données pour pouvoir effectuer certaines actions, car leur interprétation est un outil de prise de décision.

Quelles sont les tâches quotidiennes d’un data analyst ?

Aujourd’hui, la plupart des entreprises sont constamment derrière l’utilisateur. Par conséquent, il est essentiel d’avoir un département d’analyse de données dirigé par un chief data officer travaillant aux côtés de data analysts qui interprètent les données statistiques recueillies afin d’établir des modèles de comportement des clients.

L’analyste de données est en charge de :

          L’extraction, le traitement et le regroupement des données

          L’analyse de ces groupes de données

          L’établissement de rapports d’analyse

Il ne fait aucun doute qu’un analyste de données doit développer ses compétences mathématiques et statistiques. De cette manière, il parvient à effectuer une analyse complète des données extraites. Pour ce faire, il utilise plusieurs outils d’analyse ainsi que des langages de programmation utilisés dans la data science comme Python.

data-analyst

En plus de ces compétences en outils et statistiques, des qualités telles que le travail d’équipe doivent aussi être prises en compte. Et pour cause, un data analyst doit travailler main dans la main avec le département chargé des projets de Business Intelligence.

L’analyste de données est une figure nécessaire dans n’importe quel secteur. En ce sens, il doit être prêt à présenter des données à n’importe quel niveau de l’entreprise. Savoir communiquer efficacement devrait être l’un de ses points forts, car il ne traitera pas seulement avec le data scientist ou le data engineer, mais avec toutes les parties prenantes pour la bonne marche des activités.

L’analyste de données doit également être intrigué et curieux sur ce qui se cache derrière toutes les informations générées par une entreprise. Ce sont des capacités qui sont propres à une personne innovante telle qu’un data analyst.

Pourquoi les entreprises recherchent-elles des data analysts ?

Un data analyst apporte de la valeur à son travail. Et pour cause, un bon analyste de données a cinq caractéristiques que chaque entreprise recherche.

1.      Curiosité pour analyser et interpréter les données

La première grande raison pour laquelle un data analyst est important dans une entreprise est qu’il prend les données, les analyse et en tire le meilleur parti. Il s’agit d’un élément important de son profil dans la mesure où il s’occupe de la grande quantité de données stockées et gérées par les entreprises.

2.      Capacité à résoudre des problèmes

L’un des traits les plus courants d’un bon analyste de données est qu’il est une personne orientée vers la résolution de problèmes. Le data analyst se démarque de cette capacité à résoudre les problèmes qui apparaissent, l’un des points qui caractérisent un bon travailleur.

3.      Capacité à résoudre les problèmes techniques

En plus de savoir analyser, interpréter et contourner les problèmes simples, un bon data analyst se distingue aussi par sa capacité à résoudre des problèmes techniques. Il doit avoir des connaissances en programmation et sait utiliser le langage informatique comme SQL.

4.      Capacité à s’adapter à n’importe quel secteur

En plus de savoir travailler sur des données, de prendre des décisions et d’utiliser le langage informatique, une autre caractéristique qui fait que les postes de data analyst sont nombreux est que l’analyste de données sait s’adapter à n’importe quel secteur d’activité. La capacité d’adaptation rapide à une entreprise, quel que soit son domaine, est une autre raison pour laquelle le métier d’analyste de données est valorisé.

Quel est le salaire d’un data analyst ?

La profession d’analyste de données est en plein essor et a un avenir pour les prochaines années. Le salaire annuel d’un data analyst junior peut commencer à partir de 35 000 euros. Au bout de quelques années, il peut atteindre 50 000 euros en fonction de l’expérience antérieure.

Il faut garder à l’esprit que ce métier sera de plus en plus sollicité grâce à la transformation digitale que vivent actuellement de nombreuses entreprises. Dans certaines organisations, un data analyst peut même facturer son travail jusqu’à 60 000 euros par an. Mais, encore une fois, tout dépend de l’expérience, un élément important que de nombreuses entreprises exigent. De plus, le salaire d’un analyste de données ne peut pas être dit en des termes généraux, car il peut également dépendre de divers facteurs liés à l’entreprise.

Dossier

Pourquoi Python est-il populaire auprès des data scientists ?

Le langage de programmation de Python Software Foundation est une programmation orientée objet. Lorsque les data scientists parient sur Python pour le traitement des données volumineuses, ils sont conscients qu’il existe d’autres options populaires telles que R, Java ou SAS. Toutefois, Python demeure la meilleure alternative pour ses avantages dans l’analyse du Big Data.

Pourquoi choisir Python ?

Entre R, Java ou Python pour le Big Data, choisir le dernier (en version majeure ou version mineure) est plus facile après avoir lu les 5 arguments suivants :

1.      Simplicité

Python est un langage de programmation interprété connu pour faire fonctionner les programmes avec le moins de chaînes de caractères et de lignes de code. Il identifie et associe automatiquement les types de données. En outre, il est généralement facile à utiliser, ce qui prend moins de temps lors du codage. Il n’y a pas non plus de limitation pour le traitement des données.

2.      Compatibilité

Hadoop est la plateforme Big Data open source la plus populaire. La prise en charge inhérente à Python, peu importe la version du langage, est une autre raison de la préférer.

3.      Facilité d’apprentissage

Comparé à d’autres langages, le langage de programmation de Guido Van Rossum est facile à apprendre même pour les programmeurs moins expérimentés. C’est le langage de programmation idéal pour trois raisons. Premièrement, elle dispose de vastes ressources d’apprentissage. Deuxièmement, elle garantit un code lisible. Et troisièmement, elle s’entoure d’une grande communauté. Tout cela se traduit par une courbe d’apprentissage progressive avec l’application directe de concepts dans des programmes du monde réel. La grande communauté Python assure que si un utilisateur rencontre des problèmes de développement, il y en aura d’autres qui pourront lui prêter main-forte pour les résoudre.

4.      Visualisation de données

Bien que R soit meilleur pour la visualisation des données, avec les packages récents, Python pour le Big Data a amélioré son offre sur ce domaine. Il existe désormais des API qui peuvent fournir de bons résultats.

5.      Bibliothèques riches

Python dispose d’un ensemble de bibliothèques riche. Grâce à cela, il est possible de faire des mises à jour pour un large éventail de besoins en matière de science des données et d’analyse. Certains de ces modules populaires apportent à ce langage une longueur d’avance : NumPy, Pandas, Scikit-learn, PyBrain, Cython, PyMySQL et iPython.

Que sont les bibliothèques en Python ?

La polyvalence de toutes les versions de Python pour développer plusieurs applications est ce qui a poussé son usage au-delà de celui des développeurs. En effet, il a attiré l’intérêt de groupes de recherche de différentes universités du monde entier. Il leur ont permis de développer des librairies pour toutes sortes de domaines : application web, biologie, physique, mathématiques et ingénierie. Ces bibliothèques sont constituées de modules qui ont un grand nombre de fonctions, d’outils et d’algorithmes. Ils permettent d’économiser beaucoup de temps de programmation et ont une structure facile à comprendre.

Le programme Python est considéré comme le langage de programmation pour le développement de logiciels, de pages Web, d’applications de bureau ou mobiles. Mais, il est également le meilleur pour le développement d’outils scientifiques. Par conséquent, les data scientists sont destinés à aller de pair avec Python pour développer tous leurs projets sur le Big Data.

Python et la data science

La data science est chargée d’analyser, de transformer les données et d’extraire des informations utiles pour la prise de décision. Et il n’y a pas besoin d’avoir des connaissances avancées en programmation pour utiliser Python afin d’effectuer ces tâches. La programmation et la visualisation des résultats sont plus simples. Il y a peu de lignes de code en Python et ses interfaces graphiques de programmation sont conviviales.

Dans le développement d’un projet de science des données, il existe différentes tâches pour terminer ledit projet, dont les plus pertinentes sont l’extraction de données, le traitement de l’information, le développement d’algorithmes (machine learning) et l’évaluation des résultats.

Dossier

Métiers de la Data : Tour d’horizon des métiers phares

Vous souhaitez devenir un professionnel de la Data mais vous ne savez pas quel métier répondra au mieux à vos attentes dans le domaine ? Dans cet article, nous allons essayer de répondre à toutes vos questions en vous présentant en détail chacun des métiers de la Data.

Le Data Scientist

Le Data Scientist est un scientifique. Il a pour but de trouver des solutions grâce à l’analyse de données. Ainsi, le Data Scientist doit trouver ou créer l’algorithme le plus intéressant pour répondre aux différents besoins de son entreprise.

Le métier de Data Scientist peut souvent faire penser qu’une connaissance très développée en mathématiques statistiques est obligatoire. Néanmoins, ce métier demande surtout d’être capable de comprendre des données et de savoir différencier un algorithme efficace et utilisable, d’un algorithme qui ne fonctionne pas correctement. Ainsi, le Data Scientist devra comparer les modèles d’analyse de données et partager ensuite son impression avec le reste de l’équipe.

Concernant les salaires, en France et selon une enquête de DataScientest sur les salaires des metiers de la data menée auprès des entreprises du CAC 40, Data Scientist peut gagner entre 35 000 et 55 000 euros par an en début de carrière. En devant senior, il peut un salaire compris entre 45 000 et 60 000 euros par an.

Le Data Engineer

Le Data Engineer est comme son nom l’indique un ingénieur : il fabrique.
Ainsi, le Data Engineer se doit de réunir des données brutes et venant de nombreuses sources différentes dans une Data Warehouse centralisée : il doit donc créer et organiser les bases de données en mettant en place un pipeline pour rendre l’obtention de données et leur stockage automatique. Ensuite, le Data Engineer trie les données et les rend analysable pour les Data Scientists.

Concernant les salaires, toujours selon la même enquête de DataScientest, un Data Engineer gagne annuellement entre 35 000 et 60 000 euros et son salaire peut nettement augmenter avec les années d’expériences.

Le Data Analyst

Le Data Analyst a pour mission principale d’analyser les données. Le Data Analyst possède de grandes compétences en « Data Visualization ». Il étudie notamment des bases de données nettoyée pour y trouver des connaissances qui aideront l’entreprise à prendre des décisions.  Néanmoins, à la différence du Data Scientist, le Data Analyst ne formule pas lui-même les problèmes auxquels il va trouver des solutions : il se suffit à résoudre des problèmes soulignés par son entreprise notamment grâce à SQL

Concernant le salaire, le Data Scientist a plus de compétences que le Data Analyst. Il n’est donc pas étonnant que son salaire soit supérieur. En France, toujours selon l’enquête de DataScientest, il varie annuellement entre 35 000 et 60 000 euros selon son expérience.

Le Data Manager

Le Data Manager recueille et classe les informations de l’entreprise. Ses missions principales sont de recueillir toutes les données, les organiser, les rendre compréhensible, ajouter les données manquantes, supprimer les erreurs, et enfin, sécuriser les données.

Le Data Manager peut exercer en tant que salarié de l’entreprise où il exerce ou consultant d’une entreprise extérieure à son entreprise. Concernant les salaires, un Data Manager touche mensuellement entre 2 200 et 2 600 euros bruts par mois et augmente par la suite en fonction de ses responsabilités et du domaine d’activité de son entreprise.

Le Business Analyst

Le Business Analyst a un rôle très opérationnel et étudie les stratégies de l’entreprise au niveau marketing et financier. Contrairement au Data Analyst, il effectue l’analyse de l’activité de manière interne à l’entreprise.

Le Business Intelligence Manager

Le Business intelligence manager doit fouiller dans les données de l’entreprise, les trier et les analyser pour produire des guides d’aide à la prise de décision dans lequel il expose un constat, y expose ses recommandations de solutions de marketing et de data science.

Le Chief Data Officer

Le Chief Data Officer dirige la collecte des données et leur optimisation. Il décide la manière avec laquelle l’entreprise va utiliser les données qu’elle possède. Le Chief Data Officer peut être comparé à un véritable manager qui aurait certaines connaissances en Data.  

Le Data Protection Officer

Le Data Protection Officer est en charge de la protection des données : il fait le lien entre la loi et la technologie. Ainsi, il donne la possibilité à son entreprise d’exploiter les données qui sont à sa disposition sans enfreindre la vie privée des utilisateurs.

Le Data Architect

Le Data Architect est, comme son nom l’indique, un architecte. Il gère la façon dont les données vont être enregistrées. Il maîtrise donc les outils du Big Data et les solutions Cloud comme l’iCloud d’Apple.

Le Data Miner

Le Data Miner extrait, trie et rend lisible les données brutes. Il intervient souvent dans les structures qui ont des sources de données extrêmement variées et qui demandent un grand nettoyage.

Le Master Data Manager

Ce métier est réservé aux personnes très qualifiées. Le Master Data Management est un terme qui désigne la gestion des données critiques. Toutes ces données sont au sein d’un seul fichier, le Master File, et permet de faciliter le partage de données entre les départements de l’entreprise.

L’Ingénieur Big Data

L’ingénieur Big Data a des tâches très variées mais se charge notamment de la valorisation des données. Il analyse en effet des grands volumes de données à l’aide de différents logiciels pour les rendre exploitable pour ensuite les classer et les mettre en avant dans des rapports détaillés. L’ingénieur Big Data est aussi en charge de la création et de la mise en place des clusters. Il doit aussi se charger de la mise en place des algorithmes et de son contrôle qualité, pour ensuite assurer la cohérence du résultat.

Définitions

Computer Vision : définition, fonctionnement, cas d’usage, formations

La Computer Vision ou vision par ordinateur est une technologie d’intelligence artificielle permettant aux machines d’imiter la vision humaine. Découvrez tout ce que vous devez savoir : définition, fonctionnement, histoire, applications, formations…

Depuis maintenant plusieurs années, nous sommes entrés dans l’ère de l’image. Nos smartphones sont équipés de caméras haute définition, et nous capturons sans cesse des photos et des vidéos que nous partageons au monde entier sur les réseaux sociaux.

Les services d’hébergement vidéo comme YouTube connaissent une popularité explosive, et des centaines d’heures de vidéo sont mises en ligne et visionnées chaque minute. Ainsi, l’internet est désormais composé aussi bien de texte que d’images.

Toutefois, s’il est relativement simple d’indexer les textes et de les explorer avec des moteurs de recherche tels que Google, la tâche est bien plus difficile en ce qui concerne les images. Pour les indexer et permettre de les parcourir, les algorithmes ont besoin de connaître leur contenu.

Pendant très longtemps, la seule façon de présenter le contenu d’une image aux ordinateurs était de renseigner sa méta-description lors de la mise en ligne. Désormais, grâce à la technologie de  » vision par ordinateur  » (Computer Vision), les machines sont en mesure de  » voir «  les images et de comprendre leur contenu.

Qu’est ce que la vision par ordinateur ?

La Computer Vision peut être décrite comme un domaine de recherche ayant pour but de permettre aux ordinateurs de voir. De façon concrète, l’idée est de transmettre à une machine des informations sur le monde réel à partir des données d’une image observée.

Pour le cerveau humain, la vision est naturelle. Même un enfant est capable de décrire le contenu d’une photo, de résumer une vidéo ou de reconnaître un visage après les avoir vus une seule fois. Le but de la vision par ordinateur est de transmettre cette capacité humaine aux ordinateurs.

Il s’agit d’un vaste champ pluridisciplinaire, pouvant être considéré comme une branche de l’intelligence artificielle et du Machine Learning. Toutefois, il est aussi possible d’utiliser des méthodes spécialisées et des algorithmes d’apprentissage général n’étant pas nécessairement liés à l’intelligence artificielle.

De nombreuses techniques en provenance de différents domaines de science et d’ingénierie peuvent être exploitées. Certaines tâches de vision peuvent être accomplies à l’aide d’une méthode statistique relativement simple, d’autres nécessiteront de vastes ensembles d’algorithmes de Machine Learning complexes.

 

 

L’histoire de la Computer Vision

En 1966, les pionniers de l’intelligence artificielle Seymour Papert et Marvin Minsky lance le Summer Vision Project : une initiative de deux mois, rassemblant 10 hommes dans le but de créer un ordinateur capable d’identifier les objets dans des images.

Pour atteindre cet objectif, il était nécessaire de créer un logiciel capable de reconnaître un objet à partir des pixels qui le composent. À l’époque, l’IA symbolique – ou IA basée sur les règles – était la branche prédominante de l’intelligence artificielle.

Les programmeurs informatiques devaient spécifier manuellement les règles de détection d’objets dans les images. Or, cette approche pose problème puisque les objets dans les images peuvent apparaître sous différents angles et différents éclairages. Ils peuvent aussi être altérés par l’arrière-plan, ou obstrués par d’autres objets.

Les valeurs de pixels variaient donc fortement en fonction de nombreux facteurs, et il était tout simplement impossible de créer des règles manuellement pour chaque situation possible. Ce projet se heurta donc aux limites techniques de l’époque.

Quelques années plus tard, en 1979, le scientifique japonais Kunihiko Fukushima créa un système de vision par ordinateur appelé  » neocognitron «  en se basant sur les études neuroscientifiques menées sur le cortex visuel humain. Même si ce système échoua à effectuer des tâches visuelles complexes, il posa les bases de l’avancée la plus importante dans le domaine de la Computer Vision…

La révolution du Deep Learning

La Computer Vision n’est pas une nouveauté, mais ce domaine scientifique a récemment pris son envol grâce aux progrès effectués dans les technologies d’intelligence artificielle, de Deep Learning et de réseaux de neurones.

Dans les années 1980, le Français Yan LeCun crée le premier réseau de neurones convolutif : une IA inspirée par le neocognitron de Kunihiko Fukushima. Ce réseau est composé de multiples couches de neurones artificiels, des composants mathématiques imitant le fonctionnement de neurones biologiques.

Lorsqu’un réseau de neurones traite une image, chacune de ses couches extrait des caractéristiques spécifiques à partir des pixels. La première couche détectera les éléments les plus basiques, comme les bordures verticales et horizontales.

À mesure que l’on s’enfonce en profondeur dans ce réseau, les couches détectent des caractéristiques plus complexes comme les angles et les formes. Les couches finales détectent les éléments spécifiques comme les visages, les portes, les voitures. Le réseau produit enfin un résultat sous forme de tableau de valeurs numériques, représentant les probabilités qu’un objet spécifique soit découvert dans l’image.

L’invention de Yann LeCun est brillante, et a ouvert de nouvelles possibilités. Toutefois, son réseau de neurones était restreint par d’importantes contraintes techniques. Il était nécessaire d’utiliser d’immenses volumes de données et des ressources de calcul titanesques pour le configurer et l’utiliser. Or, ces ressources n’étaient tout simplement pas disponibles à cette époque.

Dans un premier temps, les réseaux de neurones convolutifs furent donc limités à une utilisation dans les domaines tels que les banques et les services postaux pour traiter des chiffres et des lettres manuscrites sur les enveloppes et les chèques.

Il a fallu attendre 2012 pour que des chercheurs en IA de Toronto développent le réseau de neurones convolutif AlexNet et triomphent de la compétition ImageNet dédiée à la reconnaissance d’image. Ce réseau a démontré que l’explosion du volume de données et l’augmentation de puissance de calcul des ordinateurs permettaient enfin d’appliquer les  » neural networks  » à la vision par ordinateur.

Ce réseau de neurones amorça la révolution du Deep Learning : une branche du Machine Learning impliquant l’utilisation de réseaux de neurones à multiples couches. Ces avancées ont permis de réaliser des bonds de géants dans le domaine de la Computer Vision. Désormais, les machines sont même en mesure de surpasser les humains pour certaines tâches de détection et d’étiquetage d’images.

 

Comment fonctionne la vision par ordinateur

Les algorithmes de vision par ordinateur sont basés sur la  » reconnaissance de motifs « . Les ordinateurs sont entraînés sur de vastes quantités de données visuelles. Ils traitent les images, étiquettent les objets, et trouvent des motifs (patterns) dans ces objets.

Par exemple, si l’on nourrit une machine avec un million de photos de fleurs, elle les analysera et détectera des motifs communs à toutes les fleurs. Elle créera ensuite un modèle, et sera capable par la suite de reconnaître une fleur chaque fois qu’elle verra une image en comportant une.

Les algorithmes de vision par ordinateur reposent sur les réseaux de neurones, censés imiter le fonctionnement du cerveau humain. Or, nous ne savons pas encore exactement comment le cerveau et les yeux traitent les images. Il est donc difficile de savoir à quel point les algorithmes de Computer Vision miment ce processus biologique.

Les machines interprètent les images de façon très simple. Elles les perçoivent comme des séries de pixels, avec chacun son propre ensemble de valeurs numériques correspondant aux couleurs. Une image est donc perçue comme une grille constituée de pixels, chacun pouvant être représenté par un nombre généralement compris entre 0 et 255.

Bien évidemment, les choses se compliquent pour les images en couleur. Les ordinateurs lisent les couleurs comme des séries de trois valeurs : rouge, vert et bleu. Là encore, l’échelle s’étend de 0 à 255. Ainsi, chaque pixel d’une image en couleur à trois valeurs que l’ordinateur doit enregistrer en plus de sa position.

Chaque valeur de couleur est stockée en 8 bits. Ce chiffre est multiplié par trois pour une image en couleurs, ce qui équivaut à 24 bits par pixel. Pour une image de 1024×768 pixels, il faut donc compter 24 bits par pixels soit presque 19 millions de bits ou 2,36 mégabytes.

Vous l’aurez compris : il faut beaucoup de mémoire pour stocker une image. L’algorithme de Computer Vision quant à lui doit parcourir un grand nombre de pixels pour chaque image. Or, il faut généralement plusieurs dizaines de milliers d’images pour entraîner un modèle de Deep Learning.

C’est la raison pour laquelle la vision par ordinateur est une discipline complexe, nécessitant une puissance de calcul et une capacité de stockage colossales pour l’entraînement des modèles. Voilà pourquoi il a fallu attendre de nombreuses années pour que l’informatique se développe et permette à la Computer Vision de prendre son envol.

 

Les différentes applications de Computer Vision

La vision par ordinateur englobe toutes les tâches de calcul impliquant le contenu visuel telles que les images, les vidéos ou même les icônes. Cependant, il existe de nombreuses branches dans cette vaste discipline.

La classification d’objet consiste à entraîner un modèle sur un ensemble de données d’objets spécifiques, afin de lui apprendre à classer de nouveaux objets dans différentes catégories. L’identification d’objet quant à elle vise à entraîner un modèle à reconnaître un objet.

Parmi les applications les plus courantes de vision par ordinateur, on peut citer la reconnaissance d’écriture manuscrite. Un autre exemple est l’analyse de mouvement vidéo, permettant d’estimer la vélocité des objets dans une vidéo ou directement sur la caméra.

Dans la segmentation d’image, les algorithmes répartissent les images dans plusieurs ensembles de vues. La reconstruction de scène permet de créer un modèle 3D d’une scène à partir d’images et de vidéos.

Enfin, la restauration d’image exploite le Machine Learning pour supprimer le  » bruit  » (grain, flou…) sur des photos. De manière générale, toute application impliquant la compréhension des pixels par un logiciel peut être associée à la Computer Vision.

 

Quels sont les cas d’usages de la Computer Vision ?

La Computer Vision fait partie des applications du Machine Learning que nous utilisons déjà au quotidien, parfois sans même le savoir. Par exemple, les algorithmes de Google parcourent des cartes pour en extraire de précieuses données et identifier les noms de rues, les commerces ou les bureaux d’entreprises.

De son côté, Facebook exploite la vision par ordinateur afin d’identifier les personnes sur les photos. Sur les réseaux sociaux, elle permet aussi de détecter automatiquement le contenu problématique pour le censurer immédiatement.

Les voitures autonomes

Les entreprises de la technologie sont loin d’être les seules à se tourner vers cette technologie. Ainsi, le constructeur automobile Ford utilise la Computer Vision pour développer ses futurs véhicules autonomes. Ces derniers reposent sur l’analyse en temps réel de nombreux flux vidéo capturés par la voiture et ses caméras.

Il en va de même pour tous les systèmes de voitures sans pilote comme ceux de Tesla ou Nvidia. Les caméras de ces véhicules capturent des vidéos sous différents angles et s’en servent pour nourrir le logiciel de vision par ordinateur.

Ce dernier traite les images en temps réel pour identifier les bordures des routes, lire les panneaux de signalisation, détecter les autres voitures, les objets et les piétons. Ainsi, le véhicule est en mesure de conduire sur autoroute et même en agglomération, d’éviter les obstacles et de conduire les passagers jusqu’à leur destination.

 

La santé

Dans le domaine de la santé, la Computer Vision connaît aussi un véritable essor. La plupart des diagnostics sont basés sur le traitement d’image : lecture de radiographies, scans IRM…

Google s’est associé avec des équipes de recherche médicale pour automatiser l’analyse de ces imageries grâce au Deep Learning. D’importants progrès ont été réalisés dans ce domaine. Désormais, les IA de Computer Vision se révèlent plus performantes que les humains pour détecter certaines maladies comme la rétinopathie diabétique ou divers cancers.

Le sport

Dans le domaine du sport, la vision par ordinateur apporte une précieuse assistance. Par exemple, la Major League Baseball utilise une IA pour suivre la balle avec précision. De même, la startup londonienne Hawk-Eye déploie son système de suivi de balle dans plus de 20 sports comme le basketball, le tennis ou le football.

La reconnaissance faciale

Une autre technologie reposant sur la Computer Vision est la reconnaissance faciale. Grâce à l’IA, les caméras sont en mesure de distinguer et de reconnaître les visages. Les algorithmes détectent les caractéristiques faciales dans les images, et les comparent avec des bases de données regroupant de nombreux visages.

Cette technologie est utilisée sur des appareils grand public comme les smartphones pour authentifier l’utilisateur. Elle est aussi exploitée par les réseaux sociaux pour détecter et identifier les personnes sur les photos. De leur côté, les autorités s’en servent pour identifier les criminels dans les flux vidéo.

La réalité virtuelle et augmentée

Les nouvelles technologies de réalité virtuelle et augmentée reposent également sur la Computer Vision. C’est elle qui permet aux lunettes de réalité augmentée de détecter les objets dans le monde réel et de scanner l’environnement afin de pouvoir y disposer des objets virtuels.

Par exemple, les algorithmes peuvent permettre aux applications AR de détecter des surfaces planes comme des tables, des murs ou des sols. C’est ce qui permet de mesurer la profondeur et les dimensions de l’environnement réel pour pouvoir y intégrer des éléments virtuels.

Les limites et problèmes de la Computer Vision

La vision par ordinateur présente encore des limites. En réalité, les algorithmes se contentent d’associer des pixels. Ils ne  » comprennent  » pas véritablement le contenu des images à la manière du cerveau humain.

Pour cause, comprendre les relations entre les personnes et les objets sur des images nécessite un sens commun et une connaissance du contexte. C’est précisément pourquoi les algorithmes chargés de modérer le contenu sur les réseaux sociaux ne peuvent faire la différence entre la pornographie et une nudité plus candide comme les photos d’allaitement ou les peintures de la Renaissance.

Alors que les humains exploitent leur connaissance du monde réel pour déchiffrer des situations inconnues, les ordinateurs en sont incapables. Ils ont encore besoin de recevoir des instructions précises, et si des éléments inconnus se présentent à eux, les algorithmes dérapent. Un véhicule autonome sera par exemple pris de cours face à un véhicule d’urgence garé de façon incongrue.

Même en entraînant une IA avec toutes les données disponibles, il est en réalité impossible de la préparer à toutes les situations possibles. La seule façon de surmonter cette limite serait de parvenir à créer une intelligence artificielle générale, à savoir une IA véritablement similaire au cerveau humain.

Comment se former à la Computer Vision ?

Si vous êtes intéressé par la Computer Vision et ses multiples applications, vous devez vous former à l’intelligence artificielle, au Machine Learning et au Deep Learning. Vous pouvez opter pour les formations DataScientest.

Le Machine Learning et le Deep Learning sont au coeur de nos formations Data Scientist et Data Analyst. Vous apprendrez à connaître et à manier les différents algorithmes et méthodes de Machine Learning, et les outils de Deep Learning comme les réseaux de neurones, les GANs, TensorFlow et Keras.

Ces formations vous permettront aussi d’acquérir toutes les compétences nécessaires pour exercer les métiers de Data Scientist et de Data Analyst. À travers les différents modules, vous pourrez devenir expert en programmation, en Big Data et en visualisation de données.

Nos différentes formations adoptent une approche innovante de Blended Learning, alliant le présentiel au distanciel pour profiter du meilleur des deux mondes. Elles peuvent être effectuées en Formation Continue, ou en BootCamp.

Pour le financement, ces parcours sont éligibles au CPF et peuvent être financés par Pôle Emploi via l’AIF. À l’issue du cursus, les apprenants reçoivent un diplôme certifié par l’Université de la Sorbonne. Parmi nos alumnis, 93% trouvent un emploi immédiatement après l’obtention du diplôme. N’attendez plus, et découvrez nos formations.

https://youtu.be/SNNK6z03TaA

Vous savez tout sur la Computer Vision. Découvrez tout ce que vous devez savoir sur le Text Mining, et les différents algorithmes de Machine Learning.

Actualités

Un groupement d’entités influentes appellent à un contrôle éthique de l’IA

En mars 2020 l’Institut Montaigne diffusait une étude sur le contrôle des biais. La semaine dernière, c’est un groupement d’environ une soixantaine de chercheurs d’institutions, d’entreprises américaines et européennes spécialisés autour de l’intelligence artificielle ou IA (École Normale Supérieure de Paris, Alan Turing Institute, Cambridge, Stanford, Oxford, Google, Berkeley, Intel, etc.) qui a publié un rapport appelant au contrôle de l’éthique des IA.

Depuis quelques temps déjà, ce besoin d’encadrement est régulièrement évoqué, voir notre article « Ethique ou Big Data ». De nombreux rapports ont déjà été édités explicitant les différents problèmes éthiques de l’IA. Dans ces deux derniers rapports sont encore pointés ces mêmes problèmes, comme le contrôle des biais, la mise en place de bonnes pratiques communes mais aussi le manque de soutien financiers des politiques publiques pour financer la recherche à ce sujet.

Afin d’assurer un développement de l’IA efficient tout en respectant les droits fondamentaux de chacun est devenu une urgence, la crise sanitaire et les différentes problématiques que l’utilisation des données a pu engendrer au niveau éthique va, espérons-le, certainement accélérer cet encadrement des pratiques de l’IA.

Dans son étude l’Institut Montaigne incite plus à la prévention et à la sensibilisation qu’à la régulation et la sanction. 

Les 4 recommandations qui ont été mises en avant par l’Institut sont les suivantes :

  • Tester la présence de biais dans les algorithmes comme l’on teste les effets secondaires des médicaments. 
  • Promouvoir une équité active plutôt que d’espérer l’équité en ne mesurant pas la diversité.
  • Être plus exigeant pour les algorithmes ayant un fort impact sur les personnes (droit fondamentaux, sécurité, accès aux services essentiels)
  • Assurer la diversité des équipes de conception et de déploiement des algorithmes

L’institut préconise également l’émergence de labels qui garantissent la qualité des données utilisées et de l’organisation qui développe l’algorithme, l’existence de procédures de contrôle ou encore l’audibilité de l’algorithme, une capacité d’audit et de contrôle de certaines exigences pourrait être confiée à une tierce partie ou à l’État.

Dans le rapport publié la semaine dernière par le groupement de divers spécialistes internationaux de IA, on retrouve quasi la même préconisation parmi les 10 préconisées :

« Les organismes de normalisation doivent travailler avec les universités et l’industrie pour développer des exigences d’audit pour les applications critiques des algorithmes. »

Ce rapport préconise également d’autres pistes comme la mise en place de « bias bounty », d’une mutualisation des travaux et des outils entre organisations, en effet à l’heure actuelle chaque entreprise, université, s’applique des normes éthiques qui lui sont propres ce qui peut entrainer de nombreuses dérives.

Au niveau de l’état français, ce besoin d’encadrement est bien pris en compte  puisqu’un budget de 30 M€ a été alloué à la certification de l’IA pour éviter les biais liés aux algorithmes (évaluation  éthique des algorithmes, consolidation des algorithmes grâce à un dispositif de certificabilité) comme évoqué dans notre article « État et IA: une union en bonne voie? »

Déjà depuis 2018, conscients de la nécessité d’une coopération et d’une coordination à l’échelle internationale pour exploiter le plein potentiel de l’IA ,le Canada et la France dans le cadre du G7, travaillent ensemble aux côtés de la communauté internationale à la création d’un groupe international d’experts sur l’intelligence artificielle (G2IA ou IPAI, pour international panel on artificial intelligence ) , sur le même modèle que le GIEC, pour favoriser la collaboration et la coordination internationale.

Ce groupement d’experts devra s’engager à respecter les valeurs communes suivantes lors du développement, de l’adoption et de l’utilisation de l’IA :

  • Promouvoir et protéger une approche de l’IA à la fois éthique et centrée sur l’humain, fondée sur les droits de l’homme ;
  • Promouvoir une approche multipartite de l’IA ;
  • Stimuler l’innovation, la croissance et le bien-être à travers l’IA ;
  • Mettre les travaux sur l’IA en adéquation avec les principes de développement durable et la réalisation du Programme développement durable à horizon 2030 
  • Renforcer la diversité et l’inclusion à travers l’IA ;
  • Favoriser la transparence et l’ouverture des systèmes d’IA ;
  • Favoriser la confiance et la redevabilité en matière d’IA ;
  • Promouvoir et protéger les valeurs, les procédures et les institutions démocratiques ;
  • Combler les fractures numériques ;
  • Promouvoir la coopération scientifique internationale dans le domaine de l’IA.

Le 22 mai 2019 c’étaient les 36 pays membres de l’OCDE, ainsi que l’Argentine, le Brésil, la Colombie, le Costa Rica, le Pérou et la Roumanie qui ont adhéré aux Principes de l’OCDE sur l’intelligence artificielle. Principes élaborés avec le concours d’un groupe de plus de 50 experts de tous horizons – administrations, milieux universitaires, entreprises, société civile, instances internationales, communauté technique et organisations syndicales.

La conclusion évidente, à la vue de ces nombreux rapports émanant d’experts, de principes sur les bons usages de l’IA prescrits par  diverses institutions, ou de la création du G2IA  est que l’ensemble des acteurs économiques a un besoin urgent de repères communs afin de pouvoir se saisir pleinement et en toute légalité du potentiel de l’IA. La société numérique de demain a besoin de ce cadre pour pouvoir grandir et se développer sur des bases saines.

Conseils

Data Science : Nos conseils pour rédiger le CV parfait

Après avoir passé ces dernières semaines à acquérir de nouvelles connaissances en data science et être monté en compétences, vous avez obtenu votre diplôme en data science ! Congrats ! Python est devenu votre ami et vous êtes prêts à décortiquer des données pour leur donner un sens et apporter votre expertise au sein d’une entreprise. Maintenant il n’y a plus qu’à trouver l’entreprise qui aura la chance de vous accueillir. Pour ce faire, vous devez être en mesure de rédiger le CV data science parfait.

Première étape :  le CV

https://www.youtube.com/watch?v=xtN4ZVock78&feature=youtu.be

Tout le monde le sait aujourd’hui, le temps accordé à la lecture d’un CV est très court (5 à 10 secondes selon certains). A la décharge des recruteurs, pour certains postes il y a souvent des centaines de postulants. Quand vous recevez une telle masse d’informations, pas évident de faire le tri.

Donc vous devez capter immédiatement l’attention du recruteur et vous démarquer sans en faire trop, cependant il y a quelques erreurs à ne pas faire.

Nous avons concocté une petite liste de conseils pour vous aider à mettre en valeur vos compétences en data science et surtout ce qui fait de vous LA personne dont une entreprise ne pourra se passer. 

Le B-ABA

Ca peut paraître bête mais pensez à utiliser la même police, sobre de préférence (Calibri, Arial, etc.) surtout pas de police type Comic Sans MS.

Mettez en gras les éléments importants, l’alignement, pensez aux couleurs aussi, au maximum 3. Alors attention quand on parle de couleur, une couleur doit être utilisée avec parcimonie dans un CV. Les CV trop graphiques et originaux sont déconseillés en data science. 

Toute la difficulté de l’exercice est là justement, trouver le juste milieu entre le niveau d’informations à fournir (un CV trop lourd fait généralement fuir) et faire en sorte que votre CV ressorte du lot.

Être sobre et précis !  

Maintenant, des tas de template de CV sont à disposition sur le net, si vous êtes plus à l’aise avec Python qu’avec Word, n’hésitez pas.

Il y a des éléments indispensables qui doivent apparaître dans votre CV, pour que ces éléments ressortent il est préférable de l’organiser en sections ou blocs. 

Et le petit défi, il faut que l’ensemble de ces informations rentre dans 1 page, au-delà il y a un risque de perdre l’attention du recruteur. 

Le but d’un CV est de présenter rapidement votre parcours, votre évolution professionnelle,  c’est comme le teaser d’un film, le film étant votre futur entretien avec le recruteur. 

Dans un teaser, on voit les moments forts du film, les éléments mis en avant donnent envie d’aller voir le film. De plus, un teaser de film peut être différent selon le public visé, d’un pays à l’autre, parfois ce n’est pas la même version. Et bien pour votre CV c’est la même chose, votre public ce sont les recruteurs et ils sont tous différents vis à vis de leur besoin qui est l’annonce à laquelle vous postulez, il faut que le teaser corresponde à l’attente de votre public.

Attention au titre de votre CV, il doit être en adéquation avec l’annonce à laquelle vous répondez. En effet un CV doit être adapté à l’offre, il faut personnaliser votre CV en fonction des éléments qui sont évoqués dans l’annonce. Repérez quelques mots clefs dans l’annonce et utilisez-les dans votre CV. Certes c’est un petit travail supplémentaire mais le recruteur appréciera de lire un CV qui fait écho à son annonce. C’est ce genre de petit détail qui fera que votre CV se détachera du lot 

L’accroche d’intro, c’est là qu’il faut placer les fameux soft skills. Les postes en data science nécessitent des compétences techniques mais demandent également de posséder de nombreuses compétences transversales. La mission d’un expert en data science n’est pas seulement de faire des calculs et d’analyser des données mais aussi de mettre en pratique sa capacité à communiquer ces résultats afin de résoudre une problématique particulière.

On attendra donc d’un spécialiste des sciences des données un esprit d’analyse et de synthèse, une curiosité intellectuelle et une facilité à comprendre un secteur, qu’il puisse travailler en équipe ou gérer une équipe (le leadership), son aisance à restituer les résultats de manière claire et efficiente (communication), sa rigueur et sa méthodologie. 

Votre état civil

Bien évidemment nom, prénom, adresse, numéro de téléphone, votre adresse mail professionnel (par exemple “nom-prénom@XXX” et pas “darkdragon198xd@xxx” ou “jsuioufdecode@xxx”, etc. C’est du vécu). 

La photo c’est comme vous voulez, ne vous sentez pas obligé d’en mettre une. Mais si vous en mettez une, veillez à ce qu’elle soit professionnelle. Il est préférable d’avoir un CV sans photo qu’un CV avec une photo décalée.  

Vous pouvez aussi rajouter le lien (cliquable) de votre profil LinkedIn, uniquement si celui-ci est complet avec vos expériences et compétences renseignées. 

Le must si possible : un lien Github. Vous postulez pour des postes en data science, donc la plupart des recruteurs seront plus que ravis de jeter un coup d’œil à vos réalisations. Et bien évidemment lorsqu’un recruteur clique sur votre GitHub, il doit trouver un compte actif avec des projets de science des données. Mais nous reviendrons plus tard sur cet élément qui peut être déterminant pour un recruteur.

La formation

Cette section reprend les études suivies et les diplômes obtenus durant votre scolarité. Mentionnez également dans cette partie vos certifications acquises en formation continue. Les langues maîtrisées et leur niveau (bilingue, courant, opérationnel, scolaire), ou mention des éventuels séjours à l’étranger, l’idéal étant d’avoir une certification en langue reconnue. Une très bonne maîtrise de l’anglais est demandée pour les postes en data science, votre capacité à communiquer avec divers interlocuteurs à travers le monde est fortement appréciée des grands groupes.

Vos compétences

Cette section correspond à la liste des compétences techniques que vous maîtrisez. 

Les soft skills ayant été spécifiés dans votre accroche, pas besoin de les repréciser ici !

Petit conseil, concentrez vous sur les compétences techniques qui sont mises en avant dans l’annonce. Personne ne mobilise l’ensemble de ses compétences sur un projet, selon la problématique vous allez mobiliser différentes compétences. L’objectif de cette section est de donner au recruteur une idée de vos capacités. 

Surtout, encore une fois, n’en faites pas trop,  si vous mentionnez quelque chose sur votre CV, vous devez être en mesure de répondre au recruteur si celui-ci veut s’assurer que vous possédez bien les bases. Si vous avez suivi un MOOC sur R, mais que vous n’avez jamais codé en R, abstenez-vous de mettre R comme une de vos compétence. Ne mentionnez que les compétences dont vous pouvez parler en véritable professionnel.

Attention, la notion d’étoiles ou de notes pour illustrer un niveau n’est pas forcément très judicieuse puisque l’échelle d’étalonnage de cette note, c’est la vôtre, donc pas forcément objective. Il vaut mieux rester simple et ne pas vendre du rêve aux recruteurs.

Main, Type, Clavier, L'Argent, Finances, D'Affaires

 Toutes vos expériences professionnelles ou bénévoles pertinentes 

Indiquez clairement le poste exercé (le mettre en gras pour qu’il soit plus visible) et le nom de l’entreprise, le secteur d’activité. Et dans l’ordre chronologique bien sûr, du plus récent au plus ancien. Il faut qu’on voit votre montée en compétences au fur et à mesure des postes, qu’on sente votre évolution. Dans cette même section vous pouvez créer une ligne spéciale ou vous spécifiez vos participations à des data challenges, des hackathons IA. Cela montre aux recruteurs que vous avez un esprit de compétition et que vous cherchez à améliorer en permanence vos compétences et vos connaissances dans votre domaine.

Vos réalisations en entreprises / les projets menés 

Il faut faire la distinction entre une expérience professionnelle et vos projets menés. Vous avez réalisé des projets en science des données durant votre parcours de formation, mais également lors de vos expériences en entreprise, ou alors dans une démarche totalement personnelle, vous avez appliqué vos compétences techniques (hard skills) et vos compétences sociales (soft skills) et avez su les mobiliser pour résoudre une problématique. C’est dans cette section que les recruteurs pourront déterminer si effectivement votre profil correspond à leurs attentes et que vous êtes LA personne à recruter.

Chaque projet doit indiquer la problématique et sa solution, et pensez verbe d’action lors de la rédaction ! Le tout doit tenir en quelques lignes, c’est à notre sens l’exercice qui demande le plus d’attention car c’est là que les recruteurs vont focaliser leur regard. Lorsque vous décrivez un projet, soyez aussi précis que possible sur les compétences, les outils et les technologies que vous avez utilisés, comment vous avez créé le projet, n’oubliez pas de spécifier le langage de codage, les bibliothèques que vous avez utilisées, etc.

Par exemple :

Projet xxxxxx

Brève description de la problématique 

Solution

Mention de travail d’équipe éventuellement

Les outils et les méthodes utilisées

Cette section est stratégique, elle doit inclure des projets d’analyse de données, des projets d’apprentissage automatique et éventuellement les articles scientifiques publiés (avec leur lien) ou des didacticiels de codage. C’est LA section ou vous pouvez vous démarquer ! En spécifiant des projets en science des données menés vous démontrez que vous avez les compétences techniques mais également les compétences transverses indispensables à tout spécialiste de la data science. Les recruteurs ne retiendront pas votre candidature pour quelque chose que vous n’avez jamais fait auparavant, c’est une règle fondamentale dans n’importe quel secteur, et la data science ne fait pas exception à la règle.

Selon votre expérience (jeune diplômé ou en reconversion) et si vous avez mené beaucoup de projets, faites un choix et mettez en avant ceux qui sont en lien avec l’offre pour laquelle vous postulez. 

Tips spécial Doctorant 

Si vous êtes à la recherche de votre premier emploi dans en data science, il peut être difficile de démontrer l’étendue de vos compétences et l’adéquation de celles-ci avec l’annonce à laquelle vous postulez.

Mais il existe plusieurs façons de démontrer vos compétences, en plus de la liste de vos projets et publications en sciences des données qui apparaissent dans votre CV. Lorsque l’on a mené de nombreux projets en data science ou même publié des articles, il peut être très utile de partager un lien GitHub contenant les projets de data science les plus intéressants que vous ayez menés. Nous vous invitons à consulter l’article dédié comment créer un portfolio GitHub.

Un portfolio GitHub doit contenir 3 à 5 projets à minima, encore une fois l’objectif est de démontrer vos compétences donc il faut mettre en avant les projets en lien avec l’annonce. Ces projets seront certainement évoqués si vous obtenez un entretien, là il faudra prouver que vous maitrisez votre sujet sur le bout des doigts.  

Les centres d’intérêts et loisirs

Là, vous pouvez également vous distinguer mais toujours sans en faire trop. Si vous faites de la compétition sportive, mentionnez-le, ça prouvera votre esprit compétitif. Artiste à vos heures, n’hésitez pas non plus, cela démontre une créativité certaine. Vous faites du bénévolat n’hésitez pas à le mentionner, cela démontre l’engagement.

Etape finale

Ça y est, vous en êtes venus à bout, vous avez réussi à tout intégrer en 1 seule page ! Vos compétences sont mises en avant, votre expérience professionnelle apparaît chronologiquement, les projets sont décrits de manière succincte et claire. Surtout assurez-vous de la cohérence de votre CV/teaser par rapport à l’annonce que vous avez ciblée. Avez-vous bien compris les attentes de votre public (le descriptif de l’annonce), les moments forts de votre teaser sont-ils en cohérence avec les attentes du public, l’ensemble est-il aéré mais suffisamment complet pour donner l’envie d’aller plus loin. 

A force d’avoir la tête dedans, des fois il y a des petits détails qui peuvent nous échapper, n’hésitez pas à solliciter un de vos proches pour vous relire afin de vous assurez que vous n’avez pas oublié une petite coquille. 

Une fois sûr de vous, enregistrez votre CV en format pdf pour éviter tout problème de lecture, assurez vous également que les liens insérés dans votre CV soient actifs.

Maintenant, il n’y a plus qu’à rédiger la lettre de motivation, un autre exercice qu’il ne faut pas négliger, pour préparer cette autre étape, vous trouverez tous nos conseils dans notre prochain article dédié à ce sujet.

Jeune fille de type asiatique tenant la main d’un robot
Définitions

Apprentissage supervisé : Définition et explications

L’apprentissage supervisé, dans le contexte de l’intelligence artificielle, est la méthode d’apprentissage la plus utilisée en Machine Learning et en Deep Learning. L’apprentissage supervisé consiste à surveiller l’apprentissage de la machine en lui présentant des exemples de ce qu’elle doit effectuer. Ses utilisations sont nombreuses : reconnaissance vocale, intelligence artificiel

le, classifications, etc. Ainsi, la régression linéaire fait partie d’une des techniques d’apprentissage supervisé la plus utilisée dans la prédiction d’une valeur continue. Aussi, la grande majorité des problèmes de Machine Learning et de Deep Learning utilisent l’apprentissage supervisé : il est donc primordial de comprendre correctement le fonctionnement de cette méthode. 

Comment fonctionne un apprentissage supervisé ?

Le but de l’apprentissage automatique est de créer des algorithmes aptes à recevoir des ensembles de données et à réaliser une analyse statistique pour prédire un résultat.

Si on appelle ça un apprentissage supervisé, c’est parce que le processus d’un algorithme tiré du Training Set (ensembles de données) peut être considéré comme un enseignant qui surveille le processus d’apprentissage. Nous connaissons les bonnes réponses, l’algorithme effectue des prédictions sur les réponses et est ensuite corrigé par l’enseignant. L’apprentissage cesse quand l’algorithme atteint le niveau attendu pour être efficient. 

Il consiste en des variables d’entrée X et une variable de sortie Y. L’algorithme a pour but d’apprendre la fonction de l’entrée jusqu’à la sortie.

Y = f (X)

Les étapes de l’apprentissage automatique sont : 

  1.     La collecte des données et leur labellisation
  2.     Le nettoyage des données pour identifier de potentielles erreurs ou manquement
  3.     Le prétraitement des données (identification des variables explicatives notamment)
  4.     Instanciation des modèles (modèle de régression ou de classification par exemple).
  5.     Entraînement des modèles 
  6.     Validation du modèle 

Ainsi et comme le montre la formule Y = f (X), le modèle d’apprentissage supervisé est très efficace pour étudier des relations linéaires mais il reste incapable de performer quand il y a des relations plus complexes qu’une linéarité entre les variables.

Apprentissage supervisé ou non supervisé ?

L’apprentissage non supervisé correspond au fait de n’utiliser que des données d’entrée (X) et aucune variable de sortie Y correspondante. Le but de l’apprentissage non supervisé est de modéliser la structure des données afin d’en apprendre plus sur les données et à la différence de l’apprentissage supervisé, il n’y a pas de bonne réponse ni d’enseignant. Les algorithmes sont laissés à leurs propres processus pour étudier et choisir la structure des données qui soit intéressante. 

L’apprentissage automatique présente des atouts que les apprentissages non supervisés n’ont pas, mais il rencontre aussi des difficultés. En effet, l’apprentissage supervisé est plus apte à prendre des décisions auxquelles les humains peuvent s’identifier car les données sont elles-mêmes fournies par l’humain. Néanmoins, les apprentissages supervisés rencontrent plus de difficultés à traiter les données qui s’ajoutent après l’apprentissage. En effet, si un système connaît les groupes chiens et chats et reçoit une photographie de souris, il devra la placer dans l’un ou l’autre de ces deux groupes alors qu’elle n’y appartient pas. Au contraire, si le système avait suivi un apprentissage non supervisé, il ne serait pas capable d’identifier que c’est une souris mais il serait capable de le définir comme n’appartenant à aucune des 2 catégories chiens et chats. 

Considérons le problème classique de la fidélisation des clients, nous constatons que nous pouvons l’aborder de différentes manières. Une entreprise veut segmenter ses clients. Cependant, quelle est la stratégie la plus appropriée ? Est-il préférable de traiter cela comme un problème de classification, de regroupement ou même de régression ? L’indice clé va nous donner la deuxième question.

Si l’entreprise se demande : « Mes clients se regroupent-ils naturellement d’une manière ou d’une autre ? », il n’y a pas à définir de cible pour le regroupement. En revanche, si elle pose la question autrement : « Pouvons-nous identifier des groupes de clients ayant une forte probabilité de se désabonner dès la fin de leur contrat ? », l’objectif sera bien défini. Par conséquent, elle prendra des mesures en fonction de la réponse à la question qui suit : « Le client va-t-il se désabonner ? ».

Dans le premier cas, nous avons affaire à un exemple d’apprentissage non supervisé, tandis que le second est un exemple d’apprentissage supervisé.

L’apprentissage supervisé chez DataScientest

Considérant l’efficacité et l’importance de l’apprentissage supervisé, DataScientest le place parmi les connaissances à valider aux cours de ses formations. Notamment au sein de la formation de data analyst et dans le module de Machine Learning de 75h, il vous sera demandé d’apprendre à identifier les problèmes de Machine Learning non supervisés, et apprendre à utiliser des méthodes d’apprentissage supervisé par des problèmes de régression. De même, dans la formation de data management, dans le module Data Literacy, nous apprendrons à identifier quelle méthode de Machine Learning utiliser selon le type de métier. Enfin, dans la formation de data scientist, le module de Machine Learning de 75h se verra attribuer une partie conséquente sur le sujet des apprentissages supervisés et non supervisés, leurs mises en place et l’identification de leurs problèmes.