Big Data: La révolution des données est en marche

282.

C’est le nombre de pages de cet ouvrage passionnant, co-rédigé par Viktor Mayer-Schönberger et Kenneth Cukier. Le premier est professeur et conseiller chez Microsoft, le second est éditeur Data du magazine The economist.

Aucun besoin d’être Data Scientist ni même ‘dataïste’ pour se plonger dans l’ouvrage, qui décrypte de manière tout à fait accessible le monde des big data, ce qui le caractérise, les changements de paradigme induits et les impacts potentiels (positifs comme négatifs).

En plus, c’est écrit gros :)

Je vous propose ici des passages choisis, des idées, des pensées qui m’ont plu et/ou interpellé, sans tomber dans le résumé ou la critique argumentée. En fait, c’est davantage pour étayer notre culture générale Big Data et notre réflexion sur le sujet :)

Des volumes de données ‘devenus trop énormes’

Selon l’ouvrage, l’augmentation du volume des datas dans le monde est 4 fois plus importante que la croissance économique mondiale. Celle de la puissance de calcul des ordinateurs va 9 fois plus vite.

Google traite chaque jour 24 pétaoctets de données, soit 24 millions de milliards d’octets, soit encore 10¹⁵ octets. Au départ, on se demande si l’auteur n’a pas oublié une lettre et souhaitait parler de pentaoctet. Mais non c’est bien ‘péta‘, un nouveau mot dans notre vocabulaire, donc.

Enfin, le monde numérique contiendrait seulement 5% de données structurées pour… 95% de données non structurées (cf. vocabulaire du Data Scientist)!

La fin du Pourquoi

L’avènement du Big Data implique un travail sur la corrélation entre évènements, qui représente la probabilité que si un évènement A se produit, alors un évènement B se produit également. Nous ne sommes plus dans la causalité, c’est-à-dire que les données ne nous apprennent pas si l’évènement A induit l’évènement B. On constate juste que les deux évènements sont concomitants.

Or l’homme par nature aime comprendre le monde qui l’entoure, il ne se contente pas des corrélations. C’est ce changement d’attitude mentale qui va être important dans les années à venir: le deuil de la causalité.

La fin de l’exactitude

Dans un monde de données limitées, il était de mise de s’assurer que l’ensemble était de qualité parfaite. Chaque valeur erronée pouvant impacter de manière forte les résultats, il était donc nécessaire de passer par une étape de nettoyage de données.

La théorie du Big Data veut qu’on manipule non pas un échantillon représentatif d’une population donnée, mais l’ensemble de cette population. Ce qui permet, vu la quantité, de tolérer des valeurs aberrantes; celles-ci seront équilibrées par la masse. On devient moins exigeants vis-à-vis de l’exactitude. La base de données Big Data est plus souple, plus grande, plus hétérogène aussi, mais… plus réelle.

Les nouvelles bases de données, de type noSQL (cf. vocabulaire du Data Scientist), autorisent même qu’un même enregistrement soit stocké à un ou plusieurs endroits! Ce qui ferait se dresser les cheveux de la tête de n’importe quel DSI qui se respecte!

Et le Data Scientist dans tout ça?

Selon l’ouvrage, le Data Scientist associe ‘les compétences du statisticien, du programmeur de logiciels, de l’infographiste et du conteur‘. C’est très poétique!

Ils sont également appelés ‘Ninjas des données‘ :)

Il sera la personne par qui les décisions prises seront celles basées sur les données, et non plus sur le jugement ou l’instinct de l’homme!

Quel avenir pour les Big Data?

Les Big Data sont précieux notamment pour le domaine de la santé, ainsi que toutes les implications majeures qui émanent du fait que l’on concentre au même endroit les données de milliers voire de milliers de patients.

A contrario, l’on n’a jamais été aussi proche du scénario de Minority Report. En effet, à trop corréler les données entre elles, il sera tentant de juger quelqu’un non pas pour ce qu’il a fait, mais ce qu’il sera probable qu’il fasse! Attention à laisser toute sa place au libre arbitre…

Enfin, attention à la protection individuelle. Je n’ai pas pour coutume d’être sensible aux peurs de vol de la vie privée, mais l’ouvrage alerte sur un point important: on se cache souvent derrière l’anonymisation des données (cf mon article sur le Diable s’habille en Big Data), mais en fait, il est montré dans le livre qu’il est tout à fait possible, par recoupements successifs, de remonter à l’identité d’une personne! La masse de données permet en fait la réidentification.

En conclusion

Un livre à lire absolument par quiconque s’intéresse au sujet, et souhaite avoir une Big Picture (sans mauvais jeu de mots), objective et étayée de nombreux exemples parlants! Un excellent livre de chevet :)

<br />