On entend souvent parler de « big data » sans toujours bien cerner de quoi il s’agit. En français, on devrait utiliser le terme de mégadonnées. Ce sont des ensembles de données gigantesques comme en collectent par exemple Twitter (7 téraoctets par jour) et Facebook (10 téraoctets). Rappelons qu’un téraoctet est l’équivalent de 1 000 milliards de caractères. Sachant que si on numérisait la Library of Congress, la plus grande bibliothèque du monde, on obtiendrait 18,75 téraoctets de données. Autrement dit, chaque jour, Twitter et Facebook produisent à peu près autant de données que ce que contient la plus grande bibliothèque du monde, à 10 % près. Les données de Facebook et de Twitter sont les données que produisent ou échangent les utilisateurs.

On a ici affaire à un véritable océan de données qu’il est possible d’explorer pour y trouver des informations particulièrement intéressantes. Les navigateurs des données sont appelés en anglais « Data scientists », genre de mathématiciens et statisticiens dont le métier est de comprendre le sens de ces données pour les valoriser.

Comme tout cela peut sembler bien abstrait, voici un exemple tiré d’un contexte bien plus terre à terre, celui des supermarchés.

Dans une interview de début 2012, un Data Scientist américain employé de la chaînes de grands magasins Target, racontait une anecdote amusante sur son métier :

Un homme passablement en colère entre dans un supermarché Target près de Minneapolis (Minnesota, USA) et exige de parler au directeur : « Ma fille a reçu votre prospectus par la poste », dit il. «Elle est encore au lycée, et vous lui envoyez des coupons de réduction pour des vêtements pour bébés et des berceaux ? Mais vous voulez l’encourager à tomber enceinte à son âge ?»

Le directeur tombe des nues. Il regarde le prospectus, qui porte bien le nom de la jeune cliente et contient des publicités pour des vêtements de femme enceinte, de quoi équiper une chambre de bébé et moultes photos de bébés souriants. Très ennuyé, le directeur présente platement ses excuses et prévoit de rappeler le client un peu plus tard (aux États-Unis, la notion de service du client va beaucoup plus loin qu’en France).

Quelques jours plus tard, le directeur appelle donc son client, mais le père de la lycéenne semble très décontenancé : « j’ai eu une conversation avec ma fille et… il s’avère qu’il s’est passé des choses pendant que j’avais le dos tourné… Voilà… Elle va accoucher au mois d’août. Je me dois de vous présenter des excuses ! »

Le rapport avec la Big Data ? Il est direct : la jeune fille, soit parce qu’elle payait avec une carte de paiement, soit avec une carte de fidélité, avait laissé un historique d’achats. Et les mathématiciens de Target ont remarqué que les achats de certains produits étaient corrélés avec une grossesse. Les lotions sans parfums en grands flacons (surtout au début du 2e trimestre de grossesse), les suppléments alimentaires à base de calcium, zinc et magnésium (à partir de la 20e semaine de grossesse) et, juste avant l’accouchement, les grands sacs de coton hydrophile et de lingettes, sont autant de signaux que les statisticiens ont retenus et recherchent dans l’océan de données que nous alimentons sans le savoir.

Un autre exemple, tiré du très officiel blog Facebook Data Science, sur un sujet où on n’attend guère les mathématiciens : le moment où l’on tombe amoureux.

Pour la St Valentin 2014, Facebook a en effet publié un long billet expliquant ce qu’ils peuvent observer entre deux utilisateurs qui tombent amoureux et entament une relation sentimentale. Pour cela, Facebook a sélectionné les gens qui ont indiqué « avoir une relation » associé avec une date d’anniversaire pour cette relation. On observe ainsi que pendant la période de séduction, il y a de plus en plus d’interactions (messages échangés) entre les futurs partenaires via Facebook, mais que quelques jours avant de commencer la relation, le nombre de messages chute brusquement… pour ne pas remonter. Les mathématiciens de Facebook estiment que c’est dû au fait que les utilisateurs passent plus de temps ensemble dans le monde réel. Cela fait que Facebook est donc capable de prédire avec qui nous sommes en train de tomber amoureux, rien qu’avec nos données, avant même que cela ne soit devenu une réalité !

P1chap6_-_facebook1.png

Ensuite, un graphique montre que les messages envoyés sont sensiblement plus positifs en moyenne après le début de la relation :

P1chap6_-_facebook2.png

Les deux exemples choisis ici, Target et Facebook, démontrent que le Big Data touche aussi bien le commerce que le plus intime. Cela démontre aussi que les données qui alimentent le Big Data peuvent être captées auprès des utilisateurs sans que ceux-ci n’en aient la moindre idée : la carte bancaire ou de fidélité dans le cas de Target, le compte Facebook dans le deuxième exemple, suffisent pour permettre à ces sociétés pour construire des « profils » de chaque client-utilisateur, avec des implications qui peuvent être tout à fais inattendues, surtout quand ces données sont piratées, ou revendues ou siphonnées par des services secrets.