On entend souvent parler de « big data » sans toujours bien cerner de quoi il s’agit. En français, on devrait utiliser le terme de mégadonnées. Ce sont des ensembles de données gigantesques comme en collectent par exemple Twitter (7 téraoctets par jour) et Facebook (10 téraoctets). Rappelons qu’un téraoctet est l’équivalent de 1 000 milliards de caractères. Sachant que si on numérisait la Library of Congress, la plus grande bibliothèque du monde, on obtiendrait 18,75 téraoctets de données. Autrement dit, chaque jour, Twitter et Facebook produisent à peu près autant de données que ce que contient la plus grande bibliothèque du monde, à 10 % près. Les données de Facebook et de Twitter sont les données que produisent ou échangent les utilisateurs.
On a ici affaire à un véritable océan de données qu’il est possible d’explorer pour y trouver des informations particulièrement intéressantes. Les navigateurs des données sont appelés en anglais « Data scientists », genre de mathématiciens et statisticiens dont le métier est de comprendre le sens de ces données pour les valoriser.
Comme tout cela peut sembler bien abstrait, voici un exemple tiré d’un contexte bien plus terre à terre, celui des supermarchés.
Dans une interview de début 2012, un Data Scientist américain employé de la chaînes de grands magasins Target, racontait une anecdote amusante sur son métier :
Un homme passablement en colère entre dans un supermarché Target près de Minneapolis (Minnesota, USA) et exige de parler au directeur : « Ma fille a reçu votre prospectus par la poste », dit il. «Elle est encore au lycée, et vous lui envoyez des coupons de réduction pour des vêtements pour bébés et des berceaux ? Mais vous voulez l’encourager à tomber enceinte à son âge ?»
Le directeur tombe des nues. Il regarde le prospectus, qui porte bien le nom de la jeune cliente et contient des publicités pour des vêtements de femme enceinte, de quoi équiper une chambre de bébé et moultes photos de bébés souriants. Très ennuyé, le directeur présente platement ses excuses et prévoit de rappeler le client un peu plus tard (aux États-Unis, la notion de service du client va beaucoup plus loin qu’en France).
Quelques jours plus tard, le directeur appelle donc son client, mais le père de la lycéenne semble très décontenancé : « j’ai eu une conversation avec ma fille et… il s’avère qu’il s’est passé des choses pendant que j’avais le dos tourné… Voilà… Elle va accoucher au mois d’août. Je me dois de vous présenter des excuses ! »
Le rapport avec la Big Data ? Il est direct : la jeune fille, soit parce qu’elle payait avec une carte de paiement, soit avec une carte de fidélité, avait laissé un historique d’achats. Et les mathématiciens de Target ont remarqué que les achats de certains produits étaient corrélés avec une grossesse. Les lotions sans parfums en grands flacons (surtout au début du 2e trimestre de grossesse), les suppléments alimentaires à base de calcium, zinc et magnésium (à partir de la 20e semaine de grossesse) et, juste avant l’accouchement, les grands sacs de coton hydrophile et de lingettes, sont autant de signaux que les statisticiens ont retenus et recherchent dans l’océan de données que nous alimentons sans le savoir.
Un autre exemple, tiré du très officiel blog Facebook Data Science, sur un sujet où on n’attend guère les mathématiciens : le moment où l’on tombe amoureux.
Pour la St Valentin 2014, Facebook a en effet publié un long billet expliquant ce qu’ils peuvent observer entre deux utilisateurs qui tombent amoureux et entament une relation sentimentale. Pour cela, Facebook a sélectionné les gens qui ont indiqué « avoir une relation » associé avec une date d’anniversaire pour cette relation. On observe ainsi que pendant la période de séduction, il y a de plus en plus d’interactions (messages échangés) entre les futurs partenaires via Facebook, mais que quelques jours avant de commencer la relation, le nombre de messages chute brusquement… pour ne pas remonter. Les mathématiciens de Facebook estiment que c’est dû au fait que les utilisateurs passent plus de temps ensemble dans le monde réel. Cela fait que Facebook est donc capable de prédire avec qui nous sommes en train de tomber amoureux, rien qu’avec nos données, avant même que cela ne soit devenu une réalité !
Ensuite, un graphique montre que les messages envoyés sont sensiblement plus positifs en moyenne après le début de la relation :
Les deux exemples choisis ici, Target et Facebook, démontrent que le Big Data touche aussi bien le commerce que le plus intime. Cela démontre aussi que les données qui alimentent le Big Data peuvent être captées auprès des utilisateurs sans que ceux-ci n’en aient la moindre idée : la carte bancaire ou de fidélité dans le cas de Target, le compte Facebook dans le deuxième exemple, suffisent pour permettre à ces sociétés pour construire des « profils » de chaque client-utilisateur, avec des implications qui peuvent être tout à fais inattendues, surtout quand ces données sont piratées, ou revendues ou siphonnées par des services secrets.
11 réactions
1 De tunimaal - 22/01/2015, 22:08
C'est quand même hallucinant l'historique et le ciblage particulier que l'on peut faire avec toutes ces données, et des fois c'est un peu flippant parce qu'on se rend compte que des données peuvent absolument tout révéler sur nous.
2 De s_colson - 22/01/2015, 23:31
Voilà de bons exemples d'utilisation de données bien Inquiétants !
J'espère en tout cas que vous prévoyez de parler de l'initiative http://degooglisons-internet.org/ de framasoft
Attention, 2 typos détectées:
On a ici à faire => on a ici affaire
Tout à fais => tout à fait
PS: j'hésite à cocher "se souvenir de moi sur ce blog", qu'allez-vous faire de ma contribution ?
3 De jojo - 22/01/2015, 23:54
On peut faire énormément de choses avec le bigdata, et sans forcément détenir les bases de données.
A titre d'exemple j'ai participé au développement d'un programme chargé de crawler les comptes Twitter. On veut en savoir plus sur les comptes dits "protégés" => qui les suivent, qui suivent-ils, leurs points communs dans plein de domaines.
On sort des données caractérisant les comptes à partir des API publiques et gratuites. Il y a bien une limitation en terme de nombre d'accès API par minute, mais c'est facilement contourné en utilisant plusieurs accès (et pour enfoncer le clou, le MIT a obtenu un accès aux API sans limitation).
En gros, on part d'un compte (le votre par exemple), on liste tous les followers (ceux qui vous suivent) et amis (ceux que vous suivez), on récupère des infos sur vous, et on passe aux followers/amis les plus intéressants.
L'expérience est en cours et une conférence sur le sujet se tiendra bientôt à Lyon : http://conftwitter2015.org
A l'avenir, il serait intéressant (c'est une opinion personnelle) d'étendre cette étude aux autres réseaux sociaux, et des services permettant d'extrapoler des données à partir de vos comptes (par exemple pour améliorer votre géolocalisation à partir de votre profil).
Bref, si Twitter & Co ont plus de données sur vous que la NSA, n'importe qui sur le globe peut, avec des moyens minimaux, faire à peu près la même chose. L'étude dont je parle tourne sur un simple serveur, ça doit couter moins de 20€/mois en location; et le programme de crawling a été développé en très peu de temps.
4 De seti - 23/01/2015, 05:39
§2 "On a ici à faire" => "On a ici affaire" ?
5 De Mood - 23/01/2015, 10:28
Excellent chapitre.
6 De 4rt1st - 23/01/2015, 23:48
Petite coquille à la fin:
{ces indices] "suffisent à permettre à ces sociétés pour construire..." ne veut rien dire, et à moins que le sens m'ait échappé, c'est plutôt : {ils] suffisent, pour permettre à ces sociétés de construire..."
7 De Tristan - 24/01/2015, 12:49
@4rt1st : très juste. C'est corrigé, merci !
8 De Kyle Macstone - 25/01/2015, 19:55
Il n'est plus possible de parler de bigdata sans parler des objets connectés qui vont envahir le quotidien, de grès ou de force. Car tout est fait pour promouvoir cette technologie. L’appellation "smart technology" est souvent utilisée pour présenter ces objets afin de désamorcer de suite tout esprit critique.
Dans les faits, ces objets récupèrent des informations qui vont pouvoir alimenter des bases de données qui peuvent être particulièrement précises et indiscrètes. Un exemple de ces objets: les compteurs "intelligents". Ces derniers provoquent également des problèmes de santé qui devraient inciter à la prudence face aux technos sans fil. Mais là, on rentre sur un autre débat qui est celui de l'impact du smog électromagnétique sur la santé.
http://quebec.huffingtonpost.ca/and...
Aujourd'hui, on utilise ces technologies pour faire du business (publicités, bilan de santé personnalisé etc...). Mais il est impossible de prévoir si ces technologies et les datas collectés ne seront pas utilisées à d'autre fin que celles affichées initialement... C'est extrêmement inquiétant.
9 De Tristan - 29/01/2015, 08:27
@Kyle : j'ai déjà parlé des trackeurs d'activité physique et j'ai prévu un chapitre sur les nouveaux capteurs (Nest & co).
10 De Road2Hells - 05/02/2015, 16:02
Salut Tristan
Une image drôle du chat de Geluck (en URL du commentaire)
- "J'achète ma viande ici"
- "mes tomates ailleurs"
- "Et mes herbes en face"
- "Sinon avec leurs statistiques, ils finiront un jour par connaitre ma recette de sauce spaghetti"
qui rejoint assez bien ce que tu décris
Ensuite il ne faut pas non plus être parano mais surtout être conscient de ce que l'on partage (involontairement ou non).
11 De hbbk - 11/02/2015, 13:18
Il me semble que ce chapitre est tres tres incomplet il y manque, ce qui à mes yeux est le plus inquiétant de tout, ce qui est en train d'etre intensément étudié (mais à ma connaissance pas encore mis en pratique ... quoi que...) : l'utilisation du big data et data mining pour prédire la réaction et le comportement et des masses d'individu (au niveau d'un pays, d'une classe d'individu etc) en fonction d’événements, d'informations (actualité du moment et comment elle est présentée par les médias). Ce qui en ferait un formidable outils au service des états et des médias pour influencer quasi en temps réel la pensée des gens, leur réactions en fonction de tel ou tel evenement et comment celui ci est présenté au public etc ... L'outils totalitaire rêvé... et ce n'est pas de la science fiction des études sérieuse ont lieu sur ce sujet. C'est quand même beaucoup plus inquiétant que l'utilisation marketing ou de savoir qui couche avec qui