Big-Data : la recherche du sens perdu

© Hervé Cuillandre 2016 in Humanisme n°312



Le développement de l'informatique et son utilisation en entreprise ou dans les administrations, ont fait que nos dossiers qui étaient autrefois archivés dans de lourdes armoires métalliques sont maintenant dématérialisés. Nos relevés bancaires ou téléphoniques, et plus généralement toutes nos données sont stockées sur des supports informatiques, qui permettent de retrouver une information avec une fiabilité redoutable, et surtout une plus grande rapidité.


Il est coutume de dire que l'informatique a apporté efficacité, et a permis une automatisation de nombreuses tâches administratives.


Chez le particulier, c'est surtout la révolution Internet, la numérisation, les mails qui ont profité de cette informatisation et a permis aux particuliers d’accéder aussi à l'information instantanément.

Nous pouvons à n'importe quelle heure du jour et de la nuit, nous renseigner, acheter, prendre des rendez-vous, ou partager tout type de document, avec un minimum d'intervention humaine dans les coulisses. Nous avons pris l'habitude de discuter avec des machines, d'interroger des programmes, et de suivre le chemin qu'auront suivi des milliers d'autres clients ou curieux.

Les volumes de données sont considérables. Google traite quotidiennement 24 millions de millions de données, et mémorise dans ces ses serveurs l'ensemble de nos recherches.

Chaque être humain possède en moyenne 320 fois l'équivalent de la bibliothèque d'Alexandrie.

On estime que l'humanité a stocké 1200 milliards de milliards de données, ce qui pose des problèmes d'analyse. Comment retrouver dans cet océan l'information recherchée ?


La prolifération de données est parfois due à des machines. Nombre d'e-mails et géolocalisation sont générés automatiquement, et de nombreux objets connectés déversent aussi leurs données en ligne, comme les nouveaux compteurs électriques digitaux, nos cartes de transport, ou nos téléphones.


Des serveurs gigantesques sont devenus nécessaires pour stocker ces données. Ils ressemblent à des entrepôts qui contiennent des dizaines de milliers d'ordinateurs ordinaires connectés entre-eux. On estime que le stockage dans ce type de fermes de données consomme 6 % de l’énergie électrique mondiale.


Cette connaissance globale décentralisée, ce sont nos moteurs de recherche qui nous permettent de la trouver.


En entreprise, nous avons pris l'habitude d'utiliser des ERP (ou progiciels de gestion intégrée). SAP par exemple permet de stocker des masses énormes de données en Ressources Humaines, Gestion des Stocks, Management des Ventes. Il permet de faire des recherches poussées pour savoir par exemple quels sont les mauvais payeurs en région parisienne, quelle est l'évolution du chiffre d'affaire, ou prévoir combien de salariés auront besoin de formation.


Avec la baisse du coût du stockage, et l'augmentation des capacités de calcul, une quantité phénoménale de données a été produite et stockée depuis une vingtaine d'années.

La loi de Moore donnait confiance : la puissance des calculateurs devait doubler tous les 18 mois. La capacité de stockage également.

Mais cette loi a cessé de s'appliquer avec les très gros volumes. Par exemple, quand la quantité de données doublait, les requêtes mettaient 10 fois plus de temps à sortir. Comment faire ?



Le Big-Data répond à sa façon à ces problématiques de sur-stockage de données. Il permet de retrouver le sens caché dans ce flot incessant. Ce qu'on appelle Big Data traite de gros volumes de données diversifiées en format et en structure et de flux.



Face à des stockages gigantesques, de nouvelles méthodes d'analyse ont été mises en place, afin de pouvoir donner un sens à ce flot de données que les méthodes traditionnelles ne permettaient plus d'appréhender.

La méthode existait déjà depuis longtemps.

Dans ce domaine, les moteurs de recherche comme Google, ou Yahoo avaient une longueur d'avance, et ont utilisé les premiers les traitements de données en masse. Méthodes qui ont été largement reprises en entreprise.


Quel en est le principe ?


De nombreux ordinateurs de Google sillonnent en parallèle l'ensemble des sites Internet à la recherche de mot-clefs. Cette recherche est lancée tous les 15 jours et se nomme poétiquement la « Google Danse ». Chaque site est donc associé à certains mots-clefs.

Quand nous lançons une recherche sur notre navigateur, Google recherche dans son indexation, et nous renvoie les sites correspondants sans avoir besoin d'explorer à nouveau tout le web. Les réponses sont donc extrêmement rapides.


L'analyse Big-Data réutilise complètement ce principe.

Plusieurs ordinateurs parcourent les immenses fichiers à analyser, à la recherche de mots-clefs ou de nombres ou de regroupements caractéristiques qu'ils comptent et classent. Les résultats sont analysés en fonction des rapprochements possibles entre ces groupes. Ils sont donnés souvent graphiquement, car la discrimination par l’œil humain est inégalée.


Les Data-Scientists sont donc des experts en données. Leur principale activité est de préparer des données les plus discriminantes possibles, et de guetter les nuages de points à la recherche d'une évidence qui avait échappé à tout le monde ! 90 % de préparation de données, et 10 % d'analyse.

Un autre métier nouveau est né, celui de Chief Data Officer, qui doit fournir des décisions à partir des données dont il a la responsabilité, c'est à dire de les rendre utiles pour la stratégie de l'entreprise.


Les solutions logicielles les plus connues sont MapReduce (de Google) et Hadoop (de Yahoo). Ce qui n'est pas le fruit du hasard, puisque l'analyse Big Data est issue des recherches menées par nos moteurs de recherche favoris.



Ainsi, il est devenu possible de rapprocher tous types de données sociales, médicales commerciales ou techniques à la recherche d'associations inédites. Ce type d'analyse qui se nourrit de très gros volumes de données est une avancée significative par rapport aux statistiques classiques et à leurs échantillonnages toujours discutables. Il permet de découvrir des rapprochements parfaitement imprévisibles, dans une dynamique clairement exploratoire.



Il permet de deviner par exemple instantanément qu'une certaine catégorie de client va acheter certains article, sans qu'on s'intéresse au pourquoi. Et peu importe.

Amazon, en rapprochant vos achats en ligne des commandes des autres internautes est en mesure de vous proposer des articles susceptibles de vous intéresser dans un avenir proche. Au point que cette même firme étudie la possibilité de pré-livrer les articles qui seront en attente de votre décision finale d'achat, dans un entrepôt proche de votre domicile.


Certains quartiers sont propices à des surconsommations électriques en fonction de contextes, qu'il devient très intéressant de connaître. Pareillement, la police est en mesure de prévoir des incidents géographiquement et dans le temps.


En rapprochant des combinaisons de mots-clefs saisis sur son moteur de recherche, et la localisation géographique de la recherche, Google a été le premier capable de déterminer instantanément la progression de pandémies.


Il permet de deviner quel comportement provoque chez tel type de patient des pathologies particulières, apparemment sans relation évidente. Inversement, certains comportements permettent d'éviter des pathologies, données que l'on croyait sans lien.


Il est possible de proposer un diagnostic médical rapide et fiable sur la base de pathologies identiques documentées, sans qu'aucune connaissance médicale préalable ne soit nécessaire. Par exemple en Afrique, où des diagnostics automatiques peuvent être posés, rien qu'avec un smartphone.

La presse britannique s'est inquiétée récemment de l'étude que menait une filiale de Google sur les 3 millions de dossiers médicaux des hôpitaux Londoniens. La diversité des données contenues dans les dossiers promet en effet de renforcer la précision des automatismes.



Nous venons de le voir, la cause n'est pas le sujet du Big-Data. Il permet juste de savoir, mais pas d'expliquer. L'homme qui est habitué à raisonner pour comprendre les événements, afin de construire l'avenir, se voit contraint d'accepter des diagnostics fiables, sans qu'il lui soit possible d'en comprendre le pourquoi. Il est très tentant de remplacer des coûteux spécialistes par des algorithmes très bon marché.


Nous avons tous pesté sur nos enfants qui préfèrent désormais le copier-collé pour leurs exposés scolaires. Nous avons tous craint que la connaissance immédiatement accessible rende sa compréhension inutile, et que le savoir soit ringardisé, obsolète.

Nous pouvons craindre qu'il soit de plus en plus inutile de posséder le savoir, puisqu'il est possible de s'en dispenser totalement.

Désormais, c'est la machine qui apprend ! La Google Car apprend au fur et à mesure de sa conduite automatique quel comportement idéal adopter sur les routes. L'ordinateur Watson d'IBM, apprend à mieux jouer à chaque partie, face à des joueurs contraints à perdre. C'est encore AlphaGo de Google qui remporte le championnat du monde du jeu de GO qui comporte pourtant plus de combinaisons que l'univers comporte d'atomes.

Pour ce qui concerne la médecine prédictive, dans ce qu'on nomme les systèmes d'aide à la décision clinique, ce qui importe, c'est de sauver des vies, peu importe de savoir pourquoi, puisque la machine maîtrise la connaissance.


Pourtant, ces analyses prédictives ne peuvent pas s'auto-alimenter à l'infini, et doivent obligatoirement se baser sur un minimum de choix humains éclairés par la connaissance, et testés sur des cas réels. Le Big-Data ne fonctionne que par sa marginalité, et ne peut être que complémentaire à la déduction humaine. La lumière de l'esprit humain est toujours nécessaire, ne l'oublions pas.



Nous assistons à une banalisation du Big Data dans notre vie quotidienne et en même temps nous sommes incapable de nous en passer.


Potentiellement, le système informatique global actuel sait tout de nous et de nos proches. Il est en capacité de deviner nos intentions. Edward Snowden, nus a éclairés sur la surveillance globale que mènent les gouvernements sur nos faits et gestes, dans le but d'éradiquer le terrorisme. L'analyse faite à notre insu de nos appels téléphoniques, de nos SMS et de nos courriels ne nous étonne plus. La géolocalisation des téléphones cellulaires dans les enquêtes policières sont tellement banalisées depuis des années, qu'il n'est plus possible d'imaginer s'en passer.

Les données manquantes peuvent aussi être déduites par le système qui nous connaît parfois mieux que nous, car il a appris à analyser des millions de comportement humains, avec leur consentement.



Le développement de ces techniques dites prédictives reste très inquiétant, surtout quand il s'affranchit de tout contrôle. Et comment les contrôler ? C'est pratiquement impossible.


Cette surveillance massive est favorisée par une absence de cadre juridique international. Si la CNIL est censée protéger l'utilisation de nos données sur le territoire national, la plupart des organisations qui nous enregistrent dépassent son cadre d'action.

Depuis quelques années, nous devons accepter clairement l'utilisation de nos données pour pouvoir utiliser nos applications favorites. Sans pour autant savoir ce qui en est fait. Les protections sont manifestement insuffisantes et contournables. Parfaitement illusoires. Il n'est presque plus temps de s'en inquiéter, tant cette technologie s'est imposée et a su se rendre parfaitement indispensable.

Le droit à l'oubli progresse, mais ne pourra jamais éradiquer l’enregistrement systématique qui est fait de nos données.



On peut craindre pourtant de sauver des vie en oubliant désormais de savoir pourquoi certains gestes sauvent, déléguant tout le savoir et donc l'éthique des choix à la machine.

Si l'étude des données médicales des hôpitaux londoniens a tellement inquiété, c'est parce que les dossiers ne contiennent pas que des données strictement médicales, mais aussi des indications sur les choix alimentaires, donc les orientations religieuses, les visites, donc les choix de vie et orientations sexuelles des patients. Même en anonymisant les dossiers, des algorithmes s’embarrassent peu de l’éthique, et étudier les relations qui existent entre des choix individuels et la survenance de pathologies est inévitable.



Souvenons-nous des 39 millions de fiches détenues par la Stasi. Pour la plupart mal rédigées par des voisins, des commerçants ou des fonctionnaires zélés. Contenant à peu près n'importe quoi. Jamais vérifiées. Parfaitement classées mais rarement lues, sauf en cas de besoin.

Actuellement, nous renseignons Facebook, LinkedIn (qui vient d'être piraté) ou Viadeo de notre plein gré avec un souci du détail bien supérieur.

Nous ne faisons plus de cas des traces que nous laissons de nos recherches ou de nos achats. Encore moins de la géolocalisation de notre smartphone, de nos fichiers abandonnés dans le Cloud, des relevés de l'alarme de notre domicile, ou des données envoyées par notre montre connectée.



Sans aller jusqu'à craindre une intrusion massive de cyber-criminels, nous pouvons également craindre l'excès de « prédictif ». Même si nous n'arrêtons pas encore de criminels avant qu'ils aient commis leur crime, comme pouvait le laisser craindre le film d'anticipation « Minority Report », nous assignons actuellement à résidence des personnes que nous soupçonnons de pouvoir passer à l'acte, sur la foi de rapport d'enregistrements téléphoniques ou de navigation Internet. De déductions de comportements à venir.


Ces mesures qui rassurent les populations sont tout à fait nouvelles et banalisent la prévention à partir de l'analyse de nos données personnelles. Comment pourrait-on maintenant revenir en arrière ?

Également, criminels et terroristes sont devenus finement aguerris et savent très bien désormais éteindre leurs portables et coder leurs courriels. Voir mimer des comportement normaux. Mais qu'on se rassure, il n'y a pas de mensonge indétectable !



Par ailleurs, si nous acceptons aujourd'hui que nos faits et gestes soient en permanence enregistrés, pour lutter contre le terrorisme, savons nous à quoi ces enregistrements serviront demain ? Et à qui ?

L'histoire nous montre que les règles peuvent changer. Rien ne nous garantit que notre vie ne sera pas à disposition d'un état totalitaire (pas forcément le nôtre!), ou d'un gouvernement trop intrusif. Sans compter qu'à l'heure des piratages massifs, et de la multi-localisation des data-centers, des gouvernements peuvent trouver intérêt à s'introduire dans nos choix, pour les devancer. Exactement comme dans le jeu de GO.



Tout évolue vers une surveillance massive réalisée par des gouvernements et de plus en plus par de grands groupes internationaux incontrôlables, plus puissants que nos démocraties, dont l'enjeu est de prévoir nos comportements, comme une météo pour mieux en jouer.



Mais l'enjeu de la maîtrise des données ne se joue pas seulement sur nos informations personnelles. Les données détenues par les entreprises sont l'objet de convoitises, car elle permettent de modéliser des pans entiers de notre économie, ou de l'économie de pays concurrents.


Autant dire qu'une course sans merci est lancée.


La tentation est grande de partager l'information et d'ouvrir au maximum les entrepôts de données à l'expérimentation de la communauté des développeurs, pour obtenir en retour des solutions innovantes, pour le bien de tous. De plus, les résultats des analyses sont d'autant meilleurs qu'elles se basent sur des volumes de données plus importants.

Pourtant, dans un monde concurrentiel, le partage de l'information est loin d'être une solution évidente quand on raisonne pour le bien d'une entreprise ou d'un pays.

Si l'intervention de sociétés spécialisées est inévitable pour mener des analyses avec des outils performants, les données les plus sensibles sont et doivent absolument rester la propriété des entreprises. Elles sont de plus en plus considérées comme le trésor de guerre des grosses sociétés cotées en bourse. Elle vont peut-être bientôt devoir être défendues par les gouvernements comme des richesses.



Les données en masse sont des océans. Et comme les mers contrôlées à l'époque Victorienne, par la Grande Bretagne, elles sont actuellement le terrain d'âpres combats pour son contrôle. Les Etat-Unis, qui maîtrisent déjà la majorité des flux informatiques, comme Internet et la majeure partie des communications téléphoniques sont très bien placés pour maîtriser également la puissance des Big-Data. D'autant que les groupes les plus engagés dans ce mouvement, que sont Google, Yahoo, ou Amazon, sont également américains. Connaissez-vous le Patriot Act qui oblige les sociétés américaines à transmettre au gouvernement les informations sensibles qui passent entre leurs mains ?


Pourtant, il ne sert à rien de craindre ce monde dans lequel nous vivons déjà. La France qui est également reconnue pour ses talents en la matière a clairement son mot à dire, tant dans le développement de ces solutions que dans leur contrôle inévitable.

Plus généralement, la précision et la rapidité dans les choix qu'apportent ces technologies, alliées à des gisements de données issus de décennies de gestion informatisée, permettent au monde occidental de posséder une avance significative, qu'il serait inexcusable de perdre.


Nous avons, en tant que Français une avance dans ce domaine, qui est clairement l'enjeu de demain. Dans ce terrain de jeu, ou plutôt ce champ de bataille où s'engagent résolument les plus puissants. Parce que le monde de demain ne fait plus de doute à leurs yeux. Nous devons entreprendre. Nous devons former. Pour conserver notre place et pouvoir avoir notre mot à dire dans ce domaine qui intéresse directement notre vie privée et nos libertés individuelles.


© Hervé Cuillandre 2016 in Humanisme n°312