"Pour une écologie de la donnée" (Mathieu Llorens, AT Internet)

 |   |  1656  mots
AT Internet mesure les performances de plus de 20.000 sites et applications dans le monde entier
AT Internet mesure les performances de plus de 20.000 sites et applications dans le monde entier (Crédits : DR)
L'industrie de la donnée suit une pente dangereusement similaire à celle de l'agroalimentaire. Dans cette tribune libre, Mathieu Llorens, directeur général d'AT Internet, analyse cette tendance et plaide pour une "écologie de la donnée".

En préambule, il est important de préciser d'où j'émets ce billet : je suis le directeur général d'une entreprise indépendante spécialisée dans le digital analytics (AT Internet) fondée en 1996 et qui est en compétition frontale (et pour le moins féroce) avec l'ami Google depuis plus de 10 ans. Nous défendons une vision de l'Internet ouvert, divers, respectueux de la vie privée et nous nous opposons aux tendances monopolistiques qui concentrent données, revenus et influences au sein d'une poignée de plateformes.

Les mêmes dérives que l'industrie agroalimentaire

Les progrès de l'agriculture ont permis pendant des décennies d'améliorer et de sécuriser l'alimentation au niveau mondial. Mais les dérives de cette industrialisation incitent à produire toujours plus, sans se soucier de qualité et de traçabilité, afin de gaver le consommateur d'un produit trop gras, trop sucré, trop transformé, qui nuit à la fois à sa santé et à son environnement.

L'industrie de la donnée suit une pente dangereusement similaire. Des acteurs dominants imposent un modèle pour le moins inquiétant. La quantité de donnée l'emporte sur sa qualité, et la quantité à tout prix aboutit à une infobésité qui n'est plus à démontrer. Pour citer Stefen Few (la référence quand il s'agit de frugalité et d'efficacité dans l'interprétation des données) : "If you don't know how to differentiate signals from noise, adding more noise only makes things worse". Cette surproduction et surexploitation de la donnée est doublement problématique. Elle finit par nuire à la prise de décision, tout en cassant la relation de confiance avec les internautes.

En effet la traçabilité des données, dissimulée derrière des Terms and conditions incompréhensibles, est le plus souvent impossible. Les principaux collecteurs et fournisseurs de données abusent de "dark patterns" pour opacifier l'usage qu'ils font des informations collectées, et se défaussent finalement sur leurs clients (notamment les médias qui n'ont pas besoin d'un fardeau de plus) pour leur faire assumer d'éventuelles atteintes à la vie privée. Le Règlement général sur la protection des données est censé mettre de l'ordre dans ces pratiques et de nombreux spécialistes estiment que "Privacy is the new green" ["If data is the new oil, privacy is the new green", NDLR]. On peut l'espérer, mais il faut être vigilant. Le Green washing est une dérive qui semble déjà bien intégrée par les armées de juristes et de lobbyistes des GAFA. Hier, sous couvert de protection de la vie privée, Google a déjà interdit l'accès aux données essentielles de moteurs de recherches dans les outils analytics (et donc rendu indispensable le passage par ses outils Adwords pour évaluer sa notoriété sur les moteurs de recherche). Aujourd'hui, c'est le RGPD et la mise à jour des conditions d'utilisation de Google qui nuisent avant tout aux acteurs qui s'en trouvent dépendants. Les univers loggués dominants de Google, Facebook, Amazon, Microsoft, Apple, Alibaba ou Tencent peuvent regarder d'un œil amusé les attaques contre les cookies : s'il n'en reste que trois à pouvoir suivre les internautes sur leurs sites et applications, ils seront ceux-là. Il est évident que les problèmes d'opacité et de concentration n'en seront que plus forts.

Intoxications sévères

Collecter des données en se souciant plus de quantité que de qualité, via des systèmes dont les algorithmes propriétaires interdisent de comprendre comment est transformée la donnée, entraîne souvent des intoxications sévères.

Les problèmes de qualité apparaissent paradoxalement aux deux extrêmes des projets liés à la donnée : dans les projets les plus coûteux et complexes, et dans les usages les plus basiques issus de solutions gratuites. Dans un cas la complexité des outils mis en place, couplée à un déficit chronique de ressources formées (data scientist, digital analyst, etc.) est naturellement source d'erreurs tant les systèmes sont difficiles à maintenir. Dans le cas d'utilisations basiques de la donnée, les raccourcis pris avec des solutions gratuites n'offrent aucune garantie de robustesse (donnée échantillonnée ou incomplète, ne s'inscrivant dans aucun process de contrôle qualité), aboutissant au pire à des décisions dangereuses, au mieux à une absence de décision.

Dans le domaine du digital analytics, que je connais donc un peu, Google a imposé une solution gratuite, échantillonnée, sans véritable support, ni garantie de localisation du stockage. Et on parle d'une donnée collectée par Google sur 85,4% des sites utilisant ce type d'outils et réutilisée par Google pour améliorer ses propres services : voilà un bon exemple de données de piètre qualité et d'utilisation clairement partiale (Google ne se contente pas de récupérer la donnée pour optimiser ses algorithmes et exploser un peu plus le marché de la publicité et donc des médias, il en profite aussi pour optimiser la vente de ses propres espaces en biaisant de manière problématique l'attribution des sources de trafic).

Dans le domaine de la donnée décisionnelle, on trouve des kilomètres d'interfaces appétissantes, de visualisations dynamiques et de promesses d'optimisations rapides et automatiques, mais avec quel degré de certitude quant à la fiabilité et à la robustesse de la donnée ? Une donnée peut-être aussi toxique et néfaste pour votre entreprise que de la junk food pour votre corps. C'est satisfaisant sur le moment, mais vous finissez plus gros, plus lourd, et ce qui est peut-être pire : plus stupide. Car si l'intelligence réside dans un algorithme opaque, et même si cette donnée est fiable, vous prenez des décisions que vous ne comprenez pas, et finalement vous n'avez rien appris. Pire, la valeur peut même revenir principalement à l'entreprise qui manipule la donnée à votre place (une fois encore, il faudrait lire en détail ces fameuses cascades de Terms and Conditions que personne n'ouvre jamais, on y trouve l'explication de ce mystère de la gratuité).

Le signal au milieu du bruit

Il y a pourtant des raisons d'être optimistes. Même l'industrie agroalimentaire est peu à peu ramenée à la raison par des consommateurs qui privilégient des produits traçables, de bonne qualité, non transformés, et qui cherchent d'ailleurs à consommer moins, mais mieux. L'industrie de la donnée a tout intérêt à se raisonner et à revenir à des données de bien meilleure qualité en imposant des processus de vérification et une vraie traçabilité de la collecte et des usages finaux.

Il s'agit sans doute de collecter moins, d'informer mieux, de chercher le signal au milieu du bruit et d'agir vraiment. Comme pour l'agriculture, l'investissement de départ est sans doute un peu plus élevé mais nettement plus rentable à la fin. La frugalité a des vertus évidentes pour notre corps, notre cerveau, et finalement notre portefeuille.

En ce qui concerne la collecte de données, certes le coût du stockage baisse, mais ni celui du processing, ni celui du nettoyage et de la sécurisation des bases de données. Aujourd'hui des fortunes sont dépensées pour construire des systèmes de stockage "en prévision" ou "au cas où" on aurait demain une idée géniale pour exploiter tout ce volume. Mais les données sont périssables, et très rapidement. Plutôt que d'accumuler du bruit et des données de piètre qualité, il faut s'assurer de la véracité et de la qualité d'informations vraiment utiles et exploitables.

Innovation et maintenance

Enfin, l'obsession de l'innovation et de la disruption pose un dernier problème qu'il est finalement aisé de résoudre avec un peu de bon sens. Ici encore, l'analogie avec l'écologie est assez efficace. Le "break things" de la Silicon Valley est une insulte à ceux qui font humblement fonctionner le système et créent de la valeur au quotidien. Les Japonais réparent, et le font avec fierté. L'obsolescence programmée va de pair avec cette obsession de l'innovation et les conséquences de ce système sont une catastrophe écologique et un scandale pour les utilisateurs.

Or, quand il s'agit de collectes de données, vouloir tout changer en permanence est à la fois coûteux et contre-productif. La maintenance d'un système décisionnel ou analytique, est en fait aussi une innovation, dans le sens où elle permet de faire du neuf avec de l'ancien. Mais à la différence de l'innovation pour l'innovation, elle est plus frugale, plus écologique, plus pérenne et surtout plus efficace. En effet, elle s'inscrit dans la durée, offre des perspectives et permet une vision évolutive et comparative (quand la disruption et l'innovation pures cassent le thermomètre, changent le référentiel et les contextes). D'expérience, ceux qui tirent vraiment parti de l'analytique et des données décisionnelles sont ceux qui maintiennent et développent des systèmes robustes et en extraient patiemment des données cohérentes dans le temps.

Il faut donc célébrer les garants de la maintenance, les ingénieurs, les digital analysts, les data scientists qui maintiennent et enrichissent le code, les flux, les marquages. Ils assurent la continuité et la fiabilité des rapports. Ils sont peut-être du mauvais côté de la hype, mais ils sont clairement du côté des décisions stratégiques qui nécessitent du recul et une fiabilité sans faille, tout en respectant les utilisateurs finaux.

-------------------------

Installé à Mérignac près de Bordeaux, AT Internet est un éditeur de solutions de mesure et d'analyse de la performance digitale. Créée en 1996, la société emploie plus de 220 salariés et revendique mesurer, à l'aide de son outil Analytics Suite, plus de 20.000 sites et applications à travers le monde.

Réagir

Votre email ne sera pas affiché publiquement
Tous les champs sont obligatoires

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

 a le à :