Thick data

19/07/2017 par Laurent-Pierre GILLIARD.
  • Diminuer la taille de la police
  • Agrandir la taille de la police
Thick data

L’usage du numérique s’étend de manière exponentielle en occident. Démocratisées par les géants du web, les décisions issues de l’exploitation des données massives semblent s’appliquer à de plus en plus de secteurs : santé, marketing, social, design de produit et de service, stratégie organisationnelle… Face aux questions relatives à l’épistémè des données, quelques chercheurs en sciences sociales s’interrogent sur le contexte des data et sur le sens que l’on peut leur en attribuer. C’est sur cette toile de fond que se dessine la notion de Thick data.

Pas de données sans contexte

 

Comme le rappelle le philosophe Éric Sadin, dans l’introduction de son ouvrage La vie algorithmique , le terme big data semble être apparu en 2008 et est défini par le Oxford English Dictionary comme « des ensembles de données extrêmement importants qui peuvent être analysés de manière computationnelle pour révéler des modèles, des tendances et des associations, en particulier en ce qui concerne le comportement et les interactions humaines ». Le terme Thick data, proposé par l’ethnologue Tricia Wang, se présente comme étant une dimension trop sous-estimée de l’exploitation des données massives, notamment dans l’analyse du comportement et de l’expérience humaine. Comment expliquer de manière quantitative, avec des chiffres donc, le choix fait par une personne ? Cela semble très improbable. On pourra toujours tenter d’exprimer des tendances issues de statistiques, isoler un comportement et faire une prédiction. Mais les raisons de l’action de l’individu resteront toujours aussi floues. Les Thick data se proposent d’introduire une dimension contextuelle permettant une interprétation plus complexe. On prendra ici en compte les émotions, qui sous-tendent les choix, les expériences et les degrés de satisfaction. Les Big data tentent d’exprimer des faits, les Thick data s’essaient à les expliquer.

 

Littéralement traduites comme « données épaisses », les thick data introduisent une dimension de qualité ( approche qualitative ) face aux méthodes quantitatives adoptées par les big data. Le concept des thick data part du principe qu’une donnée brute n’existe pas , de sorte que celle-ci n’est jamais complètement isolée ou neutre. Par extension, cela suppose que le contexte de la donnée est plus important que la donnée elle-même. En exemple d’illustration, une donnée de valeur « 21600 » ne nous indique pas grand chose sur sa nature. En ajoutant des données contextuelles, nous pouvons en révéler le sens : exprimé en secondes, c’est le temps moyen que prend un trajet Bordeaux/Paris par autoroute en 2017, lors d’une journée non-pluvieuse et lorsque la circulation est fluide… Ainsi, se servir du contexte pour enrichir les données semble intéressant lorsque l’on cherche à saisir le sens de ces dernières. Mais comment intégrer les Thick data aux Big data ?

 

La donnée doit être authentique

 

Une donnée sans contexte de création n’est pas exploitable, car elle n’est pas authentique. La Bibliothèque et archives Canada (BAC) déchiffre cette formule à travers un cas d’usage. Les archivistes sont experts dans la gestion de données massives de dossiers physiques. En effet, ils numérisent manuellement tout type de documents (Films, images, plans, enregistrements audio/video, etc…). Les Big data ne sont donc pas disponibles naturellement, mais colligées selon des paramètres choisis. Les décisions des sélections sont contrôlées, mais restent faites par un humain. Les archives nationales du Canada ont pour rôle de mettre à disposition du public les données récoltées. Cependant, la BAC doit faire face à certaines problématiques. C’est un fait, les archives du Canada représentent plus de 25 millions de pièces. Mais plus important, si un document n’a pas de contexte, il ne peut pas être classé, trouvé, comparé. Ainsi, l’archiviste doit répondre à un certain nombre de questions avant même de pouvoir qualifier la pièce. Qui a produit le document ? Dans quel domaine ? À quelle époque ? Dans quel contexte social, historique, institutionnel, … Quels sont les sujets ou autres documents relatifs ? Autant de recherches manuelles et nécessaires pour dessiner l’histoire d’une donnée, afin de la rendre authentique et exploitable.

 

C’est à l’occasion du 85e congrès de l’ACFAS (association francophone pour le savoir), le 11 et 12 mai dernier à Montréal, que s’est déroulé le colloque du COSSI ayant pour thématique : méthodes et stratégies de gestion de l’information par les organisations : des données massives (big data) aux « thick data ». Les différents retours d’expériences ci-après exposés permettent de saisir le rôle et l’importance de ces Thick data. Nous verrons notamment que si les Thick data peuvent servir les Big data, le contraire fonctionne aussi.

 

Les Big data au service des Thick data, et inversement

 

Les Nations Unies (ONU) tentent d’optimiser certains de leurs programmes de développement dans le cadre des objectifs du millénaire . Utilisées jusque-là, les approches qualitatives, inspirées des méthodes ethnologiques et anthropologiques, ne semblent plus être suffisantes pour atteindre leurs objectifs. C’est un fait, les recensements, les consultations auprès des ménages, les enquêtes ciblées sont coûteuses et longues à mettre en place. Les Big data offrent la possibilité de déployer des outils moins onéreux, plus rapides et couvrant une plus grande surface de terrain que les méthodes d’analyses jusque là utilisées. C’est avec le soutien des données massives que le plein potentiel des Thick data, ici, peut se révéler. Afin de répondre au premier objectif du millénaire , qui s’attèle à éliminer l’extrême pauvreté et la faim, l’ONU développe de nouvelles stratégies alliant la puissance des Big data et l’importance des Thick data. En utilisant les données captées par les satellites, les équipes de l’ONU cartographient les zones habitées d’un pays. Cela leur permet de comparer les différentes intensités d’éclairage la nuit. Si un district ou un quartier est moins lumineux que la moyenne, proportionnellement à sa taille, il active un indicateur et une enquête qualitative sera déployée. Ce genre de méthodes, couplées à d’autres, permettent de cibler les territoires où il est important d’intervenir. Dans ce cas-là, les Big data sont essentielles à la stratégie de déploiement de collecte des Thick data.

 

Les données massives ont aussi l’avantage du temps réel. Couplées aux réseaux sociaux, elles permettent de toucher rapidement un grand nombre de cibles. À l’inverse, l’interprétation des données épaisses récoltées dans ces mêmes réseaux est souvent longue car complexe.

 

Dans le cadre d’un projet de recherche portant sur les médias sociaux et le sida (VIH), financé par l’ANRS , se pose la question de l’articulation de méthodes qualitatives et quantitatives pour traiter des données issues de fils de discussion de forums. Cette étude vise à prendre de la distance, par rapport à l’exploitation des Big data, en rajoutant une dimension contextuelle. Un professeur du CHU de Montpellier, travaillant sur le virus du VIH depuis de nombreuses années, a eu le sentiment que les discussions sur les forums en ligne comportaient des informations qui différaient de celles qu’il pouvait avoir au sein de son cabinet médical. Il avait surtout l’impression que les comportements avaient évolué par rapport au virus, notamment en prises de risques et addictions. Tirer des éléments d’information provenant des médias sociaux peut contribuer à la prévention du VIH. Ces données sont utiles aux soignants, comme aux acteurs de la prévention. Ainsi, analyser les contenus échangés sur les médias sociaux permettrait de faire émerger des comportements à risque. En articulant une démarche qualitative d’analyse de corpus et la puissance des algorithmes de calcul, il est possible de développer des méthodes semi-automatisées de traitement de gros volumes de données. Ici, se sont les Thick data qui se mettent au service des Big data. Grâce à une analyse de contenu et une analyse de discours, il est possible d’isoler les discussions qui traitent du risque de contamination et de les classer selon une sémantique définie. Néanmoins, les Thick data sont un enchevêtrement de connaissances. En effet, ici par exemple, la notion de risque est complexe. C’est une construction sociale qui implique à la fois des enjeux individuels et collectifs. De plus, elle comporte une dimension objective, incarnée par une connaissance plus ou moins partagée, et se confronte à des perceptions plutôt variables du risque en lien avec les expériences personnelles… Les émotions interprétées dans l’analyse de corpus font également partie des données épaisses collectées. On parlera ici de feel data .

 

À ce jour, l’exploitation de données contextuelles, doit encore se faire en partie manuellement. Les Thick data interviennent comme étant l’élément de sens qui permettra un traitement plus humain des données massives.

 

Récolter et exploiter les Thick Data

 

Les Thick data semblent être directement liées au potentiel du Big data. Plus les données sont épaisses, plus agile et plus précise devient l’exploitation des données massives. Mais alors, comment mettre en place une stratégie alliant ces deux dimensions dans une organisation ? Tout dépend des objectifs. C’est face à ces derniers qu’il sera possible de déployer des méthodes d’analyses qualitatives, comme celles de l’anthropologie, et de les coupler aux données massives. Soit pour les enrichir, soit pour les filtrer, soit pour en déduire un sens intelligible. Les Thick data apportent une perception qui s’avère être nécessaire dans le processus de prise de décision. Cependant, les données épaisses sont très variées. Automatiser leur récolte et normaliser leur traitement demande des méthodes qui restent encore à découvrir et les standards relatifs au contexte de création des données nécessitent une définition. En attendant, le travail reste manuel et s’apparente plutôt à du bricolage. En tout état de cause, prendre en compte plus d’éléments de contexte, apparentés à la data, est à coup sûr un bon investissement. Plus de 70 % des données déjà produites attendent le jour où elles pourront être exploitées à des fins d’analyse. L’internet Of Things (IoT) démultiplie d’année en année les capteurs générateurs de data. Mais malheureusement, sans contexte, ces données ne seront pas pleinement exploitables.

 

Par Jérémy Deramchi
Consumer Behavior Analyst

jeremy.der33@gmail.com


ImprimerImprimer EnvoyerEnvoyer



Agenda


Tous les rendez-vous
  • Annuaire