Donnée
Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire d’une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure[1].
Pour les articles homonymes, voir Donnée (homonymie).
La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité. Si elle est considérée comme indiscutable ou même si elle est indiscutée par méconnaissance, elle peut servir de base à une recherche, à un examen quelconque.
Les données pouvant être de nature très différentes suivant leur source, elles doivent souvent faire l'objet d'une transformation préalable avant traitement. Jusqu'à il y a quelques siècles l'être humain n'a eu connaissance du monde réel qu'à travers ses sens naturels, la vue, l'ouïe, l'odorat, etc... Son cerveau a développé une capacité de raisonnement permettant de combler un peu les lacunes inhérentes à la faiblesse de ses capteurs. Cela lui a permis de développer son intelligence et de développer des outils permettant d'augmenter sa capacité à connaitre le monde réel.
La technique utilisée aujourd'hui est la quantification numérique dans un système binaire associée à des machines de traitement à deux états de fonctionnement. En clair, cela veut dire que le monde réel est vu par des capteurs dont la réponse continue ou discrète est traduite en nombres qui sont traités par des ordinateurs.
Un travail est souvent fait sur les données brutes pour leur donner un sens et ainsi, d'obtenir une information. Les données peuvent être :
- des résultats de mesure fonction d'un étalon de référence pouvant, associé à la manière de traiter les données, générer des biais sur l’interprétation finale (limites des sondages) ;
- des valeurs discrète représentant l'état d'un système ;
- des informations logiques représentant un contexte non réel ;
- etc.
Le résultat du traitement sera souvent in fine soumis à l'interprétation d'un être humain et devra de ce fait être présenté sous forme adéquate, par exemple un graphique ou une liste de choix. Cela permettra à un être humain d'y associer un sens (une interprétation) et ainsi de créer une nouvelle information.
Caractériser les données
La définition des données soulève des questions importantes dans plusieurs disciplines scientifiques.
Étymologiquement, le terme donnée provient du latin datum qui signifie "donner"[2]. Comme le soulève Jensen en 1950, l'histoire aurait dû retenir capere, soit "capturer" en français[3]. En effet, pour la science il s'agit de sélectionner, de capturer dans l'existant plutôt que de comprendre la donnée comme quelque-chose de préalablement "donné"[4]. Cette différence historique met en évidence le caractère sélectif et partiel inhérent à la donnée[4].
Plusieurs définitions hétérogènes existent et essayent de caractériser la donnée. Rob Kitchin (en), dans un chapitre dédié à la caractérisation des données[5], résume les différentes positions en deux points de vue divergents.
Selon Rosenberg, la donnée pré-existe aux interprétations et argumentations qui les convertissent en faits. C'est-à-dire que si un fait est faux, il cesse d’être un fait. Néanmoins, une donnée fausse reste une donnée[4]. Cette vision rhétorique des données leurs fournie plusieurs caractéristiques: elle sont abstraites, discrètes, agrégatives et surtout indépendantes de leur formats et de leur contexte (qu'elle soie stockée dans une base de donnée ou dans un livre, la donnée reste la donnée)[5].
D'autres auteurs, et notamment le champ des études critiques des données, considèrent les données comme socialement construites[6]. Pour eux, les données sont une forme de pouvoir, elles sont dépendantes d'une idéologie, d'une façon de pensée inhérente à celui ou celle qui les collecte et les analyse[5].
La valeur des données
Depuis toujours, être informé le premier a été un avantage décisif, que ce soit en politique ou à la guerre. Évidemment, plus l'information est pertinente en rapport du contexte et plus l'avantage de celui qui la détient est poussé. À notre époque c'est toujours vrai dans ces domaines, d'autant plus que le temps de validité de l'information s'est considérablement raccourci, ce qui était pertinent la veille ne l'est plus forcément le lendemain.
Aujourd'hui, la donnée élémentaire qui sert à élaborer l'information est produite en très grand nombre, contrairement aux époques précédentes, et ne peut plus être traitée par les mêmes méthodes. Pour être exploitée la donnée initiale doit être transformée en code numérique ce qui dans un premier temps la banalise. Pour lui donner du sens il faut que l'humain la contextualise et l'interprète. Alors la donnée prend toute sa valeur et devient pertinente.
Les sociétés modernes sont organisées autour de la donnée que ce soit pour gérer leur économie ou leur politique. À l’ère du numérique, la capacité de collecte et de transport des données à très grande vitesse a été à l'origine du développement de moyens et de méthodes d’exploitation différentes de ceux qui étaient en vigueur il y a encore quelques années.
La notion de valeur affectée à ces données en a été bouleversée et quand on essaye de définir la valeur de cette unité élémentaire, on commence souvent par analyser une forme construite de la notion de la donnée ; on parle à tel propos d’open data, d’experimental data et de big data, mais combien vaut une donnée, entendue en tant que simple résultat de l’observation ou de mesure de la réalité?
L'acquisition des données peut être liée à des transactions commerciales ou directes sans qu'il soit nécèssaire d’effectuer une marchandisation. La valeur de la donnée réside alors dans son utilisation.
La valorisation de la donnée se fait à travers un processus capable à chaque étape de la transformation d'augmenter sa valeur directement ou par combinaison avec d'autres données. En général la finalité est l'exploitation par l'homme pour la prise de décision ou par un autre système permettant une commande de processus.
Le calcul [7] fait partie du processus de transformation par la machine et le jugement qualitatif qui appartient à l'humain fait partie de l'interprétation et donne la valeur objective à l'information finale [8].
S. Chignard et LD Benyayer ont essayé de créer une grille de lecture pour la quantification des données[9] en partant de trois conceptions de la valeur :
- La valeur est subjective : elle dépend de l’intérêt porté par l'humain qui va l'utiliser directement ou après transformation.
- La valeur est co-construite : elle augmente à partir de l'instant ou elle rentre dans un processus de transformation, notamment à travers des études croisées, capables d’exprimer des concepts, d’où l’importance de la collaboration et de la coordination dans le processus de la valorisation des données;
- La valeur est potentielle : elle donnera ou pas un avantage futur à ceux qui la détiennent.
À partir de ces axiomes, les données peuvent être interprétées à la lumière de trois formes de valeur.
Les données comme matière première
La donnée devient la matière première pour certains agents économiques, tels que les data brokers, des entreprises qui « collects, stores, analyzes and sells consumer data »[10], comme activité principale de leur business. Une donnée sur les conditions médicales d’un individu peut prendre une valeur entre les 15-20 $[11]. En réalité, il n’existe pas encore un véritable marché des données, puisqu’il manque une standardisation, nécessaire à l’échange. Pour ces motifs, une quantification précise et universelle de la donnée n’est pas encore concevable.
La collecte des données
La collecte de données peut se faire de manière primaire (le chercheur est le tout premier à obtenir les données sur le terrain de recherche) ou secondaire (le chercheur utilise d'autres sources, par exemple des publications existantes d'autres chercheurs). Les techniques d'analyse des données varient et incluent, par exemple, la triangulation ou la méthode dite de percolation des données [12]. Cette dernière méthodologie offre un système articulé de collecte, de classement et d'analyse des données utilisant entre autres cinq angles possibles d'analyse (au minimum trois) pour maximiser l'objectivité de l'analyse et permettre le regard le plus complet possible sur l'objet sous investigation soit : les analyses qualitatives et quantitatives, la revue des écrits (y compris les écrits scientifiques), les interviews d'experts, et la simulation informatique. Les données sont alors "percolées" selon une série d'étapes déterminées pour en extraire l'information la plus pertinente.
L'intégrité dans la collecte de données
La principale raison de maintenir l'intégrité des données est de favoriser l'observation des erreurs dans le processus de collecte des données. Ces erreurs peuvent être intentionnelles (falsification délibérée) ou non intentionnelles (erreurs aléatoires ou systématiques).
Deux approches peuvent protéger l'intégrité des données et assurer la validité scientifique des résultats des études inventées par Craddick, Crawford, Rhodes, Redican, Rukenbrod et Laws en 2003 :
- Assurance de la qualité - toutes les actions effectuées avant la collecte des données
- Contrôle de la qualité - toutes les actions effectuées pendant et après la collecte des données
Assurance de la qualité
Son objectif principal est la prévention, qui est avant tout une activité rentable pour protéger l'intégrité de la collecte de données. La normalisation des protocoles est le meilleur exemple de cette activité rentable, qui est élaborée dans un manuel de procédures complet et détaillé pour la collecte de données. Le risque de ne pas identifier les problèmes et les erreurs dans le processus de recherche est évidemment causé par des lignes directrices mal écrites. On trouvera ci-après plusieurs exemples d'échecs de ce type :
- Incertitude quant au calendrier, aux méthodes et à l'identification de la personne responsable
- Liste partielle des articles à recueillir
- Description vague des instruments de collecte de données au lieu d'instructions rigoureuses étape par étape sur l'administration des tests.
- Absence de reconnaissance du contenu exact et des stratégies de formation et de recyclage des membres du personnel chargés de la collecte des données.
- Instructions imprécises sur l'utilisation, les ajustements et l'étalonnage de l'équipement de collecte de données
- Aucun mécanisme préétabli pour documenter les changements apportés aux procédures au cours de l'enquête.
Contrôle de la qualité
Étant donné que les actions de contrôle de la qualité ont lieu pendant ou après la collecte des données, tous les détails sont soigneusement documentés. Il est nécessaire de disposer d'une structure de communication clairement définie comme condition préalable à la mise en place de systèmes de surveillance. Il n'est pas recommandé de ne pas être certain de la circulation de l'information, car une structure de communication mal organisée entraîne une surveillance laxiste et peut également limiter les possibilités de détection des erreurs. Le contrôle de la qualité est également responsable de l'identification des actions nécessaires pour corriger les pratiques de collecte de données erronées et pour minimiser de telles occurrences futures. Une équipe est plus susceptible de ne pas se rendre compte de la nécessité d'effectuer ces actions si ses procédures sont rédigées de façon vague et ne sont pas fondées sur la rétroaction ou l'éducation.
Problèmes de collecte de données qui nécessitent une action rapide :
- Erreurs systématiques
- Violation du protocole
- Fraude ou inconduite scientifique
- Erreurs dans des données individuelles
- Problèmes individuels de rendement du personnel ou du site.
Les données comme levier
La valeur de la donnée dépend de son utilisation, qui devient de jour en jour plus performante. Les données seront le véritable instrument qui permettra de franchir le mur du temps : l’analyse des données est l’appui sur lequel on essaye de rationaliser la prise des décisions. Le but final de l’analyse des données est d’arriver à prévoir ce qui se passera dans le futur, avec une marge d’erreur négligeable.
Les données comme actif stratégique
Enfin, la valeur de la donnée peut être interprétée à l’égard d’un actif stratégique. Elles deviennent une source précieuse, puisque rare, à pouvoir exploiter. La firme qui la possède peut, par exemple, devenir le point d’accès exclusif à l’information que seulement elle détienne, ou être capable de renforcer les barrières à la mobilité.
La détermination de la valeur d’une donnée peut être donc calculée (Vatin, 2012) à partir de son utilisation subjective, qui fonde la valorisation sur le processus de transformation de la donnée et sur ses caractéristiques qualitatives.
Notes et références
- Sciences des données: Leçon inaugurale au Collège de France prononcée le jeudi 8 mars 2012, Serge Abiteboul.
- « DicoLatin - Correspondance pour DATUM », sur www.dicolatin.com (consulté le )
- Fidelia Ibekwe-Sanjuan, « VERS LA DATAFICATION DE LA SOCIÉTÉ ? », dans Transition digitale, handicaps et travail social, LEH Editions, (lire en ligne), p. 31–49
- « Qu’est-ce qu’une donnée ? − Courrier des statistiques N5 - 2020 | Insee », sur www.insee.fr (consulté le )
- Kitchin, Rob, author., The data revolution : big data, open data, data infrastructures & their consequences (ISBN 1-4462-8747-5, 978-1-4462-8747-7 et 1-4462-8748-3, OCLC 871211376, lire en ligne)
- (en) Andrew Iliadis et Federica Russo, « Critical data studies: An introduction », Big Data & Society, vol. 3, no 2, , p. 205395171667423 (ISSN 2053-9517 et 2053-9517, DOI 10.1177/2053951716674238, lire en ligne, consulté le )
- Cochoy, F., « Conclusion. La part de l'âne, ou le qualcul économique du consommateur. », Sciences sociales et sociétés, 203-218., .
- Michel Callon, « Postface : La formulation marchande des biens. Fran¸cois Vatin. Evaluer et valoriser : une sociologie ´economique de la mesure, », Presses Universitaires du Mirail, pp.247-269, .
- Chignard, S., & Benyayer, L. D., Datanomics–Les nouveaux business models des données., FYP Éditions, .
- Natasha Singer, « A Data Broker Offers a Peek Behind the Curtain », The New York Times, (ISSN 0362-4331, lire en ligne, consulté le ).
- Chignard, S., & Benyayer, intervention au séminaire « Etudier les cultures numériques, approches théoriques et empiriques », 15 mai 2017.
- Mesly, Olivier (2015). Creating Models in Psychological Research. États-Unis : Springer Psychology : 126 pages. (ISBN 978-3-319-15752-8).
Voir aussi
Articles connexes
- Portail de l’informatique
- Portail des probabilités et de la statistique
- Portail des données
- Portail du Web sémantique