Psychométrie

La psychométrie est la science qui étudie l'ensemble des techniques de mesures pratiquées en psychologie, ainsi que les techniques de validation et d'élaboration de ces mesures. Ces techniques concernent tous les champs de la psychologie, ainsi que d'autres domaines de sciences connexes (comme la recherche en comportement du consommateur par exemple). À l'origine, elles ont surtout émergé par l'intérêt croissant pour la mesure des performances intellectuelles porté notamment par le développement de l'échelle métrique de l'intelligence du psychologue Alfred Binet et Théodore Simon (âges mentaux ou quotient intellectuel, quotients de développement dans la petite enfance, etc.) ou bien pour l'analyse des composantes de la personnalité (affectivité, émotions, relations avec les autres, etc.). La psychométrie est la science de la mesure de l'esprit et s'établit en tant que telle par l'usage de procédures rigoureuses s'appuyant notamment sur l'usage de techniques statistiques variées[1].

Questionnaire d’autoévaluation

Parmi les moyens dont dispose la psychologie pour mesurer une caractéristique psychologique, le questionnaire d’autoévaluation (parfois appelé échelle de mesure ou simplement questionnaire) demeure celui qui est le plus couramment utilisé. La relative brièveté d’administration des questionnaires d’autoévaluations et la possibilité de les utiliser auprès d’un grand nombre de personnes simultanément en font un moyen de mesure très prisé dans l’étude de l’être humain. Les questionnaires d’autoévaluation sont des outils de mesure qui se composent d’items relatifs aux caractéristiques que l’on cherche à mesurer. Par exemple, une question que l’on pourrait poser si l’on voulait mesurer l’estime de soi chez un individu est : « Ai-je une attitude positive vis-à-vis de moi-même » (Rosenberg, 1965). Cela étant dit, il subsiste un problème de taille dans la tendance qu’a l’être humain à évaluer ses sentiments et comportements de façon erronée ou encore en voulant se présenter sous un jour favorable (voir pour un exemple de désirabilité sociale : Congard, Antoine, Ivanchak et Gilles, 2012). Dans le domaine de la psychométrie, les caractéristiques psychologiques comme l’estime de soi sont appelées « variables latentes » par opposition aux items que l’on utilise pour mesurer ces concepts, qui eux, sont appelés variables observées, items ou simplement questions. On utilise donc des items faisant référence à une idée que l’on se fait d’une caractéristique psychologique donnée pour mesurer une variable latente. Enfin, pour être persuadé de l’exactitude de la variable latente, on doit s’assurer que les items utilisés mesurent bien le concept auquel ils réfèrent, principe que l’on appelle de façon générale « validité interne ». On doit aussi s’assurer que les items utilisés fournissent des résultats reproductibles, exempts d'erreurs accidentelles « fidélité ». Finalement, on doit s’assurer que les résultats dépendent des caractéristiques de l’individu examiné plutôt que de toute autre caractéristique externe au questionnaire, comme l’influence d’un examinateur ou d’un bruit de l’environnement « objectivité ». Pour s’assurer d’avoir un questionnaire d’évaluation valide, fidèle et objectif, qui mesure correctement la variable latente, plusieurs techniques statistiques qui s’expriment en référence à ces trois concepts ont été développées.

Qualité psychométrique : fidélité et validité

Un questionnaire d’autoévaluation, psychométrique, linguistique ou mathématique, est toujours composé de plusieurs questions. Dans tous les cas, on aimerait savoir si ce questionnaire d’autoévaluation, et donc les questions qui le composent, mesure vraiment ce que l’on cherche à mesurer. C'est pourquoi l’analyse de chaque question et la relation qu’ils entretiennent avec les autres questions du questionnaire d’autoévaluation, ainsi qu'avec le score total, sont primordiales. Dans le modèle du score vrai, plusieurs concepts peuvent être employés pour rendre compte de ces éléments.

Fidélité

La fidélité ou fiabilité (en anglais : reliability) d'un test concerne sa capacité à mesurer un construit de manière cohérente : en d'autres termes, que la répétition de la mesure, soit dans le temps si le construit est supposé stable, soit en variant la formulation des questions, donne une estimation dont la variabilité diminue lorsque le nombre de points de mesure augmente. Certains des items sont parfois mesurés sur des échelles inversées (exemple de « je suis triste » et « je suis heureux »), afin de détecter des réponses trop « mécaniques » : il convient alors d'harmoniser ces échelles avant la poursuite du traitement.

Une des mesures traditionnelles de la fiabilité, ou fidélité, est le coefficient alpha de Cronbach : on y compare la somme des variances des mesures à la variance de la somme des mesures. La valeur maximale 1 est atteinte lorsque toutes les mesures sont parfaitement corrélées. L'American Psychological Association considère un construit comme acceptable quand le coefficient alpha est au moins égal à .70[2]^,[3]. Lorsqu'il se rapproche de 1, la qualité de la mesure devient discutable[3] : il est alors probable que les items de mesure ne soient que de simples synonymes ou paraphrases, ce qui fait perdre tout son intérêt à cette répétition.

Validité

Le concept de validité regroupe souvent trois catégories : la validité de construit, la validité de contenu et la validité critérielle.

Validité de construit (en anglais : construct validity)

Il s'agit de savoir dans quelle mesure le test proposé permet d'identifier de manière certaine le construit mesuré (par exemple, pour reprendre l'exemple ci-dessus, mon test est probablement capable de mesurer l'humeur, mais même si les deux questions sont inversement corrélées, il donne vraisemblablement une mesure faible (ou fausse) de la taille ou de l'intelligence des sujets, donc une faible validité externe en tant que tests de taille ou d'intelligence, mais une forte validité en tant que test de l'humeur).

Plusieurs types de validation peuvent et doivent être entrepris avant de prétendre à la validation d'un construit. Ce type de validité sous-tend également la validité convergente et la validité discriminante.

Validité convergente.

La validité convergente veille à la ressemblance entre notre test et un autre test censé mesurer le même construit psychologique. S'il existe une corrélation élevée entre les deux tests, la validité convergente est désignée comme bonne.

Composante indispensable d'une étude de validité, la validité convergente concerne la capacité d'un test à identifier correctement les sujets dans les catégories réalisées. Elles sont réalisées avec l'appui d'autres critères diagnostiques, notamment en psychopathologie. Par exemple, il suffit qu'un test de schizophrénie vérifie que tous les schizophrènes diagnostiqués au cours d'entretiens cliniques avec un professionnel aient un score similaire pour prouver la validité convergente dudit test.

Cependant la validité convergente, parfois confondue avec la validité du construit, ne suffit pas, et rend un test particulièrement incertain en l'absence de validité discriminante.

Validité discriminante

La validité discriminante veille à s'assurer de la dissemblance entre notre test et un autre test censé être différent. A l'inverse ici, si la corrélation entre les deux tests est faible, on peut estimer que l'on a une bonne validité discriminante.

Par exemple, un test mesurant la dimension schizophrène de la personnalité n'atteint la validité discriminante que si les schizophrènes sont les seuls à avoir un score supérieur ou inférieur a une certaine moyenne. Si un test obtient une même réponse de tous les schizophrènes mesurés, il atteint la validité convergente, toutefois, si des personnes non schizophrènes formulent la même réponse qu'une personne schizophrène, le test n'aura pas une bonne validité discriminante.

Validité de contenu

La validité de contenu cherche à vérifier la représentativité des items d'un instrument donné, au regard du construit étudié. En somme, il s'agit de vérifier si l'instrument mesure réellement ce qu'il est censé mesurer. Pour ce faire, on peut choisir de recourir à un expert dans le domaine choisi pour construire un instrument représentatif de toutes les facettes du phénomène psychologique étudié.

Validité critérielle

La validité critérielle vise à établir le lien entre les performances effectives et les performances prédites par ledit test. Ce type de validité en sous-tend deux : la validité concourante et la validité prédictive.

Validité concourante

La validité concourante vise à vérifier le rendement au test et le rendement au critère que l'on étudie, et ce de manière simultanée.

Validité prédictive

La validité prédictive, vise elle à vérifier le rendement au test et au critère pris pour objet d'étude, de manière dissociée. Si elle est bonne, elle permet au psychologue de faire des prédictions d'une variable Y à partir d'une variable X.

Validité nomologique

La validité nomologique est le dernier élément permettant de conclure à la validité externe d'un test. On atteint la validité nomologique en prouvant une corrélation entre le test à valider et un autre test, déjà valide, qui mesure un construit qui devrait théoriquement être corrélé avec le construit mesuré (sans être le même construit). Par exemple, un test mesurant l'alcoolisme peut atteindre la validité nomologique si on peut prouver une corrélation statistiquement significative avec un test mesurant l'impulsivité des sujets, une relation théorique existant entre les deux construits alcoolisme et impulsivité

Test de validité et de fidélité des instruments

La validité d'une méthode est son aptitude à mesurer ce qu'elle est censée mesurer, c'est-à-dire les variables telles qu'elles ont été définies avant leur opérationnalisation. La fidélité d'une méthode est son aptitude à fournir une mesure constante d'un phénomène constant.

Les tests de validité et de fidélité sont pratiqués sur les données recueillies et par conséquent à la dernière phase de l'enquête, ce qui peut sembler à juste titre intervenir trop tard.

Histoire

Perception extrasensorielle

Il existe une acception antérieure et différente du terme psychométrie, forgée en 1842 par le D^r Joseph Rodes Buchanan. Celui-ci présente dans son livre Manual of psychometry[4] une étude sur les capacités de certains sujets de percevoir, de manière extrasensorielle, des informations relatives à des lieux dans lesquels ils se trouvent ou à des objets qu'ils touchent. Il s'agirait donc d'une approche psychurge^{[réf. nécessaire]}. Ainsi, le premier sujet étudié par le D^r Buchanan fut le général « bishop » Léonidas Polk, qui avait, entre autres, la faculté de « reconnaître » du laiton, dans l'obscurité et par un simple contact. Ce contact aurait provoqué chez lui la perception, en bouche, d'un goût particulier lui permettant d'identifier le laiton.

Bien que contestable sur le plan sémantique, l'usage du terme psychométrie pour désigner ces capacités extra-sensorielles semble trop bien établi pour que l'on puisse le remplacer. C'est ce qu'écrit l'abbé François Brune : « Le terme de « psychométrie » a été mal choisi, tout le monde le reconnait, mais il est maintenant trop bien implanté pour qu'on en change. » [5].

Théorie Classique ou Modèle du score vrai

Le modèle du score vrai, parfois appelé théorie classique des scores ou modèle classique, prend naissance avec les travaux de Spearman (1907). Mais le modèle du score vrai tel que nous le connaissons aujourd’hui est principalement dû aux travaux de Gulliksen (1950), Magnusson (1967) et Lord et Novick (1968). Ce modèle se veut, comme mentionné par Lord et Novick (1968), un modèle de score vrai avec des postulats faibles, par opposition par exemple au modèle de poisson qui lui est considéré comme un modèle de score vrai avec des postulats forts. L’avantage d’un modèle avec des postulats faibles est qu’il peut être utilisé dans une multitude de situations et comme son nom l’indique, ses postulats sont relativement faciles à satisfaire et peu nombreux (Laveault et Grégoire, 2002). Le modèle du score vrai permet d’évaluer à quel point un score obtenu à un test reflète bien la compétence ou l’aptitude d’un individu en question. L’équation de base sur laquelle ce modèle repose est la suivante : X=V+E. Le modèle du score vrai postule que le score observé d’un individu (X) résulte de la somme entre le score vrai de l’individu (V) et l’erreur de mesure associée à ce score (E). On suppose donc qu’un individu possède un score « vrai » qui nous est inconnu et qui le demeurera. Cependant, il est possible de tenter de mesurer ce score vrai, l’on considèrera alors qu’il y a toujours une certaine erreur de mesure plus ou moins importante et qui ne pourra jamais être évitée complètement. De ce fait, le score observé (X) n’est que le reflet variable du score vrai (V). À ce propos, Bertrand et Blais (2004) notent que :

le score observé est une entité réelle, connue, variable d’une répétition à l’autre du test ;
le score vrai est une entité non observable, inconnue, fixe d’une répétition à l’autre du test ;
l’erreur de mesure est une entité non observable, inconnue, variable d’une répétition à l’autre du test ;
un score vrai est intimement lié à un individu particulier et à un test particulier : ainsi, le score vrai changera non seulement d’un individu à un autre, mais aussi d’un test à l’autre.

Théorie de réponse à l'item

La théorie de réponse à l'item (en) a été développée durant les années 1950-1960. On distingue deux courants de pensée ayant évolué séparément, l'un provenant des États-Unis avec Frederic M. Lord, l'autre provenant du Danemark avec Georg Rasch. Le nom théorie de réponse à l'item vient du fait que cette théorie se focalise sur l'item et non sur le test comme dans la théorie classique des tests.

Notes et références

J.-L. Bernaud, Introduction à la psychométrie, Paris, Dunod, 2007, 119 p. (ISBN 978-2-10-050377-3).
Nunnally, Jum C., Psychometric Theory, New-York, NY, McGraw-Hill, 1978
DeVellis, R.F., Scale Development : Theory and Applications., Thousand Oaks, CA, Sage, 2003
Manual of psychometry - The dawn of a new civilization, Dr Joseph Rodes Buchanan, 1885.
Le Nouveau Mystère du Vatican, père François Brune, éditions Albin Michel, 2002, p. 152.

Voir aussi

Manuels et textes généraux

H. Chauchat, L'Enquête en psycho-sociologie, 1985.
P. Dickes, J. Tournois, A. Flieller, et J.-L. Kop, La Psychométrie, PUF, Paris, 1994.
C. Duflot, L'Expertise psychologique : procédures et méthodes, Dunod, 1999 (ISBN 210004222X).
D. Laveault et J. Grégoire, Introduction aux théories des tests en psychologie et en sciences de l'éducation (2^e éd.), De Boeck Université, Bruxelles, 2002, 377 p.
M. Reuchlin, La Psychologie différentielle, PUF, 1969.

Articles universitaires

(en) L. J. Cronbach, « Coefficient alpha and the internal structure of tests », dans Psychometrika, vol. 16, 1951, p. 297-333.
(en) L. J. Cronbach et P. E. Meehl, « Construct validity in psychological tests », Psychological Bulletin, vol. 52, 1955, p. 281-302.

Articles connexes

Portail de la psychologie
Portail des probabilités et de la statistique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] J.-L. Bernaud, Introduction à la psychométrie, Paris, Dunod, 2007, 119 p. (ISBN 978-2-10-050377-3).

[2] Nunnally, Jum C., Psychometric Theory, New-York, NY, McGraw-Hill, 1978

[dv-3] DeVellis, R.F., Scale Development : Theory and Applications., Thousand Oaks, CA, Sage, 2003

[4] Manual of psychometry - The dawn of a new civilization, Dr Joseph Rodes Buchanan, 1885.

[5] Le Nouveau Mystère du Vatican, père François Brune, éditions Albin Michel, 2002, p. 152.