Centimorgan

En génétique, le centimorgan (noté cM) désigne une unité de mesure de liaison génétique : plus sa valeur est faible, plus la probabilité que deux gènes sur un même chromosome ségrègent ensemble (sous forme d'haplotype) est grande. Le centimorgan est l'unité de mesure usuelle sur les cartes génétiques.

Le centimorgan a été nommé en l'honneur du généticien Thomas Hunt Morgan par Alfred Sturtevant, l'un de ses étudiants.

Introduction

Partant du constat qu'une mesure de liaison génétique qui se comporterait comme une distance physique serait grandement utile pour les travaux en génétique, le taux de recombinaison, classiquement utilisé pour mesurer les liaisons génétiques, a été proscrit du fait de sa non additivité : en effet, si on considère trois gènes A, B, et C alignés le long d'un chromosome dans cet ordre, le taux de recombinaison entre A et C n'est pas égal à la somme des taux de recombinaison entre A et B et le taux de recombinaison entre B et C.

Ainsi, le centimorgan a été construit à partir du taux de recombinaison pour se comporter comme une distance physique[1] (c'est pour cela que l'on parle la plupart du temps de distance en centimorgan). Toutefois, bien qu'elle en ait les propriétés, cette grandeur n'est pas une distance physique : la relation entre la distance en centimorgan et la distance physique (en nombre de paires de base) n'est ni constante ni universelle. Cette relation varie selon les espèces, mais aussi le long du génome au sein d'un même organisme : par exemple, chez les Humains, 1 cM correspond en moyenne à 1 mégabase, alors que chez l'Arabidopsis thaliana, 1 cM correspond en moyenne à 200 kilobases[2]. Cette relation peut même varier selon le sexe des individus d'une même espèce.

Ses propriétés sont particulièrement intéressantes pour modéliser les processus de recombinaison, et ainsi faciliter l'étude de l'histoire évolutive des populations en génétique. En effet, une des grandes difficultés pour modéliser et analyser une population, notamment en génétique des populations, est la prise en compte des recombinaisons génétiques et de leur accumulation au cours des générations.

Définition formelle

Soit $r_{AB}$ le taux de recombinaison entre deux locus A et B. La distance $d_{AB}$ en centimorgan entre ces deux locus est définie comme :

$d_{AB}=-50\cdot \ln(1-2\cdot r_{AB}).$

Le centimorgan ainsi défini est assuré de se comporter comme une distance physique, puisqu'il respecte la relation de Chasles, tout en quantifiant spécifiquement la liaison génétique, puisqu'il est l'image d'une fonction croissante du taux de recombinaison (la fonction de distance de Haldane[3]). À noter qu'il existe d'autres fonctions de distance pour mesurer la distance génétique (ou map function), comme la fonction de distance de Kosambi[4].

Pour arriver à cette définition à partir du taux de recombinaison, il suffit de poser trois hypothèses :

les interférences génétiques (ou crossover interferences) sont négligeables : autrement dit, l'apparition d'un enjambement n'influence pas l'apparition d'autres enjambements.
les taux de recombinaison sont compris entre 0 et 0,5.
pour un taux de recombinaison infiniment petit, sa valeur est égale à celle de la distance en Morgan.

Prenons le cas de trois locus A, B et C situés le long d'un chromosome et dans cet ordre, et $r_{AB}$ , $r_{BC}$ et $r_{AC}$ les taux de recombinaison respectifs entre A et B, B et C, et A et C. En utilisant la première hypothèse, il est possible de montrer que :

$(1-2\cdot r_{AC})=(1-2\cdot r_{AB})\cdot (1-2\cdot r_{BC})$

et de se rendre compte premièrement que les taux de recombinaison ne sont pas additifs, et, deuxièmement, que pour n'importe quelle valeur de $c$ , $c\cdot \ln(1-2\cdot r)$ respecte la relation de Chasles, nécessaire pour qualifier cette grandeur de distance. Grâce à la deuxième hypothèse, cette formule est bel et bien définie.

Pour trouver la valeur de $c$ , il nous suffit d'utiliser la troisième hypothèse, qui se formule mathématique comme suit :

$c\cdot \ln(1-2\cdot dr)=dr.$

En utilisant le développement limité du logarithme, on conclut que $c=-0.5$ pour la distance en Morgan (et donc 50 en centimorgan), d'où la formule.

Intérêt du centimorgan : processus de recombinaison de Haldane

Comme cette mesure se comporte comme une distance physique, il est très facile de modéliser les recombinaisons le long du génome. En effet, il est possible de projeter la carte génétique d'un chromosome en une carte fictive, sur laquelle deux locus sont distants selon leur distance en centimorgan (et non selon leur distance physique en paires de base). Sur cette carte fictive, les points de recombinaison suivent un processus de Poisson d'intensité $L$ , où $L$ est la longueur du chromosome en Morgan.

Estimation du taux de recombinaison

Il est possible de déterminer le taux de recombinaison, nécessaire pour calculer la distance en centimorgan, avec les gamètes recombinants et les gamètes non recombinants. Prenons l'exemple des pois : en croisant de lignées homozygotes [jaune + lisse] x [vert + ridé] en F1, on obtient 100 % d'hétérozygotes pour les deux locus, avec uniquement deux haplotypes possibles : [jaune + lisse] et [vert + ridé].

Si le taux de recombinaison que l'on cherche à estimer est $r$ , alors en F2 les proportions attendues des gamètes [jaune + lisse] est de $(1-r)/2$ , [vert + ridé] de $(1-r)/2$ , [jaune + ridé] de $r/2$ et [vert + lisse] de $r/2$ . Les réalisations de ces proportions permettent d'estimer le taux de recombinaison $r$ .

Exemple de recombinaison chez l'homme

Supposons deux gènes liés sur un même chromosome, c'est-à-dire très proches l'un de l'autre et ne se séparant pas par enjambement lors de la méiose. Par exemple dans le système de groupe sanguin MNS, sans considérer les nombreux variants mineurs de ce système, le gène codant une protéine, la glycophorine A (GPA), possède deux allèles M et N, et le gène codant une seconde protéine, la glycophorine B (GPB), possède deux allèles S et s. Il y a donc 4 haplotypes possibles dans ce système : MS, Ms, NS, Ns. Supposons un père ayant reçu de ses parents les haplotypes MS et Ns donc de génotype MS/Ns et de phénotype MNSs, marié à une femme homozygote MS/MS de phénotype MMSS. Leurs enfants seront nécessairement MS de par leur mère, et seront MS ou Ns de par leur père, mais ne pourront pas être Ms ou NS de par leur père. À moins d'une exceptionnelle recombinaison, dont la fréquence de survenue dans les familles donne une idée de la distance entre les gènes exprimée en centimorgans, les enfants MM seront nécessairement SS, et les enfants MN seront nécessairement Ss.

		Haplotypes maternels
		MS	MS
Haplotypes paternels	MS	MS / MS	MS / MS
Haplotypes paternels	Ns	MS / Ns	MS / Ns

Ainsi, dans l'exemple précédent, sur 4 enfants, 2 sont MMSS, et deux MNSs. Si nous connaissons à l'origine les haplotypes paternels, nous concluons qu'il n'y a aucun recombinant. Si, ce qui serait exceptionnel, nous observions dans cette famille un cinquième enfant qui serait MNSS (l'ensemble des autres marqueurs confirmant la paternité), ce serait un recombinant, et nous dirions que le pourcentage de recombinaison dans cette dernière famille est d'un enfant sur cinq, soit 20 %, donc que la distance entre les deux gènes est d'environ 11 centimorgans. Si nous ne connaissons pas les haplotypes parentaux, la probabilité de recombinaison calculée n'est pas exactement la même du fait que les haplotypes parentaux sont déterminés à partir des enfants. Il fallait donc un grand nombre de familles (nombreuses de préférence) d'au moins deux enfants et/ou des familles étudiées sur trois générations, pour estimer, avant la biologie moléculaire, une distance exprimée en centimorgans.

La méthode des lod scores permet de cumuler les rapports, à la probabilité sous l'hypothèse d'indépendance, des probabilités d'observations calculées pour divers taux de recombinaison au sein de chaque famille étudiée. En effet, en exprimant en logarithmes décimaux les rapports calculés pour chaque taux choisi, on obtient des scores que l'on peut additionner au fur et à mesure des nouvelles familles étudiées. Le score le plus élevé obtenu pour un taux donné, correspond au maximum de vraisemblance.

Cette méthode d'étude familiale permettait, avant la biologie moléculaire, de déterminer non seulement une fréquence de recombinaison entre deux gènes, mais également l'ordre des gènes sur le chromosome lorsque trois gènes, ou plus, étaient liés.

Un modèle animal, la drosophile

Le modèle animal de la drosophile, de par son grand nombre d'individus à reproduction rapide et ses quatre gros chromosomes polytènes très visibles dans les cellules des glandes salivaires, a permis à T.H. Mogan et ses disciples de suivre plusieurs générations d'individus, et de théoriser l'origine (située sur le chromosome) et conséquences (crossing over, carte génétique...) de la génétique mendélienne.

Le taux de recombinaison le long des chromosomes de la drosophile peut être estimé grâce au "Recombination Rate Calculator".

Notes et références

(en) JBS Haldane, « The combination of linkage values and the calculation of distances between the loci of linked factors », Journal of Genetics 8.29,‎ 1919, p. 299-309 (lire en ligne)
(en) A.C. Cavell, « Collinearity between a 30-centimorgan segment of Arabidopsis thaliana chromosome 4 and duplicated regions within the Brassica napus genome », Genome,‎ 1998, p. 41(1): 62-69 (lire en ligne)
(en) « Haldane's Mapping Function », dans Encyclopedia of Genetics, Genomics, Proteomics and Informatics, Springer Netherlands, 2008 (ISBN 978-1-4020-6754-9, DOI 10.1007/978-1-4020-6754-9_7297, lire en ligne), p. 836–836
(en) D. D. Kosambi, « The Estimation of Map Distances from Recombination Values », dans D.D. Kosambi: Selected Works in Mathematics and Statistics, Springer India, 2016 (ISBN 978-81-322-3676-4, DOI 10.1007/978-81-322-3676-4_16, lire en ligne), p. 125–130

Voir aussi

Portail de la biologie cellulaire et moléculaire

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] (en) JBS Haldane, « The combination of linkage values and the calculation of distances between the loci of linked factors », Journal of Genetics 8.29,‎ 1919, p. 299-309 (lire en ligne)

[2] (en) A.C. Cavell, « Collinearity between a 30-centimorgan segment of Arabidopsis thaliana chromosome 4 and duplicated regions within the Brassica napus genome », Genome,‎ 1998, p. 41(1): 62-69 (lire en ligne)

[:0-3] (en) « Haldane's Mapping Function », dans Encyclopedia of Genetics, Genomics, Proteomics and Informatics, Springer Netherlands, 2008 (ISBN 978-1-4020-6754-9, DOI 10.1007/978-1-4020-6754-9_7297, lire en ligne), p. 836–836

[4] (en) D. D. Kosambi, « The Estimation of Map Distances from Recombination Values », dans D.D. Kosambi: Selected Works in Mathematics and Statistics, Springer India, 2016 (ISBN 978-81-322-3676-4, DOI 10.1007/978-81-322-3676-4_16, lire en ligne), p. 125–130