Famille exponentielle

Une famille exponentielle est un objet mathématique qui est, en probabilité et statistique, une classe de distributions de probabilité dont la forme générale est donnée par :

f_{X}(x;\theta )=a(x)\,b(\theta )\,\exp \left(\eta (\theta )\cdot T(x)\right)

où $X$ est la variable aléatoire, $\theta$ un paramètre et $\eta$ son paramètre naturel.

Propriétés algébriques

Les familles exponentielles présentent certaines propriétés algébriques remarquables.

La caractérisation d'une distribution en famille exponentielle permet de reformuler la distribution à l'aide de ce qu'on appelle des paramètres naturels.

En statistique fréquentiste, elles permettent d'obtenir facilement des statistiques d'échantillonnage, à savoir les statistiques suffisantes naturelles de la famille, qui résument un échantillon de données à l'aide d'un nombre réduit de valeurs.

En statistique bayésienne, elles possèdent des prieures conjuguées qui facilitent la mise à jour des distributions dites "subjectives".

De plus, la distribution prédictive a posteriori d'une variable aléatoire de famille exponentielle (à prieure conjuguée) peut toujours s'écrire en forme close (pour autant que le facteur de normalisation de la famille exponentielle puisse lui-même s'écrire en forme close). Il est à noter toutefois que souvent ces distributions ne sont pas elles-mêmes de famille exponentielle^[pas clair]. Exemples courants : la loi t de Student, la loi bêta-binomiale ou la loi de Dirichlet multinomiale.

Les familles exponentielles apparaissent de façon naturelle dans la recherche de distributions lors d'applications statistiques, en particulier dans les méthodes bayesiennes.

La famille exponentielle comprend quantité de distributions parmi les plus courantes : normale, exponentielle, gamma, χ², bêta, Dirichlet, Bernoulli, Bernoulli multinomiale, Poisson, Wishart, Wishart inverse, etc. D'autres distributions courantes ne forment une famille exponentielle que si certains paramètres sont fixes et de valeur connue, telles les distributions binomiale et multinomiale (pour un nombre de tirages fixe dans les deux cas), et binomiale négative (pour un nombre d'échecs fixe). Parmi les distributions d'usage courant qui ne sont pas de famille exponentielle, on peut citer la loi t de Student, la plupart des mixtures, ainsi que la famille des distributions uniformes de bornes non fixées.

Origine et terminologie

La notion de famille exponentielle a été développée en 1935/36 par Georges Darmois[1], E. J. G. Pitman[2] et Bernard Koopman [3].
Le terme classe exponentielle est parfois utilisé dans le même sens[4]^,[5].

À proprement parler, une distribution est définie par les valeurs spécifiques des constantes utilisées dans sa formulation : par exemple, la loi normale ${\mathcal {N}}(10;200)$ donne une distribution normale avec une moyenne $\mu =10$ et un écart-type $\sigma =10{\sqrt {2}}$ . Une « famille » de distributions est définie par un ou plusieurs paramètres variables : par exemple les familles de Poisson $P(\lambda )$ . Cette famille peut être considérée comme exponentielle lorsque la fonction de densité/probabilité prend une forme algébrique particulière entre la variable aléatoire et les paramètres : la séparation des facteurs.

Dans la pratique cependant, on entend parler de la famille exponentielle, là où il faudrait citer les familles exponentielles ; de même qu'on parle de distribution pour dire "famille de distributions". Ainsi, nous disons couramment la distribution normale pour parler de la famille de distributions normales à moyenne et variance inconnues ${\mathcal {N}}(\mu ,\sigma ^{2})$ .

La célèbre distribution binomiale est en réalité une famille de distributions-sœurs caractérisées par un paramètre n (nombre de tirages) et un paramètre p (probabilité de succès).

Si n et p ont tous deux reçu une valeur particulière (ex : n=20, p=0.1), ${\mathcal {B}}(20,0.1)$ est une distribution binomiale unique.
Si n a reçu une valeur particulière (n=20), mais p peut varier, il s'agit d'une famille de distributions binomiales, caractérisée par le paramètre p. n est une constante et non un paramètre.
Si n et p sont tous deux libres de varier, il s'agira d'une famille plus large de distributions binomiales, de paramètres n etp.

Les trois situations sont habituellement dénommées "la distribution binomiale", mais seule la seconde constitue une famille exponentielle.

Le cas de la distribution uniforme est à remarquer.
- Parfois, l'expression "nombre aléatoire tiré d'une distribution uniforme" fait référence à la distribution uniforme continue entre 0 et 1. Cette même ${\mathcal {U}}([0;1])$ est décrite comme un cas particulier de la distribution Bêta. Comme la Bêta est de famille exponentielle, d'aucuns seraient tentés de conclure que l'Uniforme est aussi de famille exponentielle. Mais en réalité cet exemple n'est qu'une distribution uniforme particulière, et non une famille.
- Quant à la famille de distributions uniformes, elle est caractérisée par la nature paramétrique d'une ou des deux bornes. Aucune de ces familles n'est une famille exponentielle.

Définition

Une famille exponentielle est un ensemble de distributions dont la loi de probabilité (discrète ou continue) peut s'écrire sous la forme de facteurs séparables :

f_{X}(x;\theta )=a(\theta )\,b(x)\,\exp \left(\eta (\theta )\cdot T(x)\right)

où $T(x)$ , $b(x)$ , $\eta (\theta )$ et $a(\theta )$ sont précisées.

Souvent, la densité s'écrira sous la forme alternative

f_{X}(x;\theta )=b(x)\,\exp \left(\eta (\theta )\cdot T(x)-A(\theta )\right)

ou même

f_{X}(x;\theta )=\exp \left(\eta (\theta )\cdot T(x)-A(\theta )+B(x)\right)

La valeur $\theta$ est le paramètre de la famille.

La variable aléatoire $x$ peut représenter un vecteur de plusieurs mesures. Dans ce cas, $T(x)$ est une fonction de plusieurs variables. Que $x$ soit scalaire ou vectoriel, et même s'il y a un paramètre unique, les fonctions $\eta (\theta )$ et $T(x)$ peuvent prendre la forme de vecteurs.

Forme canonique

La famille exponentielle est dite en forme canonique (ou naturelle) lorsque $\eta (\theta )=0$ . Il est toujours possible de convertir une famille exponentielle en forme canonique, par la définition d'un paramètre transformé $\theta '=\eta (\theta )$ :

f_{X}(x;\eta )=b(x)\,\exp \left(\eta \cdot T(x)\ -\ A(\eta )\right)

La valeur $η$ est un paramètre naturel de la famille.

La forme canonique n'est pas unique, puisque $\eta (\theta )$ peut être multiplié par une constante non nulle, pourvu que $T(x)$ soit multiplié par la constante inverse.

La fonction $A(\theta )$ (alternativement $a(\theta )$ ) est définie automatiquement par le choix des autres fonctions : elle assure que la distribution est normalisée (la somme ou l'intégrale sur toutes les valeurs doit donner une probabilité égale à 1). On notera que ces deux fonctions sont toujours des fonctions de $\eta$ . Ceci veut dire que si $\eta (\theta )$ n'est pas bijective, c'est-à-dire si plusieurs valeurs de $\theta$ donnent la même valeur de $\eta (\theta )$ , alors toutes les valeurs $\theta$ ayant la même image $\eta (\theta )$ auront également la même valeur pour $A(\theta )$ ou $a(\theta )$ ^[pas clair].

Famille exponentielle vectorielle

La définition ci-dessus, bien qu'à première vue exprimée en termes d'un paramètre scalaire, reste valable pour un paramètre vecteur de réels ${\vec {\theta }}=\left(\theta _{1},\theta _{2},\ldots ,\theta _{d}\right)^{T}$ . La distribution est dite de famille exponentielle vectorielle si la fonction de densité (ou de probabilité, pour les discrètes) s'écrit :

f_{X}(x;{\vec {\theta }})=b(x)\,a({\vec {\theta }})\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\vec {\theta }})\,T_{i}(x)\right)

ou, en forme compacte :

f_{X}(x;{\vec {\theta }})=b(x)\,a({\vec {\theta }})\,\exp \left({\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}(x)\right)

La somme est écrite comme le produit scalaire des fonctions-vecteurs ${\vec {\eta }}(\theta )$ et ${\vec {T}}(x)$ .

On peut également rencontrer une forme alternative du type :

f_{X}(x;{\vec {\theta }})=b(x)\,\exp \left({\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}(x)-A({\vec {\theta }})\right)

Comme précédemment, la famille exponentielle est sous forme canonique si $\eta _{i}({\vec {\theta }})=\theta _{i}$ , pour tout $i$ .

Famille exponentielle vectorielle courbe

Une famille exponentielle vectorielle est dite courbe si la dimension $d$ du vecteur paramètre ${\vec {\theta }}$ est inférieure à la dimension $s$ du vecteur ${\vec {\eta }}({\vec {\theta }})=\left(\eta _{1}({\vec {\theta }}),\eta _{2}({\vec {\theta }}),\ldots ,\eta _{s}({\vec {\theta }})\right)^{T}$ , le nombre de fonctions du vecteur paramètre dans la représentation factorisée.

Il est à noter que la plupart des distributions courantes de famille exponentielle ne sont pas courbes, de sorte que nombre d'algorithmes conçus pour la famille exponentielle supposent implicitement ou explicitement que la distribution n'est pas courbe.

La fonction de normalisation $A({\vec {\theta }})$ ou $a({\vec {\theta }})$ peut toujours s'écrire en fonction de ${\vec {\eta }}$ , quelles que soient les transformations de ${\vec {\theta }}$ en ${\vec {\eta }}$ . La famille exponentielle suivante est en « forme naturelle » (paramétrée par son paramètre naturel) :

f_{X}(x;{\vec {\eta }})=b(x)\,\exp \left({\vec {\eta }}\cdot {\vec {T}}(x)-A({\vec {\eta }})\right)

ou :

f_{X}(x;{\vec {\eta }})=b(x)\,a({\vec {\eta }})\,\exp \left({\vec {\eta }}\cdot {\vec {T}}(x)\right)

Variable vectorielle

De même qu'un paramètre scalaire est généralisable à un paramètre vectoriel, une variable aléatoire simple (scalaire) peut se généraliser à une distribution conjointe sur un vecteur de variables aléatoires : chaque notation scalaire $x$ est alors remplacée par un vecteur ${\vec {x}}=\left(x_{1},x_{2},\ldots ,x_{k}\right)$ . Il est à noter que la dimension $k$ du vecteur aléatoire ne correspond pas nécessairement à la dimension $d$ du vecteur paramètre, ni (pour une fonction exponentielle courbe) à la dimension $s$ du paramètre naturel ${\vec {\eta }}$ et de la statistique suffisante $T({\vec {x}})$ .

La distribution s'écrit alors :

f_{X}({\vec {x}};{\vec {\theta }})=b({\vec {x}})\,\exp \left({\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}({\vec {x}})-A({\vec {\theta }})\right)

ou :

f_{X}({\vec {x}};{\vec {\theta }})=b({\vec {x}})\,a({\vec {\theta }})\,\exp \left({\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}(\mathbf {x} )\right)

Propriétés

Les fonctions $T (x)$ , $η (θ)$ et $A (η)$ qui apparaissent dans les définitions ne sont pas totalement arbitraires. Elles jouent un rôle important pour l'analyse statistique.

$T (x)$ est une statistique suffisante (ou exhaustive) de la distribution. Une statistique suffisante est une fonction qui résume parfaitement les données mesurées $x$ dans le cadre d'un échantillon tiré de cette distribution : même si un autre jeu de données $y$ diffère complètement de $x$ , mais que $T (x) = T (y)$ , alors la densité estimée à partir des observations sera la même, c.à.d. elle aura le même paramètre.

La dimension de $T (x)$ égale le nombre de paramètres de $η$ .

La statistique suffisante d'une collection de données indépendantes et identiquement distribuées (i.i.d.) est la somme des statistiques suffisantes individuelles. En estimation bayésienne, elle contient toute l'information nécessaire au calcul de la distribution a posteriori des paramètres, conditionnellement aux observations. En estimation classique, elle suffit pour construire un estimateur des paramètres.

$η$ est le paramètre naturel de la distribution. L'ensemble des valeurs de $η$ pour lesquelles la fonction $f X (x | θ)$ est finie est appelé l' espace paramétrique naturel. On peut montrer que cet espace paramétrique naturel est toujours convexe.

$A (η)$ est parfois appelée la fonction de log-partition parce qu'elle est le logarithme du facteur de normalisation $a (η)$ (la "fonction de partition" des statisticiens) :

a(\eta )=\left\{\int _{x}b(x)\ \exp[\ \eta (\theta )\cdot T(x)\ ]\operatorname {d} \!x\right\}^{-1}

ou

A(\eta )=\ln \left\{\int _{x}b(x)\ \exp[\ \eta (\theta )\cdot T(x)\ ]\operatorname {d} \!x\right\}

L'utilité de la fonction

A

apparaît quand il faut calculer la moyenne, la variance et les autres moments de la statistique suffisante

T (x)

: il suffit de dériver

A (η)

.

Par exemple, on veut calculer l'espérance du logarithme d'une variable aléatoire Gamma. Comme

ln(x)

est une composante de la statistique suffisante de la distribution Gamma, l'espérance

\mathbb {E} [\ln x]

se calcule aisément en dérivant

A(\eta )=\ln \Gamma (r)-r\ln \lambda \,

.

$b (x)$ est la mesure de base. Elle sert au calcul d'une prieure non informative (= entropie maximale).

Factorisation

Un moyen de caractériser une famille exponentielle est sa factorisation en un produit de termes contenant chacun un seul type de variable, paramètres ou variables aléatoires. Ces facteurs sont présents soit directement, soit dans l'exponentiation (base ou exposant). De façon générale, les facteurs multipliés entre eux devront donc avoir une des formes suivantes :

$f(x)$	$c^{f(x)}$	${[f(x)]}^{c}$	${[f(x)]}^{g(\theta )}$	${[f(x)]}^{h(x)g(\theta )}$
$g(\theta )$	$c^{g(\theta )}$	${[g(\theta )]}^{c}$	${[g(\theta )]}^{f(x)}$	${[g(\theta )]}^{h(x)j(\theta )}$

où $f (x)$ et $h (x)$ sont des fonctions quelconques de $x$ , $g (θ)$ et $j (θ)$ sont des fonctions quelconques de $θ$ ; et $c$ est une expression quelconque "constante" (c.à.d. ne comportant ni $x$ ni $θ$ ).

La forme ${[f(x)]}^{g(\theta )}$ est acceptable parce que ${[f(x)]}^{g(\theta )}={\rm {e}}^{g(\theta )\ln f(x)}\,$ qui se factorise dans l'exposant. De même pour ${[f(x)]}^{h(x)g(\theta )}={\rm {e}}^{h(x)g(\theta )\ln f(x)}={\rm {e}}^{[h(x)\ln f(x)]g(\theta )}\,$ .

Ces facteurs sont toutefois limités en nombre. Par exemple, l'expression ${[f(x)g(\theta )]}^{h(x)j(\theta )}$ est identique à ${[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )}$ , un produit de deux facteurs "autorisés". Pourtant, sa forme factorisée

{[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )}=\exp \left([h(x)\ln f(x)]j(\theta )+h(x)[j(\theta )\ln g(\theta )]\right)\,,

n'a pas la forme requise. (Par contre, ce genre d'expression constitue une famille exponentielle courbe, qui permet plusieurs termes factorisés dans l'exposant.)

Une somme incluant les deux types de variables, comme par exemple le facteur $[1+ f (x) g (θ)]$ , ne se prête pas toujours à la factorisation. C'est la raison pour laquelle la loi de Cauchy et la t de Student, par exemple, ne sont pas de famille exponentielle.

Exemples de factorisation

La distinction entre paramètres et constantes est fondamentale pour déterminer si une "distribution" est ou non de famille exponentielle.

Paramètre scalaire

La variable aléatoire normale de moyenne inconnue $μ$ mais de variance $σ 2$ constante a pour fonction de densité

f_{\sigma }(x;\mu )={\frac {1}{{\sqrt {2\pi }}|\sigma |}}{\rm {e}}^{-(x-\mu )^{2}/2\sigma ^{2}}

En posant

b_{\sigma }(x)={\frac {1}{{\sqrt {2\pi }}|\sigma |}}{\rm {e}}^{-x^{2}/2\sigma ^{2}},\,T_{\sigma }(x)={\frac {x}{\sigma }}\,A_{\sigma }(\mu )={\frac {\mu ^{2}}{2\sigma ^{2}}}\,\eta _{\sigma }(\mu )={\frac {\mu }{\sigma }},\,

on voit que c'est une famille exponentielle, à paramètre simple $μ$ .

Si $σ = 1$ , elle est en forme canonique, car alors $η (μ) = μ$ .

Paramètre vectoriel

Dans le cas de la normale de moyenne inconnue $μ$ et de variance inconnue $σ 2$ , la fonction de densité

f(x;\mu ,\sigma )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}{\rm {e}}^{-(x-\mu )^{2}/2\sigma ^{2}}

est une famille exponentielle à paramètre vectoriel $(μ, σ)$ qui s'écrit sous forme canonique en posant

b(x)={1 \over {\sqrt {2\pi }}},\,{\boldsymbol {T}}(x)={\binom {x}{x^{2}}},\,{\boldsymbol {\eta }}(\mu ,\sigma )={\begin{pmatrix}{\frac {\mu }{\sigma ^{2}}}\\-{\frac {1}{2\sigma ^{2}}}\end{pmatrix}},\,A(\mu ,\sigma )={\mu ^{2} \over 2\sigma ^{2}}+\ln |\sigma |=A({\boldsymbol {\eta }})=-\eta _{1}^{2}/4\eta _{2}+1/2\ln |1/2\eta _{2}|

Distribution discrète

La distribution binomiale à nombre de tirages n constant constitue un exemple de famille exponentielle discrète. Sa densité de probabilité

f(x)={\binom {n}{x}}p^{x}(1-p)^{n-x},\quad x\in \{0,1,2,\ldots ,n\}

se factorise en

f(x)={\binom {n}{x}}\exp \left[x\ln \left({p \over 1-p}\right)+n\ln \left(1-p\right)\right]

.

Son paramètre naturel vaut

\eta =\ln {p \over 1-p}

qu'on appelle la fonction logit.

Tableau de familles exponentielles

Ce tableau reprend une sélection de distributions courantes et leur réécriture en famille exponentielle à paramètres naturels, de forme générale

f_{X}(\mathbf {x} |{\boldsymbol {\theta }})=b(\mathbf {x} )\ \exp \left(\ {\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\eta }})\ \right)\,\!

On a privilégié la forme fonctionnelle avec une fonction de log-partition $A (η)$ , parce que les moments de la statistique suffisante se calculent facilement en dérivant cette dernière fonction. On a donné également la fonction $A (θ)$ .

Sont de famille exponentielle, les distributions normale, exponentielle, log-normale, Gamma, khi-carré, Bêta, Dirichlet, Bernoulli, multinomiale, Poisson, géométrique, inverse-gaussienne, von Mises et von Mises-Fisher.
Sont de famille exponentielle uniquement si un paramètre est fixé ("constant"): la Pareto à borne inférieure $x m$ fixée ; les binomiales et multinomiales à nombre de tirages n fixé ; les binomiales négatives à nombre d'échecs (ou paramètre d'arrêt) r fixé.

En règle générale, le domaine de définition, ou support, reste constant parmi toutes les distributions d'une famille exponentielle. Ceci explique pourquoi la variation des paramètres fixés ci-dessus (comme la binomiale à nombre de tirages variable) rend la famille non exponentielle — le paramètre en question affecte le support (en l'occurrence, il modifie la valeur minimum ou maximum possible). C'est pour la même raison que la famille des Uniformes n'est pas non plus exponentielle.

La loi de Weibull à paramètre de forme k fixé est une famille exponentielle. Pourtant, le paramètre de forme ne modifie pas le support. Dans ce cas, c'est la forme particulière de sa fonction de densité (k apparaît dans l'exposant d'un exposant) qui empêche la factorisation de la Weibull si k varie.

Ne sont pas de famille exponentielle : les distributions F de Fisher-Snedecor, Cauchy, hypergéométrique et logistique. De même, la plupart des distributions qui résultent du mélange fini ou infini de distributions ne sont pas des familles exponentielles : les mélanges gaussiens, les distributions "à grosse queue" construites par composition telles la t de Student (composition d'une loi normale par une loi gamma), la Bêta-binomiale et la Dirichlet-multinomiale.

Distribution	paramètre $θ$	paramètre naturel $η$	fonction réciproque $θ (η)$	mesure de base $b (x)$	statistique suffisante $T (x)$	log-partition $A (η)$	$A (θ)$
Bernoulli	$p$	$\ln {\frac {p}{1-p}}$ (fonction logit)	${\frac {1}{1+{\rm {e}}^{-\eta }}}={\frac {{\rm {e}}^{\eta }}{1+{\rm {e}}^{\eta }}}$ (fonction logistique)	1	$x$	$\ln(1+{\rm {e}}^{\eta })$	$-\ln(1-p)$
binomiale (n constant)	p	$\ln {\frac {p}{1-p}}$	${\frac {1}{1+{\rm {e}}^{-\eta }}}={\frac {{\rm {e}}^{\eta }}{1+{\rm {e}}^{\eta }}}$	$\mathbf {C} _{n}^{x}$	$x$	$n\ln(1+{\rm {e}}^{\eta })$	$-n\ln(1-p)$
Poisson	λ	$\ln \lambda$	$\exp(\eta )$	${\frac {1}{x!}}$	$x$	$\exp(\eta )$	$λ$
Binomiale négative (r constant)	p	$ln(p)$	$\exp(\eta )$	$\Gamma _{r}^{x}$	$x$	$-r\ln(1-\exp(\eta ))$	$- r ln(1- p)$
Exponentielle	$λ$	$-λ$	$-\eta$	1	$x$	$-\ln(-\eta )$	$-\ln \lambda$
Pareto (minimum $x m$ constant)	$α$	$-\alpha -1$	$-1-\eta$	1	$ln(x)$	$-\ln(-1-\eta )$ $+(1+\eta )\ln x_{\mathrm {m} }$	$-\ln \alpha$ $-\alpha \ln x_{\mathrm {m} }$
Weibull (k constant)	$λ$	$-λ k$	$(-\eta )^{1/k}$	$x^{k-1}$	$x k$	$\ln(-\eta )-\ln k$	$k\ln \lambda -\ln k$
Laplace (μ constant)	$b$	$-{\frac {1}{b}}$	$-{\frac {1}{\eta }}$	1	$\|x-\mu \|$	$\ln \left(-{\frac {2}{\eta }}\right)$	$ln(2 b)$
Khi-carré	$ν$	${\frac {\nu }{2}}-1$	$2(\eta +1)$	${\rm {e}}^{-x/2}$	$ln(x)$	$\ln \Gamma (\eta +1)$ $+(\eta +1)\ln 2$	$\ln \Gamma \left({\frac {\nu }{2}}\right)$ $+{\frac {\nu }{2}}\ln 2$
Normale (variance constante)	$μ$	${\frac {\mu }{\sigma }}$	$σ η$	${\frac {1}{{\sqrt {2\pi }}\sigma }}{\rm {e}}^{-{\frac {x^{2}}{2\sigma ^{2}}}}$	${\frac {x}{\sigma }}$	$-{\frac {\eta ^{2}}{2}}$	${\frac {\mu ^{2}}{2\sigma ^{2}}}$
Normale	$μ, σ 2$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[10pt]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}x\\x^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\ln(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\ln \sigma$
Log-normale	$μ, σ 2$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[10pt]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x}}$	${\begin{bmatrix}\ln x\\(\ln x)^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\ln(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\ln \sigma$
Normale inverse	$μ, λ$	${\begin{bmatrix}-{\dfrac {\lambda }{2\mu ^{2}}}\\[15pt]-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}{\sqrt {\dfrac {\eta _{2}}{\eta _{1}}}}\\[15pt]-2\eta _{2}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x^{3/2}}}$	${\begin{bmatrix}x\\[5pt]{\dfrac {1}{x}}\end{bmatrix}}$	$-2{\sqrt {\eta _{1}\eta _{2}}}-{\frac {1}{2}}\ln(-2\eta _{2})$	$-{\frac {\lambda }{\mu }}-{\frac {1}{2}}\ln \lambda$
Gamma-Normale	$α, β, μ, λ$	${\begin{bmatrix}\alpha -{\frac {1}{2}}\\-\beta -{\dfrac {\lambda \mu ^{2}}{2}}\\\lambda \mu \\-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+{\frac {1}{2}}\\-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\\-{\dfrac {\eta _{3}}{2\eta _{4}}}\\-2\eta _{4}\end{bmatrix}}$	${\dfrac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}\ln \tau \\\tau \\\tau x\\\tau x^{2}\end{bmatrix}}$	$\ln \Gamma \left(\eta _{1}+{\frac {1}{2}}\right)$ $-{\frac {1}{2}}\ln \left(-2\eta _{4}\right)$ $-\left(\eta _{1}+{\frac {1}{2}}\right)\ln \left({\dfrac {\eta _{3}^{2}}{4\eta _{4}}}-\eta _{2}\right)$	$\ln \Gamma \left(\alpha \right)-\alpha \ln \beta \|$ $-{\frac {1}{2}}\ln \lambda$
Gamma	$r, λ$	${\begin{bmatrix}r-1\\-\lambda \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\-\eta _{2}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\x\end{bmatrix}}$	$\ln \Gamma (\eta _{1}+1)$ $-(\eta _{1}+1)\ln(-\eta _{2})$	$\ln \Gamma (r)-r\ln \lambda$
Gamma	$k, θ$	${\begin{bmatrix}k-1\\[5pt]-{\dfrac {1}{\theta }}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\[5pt]-{\dfrac {1}{\eta _{2}}}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\x\end{bmatrix}}$	$\ln \Gamma (\eta _{1}+1)$ $-(\eta _{1}+1)\ln(-\eta _{2})$	$\ln \Gamma (k)+k\ln \theta$
Gamma inverse	$r, λ$	${\begin{bmatrix}-r-1\\-\lambda \end{bmatrix}}$	${\begin{bmatrix}-\eta _{1}-1\\-\eta _{2}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\1/x\end{bmatrix}}$	$\ln \Gamma (-\eta _{1}-1)$ $-(-\eta _{1}-1)\ln(-\eta _{2})$	$\ln \Gamma (r)-r\ln \lambda$
Khi-carré inverse	$ν, σ 2$	${\begin{bmatrix}-{\dfrac {\nu }{2}}-1\\[10pt]-{\dfrac {\nu \sigma ^{2}}{2}}\end{bmatrix}}$	${\begin{bmatrix}-2(\eta _{1}+1)\\[10pt]{\dfrac {\eta _{2}}{\eta _{1}+1}}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\1/x\end{bmatrix}}$	$\ln \Gamma (-\eta _{1}-1)$ $-(-\eta _{1}-1)\ln(-\eta _{2})$	$\ln \Gamma \left({\frac {\nu }{2}}\right)\|$ $-{\frac {\nu }{2}}\ln {\frac {\nu \sigma ^{2}}{2}}$
Bêta	$α, β$	${\begin{bmatrix}\alpha \\\beta \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}\\\eta _{2}\end{bmatrix}}$	${\frac {1}{x(1-x)}}$	${\begin{bmatrix}\ln x\\\ln(1-x)\end{bmatrix}}$	$\ln \Gamma (\eta _{1})+\ln \Gamma (\eta _{2})$ $-\ln \Gamma (\eta _{1}+\eta _{2})$	$\ln \Gamma (\alpha )+\ln \Gamma (\beta )$ $-\ln \Gamma (\alpha +\beta )$
Dirichlet	$α 1,..., α k$	${\begin{bmatrix}\alpha _{1}-1\\\vdots \\\alpha _{k}-1\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\\vdots \\\eta _{k}+1\end{bmatrix}}$	1	${\begin{bmatrix}\ln x_{1}\\\vdots \\\ln x_{k}\end{bmatrix}}$	$\sum _{i=1}^{k}\ln \Gamma (\eta _{i}+1)$ $-\ln \Gamma \left(\sum _{i=1}^{k}\left(\eta _{i}+1\right)\right)$	$\sum _{i=1}^{k}\ln \Gamma (\alpha _{i})\|$ $-\ln \Gamma \left(\sum _{i=1}^{k}\alpha _{i}\right)$
Normale multivariée	$μ, Σ$	${\begin{bmatrix}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\Sigma }}^{-1}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}\end{bmatrix}}$	$(2\pi )^{-k/2}$	${\begin{bmatrix}\mathbf {x} \\[5pt]\mathbf {x} \mathbf {x} ^{\mathrm {T} }\end{bmatrix}}$	$-{\frac {1}{4}}{\boldsymbol {\eta }}_{1}^{\rm {T}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}$ $-{\frac {1}{2}}\ln \left\|-2{\boldsymbol {\eta }}_{2}\right\|$	${\frac {1}{2}}{\boldsymbol {\mu }}^{\rm {T}}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\|$ $+{\frac {1}{2}}\ln \|{\boldsymbol {\Sigma }}\|$
Wishart	$V, n$	${\begin{bmatrix}-{\frac {1}{2}}\mathbf {V} ^{-1}\\[5pt]{\dfrac {n-p-1}{2}}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1}\\[5pt]2\eta _{2}+p+1\end{bmatrix}}$	1	${\begin{bmatrix}\mathbf {X} \\\ln \|\mathbf {X} \|\end{bmatrix}}$	$-\left(\eta _{2}+{\frac {p+1}{2}}\right)\ln \|-{\boldsymbol {\eta }}_{1}\|$ $+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)=$ $-{\frac {n}{2}}\ln \|-{\boldsymbol {\eta }}_{1}\|+\ln \Gamma _{p}\left({\frac {n}{2}}\right)=$ $\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln \|\mathbf {V} \|)$ $+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)$	${\frac {n}{2}}(p\ln 2+\ln \|\mathbf {V} \|)$ $+\ln \Gamma _{p}\left({\frac {n}{2}}\right)$
Wishart	$A (η)$ est donnée sous trois formes, afin de faciliter le calcul des moments. NOTE: Se rappeler que $Tr(A'B) = vec(A) • vec(B)$ ; autrement dit, la trace d'un produit matriciel est semblable à un produit scalaire. Les paramètres matriciels sont considérés comme des vecteurs dans la forme exponentielle. Par ailleurs, $V$ et $X$ sont symétriques.
Wishart inverse	$Ψ, m$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\Psi }}\\[5pt]-{\dfrac {m+p+1}{2}}\end{bmatrix}}$	${\begin{bmatrix}-2{\boldsymbol {\eta }}_{1}\\[5pt]-(2\eta _{2}+p+1)\end{bmatrix}}$	1	${\begin{bmatrix}\mathbf {X} ^{-1}\\\ln \|\mathbf {X} \|\end{bmatrix}}$	$\ln \Gamma _{p}\left(-\left(\eta _{2}+{\frac {p+1}{2}}\right)\right)+$ $\left(\eta _{2}+{\frac {p+1}{2}}\right)\ln \|-{\boldsymbol {\eta }}_{1}\|=$ $\ln \Gamma _{p}\left({\frac {m}{2}}\right)-{\frac {m}{2}}\ln \|-{\boldsymbol {\eta }}_{1}\|=$ $\ln \Gamma _{p}\left(-\left(\eta _{2}+{\frac {p+1}{2}}\right)\right)-$ $\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2-\ln \|{\boldsymbol {\Psi }}\|)$	${\frac {m}{2}}(p\ln 2-\ln \|{\boldsymbol {\Psi }}\|)$ $+\ln \Gamma _{p}\left({\frac {m}{2}}\right)$
multinomiale (n constant) (= Multi-Bernoulli si n=1) version 1	$p 1,..., p k$ avec $\sum _{i=1}^{k}p_{i}=1$	${\begin{bmatrix}\ln p_{1}\\\vdots \\\ln p_{k}\end{bmatrix}}$	${\begin{bmatrix}{\rm {e}}^{\eta _{1}}\\\vdots \\{\rm {e}}^{\eta _{k}}\end{bmatrix}}$ $\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=1$	${\frac {n!}{\prod _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	0	0
Multinomiale (n constant) version 2	$p 1,..., p k -1$ avec $p_{k}=$ $1-\sum _{i=1}^{k-1}p_{i}$	${\begin{bmatrix}\ln {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\ln {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}$	${\begin{bmatrix}{\dfrac {{\rm {e}}^{\eta _{1}}}{\sum _{i=1}^{k}{\rm {e}}^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {{\rm {e}}^{\eta _{k}}}{\sum _{i=1}^{k}{\rm {e}}^{\eta _{i}}}}\end{bmatrix}}$	${\frac {n!}{\prod _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	$\ln \left(\sum _{i=1}^{k}{\rm {e}}^{\eta _{i}}\right)$	$-\ln p_{k}$

La variante de la multinomiale résulte du fait que les paramètres $p i$ sont contraints par $\sum _{i=1}^{k}p_{i}=1$ . Il n'y a donc que k-1 paramètres indépendants.

Dans la version 1, on voit k paramètres naturels et une relation simple entre les paramètres standard et naturel. Cependant, k-1 seulement des paramètres naturels sont indépendants, et du coup l'ensemble des k paramètres naturels est non identifiable. La contrainte sur les paramètres normaux se transpose à l'identique sur les paramètres naturels.

Notez que la version 1 n'est pas une famille exponentielle standard. C'est une famille exponentielle courbe, puisque k-1 paramètres indépendants sont incorporés dans un espace k-dimensionnel. Les propriétés de base des familles exponentielles ne s'appliquent pas aux familles exponentielles courbes. Par exemple on voit que la fonction de log-partition $A (x)$ a la valeur 0.

La version 2 montre une manière simple de rendre les paramètres identifiables en fixant $p k$ . Cela force le dernier paramètre naturel à la valeur constante 0. Les autres formules sont écrites de façon à ne pas utiliser $p k$ , de sorte que le modèle n'a bien que k-1 paramètres, tant sous forme normale que sous forme canonique.

Applications

Estimation classique : exhaustivité

Le théorème de Pitman–Koopman–Darmois montre que parmi les familles de distributions dont le domaine ne dépend pas du paramètre à estimer, seules les familles exponentielles offrent une statistique suffisante dont la dimension reste bornée quand la taille d'échantillon croît.

Concrètement, soient $X k$ , (où k = 1, 2, 3, ... n) des variables aléatoires indépendantes, identiquement distribuées. Il faut que leur distribution soit de famille exponentielle pour qu'existe une statistique suffisante $T (X 1, ..., X n)$ dont le nombre de composantes scalaires n'augmente pas avec la taille d'échantillon n : sa dimension ne changera pas quand on collecte plus de données.

Estimation bayesienne : distributions conjuguées

En inférence bayésienne, une distribution a priori d'un paramètre à estimer est multipliée par une fonction de vraisemblance (puis normalisée) pour aboutir à une distribution a posteriori.

Une prieure conjuguée est une distribution a priori qui, après combinaison à la fonction de vraisemblance, donne une distribution a posteriori de même type, ce qui rend particulièrement facile le calcul de la postérieure. Par exemple, pour estimer la probabilité de succès p d'une loi binomiale, si on prend une distribution bêta comme prieure, la postérieure sera une autre distribution bêta. De même, l'estimation du paramètre d'une Poisson par une prieure Gamma donne une postérieure Gamma. Les prieures conjuguées sont souvent très pratiques, de par leur flexibilité.

Lorsque la fonction de vraisemblance est de famille exponentielle, il existe une prieure conjuguée, qui sera en général elle aussi de famille exponentielle. En règle générale, une fonction de vraisemblance ne sera pas de famille exponentielle, et donc il n'existera pas de prieure conjuguée. La postérieure devra être calculée par des méthodes numériques.

La prieure conjuguée $π$ (pour "prior") sur le paramètre $η$ d'une famille exponentielle est donnée par

\pi ({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}-\nu \,A({\boldsymbol {\eta }}))=f({\boldsymbol {\chi }},\nu )a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}),

où

$ν > 0$ représente le nombre virtuel d'observations fournies par la prieure.
${\boldsymbol {\chi }}\in \mathbb {R} ^{s}$ ( $s$ étant la dimension de $η$ ) représente la contribution de ces pseudo-observations dans la statistique suffisante constituée de toutes les observations et pseudo-observations.

$χ$ et $ν$ sont des hyperparamètres (paramètres contrôlant des paramètres).

$f (χ, ν)$ est la constante de normalisation, déterminée automatiquement par les autres fonctions, qui sert à assurer que $π(η | χ, ν)$ est une fonction de densité.
$A (η)$ (resp. $a (η)$ ) sont les mêmes fonctions que dans la distribution $p (x | χ)$ pour laquelle $π$ est prieure conjuguée.

Pour voir que cette distribution a priori est une prieure conjuguée, calculons-en la postérieure.

Soit la fonction de densité (ou de probabilité) d'une observation, de famille exponentielle, écrite en paramètre naturel :

p(x|{\boldsymbol {\eta }})=b(x)a({\boldsymbol {\eta }})\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)\ \right)\,\!

La vraisemblance des données $X = (x 1, ..., x n)$ est donnée par :

p(\mathbf {X} |{\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}b(x_{i})\right)a({\boldsymbol {\eta }})^{n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left(\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)

Par conséquent, en appliquant la distribution a priori susdite :

{\begin{aligned}\pi ({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )&=f({\boldsymbol {\chi }},\nu )a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})&\propto a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\end{aligned}}

on dérive la postérieure :

{\begin{aligned}p({\boldsymbol {\eta }}|\mathbf {X} ,{\boldsymbol {\chi }},\nu )&\propto p(\mathbf {X} |{\boldsymbol {\eta }})\pi ({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )\\&=\left(\prod _{i=1}^{n}b(x_{i})\right)a({\boldsymbol {\eta }})^{n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left(\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)f({\boldsymbol {\chi }},\nu )a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto a({\boldsymbol {\eta }})^{n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left(\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto a({\boldsymbol {\eta }})^{\nu +n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)\end{aligned}}

Ainsi, la postérieure a effectivement la même forme que la prieure :

p({\boldsymbol {\eta }}|\mathbf {X} ,{\boldsymbol {\chi }},\nu )=\pi ({\boldsymbol {\eta }}|[{\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})],[\nu +n])

Notons que les observations $X$ n'entrent dans la formule que à travers $\mathbf {T} (\mathbf {X} )=\sum _{i=1}^{n}\mathbf {T} (x_{i})$ , autrement dit la statistique suffisante des observations. Ceci confirme que la valeur de la statistique suffisante détermine complètement la distribution a posteriori. Les valeurs individuelles des observations ne sont pas nécessaires ; tout ensemble de données avec la même valeur pour la statistique suffisante produira la même distribution. Or, rappelons que la dimension de la statistique suffisante ne croît pas avec la taille d'échantillon : elle a au plus le nombre de composantes de $η$ (à savoir, le nombre de paramètres de la distribution d'une seule donnée).

Les nouveaux hyperparamètres sont

{\boldsymbol {\chi }}\implies {\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} )={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})

\nu \implies \nu +n

La mise à jour bayesienne ne nécessite que de savoir le nombre d'observations et la valeur de la statistique suffisante des données.

Tests d'hypothèses : tests uniformément plus puissants

Pour une famille exponentielle à paramètre simple $θ$ , si $η (θ)$ est non-décroissant, le ratio de vraisemblance est une fonction monotone non-décroissante de la statistique suffisante $T (x)$ . En conséquence, il existe un test d'hypothèse "uniformément plus puissant" pour tester $H 0 : θ \geq θ 0$ contre H₁ : θ < θ₀.

Modèle linéaire généralisé

La famille exponentielle est à la base des fonctions de distribution utilisées dans le modèle linéaire généralisé, qui comprend la plupart des modèles de régression en statistique et en économétrie.

Calcul des cumulants de T par différenciation

La fonction génératrice des moments de $T (x)$ est définie comme

m_{T}(u)\equiv \mathbb {E} [{\rm {e}}^{u'T(x)}|\eta ]=\int _{x}b(x){\rm {e}}^{(\eta +u)'T(x)-A(\eta )}\mathrm {d} x={\rm {e}}^{A(\eta +u)-A(\eta )}

Par conséquent, $K (u | η) = A (η + u) - A (η)$ est la fonction génératrice des cumulants de $T$ .

N.B. : Dans la sous-famille exponentielle naturelle (où

T (x) = x

), c'est la fonction génératrice des moments de

x

.

Par définition de la fonction génératrice des cumulants,

\mathbb {E} (T_{j})={\frac {\partial A(\eta )}{\partial \eta _{j}}}\ {\textrm {et}}\ \mathrm {cov} (T_{i},T_{j})={\frac {\partial ^{2}A(\eta )}{\partial \eta _{i}\,\partial \eta _{j}}}.

Les moments et cumulants d'ordre supérieur sont fournis par les dérivées supérieures. Cette technique est particulièrement utile lorsque $T$ est une fonction compliquée, dont les moments sont difficiles à calculer par intégration.

Ce résultat est démontrable sans recourir à la théorie des cumulants.

Exemple : soit

p(x)=a(\eta )b(x){\rm {e}}^{\eta T(x)}

.

Par contrainte de normalisation,

1=\int _{x}p(x)\,\mathrm {d} x=\int _{x}a(\eta )b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x=a(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x

.

On dérive les deux côtés par rapport à $η$ :

{\begin{aligned}0&=a(\eta ){\frac {d}{d\eta }}\int _{x}b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=a(\eta )\int _{x}b(x)\left({\frac {d}{d\eta }}{\rm {e}}^{\eta T(x)}\right)\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=a(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}T(x)\,\mathrm {d} x+a'(\eta )\int _{x}b(x)e^{\eta T(x)}\,\mathrm {d} x\\&=\int _{x}T(x)a(\eta )b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x+{\frac {a'(\eta )}{a(\eta )}}\int _{x}a(\eta )b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=\int _{x}T(x)p(x)dx+{\frac {a'(\eta )}{a(\eta )}}\int _{x}p(x)\mathrm {d} x\\&=\mathbb {E} [T(x)]+{\frac {a'(\eta )}{a(\eta )}}\\&=\mathbb {E} [T(x)]+{\frac {\mathrm {d} }{\mathrm {d} \eta }}\ln a(\eta )\end{aligned}}

Par conséquent,

\mathbb {E} [T(x)]=-{\frac {\mathrm {d} }{\mathrm {d} \eta }}\ln a(\eta )={\frac {\mathrm {d} }{\mathrm {d} \eta }}A(\eta ).

Exemples

Loi Gamma

La distribution Gamma est définie par la fonction de densité

p(x)={\frac {\lambda ^{r}}{\Gamma (r)}}x^{r-1}{\rm {e}}^{-\lambda x}.

Le tableau ci-dessus donne pour paramètre naturel

\eta _{1}=r-1,

\eta _{2}=-\lambda ,

dont les réciproques sont

r=\eta _{1}+1,

\lambda =-\eta _{2}.

Les statistiques suffisantes sont $(ln x, x)$ , et la fonction de log-partition vaut

A(\eta _{1},\eta _{2})=\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2}).

On cherche la moyenne de la statistique suffisante. Pour $η 1$ :

{\begin{aligned}\mathbb {E} [\ln x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{1}}}={\frac {\partial }{\partial \eta _{1}}}\left(\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2})\right)\\&=\psi (\eta _{1}+1)-\ln(-\eta _{2})\\&=\psi (r)-\ln \lambda ,\end{aligned}}

où $ψ (x)$ est la fonction digamma (dérivée du log gamma).

De même, pour $η 2$ :

{\begin{aligned}\mathbb {E} [x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left(\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2})\right)\\&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {r}{\lambda }},\end{aligned}}

Pour trouver la variance de $x$ , il faut différencier à nouveau :

{\begin{aligned}\operatorname {Var} (x)&={\frac {\partial ^{2}A(\eta _{1},\eta _{2})}{\partial \eta _{2}^{2}}}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {\eta _{1}+1}{\eta _{2}^{2}}}\\&={\frac {r}{\lambda ^{2}}}.\end{aligned}}

Tous ces calculs peuvent se faire par intégration, en partant de la fonction gamma, mais cela demande plus d'effort.

Loi logistique asymétrique

Soit une variable aléatoire réelle $X$ de loi logistique asymétrique.

p_{\theta }(x)={\frac {\theta {\rm {e}}^{-x}}{(1+{\rm {e}}^{-x})^{\theta +1}}}

où $θ > 0$ est un paramètre de forme. Cette densité se factorise comme suit :

{\frac {{\rm {e}}^{-x}}{1+{\rm {e}}^{-x}}}\exp(-\theta \log(1+e^{-x})+\log(\theta ))

C'est donc une famille exponentielle de paramètre naturel $η = - θ$ , donc une statistique suffisante est $T = log(1 + e - x)$ , et la fonction de log-partition vaut $A (η) = -log(θ) = -log(- η)$ .

Ainsi, par la première équation,

\mathbb {E} (\log(1+{\rm {e}}^{-X}))=\mathbb {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},

et par la seconde,

\mathrm {Var} (\log(1+{\rm {e}}^{-X}))={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{(-\eta )^{2}}}={\frac {1}{\theta ^{2}}}.

Dans cet exemple, l'usage de la méthode simplifie les calculs, une approche directe alourdissant grandement les égalités.

Loi de Wishart

La loi de Wishart est définie sur des matrices aléatoires. Ce dernier exemple aborde un cas où l'intégration serait particulièrement ardue. N.B. : la dérivation elle-même est difficile, car elle exige du calcul matriciel, mais l'intégration est pire.

Le tableau donne le paramètre naturel

{\boldsymbol {\eta }}_{1}=-{\frac {1}{2}}\mathbf {V} ^{-1},

\eta _{2}={\frac {n-p-1}{2}},

dont la transformation réciproque est

\mathbf {V} =-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1},

n=2\eta _{2}+p+1

.

Les statistiques suffisantes sont $(X, ln| X |)$ .

La fonction de log-partition est donnée sous différentes formes, afin de faciliter la différentiation et les transformations. On utilisera les formes suivantes :

A({\boldsymbol {\eta }}_{1},n)=-{\frac {n}{2}}\ln |-{\boldsymbol {\eta }}_{1}|+\ln \Gamma _{p}\left({\frac {n}{2}}\right),

A(\mathbf {V} ,\eta _{2})=\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right).

Espérance de

X

(associé à

η 1

)

La dérivée par rapport à $η 1$ repose sur l'égalité calcul matriciel :

{\frac {\partial \ln |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\rm {T}}

Dès lors :

{\begin{aligned}\mathbb {E} [\mathbf {X} ]&={\frac {\partial A({\boldsymbol {\eta }}_{1},\ldots )}{\partial {\boldsymbol {\eta }}_{1}}}={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\ln |-{\boldsymbol {\eta }}_{1}|+\ln \Gamma _{p}\left({\frac {n}{2}}\right)\right]\\&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\&=n(\mathbf {V} )^{\rm {T}}\\&=n\mathbf {V} \end{aligned}}

car $V$ est symétrique.

Espérance de

ln| X |

(associé à

η 2

)

D'abord, on développe la partie de la log-partition qui contient la fonction gamma multivariée :

\ln \Gamma _{p}(y)=\ln \left(\pi ^{p(p-1)/4}\prod _{j=1}^{p}\Gamma \left[y+(1-j)/2\right]\right)=p(p-1)/4\ln \pi +\sum _{j=1}^{p}\ln \Gamma \left[y+(1-j)/2\right]

On introduit la fonction digamma $\psi (x)={\frac {d}{dx}}\ln \Gamma (x)$ .

Dès lors :

{\begin{aligned}\mathbb {E} [\ln |\mathbf {X} |]&={\frac {\partial A(\ldots ,\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)\right]\\&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+p(p-1)/4\ln \pi +\sum _{j=1}^{p}\ln \Gamma \left(\eta _{2}+{\frac {p+1}{2}}+(1-j)/2\right)\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[\eta _{2}+{\frac {p+1}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[{\frac {n-p-1}{2}}+{\frac {p+1}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[{\frac {n}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n+1-j}{2}}\right)\end{aligned}}

Ces deux espérances sont nécessaires pour dériver les équations d'adaptation variationnelle d'un réseau bayésien qui comporte une distribution de Wishart (laquelle est la prieure conjuguée de la normale multivariée).

Entropie maximale

Maximum entropy probability distribution (en)

On cherche la distribution dont l'entropie est maximale, conditionnellement à une série de contraintes sur les espérances. La réponse est une famille exponentielle.

L'entropie informationnelle d'une distribution de probabilité dF(x) se calcule par rapport à une autre distribution de probabilité (ou, de façon plus générale, une mesure positive), telle que les deux mesures soient mutuellement absolument continues. Soit une mesure de base dH(x) de même support que dF(x).

L'entropie de dF(x) relativement à dH(x) est définie comme

S[dF|dH]=-\int {dF \over dH}\ln {dF \over dH}\,dH=\int \ln {dH \over dF}\,dF

où dF/dH et dH/dF sont les dérivées de Radon–Nikodym.

On note que la définition habituelle de l'entropie d'une distribution discrète sur un ensemble Y, à savoir

\mathbf {S} =-\sum _{i\in Y}p_{i}\ln p_{i}

, suppose implicitement que la mesure dH choisie est la mesure de comptage de Y.

De même, pour une distribution continue, H(x)=x donne

S=-\int {dF \over dx}\ln {dF \over dx}\,dx=-\int f(x)\ln f(x)\,dx

Soit un échantillon de quantités observables (variables aléatoires) T_j.
La distribution dF d'entropie maximale par rapport à dH, conditionnellement à ce que l'espérance de T_j soit égale à t_j, sera un membre de la famille exponentielle ayant dH pour mesure de base et (T₁, ..., T_n) pour statistique(s) suffisante(s).

Ce résultat se déduit par le calcul des variations à l'aide de multiplicateurs de Lagrange. La normalisation est garantie en imposant la contrainte T₀ = 1. Les paramètres naturels de la distribution sont les multiplicateurs de Lagrange associés aux t_j et le facteur de normalisation est le multiplicateur de Lagrange associé à T₀.

Notes et références

G. Darmois, « Sur les lois de probabilités à estimation exhaustive », C.R. Acad. Sci. Paris, vol. 200,‎ 1935, p. 1265–1266.
(en) E. Pitman et J. Wishart, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, n^o 4,‎ 1936, p. 567–579 (DOI 10.1017/S0305004100019307).
(en) B Koopman, « On distribution admitting a sufficient statistic », Transactions of the American Mathematical Society, vol. 39, n^o 3,‎ 1936, p. 399–409 (DOI 10.2307/1989758, JSTOR 1989758, Math Reviews 1501854).
Kupperman, M. (1958) "Probabilities of Hypotheses et Information-Statistics in Sampling from Exponential-Class Populations", Annals of Mathematical Statistics, 9 (2), 571–575 JSTOR:2237349.
(en) Erling etersen, « Sufficiency et Exponential Families for Discrete Sample Spaces », Journal of the American statistique Association, vol. 65, n^o 331,‎ septembre 1970, p. 1248–1255 (DOI 10.2307/2284291, JSTOR 2284291, Math Reviews 268992).

Voir aussi

mesure de Gibbs

Bibliographie

(en) E. L. Lehmann, Casella, G., Theory of Point Estimation, 1998, 2nd ed., sec. 1.5 p.
(en) Robert W. Keener, Statistical Theory: Notes for a Course in Theoretical Statistics, Springer, 2006, 27–28, 32–33 p.
(en) Ludwig Fahrmeier, Tutz, G., Multivariate statistical modelling based on generalized linear models, Springer, 1994, 18–22, 345–349 p.

Liens externes

Portail des probabilités et de la statistique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] G. Darmois, « Sur les lois de probabilités à estimation exhaustive », C.R. Acad. Sci. Paris, vol. 200,‎ 1935, p. 1265–1266.

[2] (en) E. Pitman et J. Wishart, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, n^o 4,‎ 1936, p. 567–579 (DOI 10.1017/S0305004100019307).

[3] (en) B Koopman, « On distribution admitting a sufficient statistic », Transactions of the American Mathematical Society, vol. 39, n^o 3,‎ 1936, p. 399–409 (DOI 10.2307/1989758, JSTOR 1989758, Math Reviews 1501854).

[4] Kupperman, M. (1958) "Probabilities of Hypotheses et Information-Statistics in Sampling from Exponential-Class Populations", Annals of Mathematical Statistics, 9 (2), 571–575 JSTOR:2237349.

[5] (en) Erling etersen, « Sufficiency et Exponential Families for Discrete Sample Spaces », Journal of the American statistique Association, vol. 65, n^o 331,‎ septembre 1970, p. 1248–1255 (DOI 10.2307/2284291, JSTOR 2284291, Math Reviews 268992).