Thérie de l'estimation - Exercices corriges
... cette expression est maximisée, comme on l'a vu, par. et donc,. où . Nous
pouvons donc écrire. La maximisation de cette expression par rapport à conduit
à. L'expression précédante, qui défine les estimées de Maximum de
vraisemblance du vecteur w, conduit à un problème d'optimisation non-linéaire
multivariable, ...
part of the document
la méthode de Prony PAGEREF _Toc482002211 \h 91
4.10 Méthode de Prony PAGEREF _Toc482002212 \h 92
4.11 Méthode de Pisarenko PAGEREF _Toc482002213 \h 95
Exercices PAGEREF _Toc482002214 \h 98
ANNEXE 1: Gradients vectoriels et matriciels PAGEREF _Toc482002215 \h 100
Gradients vectoriels PAGEREF _Toc482002216 \h 100
Gradients Matriciels PAGEREF _Toc482002217 \h 100
ANNEXE 2: Inversion de matrices PAGEREF _Toc482002218 \h 102
4.1 Estimation de paramètres déterministes
Les méthodes statistiques d estimation de paramètres sont basés sur la connaissance des trois composantes suivantes :
l ensemble où le(s) parametre(s) à estimer, qð, prennent valeurs : l espace de paramètres, Qð;ð
la loi de probabilité qui décrit l effect du paramètre sur les observations : p(r|qð) ;
l ensemble où les observations, r, prennent valeurs : l espace des observations R.
De la connaissance de ces trois entités, on peut déduire une règle d estimation qui fait correspondre à chaque observation possible r, une valeur du paramètre à estimer q, que l on représente par EMBED Equation.3 .
p(r|qð)
espace de paramètres espace des observations espace de paramètres
Qð R Qð
Pour pouvoir déterminer d une façon constructive une règle d estimation, il faut définir un critère qui évalue la qualité des résultats, et définir l estimée comme l application de R en Qð qui optimise ce critère. On présente ensuite plusieurs mesures de la qualité (performance) d estimateurs.
On commence par analyser le cas où le paramètre à estimer est déterministe, et la description statistique des observations est donnée par la fonction densité de probabilité conditionnelle des observations pour chaque valeur possible du paramètre :
EMBED Equation.3
4.2 Biais et variance destimation
Les estimés EMBED Equation.3 sont des variables aléatoires dont la valeur est déterminée par la réalisation qui est observée (la valeur de r). Il est donc naturel danalyser ses deux premiers moments.
Le premier moment est la moyenne (espérance)
EMBED Equation.3
Idéalement,
EMBED Equation.3
cest-à-dire, lestimée varie autour de la vraie valeur du paramètre.
On désigne la différence EMBED Equation.3 par biais destimation. Il nous indique la valeur moyenne de lerreur destimation EMBED Equation.3 .
Trois cas sont possibles
EMBED Equation.3 pour toutes les valeurs possibles du paramètre. On dit alors que lestimée est non-biaisée ;
EMBED Equation.3 où B est indépendent de qð. Dans ce cas l estimateur a un biais constant et connu, qui peut toujours être eliminé ;
EMBED Equation.3 , c est-à-dire, on a un biais qui dépend de qð (qui est inconnu).
On désire en général avoir des estimateurs qui soient non-biaisés. Cependant, un estimateur peut être non-biaisé et être de mauvaise qualité, sil produit, avec une grande probabilité, des estimés qui sont très différentes de la vraie valeur. Une deuxième caractéristique importante dun estimateur est la variance de lerreur destimation :
EMBED Equation.3
Cette variance doit être aussi petite que possible, de façon à que lestimée soit concentrée autour de la vraie valeur du paramètre.
Estimateurs non-biaisés à variance minimale
La conjonction des deux critères décrits conduit la définition destimées non-biaisées à variance minimale. Il nexiste pas de procédure génerale pour déterminer ces estimées.
Pour des modèles linéaires avec des observations gaussiennes, comme nous le verrons dans la section 4.6, lestimée non-biaisée de variance minimale existe, et est égale à lestimée de Maximum de Vraisemblance (voir section 4.3).
4.3 Maximum de vraisemblance
Les estimateurs de maximum de vraisemblance correspondent à prendre comme estimateur la valeur EMBED Equation.3 qui rend les données plus probables :
EMBED Equation.3
Nottons que dans cette équation la densité conditionnelle n est pas utilisée en tant que telle c est-à-dire, comme fonction de r mais plutôt comme fonction du paramètre estimer qð. Cette fonction s appelle fonction de vraisemblance, et, d une façon analogue au rapport de vraisemblance pour les tests d hypothèses, elle joue un rôle majeur dans la théorie de l estimation. Maximiser la fonction de vraisemblance L(r,qð)
EMBED Equation.3
est équivalent maximiser son logarithme, et donc,
EMBED Equation.3
Si le maximum de L(r|qð) est un point intérieur de Qð, et L( r|qð) est une fonction continue de qð, une condition nécessaire, qui doit être vérifiée par l estimée du Maximum de vraisemblance est
EMBED Equation.3
Les estimateurs du maximum de vraisemblance possèdent plusieurs propriétés asymptotiques (quand le nombre dobservations, N, est grand) :
Consistance. On dit quun estimateur est consistent sil tend vers la vraie valeur du paramètre quand le nombre dobservations tend vers infini :
EMBED Equation.3
où la convergence doit être entendue en probabilité. Les estimateurs du maximum de vraisemblance sont consistents.
Les estimateurs du maximum de vraisemblance sont asymptotiquement normales.
Exemple 4.1
Soit X=(xo,x1) deux échantillons indépendents d une variable aléatoire uniforme dans l intervalle [0,qð]. On désire déterminer l estimé de Maximum de Vraisemblance de qð.
La densité conditionnelle qui décrit les observations est
EMBED Equation.3
(désinez cette fonction)
Ecrivons maintenant cette fonction comme fonction de qð :
EMBED Equation.3
On peut donc vérfier que la fonction de vraisemblance est maximale pour
EMBED Equation.3
Cet exemple ilustre le cas où la fonction de vraisemblance n est pas continue, et l estimée ne peut pas être déterminée en dérivant EMBED Equation.3 .
Exemple 4.2
Soit X=(x1,x2,...xN) N échantillons indépendents d une variable aléatoire gaussienne, demoyenne mð et de variance sð2.. On désire estimer le vecteur de paramètres qð=ð(ðmð,ðsð2).
La densité conditionnelle qui décrit les observations est
EMBED Equation.3
Par simple dérivation par rapport à mð et sð2 on obtient facilement
EMBED Equation.3
c est-à-dire la moyenne des échantillons et leur variance.
Exercice : Répéter lexercice précédant pour le cas vectoriel.
4.4 Borne de Cramer-Rao
On dérive par la suite une inégalité très utile dans létude de problèmes destimation paramétrique, et qui établi une borne inférieure pour la variance de l erreur destimées non-biaisées.
Admettons que les dérivées de premier et deuxième ordre du logarithme de la fonction de varisemblance par rapport au paramètre à estimer,
EMBED Equation.3
existent et sont absolument intégrables. Soit EMBED Equation.3 une estimée non-biaisée de qð :
EMBED Equation.3
Si on dérive cette équation par rapport à qð on obtient
EMBED Equation.3
ou encore
EMBED Equation.3
Nottons maintenant que
EMBED Equation.3 .
Alors, léquation précédente peut sécrire
EMBED Equation.3
ou encore
EMBED Equation.3 EMBED Equation.3
Par linégalité de Schwartz,
EMBED Equation.3
on peut écrire
EMBED Equation.3
et, en reconnaissant lopérateur valeur moyenne
EMBED Equation.3
ce qui implique
EMBED Equation.3
On a établi que la variance de lerreur dun estimateur non-biaisé est bornée inférieurement par une limite qui est déterminée par la variation locale du logarithme de la fonction de vraisemblance. Cette limite est connue par le nom de borne de Cramér-Rao.
4.5 Efficacité.
On remarque que linégalité précédante est stricte si et seulement si les deux fonctions intégrées sont proportionnelles (comme fonctions de r) :
EMBED Equation.3
Les estimateurs qui vérifient avec égalité la borne de Cramér-Rao sont efficaces. Si on écrit cette équation pour la valeur de qð qui est donnée par l estimateur de maximum de vraisemblance
EMBED Equation.3
Cette équation possède deux solutions
EMBED Equation.3
La première équation ne dépend pas des données, et ne détermine donc pas une règle d estimation, ce qui nous laisse la solution
On peut donc conclure que sil existe un estimateur qui vérifie la borne de Cramér-Rao avec égalité, cet estimateur doit être lestimateur de maximum de vraisemblance.
On peut établir une condition générale pour quun estimateur non-biaisé soit efficace. Soit EMBED Equation.3 un estimateur non-biaisé :
EMBED Equation.3
Si on dérive cette équation par rapport à qð :
EMBED Equation.3
ce qui est équivalent à
EMBED Equation.3
ou encore
EMBED Equation.3
c est-à-dire, la correlation entre l erreur d un estimateur non-biaisé et la dérivé du logarithme de la fonction de vraisemblance est égale à l unité. Avec ce résultat, on peut démontrer le théorème suivant .
Théorème 4.1
Un estimateur non-biaisé est efficace
EMBED Equation.3
si et seulement si
EMBED Equation.3 .
Ce théorème identifie donc la constante k(qð) avec l inverse de la borne de Cramér-Rao.
Démonstration
(si)
Si la condition du théorème est vraie, alors
EMBED Equation.3
doù onpeut déduire
EMBED Equation.3
(seulement si)
On a vérifié que
EMBED Equation.3
Si on élève au carré cette équation
EMBED Equation.3
De linégalité de Schwartz pour les variables aléatoires
EMBED Equation.3 ,
il résulte
EMBED Equation.3
avec égalité si et seulement si
EMBED Equation.3 .ð
Une forme alternative de la borne de Cramér-Rao peut être déduite à partir de l équation de normalisation de la densité conditionnelle :
EMBED Equation.3
Si on dérive par rapport à qð ,
EMBED Equation.3 .
Rappelons la relation déduite antérieurement,
EMBED Equation.3 .
Si on dérive une deuxième fois par rapport à qð :
EMBED Equation.3
ou encore
EMBED Equation.3
ce qui montre que
EMBED Equation.3 .
On peut donc écrire la borne de Cramér-Rao sous la forme équivalente
EMBED Equation.3
Exemple 4.3
Soit X=(x1,...,xN) N échantillons indépendents dune variable aléatoire de Poisson. On désire estimer le paramètre de la distribution. La densité conditionnelle de X est
EMBED Equation.3
Lestimateur de maximum de vraisemblance est la valeur moyenne des observations (vérifier cette affirmation)
EMBED Equation.3
Sa valeur moyenne et sa covariance sont
EMBED Equation.3
La dérivée du logarithme de la fonction de vraisemblance est
EMBED Equation.3
et donc J(qð) est
EMBED Equation.3
La borne inférieure pour l erreur quadratique de toutes les estimées non-biaisées de qð est donc
EMBED Equation.3 .
Ce résultat montre que pour obtenir le même erreur on doit prendre plus d échantillons quand le paramètre de la distribution est grand.
Si nous comparons la variance de lestimateur du maximum de vraisemblance avec le résultat précédent, nous pouvons constater quil est efficace. On remarque que, effectivement, cet estimateur satisfait la condition du théorème ennoncé auparavant :
EMBED Equation.3 .
Cas vectoriel
Quand qð est un vecteur (plus d un paramètre) le résultat précédant est modifié :
EMBED Equation.3 EMBED Equation.3
où la notation
EMBED Equation.3
est définie par
EMBED Equation.3 ,
c est-à-dire, implique que A-B est une matrice définie non-négative.
4.6 Le modèle linéaire
On considère le modèle d observations suivant :
EMBED Equation.3
où EMBED Equation.3 est un vecteur de dimension K, fonction connue du vecteur de paramètres inconnus qð de dimension q, et EMBED Equation.3 sont des vecteurs gaussiens, de moyenne nulle et matrice de covariance EMBED Equation.3 , qui dépend, en général, du vecteur de paramètres qð.
La densité conditionnelle de EMBED Equation.3 étant donnée une valeur fixe du vecteur qð est :
EMBED Equation.3
où nous avons défini
EMBED Equation.3 .
Lestimateur de Maximum de vraisemblance (MV) est la solution de
EMBED Equation.3 ,
ce qui conduit aux équations suivantes
EMBED Equation.3
Si la matrice de covariance, R(qð), ne dépend pas de qð :
EMBED Equation.3
l'équation précédante simplifie :
EMBED Equation.3 .
Si nous utilisons la définition de S(qð) dans cette expression,
EMBED Equation.3
Si on considère aussi que la moyenne m(qð) est une fonction linéaire de qð :
EMBED Equation.3
où H est une matrice EMBED Equation.3 de rang égal à q