Année académique 2001-2002 : Statistiques : Corrigés de la 1ère ...
Année académique 2001-2002 : Statistiques : Corrigés de la 3ème séance. Série
3 : Les séries de fréquences bivariées : Distributions marginales et ...
part of the document
és avec la plus grande fréquence.
La classe modale de la distribution marginale de y est la classe 1.6( y (2 ; ce qui signifie que les tailles comprises entre 1.6m et 2m sont observés avec la plus grande fréquence.
Distribution conditionnelle de x pour 1.2( y (1.6
ClassecjFj10( x (20102020( x (40301040( x (6050060( x (80705Total35
La distribution conditionnelle de x pour y=y1 (y1 représente la taille comprise entre 1.2m et 1.6m) est la correspondance entre xj et Fjl où Fj1 est le nombre de fois que la valeur xj de x a été observée pour une valeur de y = y1.
Distribution conditionnelle de x pour 1.6( y (2
ClassecjFj20( x (20101020( x (40303040( x (60502060( x (80705Total65
Mode :
Classe modale : 20( x (40
Rappel : xmo= emo-1 + ((1 / (1 + (2) amo
où emo-1= borne inférieure de la classe modale
(1 = différence entre leffectif rectifié de la classe modale et leffectif rectifié de la classe précédant la classe modale
(2 = différence entre leffectif rectifié de la classe modale et leffectif rectifié de la classe suivant la classe modale
amo= amplitude de la classe modale
Interpolation linéaire : xmo/y=y2 = 20 + ((30 - 10)/((30 - 10)+(30 - 20))) . 20 = 33.3333 ans, soit 33 ans.
On en déduit que, parmi 65 personnes qui ont une taille comprise entre 1.6m et 2m, celles qui ont un âge denviron 33 ans sont observées avec la plus grande fréquence.
Fréquences de la taille conditionnelles à lâge
Fréquences de la taille conditionnelles à lâge = fl/j. Taille (y) (en m)1.2( y (1.61.6( y (2TotalAge (x)
(en années)0( x (200.66670.33331.020( x (400.250.751.040( x (6001.01.060( x (800.50.51.0Ex. Interprétation : 66,67% des individus qui ont entre 0 et 20 ans mesurent entre 1.2m et 1.6m.
Fréquences de lâge conditionnelles à la taille
Fréquences de lâge conditionnelles à la taille= fj/.lTaille (y) (en m)1.2( y (1.61.6( y (2Age (x)
(en années)0( x (200.57140.153820( x (400.28570.461640( x (6000.307760( x (800.14290.0769Total1.01.0Ex. Interprétation : 57,14% des individus qui mesurent entre 1.2m et 1.6m ont entre 0 et 20 ans.
g)
g.0) Calcule de lâge moyen et de la taille moyenne
Age moyen : moyenne des x
Taille moyenne : moyenne des y
(On arrondit donc à 1.7m
g.1) Le centre de gravité, G ; dune distribution bivariée est le couple ( x , y ).
Il sagit de la taille et de lâge moyen de lensemble du groupe (utilisation des distributions marginales et non conditionnelles).
( G = (32 ;1.66)
g.2) La variance des âges de lensemble des personnes du groupe
(utilisation des distributions marginales et non conditionnelles)
La variance des tailles de lensemble des personnes du groupe
g.3) Les moyennes conditionnelles
Il faut ici utiliser les distributions conditionnelles de x et de y.
On notera quil existe autant de moyennes conditionnelles pour x quil y a de valeurs ou (de classes) différentes pour y (puisque la condition porte sur y !).
De même, il existe autant de moyennes conditionnelles pour y quil y a de valeurs (ou de classes) différentes pour x (puisque la condition porte sur x !).
( Pour les x
( Pour les y
Les distributions conditionnelles de y sont les suivantes :
1.2( y (1.61.6( y (2Totalcj1.41.8F1l201030F2l103040F3l02020F4l5510100
g.4) Les variances conditionnelles
Pour calculer ces variances conditionnelles, il faut utiliser les moyennes conditionnelles correspondantes.
( Pour les x
( Pour les y
Courbes de régression
Les courbes de régression sont les courbes qui relient les points dont les coordonnées sont les valeurs de la variables (ou les centres de classe) et les moyennes conditionnelles correspondantes de lautre variable.
On obtient ainsi la courbe de régression de y en x (Cy/x) et la courbe de régression de x en y (Cx/y).
La courbe Cy/x relie les points qui ont pour coordonnées les valeurs de la variable âge (dans ce cas, les centres de classes) et les tailles moyennes conditionnelles aux différentes valeurs prises par lâge.
La courbe Cx/y relie les points qui ont pour coordonnées les valeurs de la variables taille (dans ce cas, les centres de classes) et les âges moyens conditionnels aux différents valeurs prises par la taille.
Les taux de liaison
Calcul des référents théoriques
Fjl = (Fj. ( F.l)/F.. et fjl = (fj. ( f.l)
2. Calcul des taux de liaison
tjl = (Fjl-Fjl)/Fjl = (fjl-fjl)/fjl
Le tableau suivant reprend les effectifs (1ère ligne de chaque case), les effectifs théoriques (2ème ligne) et les taux de liaison (3ème ligne).
Taille (y) (en m)1.2( y (1.61.6( y (2TotalAge (x)
(en années)0( x (20
20
F11=10.5
t11= 0.904810
F12=19.5
T12= -0.48723020( x (4010
F21=14
t21= -0.285730
F22=26
t22= 0.15384040( x (600
F31=7
t31= -120
F32=13
t32= 0.53852060( x (805
F41=3.5
t41= 0.42865
F42=6.5
T42= -0.230810Total3565100
Exemple (pour la première cellule)
Interprétation :
Il y a donc attraction (tjl(0) entre :
x1 et y1 ;
x2 et y2 ;
x3 et y2 ;
x4 et y1 .
Il y a répulsion (tjl(0) entre :
x1 et y2 ;
x2 et y1 ;
x3 et y1 ;
x4 et y2 .
( Ce qui signifie : que les âges compris entre 0 et 20 ans sont plus « attirés » par les tailles comprises entre 1.2m et 1.6m que par les tailles comprises entre 1.6m et 2m ; etc
Cela semble logique : ce sont les classes de la population les plus jeunes et les plus vieilles qui sont plus « attirées » par les tailles les plus petites.
Coefficient de Pearson
Plus les taux de liaison sont dispersés autour de la moyenne (0), plus on séloigne de la situation dindépendance parfaite.
Calcul de la variance des tjl:
(t² est appelé le carré moyen de contingence ou contingence quadratique moyenne, on la note (².
(² = (0.9048)²(0.105 + (-0.2857)²(0.14 + (-1)²(0.07 + (0.4286)²(0.035 + (-0.4872)²( 0.195 + (0.1538)²(0.26 + (0.5385)²(0.13 + (-0.2308)²(0.065 = 0.2674
Plus (² est élevé, plus la dispersion est élevée, plus on séloigne de lindépendance. Pearson a normalisé (² entre 0 et 1 en
Rappel :Plus le coefficient de Pearson est sapproche de 1, plus on séloigne de la situation dindépendance parfaite entre les deux variables.
Calcul de la covariance
EMBED Equation.3
EMBED Equation.3
La covariance est une mesure de la variation conjointe des valeurs de lâge et de la taille autour de leur moyenne respective. Elle est ici positive. Cela signifie quen moyenne, les personnes dont lâge est supérieur à lâge moyen ont une taille supérieure à la taille moyenne et que les personnes dont lâge est inférieur à lâge moyen ont une taille inférieure à la taille moyenne.
Calcul du coefficient de corrélation linéaire
EMBED Equation.3
La valeur du coefficient indique quil existe une corrélation linéaire positive relativement faible entre lâge et la taille des 100 personnes de léchantillon.
Interprétations
Question 1
7.45 : il sagit du pourcentage minimal dintoxication alimentaire dans une région indépendamment du pourcentage de la population consommant le CACO-LACO. Autrement dit, même sil ny avait aucun consommateur de CACO-LACO dans la région, il y aurait quand même 7.45% dintoxication, soit environ 7450 cas dintoxication.
0.55 : si le pourcentage de personnes consommant le CACO-LACO augmentait de 1%, le pourcentage dintoxication dans la population augmenterait de 0.55%.
0.85 : il y a 85% de la variance des NI qui sont expliqués par la relation linéaire qui existe entre NI et NBC.
Question 2
a)
Moyennes conditionnelles aux capacités des casiers
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
Interprétation : dans les casiers contenant 6, 12 ou 24 bouteilles, il y a en moyenne 1 bouteille déclassée
Fréquences conditionnelles au nombre de bouteilles déclassées par casier
Capacité du casier (nbre de bouteilles)61224Nombre de bouteilles déclassées par casier00.13680.64100.2222110.11190.67480.2133120.04000.77330.1867130.21180.49410.4941140.08510.74470.1702150.10000.30000.60001600.33330.66671Fréquence marginale0.12370.64990.22641
Les fréquences conditionnelles se distinguent des fréquences conjointes par le fait quelles sont obtenues en divisant chaque effectif par un sous-total correspondant à la condition posée alors que les fréquences conjointes sont obtenues en divisant les effectifs par leffectif total. Les fréquences conjointes sont donc exprimées en pourcentage du total alors que les fréquences conditionnelles sont exprimées en pourcentage dun sous-total correspondant à une certaine classe de la population.
b) Pour quil y ait indépendance entre les variables, il faut que toutes les fréquences conditionnelles soient égales aux fréquences marginales. Or, ça nest pas le cas ici, il ny a donc pas indépendance.
Pour quil y ait indépendance, il faut que le pourcentage de casier contenant, par exemple, 6 bouteilles soit identique quelque soit le nombre de bouteilles déclassées dans le casier, cest-à-dire que toutes les fréquences conditionnelles soient égales à la fréquence marginale (ou encore, que toute la première colonne ait comme valeur 0.1237, la deuxième 0.6499 et la troisième 0.2264). Cela signifierait bien que les deux variables sont indépendantes.
___________________________________________________________________
Question 3
Plus le C de Pearson est proche de 1, plus on séloigne de lindépendance parfaite.
Dans la faculté A (C = 0.15), il y a peu de lien entre le sexe de létudiant et le fait quil dispose dune connexion à Internet.
Par contre, dans la faculté B (C=0.95), il y a une relation forte entre le sexe et la possession dune connexion à Internet
Question 4
a) 1. Moyennes conditionnelles des commandes passées lan dernier à lâge des clients.
Conclusion : le nombre moyen de bouteilles commandées augmente avec lâge.
Age moyen dun client
b) Définitions statistiques
3.02=intercept de la droite de régression
0.24=pente de la droite de régression
0.56=coéfficient de détermination
Interprétations
3.02=le nombre de bouteilles minimal commandé par un individu quel que soit son âge
0.24=lorsque lâge dun individu augmente dun an, le nombre de bouteilles commandées augmente de 0.24
0.56 signifie que 56% de la variance du nombre de bouteilles commandées est expliquée par la relation linéaire reliant lâge à la commande.
Question 5
le mode de la variable taille
la médiane de la variable taille
la moyenne de lâge conditionnelle à la taille
létendue de la variable taille
la droite de régression estimant le prix en fonction de la taille
Question 6
Age moyen des acheteurs
Moyennes conditionnelles par rapport à lâge des clients
1. Un C de Pearson : oui
Un coefficient de corrélation linéaire simple :oui
2 courbes de régression
a=24.15 cest la taille minimale dune bombe indépendamment de lâge du client
b=3.56 chaque année, la taille nécessaire à un cavalier augmente de 3.56cm
Il faut utiliser le coefficient de détermination pour juger de la qualité de lajustement linéaire entre les deux variables.
Question 7
1. f)les moyennes conditionnelles au climat ? non (car variables qualitatives)
g)les moyennes conditionnelles à la nationalité ? non (car variables qualitatives)
h)les taux de liaison ? oui
i)la covariance entre nationalité et climat au jour de la location ?non (car variables qualitatives)
j)(² ? oui
Rappel : EMBED Equation.3
k)les fréquences conjointes ? oui
l)les fréquences conditionnelles ? oui
m)une régression linéaire simple ? non
2. a) 50.3=le nombre minimal de nuitées vendues, quelque soit le nombre de jours de beau temps pendant la semaine.
24.2=nombre de nuitées vendues en une semaine par jour de beau temps supplémentaire
b) Sachant quil ne peu pas y avoir plus de 7 jours de beau temps par semaine, la droite de régression prévoit que F.Harniente vendra au plus 50.3+24.2(7=219.7 nuitées par semaine. La capacité de son hôtel étant de 250 nuitées, il pourra toujours répondre à la demande.
PAGE
PAGE 12
Distribution marginale de x
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Excel.Sheet.8
EMBED Excel.Sheet.8
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
Interprétation : La taille moyenne augmente dabord avec lâge, ensuite, elle diminue.
Interprétation : Lâge moyen est plus élevé pour les tailles plus élevées.