Td corrigé Année académique 2001-2002 : Statistiques : Corrigés de la 1ère ... pdf

Année académique 2001-2002 : Statistiques : Corrigés de la 1ère ...

Année académique 2001-2002 : Statistiques : Corrigés de la 3ème séance. Série 3 : Les séries de fréquences bivariées : Distributions marginales et ...




part of the document



és avec la plus grande fréquence.
La classe modale de la distribution marginale de y est la classe 1.6( y (2 ; ce qui signifie que les tailles comprises entre 1.6m et 2m sont observés avec la plus grande fréquence.

Distribution conditionnelle de x pour 1.2( y (1.6
ClassecjFj10( x (20102020( x (40301040( x (6050060( x (80705Total35
La distribution conditionnelle de x pour y=y1 (y1 représente la taille comprise entre 1.2m et 1.6m) est la correspondance entre xj et Fjl où Fj1 est le nombre de fois que la valeur xj de x a été observée pour une valeur de y = y1.


Distribution conditionnelle de x pour 1.6( y (2
ClassecjFj20( x (20101020( x (40303040( x (60502060( x (80705Total65
Mode :

Classe modale : 20( x (40

Rappel : xmo= emo-1 + ((1 / (1 + (2) amo
où emo-1= borne inférieure de la classe modale
(1 = différence entre l’effectif rectifié de la classe modale et l’effectif rectifié de la classe précédant la classe modale
(2 = différence entre l’effectif rectifié de la classe modale et l’effectif rectifié de la classe suivant la classe modale
amo= amplitude de la classe modale

Interpolation linéaire : xmo/y=y2 = 20 + ((30 - 10)/((30 - 10)+(30 - 20))) . 20 = 33.3333 ans, soit 33 ans.
On en déduit que, parmi 65 personnes qui ont une taille comprise entre 1.6m et 2m, celles qui ont un âge d’environ 33 ans sont observées avec la plus grande fréquence.

Fréquences de la taille conditionnelles à l’âge
Fréquences de la taille conditionnelles à l’âge = fl/j. Taille (y) (en m)1.2( y (1.61.6( y (2TotalAge (x)
(en années)0( x (200.66670.33331.020( x (400.250.751.040( x (6001.01.060( x (800.50.51.0Ex. Interprétation : 66,67% des individus qui ont entre 0 et 20 ans mesurent entre 1.2m et 1.6m.

Fréquences de l’âge conditionnelles à la taille
Fréquences de l’âge conditionnelles à la taille= fj/.lTaille (y) (en m)1.2( y (1.61.6( y (2Age (x)
(en années)0( x (200.57140.153820( x (400.28570.461640( x (6000.307760( x (800.14290.0769Total1.01.0Ex. Interprétation : 57,14% des individus qui mesurent entre 1.2m et 1.6m ont entre 0 et 20 ans.
g)
g.0) Calcule de l’âge moyen et de la taille moyenne
Age moyen : moyenne des x




Taille moyenne : moyenne des y

(On arrondit donc à 1.7m

g.1) Le centre de gravité, G ; d’une distribution bivariée est le couple ( x , y ).
Il s’agit de la taille et de l’âge moyen de l’ensemble du groupe (utilisation des distributions marginales et non conditionnelles).
( G = (32 ;1.66)

g.2) La variance des âges de l’ensemble des personnes du groupe
(utilisation des distributions marginales et non conditionnelles)



La variance des tailles de l’ensemble des personnes du groupe


g.3) Les moyennes conditionnelles

Il faut ici utiliser les distributions conditionnelles de x et de y.
On notera qu’il existe autant de moyennes conditionnelles pour x qu’il y a de valeurs ou (de classes) différentes pour y (puisque la condition porte sur y !).
De même, il existe autant de moyennes conditionnelles pour y qu’il y a de valeurs (ou de classes) différentes pour x (puisque la condition porte sur x !).

( Pour les x





( Pour les y

Les distributions conditionnelles de y sont les suivantes :

1.2( y (1.61.6( y (2Totalcj1.41.8F1l201030F2l103040F3l02020F4l5510100




g.4) Les variances conditionnelles
Pour calculer ces variances conditionnelles, il faut utiliser les moyennes conditionnelles correspondantes.

( Pour les x



( Pour les y





Courbes de régression

Les courbes de régression sont les courbes qui relient les points dont les coordonnées sont les valeurs de la variables (ou les centres de classe) et les moyennes conditionnelles correspondantes de l’autre variable.
On obtient ainsi la courbe de régression de y en x (Cy/x) et la courbe de régression de x en y (Cx/y).

La courbe Cy/x relie les points qui ont pour coordonnées les valeurs de la variable âge (dans ce cas, les centres de classes) et les tailles moyennes conditionnelles aux différentes valeurs prises par l’âge.



La courbe Cx/y relie les points qui ont pour coordonnées les valeurs de la variables taille (dans ce cas, les centres de classes) et les âges moyens conditionnels aux différents valeurs prises par la taille.


Les taux de liaison

Calcul des référents théoriques
Fjl = (Fj. ( F.l)/F.. et fjl = (fj. ( f.l)

2. Calcul des taux de liaison
tjl = (Fjl-Fjl)/Fjl = (fjl-fjl)/fjl

Le tableau suivant reprend les effectifs (1ère ligne de chaque case), les effectifs théoriques (2ème ligne) et les taux de liaison (3ème ligne).
Taille (y) (en m)1.2( y (1.61.6( y (2TotalAge (x)
(en années)0( x (20
20
F11=10.5
t11= 0.904810
F12=19.5
T12= -0.48723020( x (4010
F21=14
t21= -0.285730
F22=26
t22= 0.15384040( x (600
F31=7
t31= -120
F32=13
t32= 0.53852060( x (805
F41=3.5
t41= 0.42865
F42=6.5
T42= -0.230810Total3565100
Exemple (pour la première cellule)




Interprétation :
Il y a donc attraction (tjl(0) entre :
x1 et y1 ;
x2 et y2 ;
x3 et y2 ;
x4 et y1 .
Il y a répulsion (tjl(0) entre :
x1 et y2 ;
x2 et y1 ;
x3 et y1 ;
x4 et y2 .
( Ce qui signifie : que les âges compris entre 0 et 20 ans sont plus « attirés » par les tailles comprises entre 1.2m et 1.6m que par les tailles comprises entre 1.6m et 2m ; etc…
Cela semble logique : ce sont les classes de la population les plus jeunes et les plus vieilles qui sont plus « attirées » par les tailles les plus petites.

Coefficient de Pearson
Plus les taux de liaison sont dispersés autour de la moyenne (0), plus on s’éloigne de la situation d’indépendance parfaite.
Calcul de la variance des tjl:

(t² est appelé le carré moyen de contingence ou contingence quadratique moyenne, on la note (².
(² = (0.9048)²(0.105 + (-0.2857)²(0.14 + (-1)²(0.07 + (0.4286)²(0.035 + (-0.4872)²( 0.195 + (0.1538)²(0.26 + (0.5385)²(0.13 + (-0.2308)²(0.065 = 0.2674

Plus (² est élevé, plus la dispersion est élevée, plus on s’éloigne de l’indépendance. Pearson a normalisé (² entre 0 et 1 en
Rappel :Plus le coefficient de Pearson est s’approche de 1, plus on s’éloigne de la situation d’indépendance parfaite entre les deux variables.



Calcul de la covariance

 EMBED Equation.3 

 EMBED Equation.3 

La covariance est une mesure de la variation conjointe des valeurs de l’âge et de la taille autour de leur moyenne respective. Elle est ici positive. Cela signifie qu’en moyenne, les personnes dont l’âge est supérieur à l’âge moyen ont une taille supérieure à la taille moyenne et que les personnes dont l’âge est inférieur à l’âge moyen ont une taille inférieure à la taille moyenne.

Calcul du coefficient de corrélation linéaire

 EMBED Equation.3 

La valeur du coefficient indique qu’il existe une corrélation linéaire positive relativement faible entre l’âge et la taille des 100 personnes de l’échantillon.














Interprétations

Question 1

7.45 : il s’agit du pourcentage minimal d’intoxication alimentaire dans une région indépendamment du pourcentage de la population consommant le CACO-LACO. Autrement dit, même s’il n’y avait aucun consommateur de CACO-LACO dans la région, il y aurait quand même 7.45% d’intoxication, soit environ 7450 cas d’intoxication.
0.55 : si le pourcentage de personnes consommant le CACO-LACO augmentait de 1%, le pourcentage d’intoxication dans la population augmenterait de 0.55%.
0.85 : il y a 85% de la variance des NI qui sont expliqués par la relation linéaire qui existe entre NI et NBC.

Question 2
a)
Moyennes conditionnelles aux capacités des casiers
 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 
Interprétation : dans les casiers contenant 6, 12 ou 24 bouteilles, il y a en moyenne 1 bouteille déclassée

Fréquences conditionnelles au nombre de bouteilles déclassées par casier

Capacité du casier (nbre de bouteilles)61224Nombre de bouteilles déclassées par casier00.13680.64100.2222110.11190.67480.2133120.04000.77330.1867130.21180.49410.4941140.08510.74470.1702150.10000.30000.60001600.33330.66671Fréquence marginale0.12370.64990.22641
Les fréquences conditionnelles se distinguent des fréquences conjointes par le fait qu’elles sont obtenues en divisant chaque effectif par un sous-total correspondant à la condition posée alors que les fréquences conjointes sont obtenues en divisant les effectifs par l’effectif total. Les fréquences conjointes sont donc exprimées en pourcentage du total alors que les fréquences conditionnelles sont exprimées en pourcentage d’un sous-total correspondant à une certaine classe de la population.

b) Pour qu’il y ait indépendance entre les variables, il faut que toutes les fréquences conditionnelles soient égales aux fréquences marginales. Or, ça n’est pas le cas ici, il n’y a donc pas indépendance.
Pour qu’il y ait indépendance, il faut que le pourcentage de casier contenant, par exemple, 6 bouteilles soit identique quelque soit le nombre de bouteilles déclassées dans le casier, c’est-à-dire que toutes les fréquences conditionnelles soient égales à la fréquence marginale (ou encore, que toute la première colonne ait comme valeur 0.1237, la deuxième 0.6499 et la troisième 0.2264). Cela signifierait bien que les deux variables sont indépendantes.
___________________________________________________________________

Question 3

Plus le C de Pearson est proche de 1, plus on s’éloigne de l’indépendance parfaite.
Dans la faculté A (C = 0.15), il y a peu de lien entre le sexe de l’étudiant et le fait qu’il dispose d’une connexion à Internet.
Par contre, dans la faculté B (C=0.95), il y a une relation forte entre le sexe et la possession d’une connexion à Internet


Question 4

a) 1. Moyennes conditionnelles des commandes passées l’an dernier à l’âge des clients.



Conclusion : le nombre moyen de bouteilles commandées augmente avec l’âge.

Age moyen d’un client

b) Définitions statistiques
3.02=intercept de la droite de régression
0.24=pente de la droite de régression
0.56=coéfficient de détermination

Interprétations
3.02=le nombre de bouteilles minimal commandé par un individu quel que soit son âge
0.24=lorsque l’âge d’un individu augmente d’un an, le nombre de bouteilles commandées augmente de 0.24
0.56 signifie que 56% de la variance du nombre de bouteilles commandées est expliquée par la relation linéaire reliant l’âge à la commande.


Question 5

le mode de la variable taille
la médiane de la variable taille
la moyenne de l’âge conditionnelle à la taille
l’étendue de la variable taille
la droite de régression estimant le prix en fonction de la taille


Question 6

Age moyen des acheteurs


Moyennes conditionnelles par rapport à l’âge des clients


1. Un C de Pearson : oui
Un coefficient de corrélation linéaire simple :oui

2 courbes de régression

a=24.15 c’est la taille minimale d’une bombe indépendamment de l’âge du client
b=3.56 chaque année, la taille nécessaire à un cavalier augmente de 3.56cm
Il faut utiliser le coefficient de détermination pour juger de la qualité de l’ajustement linéaire entre les deux variables.


Question 7

1. f)les moyennes conditionnelles au climat ? non (car variables qualitatives)
g)les moyennes conditionnelles à la nationalité ? non (car variables qualitatives)
h)les taux de liaison ? oui
i)la covariance entre nationalité et climat au jour de la location ?non (car variables qualitatives)
j)(² ? oui
Rappel : EMBED Equation.3 
k)les fréquences conjointes ? oui
l)les fréquences conditionnelles ? oui
m)une régression linéaire simple ? non

2. a) 50.3=le nombre minimal de nuitées vendues, quelque soit le nombre de jours de beau temps pendant la semaine.
24.2=nombre de nuitées vendues en une semaine par jour de beau temps supplémentaire
b) Sachant qu’il ne peu pas y avoir plus de 7 jours de beau temps par semaine, la droite de régression prévoit que F.Harniente vendra au plus 50.3+24.2(7=219.7 nuitées par semaine. La capacité de son hôtel étant de 250 nuitées, il pourra toujours répondre à la demande.
PAGE 


PAGE 12




Distribution marginale de x

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Excel.Sheet.8 

 EMBED Excel.Sheet.8 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

 EMBED Equation.3 

Interprétation : La taille moyenne augmente d’abord avec l’âge, ensuite, elle diminue.


Interprétation : L’âge moyen est plus élevé pour les tailles plus élevées.