Td corrigé Correction pale ANALYSE DE DONNES ... pdf

Correction pale ANALYSE DE DONNES ...

L'Analyse Factorielle des Correspondances simples (AFC) est une Analyse des Correspondances Multiples (ACM) particulière. Quel est son objectif ? - 0 point.




part of the document




EXERCICE 1 (4/5 points)

Expliquez le principe général de l’analyse factorielle - 1 point
L’analyse factorielle est un ensemble de méthodes statistiques permettant de déceller les dimensions sous-jacentes, appelées facteurs d’un tableau multidimensionnel.

Au départ, on a un tableau de données multidimensionnel. On veut montrer tous les détails sur une surface plane ainsi que les structures qui ne sont pas visibles sur le tableau de départ.

On veut notamment mettre en évidence les ressemblances qui existent entre les individus et les liaisons entre les variables.

Pour faire tout cela il faut déterminer le meilleur plan de projection ( plan factoriel ) et les meilleurs points de projection dans ce plan. Le meilleur plan de projection doit avoir :
- 2 axes factoriels
- la plus grande dispersion possible des individus = dispersion maximale

Au travers de l’analyse factorielle on veut remplacer des variables d’origine par de nouvelles variables.

Le type d’analyse factorielle va dépendre de la nature des variables :
- variables quantitatives : on réalise une Analyse en Composantes Principales ou ACP
- variables qualitatives : on réalise une Analyse des Correspondances multiples ou ACM


Vous trouverez ci-après 3 plans principaux que l’on pourrait rencontrer en ACP. Décrivez uniquement les situations 2 et 3 et dites quel(s) traitement(s) statistique(s) il serait judicieux de réaliser lorsque les points-individus sont ainsi représentés - 2 points


Situation 1 Situation 2 Situation 3



Situation 1 : c’est la situation idéale pour réaliser une ACP.

Situation 2 : on voit qu’il y a 3 points isolés du nuage de points. Ceux-ci risquent d’avoir une part d’inertie élevée car ils sont extrêmes et ils risquent d’influencer la direction d’allongement maximal. Du nuage de points. Il faut donc mettre ces 3 individus isolés comme individus illustratifs.

Situation 3 : il y a 2 groupes d’individus représentés par 2 nuages de points. Il faudrait réaliser une ACP pour chaque nuage même si cela modifierait les directions d’allongement maximal.



Quand parle-t-on d’effet « taille » ? Quelle est l’incidence de l’effet « taille » sur la caractérisation des individus ? – 1 point
Effet de taille : toutes les variables sont corrélées positivement avec la première composante principale.

EXERCICE 2 (3/5 points)

Une analyse des Correspondances Multiples (ACM) a été réalisée sur des données de l’enquête « Conditions de vie et aspirations des Français » (105 individus et 9 questions). Pour la réalisation de l’analyse, 4 questions ont été utilisées comme questions actives tandis que toutes les autres ont été utilisées comme questions illustratives :
Questions actives
La famille est le seul endroit où l’on se sent bien ? (oui / non)
Les dépenses de logement sont pour vous une charge ? (négligeable / sans gros problème / une lourde charge / une très lourde charge)
Avez-vous souffert récemment de mal de dos ? (oui / non)
Vous imposez-vous régulièrement des restrictions ? (oui / non)
Questions illustratives
Sexe de l’enquêté(e) (masculin / féminin)
Disposez-vous d’un magnétoscope (oui / non)
Avez-vous souffert récemment de maux de tête ? (oui / non)
Regardez-vous la TV ? (tous les jours / assez souvent / pas très souvent / jamais)
Variable continue illustrative
Age de l’enquêté(e)

Quel(s) objectif(s) peut-on assigner à l’étude des données de l’enquête ? – 0 point


Justifiez le choix de l’ACM pour décrire la structure des données de l’enquête. Quelle mesure de distance va-t-on utiliser dans cette analyse ? – 1 point
On choisit une ACM car les variables (les questions) sont qualitatives. Elles ont plusieurs modalités.
Ex : q1 : La famille est le seul endroit où l’on se sent bien ? Il y a 2 modalités de réponse (oui / non).

Dans cette analyse on va utiliser comme mesure de distance (et donc comme mesure de ressemblance) la distance du Chi².

On aurait pu utiliser, dans cette analyse, la variable « âge de l’enquêté(e) » comme variable active. Comment aurait-on fait ? – 1 point
Pour cela, il aurait fallu transformer la variable quantitative « âge de l’enquêté(e) » en variable qualitative. Pour ce faire, il faut réaliser un découpage en classes qui peut se faire de 2 façons :
- utilisation des seuils naturels de la vie de tous les jours
- utilisation d’une méthode de description statistique

On peut alors réaliser un histogramme, certaines classes ont un effectif très faible, il faut donc les regrouper. En ACM, on ne veut pas forcément que les classes aient la même amplitude, mais on veut qu’elles aient environ le même effectif pour leur accorder la même importance.


L’Analyse Factorielle des Correspondances simples (AFC) est une Analyse des Correspondances Multiples (ACM) particulière. Quel est son objectif ? - 0 point

Qu’est-ce que l’effet GUTTMAN ? – 1 point
L’effet GUTTMAN correspond au fait que le nuage de point est une forme de parabole.
Le facteur 1 oppose les valeurs extrêmes.
Le facteur 2 oppose les valeurs extrêmes aux individus intermédiaires.



EXERCICE 3 (5/5 points)

Le logiciel SPAD effectue la classification ascendante hiérarchique selon la méthode d’agrégation de WARD. Rappelez en quoi consiste cette méthode. – 1 point
La méthode d’agrégation de WARD correspond au fait d’utiliser le critère de WARD pour agréger des éléments.

Le critère de WARD ou critère de perte d’inertie interclasse minimale : « Au lieu d’agréger les éléments i et i’ les plus proches, on agrège les éléments correspondants à la perte d’inertie interclasse minimale ». En d’autres termes, au lieu d’agréger les éléments i et i’ les plus proches, on agrège les éléments de telle sorte que la perte d’inertie interclasse de l’agrégation soit minimale.

On utilise cette méthode d’agrégation de WARD en classification ascendante hiérarchique afin d’obtenir des partitions. On choisit ensuite la meilleure partition puis on caractérise les classes.
La classification autour des centres mobiles est une technique non hiérarchique. Décrivez succinctement son algorithme. - 2 points
La classification autour des centres mobiles est une autre méthode de classification qui a pour but de créer des groupes d’individus homogènes dans la population.

Au départ on fixe le nombre de classes=k. On choisit alors au hasard k individus qui vont correspondre à k centres de classes provisoires, on agrège alors les individus au centre de classe le plus proche. On a alors k classes.

On calcule ensuite le centre de gravité de chaque classe, il devient alors le nouveau centre de classe. On agrège à nouveau les individus au centre de classe le plus proche. On calcule à nouveau le centre de gravité qui devient le nouveau centre de classe. On agrège les individus au centre de classe le plus proche.

On continue cette méthode jusqu’à que la répartition en classes soit stable, c’est-à-dire jusqu’à ce que les individus appartiennent toujours à la même classe.

Quel est l’objectif d’une Analyse Factorielle Discriminante (AFD) ? - 1 point
Une AFD est une technique de description statistique dont le tableau est composé de n individus décrits par p variables quantitatives et une variable qualitative à q modalités.

L’AFD a pour objectif de séparer au mieux les q classes grâce aux p variables quantitatives. Elle permet aussi de rechercher les variables synthétiques qui vont permettre de séparer au mieux les q classes.

L’Analyse Factorielle Discriminante (AFD) est une Analyse en Composantes Principales (ACP) particulière. Expliquez. - 1 point
L’AFD est une technique de description statistique. Elle croise n individus avec p variables quantitatives et une variable qualitative à q modalités.

L’AFD est une ACP particulière qui croise q centres de gravité avec p variables quantitatives. Elle a pour but de passer de p variables d’origine à p variables latentes comme l’ACP.

Les nouvelles variables recherchées, c’est-à-dire les variables synthétiques sont appelées variables discriminantes et correspondent aux composantes principales en ACP.










Correction pale ANALYSE DE DONNES MULTIDIMENSIONNELLES 007 & 149