Correction pale ANALYSE DE DONNES ...
L'Analyse Factorielle des Correspondances simples (AFC) est une Analyse des
Correspondances Multiples (ACM) particulière. Quel est son objectif ? - 0 point.
part of the document
EXERCICE 1 (4/5 points)
Expliquez le principe général de lanalyse factorielle - 1 point
Lanalyse factorielle est un ensemble de méthodes statistiques permettant de déceller les dimensions sous-jacentes, appelées facteurs dun tableau multidimensionnel.
Au départ, on a un tableau de données multidimensionnel. On veut montrer tous les détails sur une surface plane ainsi que les structures qui ne sont pas visibles sur le tableau de départ.
On veut notamment mettre en évidence les ressemblances qui existent entre les individus et les liaisons entre les variables.
Pour faire tout cela il faut déterminer le meilleur plan de projection ( plan factoriel ) et les meilleurs points de projection dans ce plan. Le meilleur plan de projection doit avoir :
- 2 axes factoriels
- la plus grande dispersion possible des individus = dispersion maximale
Au travers de lanalyse factorielle on veut remplacer des variables dorigine par de nouvelles variables.
Le type danalyse factorielle va dépendre de la nature des variables :
- variables quantitatives : on réalise une Analyse en Composantes Principales ou ACP
- variables qualitatives : on réalise une Analyse des Correspondances multiples ou ACM
Vous trouverez ci-après 3 plans principaux que lon pourrait rencontrer en ACP. Décrivez uniquement les situations 2 et 3 et dites quel(s) traitement(s) statistique(s) il serait judicieux de réaliser lorsque les points-individus sont ainsi représentés - 2 points
Situation 1 Situation 2 Situation 3
Situation 1 : cest la situation idéale pour réaliser une ACP.
Situation 2 : on voit quil y a 3 points isolés du nuage de points. Ceux-ci risquent davoir une part dinertie élevée car ils sont extrêmes et ils risquent dinfluencer la direction dallongement maximal. Du nuage de points. Il faut donc mettre ces 3 individus isolés comme individus illustratifs.
Situation 3 : il y a 2 groupes dindividus représentés par 2 nuages de points. Il faudrait réaliser une ACP pour chaque nuage même si cela modifierait les directions dallongement maximal.
Quand parle-t-on deffet « taille » ? Quelle est lincidence de leffet « taille » sur la caractérisation des individus ? 1 point
Effet de taille : toutes les variables sont corrélées positivement avec la première composante principale.
EXERCICE 2 (3/5 points)
Une analyse des Correspondances Multiples (ACM) a été réalisée sur des données de lenquête « Conditions de vie et aspirations des Français » (105 individus et 9 questions). Pour la réalisation de lanalyse, 4 questions ont été utilisées comme questions actives tandis que toutes les autres ont été utilisées comme questions illustratives :
Questions actives
La famille est le seul endroit où lon se sent bien ? (oui / non)
Les dépenses de logement sont pour vous une charge ? (négligeable / sans gros problème / une lourde charge / une très lourde charge)
Avez-vous souffert récemment de mal de dos ? (oui / non)
Vous imposez-vous régulièrement des restrictions ? (oui / non)
Questions illustratives
Sexe de lenquêté(e) (masculin / féminin)
Disposez-vous dun magnétoscope (oui / non)
Avez-vous souffert récemment de maux de tête ? (oui / non)
Regardez-vous la TV ? (tous les jours / assez souvent / pas très souvent / jamais)
Variable continue illustrative
Age de lenquêté(e)
Quel(s) objectif(s) peut-on assigner à létude des données de lenquête ? 0 point
Justifiez le choix de lACM pour décrire la structure des données de lenquête. Quelle mesure de distance va-t-on utiliser dans cette analyse ? 1 point
On choisit une ACM car les variables (les questions) sont qualitatives. Elles ont plusieurs modalités.
Ex : q1 : La famille est le seul endroit où lon se sent bien ? Il y a 2 modalités de réponse (oui / non).
Dans cette analyse on va utiliser comme mesure de distance (et donc comme mesure de ressemblance) la distance du Chi².
On aurait pu utiliser, dans cette analyse, la variable « âge de lenquêté(e) » comme variable active. Comment aurait-on fait ? 1 point
Pour cela, il aurait fallu transformer la variable quantitative « âge de lenquêté(e) » en variable qualitative. Pour ce faire, il faut réaliser un découpage en classes qui peut se faire de 2 façons :
- utilisation des seuils naturels de la vie de tous les jours
- utilisation dune méthode de description statistique
On peut alors réaliser un histogramme, certaines classes ont un effectif très faible, il faut donc les regrouper. En ACM, on ne veut pas forcément que les classes aient la même amplitude, mais on veut quelles aient environ le même effectif pour leur accorder la même importance.
LAnalyse Factorielle des Correspondances simples (AFC) est une Analyse des Correspondances Multiples (ACM) particulière. Quel est son objectif ? - 0 point
Quest-ce que leffet GUTTMAN ? 1 point
Leffet GUTTMAN correspond au fait que le nuage de point est une forme de parabole.
Le facteur 1 oppose les valeurs extrêmes.
Le facteur 2 oppose les valeurs extrêmes aux individus intermédiaires.
EXERCICE 3 (5/5 points)
Le logiciel SPAD effectue la classification ascendante hiérarchique selon la méthode dagrégation de WARD. Rappelez en quoi consiste cette méthode. 1 point
La méthode dagrégation de WARD correspond au fait dutiliser le critère de WARD pour agréger des éléments.
Le critère de WARD ou critère de perte dinertie interclasse minimale : « Au lieu dagréger les éléments i et i les plus proches, on agrège les éléments correspondants à la perte dinertie interclasse minimale ». En dautres termes, au lieu dagréger les éléments i et i les plus proches, on agrège les éléments de telle sorte que la perte dinertie interclasse de lagrégation soit minimale.
On utilise cette méthode dagrégation de WARD en classification ascendante hiérarchique afin dobtenir des partitions. On choisit ensuite la meilleure partition puis on caractérise les classes.
La classification autour des centres mobiles est une technique non hiérarchique. Décrivez succinctement son algorithme. - 2 points
La classification autour des centres mobiles est une autre méthode de classification qui a pour but de créer des groupes dindividus homogènes dans la population.
Au départ on fixe le nombre de classes=k. On choisit alors au hasard k individus qui vont correspondre à k centres de classes provisoires, on agrège alors les individus au centre de classe le plus proche. On a alors k classes.
On calcule ensuite le centre de gravité de chaque classe, il devient alors le nouveau centre de classe. On agrège à nouveau les individus au centre de classe le plus proche. On calcule à nouveau le centre de gravité qui devient le nouveau centre de classe. On agrège les individus au centre de classe le plus proche.
On continue cette méthode jusquà que la répartition en classes soit stable, cest-à-dire jusquà ce que les individus appartiennent toujours à la même classe.
Quel est lobjectif dune Analyse Factorielle Discriminante (AFD) ? - 1 point
Une AFD est une technique de description statistique dont le tableau est composé de n individus décrits par p variables quantitatives et une variable qualitative à q modalités.
LAFD a pour objectif de séparer au mieux les q classes grâce aux p variables quantitatives. Elle permet aussi de rechercher les variables synthétiques qui vont permettre de séparer au mieux les q classes.
LAnalyse Factorielle Discriminante (AFD) est une Analyse en Composantes Principales (ACP) particulière. Expliquez. - 1 point
LAFD est une technique de description statistique. Elle croise n individus avec p variables quantitatives et une variable qualitative à q modalités.
LAFD est une ACP particulière qui croise q centres de gravité avec p variables quantitatives. Elle a pour but de passer de p variables dorigine à p variables latentes comme lACP.
Les nouvelles variables recherchées, cest-à-dire les variables synthétiques sont appelées variables discriminantes et correspondent aux composantes principales en ACP.
Correction pale ANALYSE DE DONNES MULTIDIMENSIONNELLES 007 & 149