Analyse multidimensionnelle de données

Paramètres pour le montage du volume contenant les fichiers utilisés en TD : ...... à une variable ou facteur (non observable) mesurant l'intelligence du sujet .... Cette méthode utilise des concepts de statistique inférentielle classiques.

part of the document

Analyse multidimensionnelle des données
Master 2ème année - Psychologie Sociale des Représentations

Réf. (polycopié et fichiers de données utilisés) :
http://geai.univ-brest.fr/~carpenti/

Présentation
Introduction

Comment peut-on définir l'analyse multidimensionnelle des données ?

L'analyse statistique élémentaire s'applique à des situations dans lesquelles une ou deux variables ont été observées sur un ensemble d'individus statistiques (populations ou échantillons). L'extension de ces méthodes aux cas où le nombre de variables devient plus élevé est souvent appelé analyse multivariée. Cependant les conclusions ou résultats obtenus par ces méthodes restent de même nature, unidimensionnelle. Par exemple, la MANOVA (analyse de variance multivariée) permet d'étudier l'effet de facteurs de variation sur un "vecteur" de variables dépendantes, mais apporte une conclusion analogue à celle de l'ANOVA : les facteurs ont (ou n'ont pas) un effet sur le vecteur des VD.

L'analyse multidimensionnelle (ou plutôt, les méthodes qui en relèvent) étudie également des situations où un ensemble de variables doit être étudié simultanément sur un ensemble d'objets statistiques. Par nature, ces données se modélisent dans un espace à plusieurs dimensions. Mais, à la différence des méthodes précédentes, l'analyse multidimensionnelle des données s'attache à fournir des résultats en réduisant le nombre de dimensions, mais en ne se limitant pas à une seule. La plupart des méthodes d'analyse multidimensionnelle utilisent un modèle géométrique (une géométrie dans un espace de dimension supérieure à 3) et ses possibilités de projection sur des sous-espaces de dimension plus réduite, notamment sur des plans bien choisis. Les "écarts" entre objets y sont alors traduits par les distances habituelles.

G. Drouet d'Aubigny schématise ce traitement d'un tableau de données complexes, ou système relationnel empirique de la façon suivante :

SHAPE \* MERGEFORMAT

Le plus souvent, les méthodes d'analyse multidimensionnelle s'appliquent à des tableaux de l'un des types suivants :

- Tableau protocole individus x variables numériques. Exemple :

On dispose des consommations annuelles de 8 types de denrées alimentaires pour 8 catégories socio-professionnelles (en 1972).

PAOPAAVIOVIAPOTLECRAIPLPAGRI16711632341866SAAG1622141124012415PRIN119669563951341CSUP8711631112731839CMOY103568773241130EMPL111472663461028OUVR13037652437716INAC1387117745381220
Légende :
Variables :

PAO Pain ordinairePAA Autre painVIO Vin ordinaireVIA Autre vinPOT Pommes de terreLEC Légumes secsRAI Raisin de tablePLP Plats préparés
Observations :

AGRI Exploitants agricolesSAAG Salariés agricolesPRIN Professions indépendantesCSUP Cadres supérieursCMOY Cadres moyensEMPL EmployésOUVR OuvriersINAC Inactifs

- Tableau de contingence. Exemple :

Répartition des étudiants selon la catégorie socio-professionnelle des parents et le type d'études suivi en 1975-1976 (simplifié) :

DroitSciencesMédecineIUTExp. agri.80996558Patron16813720862Cadre sup.47040087679Employé14513313554Ouvrier166193127129
- Tableau protocole pour des variables nominales

SexeRevenuPreferences1FMAs2FMAs3FEBs4FECs5FECs6HECs7HEBs8HMBs9HMBs10HMA
- Tableau individus x variables comportant des variables numériques et une variable dichotomique

AgeEtat-CivilFeministeFrequenceAgressiviteHarcelement1131102240245210136031921022714422102121527177110619198061737196160
On cherche à analyser les résultats contenus dans ces tableaux, en explicitant plusieurs dimensions, si possible indépendantes l'une de l'autre.

Quelques méthodes utilisées
De nombreuses méthodes ont été proposées. Ces méthodes peuvent être regroupées d'une part selon les outils mathématiques utilisés (méthodes linéaires ou non linéaires), d'autre part selon la nature du résultat recherché (méthodes descriptives ou prédictives).

Méthodes descriptives : toutes les variables jouent des rôles analogues.
Méthodes prédictives : on cherche à "expliquer" ou "prévoir" une ou plusieurs variables (variables dépendantes ou VD) à l'aide des autres variables (variables indépendantes ou VI).

Concepts fondamentaux

Selon [Doise], toute distribution de réponses sur plusieurs variables peut être statistiquement décomposée en trois éléments : le niveau (la moyenne des réponses des individus), la dispersion (le degré d'éparpillement des réponses individuelles autour de la moyenne), et la corrélation (le lien entre les réponses individuelles pour deux variables). Ces composantes sont autant de points de vue sur les données.

Un tableau de données carré ou rectangulaire est appelé matrice. L'élément générique du tableau est désigné par une notation à double indice, par exemple EMBED Equation.3 . En général, le premier indice désigne le numéro de ligne, et le second indice le numéro de colonne. Un tableau comportant n lignes et p colonnes est dit de dimension (n, p).

Lorsque l'on traite un tableau Individus x Variables de dimension (n, p), les individus peuvent être représentés comme des points d'un espace à p dimensions, les variables comme des points d'un espace à n dimensions. L'ensemble des points représentant les individus est appelé nuage des individus.

La distance entre deux individus Mi, Mj est calculée par :
EMBED Equation.3
L'inertie du nuage de points par rapport à un point donné O de l'espace est la somme des carrés des distances des points Mi à O.
EMBED Equation.3
L'inertie du nuage de points par rapport au point moyen du nuage est encore appelée somme des carrés ou variation totale.

Le "lien" entre deux variables Xk et Xl peut être mesuré par leur coefficient de corrélation r(Xk,Xl). Lorsque les variables sont centrées et réduites, ce coefficient de corrélation est, à une division par n près, le produit scalaire des vecteurs représentant ces variables. C'est aussi le cosinus de l'angle entre ces deux vecteurs. Pour des variables centrées réduites :
EMBED Equation.3

Méthodes exploratoires, descriptives
Analyse en composantes principales ou ACP
Introduction
On a observé p variables sur n individus. On dit qu'il s'agit d'un protocole multivarié. Les données à traiter forment une matrice :
EMBED Equation.3
On cherche à remplacer ces p variables par q nouvelles variables (composantes principales ou facteurs) résumant au mieux le protocole, avec q d" p et si possible q=2.
L'une des solutions à ce problème est l'ACP, méthode qui a l'avantage de résumer un ensemble de variables corrélées en un nombre réduit de facteurs non corrélés. Les principaux résultats d'une ACP sont donnés par :

- Les coordonnées des individus sur les composantes principales ou scores des individus ;
- Les coordonnées des variables sur les composantes principales, ou saturations des variables ; dans le cas d'une ACP normée, les saturations sont aussi les coefficients de corrélation entre les variables initiales et les composantes principales ;
- Les valeurs propres associées à chacune des composantes principales, qui représentent l'inertie du nuage prise en compte par la composante.

Principe de la méthode :

- Pour éliminer les effets dus aux choix d'unités des différentes variables, on fait un centrage-réduction des différentes variables.

- Les distances entre les individus sont mesurées par la distance euclidienne dans un espace de dimension p. Par exemple, pour les points représentant les individus 1 et 2 :
EMBED Equation.3

- On recherche alors la direction dans laquelle le nuage de points est le plus dispersé : cette direction est le premier axe principal, et l'inertie (dispersion) le long de cet axe est la valeur propre associée à cet axe.

- On projette alors les points dans le sous-espace orthogonal au premier axe principal, et on cherche de nouveau la direction de plus grande dispersion du nuage projeté. On obtient ainsi le deuxième axe principal, et la seconde valeur propre.

- On poursuit la méthode, jusqu'à ce que l'essentiel de l'inertie du nuage de points ait été prise en compte.
Exemple
On reprend l'exemple donné en introduction : consommations annuelles de 8 types de denrées alimentaires pour 8 catégories socio-professionnelles (en 1972).

PAOPAAVIOVIAPOTLECRAIPLPAGRI16711632341866SAAG1622141124012415PRIN119669563951341CSUP8711631112731839CMOY103568773241130EMPL111472663461028OUVR13037652437716INAC1387117745381220
Légende :
Variables :

PAO Pain ordinairePAA Autre painVIO Vin ordinaireVIA Autre vinPOT Pommes de terreLEC Légumes secsRAI Raisin de tablePLP Plats préparés
Observations :

AGRI Exploitants agricolesSAAG Salariés agricolesPRIN Professions indépendantesCSUP Cadres supérieursCMOY Cadres moyensEMPL EmployésOUVR OuvriersINAC Inactifs

Données après centrage et réduction :

PAOPAAVIOVIAPOTLECRAIPLPAGRI1,43-1,221,72-1,150,300,49-0,93-1,50SAAG1,25-0,901,16-1,500,171,90-1,38-0,77PRIN-0,290,35-0,70-0,090,05-0,580,651,36CSUP-1,441,92-0,851,66-1,48-1,281,771,19CMOY-0,860,04-0,730,58-0,84-0,930,200,46EMPL-0,58-0,27-0,620,23-0,59-0,22-0,030,30OUVR0,10-0,59-0,52-0,220,560,13-0,70-0,68INAC0,390,670,540,481,830,490,42-0,36
Corrélations entre variables :

PAOPAAVIOVIAPOTLECRAIPLPPAO1,00-0,770,93-0,910,660,89-0,83-0,86PAA-0,771,00-0,600,90-0,33-0,670,960,77VIO0,93-0,601,00-0,750,520,79-0,67-0,83VIA-0,910,90-0,751,00-0,42-0,840,920,72POT0,66-0,330,52-0,421,000,60-0,41-0,55LEC0,89-0,670,79-0,840,601,00-0,82-0,75RAI-0,830,96-0,670,92-0,41-0,821,000,83PLP-0,860,77-0,830,72-0,55-0,750,831,00
Valeurs propres de l'ACP

Val ProprePourcentageCumul InertieCumul %16,207977,606,2177,6020,879711,007,0988,6030,41605,207,5093,7940,30653,837,8197,6350,16842,117,9899,7360,01810,238,0099,9670,00340,048,00100,00
Représentation graphique des individus (plan 1-2)
EMBED STATISTICA.Graph \s

Représentation graphique des variables (plan 1-2)
EMBED STATISTICA.Graph \s

Aides à l'interprétation

Contributions ou inerties relatives des individus

QLTCoord. 1Cos2CtrCoord. 2Cos2CtrAGRI0,8891,350,88422,89-0,260,0050,86SAAG0,9131,410,89824,97-0,480,0142,84PRIN0,576-0,590,5754,360,060,0010,05CSUP0,943-1,750,94238,260,190,0020,44CMOY0,940-0,690,7535,94-0,910,18710,43EMPL0,858-0,320,4281,31-0,860,4309,29OUVR0,3760,360,3611,63-0,200,0150,48INAC0,9870,230,0560,642,460,93275,61100100
Qualités de représentation

Analyse en composantes principales avec Statistica

Organiser son espace de travail sous Statistica:

Affichez le dialogue d'ouverture de session en appuyant simultanément sur les trois touches Ctrl+Alt+Suppr. Complétez le dialogue en ouvrant la session à l'aide de vos identifiants ENT :

EMBED PBrush
N.B. Pour des raisons de confidentialité, le mot de passe ne s'affiche pas "en clair".

Remarque 1. Si vous ne disposez pas encore de votre identifiant ENT, ou si votre mot de passe n'est pas reconnu, vous pouvez ouvrir une session en utilisant le compte :
Utilisateur : LETA20xPyy\etudiant
Mot de passe : ubo

Cependant, la configuration de nos appareils impose que la session soit ouverte par un utilisateur identifié, dans le domaine ETU-UBO pour que le logiciel Statistica soit disponible. Si vous avez ouvert la session avec l'identifiant etudiant, le mot de passe ubo, vous devez ensuite effectuer le montage du disque réseau contenant le logiciel Statistica (ainsi que, de préférence, de celui qui contient les fichiers utilisés en TD) à l'aide du menu Monter un volume réseau du poste de travail. Pour ces montages, vous devez utiliser les coordonnées ENT d'un utilisateur reconnu par l'ENT (l'enseignant, un collègue étudiant, etc.).

Paramètres pour le montage du volume réseau contenant le logiciel Statistica :
- Volume réseau : \\servsciences\statistica
- Lettre de lecteur : S:
- Utilisateur : login et mot de passe d'un utilisateur reconnu sur l'ENT.

Paramètres pour le montage du volume contenant les fichiers utilisés en TD :
- Volume réseau : \\serv-bu\tdlettres ou \\172.18.127.1\tdlettres
- Lettre de lecteur : W:
- Utilisateur : login et mot de passe d'un utilisateur reconnu sur l'ENT.

Chargez le logiciel Statistica en double-cliquant sur l'icône présente sur le bureau. La configuration par défaut du logiciel n'est pas vraiment satisfaisante. Nous allons donc commencer par adapter la configuration à nos besoins.
Au premier chargement du logiciel
Le logiciel propose deux options possibles pour l'affichage des menus. Vous pouvez choisir celle que vous préférez. Notez toutefois que les copies d'écran de ce polycopié utilisent l'option "Menus Classiques".

N.B. Il sera toujours possible de basculer d'une interface à l'autre à l'aide des menus Affichage - Ruban des menus classiques ou Affichage - Menus Classique de l'autre option;

Le logiciel demande ensuite si l'on souhaite installer les composants permettant au logiciel d'interagir avec R. Vous pouvez décliner la proposition et cocher l'option "Ne plus me proposer cette boîte de dialogue" car vous n'avez pas les droits d'administration permettant de faire cette installation.
Le menu Outils - Options
Le menu Outils - Options contient de nombreuses possibilités de paramétrage de Statistica. Heureusement, seules quelques-unes d'entre elles méritent d'être retouchées.
Ouvrez la fenêtre de dialogue accessible par le menu Outils-Options et explorez les différents onglets qui y sont rassemblés.

N.B. Les options ainsi choisies sont enregistrées dans le profil de l'utilisateur lorsque l'on quitte le logiciel. Il n'y a aucun enregistrement si le compte est verrouillé ou si Statistica se plante en cours de travail.
Spécifier le répertoire d'enregistrement par défaut
Affichez les options disponibles sous l'onglet Généralités.

- Choisissez de préférence l'option : Au démarrage de l'application, ne pas ouvrir ni créer de document., les autres options étant plutôt déroutantes.

- Par défaut, Statistica affiche les noms des 16 derniers fichiers utilisés. On peut modifier ce comportement. Par exemple, on peut aussi, sans inconvénient, réduire la longueur de la liste à 10 au lieu de 16.

- L'option : Proposer d'enregistrer les projets lors de la fermeture peut également être déroutante si on ignore ce qu'est un fichier de projet Statistica (cf. § 1.3.3) et peut sans inconvénient être désactivée.

Gérer les sorties
La manière la plus commode de gérer nos documents avec Statistica consiste à rassembler dans un même classeur la ou les feuilles de données et les résultats de traitements concernant ces données. Ce comportement sera obtenu à l'aide du réglage suivant, sous l'onglet "Analyses/Graphiques - Gestionnaire de sorties" :

Il peut également être commode de demander à Statistica de placer une copie des résultats dans un rapport, en utilisant des options telles que :

En effet un rapport peut être enregistré au format .rtf pour être relu sur une autre machine par un logiciel de traitement de textes, même si Statistica n'est pas installé sur l'appareil. Cependant, cette pratique présente plus d'inconvénients que d'avantages. En effet :

- Les rapports produisent rapidement des fichiers très volumineux. Un rapport, ou un classeur contenant un ou des rapports devra être compressé (zippé) avant d'être envoyé par mail. Et par ailleurs, un rapport trop volumineux semble provoquer des plantages du logiciel dans certains cas.
- Si plusieurs séances de travail sont nécessaires pour réaliser le traitement, un nouveau rapport sera créé à chaque séance, ce qui est assez peu pratique.

En revanche, on pourra utiliser un rapport pour y taper de courts commentaires textuels, l'interprétation du résultat d'un traitement par exemple.

Réglages concernant les graphiques
Sous l'onglet Documents > Graphs, veillez à désactiver l'option "Permettre un rendu avancé des graphiques". En effet, sur nos postes, lorsque cette option est active, Statistica se plante dès que l'on essaie de réaliser un graphique :
EMBED PBrush
La feuille de données active
Les traitements demandés via les menus s'appliquent à la fenêtre de données active. Dans le cas de données rassemblées dans plusieurs fenêtres indépendantes, la feuille active est celle qui se trouve au premier plan sur l'écran. Dans le cas d'un classeur, la feuille active est repérée par un liseré rouge :

Dans le classeur ci-dessus, la feuille active est "policiers-par-variable.sta"

On peut rendre active une feuille, ou changer de feuille active :
- soit en cliquant sur l'icône de la feuille et en utilisant le menu : Classeur - Feuille de données active;
- soit en cliquant avec le bouton droit sur l'icône de la feuille et en utilisant l'item "Feuille de données active" du menu local.
N.B. Il faut parfois rendre inactive la feuille actuellement active (mêmes menus que ci-dessus) pour pouvoir en activer une autre.
Manipulations de base sur un classeur
Copier - coller entre classeurs, entre un classeur et un objet Statistica
Pour déplacer un objet d'un classeur à un autre, il suffit de déplacer son icône depuis le volet gauche du premier classeur dans le volet gauche du second. On peut également utiliser les menus locaux Copier et Coller obtenus à l'aide d'un clic droit dans le volet gauche de chaque classeur.

Le menu local "Insérer" du volet gauche d'un classeur permet également d'insérer dans ce classeur un document contenu dans une fenêtre indépendante. Il suffit de choisir les options : Document Statistica - Créer à partir d'une fenêtre.

L'opération faite par Statistica est soit une copie (l'original de l'objet est conservé) soit un déplacement (l'original de l'objet n'est pas conservé) selon le paramétrage choisi dans le menu Outils - Options - Onglet Classeurs - Item "En cas d'ajout d'un document dans le classeur".

Supprimer un objet d'un classeur
Il est également possible de supprimer un objet d'un classeur, à l'aide d'un clic droit et de l'item de menu Supprimer. Cela permet notamment de ne garder, pour un traitement donné, que le résultat le plus abouti. Attention cependant : lorsque l'on supprime un objet qui n'est pas une feuille de la hiérarchie, on supprime en même temps tous les objets qui en dépendent.
Qu'est ce qu'un fichier de "Projet"
On peut enregistrer un projet soit en réponse à une fenêtre de dialogue, si l'option : Proposer d'enregistrer les projets lors de la fermeture est active soit en utilisant le menu Fichier - Enregistrer le projet....

Un fichier de projet permet de mémoriser un "instantané" au cours d'une séance de travail : feuilles de données et de résultats, analyses actives, etc. Mais, avec les options par défaut, le fichier lui-même ne contient pas les données proprement dites, il contient seulement des liens vers les classeurs, feuilles de données, feuilles de graphiques, etc. comme le précise la fenêtre de dialogue d'enregistrement :

Avec l'option par défaut, ce format de fichier ne permet donc pas de recopier votre travail sur un autre compte, ou de transmettre votre travail à un autre utilisateur. Le logiciel enverra également des messages d'erreur si vos fichiers sont déplacés ou renommés après l'enregistrement du projet.

Présentation de l'exemple
Source de l'exemple : Claude FLAMENT, Laurent MILLAND, Un effet Guttman en ACP, Mathématiques & Sciences humaines (43e année, n° 171, 2005, p. 25-49)

Cet exemple a trait à la représentation sociale de lhomosexualité. Le questionnaire, composé dune liste de 31 traits plus ou moins sexués, a été administré à 70 hommes homosexuels et à 70 hommes hétérosexuels [Rallier, Ricou, 2000]. Tous les sujets devaient, dans un premier temps, se décrire à partir de cette liste de traits, en se positionnant à chaque fois sur une échelle allant de 1 (= négatif) à 7 (= positif). Après avoir réalisé cette auto-description, les sujets devaient répondre à ce même questionnaire « comme le feraient les X en général », la cible « X » pouvant être : les hommes, les femmes, ou les homosexuels. Nous disposons ainsi de 8 profils moyens, qui se définissent à partir de la combinaison entre les caractéristiques des répondants et les consignes données pour remplir les questionnaires. Nous travaillons ici sur un extrait des données complètes (15 traits), extrait qui respecte scrupuleusement le type de résultat obtenu sur l'ensemble des 31 traits de l'étude.
Pour faciliter le repérage des consignes, nous avons fait le choix de coder les 8 profils en repérant en premier les répondants, puis le type de consigne parmi les 4 possibles :

Ho : Soi = sujets Homosexuels répondant à la consigne dauto-description Soi ;
Hé : Soi = sujets Hétérosexuels répondant à la consigne dautodescription Soi ;
Ho : H = sujets Homosexuels répondant comme le feraient les Hommes ;
Hé : H = sujets Hétérosexuels répondant comme le feraient les Hommes;
Ho : F = sujets Homosexuels répondant comme le feraient les Femmes ;
Hé : F = sujets Hétérosexuels répondant comme le feraient les Femmes ;
Ho : Ho = sujets Homosexuels répondant comme le feraient les Homosexuels ;
Hé : Ho = sujets Hétérosexuels répondant comme le feraient les Homosexuels.
Nous partons ici dun tableau de données comprenant, pour chacune des 8 conditions expérimentales, les moyennes de chaque trait calculées sur les 70 réponses obtenues dans chacune des conditions expérimentales. On retrouve, dans le tableau ci-dessous, le rang (solidarisation des variables) de chacun des 15 traits dans les 8 profils

He:HHo:HHe:SoiHo:SoiHo:HoHo:FHe:HoHe:FEst meneur56121315131413Aime competition33131411141314FEMININ1515151513241A confiance en soi4861114121212Devoue1112107101187MASCULIN1111212151515Bienveillant1010997976Attentif aux besoins des autres12131149855Energique84586101111Ambitieux67310871010Sensible14141421112Agreable99753663Affectueux1311814524A du caractere25465498Defend ses opinions72232339
Remarque. A l'examen du tableau précédent, on constate que les rangs ont été déterminés à l'inverse de ce qui est généralement fait en statistiques : les rangs élevés correspondent aux traits les moins typiques du stéréotype considéré, tandis que les rangs faibles correspondent aux traits les plus typiques. Cette remarque est importante pour l'interprétation des résultats de l'ACP.

Ouvrez le classeur Statistica Rep-Soc-Homo.stw.

Pour effectuer l'ACP, nous utilisons le menu Statistiques - Techniques exploratoires multivariées - ACP "à la française".
EMBED PBrush
La fenêtre de dialogue permet de spécifier les variables qui participeront à l'analyse. Elle permet également d'indiquer les différentes options choisies pour le traitement.
Utilisez l'onglet "Avancé" de cette fenêtre.
- Comment seront traitées les valeurs manquantes ? Nous voyons que Statistica propose soit de neutraliser la ligne correspondante, soit de remplacer la valeur manquante par la moyenne observée sur la variable.
- L'analyse sera-t-elle basée sur les covariances ou sur les corrélations ?
- Utilise-t-on les variances et covariances non corrigées (SC/N) ou les variances et covariances corrigées (SC/(N-1)). Dans le cas d'une ACP normée, les deux méthodes fournissent des résultats presque identiques : seuls les scores des individus sont légèrement modifiés. En fait, l'ACP est une méthode descriptive et non une méthode inférentielle. Elle est effectuée dans un but exploratoire : on étudie les données pour elles-mêmes, et non en vue d'une généralisation à une population. C'est pourquoi l'utilisation des variances non corrigées est généralement justifiée.
Nous ferons ici une analyse basée sur les corrélations, en utilisant les variances et covariances corrigées (SC/(N-1)), de manière à retrouver les résultats publiés. Cliquez ensuite sur le bouton OK.

N.B. Ne fermez pas l'analyse en cours pendant la suite des manipulations. Ainsi, vous n'aurez pas à indiquer de nouveau les options ci-dessus, vos résultats seront cohérents entre eux et se rassembleront dans un même classeur.
Statistiques descriptives - Matrice des corrélations
Ces résultats peuvent être obtenus à l'aide de l'onglet "Descriptives".

EMBED STATISTICA.Spreadsheet \s

Choix des valeurs propres
Affichez d'abord le tableau des valeurs propres et le diagramme correspondant.
Pour cela, cliquez sur les boutons "Valeurs propres" et "Tracé des valeurs propres" de l'onglet "Base".
EMBED STATISTICA.Spreadsheet \s

EMBED STATISTICA.Graph \s
Dans notre cas, on peut choisir de retenir 2 composantes principales. Dans les manipulations qui suivent, on indiquera donc 2 dans la zone d'édition "nombre de facteurs".
Pour les résultats relatifs aux individus et aux variables, on utilisera de préférence les onglets correspondants.
Résultats relatifs aux individus
On pourra obtenir successivement les scores des individus, leurs contributions à la formation des composantes principales et leurs qualités de représentation en utilisant les boutons "Coordonnées des individus", "Contributions des individus", "Cosinus²".

EMBED STATISTICA.Spreadsheet \s EMBED STATISTICA.Spreadsheet \s

EMBED STATISTICA.Spreadsheet \s

Remarquez que les résultats ainsi obtenus sont présentés dans des feuilles de résultats sur lesquelles il est possible d'effectuer les mêmes transformations (tris, ajout ou suppression de colonne, etc) que sur les feuilles contenant les données de base. Ainsi, une colonne supplémentaire a été ajouté au tableau des cosinus-carrés pour indiquer la qualité de représentation des individus dans le premier plan factoriel.
On peut ensuite obtenir les projections du nuage des individus selon les premiers axes factoriels à l'aide du bouton "Projection de individus, 2D". Lorsque les individus ne sont pas anonymes (ce qui est le cas ici), il est utile d'étiqueter chaque point. Plusieurs méthodes sont possibles :
- Utiliser les identifiants d'individus figurant dans la première colonne du tableau de données
- Utiliser les numéros des observations
- Utiliser les étiquettes indiquées dans la variable "illustrative" : ces étiquettes peuvent être des identifiants des individus, mais peuvent également représenter un groupe d'appartenance, etc.
EMBED STATISTICA.Graph \s
Dans certains cas, il pourra être utile de modifier les échelles sur les axes de manière à obtenir une représentation en axes orthonormés. L'importance de la part d'inertie expliquée par le premier axe principal apparaît ainsi plus clairement.
Résultats relatifs aux variables
Activons ensuite l'onglet "Variables".

On obtient les saturations des variables en cliquant sur le bouton "Coordonnées des variables" ou le bouton "Corrélation facteurs et variables" : dans le cas d'une ACP normée, ces deux traitements fournissent le même résultat.

On obtient leurs contributions à la formation des composantes principales en utilisant le bouton "Contributions des variables".

Les qualités de représentation sont calculées, de façon cumulative (qualité de la projection selon F1, puis selon le plan (F1,F2), puis selon l'espace (F1,F2,F3) en utilisant le bouton "Communautés (Cosinus²)".

Saturations des variables
EMBED STATISTICA.Spreadsheet \s
Contributions des variables
EMBED STATISTICA.Spreadsheet \s
Qualités des représentations des variables
EMBED STATISTICA.Spreadsheet \s
Représentation des variables
Le bouton "Projection des variables, 2D" permet d'obtenir les diagrammes représentant les projections des variables selon les plans définis par deux axes principaux.
EMBED STATISTICA.Graph \s
On peut remarquer que toutes les variables se projettent dans un même demi-plan du premier plan factoriel. Autrement dit, une rotation des axes factoriels convenablement choisie permettrait de ramener toutes les variables dans le demi-plan correspondant aux valeurs positives du premier facteur.
Coefficients des variables
Les coefficients des variables (c'est-à-dire la matrice permettant de passer des variables centrées réduites aux composantes principales et vice-versa) sont obtenus à l'aide du bouton "Vecteurs propres" de l'onglet "Variables".
EMBED STATISTICA.Spreadsheet \s
Interprétation des résultats de l'ACP
Examen des valeurs propres. Choix du nombre d'axes
On examine les résultats relatifs aux valeurs propres.
Plusieurs critères peuvent nous guider :
- "méthode du coude" on examine la courbe de décroissance des valeurs propres pour déterminer les points où la pente diminue de façon brutale ; seuls les axes qui précèdent ce changement de pente seront retenus.
- si l'analyse porte sur p variables et n > p individus, la variation totale est répartie sur p axes. On peut alors choisir de conserver les axes dont la contribution relative est supérieure à EMBED Equation.3 . Dans le cas d'une ACP normée, cela revient à conserver les axes correspondant aux valeurs propres supérieures à 1.
Sur le cas étudié, les différentes méthodes conduisent à ne garder que les deux premiers axes.
Interpréter les résultats relatifs aux individus
Très souvent, les individus pris en compte pour une ACP sont en nombre très élevé et sont considérés comme anonymes. Les éléments qui suivent concernent évidemment les cas où ils ne le sont pas.
Contributions des individus à la formation d'un axe
On relève, pour chaque axe, quels sont les individus qui ont la plus forte contribution à la formation de l'axe. Par exemple, on retient (pour l'analyse) les individus dont la contribution relative est supérieure à EMBED Equation.3 . On note également si cette contribution intervient dans la partie positive ou dans la partie négative de l'axe.

On peut ainsi caractériser l'axe en termes d'opposition entre individus. Il peut également être intéressant d'étudier comment l'axe classe les individus.

Si un individu a une contribution très forte à la formation d'un axe, on peut choisir de recommencer l'analyse en retirant cet individu, puis de l'introduire en tant qu'individu supplémentaire.

Ainsi, pour le premier axe, on relève les traits qui ont contribué pour plus de 6,67% à sa formation et le signe de la coordonnée de chacun de ces traits. On obtient :

-+MASCULIN (22,09)
Aime competition (11,24)
Est meneur (9,18)Sensible (22,34)
Affectueux (9,89)
FEMININ (7,18)
On voit que cet axe oppose le trait "masculin", et des traits qui sont souvent associés à ce sexe (meneur, aime compétition, a confiance en soi), sur la partie négative de l'axe, à des traits tels que "sensible", "affectueux", "attentif", et "féminin" sur la partie positive.

Pour le deuxième axe, la même démarche conduit au tableau suivant :
-+Defend ses opinions (27,41)
A du caractere (10,62)FEMININ (30,24)
Est meneur (9,35)
Cet axe oppose deux traits pratiquement indépendants du premier axe (partie négative de l'axe) au trait "féminin" (partie positive de l'axe).

Projections des individus dans un plan factoriel
Même s'il s'agit du plan (F1, F2), les proximités entre individus doivent être interprétées avec prudence : deux points proches l'un de l'autre sur le graphique peuvent correspondrent à des individus éloignés l'un de l'autre. Pour interpréter ces proximités, il est nécessaire de tenir compte des qualités de représentation des individus.
Se méfier également des individus proches de l'origine : mal représentés, ou proches de la moyenne, ils ont, de toutes façons, peu contribué à la formation des axes étudiés.
Interpréter les résultats relatifs aux variables
Contributions des variables
L'examen du tableau des contributions des variables peut permettre d'identifier des variables qui ont un rôle dominant dans la formation d'un axe factoriel. Comme précédemment, on retient (par exemple) les variables dont la contribution relative est supérieure à EMBED Equation.3 . On note également si cette contribution intervient dans la partie positive ou dans la partie négative de l'axe.

Ainsi, pour le premier axe, en fixant la "limite" à 12,5%, on obtient :

-+He:Ho (0,1879)
He:F (0,1838)
Ho:F (0,1458)He:H (0,1581)
Ainsi, cet axe oppose les profils féminins et homosexuels vus par les hétérosexuels (partie négative de l'axe) au profil masculin vu par les hétérosexuels (partie positive de l'axe).

Remarque importante. L'analyse des individus (traits) avait associé la partie négative du premier axe aux traits masculins. L'analyse des variables semble a priori conduire à un résultat opposé. Mais la contradiction n'est qu'apparente : ici, le protocole des rangs accorde le rang le moins élevé au trait le plus caractéristique du profil. La variable He:H par exemple, est fortement corrélée positivement avec le facteur 1. Le trait "masculin" par exemple obtient un score faible aussi bien sur cette variable (rang 1) que sur le premier facteur (-3,92, minimum des coordonnées de points).

Pour le second axe factoriel, on obtient :

-+He:Soi (0,3168)
Ho:Ho (0,2482)
Ho:Soi (0,1808)
Ho:H (0,1502)
On remarque que les quatre variables retenues sont celles qui ne figuraient pas dans le tableau précédent. Ces quatre variables sont corrélées positivement avec le deuxième axe.

Analyse des projections des variables sur les plans factoriels
Les diagrammes représentant les projections des variables sur les axes factoriels nous fournissent plusieurs types d'informations :

- La longueur du vecteur représentant la variable est liée à la qualité de la représentation de la variable par sa projection dans ce plan factoriel
- Pour les variables bien représentées, l'angle entre deux variables est lié au coefficient de corrélation entre ces variables (si la représentation est exacte, le coefficient de corrélation est le cosinus de cet angle). Ceci permet de dégager des "groupes de variables" de significations voisines, des groupes de variables qui "s'opposent", des groupes de variables relativement indépendantes entre eux.

- De même, pour les variables bien représentées, l'angle que fait la projection de la variable avec un axe factoriel est lié au coefficient de corrélation de cette variable et de l'axe factoriel.

Ainsi, dans notre exemple, toutes les variables sont bien représentées dans le premier plan factoriel. Des variables telles que Ho:Soi et Ho:Ho par exemple, sont fortement corrélées positivement entre elles, alors que Ho:Ho et Ho:H sont pratiquement non corrélées. Les variables He:Ho et He:F par exemple, sont fortement anti-corrélées (corrélées négativement) avec le premier axe.
Synthèse des résultats obtenus
On voit que les sujets hétérosexuels ont tendance à estimer que les homosexuels se décrivent comme "féminin" plutôt que "masculin". L'étude des résultats de l'ACP pourrait nous conduire à associer la description que les homosexuels se font d'eux-mêmes à "féminin". Mais, cette conclusion est contredite par les données : les homosexuels ne se voient jamais comme "féminin", mais font appel à des items identifiés ici comme des caractéristiques féminines (sensible, affectueux, etc). Le graphique suivant, dans lequel on a représenté les scores des traits "féminin", "masculin" et "sensible" en fonction des profils convenablement ordonnés, le met en évidence :

Sur ce graphique, les profils sont ordonnés en fonction de leur ordre d'apparition sur le cercle des corrélations (graphique du paragraphe 2.1.3.6). Cet ordre peut également être schématisé de la manière suivante :
RépondantsHeHoCibleH
MasculineHSoiSoiHomosexuelleHoFe
FéminineHoFe
ACP avec individus et variables supplémentaires

Lorsqu'on réalise une ACP, il est possible de déclarer certains individus "inactifs" et/ou certaines variables "supplémentaires". Les données correspondantes n'interviennent plus dans le calcul de détermination des composantes principales. En revanche, on leur applique les mêmes transformations qu'aux autres données afin de les ré-introduire dans les tableaux et graphiques de résultats.

Cette méthode peut notamment être utilisée lorsque des individus ou des variables ont une influence trop importante sur les résultats d'une ACP. On recommence alors les calculs en les déclarant comme individus inactifs ou variables supplémentaires. Elle peut également être utilisée pour introduire des variables plus synthétiques, et des moyennes par groupe d'individus, comme c'est le cas dans l'exemple ci-dessous.

Avec Statistica, il est simple de déclarer une variable comme variable supplémentaire : le premier dialogue de l'ACP prévoit une zone d'édition pour cela. Pour déclarer des individus comme "inactifs", il est nécessaire de construire une variable supplémentaire, qui ne contiendra que deux modalités, et d'utiliser les zones d'édition "Variable avec individus actifs" et "Code des individus actifs".

Ouvrez le fichier Proteines-2008.stw.

Source : Exemple fourni avec le logiciel Statistica.
Cet exemple particulier est présenté par Greenacre (1984) dans le cadre d'une comparaison entre l'analyse en composantes principales (voir l'Analyse Factorielle) et l'analyse des correspondances.

Les données du fichier d'exemple Protein.sta représentent des estimations de la consommation protéique issue de 9 sources différentes, par habitant dans 25 pays (les données ont initialement été reportées par Weber, 1973, dans un polycopié publié à l'Université de Kiel, Institut für Agrarpolitik und Marktlehre, intitulé "Agrarpolitik im Spannungsfeld der Internationalen Ernährungspolitik").

Au fichier de données initial ont été ajoutées les 5 variables suivantes :
- Consommation en protéines animales (somme des variables v1 à v5)
- Consommation en protéines végétales (somme des variables v6 à v9)
- Un code du nom du pays sur 2 ou 3 lettres
- Le groupe auquel appartient le pays (4 groupes ont été définis : NW (Europe du Nord et de l'Ouest), NE (Europe de l'Est, pays du Nord), SW (Europe de l'Ouest, pays du Sud) et SE (Europe de l'Est, pays du Sud)).
- Une variable codant pour les individus actifs (1) et inactifs (0).

Quatre individus ont été ajoutés, correspondant aux moyennes observées dans les 4 groupes de pays définis précédemment

Extrait des données :
EMBED STATISTICA.Spreadsheet \s

Toutes les variables s'expriment ici avec la même unité (g.hab/jour). Pour réaliser une ACP, deux possibilités s'offrent à nous :
- Faire une ACP sur les valeurs non réduites. Ainsi, une information telle que "l'apport protéique des viandes, porc et volailles est, dans tous les cas, supérieur à celui des fruits et légumes" est prise en compte dans l'étude.
- Faire une ACP sur les valeurs réduites (ACP calculée à partir du tableau des corrélations). Dans ce cas, l'étude "gomme" les inégalités des apports protéiques des différentes sources.
Réalisons une ACP sur les corrélations en spécifiant individus actifs et variables supplémentaires comme suit :

EMBED PBrush

Affichez les tableaux des covariances et des corrélations. On voit déjà apparaître une opposition entre protéines d'origine animale et protéines d'origine végétale.

Combien de valeurs propres faut-il ici retenir ? Seules 3 valeurs propres sont supérieures à 1, mais la règle du coude conduit à retenir soit 2, soit 4 axes factoriels. En fait, il faut conserver 4 axes pour mettre en évidence certaines spécificités des pays d'Europe Centrale (axe 3) ou de la France (axe 4).

EMBED STATISTICA.Graph \s

Exercice : Calculez les résultats de l'ACP pour les 4 premiers axes à l'aide de Statistica, puis interprétez les résultats.
ACP avec rotation
Par construction, les composantes principales sont des abstractions mathématiques et ne possèdent pas nécessairement de signification intuitive. Après avoir réalisé l'ACP, il peut parfois être intéressant de définir d'autres variables en effectuant une combinaison linéaire des composantes principales retenues, à l'aide d'une "rotation". L'objectif est généralement d'augmenter les saturations, c'est-à-dire les corrélations entre ces nouveaux "facteurs" et certaines variables de départ. Les nouveaux "facteurs" ainsi obtenus perdent les propriétés des facteurs principaux. Par exemple, le premier d'entre eux ne correspond plus à la direction de plus grande dispersion du nuage des individus. En revanche, la part de variance expliquée par les facteurs retenus reste identique. Il existe différents critères (varimax, quartimax, equamax, etc) permettant d'obtenir une rotation conduisant à des saturations proches de 1 ou -1, ou au contraire proches de 0.

Cette possibilité n'est pas disponible dans la méthode "ACP à la française" de Statistica. En revanche, on peut l'utiliser en utilisant le module "Analyse factorielle" convenablement paramétré.

Une ACP fournit-elle toujours des informations interprétables ?
Tout tableau de données peut être soumis à une ACP, et les méthodes d'analyse qui ont été développées permettent de "trouver des résultats". Mais ces résultats correspondent-ils à une réalité plus ou moins cachée ou ne constituent-ils qu'un artefact de la méthode ?
Pour étudier cet aspect, réalisons une ACP sur des données ... où il n'y a rien à dire (il s'agit de données produites à l'aide d'un générateur de nombres aléatoires).

Ouvrez le fichier aleatoire-20sujets.stw et réalisez une ACP normée sur ces données. La représentation graphique des valeurs propres nous indique déjà l'absence d'intérêt des données traitées :
EMBED STATISTICA.Graph \s

Combiner description et prédiction : Analyse factorielle
Introduction
Le terme analyse factorielle (factor analysis ou FA) désigne un ensemble de techniques dont les origines peuvent être situées dans les travaux de Pearson (1901). Elle a été tout d'abord développée par des psychologues, sans que les justifications théoriques, au niveau statistique ne soient clairement établies et a donné lieu à diverses controverses entre psychologues. C'est pourquoi on a pu parler à son sujet de "mouton noir des statistiques". Ce n'est que plus tard, vers 1940 que les fondements théoriques, au niveau statistique, ont été établis pour certaines des variantes de l'analyse factorielle.
Quelques noms associés à ces méthodes : Spearman, Thomson, Thurstone, Burt, etc.

Comme l'ACP, l'analyse factorielle s'applique à des protocoles multivariés, c'est-à-dire des tableaux décrivant n sujets à l'aide de p variables numériques. Quelques remarques :

- l'intérêt porte ici sur les variables et non sur les individus statistiques ; il s'agit donc plus d'une méthode d'analyse multivariée que d'une méthode d'analyse multidimensionnelle.
- de nombreuses variantes existent : l'analyse factorielle est parfois désignée par le terme "analyse en facteurs communs et spécifiques", selon les variantes on parlera d'analyse factorielle exploratoire (exploratory factor analysis ou EFA) ou d'analyse factorielle confirmatoire (confirmatory factor analysis ou CFA). L'analyse en facteurs principaux (principal factor analysis ou PFA) est l'une des variantes de l'analyse factorielle.

Exemple introductif
Source : Mardia, K.V., Kent, J.T., Bibby, J.M., Multivariate Analysis, Academic Press, London 1979.

On dispose des notes obtenues par 88 sujets dans 5 matières : Mechanics(C), Vectors(C), Algebra(O), Analysis(O), Statistics(O). Pour deux matières, les étudiants n'avaient pas accès à leurs documents (closed book - C), pour les trois autres, les documents pouvaient être consultés (open book - O).

On utilise le menu Statistiques - Statistiques exploratoires multivariées - Analyse Factorielle de Statistica. Sous l'onglet "Avancé", on obtient le dialogue suivant :

Nous voyons que Statistica nous demande de fixer a priori le nombre de facteurs à extraire et nous propose plusieurs méthodes d'extraction des facteurs. Choisissons d'extraire deux facteurs par la méthode du maximum de vraisemblance.

Statistica fournit alors les résultats sous plusieurs onglets :

Sous l'onglet "Variance expliquée", on obtient notamment les 4 tableaux de résultats suivants :

- un tableau de "valeurs propres" :

Val. Propres (Open/Closed Book Data)Extraction : Facteurs du max. de vrais.Val Propre% TotalCumulCumulvarianceVal propre%12,82417056,483412,82417056,4834120,3194916,389833,14366262,87323
- un tableau des "communautés" :

Communautés (Open/Closed Book) Rotation : Sans rot.Pour 1Pour 2R-deuxFacteurFacteursMultipleMechanics(C)0,3948780,5341030,376414Vectors(C)0,4835480,5809440,445122Algebra(O)0,8089350,8114310,671358Analysis(O)0,6077790,6482070,540864Statistics(O)0,5290290,5689770,479319
- un test d'adéquation du modèle aux données, utilisant une statistique du khi-2

Qualité d'ajust.,2 (Open/Closed Book Data)
(Test de la nullité des éléments en dehors de la diagonale dans la matrice de corr.)% expl.Chi²dlpRésultat62,873230,07471010,784601
- un tableau dit "de corrélation des résidus" :

Corrélations des Résidus (Open/Closed Book Data) (Résidus marqués sont > ,100000)Mechanics(C)Vectors(C)Algebra(O)Analysis(O)Statistics(O)Mechanics(C)0,47-0,000,00-0,010,01Vectors(C)-0,000,42-0,000,01-0,01Algebra(O)0,00-0,000,19-0,000,00Analysis(O)-0,010,01-0,000,35-0,00Statistics(O)0,01-0,010,00-0,000,43
L'onglet "Poids factoriels" nous offre la possibilité de transformer les facteurs par rotation. Il nous donne également les résultats suivants :

- les poids factoriels des variables selon chacun des facteurs :

Poids Factoriels(Sans rot.) (Open/Closed Book Data) (Poids marqués >,700000)Facteur 1Facteur 2Mechanics(C)-0,6283930,373128Vectors(C)-0,6953760,312083Algebra(O)-0,899408-0,049958Analysis(O)-0,779602-0,201066Statistics(O)-0,727344-0,199869Var. Expl.2,8241700,319491Prp.Tot0,5648340,063898
- Le graphique correspondant :

EMBED STATISTICA.Graph \s

Enfin, l'onglet "Résultats" nous fournit :

- les coefficients des scores factoriels :

Coefficients des Scores Factoriels (Open/Closed Book Data) Extraction : Facteurs du max. de vrais.FacteurFacteur12Mechanics(C)-0,1316350,457102Vectors(C)-0,1619490,425053Algebra(O)-0,465496-0,151209Analysis(O)-0,216280-0,326209Statistics(O)-0,164691-0,264662
- les scores factoriels des individus :

Scores Factoriels (Open/Closed Book Data) Extraction : Facteurs du max. de vrais.FacteurFacteur121-2,057050,736712-2,51565-0,009513-2,091810,358504-1,512630,02871....... ....
Comme on peut le voir, l'analyse factorielle, par certains aspects, semble ressembler à l'analyse en composantes principales. Mais qu'en est-il véritablement ?

Justification conceptuelle de l'analyse factorielle exploratoire

L'analyse en composantes principales est une méthode qui, à partir d'un ensemble X1, X2, ... Xp de variables observées corrélées entre elles permet d'obtenir un nouvel ensemble Y1, Y2, ... , Yp de variables non corrélées tout en conservant la dispersion observée entre les individus. La méthode travaille sur les variances dans la mesure où Y1 est la combinaison linéaire des Xi ayant la plus grande variance, Y2 satisfait à la même condition tout en étant non corrélée avec Y1, etc. L'analyse en composantes principales est essentiellement une transformation des données. C'est une méthode descriptive qui ne fait aucune hypothèse a priori sur les variables à traiter.

L'analyse factorielle est une méthode inférentielle qui vise à expliquer la matrice des covariances par un minimum, ou un petit nombre de variables hypothétiques (non observables) : les facteurs.

Par exemple, Spearman fait passer trois tests d'aptitude à un échantillon de sujets et les scores observés aux trois tests produisent la matrice de corrélation suivante :
EMBED Equation.3
On souhaiterait étudier l'hypothèse suivante :
Les valeurs observées sont la somme de deux éléments :
- Une quantité proportionnelle à une variable ou facteur (non observable) mesurant l'intelligence du sujet
- Une quantité spécifique au test, à laquelle s'ajoute une erreur aléatoire.

Autrement dit :
- On a observé un ensemble X1, X2, ..., Xp de variables sur un échantillon
- On fait l'hypothèse que ces variables dépendent (linéairement) en partie de k variables non observables, ou variables latentes ou facteurs F1, F2, ..., Fk.

On cherche donc à décomposer les variables observées Xi (supposées centrées) de la façon suivante :
EMBED Equation.3
ou, de façon moins formelle :
EMBED Equation.3
avec les conditions suivantes :
- Le nombre k de facteurs est fixé à l'avance.
- Les facteurs Fr sont centrés réduits, non corrélés entre eux
- Les termes d'erreur Ei sont non corrélés avec les facteurs
- Les termes d'erreur Ei sont non corrélés entre eux.

Remarque. Dans la formulation ci-dessus, on a choisi pour simplifier, de ne pas distinguer les paramètres observés sur l'échantillon des paramètres théoriques sur la population. Comme nous n'envisageons de développements théoriques à partir de ces équations, ce choix n'a guère d'importance.

Afin d'exploiter les conditions indiquées ci-dessus, le traitement mathématique porte sur les matrices de covariance (si les données ne sont pas réduites) ou de corrélation (si elles le sont). Notons cij la covariance des variables Xi et Xj et vi la variance de la variable Ei.

On a les égalités :
EMBED Equation.3
EMBED Equation.3
c'est-à-dire, matriciellement :
EMBED Equation.3 .

Ce problème n'admet en général pas une solution unique. On ajoute alors une condition supplémentaire telle que :
EMBED Equation.3
Mais, toute rotation des facteurs ainsi déterminés fournit également aussi une solution.

Vocabulaire : les coefficients lir sont appelés poids factoriels (loadings) des variables sur les facteurs. La quantité EMBED Equation.3 qui représente la partie de la variance de Xi due aux facteurs et donc "partagée" avec les autres variables est appelée communauté (communality).

Remarque. L'analyse factorielle n'exige pas que les données de départ soient centrées et réduites. Pour certaines méthodes insensibles aux échelles (scale free) les résultats ne dépendent pas d'une éventuelle réduction des données. Il importe par ailleurs de remarquer que, lorsque les données sont centrées réduites, les poids factoriels sont les coefficients de corrélation entre les facteurs et les variables, et la communauté d'une variable représente le carré du coefficient de corrélation multiple de cette variable par rapport aux facteurs.
Méthodes d'extraction des facteurs
Comme nous le montre Statistica, plusieurs méthodes d'extraction des facteurs ont été proposées et fournissent des résultats analogues, mais pas identiques.

Analyse en composantes principales
Une première méthode (souvent appelée PCA, principal component analysis dans les ouvrages anglo-saxons) utilise les valeurs propres et la diagonalisation des matrices. Les résultats sont alors identiques à ceux obtenus par ACP normée, se limitant à k axes. La différence la plus importante par rapport à l'ACP est la possibilité d'effectuer une rotation des facteurs.

Méthode de l'axe principal

La méthode de l'axe principal (PFA, principal factor analysis ou PAF, principal axis factoring) est une méthode itérative cherchant à maximiser les communautés. Les estimations initiales des communautés sont les coefficients de corrélation multiple de chaque variable par rapport à toutes les autres.

L'analyse factorielle du maximum de vraisemblance
Notion de vraisemblance d'une valeur d'un paramètre :

On cherche à répondre à des questions du type : "Etant donné des résultats observés sur un échantillon, est-il vraisemblable qu'un paramètre donné de la population ait telle valeur ?".

Exemple 1 : (variable discrète) Lors d'un référendum, on interroge trois personnes. Deux déclarent voter "oui", la troisième déclare voter "non".
Au vu de ces observations, laquelle de ces deux hypothèses est la plus vraisemblable :
- Le résultat du référendum sera 40% de "oui"
- Le résultat du référendum sera 60% de "oui".

Solution. Si le résultat du référendum est de 40% de "oui", la probabilité d'observer trois personnes votant respectivement "oui", "oui" et "non" est : P1 = 0,4x0,4x0,6 = 0,096. Si le résultat du référendum est de 60% de oui, la même probabilité est : P2 = 0,6x0,6x0,4 = 0,144. La seconde hypothèse est donc plus vraisemblable que la première.

Exemple 2 (variable continue) Lors d'un test effectué sur un échantillon de 5 sujets, on a observé les scores suivants :
90, 98, 103, 107, 112.
Deux modèles sont proposés pour représenter la distribution des scores dans la population parente :
- La loi normale de moyenne 100 et d'écart type 15
- La loi normale de moyenne 102 et d'écart type 10.
Quel est le modèle le plus vraisemblable ?

Dans le cas d'une variable continue, on utilise la valeur de la distribution de la loi théorique au lieu de la probabilité de la valeur observée. La vraisemblance associée à chaque hypothèse, calculée à l'aide d'Excel, est donc :

ObsModèle 1Modèle 2900,021300,01942980,026360,036831030,026070,039701070,023850,035211120,019310,02420Vraisemblance6,74E-092,42E-08
On voit que le modèle 2, dont la vraisemblance est de 2,42 10-8 est plus vraisemblable que le modèle 1.

Estimation du maximum de vraisemblance
L'estimation du maximum de vraisemblance (EMV, maximum likelihood estimation ou MLE dans les ouvrages anglo-saxons) est la valeur du paramètre pour laquelle la vraisemblance est maximum. Reprenons l'exemple du référendum.

Si le pourcentage de "oui" est p, la probabilité d'observer trois personnes votant respectivement "oui", "oui" et "non" est : P = p2(1-p). La dérivée de cette fonction est P' = p(2 - 3p). Cette dérivée s'annule pour p=2/3=0,67, et cette valeur correspond à un maximum de P. Ainsi, au vu des observations, le résultat le plus vraisemblable est : 67% de "oui" ... ce qui n'est guère surprenant.

On notera que les calculs de vraisemblance sont souvent multiplicatifs et conduisent à des nombres très proches de 0. C'est pourquoi on utilise généralement la fonction L, opposée du logarithme de la vraisemblance. Dans le cas précédent on aurait ainsi :
L = - ln P = - 2 ln p - ln(1 - p).
La recherche de l'estimation du maximum de vraisemblance revient alors à chercher le minimum de cette fonction.

Méthode du maximum de vraisemblance

La méthode du maximum de vraisemblance est la seule qui permette de calculer un test statistique d'adéquation du modèle.

Dans cette méthode, on fixe a priori un nombre k de facteurs à extraire. Les poids factoriels des variables sur les différents facteurs sont alors déterminés de manière à optimiser une fonction de vraisemblance.

Cette méthode utilise des concepts de statistique inférentielle classiques. Mais elle suppose que les données vérifient des propriétés de régularité convenables. La condition d'application est la multinormalité des variables Xi sur la population parente de l'échantillon observé. Certains auteurs expriment cette condition en termes d'asymétrie et d'aplatissement des distributions observées.

Un test statistique permet d'évaluer la validité du résultat. Selon Lawley et Maxwell, les hypothèses H0 et H1 du test sont :
H0 : Il y a exactement k facteurs communs.
H1 : Plus de k facteurs sont nécessaires.

La statistique utilisée dépend évidemment des covariances des Xi et des poids factoriels obtenus. Elle dépend également de la taille de l'échantillon tiré. Elle suit approximativement une loi du khi-2 avec EMBED Equation.3 degrés de liberté (p : nombre de variables, k : nombre de facteurs extraits).
Selon Lawley et Maxwell, si le khi-2 trouvé excède la valeur critique correspondant au niveau de significativité choisi, H0 est rejetée, et il faut considérer au moins k+1 facteurs dans le modèle.

Remarques.

1. On doit avoir EMBED Equation.3 ce qui limite le nombre de facteurs.

2. Certains auteurs énoncent une règle en termes de taille des échantillons pour utiliser cette statistique. Par exemple, Mardia et Kent indiquent : EMBED Equation.3 .

3. Cette statistique peut être utilisée pour déterminer le nombre de facteurs à extraire. On calcule alors la statistique pour k=1, k=2, ... L'extraction d'un facteur supplémentaire se traduit par une diminution de la valeur de la statistique, mais également par une diminution du nombre de degrés de liberté. La p-value correspondante n'est donc pas nécessairement améliorée par l'augmentation du nombre de facteurs. On choisit ensuite le nombre de facteurs qui conduit à la meilleure p-value (celle qui est la plus proche de 1).

4. Cette statistique est malheureusement très sensible à la taille de l'échantillon.

Résultats obtenus - Scores des individus
Poids factoriels et communautés
Les résultats obtenus sont essentiellement constitués des poids factoriels des variables sur les différents facteurs et des communautés des différentes variables. Sur l'exemple donné en introduction, les poids factoriels sont donnés par :

Poids Factoriels(Sans rot.) (Open/Closed Book Data) (Poids marqués >,700000)FacteurFacteur12Mechanics(C)-0,6283930,373128Vectors(C)-0,6953760,312083Algebra(O)-0,899408-0,049958Analysis(O)-0,779602-0,201066Statistics(O)-0,727344-0,199869Var. Expl.2,8241700,319491Prp.Tot0,5648340,063898
On cherche alors à attribuer une signification à chacun des facteurs. Sur notre exemple, toutes les variables sont fortement corrélées (négativement) avec le premier facteur, qui peut ainsi apparaître comme une mesure "globale" relative à l'individu. Quant au deuxième facteur, il oppose les matières évaluées à livre fermé (poids factoriels positifs) à celles évaluées à livre ouvert (poids factoriels négatifs). On pourra parler de facteur unipolaire dans le premier cas, de facteur bipolaire dans le second.

Comme nous l'avons souligné plus haut, les facteurs ne sont pas déterminés de manière unique, et notamment, toute transformation des facteurs par rotation orthogonale conduit à une autre solution. Il peut intéressant d'effectuer une telle rotation pour obtenir des facteurs plus faciles à interpréter. C'est ce que nous ferons un peu plus loin.

Dans l'exemple traité en introduction les communautés sont les suivantes :

Communautés (Open/Closed Book) Rotation : Sans rot.Pour 1Pour 2R-deuxFacteurFacteursMultipleMechanics(C)0,3948780,5341030,376414Vectors(C)0,4835480,5809440,445122Algebra(O)0,8089350,8114310,671358Analysis(O)0,6077790,6482070,540864Statistics(O)0,5290290,5689770,479319
Ces quantités se calculent facilement à partir du tableau des poids factoriels. Par exemple, pour la variable Mechanics(C), la communauté se calcule de la manière suivante :

EMBED Equation.3

Pour une ACP, ces quantités sont interprétées en termes de qualité de représentation, ou de déformation due à la projection. Dans le cadre de l'analyse factorielle, elles nous indiquent quelle est la part de variabilité de chacune des variables observées qui participe à la variance "commune" et, par différence, quelle est la part qui est spécifique à chaque variable, et donc non prise en compte dans le modèle factoriel. Par exemple, pour la variable Algebra(O), la part "commune" est de 81% et la part spécifique, non prise en compte par les facteurs est de 19%.

Scores des individus
Les valeurs prises par les différents facteurs (qui sont des variables statistiques, même si elles ne sont pas observables directement) sur les individus statistiques composant l'échantillon sont appelées scores des individus. Contrairement à l'ACP, l'exploitation des résultats d'une analyse factorielle n'utilise généralement pas ces scores. En effet, les facteurs ne prennent pas en compte la totalité de la variation observée sur les données et celles-ci comportent une part de variation aléatoire due aux fluctuations d'échantillonnage. Les scores des individus ne peuvent donc pas être calculés de manière exacte mais seulement estimés à partir des autres résultats. Plusieurs méthodes ont été proposées, par exemple une méthode basée sur le maximum de vraisemblance a été proposée par Bartlett : le Bartlett factor score. La justification de ces méthodes approchées est particulièrement délicate lorsqu'on travaille sur les corrélations et non sur les covariances.

Dans l'exemple donné en introduction, Statistica nous donne d'une part l'expression des facteurs en fonction des variables :

Coefficients des Scores Factoriels (Open/Closed Book Data) Extraction : Facteurs du max. de vrais.Facteur 1Facteur 2Mechanics(C)-0,1316350,457102Vectors(C)-0,1619490,425053Algebra(O)-0,465496-0,151209Analysis(O)-0,216280-0,326209Statistics(O)-0,164691-0,264662
Ainsi, par exemple :
EMBED Equation.3
D'autre part, il donne également les valeurs des facteurs sur les différentes observations, telles qu'elles peuvent être calculées à partir des formules précédentes et des valeurs centrées réduites associées aux valeurs observées. Par exemple pour le premier sujet, le logiciel indique :

Facteur 1Facteur 21-2,057050,73671
Les valeurs centrées réduites des 5 variables sont :
Mechanics(C)Vectors(C)Algebra(O)Analysis(O)Statistics(O)12,175738732,389078691,543347321,368668912,24235647
Et on vérifie que :

EMBED Equation.3

Remarque. A l'exception des scores factoriels des individus, l'ensemble des résultats d'une analyse factorielle peut être obtenu à partir de la matrice des corrélations (ou des covariances) des variables, et de la taille de l'échantillon. C'est pourquoi Statistica propose de deux formats pour les données d'entrée : données brutes ou matrice de corrélations.
Rotation des facteurs : rotations orthogonales, rotations obliques
Les facteurs extraits par l'une ou l'autre des méthodes précédentes ne sont pas déterminés de manière unique et c'est généralement une condition arbitraire qui permet de choisir une solution dans l'ensemble des solutions possibles.
Il en résulte que les facteurs ainsi produits ne sont pas toujours simples à interpréter. Mais toute rotation sur les facteurs produit une autre solution et on peut être tenté de rechercher une solution qui "fasse sens", c'est-à-dire qui produise des facteurs plus simples à interpréter.

Il importe de noter que la transformation par rotation n'affecte pas l'adéquation du modèle aux données. Les communautés, notamment, restent les mêmes. Mais les solutions avant ou après rotation peuvent être interprétés de façon notablement différente.

Ainsi, sur notre exemple :

Poids Factoriels (sans rotation)Poids Factoriels (après rotation varimax normalisé)Facteur 1Facteur 2Facteur 1Facteur 2Mechanics(C)-0,6283930,3731280,2700280,679108Vectors(C)-0,6953760,3120830,3603460,671636Algebra(O)-0,899408-0,0499580,7429390,509384Analysis(O)-0,779602-0,2010660,7402670,316563Statistics(O)-0,727344-0,1998690,6981410,285615Var. Expl.2,8241700,3194911,7901191,353543Prp.Tot0,5648340,0638980,3580240,270709
On examine les poids factoriels après rotation varimax. Les trois matières évaluées à livre ouvert sont alors fortement corrélées avec le premier facteur, alors que le second facteur correspond aux deux matières évaluées à livre fermé et dans une moindre mesure à l'algèbre.

La rotation la plus fréquemment utilisée est la rotation varimax (Kaiser 1958). L'effet produit par une telle rotation est généralement le suivant : pour chaque facteur, les poids factoriels élevés concernent un nombre réduit de variables et les autres poids factoriels sont proches de 0.

D'autres rotations ont également été proposées. Les rotations dites orthogonales produisent des facteurs non corrélés entre eux, tandis que les transformations par rotation oblique produisent de nouveaux facteurs qui peuvent être corrélés.

Analyse factorielle confirmatoire

L'analyse factorielle confirmatoire est apparentée à l'analyse factorielle exploratoire. Mais c'est aussi un cas particulier de modélisation d'équations structurelles (SEM : structural equation modelling). Différents algorithmes ont été développés dans ce cadre (par exemple : LISREL).

En analyse factorielle confirmatoire, le point de vue est différent de celui de l'analyse factorielle exploratoire : on se fixe a priori un modèle :
- nombre de facteurs
- corrélations éventuelles entre ces facteurs
- termes d'erreur attachés à chaque variable observée et corrélations éventuelles entre eux
- pour chaque facteur, variables avec lesquelles il sera significativement corrélé.

- Une variable observée est représentée dans un rectangle : SHAPE \* MERGEFORMAT

- Une variable latente (un facteur) est représentée dans un ovale : SHAPE \* MERGEFORMAT

- Un terme d'erreur, ou perturbation du modèle, est représenté par une variable sans cadre : SHAPE \* MERGEFORMAT

- Une flèche entre deux variables signifie que les variations de la seconde sont dues, au moins en partie, aux variations de la première.

Exemple :

Source : pages en ligne de Michael Friendly à l'adresse :
HYPERLINK "http://www.psych.yorku.ca/lab/psy6140/fa/facfoils.htm" http://www.psych.yorku.ca/lab/psy6140/fa/facfoils.htm

Calsyn et Kenny (1971) ont étudié la relation entre les aptitudes perçues et les aspirations scolaires de 556 élèves du 8è grade. Les variables observées étaient les suivantes :

Self : auto-évaluation des aptitudes
Parent : évaluation par les parents
Teacher : évaluation par l'enseignant
Friend : évaluation par les amis
Educ Asp : aspirations scolaires
Col Plan : projets d'études supérieures

Sur l'échantillon étudié, les corrélations observées entre ces six variables sont les suivantes :

SelfParentTeacherFriendEduc AspCol PlanSelf 1,000,730,700,580,460,56Parent 0,731,000,680,610,430,52Teacher 0,700,681,000,570,400,48Friend 0,580,610,571,000,370,41Educ Asp0,460,430,400,371,000,72Col Plan0,560,520,480,410,721,00
Le modèle à tester fait les hypothèses suivantes :
- Les 4 premières variables mesurent la variable latente "aptitudes"
- Les deux dernières mesurent la variable latente "aspirations".
Ce modèle est-il valide ? Et, s'il en est bien ainsi, les deux variables latentes sont-elles corrélées ?

Le schéma correspondant à ce modèle peut être représenté ainsi (les variables sont renommées X1 à X6 et les facteurs sont désignés par la lettre grecque ( dans ce schéma emprunté à Michael Friendly) :

SHAPE \* MERGEFORMAT

Traitement avec Statistica.

La matrice de corrélations précédente est saisie comme objet de type "matrice" de Statistica :
EMBED STATISTICA.Spreadsheet \s

On choisit ensuite le menu Statistiques - Modèles linéaires / non linéaires avancés - Modélisation d'équations structurelles.

Sous l'onglet "Avancé", on clique sur le bouton "Assistant liaisons" et on choisit l'option "Analyse factorielle confirmatoire" :

On peut alors saisir le modèle sous la forme suivante :

Lorsqu'on clique sur le bouton OK, Statistica affiche une fenêtre permettant d'indiquer les corrélations entre les facteurs. On peut la compléter comme suit :

Lorsque la fenêtre suivante s'affiche, cliquer sur OK :

Le modèle spécifié est alors traduit en "langage" PATH1 sous la forme suivante :

(Aptitudes)-1->[Self]
(Aptitudes)-2->[Parent]
(Aptitudes)-3->[Teacher]
(Aptitudes)-4->[Friend]

(Aspirations)-5->[Educ Asp]
(Aspirations)-6->[Col Plan]

(DELTA1)-->[Self]
(DELTA2)-->[Parent]
(DELTA3)-->[Teacher]
(DELTA4)-->[Friend]
(DELTA5)-->[Educ Asp]
(DELTA6)-->[Col Plan]

(DELTA1)-7-(DELTA1)
(DELTA2)-8-(DELTA2)
(DELTA3)-9-(DELTA3)
(DELTA4)-10-(DELTA4)
(DELTA5)-11-(DELTA5)
(DELTA6)-12-(DELTA6)

(Aspirations)-13-(Aptitudes)

Ce "programme" peut éventuellement être enregistré dans un fichier autonome.
Cliquez ensuite sur le bouton "Paramètres de l'analyse". Le dialogue qui s'affiche est particulièrement abscons, mais nous nous contenterons d'y indiquer que les données analysées sont de type "corrélations", en laissant les autres paramètres à leurs valeurs par défaut :

Cliquez ensuite sur OK (Exécuter modèle), puis sur le bouton OK de la fenêtre suivante.

Le bouton "Synthèse du modèle" permet d'obtenir la feuille de résultats suivante :
Modèle Estimé (Ability and Aspiration dans AFC.stw)EstimationErreurStat.NiveauParamètreTypeTProba (Aptitudes)-1->[Self]0,8630,01557,9730,000 (Aptitudes)-2->[Parent]0,8490,01654,2960,000 (Aptitudes)-3->[Teacher]0,8050,01844,2870,000 (Aptitudes)-4->[Friend]0,6950,02528,2170,000 (Aspirations)-5->[Educ Asp]0,7750,02630,2790,000 (Aspirations)-6->[Col Plan]0,9290,02439,1650,000 (DELTA1)-->[Self] (DELTA2)-->[Parent] (DELTA3)-->[Teacher] (DELTA4)-->[Friend] (DELTA5)-->[Educ Asp] (DELTA6)-->[Col Plan] (DELTA1)-7-(DELTA1)0,2550,0269,9150,000 (DELTA2)-8-(DELTA2)0,2790,02710,4870,000 (DELTA3)-9-(DELTA3)0,3520,02912,0200,000 (DELTA4)-10-(DELTA4)0,5170,03415,0780,000 (DELTA5)-11-(DELTA5)0,3990,04010,0610,000 (DELTA6)-12-(DELTA6)0,1370,0443,1110,002 (Aspirations)-13-(Aptitudes)0,6660,03121,5280,000
On retrouve dans ce tableau le poids factoriel de chacune des variables sur le facteur spécifié par le modèle (sur une seule colonne - ce qui ne facilite pas la lecture du tableau). On y trouve également les variances des termes d'erreur DELTA1 à DELTA6 et enfin l'estimation de la corrélation entre les facteurs Aspirations et Aptitudes : 0,666.

Ces résultats seraient plus lisibles disposés de la façon (plus classique) suivante :

Modèle Estimé (Ability and Aspiration dans AFC.stw)AptitudesAspirationsCommunautéSpécificitéSelf0,8630,7450,255Parent0,8490,7210,279Teacher0,8050,6480,352Friend0,6950,4830,517Educ Asp0,7750,6010,399Col Plan0,9290,8630,137
Dans ce tableau, les communautés sont simplement les carrés des poids factoriels et les spécificités sont les compléments à 1 des communautés.

Le logiciel donne ensuite de nombreux indices évaluant la qualité du modèle.

En particulier, le bouton "Statistiques de synthèse" nous fournit la valeur d'une statistique du khi-2 du maximum de vraisemblance :
Statistiques de Synthèse (Ability and Aspiration dans AFC.stw)ValeurChi-Deux MV9,256Degrés de Liberté8,000Niveau p0,321La valeur trouvée ici (p-value = 0,32) montre une bonne adéquation du modèle aux données.
D'autres indices de qualités

D'autres indices sont aussi couramment utilisés :
- AIC (Akaike Information Criterion ou Critère d'information de Akaike)
- BIC (Bayesian Information Criterion ou Critère Bayésien de Schwarz)
- TLI (Tucker-Lewis Index) : les modèles "acceptables" doivent vérifier TLI>0,90, les "bons" modèles, TLI>0,95
- RMSEA (root mean square error of approximation). les modèles "acceptables" doivent vérifier RMSEA 500 k7

Classe d'âge 18 à < 30 a1
30 à < 40 a2
40 à < 50 a3
50 à < 60 a4
60 et plus a5

Fidélité dans les rapports sexuels très pour t1
plutôt pour t2
indécis t3
plutôt contre t4
très contre t5

Plusieurs partenaires oui p1
non p2

Préférences politiques CDU/CSU cd
SPD sp
FDP fd
Verts gr

Nombre de situations jugées contaminantes
0 w0
1 w1
2 w2
3 w3
4 w4
5 w5
6 w6
7 w7
8 w8

Le sida est la conséquence d'une faute et d'une punition
très pour c1
plutôt pour c2
indécis c3
plutôt contre c4
très contre c5

Dispositions d'évitement et d'expulsion des contaminés de la sphère personnelle
très pour m1
plutôt pour m2
indécis m3
plutôt contre m4
très contre m5

Nombre de mesures obligatoires acceptées
0 z0
1 z1
2 z2
3 z3
4 z4
5 z5

Nombre de situations en public jugées dangereuses
0-1 o1
2 o2
3 o3
4 o4
5-6 o5

Le sida est un péril omniprésent
d'accord g1
indécis g2
pas d'accord g3

Ouvrez le classeur Hahn.stw et observez la façon dont a été constitué le tableau de contingence : la variable "groupe" est croisée avec toutes les autres variables, et on juxtapose ainsi 14 tableaux de contingence portant sur des populations presque identiques (presque, car pour la plupart des questions, il y a quelques non-réponses).

Réalisez une analyse des correspondances sur ce tableau et retrouvez ainsi les résultats de l'auteur :

"L'analyse des correspondances confirme l'existence de deux syndromes nettement distincts, attribuables, avec la prudence qui s'impose, à deux catégories ou milieux, qu'à la suite de Schulze on pourrait appeler "milieu harmoniste" et "milieu autodéterministe".
Notre analyse utilise la dangerosité ressentie du sida comme la variable à décrire, les autres caractéristiques servant d'indices de cette appréciation. Etant donné les trois configurations de la variable à décrire, une solution bidimensionnelle serait théoriquement possible. Mais, puisque le premier axe d'inertie rend compte de 90,25% de la variation, nous négligerons ce deuxième axe.
Graphique et tableau numérique montrent que la vision du sida comme péril a été reportée sur l'ordonnée. On distingue nettement deux groupes, qui approuvent ou rejettent les termes de la question. Ceux qui ne se prononcent pas se situent entre les deux, mais sont enclins le cas échéant à considérer le sida comme une maladie omniprésente et très infectieuse.
À cela correspond la localisation des indicateurs de dispositions (perceptions, réactions) et des repères de morphologie sociale. Les enquêtés considérant le sida comme un péril le jugent très infectieux jusque dans la vie quotidienne (3 situations courantes ou plus jugées contaminantes par un taux supérieur à la moyenne). La maladie est ressentie comme conséquence et punition d'une faute morale; les dispositions d'exclusion se manifestent nettement, et les mesures obligatoires antisida - y compris la généralisation du test obligatoire - rencontrent un taux d'adhésion supérieur à la moyenne. Ceci vérifie nos hypothèses de départ : poussée à l'extrême, la conception du sida comme danger permanent de contamination fait considérer comme porteurs de virus potentiels non seulement les membres des principaux groupes à risque.(donc une minorité), mais tous les étrangers. Les mêmes enquêtés ressentent la sphère publique comme généralement inquiétante et hostile. Leurs opinions politiques plutôt conservatrices sont attestées par une préférence très nette pour les partis CDU/CSU. Ce groupe comprend une proportion importante de personnes âgées, de niveau social peu élevé, résidant plutôt dans des communes petites ou très petites.
A l'inverse, ceux pour qui le sida n'est pas un péril au sens indiqué ci-dessus, ont pour caractéristique commune de ne pas chercher un risque de contamination là où, en l'état actuel des connaissances, un tel risque n'existe pas. On n'envisage guère la maladie en termes de culpabilité, et on réclame rarement l'exclusion des contaminés ou l'adoption de mesures répressives. Or, ces, personnes sont objectivement plus exposées à la contamination.: la fidélité sexuelle est jugée relativement moins importante, le changement de partenaire est relativement fréquent. Les considérations éthico-religieuses passent à l'arrière-plan, la proportion des personnes sans confession est relativement élevée. Politiquement, ce segment se situe majoritairement à gauche du centre, avec une préférence marquée pour les Verts. Morphologiquement, il s'agit d'une population plutôt jeune, étudiante, de niveau social élevé et majoritairement citadine."
EMBED STATISTICA.Graph \s

Conclusion
Au travers des exemples qui précédent, on voit que l'AFC peut être utilisée dans des situations variées. En revanche, comme l'indique Philippe Cibois dans son article "les pièges de l'AFC", il existe des situations où il vaut mieux s'abstenir d'utiliser cette méthode :

- L'AFC mettra toujours en évidence des attractions - répulsions entre modalités lignes et modalités colonne. Mais, lorsqu'on travaille sur un échantillon et que le khi-2 du tableau de contingence n'est pas significatif, l'effet mis en évidence n'est que le fruit du hasard.

- L'AFC n'a d'intérêt que si notre étude porte sur les liaisons existant entre lignes et colonnes. Comme exemple, caricatural, d'un mauvais usage de l'AFC, P. Cibois fournit le tableau suivant qui donne, pour 30 pays, le nombre de médailles d'or, d'argent et de bronze obtenues aux Jeux Olympiques d'Atlanta :

OrArgentBronzeOrArgentBronzeEtats-Unis443225Grèce440Russie262116Tchéquie434Allemagne201827Suisse430Chine162212Danemark411France15715Turquie411Italie131012Canada3118Australie9923Bulgarie375Cuba988Japon365Ukraine9212G.-Bretagne186Corée du Sud7155Iran111Pologne755Arménie110Hongrie7410Portugal101Espagne566Costa-Rica100Roumanie479Slovénie020Pays-Bas4510Zambie010
Le pays le plus "attiré" par la modalité "Or" est le Costa-Rica, qui n'a obtenu qu'une seule médaille, mais en or, alors que des pays tels que Cuba et l'Iran, avec des palmarès très différents, sont représentés proches l'un de l'autre, au voisinage de l'origine. En effet, les résultats de l'AFC ne concernent pas le nombre de médailles obtenues par les différents pays, mais l'écart entre les proportions de médailles de bronze, argent, or obtenues par le pays et la distribution totale (environ 1/3 de médailles de chaque type). Mais cet écart constitue-t-il vraiment un sujet d'étude ?

EMBED STATISTICA.Graph \s
Analyse des Correspondances Multiples
Introduction
L'analyse factorielle des correspondances, vue dans le paragraphe précédent, s'applique à des situations où les individus statistiques sont décrits par deux variables nominales. Mais il est fréquent que l'on dispose d'individus décrits par plusieurs (deux ou plus) variables nominales ou ordinales. C'est notamment le cas lorsque nos données sont les résultats d'une enquête basée sur des questions fermées. Une extension de l'AFC à ces situations a donc été proposée. Elle est généralement appelée Analyse des Correspondances Multiples ou ACM.

Nous nous plaçons donc dans la situation où nous disposons de N individus statistiques, décrits par q variables nominales ou ordinales X1, X2, ..., Xq. L'ACM vise à mettre en évidence :
- les relations entre les modalités des différentes variables ;
- éventuellement, les relations entre individus statistiques ;
- les relations entre les variables, telles qu'elles apparaissent à partir des relations entre modalités.

Forme des données d'entrée
Selon leur origine, les données sur lesquelles nous nous proposons de faire une ACM peuvent se présenter sous différentes formes.
Imaginons, par exemple, une mini-enquête dans laquelle nous avons posé trois questions à 10 sujets : le sexe (F ou H), le niveau de revenus (M : modeste, E : élevé) et leur préférence sur un sujet donné (3 modalités : A, B ou C). Les données peuvent se présenter sous l'une des formes décrites ci-dessous. Le classeur Mini-ACM.stw contient 5 feuilles de données correspondant à ces 5 formes.

Tableau protocole
EMBED STATISTICA.Spreadsheet \s
Tableau d'effectifs
EMBED STATISTICA.Spreadsheet \s
Tableau disjonctif complet
Le tableau disjonctif complet ou TDC comporte une colonne pour chaque modalité des variables étudiées et une ligne pour chaque individu statistique. Les cellules du tableau contiennent 1 ou 0 selon que l'individu considéré présente la modalité ou non.
EMBED STATISTICA.Spreadsheet \s

Tableau disjonctif des patrons
En regroupant les lignes identiques du tableau disjonctif complet, on obtient le tableau disjonctif des patrons :
EMBED STATISTICA.Spreadsheet \s

Tableau de Burt
L'ACM peut également être réalisée à partir d'une structuration particulière des données, appelée tableau de Burt (TdB). Ce dernier tableau comporte une ligne et une colonne pour chaque modalité des variables étudiées. Chaque cellule du tableau indique le nombre d'individus statistiques qui possèdent en même temps la modalité ligne et la modalité colonne correspondantes. Le tableau de Burt apparaît ainsi comme une juxtaposition de tableaux de contingence des variables prises deux à deux.
EMBED STATISTICA.Spreadsheet \s

On peut noter qu'il est possible, sans grand problème de passer de l'une des 4 premières structures de données à une autre. De même, le TdB peut être obtenu facilement à partir du tableau disjonctif complet. En revanche, il n'existe pas de moyen simple pour recomposer l'une des 4 premières structures de données à partir du tableau de Burt.

Quelques règles d'interprétation
On cherchera d'une part à interpréter les oppositions entre modalités (ou entre groupes d'individus, si l'étude porte sur le TDC), et d'autre part à interpréter les proximités entre modalités.

L'interprétation des proximités entre les modalités devra tenir compte de la remarque suivante :
- Si deux modalités d'une même variable sont proches, cela signifie que les individus qui possèdent l'une des modalités et ceux qui possèdent l'autre sont globalement similaires du point de vue des autres variables ;
- Si deux modalités de deux variables différentes sont proches, cela peut signifier que ce sont globalement les mêmes individus qui possèdent l'une et l'autre.

Nous pouvons, comme en AFC, nous intéresser aux profils ligne et colonne, aux taux de liaison et au EMBED Equation.3 du tableau disjonctif complet, vu comme un tableau de contingence. Le nombre de lignes de ce tableau est égal au nombre d'individus statistiques étudiés. Cependant, nous avons vu que la métrique du EMBED Equation.3 , utilisée pour l'AFC, possède la propriété d'équivalence distributionnelle : si on regroupe deux lignes correspondant au même patron de réponses, on ne change rien aux autres profils lignes, ni aux autres profils colonnes. Autrement dit, on retrouvera les mêmes résultats en effectuant une AFC sur le tableau disjonctif des patrons.

Comme en AFC, on peut calculer des fréquences, des fréquences lignes, des fréquences colonnes et des profils lignes et profils colonnes moyens.
L'élément le plus facile à interpréter est le profil colonne moyen : ce sont les fréquences des différents patrons de réponses dans la population étudiée.

L'élément le plus facile à interpréter est le profil colonne moyen : ce sont les fréquences des différents patrons de réponses dans la population étudiée.

Le profil ligne moyen est obtenu en calculant, pour chaque modalité, le quotient de sa fréquence par le nombre Q de questions. En notant respectivement nk et fk l'effectif et la fréquence de la modalité k, on a :
EMBED Equation.3
et le k-ième élément du profil-ligne moyen est :
EMBED Equation.3

N.B. Ici, fk et fk désignent des quantités différentes : fk est la fréquence de la modalité k dans la population étudiée; fk est définie comme pour l'AFC, fréquence ligne marginale de la k-ième colonne du tableau disjonctif des patrons.

Taux de liaison et Phi-2
Pour le tableau disjonctif complet, ou le tableau disjonctif des patrons, considérés comme des tableaux de contingence, le coefficient Phi-2 vaut :
EMBED Equation.3
où K désigne le nombre de modalités et Q le nombre de questions

Dans notre exemple, on a : K=7, Q=3, et donc : EMBED Equation.3 .
Ce coefficient représente l'inertie totale du nuage de points des modalités colonnes. On montre que l'inertie absolue de chacune des questions est donnée par :
EMBED Equation.3

où Kq représente le nombre de modalités de la question q.

L'inertie relative de chacune des questions est donnée par :
EMBED Equation.3

Sur notre exemple, on a, pour l'inertie absolue :
EMBED Equation.3
EMBED Equation.3
Quant aux inerties relatives :
EMBED Equation.3
EMBED Equation.3

L'inertie d'une question est ainsi directement liée au nombre de ses modalités : on évitera donc d'utiliser la méthode lorsque les différentes questions présentent des nombres de modalités trop différents.

Distances entre profils lignes
En AFC, nous avions donné les formules permettant de calculer les distances entre deux profils lignes ou entre deux profils colonnes. La distance utilisée est la métrique du EMBED Equation.3 . Ici, compte tenu de la structure particulière du tableau de contingence utilisé, les formules indiquées deviennent :

EMBED Equation.3

Notations utilisées : Li et Li' désignent deux patrons, Q est le nombre de questions. EMBED Equation.3 prend la valeur 1 si la modalité k fait partie du patron i, et la valeur 0 sinon. Enfin, EMBED Equation.3 est la fréquence de la modalité k dans la population.

Cette formule montre que deux individus (ou deux patrons) sont d'autant plus éloignés que leurs réponses diffèrent pour un plus grand nombre de questions et pour des modalités rares. Cette formule peut encore être écrite sous la forme :
EMBED Equation.3
où la somme est étendue à toutes les modalités faisant partie de l'un des deux patrons, sans faire partie des deux patrons.

Autrement dit, deux individus (ou deux patrons) sont d'autant plus éloignés que leurs réponses diffèrent pour un plus grand nombre de questions et pour des modalités rares.

Ainsi, sur notre exemple :
EMBED Equation.3

La distance d'un patron au profil ligne moyen est :
EMBED Equation.3
Autrement dit, un patron sera d'autant plus loin de l'origine qu'il fait intervenir des modalités plus rares. On peut aussi écrire cette formule sous la forme :
EMBED Equation.3
où la somme est étendue à toutes les modalités faisant partie du patron i.

Par exemple :
EMBED Equation.3

La contribution (absolue) d'un patron à la variance du nuage est obtenue en multipliant la distance précédente par la fréquence du patron dans la population.

Distances entre profils colonnes
La distance entre les modalités k et k' est donnée par :
EMBED Equation.3
où EMBED Equation.3 est la fréquence de la combinaison de modalités k et k', ou encore :
EMBED Equation.3

Deux modalités sont dautant plus éloignées quelles sont de fréquences faibles et rarement rencontrées simultanément.

Exemple :
EMBED Equation.3

La distance d'une modalité au profil colonne moyen est donnée par :
EMBED Equation.3

Autrement dit, une modalité sera d'autant plus éloignée du profil moyen que sa fréquence est faible.
Afin d'éviter que quelques modalités très rares ne prennent une importance excessive dans les résultats obtenus, il sera nécessaire de regrouper les modalités de fréquence trop faible (fréquence inférieure à 5% par exemple).

Exemple :
EMBED Equation.3

La contribution absolue d'une modalité à la variance du nuage de points est :
EMBED Equation.3
La contribution relative d'une modalité à la variance du nuage de points est :
EMBED Equation.3
Exemples :
EMBED Equation.3
EMBED Equation.3

Résultats de l'ACM sur l'exemple
Le tableau des valeurs propres est donné par :

EMBED STATISTICA.Spreadsheet \s

Taux d'inertie modifiés
La décroissance des valeurs propres est en général très lente. Pour déterminer le nombre d'axes factoriels à conserver, Benzécri a proposé de calculer des taux d'inertie modifiés en utilisant la méthode suivante.
La somme des valeurs propres est égale à l'inertie totale, c'est-à-dire EMBED Equation.3 et la moyenne des valeurs propres est égale à EMBED Equation.3 . On ne conserve que les valeurs propres lð supérieures à lðm et on calcule pour chacune d'entre elles : EMBED Equation.3 . Le taux d'inertie modifié est alors calculé par : EMBED Equation.3 et on conserve les valeurs propres dont le taux modifié est supérieur à la moyenne (des taux modifiés). Pour l'exemple traité, l'application de cette méthode donne les résultats suivants :

La moyenne des valeurs propres est : EMBED Equation.3 , ce qui conduit à ne conserver que les 2 premières valeurs propres. La transformation précédente donne alors :

Nb de dim.Val Prop. EMBED Equation.3 Taux d'inertie modifié10,60280,072681,04%20,46370,017018,96%30,203040,0638
Le taux d'inertie modifié moyen est de 100%/2= 50%. Seule la première valeur propre dépasse ce taux, mais une étude limitée seulement au premier axe principal présenterait peu d'intérêt. Nous étudierons donc les deux premiers.

Remarque : Selon Benzécri, les taux modifiés représentent l'écart du nuage de points par rapport au nuage parfaitement sphérique qui serait obtenu si aucun lien n'existait entre les modalités.

EMBED STATISTICA.Spreadsheet \s
EMBED STATISTICA.Graph \s

Bien que l'exemple ne comporte qu'un petit nombre d'observations, on remarque la proximité des modalités Préférence:B et Sexe:H, de même que l'opposition Préférence C, revenu E d'une part, Préférence A, Revenu M d'autre part selon le premier axe.

On note également que l'origine du repère est le milieu du segment joignant les deux modalités de la variable "Sexe", et aussi le milieu du segment joignant les deux modalités de la variable "Revenu". En effet, ces deux variables ont seulement deux modalités (d'où l'alignement de l'origine avec les modalités) et les deux modalités sont équiprobables (d'où la propriété du milieu).

La représentation du nuage de points représentant simultanément les modalités et les patrons de réponses est la suivante :

EMBED STATISTICA.Graph \s

L'étude menée à partir du tableau de Burt mérite un commentaire particulier. En effet, dans un exposé théorique sur l'ACM, tels que ceux de [Crucianu] ou de [Rouanet, Le Roux], l'analyse du tableau de Burt est distinguée de celle du TDC ou du tableau disjonctif des patrons. Il est notamment indiqué que les valeurs propres produites par cette analyse sont les carrés des valeurs propres précédentes, et que le Phi-2 du tableau de Burt n'est pas celui du TDC. Cependant, les représentations graphiques produites (limitées aux seules modalités) peuvent être interprétées de façon analogue.

Lorsque l'on effectue une AFC en spécifiant le tableau de Burt comme tableau de contingence, on retrouve alors les résultats indiqués dans les exposés théoriques. Par exemple, le tableau des valeurs propres est alors donné par :

EMBED STATISTICA.Spreadsheet \s

Exploration de l'ACM sur des mini-exemples
Etudions comment seront disposées les modalités colonnes lorsque la situation comporte 2 questions A et B à 2 modalités chacune (respectivement A1 et A2, B1 et B2). L'espace de représentation est alors de dimension 2, autrement dit, l'ACM produit une représentation non déformée dans un plan.

Cas 1 : les effectifs des modalités sont donnés par :

A1A2TotalB15050100B25050100Total100100200
La représentation est alors :
EMBED STATISTICA.Graph \s
Cas 2 : les effectifs des modalités sont donnés par :

A1A2TotalB18020100B28020100Total16040200
A2 est alors plus éloigné de O que A1. B1 et B2 sont à égale distance de O, et cette distance est intermédiaire entre celle de A1 et celle de A2. La représentation est alors :
EMBED STATISTICA.Graph \s
Cas 3 : les effectifs des modalités sont donnés par :

A1A2TotalB17248120B2483280Total12080200
A2 est alors plus éloigné de O que A1. A1 et B1 sont à égale distance de O, et cette distance est intermédiaire entre celle de A1 et celle de A2. La représentation est alors :

EMBED STATISTICA.Graph \s

Cas 4 : les effectifs des modalités sont donnés par :

A1A2TotalB18050130B2502070Total13070200
La situation est en apparence analogue à la précédente. En fait l'inertie due aux combinaisons de modalités l'emporte ici sur celle liée aux questions, et on obtient :
EMBED STATISTICA.Graph \s

Cas 5 : les effectifs des modalités sont donnés par :

A1A2TotalB17356129B2403272Total11388201
C'est la situation la plus générale. On obtient :
EMBED STATISTICA.Graph \s

ACM avec Statistica

Comme l'indiquent Rouanet et Le Roux :

Effectuer l'analyse des correspondances multiples, c'est effectuer l'analyse factorielle des correspondances du tableau disjonctif complet, muni des relations K (modalités emboîtées dans les questions) et I (individus emboîtés dans les modalités de chaque question).

Quelle que soit la forme des données d'entrée, l'ACM sera réalisée à partir du menu Statistiques - Techniques exploratoires multivariées - Analyse des correspondances. Mais, selon la structure des données, c'est l'onglet "Analyse de correspondances" ou l'onglet "Analyse des correspondances multiples (ACM)" qui sera utilisé, selon le tableau suivant :

Format des donnéesOnglet "Analyse des Correspondances"Onglet "Analyse des Correspondances Multiple"ObservationsTableau protocoleNonOuiAFC impossible si plus de 2 variablesTableau d'effectifsNonOuiAFC impossible si plus de 2 variablesTableau Disjonctif CompletOuiNonTableau Disjonctif des patronsOuiNonTableau de BurtOuiOuiLes deux analyses ne fournissent pas les mêmes résultats
Exemple.

Ref. L'exemple qui suit est accessible sur Internet à partir des adresses :
HYPERLINK "http://www.skeptron.uu.se/broady/sec/k-10-gda.htm" http://www.skeptron.uu.se/broady/sec/k-10-gda.htm
HYPERLINK "http://www.math-info.univ-paris5.fr/~lerb/livres/MCA/MCA_en.html" http://www.math-info.univ-paris5.fr/~lerb/livres/MCA/MCA_en.html
Le Roux, B., Rouanet, H., Savage, M., Warde, A., Class and Cultural Division in the UK, Sociology 2008, No 42, pp.1042-1071
http://soc.sagepub.com/content/42/6/1049

Il s'agit vraisemblablement de données recueillies dans le cadre de l'enquête "Cultural Capital and Social Exclusion" (CCSE) administrée en 2003 et 2004 au Royaume-Uni par le National Centre for Social Research.
Le questionnaire comportait notamment les questions suivantes :

Q1 : do you prefer leisure activities you ca
Leisure:friends
Leisure:family
Leisure:alone
Leisure:partner

Q2 : Would you say that during your free time
lack time
always sth to do
Stimes nothing to do
often do nothing

Q3 : If you had more time, 1st choice would b
home DIY
artistic activities
to rest
develop knowledge
physical activities
take care of family
to take courses

Q4 : When you go out in the evening, do you u
GoingOut:friends
GoingOut:alone
GoingOut:partner
don't go out
GoingOut:family

Q5 : Time watching TV (hours by week)
TV:never
TV:=30h

Q6 : # of books or comic trips during last 12
no book
1-4 books
5-12 books
13 -39 books
40 books or more

QS1 : Gender
women
men

QS2 : Education level
no degree
CEP
CAP-BEP
BEPC
Bac
Bac+2
>Bac+2
Students

QS3 : Age
65

QS4 : PCS
Femmes au foyer
Retraités
Etudiants, élèves
Autres inactifs
Cadres et profession
Employés
Ouvriers non qualifi
Professions interméd
Artisans, commerçant
Ouvriers qualifiés
Agriculteurs

Ouvrez le fichier Culture.stw. Les données y sont saisies sous forme de tableau protocole. Deux jeux de données sont disponibles :
- la feuille de données Culture contient les résultats relatifs à 3002 observations, mais un certain nombre de réponses aux questions qui feront l'objet de l'ACM (Q1, Q2, Q3, Q4, TV et Q6) sont incomplètes, et la variable ISUP indique que les individus correspondants sont rendus "inactifs".
- la feuille de données Culture (Actifs) contient les réponses des 2720 individus actifs.

Réalisons, par exemple, une ACM sur les variables Q1, Q2, Q3, Q4, TV et Q6, à partir du tableau protocole. Après avoir déclaré cette feuille de données comme 'feuille active", on sélectionne l'onglet "Analyse des correspondances multiple" et on complète le premier dialogue comme suit :

EMBED PBrush

Une fois ce dialogue validé, un second dialogue s'affiche :

Le bouton "Effectifs Observés de l'onglet "Etude" permet d'obtenir un tableau similaire au tableau de Burt. Les pourcentages ligne, pourcentages colonne, khi-2, etc utilisent ce dernier tableau.

L'onglet "Avancé" permet d'obtenir les autres résultats :
EMBED STATISTICA.Spreadsheet \s

Taux d'inertie modifiés
On ne conserve que les valeurs propres lð supérieures à lðm et on calcule pour chacune d'entre elles : EMBED Equation.3 . Le taux d'inertie modifié est alors calculé par : EMBED Equation.3 et on conserve les valeurs propres dont le taux modifié est supérieur à la moyenne (des taux modifiés). Pour l'exemple traité, l'application de cette méthode donne les résultats suivants :

ValSing.ValProp.Val. Prop. Modifiées%age modifiéCumuls10,54090,29250,015856,92%56,92%20,49140,24150,005620,12%77,04%30,47420,22480,003412,16%89,20%40,45530,20730,00165,92%95,12%50,44160,19500,00082,88%98,00%60,42810,18320,00030,99%98,98%70,42300,17900,00020,54%99,53%80,41930,17580,00010,30%99,83%90,41620,17330,00000,16%99,98%100,41080,16880,00000,02%100,00%110,40680,1655120,40070,1605130,39910,1593140,39520,1562150,39050,1525160,38810,1506170,38010,1445180,37770,1427190,36910,1362200,36180,1309210,35350,1249220,34690,1203230,34170,1168240,31290,09790,16670,0278

Le taux d'inertie modifié moyen est de 100%/10= 10%. Les trois premières valeurs propres modifiées dépassent ce taux. Nous étudierons ici les deux premiers axes.

Les coordonnées, contributions et qualités de représentation sont données dans le tableau ci-dessous.
EMBED STATISTICA.Spreadsheet \s

Dans le graphique suivant, les modalités qui ont une contribution supérieure à 3,3% à la formation du premier axe sont indiquées en caractères rouges, celles qui ont une contribution supérieure à la moyenne sur le second axe sont représentées en caractères gras.

EMBED STATISTICA.Graph \s

Autres exemples d'ACM
Les autres exemples d'ACM que nous traiterons sont donnés à l'aide d'un tableau de Burt. En effet, c'est généralement sous cette forme que l'on trouve des données susceptibles de servir de base à un exercice.

Le cas "Aspirations des Français"
Ouvrez le classeur Aspi.stw. La présentation du cas, rappelée dans un rapport contenu dans le classeur est la suivante :

Source : Morineau A., Morin S., Pratique du traitement des enquêtes - Exemple d'utilisation du système SPAD, Cisia-Ceresta, Montreuil, 2000

On travaille sur des données extraites d'une enquête d'opinion réalisée en 1978, concernant les conditions de vie et les aspirations des Français.
Les questions prises en compte ici, et leurs modalités, sont les suivantes :

1- Sexe de la personne interrogée :
masc : masculin
femi : féminin
2- Possédez-vous des valeurs mobiliaires
vmo1 : oui
vmo2 : non
3- Taille d'agglomération
agg1 : moins de 2000 h
agg2 : de 2000 à 20000 h
agg3 : de 20000 à 100000 h
agg4 : plus de 100000h
agg5 : Paris
4- Diplome de l'enquêté :
die1 : aucun
die2 : CEP ou fin d'études
die3 : BEPC - BE - BEPS
die4 : bac - brevet sup.
die5 : université, gde école
5- Statut du logement
slo1 : en accession
slo2 : propriétaire
slo3 : locataire
slo4 : logé gratuit, autre
6- Age de l'enquêté
agc1 : moins de 25 ans
agc2 : 25 à 34 ans
agc3 : 35 à 49 ans
agc4 : 50 à 64 ans
agc5 : plus de 65 ans
7- Type d'emploi
emp1 : ouvriers
emp2 : employés
emp3 : cadres
emp4 : autres
empNR : non réponse

Remarque : pour une ACM sur la totalité des 27 modalités du TDB, les auteurs retiennent 5 axes principaux.

Faites tout d'abord une ACM sur la totalité du tableau de Burt (27 modalités - remarquez que seules 4 modalités de la variable "Type d'emploi" sont présentes.

Remarque : le graphique ainsi obtenu est assez peu lisible. Il est cependant possible de l'améliorer en utilisant l'outil "Balayage/Habillage" : . A l'aide de cet outil, il est par exemple possible de supprimer certains points qui se superposent au centre du graphique. Attention cependant à ce que le graphique conserve une certaine honnêteté intellectuelle !

Réalisez ensuite une ACM en ne prenant en compte que certaines variables, par exemple, la variable 2 (valeurs mobiliaires), la variable 5 (statut du logement) et la variable 6 (âge de l'enquêté). Pour cela :

- Sélectionnez les variables comme suit :

- Sélectionnez ensuite les observations correspondantes, par exemple en les désignant par leurs numéros. Pour cela, cliquez sur le bouton "Select Cases" et complétez le dialogue comme suit :

- Structurez enfin les variables (bouton "Structure de la table") de la façon suivante :

On obtient ainsi le graphique suivant :
EMBED STATISTICA.Graph \s

La possession de valeurs mobiliaires est ainsi plutôt associée à l'occupation d'un logement en propriété, et à une personne relativement âgée (agc4, agc5), alors que la non-possession est plutôt le fait de personnes jeunes, locataires. L'âge agc3 est dans une certaine mesure associé à l'accession à la propriété alors que le dernier statut du logement est plutôt le fait des moins de 25 ans (qui, par ailleurs, ne possèdent généralement pas de valeurs mobiliaires).

Le cas "Avignon"
Source : Croutsche, J.-J., Pratiques statistiques en gestion et études de marchés, Editions ESKA, Paris, 1997

Une enquête sur la fréquentation du centre ville d'Avignon. On trouvera ci-dessous le texte d'une partie des questions posées, ainsi que le codage des modalités de réponse.

1- Combien de fois par mois allez-vous dans le centre ville pour faire des achats ?
- a1 : Plus de 3 fois par mois
- a2 : de 2 à 3 fois
- a3 : de 1 à 2 fois
- a4 : Autre
2- Votre fréquentation du centre ville est-elle plus ou moins importante qu'il y a 5 ans ?
- f1 : Beaucoup moins importante
- f2 : Un peu moins importante
- f3 : Identique
- f4 : Un peu plus importante
- f5 : Beaucoup plus importante
3-
4-
5- Etes-vous satisfait de la propreté du centre ville ?
- p1 : très satisfait
- p2 : satisfait
- p3 : moyennement satisfait
- p4 : peu satisfait
- p5 : très peu satisfait
6- Que pensez-vous de la sécurité dans le centre ville ?
- s1 : Très faible
- s2 : Faible
- s3 : Normale
- s4 : Importante
- s5 : Très importante
7- Si vous observez des problèmes de sécurité : vous arrive-t-il de ne pas vous rendre dans le centre ville à cause de ce problème ?
- r1 : oui
- r2 : non
8-
9-
10-
11- Où habitez-vous ?
- h1 : Avignon intra-muros
- h2 : Avignon extra-muros
- h3 : autre
12-
13- Dans quelle tranche d'âge vous situez-vous ?
- â1 : 15-19 ans
- â2 : 20-30 ans
- â3 : 31-40 ans
- â4 : 41-50 ans
- â5 : 51-60 ans
- â6 : Plus de 60 ans
14-

Dans le classeur Avignon.stw se trouvent diverses feuilles de données contenant les tableaux de Burt obtenus en sélectionnant 3 ou 4 des items du questionnaire. Analysez chacun des aspects ainsi définis à l'aide d'une ACM.

Méthodes de classification
Bibliographie : Lebart, L., Morineau, A., Piron M., Analyse exploratoire multidimensionnelle, Dunod, Paris, 2000.

Introduction
Classifier, c'est regrouper entre eux des objets similaires selon tel ou tel critère. Les diverses techniques de classification (ou d'"analyse typologique", de "taxonomie", ou "taxinomie" ou encore "analyse en clusters" (amas)) visent toutes à répartir n individus, caractérisés par p variables X1, X2, ..., Xp en un certain nombre m de sous-groupes aussi homogènes que possible.
On distingue deux grandes familles de techniques de classification :
- La classification non hiérarchique ou partitionnement, aboutissant à la décomposition de l'ensemble de tous les individus en m ensembles disjoints ou classes d'équivalence ; le nombre m de classes est fixé.
- La classification hiérarchique : pour un niveau de précision donné, deux individus peuvent être confondus dans un même groupe, alors qu'à un niveau de précision plus élevé, ils seront distingués et appartiendront à deux sous-groupes différents.

Remarques. Ces méthodes jouent un rôle un peu à part dans l'univers des méthodes statistiques. En effet :
- L'aspect inférentiel est ici inexistant ;
- Il existe un grand nombre de variantes de ces méthodes, et on peut être amené à appliquer plusieurs de ces méthodes sur un même jeu de données, jusqu'à obtenir une classification "qui fasse sens" ;
- Au contraire des méthodes factorielles, l'accent est souvent mis sur les n individus et non sur les p variables qui les décrivent.
Méthodes de type "centre mobile" : K-moyennes
Principe de la méthode
On dispose d'un ensemble d'individus, ou observations, décrits par des variables numériques. On veut créer une partition de cet ensemble, en regroupant ces individus en un nombre déterminé K de classes : chaque individu devra appartenir à une classe et une seule. Pour cela :

On fixe de façon aléatoire K "centres de classes", ou "centres de gravité" et on exécute l'algorithme suivant :

1) Chaque observation est classée en fonction de sa proximité au centre de gravité.
2) Chaque centre de gravité est déplacé de façon à être au centre du groupe correspondant.
3) On continue jusqu'à ce que les centres de gravité ne bougent plus

Choix des variables représentant les individus

Les distances étant calculées sur les valeurs observées des variables, la classification n'aura pas de sens si les variables s'expriment avec des unités différentes, et ont des plages de variation très différentes. Si c'est le cas, il faut au préalable transformer les variables (par exemple en faisant un centrage-réduction) afin d'équilibrer les "poids" des différentes variables.

Dans le cas où les données observées sont les valeurs de p variables numériques sur n individus, on pourra choisir d'effectuer une classification des individus, ou une classification des variables. On peut choisir, par exemple, de retenir certains "traits" des individus (autrement dit certaines variables qui ont servi à les décrire) et réaliser la classification sur les individus décrits par ce choix de variables.

Mise en oeuvre avec Statistica sur un mini-exemple
On dispose de 8 individus décrits par 2 variables. Une troisième variable est constante sur l'ensemble des individus. Les données sont les suivantes :
XYZ1511025-110315104-15105-51106-5-11071-5108-1-510Nuage de points correspondant :
EMBED STATISTICA.Graph \s
Nous souhaitons définir 4 classes à partir de ces 8 objets.

Ouvrez le classeur Mini-K-Means.stw.
Utilisez le menu Statistiques - Techniques exploratoires multivariées - Classifications et sélectionnez la méthode K-moyennes.
EMBED PBrush

Sélectionnez X et Y comme variables d'analyse, et, sous l'onglet "Avancé", spécifiez une classification sur les observations, comportant 4 classes. Cochez également la case "traitements et rapports par lots", ce qui permettra de produire en une seule manipulation l'ensemble des résultats de la classification.

Comme prévu, les 4 classes formées par Statistica sont {O1, O2}, {O3, O4}, {O5, O6} et {O7, O8} (cf. les 4 feuilles de résultats "composition de la classe N° ...). Par exemple, pour la première classe :

EMBED STATISTICA.Spreadsheet \s

Le centre C1 de cette classe est évidemment le point de coordonnées (5, 0). On peut remarquer que la distance calculée par Statistica n'est pas tout à fait la distance euclidienne dans le plan, mais correspond à la formule suivante :
EMBED Equation.3
Le dénominateur introduit dans la formule représente le nombre de variables, comme on peut s'en rendre compte en introduisant la troisième variable (Z) dans la classification.

La même règle est appliquée pour le calcul des distances entre classes, autrement dit entre centres de classes :
EMBED STATISTICA.Spreadsheet \s

Les coordonnées des centres de classes sont disponibles dans la feuille de résultats "Moy. Classes" :
EMBED STATISTICA.Spreadsheet \s

Statistica effectue également une analyse de variance à un facteur sur chacune des variables. Le facteur pris en compte ici est l'appartenance de l'observation à l'une des classes :

EMBED STATISTICA.Spreadsheet \s

Ces résultats peuvent être retrouvés à l'aide du menu ANOVA. On introduit une quatrième variable, nommée "Groupe", contenant le numéro de la classe à laquelle appartient l'observation. Puis, on effectue une analyse de variance à un facteur en indiquant X (par exemple) comme variable dépendante et Groupe comme variable de classement.

Le seul résultat qui n'est pas automatiquement produit par le traitement par lots est le graphique des moyennes. Pour l'obtenir, ré-affichez la fenêtre du traitement en cours, désactivez la case "traitement par lots" et cliquez sur OK. Dans la fenêtre de dialogue "Résultats de l'analyse par les k-moyennes", cliquez sur le bouton "Graphique" :
EMBED STATISTICA.Graph \s

Mise en oeuvre sur les exemples traités dans les paragraphes ACP et AFC
Classification des variables du cas "Représentations sociales de l'homosexualité"
On reprend l'exemple "Représentations sociales de l'homosexualité" que nous avions traité par une ACP (classeur Statistica Rep-Soc-Homo.stw). Rappelons que les variables sont ici homogènes, puisque chaque variable est un protocole de rangs observés sur les 15 traits étudiés.

Une classification en 3 classes, portant sur les variables va-t-elle confirmer les résultats que nous avions obtenus en analysant les résultats de l'ACP ?

EMBED STATISTICA.Spreadsheet \s

On constate que la classe 3 regroupe les variables correspondant à une cible masculine, la classe 1 regroupe les jugements portés par les homosexuels sur eux-mêmes et sur leur stéréotype, tandis que la classe 2 rassemble non seulement les variables correspondant à une cible féminine mais aussi He:Ho, c'est-à-dire la description de la cible "homosexuels" faite par les hétérosexuels.
Classifications sur le cas "Protéines"
On reprend le fichier Proteines-2008.stw.

La répartition en 2 groupes "protéines animales v/s protéines végétales" apparaît-elle naturellement dans les données étudiées ?

Effectuez une classification de type K-moyennes, portant sur les variables 1 à 9 de la feuille "Protein et Groupes" en indiquant deux classes. Faites une sélection des observations, de manière à éliminer de l'étude les moyennes par zone géographique :
EMBED PBrush EMBED PBrush

On voit que l'une des classes est constituée de la seule variable "céréales" pendant que l'autre classe rassemble les 8 autres variables. En effet, l'étendue de la variable "Céréales" est très différente de celle des autres variables, et le résultat produit ne fait que l'illustrer.

On peut résoudre ce problème soit en travaillant sur des données centrées réduites, soit en utilisant les coordonnées des variables selon les axes factoriels produites par une ACP normée. Par exemple, activez la feuille "Proteines-Centre-Reduit". Reprenez une classification analogue, mais portant sur les variables centrées-réduites. Cette fois, la classification recouvre assez bien l'origine (animale v/s végétale) des protéines, mais les féculents restent regroupés avec les protéines animales :
EMBED STATISTICA.Spreadsheet \s
Classification des lignes dans le cas "Régions-2001"

On reprend le classeur Statistica Regions-2001.stw.

Une classification basée sur le tableau de contingence n'aurait pas grand sens. En revanche, on peut utiliser les résultats de l'AFC comme données de base pour essayer de faire une classification des régions en 3 ou 4 ensembles.

Refaites au besoin une AFC sur ce tableau de contingence et rendez active la feuille contenant les résultats relatifs aux individus lignes (les régions). Faites ensuite une classification de type "K-moyennes", en utilisant les variables "Coord." de cette feuille et en spécifiant 3 ou 4 classes. Vous devriez retrouver en grande partie la typologie que nous avions obtenue en analysant les résultats de l'AFC.

Remarque. Les résultats de la classification dépendent-ils du nombre d'axes factoriels représentés dans la feuille de résultats de l'AFC ? On pourra essayer de refaire la classification sur les coordonnées factorielles d'un plus grand nombre d'axes, et constater qu'il en résulte peu de modifications des résultats produits : l'essentiel de la variation est représenté par les premiers axes.
Remarques et conclusion
Cette méthode produit des résultats qui peuvent être facilement exploitables. On notera cependant que l'on doit indiquer a priori le nombre de classes, ce qui nuit à l'aspect véritablement "exploratoire" de la méthode. D'autre part, les variables traitées doivent être homogènes (s'exprimer avec la même unité, ou au moins avoir la même plage de variation) et c'est toujours la distance euclidienne qui est utilisée pour évaluer les distances entre objets.
Classification Ascendante Hiérarchique
Les 4 étapes de la méthode
Choix des variables représentant les individus

Les distances étant calculées sur les valeurs observées des variables, la classification n'aura pas de sens si les variables s'expriment avec des unités différentes, et ont des plages de variation très différentes. Si c'est le cas, il faut au préalable transformer les variables (par exemple en faisant un centrage-réduction) afin d'équilibrer les "poids" des différentes variables.

Dans le cas où les données observées sont les valeurs de p variables numériques sur n individus, on pourra choisir d'effectuer une classification des individus, ou une classification des variables. On peut choisir, par exemple, de retenir certains "traits" des individus (autrement dit certaines variables qui ont servi à les décrire) et réaliser la classification sur les individus décrits par ce choix de variables.
On peut noter qu'il revient au même par exemple :
- de réaliser la CAH des individus à partir de p variables centrées réduites ;
- de réaliser la CAH des individus à partir des p facteurs obtenus à l'aide d'une ACP normée sur les variables précédentes.
Toutefois, il peut être intéressant de réaliser la CAH à partir des q premiers facteurs (q 0. Les nuages de points représentant les observations des deux groupes selon les valeurs de beliefs-CR et attitudes sont alors les suivants:

EMBED STATISTICA.Graph \s
On voit sur le graphique que l'effet de beliefs-CR est nettement plus important lorsque attitudes a une valeur élevée que lorsque attitudes a une valeur faible.
Remarque
L'utilisation de cette méthode est délicate, notamment parce que les valeurs trouvées (importance relative des prédicteurs, R2, etc) dépendent des moyennes des prédicteurs. Pour que le terme "produit des prédicteurs" puisse être interprété comme une interaction, il est pratiquement indispensable de travailler avec des prédicteurs centrés (en revanche, les résultats ne sont pas changés de façon substantielle lorsqu' on effectue une réduction des variables, ce que nous avons fait ici).
Régression linéaire avec Statistica
Exemple

Source : A study on significant sources of the burnout syndrome in workers at occupational centres for mentally disabled, Pedro R. Gil-Monte and José Ma Peiró, Psychology in Spain, 1997, Vol. 2. No 1, 116-123.
Page Web : http://www.psychologyinspain.com/content/full/1997/6bis.htm

Subjects
Subjects were 95 employees in occupational institutions for mentally retarded people in the Valencia Autonomous Community (...).

Description des variables.

Self-confidence levels were measured by using five items of an adaptation of the Trait Sport-Confidence Inventory" (TSCI) (Vealey, 1986), in which the word "athlete" was replaced by "workmate". Cronbach's alpha coefficient for the present study was .84.
Social support at work was estimated using 6 items of the "Organisational Stress Questionnaire" (OSQ) (Caplan, Cobb, French, Van Harrison and Pinneau, 1975). These items reflect some aspects of social support coming from workmates (3 items) and supervisors (3 items). Reliability coefficient in this study was a=.86 for the supervisors' social support scale, and a=.76 for the workmates' social support scale.
Perceived role conflict and role ambiguity levels were measured by 3 items, for each of the variables, taken from their respective OSQ scales. Reliability values were a=.69 for role ambiguity and .68 for the role conflict scale.
The burnout syndrome was estimated by MBI (Maslach and Jackson, 1986). This instrument is comprised of 22 items measuring the three dimensions in the syndrome: personal accomplishment (8 items), emotional exhaustion (9 items), and depersonalisation (5 items). Reliability coefficients obtained in the study were: a=.76 for the personal accomplishment subscale, a=.87 for emotional exhaustion, and a=.52 for depersonalisation.

Ouvrez le classeur Valencia-Burnout.stw.

N.B. Les données figurant dans ce classeur ont été générées à partir des indications (moyennes, écarts-types, coefficients de corrélation) figurant dans l'article. Cela explique qu'il ne s'agisse pas de valeurs entières, comme on aurait pu le penser à la lecture de la description des variables.

Affichez les statistiques descriptives concernant ces variables. Vous devriez obtenir :

EMBED STATISTICA.Spreadsheet \s

Affichez de même la matrice des corrélations :

EMBED STATISTICA.Spreadsheet \s

Comparez avec les valeurs indiquées dans l'article :

La régression linéaire ordinaire
Effectuez ensuite une régression multiple ordinaire des 3 dernières variables sur les 5 premières :

Pour la variable Personal Accomplishment :

Le bouton "Synthèse de la régression" (onglet "Avancé") affiche les résultats suivants :

EMBED STATISTICA.Spreadsheet \s

La colonne "B" donne les coefficients de l'équation de régression linéaire. Le modèle fourni par la régression linéaire est le suivant :
Personal Accomplishment = 32,47 + 1,49 *Self-Confidence +1,81 * Workmates Social Support - 0,75 * Supervisor Social Support - 1,18 * Role Conflict - 2,93 * Role Ambiguity

La valeur de R2 est de 0,315 : 31,5% de la variance de la variable Personal Accomplishment est expliquée par le modèle.

Les coefficients de la colonne "Bêta" sont les coefficients standardisés, c'est-à-dire les coefficients que l'on observerait si on utilisait des variables centrées réduites au lieu des variables observées. On peut également les interpréter comme suit : lorsque "Self-Confidence" augmente d'un écart type, la variable "Personal Accomplishment" estimée augmente de 0,23 écart type, lorsque la variable "Role Conflict" augmente d'un écart type, "Personal Accomplishment" diminue de 0,135 écart type.
Par exemple, on pourra vérifier que
EMBED Equation.3

Les valeurs de t sont obtenues en divisant la valeur correspondante de B par son erreur type. Autrement dit, on teste si le coefficient B est significativement différent de 0.

On peut afficher les résultats de l'ANOVA (bouton ANOVA) montrant qu'ici, le coefficient de régression multiple est significativement différent de 0, ou encore qu'il existe un lien linéaire significatif entre la variable dépendante et les autres variables :

EMBED STATISTICA.Spreadsheet \s

Sous l'onglet "Nuage", on pourra obtenir différentes représentations graphiques dont, par exemple, le graphique illustrant l'adéquation entre les valeurs observées et les valeurs théoriques :
EMBED STATISTICA.Graph \s

La régression linéaire pas à pas
Dans l'article, les auteurs indiquent qu'ils ont fait une régression linéaire pas à pas des dimensions du MBI sur les 5 premières variables.
Principe de la méthode
Les données sont formées par une VD Y et plusieurs variables explicatives X1, X2, ..., Xp.
On choisit, parmi les variables explicatives, celle qui est le mieux corrélée à Y. Pour simplifier les notations, nous supposerons qu'il s'agit de la variable X1.
On calcule l'équation de régression linéaire de Y sur X1 : Y = b1 X1 + b0.
On calcule alors les résidus : R1 = Y - b1 X1.- b0
On choisit, parmi les variables explicatives restantes, celle qui est le mieux corrélée à R1. Nous supposons ici qu'il s'agit de la variable X2.
On calcule l'équation de régression linéaire de Y sur X1 et X2 : Y = b'1 X1 + b2 X2 + b'0.
On calcule les nouveaux résidus : R2 = Y - (b'1 X1 + b2 X2 + b'0) et on poursuit la méthode jusqu'à ce que les variables explicatives restantes ne soient plus significativement corrélées aux résidus.

La régression linéaire pas à pas pour la variable Personal Accomplisment

Utilisez de nouveau le menu Statistiques - Régression Multiple
Sous l'onglet "Avancé", spécifiez "Personal Accomplishment" comme variable dépendante, les 5 premières variables comme variables indépendantes. Cochez l'option "régression ridge ou pas-à-pas".

Dans le dialogue suivant, activez l'onglet "pas-à-pas" et sélectionnez la méthode "pas à pas ascendante", et l'affichage des résultats à chaque étape :

A la première étape, Statistica affiche les résultats suivants :
EMBED PBrush
Cliquez sur "suivant". On obtient :
EMBED PBrush
Puis :
EMBED PBrush

Statistica accepte encore de faire rentrer deux autres variables dans la régression. Cependant, en affichant les résultats disponibles sous le bouton "Synthèse de la régression", on se rend compte que seules ces deux premières variables sont significativement corrélées aux résidus :
EMBED STATISTICA.Spreadsheet \s

On peut alors reprendre la méthode en ne spécifiant que deux étapes et retrouver les résultats indiqués par les auteurs :
EMBED STATISTICA.Spreadsheet \s

Résultats indiqués dans l'article :

Un exemple d'analyse de médiation avec Statistica
Source : Congruence de valeurs et engagement envers l'organisation et le groupe de travail. Stinglhamber, F., Bentein, K., Vandenberghe, C., Psychologie du Travail et des Organisations, Vol. 10, pp. 165-187, 2004.

L'étude citée supra avait pour objectif d'examiner le rôle des valeurs individuelles, organisationnelles et groupales ainsi que celui de la congruence de valeurs dans la prédiction de l'engagement des salariés envers l'organisation et le groupe de travail.

On lit notamment dans la partie consacrée aux objectifs de l'étude :

"La plupart des études ayant examiné les effets des valeurs culturelles sur les attitudes et les comportements des employés se sont concentrés sur le niveau organisationnel. Pourtant, il est de plus en plus reconnu dans la littérature que l'organisation est composée d'entités multiples. Celles-ci peuvent produire leurs propres valeurs culturelles (...)

Nous faisons l'hypothèse que le niveau d'ancrage des valeurs culturelles aura une importance décisive dans la prédiction des attitudes du personnel. Plus spécifiquement, les valeurs émanant de l'organisation en tant que telle devraient jouer un rôle primordial dans le développement d'attitudes dirigées vers l'organisation, alors que les valeurs caractérisant le groupe de travail devraient influencer en priorité les attitudes envers le groupe (Hypothèse 1). (...)

Par ailleurs, il est vraisemblable que cette influence des valeurs véhiculées au sein dune entité particulière (organisation ou groupe de travail) sur les attitudes du personnel envers cette même entité se fasse par lintermédiaire dun ou de plusieurs des mécanismes évoqués précédemment, à savoir des effets directs de ces valeurs, un effet de la congruence (objective ou subjective) de valeurs, ou des effets interactifs. En outre, les résultats des travaux de Judge et Cable (1997 ; Cable et Judge, 1996) laissent à penser que la congruence subjective pourrait être un médiateur de la relation postulée entre valeurs ou congruence objective de valeurs liée à une entité particulière et les attitudes dirigées vers cette entité (Hypothèse 2). (...)"

Les auteurs définissent 18 variables mesurées à partir d'items évalués sur des échelles de Likert ou de facteurs issus d'une analyse factorielle exploratoire sur un ensemble d'items. Le classeur Statistica Stinglhamber.stw contient un fichier de données créées artificiellement à partir du tableau des moyennes, variances et corrélations publié dans l'article cité et respectant le nombre d'observations faites (200 questionnaires).

N.B. Les auteurs ont utilisé une méthode de régression polynomiale différente de l'analyse de régression utilisée ici. C'est pourquoi les résultats publiés, tout en étant proches des résultats obtenus sous Statistica, ne sont pas identiques à ces derniers.

On s'intéresse ici aux 5 variables prédictives :
- valeurs orientées vers le support interpersonnel au niveau individuel (Support P)
- valeurs orientées vers le support interpersonnel au niveau organisationnel (Support O)
- valeurs orientées vers le support interpersonnel au niveau du groupe de travail (Support G)
- la congruence entre les valeurs personnelles et organisationnelles (par exemple "mes valeurs de travail correspondent à celles qui sont en vigueur dans mon organisation") (Congruence subj P-O)
- la congruence entre les valeurs personnelles et groupales (mes valeurs sont en accord avec celles des autres membres de mon groupe de travail) (Congruence subj P-G).

Les variables dépendantes étudiées sont :
- l'engagement affectif envers l'organisation (EA-Organisation)
- l'engagement normatif envers l'organisation (EN-Organisation)
- l'engagement affectif envers le groupe de travail (EA-Groupe)
- l'engagement normatif envers le groupe de travail (EN-Groupe).

Effectuez une régression linéaire multiple de EA-Organisation sur les trois variables support. Vous devriez obtenir :
EMBED STATISTICA.Spreadsheet \s

Effectuez également une régression linéaire multiple de EA-Organisation sur les 5 variables prédictives. Vous devriez obtenir :

EMBED STATISTICA.Spreadsheet \s

Quels sont les éléments de la conclusion suivante qui peuvent être énoncés à partir des tableaux ci-dessus ?
"Les valeurs de support de lorganisation sont associées positivement à lengagement affectif envers lorganisation (...) Par ailleurs, les valeurs de support du groupe de travail sont positivement liées à lengagement tant affectif que normatif envers le groupe. En outre, la congruence de valeurs subjective PO a un impact significatif sur lengagement affectif envers lorganisation et la congruence subjective PG a un effet significatif sur lengagement affectif envers le groupe."

Réalisez les autres régressions linéaires multiples permettant de justifier les autres éléments indiqués.

Réalisez également des régressions linéaires multiples montrant que les variables support n'ont pas d'effet sur l'engagement normatif envers l'organisation mais qu'en revanche, un effet apparaît lorsqu'on introduit les 5 variables prédictives dans le modèle.

De même, quels sont les éléments de ces tableaux qui permettent d'énoncer la conclusion suivante :

"Les résultats indiquent que la congruence subjective PO agit comme médiateur total dans la relation entre les valeurs organisationnelles de support et lengagement affectif envers lorganisation. En effet :
ces valeurs organisationnelles de support ont un effet principal sur lengagement affectif organisationnel ;
ces valeurs organisationnelles de support sont positivement liées à la congruence subjective PO (r = 0,41, p < 0,01) ;
cette dernière a un effet indépendant sur lengagement affectif envers lorganisation ;
et leffet principal des valeurs organisationnelles de support sur lengagement affectif envers lorganisation disparaît lorsque la congruence subjective PO est introduite dans léquation de régression."

Procédez de façon analogue pour obtenir les autres résultats indiqués par les auteurs :

- "La congruence subjective PG est un médiateur de leffet des valeurs de support du groupe sur lengagement affectif envers le groupe. Étant donné que les valeurs de support du groupe exercent encore un effet significatif sur lengagement affectif envers ce groupe lorsque la congruence subjective PG est introduite dans léquation, nous ne pouvons cependant conclure quà une médiation partielle et non totale."

- Les variables de congruence subjective n'ont pas d'effet de médiateur sur l'engagement normatif envers le groupe.

L'exemple d'analyse de modération traité avec Statistica

Les données nécessaires sont rassemblées dans le classeur Statistica tra.stw.

Calculez la matrice des corrélations pour les 4 variables beliefs, values, attitudes, intentions. Vous devriez retrouver le résultat donné au paragraphe 3.1.3.

Réalisez la régression linéaire de attitudes sur beliefs :
EMBED STATISTICA.Spreadsheet \s

Réalisez ensuite la régression linéaire multiple de attitudes sur beliefs et values :
EMBED STATISTICA.Spreadsheet \s

Enfin, utilisez le menu Statistiques -> Modèles Linéaires/non linéaires avancés -> Modèles généraux de régression puis l'item Régression Factorielle :
EMBED PBrush

Vous devriez retrouver le résultat donné au paragraphe 3.1.3 :
EMBED STATISTICA.Spreadsheet \s

Réalisez ensuite le graphique donné à la fin du paragraphe 3.1.3.

Régression logistique
Bibliographie :
Howell, D.C., Méthodes Statistiques en Sciences Humaines, De Boeck, Paris Bruxelles, 1998.
Lebart, L., Morineau, A., Piron M., Analyse exploratoire multidimensionnelle, Dunod, Paris, 2000.

La régression logistique
La régression logistique peut être vue comme une extension de la régression linéaire au cas où la variable dépendante est dichotomique. Plus précisément, sur un échantillon de n individus statistiques, on a observé :
- p variables numériques ou dichotomiques X1, X2, ..., Xp (variables indépendantes ou explicatives)
- une variable dichotomique Y (variable dépendante, ou "à expliquer").

Dans le cas le plus simple, on cherche à expliquer une variable dichotomique Y par une variable numérique X. On dispose donc d'un tableau de données sous la forme :

s1s2snY10...0Xx1x2xn
Exemple : On considère un échantillon de 30 sujets pour lesquels on a relevé :
- d'une part le niveau des revenus (variable numérique)
- d'autre part la possession ou non d'un nouvel équipement électro-ménager.

On a obtenu les données suivantes :

Revenu108513041331143415411612172917591863212123952681339042371241Possède000000000000001
Revenu179819972234234624362753281332043564359237623799403741684484Possède111111111111111
N.B. Cet exemple peut être traité sous Statistica à l'aide du menu Statistiques > Modèles linéaires/non linéaires avancés > Estimation non-linéaire > Régression Logit. Mais les valeurs initiales par défaut des paramètres ne conviennent pas. Il faut indiquer par exemple, sous l'onglet Avancé de la fenêtre "Estimation du modèle" :

Principe de la méthode

Ces données peuvent être représentées à l'aide d'un nuage de points, qui a l'allure suivante :
EMBED STATISTICA.Graph \s
On cherche un modèle permettant d'estimer Y ("Possède") connaissant X ("Revenu"). Plutôt que de rechercher un modèle mathématique donnant pour une valeur donnée X exactement la valeur 0 ou la valeur 1, il peut sembler pertinent de rechercher un modèle produisant des valeurs comprises entre 0 et 1 qui seront interprétées comme des probabilités. Par exemple :
EMBED Equation.3 signifie que : il y a 10% de chances que Y=1

Cependant, la droite de régression de la variable Y par rapport à la variable X ne constitue pas un bon modèle car les valeurs estimées ne seront pas limitées à 0 et 1.

Pour passer d'une variable prenant ses valeurs dans [0, 1] à une variable prenant ses valeurs dans [0, +([, on introduit le rapport de chances ou cote :
EMBED Equation.3
Ainsi, si P(Y=1)=0,9, le rapport de chances vaut p1 = 0,9/0,1=9 : on a 9 fois plus de chances d'observer Y=1 que Y=0.
De même, si P(Y=1)=0,2, le rapport de chances vaut p1 = 0,2/0,8=1/4 : on a 4 fois plus de chances d'observer Y=0 que Y=1.

Pour passer d'une quantité (le rapport de chances) variant dans [0, +([ à une quantité prenant n'importe quelle valeur réelle, on applique une nouvelle transformation, en prenant le logarithme népérien du rapport. On obtient ainsi la transformation logit :
EMBED Equation.3
Ainsi,
- si P = 0,9, logit(P) = ln 9 = 2,1972
- si P = 0,5, logit(P) = ln 1 = 0
- si P = 0,2, logit(P) = ln(1/4) = -1,3863.

A partir d'une "valeur logit" y, on peut facilement revenir à la probabilité P correspondante en appliquant la transformation :
EMBED Equation.3

On ajuste alors logit(P) par une fonction affine, ce qui revient à déterminer une "sigmoïde" qui passe au mieux par les points expérimentaux :

EMBED STATISTICA.Graph \s
L'équation correspondant à cet ajustement est :

EMBED Equation.3

Exemple d'utilisation de cette équation : à partir de quel revenu a-t-on 90% de chances de tirer un sujet possédant l'équipement envisagé ?

P = 0,9 correspond à P/(1-P) = 0,9/0,1 = 9 d'où logit(P) = 2,1972.
Or : 2,1972 = -2,7271 + 0,001151 X donne X = (2,1972 + 2,7271)/0,001151, c'est-à-dire : X=4278.

Remarque : Cette équation n'est pas obtenue par une "simple" régression linéaire, mais par des méthodes itératives. D'une part, il n'est pas envisageable de faire les calculs manuellement, d'autre part, il faudra, dans certains cas, "aider" les logiciels en indiquant des valeurs initiales plausibles pour les coefficients.

Aides à l'interprétation. Evaluation de la qualité du modèle obtenu.

La qualité du modèle peut être évaluée en comparant les résultats obtenus avec ceux du modèle "constant" qui attribuerait la probabilité 14/30 à la valeur 0 et 16/30 à la valeur 1. Une fonction de vraisemblance est évaluée dans les deux cas, et la différence des deux fonctions suit une loi du khi-2 à 1 degré de liberté lorsqu'il n'y a qu'une seule variable indépendante. Autrement dit, les hypothèses du test sont ici :
H0 : le modèle n'est pas significativement différent du modèle constant ;
H1 : le modèle est significativement différent du modèle constant.

Sur notre exemple, on obtient :
Chi-deux = 7,636181 ; dl = 1 ; p = ,0057242
Le revenu est donc un prédicteur significatif de la variable Y.

Une autre aide à l'interprétation courante est le rapport de cotes ou odds-ratio (OR). En particulier, la contribution de la variable X à la variation de Y est calculée par :

EMBED Equation.3

Ainsi, sur notre exemple, l'odds-ratio correspondant au coefficient 0,001151 est : e0,001151=1,0012. Autrement dit, une augmentation du revenu de 1 unité se traduit par une multiplication de la probabilité par 1,0012.

D'une manière générale, l'odds-ratio est défini comme le rapport de deux rapports de chances. Ainsi, l'odds-ratio relatif à l'étendue des valeurs observées est défini de la manière suivante :

- On calcule le rapport de chances relatif à la plus grande valeur observée du revenu :
Pour X = 4484, P1=0,919325 et EMBED Equation.3
- On calcule le rapport de chances relatif à la plus petite valeur observée du revenu :
Pour X = 1085, P2=0,185658 et EMBED Equation.3
- L'odds-ratio est obtenu comme quotient des deux rapports précédents :
EMBED Equation.3

On évalue également un Odds-ratio comparant valeurs observées et valeurs prévues. Pour cela, on définit deux classes dans les valeurs prévues : celles inférieures à 0,5 et celles supérieures à 0,5 et on forme le tableau de contingence croisant les valeurs observées (0 ou 1) avec les classes ainsi définies. Sur notre exemple, on obtient :

Prév.Prév.Obs< 0,5> 0,501041511Le rapport est alors obtenu en formant le rapport ad/bc (produit des effectifs des cases d'accord divisé par le produit des effectifs des cases de désaccord).
On obtient ainsi :
EMBED Equation.3

La régression logistique avec Statistica

Source : Howell. p. 633, ex. 15.31 a 15.33

La feuille de données Harass contient des données légèrement modifiées relatives à 343 cas créés pour répliquer les résultats d'une étude sur le harcèlement sexuel (Brooke et Perot 1991). Les variables sont :
- l'âge
- l'état-civil (1 = marié(e), 2 = célibataire) (NB étonnant, n'est-ce pas l'inverse? cf données)
- l'idéologie féministe
- la fréquence du comportement
- le caractère agressif du comportement
- le fait qu'il ait été ou non signale (0 = non, 1 = oui).

1) Utiliser un programme de régression logistique et examiner la probabilité qu'un sujet signale un cas de harcèlement sexuel sur la base des VI.

2) Même question, mais en n'utilisant que le prédicteur dichotomique relatif à l'état civil. Faire une table de contingence, calculer les rapports de chances et comparer ces résultats à ceux de la régression logistique. (résultats son significatifs, mais cela importe peu, selon Howell).

3) Apparemment, la fréquence du comportement n'est pas liée à la probabilité de voir la victime signaler le cas de harcèlement. Peut-on en imaginer les raisons ?

Ouvrez le classeur Harassment.stw.

On peut utiliser le menu Statistiques, Modèles linéaires/non-linéaires avancés, Estimation non linéaire, Régression Logit: On indique la variable dépendante et les variables indépendantes :

EMBED PBrush

On peut ensuite choisir un algorithme d'estimation et éventuellement indiquer manuellement les valeurs initiales des coefficients bi, ce qui est souvent utile, si les plages de variations des VI sont très différentes de l'intervalle [0, 1] (et n'est pas prévu par le menu précédent). Pour obtenir le tableau de résultats indiqué ci-dessous, il faut également cocher la boîte "Erreurs-types asymptotiques".

EMBED PBrush

Le tableau de résultats est alors accessible par le bouton "Synthèse : paramètres et erreurs-types" du dialogue des résultats.
EMBED STATISTICA.Spreadsheet \s

L'équation de la courbe de régression est :

EMBED Equation.3

Le khi-2 correspondant au modèle vaut 35,442, et il est significatif au seuil de 1%. En revanche, seule la variable Agressivite semble avoir un rôle explicatif supérieur à celui que le hasard est susceptible de produire.

Les odds-ratio unitaires correspondant aux différentes variables sont :

EMBED STATISTICA.Spreadsheet \s

On voit que seules les variables Feministe et Agressivite possèdent des odds-ratio unitaires supérieurs à 1 et que seul celui de Agressivite est nettement différent de l'unité. Lorsqu'on affiche les résultats complets (boîte à cocher "erreurs asymptotiques" activée), on peut également observer les intervalles de confiance de ces odds ratio. On constate alors qu'Agressivite est la seule variable pour laquelle les deux bornes de l'intervalle de confiance sont d'un même côté de la valeur 1.

On peut également afficher le tableau des valeurs observées et des valeurs prévues de la variable dépendante :
EMBED STATISTICA.Spreadsheet \s

Sous l'onglet Résidus, on peut obtenir le calcul de l'odds-ratio pour le modèle :

EMBED STATISTICA.Spreadsheet \s

On peut également utiliser le menu : Statistiques, Modèles linéaires/non-linéaires avancés, Modèles linéaires/non linéaires généralisés, puis l'item Modèle logit dans l'onglet Base ou les items : Régression simple (ou multiple), Distribution: Binomiale et Fonction de liaison : logit de l'onglet Avancé.

Lorsqu'on indique les variables et leur rôle, il est important de préciser que c'est le code "1" de la variable Harcelement qui doit être assimilé à la modalité "succès" de la variable binomiale, faute de quoi les résultats seraient inversés :

EMBED PBrush

On retrouve ainsi les résultats obtenus par les deux autres méthodes, mais avec une présentation différente. On peut également obtenir des résultats supplémentaires, tels que l'évolution des valeurs des coefficients à chaque itération de l'algorithme :

EMBED STATISTICA.Spreadsheet \s

On peut également noter que l'on obtient des résultats légèrement différents lorsque l'on indique "Etat-Civil" comme variable catégorielle.
Un exemple de régression logistique issu d'un article.

Réf. : Factors Influencing Adolescents Engagement in Risky Internet Behavior, ALBERT KIENFIE LIAU, Ph.D., ANGELINE KHOO, Ph.D., and PENG HWAANG, Ph.D., CYBERPSYCHOLOGY & BEHAVIOR, Volume 8, Number 6, 2005, pp 513-520.

Dans l'article cité supra les auteurs se sont intéressés aux facteurs liés à la prise de risques dans le comportement sur Internet pour des adolescents de Singapour. Ils identifient notamment comme conduite à risques le fait de rencontrer physiquement une personne qu'ils ont d'abord connu "online".

Dans les résultats de leur étude, les auteurs indiquent notamment :

1045 (93.0% of the total sample) adolescents reported having used the Internet, and 827 (73.6%) adolescents reported having chatted on the Internet. The study focused on this group of 827 adolescents who have experienced chatting on the Internet. These adolescents have a mean age = 14.42 (SD = 1.33) and are 51.4% girls. (...)
A total of 169 adolescents (16.2% of Internet users, or 20.4% of those who chat) reported having met someone in real life that they first encountered online.

A series of multiple logistic regression analyses was used to examine the factors that influence adolescents engagement in risky internet behavior, in particular, meeting in person with someone encountered online. Odds ratios (OR) were calculated to approximate relative risk and are presented with 99% confidence intervals. Age was a significant predictor of the risky behavior (OR = 1.26, 99% CI (1.06, 1.48), p < 0.0001) but gender was not a significant predictor; 80 out of the 169 (47.3%) adolescents were girls. For ease of interpretation, the frequency of use of the Internet variable was dichotomized so that 1 = at least once a day and 0 = less than once a day. Controlling for age, frequency of use of the Internet was a significant predictor of the risky behavior (OR = 1.68, 99% CI (1.07, 2.65), p < 0.01). Parents educational background and whether parents lived together were not significant predictors of the risky behavior. All subsequent analyses include age and frequency of use as covariates in order to control for the influence of these factors. The following factors were examined as predictors of the risky behavior: frequency of chatting and gaming behavior, parental supervision, communication with parents, type of personal information given out, amount of inappropriate messages received, whether inappropriate websites have been visited, and type of internet advice heard. Significant and marginally significant predictors of the risky behavior are reported in Table 2.

TABLE 2. SIGNIFICANT AND MARGINALLY SIGNIFICANT PREDICTORS OF THE RISKY INTERNET BEHAVIOR
MEETING IN PERSON SOMEONE ENCOUNTERED ONLINE
Predictor OR 99% CIFrequency of Internet activities 3.13** 1.75, 5.55Frequency of chatting 1.77* 1.07, 2.91Frequency of gamingParental supervisionRules for Internet useNot allowed to meet in person someone encountered online 0.49** 0.30, 0.81Not allowed to talk to strangers in chatrooms 0.46* 0.23, 0.93Not allowed to give out personal information 0.62 0.39, 1.01People usually at home when arrive from school 1.56 1.06, 1.48Communication with parentsTell parents about receiving pornographic junk mail 0.49 0.22, 1.06Giving out personal informationPhone number 2.17* 1.15, 4.09Photograph 2.68* 1.16, 6.18Favorite band, music 1.67* 1.03, 2.90Receiving inappropriate messageMet someone on the Internet who asked for personal information 4.16** 2.42, 6.67Sent pornography from someone met only on the Internet 1.80 0.97, 3.34Received unwanted sexual comments on the Internet 2.59** 1.58, 4.23Received pornographic junk mail in e-mail or Instant Messaging 1.90** 1.19, 3.04Visiting Inappropriate websitesAccidentally ended up in a pornographic website 1.68* 1.04, 2.73Purposely visited a pornographic website 2.39** 1.33, 4.28Accidentally ended up in a website with violent/gruesome images 1.60* 1.01, 2.54Accidentally ended up in a hate website 1.44 0.90, 2.33Heard of the following Internet safety adviceNever arrange to meet anyone 0.55* 0.33, 0.90Do not download anything 1.88* 1.06, 3.17**p < 0.0001.
*p < 0.01.
p < 0.05.

Introduction à l'analyse discriminante
Présentation de la méthode
Position du problème
On dispose de n observations sur lesquelles on a relevé :
- les valeurs d'une variable catégorielle comportant quelques modalités (2, 3, ...) : c'est le groupe ou diagnostic.
- les valeurs de p variables numériques : X1, X2, ..., Xp : ce sont les prédicteurs.
On se pose des questions telles que :
- dans quelle mesure la valeur de Y est-elle liée aux valeurs de X1, X2, ..., Xp ?
- Etant donné d'autres observations, pour lesquelles X1, X2, ..., Xp sont connues, mais Y ne l'est pas, est-il possible de prévoir Y (le groupe), et avec quel degré de certitude ?

Exemples de situations où une telle méthode peut être intéressante :

Exemple 1. On étudie les différentes espèces de poissons peuplant un lac, mais la détermination exacte de l'espèce suppose que l'on sacrifie l'animal. Peut-on se contenter de relever différents paramètres concernant les poissons prélevés, et déduire l'espèce à partir de ces paramètres avec un degré de certitude raisonnable ?

Exemple 2. Pour déterminer le type d'utilisation de parcelles agricoles, on peut évidemment faire des relevés sur le terrain. Mais pourrait-on utiliser les informations données par des images satellites ?

La méthode est également utilisée sans que l'on ait un objectif de prédiction; on souhaite seulement déterminer les prédicteurs les plus liés au groupe d'appartenance. De ce point de vue, l'analyse discriminante est alors un complément à l'analyse de variance multivariée ou MANOVA.
Précautions et limites de la méthode
Comme dans le cas de la régression linéaire, l'emploi de cette méthode suppose que les variables prédictrices possèdent des propriétés de régularité satisfaisantes : distribution normale (voire multinormale) des variables Xi dans les différentes populations.
Par ailleurs (comme pour la régression linéaire), l'analyse discriminante peut conduire à des résultats incorrects si les variables Xi sont trop fortement corrélées entre elles.

Analyse discriminante sur un mini-exemple
Présentation de l'exemple
On a relevé les valeurs de deux variables X1 et X2 sur 40 individus statistiques répartis en deux groupes. Le nuage de points représentant ces observations est le suivant :
EMBED STATISTICA.Graph \s EMBED STATISTICA.Graph \s

Prise isolément, aucune des deux variables X1 et X2 ne permet de différencier les deux groupes G1 et G2. Cependant, on voit bien que les deux groupes occupent des régions du plan bien spécifiques.
On voit intuitivement que notre problème pourrait être résolu en considérant une variable abstraite, combinaison linéaire de X1 et X2 (approximativement X1 + X2) définie de façon que :
- la variance (dispersion) intra-groupes soit la plus petite possible
- la variance inter-groupes (variance calculée à partir des points moyens pondérés des groupes) soit la plus grande possible.

Ainsi, sur notre exemple, la droite d'équation X2= - X1 + 19 semble séparer correctement les deux groupes et il semblerait que c'est en projetant les points sur la droite X2=X1 que l'on obtiendra une dispersion minimale dans les groupes et maximale entre les groupes.

Remarque : distance de Mahalanobis. Dans notre exemple, les deux groupes présentent à peu près la même dispersion de valeurs. Cependant, dans d'autres situations, l'un des groupes peut être nettement plus dispersé que l'autre.

Considérons la situation suivante, où l'on a représenté la distribution des valeurs issues de deux groupes sur un "facteur discriminant". Dans le premier groupe, cette distribution est normale, de moyenne 0 et d'écart type 1. Dans le second groupe, elle est normale, de moyenne 5 et d'écart type 3. On souhaite, par exemple, affecter la valeur x=2 à l'un des deux groupes. Pour la distance "habituelle" (euclidienne), cette valeur est plus près du centre du premier groupe (valeur EMBED Equation.3 ) que du centre du second groupe (valeur EMBED Equation.3 ). Cependant, x=2 a plus de chances d'être une observation provenant du second groupe qu'une observation provenant du premier groupe.
EMBED STATISTICA.Graph \s
Pour résoudre ce problème, on introduit une distance particulière : la distance de Mahalanobis pour évaluer la distance entre un point et le centre d'un groupe. Pour calculer cette distance, on fait intervenir les écarts réduits entre x et les centres de groupes. On aura ainsi :
EMBED Equation.3
La définition de la distance de Mahalanobis est nettement plus compliquée lorsqu'il y a plusieurs variables à prendre en compte, car elle fait intervenir les covariances des variables prises deux à deux.
Traitement de l'exemple précédent avec Statistica
Ouvrez le fichier Mini-AnaDiscrim.stw
Faites une analyse discriminante (menu Statistiques - Techniques exploratoires multivariées - Analyse discriminante) en indiquant les codes G2 et G1 comme codes pour la variable catégorielle "Groupe", X1 et X2 comme variables indépendantes.
N.B. Un troisième code existe : G?. Mais nous voulons utiliser ces dernières observations pour tester les capacités de prédiction du modèle.
EMBED PBrush

L'onglet Avancé nous donne accès aux boutons suivants :

Synthèse (variables dans le modèle) :

EMBED STATISTICA.Spreadsheet \s

Cette feuille donne les résultats de plusieurs tests.

Dans la boîte de synthèse, on lit la valeur du test lambda de Wilk pour le modèle formé par l'ensemble des prédicteurs : EMBED Equation.3 . Il s'agit en fait de la statistique d'une MANOVA à un facteur : globalement, les centres de gravité des différents groupes sont-ils discernables (H1) ou non (H0) à partir des prédicteurs choisis ? La significativité de cette statistique de test est évaluée à partir d'une approximation par un F de Fisher (F=30,158, p@CEGIééééééé$$Ifa$gd,6mlÆÿIJ#Ükd
&$$IfTFÖÖÿÅ¥}u1ànßÚ
tàÖ0ÿÿÿÿÿÿöööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöTJLOQTVXZééééééé$$Ifa$gd,6mlÆÿZ[#ÜkdÛ&$$IfTFÖÖÿÅ¥}u1ànßÚ
tàÖ0ÿÿÿÿÿÿöööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöT[]`begikééééééé$$Ifa$gd,6mlÆÿklmþ#gdVYlÜkd©'$$IfTFÖÖÿÅ¥}u1ànßÚ
tàÖ0ÿÿÿÿÿÿöööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöTþÿ i 67ÓÔÕ67abµ6NÈÉ> V úõðððððëæææææææææÞæÞæææÖ$a$gdõH*$a$gdqgdOUägdOUägd¸gd¸gdVYl 56GÒÓÔÕÙë
op!56L_`±²³´µÑ56üøôíôéâéüéüÚéÒÎ¿²ÒÎ®Î¦üÎ¢¢Î¢¢ÎÒÎ{nÒÎ¢Îjl2hsehqEHäÿUj±%ÁL
hqCJPJUVhahseH*hahqH*hqhq6hqh,6mhse6h,6mjd0hsehseEHòÿUjW!ÁL
hseCJPJUVhsejhseUhqhOUä6høhWQ_hWQ_høhøhøhª=jhOUä*67JKLMNÉèéêïðñ%)*,- = > ? R S T U W X p } Á Â Ñ Ò
!9!:!;!N!O!÷óä×÷ÓÏóÏÇÏÇÏóÏÇÏÇÏÃó»Ï¬»ÏÃpj?`°L
h,CJPJUVjh,Uh,hñVhÇy6hÇyh:zh!?éj©8hõH*hõH*EHäÿUj¡'ÁL
hõH*CJPJUVjhõH*Uh,6mhahõH*H*hõH*hsej/6hqhqEHäÿUjz%ÁL
hqCJPJUVhqjhqU(V W } § ´ :!R!~"$$q$i%÷%ù%ú%&&&&J'b'c'A(B(5)6)úøóîéáéééééééééééééÙééééé$a$gdÈ$a$gd,gd:zgd:zgd:zgdOUäO!P!Q!R!!"À#$$ö%÷%ø%ù%ú%û%&&.&/&J'K'^'_'`'a'A(¤)U+_+h+û+,±,´,Ù,Ú,-òêæâÞâÞâÞÚÒËÚÃ»Ã·³·«·«·wpwph`\h)h,6mh,5h,6mh)5h
vh,h
vh,\h
vh,5h,hr?KjEhÈhr?KEHòÿUj¬p°L
hr?KCJPJUVjhÈUhëMHhÈh|k$hÈ5h|k$hô5háåháåj?háåUháåhôhÇyh,jh,Uj&* hv(6jUFhv(U hv(5hv(jhv(Uj%&hv(UjnQÜU
hv(UV,RXSYS÷TùT"V#V=VÓVÔV·Zi[j[¹[ \N\\Ù\ ]k]·]____úúúòúúíúúúúúääääääääúúÑÑ$Ifgdv(lÆÿ07^7gdv(gdv($a$gdv(gdv(____%_*_0_5_6_A_C_E_H_K_N_Q_T_W_X_i_k_m_ìììììììçÔ¾¾¾¾¾¾¾¾¹Ô¾¾Ffêì$$Ifa$gdv(lÆÿ$Ifgdv(lÆÿFfçé$Ifgdv(lÆÿ0m_p_s_v_y_|_____________±_³_µ_·_º_½_ééééééäÑééééééééÌÑéééééFfðò$Ifgdv(lÆÿFfíï$$Ifa$gdv(lÆÿ½_À_Ã_Æ_Ç_Î_Ñ_Ô_×_Ù_Ü_ß_á_ã_ä_í_ï_ñ_ó_ö_ù_ü_ÿ_`éééäÑééééééééÌÑééééééééFföø$Ifgdv(lÆÿFfóõ$$Ifa$gdv(lÆÿ````````` `"`#`C`F`I`L`N`P`R`T`V`W`a`c`úçÑÑÑÑÑÑÑÑÌçÑÑÑÑÑÑÑÑÇçÑFfÿFfüþ$$Ifa$gdv(lÆÿ$Ifgdv(lÆÿFfùûc`e`g`i`k`n`q`t`u`````````````¢`¥`§`éééééééäÑééééééééÌÑééééFf$Ifgdv(lÆÿFf$$Ifa$gdv(lÆÿ§`©`«``¯`°`¹`»`½`¿`Á`Ã`Å`Ç`É`Ê`Õ`Ø`Û`Ý`ß`á`ã`å`ééééäÑééééééééÌÑéééééééFf$Ifgdv(lÆÿFf$$Ifa$gdv(lÆÿå`ç`è`÷`ù`û`ý`ÿ`aaaaaaa a"a$a&a(a*a,a-aéäÑééééééééÌÑééééééééÇFfFf$Ifgdv(lÆÿFf$$Ifa$gdv(lÆÿ-a.a¯b°bàbáb[cocdKdeje§gohphSiiÐiÑi÷iøijbjÊjðjñjk¼kúúúúúúòúúíííúúúèúúòúèúúòòòúgdv(gdv($a$gdv(gdv({a®b°bÎbßbàb[c\ckclcmcncSiÑiÒióiôiõiöi÷iÊjËjìjíjîjïjñjòj
kkkkküøôðéåÝåÎÆÝåÂº¶§º¶Â|ÂtpaYtÂj5h,)h,)h,)hÇymH sH hÉphÇymH sH h+whÇymH sH h+whoL mH sH h+whÉpmH sH h+wh,)mH sH hoL hoL mH sH hÉpmH sH h,)mH sH h[6hÇyhÉpjªhÇyhÇyEHäÿUj:L×J
hÇyCJPJUVjhÇyUhoL hÇy"
UVXZ[jxúúääeääää~kd?¬$$IfTFÖÖ0úCYÁ

tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöîúT$$Ifa$gd:zlÆÿgd:z NO ËÌÎÐ~yyyyyyycc$$Ifa$gd:zlÆÿgd:zkd§¬$$IfTFÖÖ0úCYÁ

tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöîúT
Wbc¤ÍÎÏÑÒÚàáâéïðñùÿ
!}ÄxÝõö!÷©ª«¬íîøÒúòîêæâÛâÛÐÈÐÈÐÈÐÈÐÈÐÈÐÈÐÈÐ½È¶â¶²â®²®ª¦¢®¢¢²hÞb hÚ+{hÍh×pxhÍhøìjçhÚ+{hÚ+{UhÚ+{h}h6lih
hÇyhhhÉphmH sH hmH sH hhmH sH h[6hhh,)h;hC!>h;hC!>5 h;52ÐÑÒâñjjjjj$$Ifa$gd:zlÆÿ~kd$$IfTFÖÖ0úCYÁ

tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöîúTÃÄ²³wx~yyytyykkkkk7^7gd:zgd:zgd:zkd{$$IfTFÖÖ0úCYÁ

tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöîúTxöª«úõúúíèÒÒS~kd¾$$IfTFÖÖ0ÿj Ö 6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ0gdøì$a$gd:zgd:zgd:z ¡¢¬éééWéééékdN¿$$IfTFÖÖFÿüj hn6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ¬®°±lVVV$$Ifa$gdÍlÆÿkd2À$$IfTF4ÖÖFÿüj hÿÿÿÿnÿÿÿÿ`6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÿÿÿÿÿÿÖÿÿÿ4Ö4Ö
laöT±²¶·¸lVVV$$Ifa$gdÍlÆÿkdÁ$$IfTF4ÖÖFÿüj hÿÿÿÿÿÿÿÿnÿÿÿÿÿÿÿÿ 6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÿÿÖÿÿÿÖÿÿÿÿÿÿÿÿÿÖÿÿÿ4Ö4Ö
laöT¸¹º¾ËlVVV$$Ifa$gdÍlÆÿkdüÁ$$IfTF4ÖÖFÿüj hÿÿÿÿnÿÿÿÿ 6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöTËÌÍÐÑlVVV$$Ifa$gdÍlÆÿkdèÂ$$IfTF4ÖÖFÿüj hÿÿÿÿnÿÿÿÿà6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÿÿÿÿÿÿÖÿÿÿ4Ö4Ö
laöTÑÒÓÖ×àlVVVV$$Ifa$gdÍlÆÿkdÚÃ$$IfTF4ÖÖFÿüj hÿÿÿÿnÿÿÿÿ 6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöTàáäåælVVV$$Ifa$gdÍlÆÿkdÆÄ$$IfTF4ÖÖFÿüj hn`6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöTæçêëìlVVV$$Ifa$gdÍlÆÿkd¤Å$$IfTF4ÖÖFÿüj hn 6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöTìíî¥¦HIØÙlgb]]]]]]]gd:zgd:zgdøìkdtÆ$$IfTF4ÖÖFÿüj hn 6
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöT
Ò8:KwGëòýÿ - . O P Q R ¢ä¢å¢æ¢ç¢ö¢÷¢ø¢ù¢ú¢Ò£I¤Ö¤Ø¤Ù¤ô¤õ¤ö¤÷¤ù¤¥üøüøüøüøüðèüäüøüÜüÇ¿Üüäüä·³¤·äü³üyüqhÐxhÐx5jáh²UjÇ¥ÙJ
h²CJPJUVjh²Uh²jÎÐh85ÍUja¤ÙJ
h85ÍCJPJUVh85Íjh85ÍUjDÇhÇyU(jÀG
hÇyCJPJUVmHnHujhÇyUh`êh`êh`ê>*h`êhÇy>*hÞb hÇy*Ùÿ5úûÑXY - S T Ö »¡u¢å¢æ¢úúúúúúúúñññññúúúãúúúÞÞúúgd:z$û^`ûgdê6[Å^Ågd:zgd:zæ¢ú¢û¢ £¡£×¤Ø¤ø¤ù¤u¥¥G©H©
ªªKªU«ý«þ«À¬à¬á¬â¬)¯÷òòòòò÷òòíòòòòíòòòò÷èèãÞègdÍgdÍgdÍgd:zgd:z$a$gd:z¥t¥u¥À¬Á¬Ü¬Ý¬Þ¬ß¬à¬â¬2EÚ¯J°K°_°`°w°Ô±ñ±ó±ô±²:!
ÿÿÿÿÿÿÿÿÿÿÿÿüÿÿÿÿüÿÿÿÿ
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$IfgdÍlÆÿpv|éééé1·kdÅ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ£©¯¶¼ìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ¼½×ÝG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdÆ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöTÝãêðñééé1·kd®Æ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿñ
#ìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ#$AGG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdEÇ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöTGMTZ[ééé1·kdÜÇ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ[x~ìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ¥¦G4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdsÈ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT¦§¨©ªééé1·kd
É$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿª¿ÀÁÂÃìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿÃÄÚÛG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kd¡É$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöTÛÜÝÞßééé1·kd8Ê$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿêà2M8nwx¨®´µ»ÃÈÉÏÖ×ßäåëìòúÿ#$,49:@A¥*bcÒ } ~ â !j!k!l!w!x!!!ùîãùßùßùßùßùßùßùãùßùßùãùßùßùãùßùßùãùßùãùßùßùãùßØßÑßÑßÑßÆ¾³¾³ß¬ß¤jhÍUh»+UhÍh^kÁhÍmH sH hÍmH sH hÍhÍmH sH hÛµhÍhChÍhÍhÈhÍmHsHhÈhÍmH sH hÈhÍ@ßôõö÷øìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿøùG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdÏÊ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöTééé1·kdfË$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ,-./0ìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ01FLG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdýË$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöTLRX^_ééé1·kdÌ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ_tzìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ£©G4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kd+Í$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT©¯¶¼½ééé1·kdÂÍ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ½ÓÙßæììÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿìí G4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdYÎ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT ééé1·kdðÎ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ39?EKìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿKLjpG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdÏ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöTpv}ééé1·kdÐ$$IfTFÖÖrÿ¡¹B>:!
üü
tàÖ0ÿÿÿÿÿÿö¦!6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿàá78lmnxúúúúúç{hhhhh$IfgdÍlÆÿkkdµÐ$$IfTFÖÖÿO»
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÖÿÖÿÖÿ4Ö4Ö
laöT$IfgdÍlÆÿ0gdÍ¡§G4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdÑ$$IfTFÖÖrÿÿóqWOkÿÿÿÿôÿÿÿÿ~ÿÿÿÿæÿÿÿÿøÿÿÿÿ
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT§¨®´µééé1·kdµÑ$$IfTFÖÖrÿÿóqWOkô~æø
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿµ¼ÂÃÉÏìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿÏÐØÞG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kdZÒ$$IfTFÖÖrÿÿóqWOkô~æø
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöTÞßåëìééé1·kdÿÒ$$IfTFÖÖrÿÿóqWOkô~æø
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿìóùúìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿG4$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ·kd¤Ó$$IfTFÖÖrÿÿóqWOkô~æø
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT#$ééé1·kdIÔ$$IfTFÖÖrÿÿóqWOkô~æø
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$$Ifa$gdÍlÆÿ$-.4:@ìÖÖÖÖ$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ@ABÑÒ ¥GBBBBBBgdÍ·kdîÔ$$IfTFÖÖrÿÿóqWOkô~æø
tàÖ0ÿÿÿÿÿÿö»6ööÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT¥äåæíìmW$$Ifa$gdÍlÆÿ$IfgdÍlÆÿkkdÕ$$IfTFÖÖÿëW
tàÖ0ÿÿÿÿÿÿö6ööÖÿÖÿÖÿÖÿ4Ö4Ö
laöT$IfgdÍlÆÿ0íîúmW$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ~kdàÕ$$IfTFÖÖ0ÿ/ë¼
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöTmW$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ~kdCÖ$$IfTFÖÖ0ÿ/ë¼
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöT#)mW$$Ifa$gdÍlÆÿ$IfgdÍlÆÿ~kd¦Ö$$IfTFÖÖ0ÿ/ë¼
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöT)*¢£ÕcÒ_ } ~ {{{{rrrrr{mgdÍS^SgdÍgdÍ~kd ×$$IfTFÖÖ0ÿ/ë¼
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÖÿÿÖÿÿÖÿÿ4Ö4Ö
laöT !k!l!w!x!!" "D"µ"¶"###¦#$$I$¤$¥$¦$Ì$Í$Ð%Ñ%úúúúúúúúúúúúúúúúúúúúúúòíèèègdÓ¨gdÓ¨$a$gdÍgdÍ!Î!Ï!Ð!""D"E""""³"´"# #I#J#K#}#~##£#¦#§#³#Ú#Ü#Ý#Þ#$$I$J$|$}$~$¢$£$¤$¥$¦$ª$¹$Ë$Ì$Í$ò$üñéàéüéüÕéàéüéüÊéàéüÆüéü¿ü´é«éüéü ééü}vh
hÓ¨h|28hÓ¨hÓ¨hÿÛhÇyhÀk[hÍhÒ\DhÍ0Jj¨ÜhÍUh?shÍ0Jj{ÛhÍUhÒ\DhÍh$½j"ÚhÍUjÕØhÍUhÉKîhÍ0JjhÍUjl×hÍUhÍ.ò$ô$%Ï%Ð%Ñ%×%Ú%K&&&&Ö&×&w(x(I*Q***²*¶*Ì*Ï*ï*ó*++G+K+p+t+¢+¦+ù+ü+#,&,Y,\,,,Æ,É,ù,ü,(-+-K-N-s-v-®-±-ë-î-.!...·.º.ç.ê.//@/C/u/x/¨/¿/Ý/à/üõüõîãÛãÐÅÛ¹ÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛãÛh3NíhÓ¨6mH sH h
hÓ¨mH sH h3NíhÓ¨mH sH hÓ¨mH sH heÞhÓ¨mH sH h=ÙhÓ¨h
hÓ¨hÓ¨IÑ%&&Ö&×&à'á' )
)U)V)))í)î)H*I***¬*Ç*ë*+A+j++Ã+ô+úúúúúúúúúúúúúúúúúúííííííííí
Æ¥7^7gdÓ¨gdÓ¨ô+,Q,,Á,ô, -G-k-¦-æ-.L..°.à./9/m/¢/Õ/ 0_000S1T1U1òòòòòòòòòòòòòòòòòòòòòòòíííígdÓ¨
Æ¥7^7gdÓ¨à/(0+0g0j000S1U1~1ì4í4ü4ý4þ4ÿ45566¦6§6²6´6º6Ð6Ñ6Ö6×6Ý6Þ6ã6ç6÷6ø677777777$7%77787D7E7_7"8#8D8E8F8G8K9L9m9õíõíõíõíæâÚâÉÁÚâ¶â¯â¯â¯â¯â¯â¯â¯â¯â¯â¯â¯â¯â¯â¯â¯â¯âÚâÚâÚâj}Y hÓ¨U!j)GôU
hÓ¨CJPJUVaJh
hÓ¨j1 h«GÚhÓ¨Uj{ÝhÓ¨U!j_²÷U
hÓ¨CJPJUVaJjhÓ¨UhÓ¨h>bFhÓ¨hÓ¨mH sH heÞhÓ¨mH sH :U1¯1°133D3E333ø3?4ë4ì45555Â5666§6³6»6À6Ã6Å6úúúúúúúúúúúúòúòúúúúßßßßßßß$IfgdkÿlÆÿ$a$gdÓ¨gdÓ¨Å6Æ6"Ükd¤U $$IfFÖÖÿ²ÑÉÁ& øøÌ
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöytkÿÆ6Ç6Ð6Ò6Ø6ß6ã6ì6ììììììì$IfgdkÿlÆÿì6í6"ÜkdiV $$IfFÖÖÿ²ÑÉÁ& øøÌ
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöytkÿí6î6÷6ù6ÿ67
77ììììììì$IfgdkÿlÆÿ77"Ükd.W $$IfFÖÖÿ²ÑÉÁ& øøÌ
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöytkÿ777 7&7-71797ììììììì$IfgdkÿlÆÿ97:7"ÜkdóW $$IfFÖÖÿ²ÑÉÁ& øøÌ
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöytkÿ:7;7D7F7L7S7W7^7ììììììì$IfgdkÿlÆÿ^7_7`7!8"gdÓ¨Ükd¸X $$IfFÖÖÿ²ÑÉÁ& øøÌ
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿÖÿÿÿÿÿÿÿ4Ö4Ö
laöytkÿ!8"8H8I8J9K9q9r9J:K:q:r:»:¼:A;B;´;µ;NO>P>_>`>a>b>c>d>>>9?îæÞÚÓÚÓÚÓÚÞÚÂºÞÚ¶ÚÓÚÓÚÓÚ«ÚÞÚÞÚÚva(h%.IhÓ¨CJOJQJ^JaJmH sH h«SVhÓ¨CJOJQJ^JaJjz;
h%.IhÓ¨Uj¾ë hÓ¨U!j2»÷U
hÓ¨CJPJUVaJjÀy hPmhÓ¨UhÿÛjp hÓ¨U!jþÆ÷U
hÓ¨CJPJUVaJh´uhÓ¨hÓ¨jhÓ¨Uj¬e hÓ¨U!jÝHôU
hÓ¨CJPJUVaJ$$>N>O>e>f>>>³>É>ß>õ>ö>?"?8?O?P?g???¯?Å?Æ?Û?ï?@@úúòúúúåååååååååååååååååååå
Æ¥^gdÓ¨$a$gdÓ¨gdÓ¨@+@A@V@l@@@²@Ç@Ü@Ý@ó@ AA5AKAaAwAA£A»AÓAëABBB1BHBòòòòòòòòòòòòòòòòòòòòòòòòòòò
Æ¥^gdÓ¨9?@Þ@ìABHB¼B½B¾BBCCCDD5D6D7D8D:D]D¼DÛDÜDûDEmE°E°FëÖëÅ´°¥°°°zr°j°_WLE°E°h»ehÓ¨hÿÛhÓ¨mHsHhÓ¨mHsHh»ehÓ¨mHsHhPmhÓ¨5jË°
hÓ¨U!j+¿÷U
hÓ¨CJPJUVaJjhÓ¨Uj~
hU¤hÓ¨Uh´uhÓ¨jv
hl{hÓ¨UhÓ¨ h%.IhÓ¨CJOJQJ^JaJ hÿÛhÓ¨CJOJQJ^JaJ(hÓ¨hÓ¨CJOJQJ^JaJmH sH (h%.IhÓ¨CJOJQJ^JaJmHsHHBIB¼B¾BôBBCDCECªCD9D:D]D^D¼DÜDûDE-EMEnEFFßF!GeGGÞGúúòúúòúúúòúúúúééééééúúúúúúún^ngdÓ¨$a$gdÓ¨gdÓ¨°F±FÒFÓFÙFÚFdGeGGÆGßG/HzH{H|H}H~H¦H9IRIIILJMJLL+L,L-L.LOLTLEOFOyOOOO0PTP©QªQ÷ó÷ó÷óìóáÙÒóÒËóÇÃ¿»´Ã©Ã¡Ã¡Ã~Ãzvrvzkzkzh)Áh)ÁhxOhÐ4(h)Áhïrjx¿
hÇyEHôÿU(j#>
hÇyCJPJUVmHnHujhÇyUhvsõhNTh)ÁhNThNTh",h6%|hÇyh0hÀk[hÓ¨hXOühÓ¨hÓ¨mHsHhXOühÓ¨mHsHh»ehÓ¨hÓ¨hXOühÓ¨H*)ÞGßG{H|H}H¦H¶HóH9IIIJJïKNLOL§L@MÚM
NÁNEOFOOOúúúúõððððëææææææÝÝÝÝææØÓgd)Ágd)Á7^7gd:zgd:zgd:zgd6%|gd:zgdÓ¨OOO§O°O´OµOììììì7µkdÔÃ
$$IfTFÖÖrÿoBbíU
tàÖ0ÿÿÿÿÿÿö6öÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿÖÿÿÿÿÿ4Ö4Ö
laöT$IfgdºDq$$IfTFÖÖ´ÿ|O/GÐ"uèÓàRÆRS
tàÖ0ÿÿÿÿÿÿö6ööÖ ÿÿÿÿÿÿÿÿÖ ÿÿÿÿÿÿÿÿÖ ÿÿÿÿÿÿÿÿÖ ÿÿÿÿÿÿÿÿ4Ö4Ö
laöTûáââââââââìÖÖÖìÖÖÖ$$Ifa$gd:zlÆÿ$Ifgd:zlÆÿââðkd%r$$IfTFÖÖ´ÿ|O/GÐ"uèÓàRÆRS
tàÖ0ÿÿÿÿÿÿö6ööÖ ÿÿÿÿÿÿÿÿÖ ÿÿÿÿÿÿÿÿÖ ÿÿÿÿÿÿÿÿÖ ÿÿÿÿÿÿÿÿ4Ö4Ö
laöTâ%â(â+â.â5â7â9â;âìÖÖÖìÖÖÖ$$Ifa$gd:zlÆÿ$Ifgd:zlÆÿ;â¯P
hãEGCJPJUVjh?DUhãEGh?Dj(hÍo¶U(j8FG
hÍo¶CJPJUVmHnHuj+¢hÍo¶U(jÍ¬FG
hÍo¶CJPJUVmHnHuhÍo¶jhÍo¶Uh£\°h57h£\°h%h£\°hC)&h£\°*{óWKóóó$$Ifa$gdjkdÊ$$IfTFÖÖ\ºÿ¸ÒÐ¥
Ö0ÿÿÿÿÿÿöööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö
FaöT$$Ifa$gd£\°cWKKK$$Ifa$gd£\°$$Ifa$gdjkd $$IfTFÖÖ\ºÿ¸ÒÐ¥
Ö0ÿÿÿÿÿÿöööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö
FaöTABCic^^^^YYQQ$a$gd:zgd:zgd£\°kd`¡$$IfTFÖÖ\ºÿ¸ÒÐ¥
Ö0ÿÿÿÿÿÿöööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö
FaöT ~ íîÓÔúû&KLúúúúúúúòúúúúúêêÙÔÔÔÔÁÁ$Ifgd@)lÆÿgd@)
Æ@@Àý^@`Àýgd@)$a$gd:z$a$gdãEGgd:zö÷øùûLßàûüýþÿ5#$?@ABCHygh¾£¤¿ÀÁëãÛ×ÓËÓÃÓ´¬ÃÓ§ËÓÃÓÃÓ§ËÓÃÓyÃÓ§ËÓÃÓjbj Èh@)UjM¯P
h@)CJPJUVjX h@)Uj6¯P
h@)CJPJUVj¸uh@)Uj(¯P
h@)CJPJUV h@)5j:Mh@)Uj¯P
h@)CJPJUVjh@)UhÝ#sh@)5h@)hÍo¶jhÍo¶UjChÍo¶U(jµFG
hÍo¶CJPJUVmHnHu&ììGì1$$Ifa$gd@)lÆÿ¤kdþJ$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$Ifgd@)lÆÿ¢¥ééD1é$Ifgd@)lÆÿ¤kdK$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿ¥¨¬³·ééD1é$Ifgd@)lÆÿ¤kdL$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿ·»¿ÀÁßÿééD??7$a$gd@)gd@)¤kd«L$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿÿ567:=CDúúççççB¤kd|s$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$Ifgd@)lÆÿgd@)DGJMQRìÖÖÖ1¤kdt$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿ$Ifgd@)lÆÿRUX[_`ìÖÖÖ1¤kdt$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿ$Ifgd@)lÆÿ`fjmqrìÖÖÖ1¤kd)u$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿ$Ifgd@)lÆÿrs#Cyz{~úúòúúßßßß$Ifgd@)lÆÿ$a$gd@)gd@) ZG111$$Ifa$gd@)lÆÿ$Ifgd@)lÆÿ¤kd$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT¢ZG111$$Ifa$gd@)lÆÿ$Ifgd@)lÆÿ¤kd«$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT¢£©°´ZG111$$Ifa$gd@)lÆÿ$Ifgd@)lÆÿ¤kd:$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT´µ¶fg¾¿ZUUUMUUU$a$gd@)gd@)¤kdÉ$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT¿ÀÃÆÌÍÐììììGì¤kddÆ$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$Ifgd@)lÆÿÐÓÖÚÛÞéééD1$Ifgd@)lÆÿ¤kdóÆ$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿÞáäçèîéééD1$Ifgd@)lÆÿ¤kdÇ$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿîòõùúû£éééD??gd@)¤kdÈ$$IfTFÖÖ\ÿnø ôïÚüû
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿÖÿÿÿÿ4Ö4Ö
laöT$$Ifa$gd@)lÆÿÁÂÄÉúi j È Ü!Ù$à$á$â$ã$è$/%0%.?.^/_/úúúúúúúúúúúúúúúúúúúúúõõõõõõõgd¦µgdQ=S,,,,+,,,9,:,;,E,M,½,¾,>.?._..Î._/`/o/p/q/r/s/±/²/³/²0³0Ô0Õ0Ö0×0Ø0Ú0ó022"2$2üøüøüøüñêãßÛßÔÍÉÍÅ½¹ª¢½¹ÅÉÅÉ{ÉÅsÅkÅkh¦µOJQJh£\°h¦µ6jãeh±>+Uj|u¯P
h±>+CJPJUVjh±>+UjzRh±>+UjYBh±>+Uj~t¯P
hÏ'CJPJUVhÏ'jhÏ'Uh¦µh±>+h¥1Th¦µh¥1Thùðh>hÅh¥1Th¥1Th¥1Th¥1Th>hÅh¥1ThQ=ShùðhQ=S(_/s/t/u/±/³/´/w0x0²0Ø0Ù0Ú0ó0_4`4a4j4s4444÷ïêê÷ïêêê÷ïêêêêÔÔÔÔÔÔ$$Ifa$gd ãlÆÿ0gd¦µ$a$gd¦µ$a$gd±>+$2&2~22¦2¨2ª2¬2333@3B3`4T7U7c777777¥7¦77¸7À7Â7Ü7ß7ñ7ö7ù7_8`88888899ª9ùõíõØÎíõíõ¹¯íõ¨¤õ¤õ¤õ¤õ¤õ¤õ¤õ¤õ¤õ õ yuh`8jh`8Ujhv~Ujhy¯P
hv~CJPJUVjhv~Uhv~h ãh ãh ãj²yh¦µEHÞÿU(j½p,@
h¦µCJPJUVmHnHujIth¦µEHøÿU(jp,@
h¦µCJPJUVmHnHujh¦µUh¦µh¦µ6H*+444¦44$$Ifa$gd ãlÆÿÊkd×~$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT¦44´4»4Â4éééé$$Ifa$gd ãlÆÿÂ4Ã4Å4Ì44$$Ifa$gd ãlÆÿÊkdz$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTÌ4Ó4Ú4á4è4éééé$$Ifa$gd ãlÆÿè4é4ë4ò44$$Ifa$gd ãlÆÿÊkd$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTò4ù4555éééé$$Ifa$gd ãlÆÿ55554$$Ifa$gd ãlÆÿÊkdÀ$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT55&5,535éééé$$Ifa$gd ãlÆÿ354565=54$$Ifa$gd ãlÆÿÊkdc$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT=5D5K5Q5X5éééé$$Ifa$gd ãlÆÿX5Y5[5b54$$Ifa$gd ãlÆÿÊkd$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTb5i5p5v5}5éééé$$Ifa$gd ãlÆÿ}5~5554$$Ifa$gd ãlÆÿÊkd©$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT5555¢5éééé$$Ifa$gd ãlÆÿ¢5£5¥5¬54$$Ifa$gd ãlÆÿÊkdL$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT¬5³5º5À5Ç5éééé$$Ifa$gd ãlÆÿÇ5È5Ê5Ñ54$$Ifa$gd ãlÆÿÊkdï$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTÑ5Ø5ß5å5ì5éééé$$Ifa$gd ãlÆÿì5í5ð5÷54$$Ifa$gd ãlÆÿÊkd$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT÷5þ5666éééé$$Ifa$gd ãlÆÿ66664$$Ifa$gd ãlÆÿÊkd5$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT6%6&6'6(6éééé$$Ifa$gd ãlÆÿ(6)6,6364$$Ifa$gd ãlÆÿÊkdØ$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT36:6;66A6H64$$Ifa$gd ãlÆÿÊkd{$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTH6O6P6Q6R6éééé$$Ifa$gd ãlÆÿR6S6V6]64$$Ifa$gd ãlÆÿÊkd$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT]6d6e6f6g6éééé$$Ifa$gd ãlÆÿg6h6k6r64$$Ifa$gd ãlÆÿÊkdÁ$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTr6y6z6{6|6éééé$$Ifa$gd ãlÆÿ|6}6664$$Ifa$gd ãlÆÿÊkdd$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT66666éééé$$Ifa$gd ãlÆÿ66664$$Ifa$gd ãlÆÿÊkd$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT6£6¤6¥6¦6éééé$$Ifa$gd ãlÆÿ¦6§6ª6±64$$Ifa$gd ãlÆÿÊkdª$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT±6¸6¹6º6»6éééé$$Ifa$gd ãlÆÿ»6¼6¿6Æ64$$Ifa$gd ãlÆÿÊkdM$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTÆ6Í6Î6Ï6Ð6éééé$$Ifa$gd ãlÆÿÐ6Ñ6Ô6Û64$$Ifa$gd ãlÆÿÊkdð$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTÛ6â6ã6ä6å6éééé$$Ifa$gd ãlÆÿå6æ6é6ð64$$Ifa$gd ãlÆÿÊkd$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöTð6÷6ø6ù6ú6éééé$$Ifa$gd ãlÆÿú6û6þ674$$Ifa$gd ãlÆÿÊkd6$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT77
777éééé$$Ifa$gd ãlÆÿ77774$$Ifa$gd ãlÆÿÊkdÙ$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT7!7"7#7$7éééé$$Ifa$gd ãlÆÿ$7%7(7/74$$Ifa$gd ãlÆÿÊkd|$$IfTFÖÖÿ\· ´Èüý
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿÖÿÿÿÿÿÿ4Ö4Ö
laöT/767778797éééé$$Ifa$gd ãlÆÿ97:7;7hîdhxKhú4¥hc
ÝhR_hRGjhbÄUji¼hæU(2dzdÌdàeáe|f}f£f¤f&hMhwhxhùhúhöijj9k:k.mTmmm¾m¿múõððððèððõðððððØððððèõððð$Çýü]Çý^üa$gd:z$a$gd:zgd:zgd:zgd:z9k:kll.l.m/mPmQmRmSmTmmmxo°oÌo?p@pApJpÉqÊqâqªs«stâtçtud}e}x}y}z}{}~~#~$~üøüñüéüÚÒéüÎüÎÊÎøÎüÂÊ»·³¬¨¤ ¤¨¨y¨¨d(jîP>
hÇyCJPJUVmHnHuj2
hÇyEHâÿU(jP>
hÇyCJPJUVmHnHujhÇyUh#2:hP'hÇyh½-h½-hPRÈhú4¥hæhrT&hR.ÅhrT&5hrT&ht2Ij¯hºþUjâóJ
hºþCJPJUVjhºþUhºþhºþh½-hºþ'¿m¥n¦n@pApÊqâq«sÒsísttuu?wqwÀw·?@2@@@@@HB_B`BCDDD&D'D(D)D*D+D«D¬DDÎDÏDÐDÑDÒDÓD?E@EAE¹EºEÆEÈEF FTFUF¬FüøôøôðôðìôìèìèàèðìðìèìèìèÜèÜØèÐØ¿·ÐØðØðÐØ¦ÐØØØØØØØh=h¸"h§\jKh§\U!j«£eT
h§\CJPJUVaJj]h§\U!jë¢eT
h§\CJPJUVaJjh§\Uh§\h÷chÔhÔ>*hÔhöL'hvwhjhyhyEHöÿUj1cµL
hyCJPJUVhyjhyUjðlhyUj}bµL
hyCJPJUV'|e+f,fDfEfg gàgág9hphÈhÿhGi_i`i´jµj¶j¼jÂjúúòòúúúúúúúíúåúúúÏÏÏ$$Ifa$gd
GlÆÿ$a$gd/gd/$a$gd-gdï[²Dff¡fgg9h:h?h@hIhJhKhXhYhlhmhnhohÈhÎhÏhØhÙhÚhçhèhûhühýhþhGiHi[i\i]i^i`iµjüôüðìèìàìàØìÐìÁ´Ðìè¬è¬¤èèèèqdèüj¦h/h#tEHÄÿUjn¦µL
h#tCJPJUVj¤hªåh/EHâÿUj¥µL
h/CJPJUVjh/Uh/h/H*h/h/6j¡hªåh#tEHâÿUj§µL
h#tCJPJUVjhªåUh/hªåH*h/hªå6h/hªåh§FIh-h-H*h-%ÂjÃjÇjÍjÓjmWWW$$Ifa$gd
GlÆÿkd ©$$IfTFÖÖFÿü¡+hÿÿÿÿ¥ÿÿÿÿÿÿÿÿ
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÿÿÿÿÿÿÿÿÿÖÿÿÿ4Ö4Ö
laöTµjÃjÆjÇjÌjÍjÒjÔjÕjÜjÝjäjkkkkkkªk«k¬kk®k¯kØkÙkl÷mømRpSpTpUpnpÎpqqqq$q%q&q'q(q)q9qDrùõùõùõùõùõùõñõíõåõÖÉåõíÅÁ¶Á²Á®Á²ª¢ª²ªªª²{h
&NhK:j®h¸Uj¹L
h¸CJPJUVjh¸UhJ.éh¸>*h¸hÄ@îhÓpzhhmH sH hhÜñj «h
Gh
GEHèÿUjÓ¡µL
h
GCJPJUVjh
GUh-huGh
Gh-h-.ÓjÔjÖjÙjÛjmWWW$$Ifa$gd
GlÆÿkd'ª$$IfTFÖÖFÿü¡+hÿÿÿÿ¥ÿÿÿÿÿÿÿÿ
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÿÿÿÿÿÿÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöTÛjÜjÞjàjãjmWWW$$Ifa$gd
GlÆÿkd®ª$$IfTFÖÖFÿü¡+h¥
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöTãjäjkk®k¯kØkÙkllmhh`h[VQQgdgdÜñgdÜñ$a$gd
Ggdï[²kd'«$$IfTFÖÖFÿü¡+h¥
tàÖ0ÿÿÿÿÿÿö6ööÖÿÿÿÖÿÿÿÖÿÿÿÖÿÿÿ4Ö4Ö
laöT lÖlÞl?mWmvmmÙmÚmlnmnoo0p1pTpUpqq(q)q¿rÀrÔrÕrTszsúúúúúúúúúúúúúõõõõõíõõõåõßõ$gd^O$a$gdJ.é$a$gd¸gdÜñgdDr¾r¿rÀrÁrÐrÑrÒrÓrÕrírs7sSsTsUsvswsxsyszs{s¨s©s¼s½s¾s¿sttçtètét
uuu
u0uüøôìôÝÕìÑôÍôÍÉÁü²ªÁüÍ¦¦¦Í¦Ízvg_zvj.Ýh
Ujû¹L
h
CJPJUVh
jh
Uj
Úho½h
EHöÿUj-¹L
h
CJPJUVjho½Uho½jfÎh^OUjÍ¹L
h^OCJPJUVjh^OUhÓpzh³h¸j¼h
&NUjã¹L
h
&NCJPJUVjh
&NUh
&NhK:h^O%zs{s§s¨sÀsÁsttçtètuuüvývþvmwwwæwçw
xx>y?y3z4zúúúúúúúúúòúúúúúêúúúâúÝÝÝÝgdHÖ$a$gd³$a$gdJ.é$a$gd
gdÜñ0uau¿uûvüvþvmwnwwwwwçwèw x
xxxx3xx?y3z4z5zDzEzFzGzIzG{H{i{j{k{l{n{ú{üøôðüìäìÕÍäìäì¾¶äì²ª²¦²²²¦{ld¦`h_%jçðhGh©Uj¼¹L
hGh©CJPJUVhGh©jhGh©Uj¿ìhHÖUj¹¹L
hHÖCJPJUVjhHÖUhÑ]ÅhHÖhHÖ>*hHÖjàçh³Uj¹L
h³CJPJUVj¸âh³Uj%¹L
h³CJPJUVjh³Uh³h
hÉ}"hÖ^¼h@`w%4zHzIzF{G{m{n{ú{1|2|}
}9~:~~~~ÇefFG¢Ï÷òòòêòòåàÛàààààÛÛàÖàÊÊ$7$8$H$a$gd xgd¸kgd&j
gdÜñgdGh©$a$gdGh©gdHÖ$a$gdHÖú{/|1|2|D|d|~||È|æ|þ|}}
}6}~~µ~Þ~ß~FGkl¬Æôõ'(\]efxÓÔýþ45]^ÁÂôõ/0`aÊËüý/0bcüøôéáéáéáéáéáÚÖéáéÎéÎéÎéÎéÎéÎéÎéÎéÎÃ»°Î°Î°Î°Î°Î°Î°Î°Î°Î°Î°Î°Î°Î°Î°Î°Îh¸kh¸kmH sH h³mH sH h¸kh&j
mH sH h¸kmH sH h&j
h&j
h&j
h&j
mH sH h&j
h&j
mH sH h³hHÖhGh©EÁÂõö&'^_º»ìí !MN|}®¯ÝÞFGHMQ`aklwx £®´µ¼½ÈÉÏæõíõíõíõíõíõíõíõíõíõíõíõíõíõåÌ±Ì±Ì±Ì±Ì±Ì±Ì±Ì±Ì±Ì±Ì±Ì±Ì±7háknhákn6B*CJOJPJQJ]^JmH ph# sH 5h¸kh¸kB*CJOJPJQJ^JaJmH ph# sH 1h¸kh¸kB*CJOJPJQJ^JmH ph# sH hÓpzmH sH h¸kmH sH h¸kh¸kmH sH 7ÏÚÞåæåååV"nhbc¸6h>"nhEÃ6hi¿hi¿j*hi¿hEÃh¨©h¨©0±±±±±±è±é±
²²²
²²²0²1²2²3²T²U²V²W²X²Y²r²s²t²u²²²²²;³

Other exersises:

Cours d'initiation aux Statistiques
Année académique 2001-2002 : Statistiques : Corrigés de la 1ère ...
principes et methodologie de l'inference statistique
es22c5 - Raymond Rodriguez
tp : de l'arn a la proteine
B- Un mécanisme faisant intervenir une enzyme - Lycée Romain ...
Exercices
scie sauteuse - STI Génie Mécanique
Eléments de corrigé Epreuve E11 Bacpro MM septembre ... - Eduscol
Arbre de transmission
Les réducteurs mécaniques à engrenage
Corrigé des exercices module technologie - Exercices corriges