Table des matières - limsi
20 oct. 2018 ... Sujet de verbes d'action et de volonté, le nous est ici « exclusif », de sorte qu'il
peut ...... Le célèbre discours de Pic de la Mirandole Sur la Dignité de ..... 8) En
suivant les consignes de méthodologie données en TD, vous ferez .... et de
portes blindées claquent dès quatre heures de l'après-midi, New York ...
part of the document
Accents et styles
Contribution à une étude à base de perception et danalyse à travers le traitement automatique de la parole
Philippe Boula de Mareüil
Mémoire dhabilitation à diriger des recherches
À Florence
Assurons-nous bien du fait, avant que de nous inquiéter de la cause.
Fontenelle (1687), « La dent dor », Histoire des oracles (chapitre IV).
Le Français présume que cétait une voix dEspagnol, et il aurait pu distinguer quelques mots sil était familiarisé avec lespagnol. Le Hollandais affirme que cétait la voix dun Français, mais il est établi que le témoin, ne sachant pas le français, a été interrogé par le canal dun interprète. LAnglais pense que cest la voix dun Allemand, et il nentend pas lallemand. LEspagnol est positivement sûr que cétait la voix dun Anglais, mais il en juge uniquement par lintonation, car il na aucune connaissance de langlais. LItalien croit à une voix de Russe, mais il na jamais causé avec une personne native de Russie. Un autre Français, cependant, diffère du premier, et il est certain que cétait une voix dItalien ; mais, nayant pas la connaissance de cette langue, il fait comme lEspagnol, il tire sa certitude de lintonation.
Edgar Poe (1856), « Double assassinat dans la rue Morgue », Histoires extraordinaires.
Remerciements
La plupart des travaux présentés ici ont été menés au LIMSI-CNRS, avec Martine Adda-Decker, Bianca Vieru et/ou Cécile Woehrling, au sein du groupe « Traitement du Langage Parlé » que dirige Jean-Luc Gauvain. Je leur suis en premier lieu redevable. Une partie de ces travaux a été réalisée dans le cadre du programme Quæro, dont Jean-Luc Gauvain est également directeur scientifisque, et qui est financé par OSEO. Une autre partie de ces travaux a été réalisée dans le cadre du projet VarCom, programme interdisciplinaire TCAN financé par le CNRS, et du projet PFC-Cor, financé par lANR. Je remercie Noël Nguyen, responsable de ce premier projet et Bernard Laks, responsable du second, co-responsable également avec Jacques Durand et Chantal Lyche du plus vaste projet « Phonologie du Français Contemporain » (PFC). Je tiens à exprimer ma profonde gratitude à tous les partenaires qui mont permis de travailler sur leurs enregistrements, en particulier Anne Catherine Simon et Béatrice Akissi Boutin. Merci aussi à Belynda Brahimi, à Anna Kaglik, à Iryna Lehka, à Giovanna Marotta, à Núria Sebastián-Gallés et à Ioana Vasilescu pour leurs enregistrements et leurs contributions. Merci à Benoît Hervieu et à tous les locuteurs qui ont bien voulu prêter leurs voix, ainsi quà Alice Bardiaux et à tous les auditeurs que jai solicités pour des tests perceptifs. Merci encore à Laurent Vinet et à lInstitut National de lAudiovisuel (INA) pour les corpus audiovisuels et leurs transcriptions, rendus disponibles notamment dans le cadre des projets Eurodelphes et Echo. Merci de nouveau à Nigel Armstrong, Corrine Astésano, Mariapaola DImperio, Donna Erickson, Martine Grice et Oliver Niebuhr pour leurs commentaires sur certaines parties de ce travail. Jai une dette particulière envers Cédric Gendrot et Christophe Pallier pour certains scripts et tests statistiques. Enfin, je suis extrêmement reconnaissant envers mes collègues du LIMSI Gilles Adda, Alexandre Allauzen, Éric Bilinski, Christophe dAlessandro, Benoît Habert, Lori Lamel, Patrick Paroubek, Albert Rilliard et François Yvon pour leurs conseils et leur aide si précieuse.
Résumé
Articulé autour des accents et des styles de parole, ce travail combine des approches à base de perception et danalyse phonétique pour rendre compte de diverses dimensions dans lesquelles peut se déployer la variation dans la parole, en lien notamment avec lorigine géographique et linguistique des locuteurs, ainsi quavec la situation de communication. Il a bénéficié dimportantes quantités de données que les instruments de mesure dérivés du traitement automatique de la parole permettent de brasser, pour quantifier certaines tendances.
Ce travail cherche dabord à modéliser comment peuvent être identifiés et caractérisés des accents régionaux et étrangers en français. Des expériences perceptives ont été menées et des analyses acoustiques ont été effectuées, au moyen de lalignement automatique en phonèmes pouvant inclure des variantes de prononciation, sur des accents du Midi, de Belgique, dAfrique de lOuest, du Maghreb, sur des accents allemand, anglais et portugais, parmi dautres. Au total, plus de 100 heures de parole en français avec accent régional ou étranger ont été analysées. Certains des traits de prononciation les plus discriminants, comme la réalisation des voyelles nasales en français méridional ou la réalisation du schwa (postériorisé et fermé) en français avec accent portugais, ont ainsi pu être hiérarchisés par des techniques dapprentissage automatique.
La parole véhiculant à la fois des informations phonémiques et prosodiques, nous nous sommes concentré sur le rôle de la prosodie dans la perception dun accent étranger (espagnol, italien, polonais, parmi dautres), de laccent dit « de banlieue » et du style journalistique, dont nous avons étudié lévolution depuis les années 1940 à travers des archives de bulletins dinformations. Pour ce faire, différentes techniques de recopie et de modification/resynthèse de prosodie ont été utilisées. La contribution de la prosodie a ainsi été mise en évidence, en particulier pour laccent de banlieue (avec une chute abrupte de fréquence fondamentale avant une frontière prosodique) et le style journalistique des années 19401950 (avec une tendance à laccentuation initiale plus marquée que dans les décennies ultérieures).
La parole spontanée telle quon peut la rencontrer dans des dialogues ou des interviews a été étudiée, à travers un corpus de 35 heures de dialogues finalisés (comparé à un corpus de 100 heures de lecture du journal Le Monde) et un corpus dune dizaine démissions de Lheure de vérité. Par rapport à la lecture oralisée, la parole spontanée montre en particulier davantage de schwas et de liaisons (au moins 12 % de différence). Par ailleurs, elle est caractérisée par la présence dun certain nombre de disfluences (hésitations, répétitions et faux départs) et de marqueurs (totalisant au moins 8 % des mots) ainsi que de chevauchements de parole (en moyenne 34 par minute ) quon ne retrouve pas dans la langue écrite.
La modélisation de la variation et de sa perception est dune grande importance pour comprendre comment le langage peut évoluer. En guise de conclusion et perspectives, des orientations pour des travaux futurs sont proposées, notamment pour mieux prendre en compte le fait social et pour articuler accents, styles et parole expressive.
1
1. Introduction
La variation : état de lart et enjeux théoriques
Variabilité, variation, sociophonétique
La variabilité est inhérente à la parole. Notre capacité à catégoriser les sons de la parole que lon nommef « perception catégorielle » est fondamentale, car elle permet didentifier des clases lesquelles sont utilisées (et développées) par la lecture alphabétique [Liberman et al., 1957 ; Bogliotti et al., 2008]. Mais lobservation des articulateurs et des représentations acoustiques de la parole ne révèle pas des segments séparés « comme les perles dun collier » [Durand, 2005]. Les phonèmes et leurs allophones sont traditionnellement définis, en phonologie, par lanalyse paradigmatique de paires minimales de commutation, liées à la fonction distinctive dans une langue donnée. Si la phonétique et la phonologie ont pour objectif commun daborder la forme sonore du langage, la phonétique est plus ancrée dans la matérialité de la parole. Mais pas plus que le phonologue le phonéticien ne décrit tous les phénomènes physiques produits lors des gestes de parole, qui ne sont pas reproductibles. Même deux [a] prononcés successivement par la même personne ne sont pas exactement identiques. On est face au continuum sonore, où il est illusoire de vouloir noter tous les détails non-distinctifs [Pike, 1982 ; Laver, 1994]. Du reste, le constat dune variabilité inéluctable dans la parole a conduit très tôt les phonologues de lécole fonctionnaliste à distinguer variantes combinatoires (dues au contexte) et variantes libres (non directement imputables à un facteur spécifique) [Troubetzkoy, 1938]. De même, un long débat a existé autour de la distinction entre coarticulation (qui serait universelle) et assimilation (plus phonologique) [Fagyal et al., 2002]. Cependant, le constat suivant reste dactualité : « there is no known case of two corresponding phonemes in two languages having fully comparable denotations. Therefore phonological inventories only exhibit strong analogies » [Pierrehumbert et al., 2000]. Comme toutes les sciences qui cherchent à dégager du réel des régularités, les sciences du langage sont confrontées à la variabilité.
On peut également distinguer entre variabilité (intrinsèque à la parole) et variation (socialement investie) [Gadet, 1996]. Dans ce cadre, la variation nest pas un simple constat phénoménologique dusages pluriels, dentropie ou de désordre dans les données, mais relève dun certain niveau interprétatif.
Lobjet de recherche en linguistique quest la variation impose de manipuler dimportantes quantités de données. Les instruments de mesure dérivés du traitement automatique de la parole sont donc particulièrement appropriés pour quantifier des tendances connues et moins connues en phonétique/phonologie. Le but, dès lors, est à la fois daugmenter nos connaissances et daméliorer les systèmes de traitement automatique, de relever un défi scientifique et de lever un verrou technologique [Adda-Decker, 2006].
Outre le changement diachronique (à travers le temps), la littérature sociolinguistique distingue trois dimensions dans lesquelles peut se déployer la variation [Coseriu, 2000] : diaphasique (situationnelle ou « stylistique », intra-locuteur), diatopique (régionale, géographique) et diastratique (socioculturelle et démographique). Une dimension supplémentaire a été ajoutée : la variation diamésique (de médium oral/écrit, notamment).
Ici, cest la distinction de chenal de transmission de la parole qui constitue le point dancrage de la différence : aucun locuteur ne parle comme il écrit, aucun nécrit comme il parle. [Gadet, 2004 : 98]
Depuis quelques années, le terme « sociophonétique » a fait son apparition, « referring usually to variation in speech that correlates with social factors like speaker gender, age or social class » [Foulkes & Docherty, 2006]. Les facteurs étudiés (notamment lâge et la classe sociale, substitut de pratiques sociales), liés à la variation diastratique, ont souvent été ignorés par la phonétique expérimentale et la phonologie traditionnelles, peut-être en raison du fait que la variation diastratique qui y est liée est souvent graduelle plus que catégorielle. Une forme (segmentale, suprasegmentale ou subsegmentale) sera par exemple statistiquement davantage mobilisée par un groupe social que par dautres. La méthode structurale ainsi que la distinction entre langue et parole, introduite par F. de Saussure en 1915, ont été très fécondes. Mais il est aujourdhui essentiel de réconcilier le couple langue/parole (code/utilisation actualisée de ce code dans des énoncés réels), reformulé par N. Chomsky en 1965 sous la forme compétence/performance (connaissance abstraite/mise en uvre concrète des règles du langage).
Du structuralisme à la linguistique variationniste
Si la méthode structurale a pour rôle de dégager des règles et des unités fonctionnelles, la langue est une « institution sociale » pour Saussure [1915 : 105], lequel évoquait « la partie sociale du langage, extérieure à lindividu, qui à lui seul ne peut ni la créer ni la modifier » [Saussure, 1915 : 31]. Il est donc paradoxal que ses continuateurs aient exclu le social de leur étude. « Dans la langue il ny a que des différences » [Saussure, 1915 : 166] ; la linguistique saussurienne va ainsi sintéresser, par exemple, à la fonction distinctive des phonèmes et aux systèmes phonologiques, bien que la pertinence dune opposition telle que /(/~/((/ en français ne soit pas évidente dans la communication. Mais ce nest pas sur les différences entre sujets que se polarise la phonologie ni la linguistique « proprement dite », dont « lunique objet est la langue » [Saussure, 1915 : 38]. Fondatrice de la linguistique moderne, la distinction langue/parole a plutôt scellé une dualité entre invariants et variabilité, entre grammaire et réalisation. Ces dernières seraient également les terrains respectifs de la phonologie (dont le théâtre est le cerveau) et de la phonétique (dont le théâtre est la bouche et les oreilles) [Meunier, 2005]. Elles mériteraient dêtre revisitée dans une optique variationniste [Labov, 1994 : 8384 ; Sankoff, 2006], de même que la dichotomie synchronie/diachronie.
Dune variété de langue à une autre, certaines différences sont peut-être incohérentes, chaotiques de prime abord. Ne peuvent-elles pas être éclairées de manière plus opportune et fructueuse si on les rapporte à des changements linguistiques se déroulant dans lhistoire, tels une lame de fond ? Une double force sexerce sur les langues : centripète et centrifuge, ou encore uniformisatrice et séparatrice, oscillant entre des postures douverture et de fermeture, entre ce qui favorise la communication et ce qui peut tendre à la dislocation, contre la loi déconomie [Nettle, 1999]. Cest un paradoxe mais également un fait que le langage change, alors que comme instrument de communication il pourrait nêtre lobjet que dadaptations mineures au monde [Coseriu, 1973]. Certains passages de Labov mettent en avant la réticence au changement :
The fact of language change is difficult to reconcile with the notion of a system adapted to communication [Labov, 1994 : 9]
It is hard to avoid the conclusion that language, as an instrument of communication, would work best if it did not change at all. [Labov, 2001 : 5]
M. Alinei [2004], surtout, insiste sur la lenteur des changements structurels affectant la grammaire (au sens large de système linguistique) et non seulement le lexique, ainsi que sur les facteurs de continuité.
Activité conditionnée sociologiquement [Vendryès, 1968 : 23], le langage est un système dynamique [Labov, 1094 ; Stockwell, 2000 ; Oudoyer & Kaplan, 2007]. La langue nest pas intangible : elle change, elle évolue, comme la flèche de Zénon qui en réalité bouge certes pas à la même vitesse. Ce changement linguistique souvent perçu comme « trop lent, trop subtil ou trop insaisissable pour quon puisse létudier à mesure quil se déroule » [Labov, 1976 : 371] peut aussi sobserver en temps réel, et non seulement en temps apparent en comparant à un instant donné les usages de jeunes et vieux locuteurs. En situation de diglossie notamment [Ferguson, 1959], entre des variétés hautes et basses coexistantes, linsécurité linguistique se traduit par un sentiment de faute chez le locuteur, un manque dassurance à la prise de parole, des réactions subjectives négatives envers sa propre façon de parler [Bennis, 2006 ; Hassa, 2008] et éventuellement des hypercorrections : en voulant bien faire, on en fait trop, on exagère certains traits, on rate sa cible. On est confronté à de profondes fluctuations qui font partie du système langagier pour Labov, qui déclarait :
Sil nétait pas nécessaire de marquer le contraste entre ce travail et létude du langage hors de tout contexte social, je dirais volontiers quil sagit là tout simplement de linguistique. [Labov, 1976 : 258]
Le changement et la variation (aussi bien inter- quintra-locuteur) sont définitoires de lobjet quon appelle « langue », même si des linguistes générativistes comme Chomsky et Halle [1968] les ont pratiquement exclus du champ de la linguistique. Pour Chomsky, lobjet de description est « le locuteur-auditeur idéal, au sein dune communauté linguistique entièrement homogène » [Chomsky, 1965 : 3]. Voici dans quels termes T. Scheer juge les corpus générativistes, dans sa présentation du volume Usage des corpus en phonologie :
[Ceux-ci] brassent un nombre impressionnant de langues qui se comptent souvent par centaines (format typique des thèses produites outre-Atlantique depuis une dizaine dannées). Ils se caractérisent par le fait que le linguiste qui rassemble les données et les interprète ne connaît aucune des langues en question (ou alors la portion congrue), nen a entendue aucune de ses propres oreilles et ne sait delles rien dautre que les trois exemples quil a puisés dans une grammaire quil na pas lue entièrement et dont il ne sait pas évaluer la qualité [Scheer, 2004 : 53].
Il ne faut pas nécessairement y voir un déni de la variation, mais une position théorique de ce courant générativiste qui se place du côté de la grammaticalité, de la compétence plutôt que de lobservation, de la performance. Même « le structuralisme nest pas en reste : en pratique, les traits constitutifs de la parole impromptue [
] se voient rejetés dans une zone périphérique, voire extralinguistique » [Fernandez-Vest, 1994]. Pourtant, les « fautes » elles-mêmes, à travers les surgénéralisations quelles peuvent opérer, nous apprennent quelque chose [Frei, 1929], que ce soit en matière de flexions nominales ou adjectivales (ex. *carnavaux, *partisante,) ou de désinences verbales (ex. *prendu, *croivent, *sontaient pour étaient). Lacquisition par lenfant des liaisons en français donne des paradigmes particulièrement savoureux : un *zarbre ou un *zami, un nuagedes *zuages, des *navions ou des *nours (cf. la forme lexicalisée nounours) [Dugua, 2006]. Le langage ne serait pas viable sil nétait pas variable : dès quil y a communauté linguistique, il y a morcellement, fragmentation [Sapir, 1931]. Pour sen tenir au français, « lillusion de lunité de la prononciation », dès lors quil ny a pas entrave à lintercompréhension, a été fustigée à de nombreuses reprises [Martinet, 1970 ; Martinet & Walter, 1973]. Changement et variation inhérente au système vernaculaire doivent être mis au cur de la description. Cest ce quont fait les premiers les pionniers de la (socio)linguistique variationniste, au milieu des années 1960, sintéressant à la covariance langue/société à lencontre du paradigme chomskyen suivant lequel la grammaire est une réalité en soi. Au risque de sortir du cadre de la linguistique interne (également adopté par lapproche structuraliste) et à linstar de la pragmatique dorigine anglo-saxonne, la langue nest plus étudiée comme objet indépendamment du sujet parlant et du monde environnant [Calvet, 2005]. Sur sa logique interne telle léconomie du système pèsent des contraintes externes, des paramètres sociodémographiques, les contacts de langues [Fishman, 1991 ; Heine & Kuteva, 2005]
Crucial à une bonne compréhension est lexamen de la signification sociale de la variation : qui parle à qui, quoi, où, quand, pourquoi et comment ? Doù un empirisme programmatique renouant avec le structuralisme, rappelant que la langue nexiste quen vertu dun contrat tacite passé entre les membres de la communauté. Doù un recours à des corpus attestés plutôt quà lintuition et à lintrospection, contrastant avec la « linguistique de cabinet » ou « linguistique en chambre » dont le recours à lastérisque pour noter une forme impossible, indicible présente un risque évident de circularité. Il faut étudier les performances, quitter les bureaux pour retourner sur le terrain à linstar des dialectologues [Milroy, 1987 : 16] voire sinvestir dans des ateliers collectifs, interactifs, participatifs et coopératifs [Léonard, 2005]. Les sociolinguistes, dans la ville, relaient aujourdhui les dialectologues qui, traditionnellement, soccupent des espaces ruraux et en particulier des « Non-mobile Older Rural Males (NORM) » [Chambers & Trudgill, 2004].
Il ne nous appartient pas ici dentamer une longue discussion épistémologique autour de lempirisme. Ce courant plonge ses racines philosophiques dans lAntiquité, chez Aristote, tandis que le générativisme peut être vu comme une nouvelle incarnation de la pensée platonicienne ou cartésienne. Les arguments des générativistes les plus rétifs envers la méthode inductive ne manquent pas, comme celui dit de la pauvreté du stimulus (la clôture du corpus). Les textes ou les enregistrements, « accidentels », nécessairement finis, sont incapables de rendre compte de la créativité essentielle de lhomme (postulée comme innée) [Chomsky, 1969]. On ne saurait saisir lensemble infini des phrases dune langue, et pourtant lacquisition du langage est universelle et presque spontanée (contrairement par exemple à lapprentissage des mathématiques abstraites). Notre empressement à signaler à nos congénères toute information qui nous semble digne dintérêt se manifeste dès le plus jeune âge, et est spécifique à lespèce humaine [Dessalles et al., 2006]. Lidée chomskyenne que le langage nest pas une activité cognitive comme les autres mais définirait en propre lHomme (par essence un être parlant) nous intéresse au plus haut point. Cependant, une fois passée la critique chomskyenne envers la fréquence comme modèle de lintégration de lusage, lapproche usage-based nous semble une bonne alternative au cadre génératif. Limmense quantité de données dont on dispose maintenant nous incite à suivre le retour de balancier en faveur de la méthodologie empirique.
Si la recherche dinvariants est le propre de la démarche scientifique, le regain dintérêt pour la variabilité au cours du xxe siècle a touché non seulement les sciences humaines mais aussi les sciences cognitives [Lautrey et al., 2002]. Cette variabilité nest pas complètement aléatoire, elle peut être gouvernée par des règles précises : les techniques mises au point par les enquêtes sociologiques permettent maintenant de dégager des régularités, de structurer lhétérogénéité, en fonction de léchelle sociale notamment (sous-prolétariat, classe ouvrière, petite bourgeoisie, moyenne et grande bourgeoisie). Les ségrégations ethniques, la stratification et la mobilité sociale (combinant la profession, léducation, le revenu et le lieu de résidence) peuvent engendrer certains mécanismes. Il en va même ainsi du positionnement idéologique, comme la montré Labov sur lîle américaine de Marthas Vineyard : il existe des relations enter la prononciation et lattachement ou au contraire lattitude de rejet affichés par les locuteurs envers leur île [Labov, 1976]. Chez certains îliens, en particulier, la prononciation de deux diphtongues, celles que lon trouve dans des mots comme mouse et mice, diverge de celle que lon observe sur le continent ; et cette spécificité est davantage liée au ressenti dune identité insulaire quà dautres facteurs comme le niveau socioprofessionnel ou la tranche dâge.
Au sein dune même génération, chez un même locuteur, plusieurs grammaires sont en compétition. Or, toute variation synchronique est un candidat potentiel de changement diachronique : « Cest dans la parole que se trouve le germe de tous les changements » [Saussure, 1915 : 138]. Nous nous focalisons ici sur les changements phonétiques. Il ne faut pas y voir une supposition de notre part que ceux-ci précèdent, dirigent et orientent tout autre changement linguistique. Entre luf et la poule, nous ne trancherons pas. Le grammatical exerce une influence sur le phonétique et inversement [Coseriu, 1973].
Les changements morphosyntaxiques et de niveau supérieur ont également fait lobjet détudes variationnistes (par exemple en français [Nagy & Blondeau, 1999 ; Ashby, 2001 ; Armstrong, & Smith, 2002]). Certaines différences lexicales et morphosyntaxiques entre français écrit et français parlé sont bien établies : par exemple lusage de car et de temps synthétiques comme le passé simple, linversion du verbe et du pronom sujet, à lécrit ; la substitution de nous par on, le redoublement du sujet par un pronom anaphorique, les dislocations et la chute du ne de négation, à loral.Cependant, ces points sont plus complexes à apprécier dès lors quils mettent en jeu le sens. En phonétique/phonologie, tout loutillage dont on est aujourdhui équipé, de lenregistrement aux nouvelles technologies, permet plus aisément dobtenir des résultats novateurs. Cela tient aussi à lobjet et à la méthode danalyse. Au xixe siècle, avant de disposer de cette débauche de techniques que nous connaissons à présent, la phonologie était la discipline phare de la linguistique, son noyau dur, et cest en son sein quest né le structuralisme. En syntaxe, où la notion de variantes est difficile à convoquer, et en sémantique, le corpus na pas autant joué un rôle de premier plan. Si les choses commencent à changer en linguistique textuelle, dans le cadre des grammaires de construction [Loiseau, 2008], lessentiel du travail reste à faire. Il sagit dun passage obligé pour toute approche inductive de la variation.
Pour une linguistique de corpus oraux
Répondant à des enjeux variés (patrimoniaux, pédagogiques, politiques, etc.), des tentatives ont été entreprises pour collecter de grands corpus oraux. Constitués à chaque fois, le plus souvent, en vue dune utilisation précise, ceux-ci restaient au début dispersés, éparpillés. Constituer, exploiter et faire circuler un corpus cause nombre de problèmes juridiques : protection de la vie privée (anonymisation, floutage de certaines informations), propriété intellectuelle, droit de citation, droits dauteur voire droit des peuples. Pour des raisons techniques évidentes, aussi, la linguistique de loral (dont Saussure défendait pourtant la primauté) a pris du retard sur celle de lécrit [Mondada, 2001]. Mais le développement coordonné dans un souci de libre accès à la communauté scientifique (notamment à travers le web), le partage et la publication dimportantes bases de données bien documentées (ESLO, CLAPI, CORAL-ROM, CORPAIX, ELICOP, PFC, ESTER, EPAC, VARILING, RHAPSODIE, pour nen citer que quelques-unes couvrant le français [Pusch, 2002 ; Baude, 2006 ; Bazillon, 2011]) modifie notre approche du langage parlé, la rafraîchit, la bouscule éventuellement, et favorise de nouvelles recherches.
Lexistence conjointe de ressources numérisées et de dispositifs appropriés, issus des sciences et techniques de linformation, encourage ces recherches. Le moment est venu den tirer bénéfice pour annoter plus ou moins automatiquement ces corpus et leur apporter ainsi une valeur ajoutée, pour généraliser les observations, produire des connaissances objectives et évaluer des modèles. Tel est le but que nous nous fixons dans ce mémoire et plus généralement dans notre activité de recherche interdisciplinaire, au carrefour entre les sciences de linformation et les sciences humaines et sociales. Il apparaît de plus en plus clairement que les progrès réalisés en traitement automatique de la parole permettent denvisager les systèmes existants comme de bons auxiliaires pour avancer dans des études linguistiques [Habert, 2005 ; Barras, 2008]. Une linguistique de corpus oraux a ainsi émergé, sensible à lapport de ces techniques et, plus généralement, à laugmentation de la mémoire et des possibilités de calcul de lordinateur.
Les corpus servent un double objectif dheuristique et de validation [Scheer, 2004], oscillant entre des démarches inductive et déductive. Il devient possible et nécessaire de valider des concepts élaborés à partir de corpus contrôlées sur de grands corpus. Les deux approches sont dailleurs complémentaires, pour améliorer la modélisation de la variation phonétique/phonologique. La reconnaissance de la parole, notamment, facilite ou rend possibles des travaux coûteux, fastidieux et encore très longs à accomplir, il y a peu. Même sil est issu de lintelligence artificielle et de lalgorithmique, ce domaine qui brasse des données en grand nombre contribue à une approche expérimentale rigoureuse du langage, dont lépistémologie de la mesure est héritée des sciences de la nature [Desrosières, 2001].
Il va de soi que, dans ce que le traitement automatique de la parole peut apporter à une approche linguistique de la variation, nous ne saurions être exhaustif. Nous nous intéresserons dans les chapitres qui suivent à lidentification et à la caractérisation, principalement en français, daccents (régionaux, étrangers et sociaux) et de styles de parole.
Dun accent à lautre, comme dun style à lautre, les différences de degré ou de fréquence plutôt que de nature sont les plus répandues. Les questionnaires, les dictionnaires de prononciation ne suffisent plus (dautant que la plupart considère quil existe une et une seule prononciation acceptable de chaque mot de la langue). Il sagit de comparer des taux doccurrences, ce que permettent de faire les moyens considérables dont on dispose à présent en phonétique instrumentale, aidés par linformatique, sur des centaines dheures de parole, de centaines de locuteurs. En même temps, notre cerveau ne fonctionnant pas comme une machine (nous ne retenons pas tout mais sommes particulièrement attentifs à certains événements saillants), cela pose le problème complexe du passage de la production à la perception. Un trait présent, particulièrement caractéristique, peut colorer tout le parler dun locuteur en dépit de sa faible fréquence. Une grande part sera donc accordée à la perception : il est important de ne pas en faire abstraction, pensons-nous, surtout en matière daccents, même si on nest pas en mesure de manipuler autant de données que par traitement automatique.
Accents et styles : quelques définitions
Dans les nombreux enregistrements dont on dispose aujourdhui, différents accents et styles de parole sont représentés. Des auditeurs naïfs sont-ils capables de les identifier ? Les anecdotes sont monnaie courante en matière daccents notamment.
Qui na pas fait lexpérience de percevoir un accent ou dêtre perçu comme ayant un accent ? Le terme daccent appartient au vocabulaire courant et alimente volontiers les conversations. Il ne représente pas pour autant un objet facile à cerner. Même si nous nous comprenons quand nous parlons notre langue, tout le monde ne parle pas de la même manière : chacun a sa propre personnalité. Chacun a également son mot à dire sur le langage, qui est lune des choses les mieux partagées au monde. Nous verrons que limaginaire linguistique a une part importante en matière daccents, quon les envie ou quon sen moque. Chacun a sa façon de parler et sa personnalité. Il reste quon ne parle guère daccent X (où X serait une personne), daccent des années 1940, daccent soutenu ou relâché, encore moins daccent écrit alors quon oppose souvent le français écrit au français parlé. Cest plutôt, dans ce contexte, le mot style qui simpose, renvoyant ici aux dimensions diaphasique, diachronique et diamésique de la variation, alors que les accents régionaux et sociaux renvoient respectivement à la variation diatopique et diastratique. Un style diffère dun accent en ce sens quil résulte essentiellement dune adaptation à la situation de communication. Il est daprès cette définition une caractéristique du locuteur moins stable que ne lest laccent, dans la mesure où il nexiste pas de locuteur monostyle.
Dans le Dictionary of linguistics and phonetics [Crystal, 2003], la rubrique « accent » renvoie à :
the cumulative auditory effect of those features of pronunciation which identify where a person is from regionally and socially
Si lon comprend regionally au sens large, la définition couvre également ce quen linguistique « populaire » également dite « profane », « naïve » ou « spontanée » (folk linguistics) on désigne par « accent étranger ». La définition que donne B. Harmegnies dans un manuel de sociolinguistique [Moreau, 1997 : 9] est finalement plus précise :
laccent est lensemble des caractéristiques de prononciation liées aux origines linguistiques, territoriales ou sociales du locuteur
Un accent étranger est traditionnellement défini comme résultant de la confrontation de deux systèmes provenant dune langue maternelle et dune langue seconde, tandis quun accent régional est communément défini par rapport à une norme détentrice de légitimité [Bourdieu, 1982]. Accents étrangers et régionaux posent des questions différentes. Cependant, lassignation même dun qualificatif tel que régional ou étranger est problématique, que lon songe à un accent alsacien ou allemand, corse ou italien, créole ou africain. Faut-il considérer quun accent méridional en français est un accent étranger chez un locuteur natif de loccitan, et considérer quil sagit dun accent régional chez ses enfants qui nont plus loccitan comme langue maternelle ? Autre exemple : on estime quun quart au moins des Ivoiriens ont acquis le français dans la petite enfance ou en dehors de lécole [Boutin, 2003]. Doit-on dire que pour eux le français est une langue étrangère ? Avec lurbanisation, de plus, les accents régionaux peuvent se dissoudre et se redistribuer en accents sociaux. Nous étudierons en particulier le cas de laccent « de banlieue » des jeunes de cités populaires.
Les débats sur lorigine de laccent « des cités », et sur léventuelle influence de larabe et des « beurs » dans son apparition, nous font croire que cet accent tient une place particulière en France, quelque part entre la variation (régionale et sociale) et laccent étranger. [
] De même il y a tout lieu de croire que la France est en train de connaître le développement dun « accent étranger de lintérieur » comparable à laccent des Hispaniques aux États-Unis, de par sa fonction de marqueur didentité mais aussi de par sa stigmatisation dans les représentations de la population générale. [Fries & Deprez, 2003]
Nous adhérons à cette analyse du traitement social de laccent « des cités » ou « de banlieue », termes territorialisant une réalité avant tout propre à certains jeunes de classes défavorisées substituant par métonymie le contenant au contenu. Nous sommes pour notre part prudent quant au rôle de larabe dans ce qui caractérise cet accent : lexplication est séduisante mais à manier avec précaution (cf. § 1.4.5).
Que lon parle daccent anglais ou espagnol en français, daccent du Languedoc ou daccent de banlieue, lhistoire des territoires, des communautés, des sujets parlants nest certes pas la même. Un accent étranger a tendance à satténuer avec le temps [Flege et al., 1995, 1997 ; Flege, 2002], alors que généralement les accents régionaux sont plus marqués chez les gens âgés [Léon & Léon, 1997 ; Pustka, 2007, 2009]. Mais quelle quen soit la cause, quelle que soit limportance relative de la région et de la langue dorigine, les questions de diagnostic, en perception, sont en partie les mêmes pour les différents types daccents. Avec quel degré de granularité (quelle finesse, quelle précision) peut-on distinguer divers accents, et quels sont les indices qui permettent de reconnaître tel ou tel accent ? Combien daccents une oreille dexpert ou celle dun non-spécialiste est-elle à même de discerner ? Ces questions ne sont pas nouvelles en dialectométrie [Séguy, 1973], et ont été abordées pour diverses langues.
Clopper et Pisoni [2004] ont montré que, sans entraînement préalable ni retour (feedback), des auditeurs américains, invités à écouter des compatriotes de différents accents et à localiser leur origine géographique sur une carte des États-Unis, sont capables de distinguer trois grandes régions : Nouvelle Angleterre, Sud et Nord/Ouest. Une thèse sur les dialectes norvégiens et néerlandais [Heeringa, 2004] a également développé une cartographie des distances phonologiques et acoustiques qui existent au niveau lexical au sein dun même ensemble dialectal. Dautres travaux ont été consacrés à lidentification de quatre variétés de néerlandais et de cinq variétés danglais par des auditeurs des pays concernés [van Bezooijen & Gooskens, 1999], ou encore de six variétés de gallois [Williams et al., 1999]. Une expérience de perception encore, pour les régions germanophones, a montré que les dialectes suisses alémaniques, autrichiens et saxons étaient les mieux identifiés [Burger & Draxler, 1998]. Jusque récemment, les résultats dune tâche similaire de classification (clustering) perceptive nexistaient pas pour le français, même si une distinction Nord/Sud semble évidente pour tout locuteur natif.
Les études empiriques auxquelles nous avons pu nous reporter nimpliquent que deux ou trois variétés de français. Celle de Bauvois [1996] porte sur davantage de variétés de français parlé en Belgique et dans différents pays dAfrique, mais inclut toujours peu danalyses phonétiques. Larticle dArmstrong et Boughton [1997] examine la perception du français parlé à Nancy et à Rennes, deux villes appartenant historiquement au domaine doïl, quasiment symétriques par rapport à Paris : il en ressort que la classe sociale des locuteurs est bien identifiée, mais pas leur provenance géographique. De même Hauchecorne et Ball [1997] concluent que « laccent du Havre » est plus un accent social à limage négative et présent en dautres lieux quune réalité géolinguistique identifiable. Létude de Sobotta [2006], qui discute la question de la gradience de la variation diatopique et diaphasique (ou géographique et stylistique), porte sur trois groupes de témoins : méridionaux de lAveyron, Aveyronnais ayant migré à Paris et non-méridionaux. Une autre épreuve didentification sur le français et le francique parlés dans des régions frontalières de France, Belgique et Luxembourg a montré que des auditeurs bilingues de ces trois mêmes régions se montrent capables de reconnaître lorigine géographique des locuteurs (française, belge ou luxembourgeoise), en français plus encore quen francique [Rispail & Moreau, 2004]. Dans lensemble cependant, la variation sous langle de ses aspects phonétiques a donné lieu à beaucoup moins de travaux que le contact de langues (alternances codiques, emprunts, etc.).
Les noms des régions ou dautres territoires, les noms des langues dorigine nous donnent des étiquettes a priori : accent du Poitou, accent de Neuilly/Passy, accent basque, etc. Correspondent-ils à une réalité perçue ? Cest ce quil nous faut décrypter. Mais avant dapporter des éléments de réponse, il sagit de définir certaines notions comme celle de prototype (ou modèle), celle daccent par rapport à un dialecte et celle daccent par rapport à une norme.
Quand perçoit-on un accent ?
La question du prototype
Daprès les définitions ci-dessus, le terme accent fait référence à une façon de prononcer qui permet didentifier lorigine régionale ou sociale de celui ou de celle qui parle. Il est aussi des cas où lon perçoit un accent (régional, étranger ou autre) sans que lon ne parvienne à lui coller une étiquette. Les anecdotes sont légion, rapportant quune personne « se trahit tout de suite, au bout de deux mots », alors que lon narrive pas à définir son accent avec précision. Question symptomatique : « vous avez un accent
vous êtes doù ? » La reconnaissance dun accent fait appel à un double processus : celui du repérage (évaluation dune divergence plus ou moins marquée vis-à-vis dune norme) et celui de la catégorisation (identification proprement dite) [Fries & Deprez, 2003]. Selon le premier processus, on peut noter un accent, de « petit » ou « léger » à « fort » ou « à couper au couteau » comme on dit dun brouillard épais quil est « à couper au couteau » : question dappréciation. Le second processus est bien sûr plus difficile ; il est plus simple de noter la présence dun accent. Il est facile aussi de samuser de la prononciation de certains. La littérature du xixe siècle abonde ainsi en exemples où des propos plus que teintés daccent alsacien ou allemand sont transcrits de la façon suivante :
Moi, fous allez foir ; regulez-vous un beu. [Dumas, La Reine Margot, 1845]
Rassirez-fus, cheu né fus ai vait lopjection que bir fus vaire abercevoir que chai quelque méride à fus tonner la somme. Fus édes tonc pien chêné, gar la Panque a fôdre zignadire [Balzac, La cousine Bette, 1847]
Che ne feux pas
foilà tout
Fous poufez tescentre. [Maupassant, Boule de suif, 1880]
De telles caricatures ont une incidence sur la perception, car nos représentations et les discours linguistiques produisent en grande partie nos catégories de perception. Nous sommes habitués aussi à entendre des acteurs, chansonniers et autres humoristes imitant certains accents. Cependant, on tombe souvent dans le piège du stéréotype qui, comme notre imaginaire linguistique, peut être assez éloigné de la réalité.
On peut distinguer le prototype (le premier exemplaire dune série), larchétype (le type idéal des origines) et le stéréotype (du grec stereos « solide » comme un préjugé simplificateur). Désignant une image toute faite, réductrice et ancrée en profondeur dans la société, le concept de stéréotype est utile en sociologie et en linguistique. En linguistique variationniste, on distingue :
lindicateur (variable apparemment au-dessous du seuil de la conscience, qui échappe à la correction même lorsque les sujets surveillent leur langage, et qui co-varie avec le statut économique, le groupe ethnique ou lâge) ;
le marqueur (montrant une différenciation à la fois sur les plans social et stylistique, vraisemblablement du fait dun certain contrôle de la part des locuteurs quand ceux-ci prêtent attention à leur discours) ;
et le stéréotype, qui est perçu de façon particulière dans la société [Labov, 1976 ; Chambers & Trudgill, 2004].
Des expériences menées en France et aux États-Unis ont montré lexistence de stéréotypes qui ne sont pas nécessairement représentatifs des pratiques langagières, mais plutôt des pratiques sociales [Fries & Deprez, 2003]. Dans une expérience menée aux États-Unis, par exemple, des étudiants devaient écouter dans deux salles de classe différentes un cours enregistré par un américain natif [Rubin, 1992]. La bande son était accompagnée dune photo représentant un jeune américain, dans la première salle, et un asiatique dans la deuxième. Il sest avéré que les étudiants de la deuxième salle ont « entendu » un accent asiatique, et certains ont moins bien réussi le test de compréhension orale qui suivait la conférence.
Dune façon générale, les clichés sont à combattre. Au demeurant, les prototypes représentent des connaissances partagées qui, sans être universelles, sont utiles comme points de repère pour toute évaluation, pour établir des catégories, faire des prédictions, organiser notre perception du monde [Rosch, 1975 ; Desrosières & Thévenot, 2002]. La théorie du prototype [Rosch, 1975] a ainsi investi plusieurs champs de la linguistique. Par exemple, un moineau est « plus oiseau » quun pingouin ou une autruche ; et il y a « des chiens plus chiens que les autres » qui sont plus faciles à penser et à reconnaître. Ainsi des accents imités, prototypiques, peuvent-ils être plus facilement reconnaissables que des accents réels. Même la caricature, qui distord la réalité en en exagérant les traits les plus saillants, apporte quelque chose à notre compréhension des accents.
Toute identification perceptive implique un traitement bottom-up (à partir de linput quest le signal acoustique, ce que lon entend) et un traitement top-down (à partir des représentations linguistiques, ce que lon croit et ce que lon connaît). Identifier, cest aussi comparer, cela se fait nécessairement par rapport à un prototype. Comment reconnaître un accent du Jura ou un accent grec, si on ne les a pas dans loreille ? La question de lexistence dun prototype (ou dun stéréotype) est donc cruciale dans lidentification dun accent.
Les accents, serait-on tenté de dire, nexistent que par la perception quon en a. Or cette perception dépend de nombreux facteurs, de notre voisinage géographique, de notre origine, de nos connaissances linguistiques, etc. On sera plus prompt à suspecter un accent chez une personne dont on sait quelle a vécu à létranger ou « en région ». Et on identifiera avec plus de succès cet accent si celui-ci nous est familier [Baker et al., 2009]. Dans ce cas, on nest plus seulement frappé par une étrangéité ; on détecte des traits (diffus ou peut-être seulement un ou deux, subtils et ponctuels) que lon a mémorisés et qui peuvent faire basculer la perception. La tâche est plus aisée quand on connaît lorigine du locuteur. A-t-on un ami ou un parent qui vit au Havre, on va être enclin à parler de son « accent havrais », lequel, cela a été montré, constitue un exemple de mythe linguistique Hauchecorne & Ball, 1997]. Il est imprudent dinférer à partir dindividus uniques. Pourtant, des expressions telles que « accent havrais », « accent lyonnais », « accent marseillais » sont courantes, et il est difficile de convaincre quelquun persuadé de leur existence quen fait daccent marseillais, par exemple, on pourrait parler daccent méridional commun à tout le sud de la France ou, au contraire, de trois accents marseillais : celui des « Quartiers Nord » (correspondant à la façon de parler dans les quartiers difficiles), celui des « vrais » Marseillais (renvoyant à limaginaire pagnolesque du vieux port) et celui de la « bourgeoisie marseillaise » (plus léger) [Binisti & Gasquet-Cyrus, 2003]. De même, certains distinguent au moins deux accents parisiens : laccent populaire parigot de Belleville ou de Ménilmontant (également dénommé « accent des titis parisiens » ou simplement « accent parisien ») et laccent bourge(ois) « bon chic bon genre » (BCBG) de Neuilly-Auteuil-Passy (NAP) ou du xvie arrondissement (également dénommé « accent Marie-Chantal ») [Carton et al., 1983 ; Pustka, 2007] (cf. § 1.4.3). Le décalage est fréquent entre le discours et les capacités effectives de personnes à qui on demande didentifier et juger des échantillons de parole réels. Le propos selon lequel « chaque village a son parler » ou encore « dune cité à une autre de banlieue, on parle différemment » est très répandu, même si bien souvent les informateurs nen fournissent aucun exemple concret. Ils se focalisent sur les différences plutôt que sur les similitudes (plus nombreuses) [Léonard, 1991 ; Iannàccaro & DellAquilla, 2001], ce qui se comprend assez bien daprès la théorie de linformation : on sintéresse davantage à des événements rares quà des événements banals, de même quon prête plus dattention à un chien mordu par un homme quà un homme mordu par un chien. Laptitude à reconnaître des spécificités est donc communément surestimée. La plupart des études sur le sujet ont corroboré limprécision de lidentification/caractérisation des accents étrangers. [Bauvois, 1996 ; Lippi-Green, 1997 ; Fries & Deprez, 2003], daccents régionaux en français [Armstrong & Boughton, 2007 ; Boughton, 2006] ou en anglais [van Bezooijen & Gooskens, 1999 ; Clopper & Pisoni, 2004 ; Ikeno & Hansen, 2006 ; Edensor, 2009], et daccents dits « de banlieue » [Stewart & Fagyal, 2005]. Citons quelques exemples à lappui de ce constat.
[
] la plupart des gens ne distinguent pas très bien les accents régionaux sauf sils sont très marqués. La seule perception générale est celle des accents du Midi, opposés aux accents du Nord de la France [Léon & Léon, 1997 : 102].
Lidée quil existe un accent belge fait sans aucun doute partie de limaginaire commun des francophones. Pourtant, la possibilité didentifier une prononciation du français propre à la Belgique et den dresser les contours est beaucoup moins évidente aux yeux des linguistes qui se sont penchés sur la question. [Hambye & Simon, 2009 : 96]
Des auditeurs se montrent incapables didentifier géographiquement des accents du Havre, de Rennes et de Nancy [Hauchecorne & Ball, 1997 ; Armstrong & Boughton, 1997]. Doù peut bien venir cette surévaluation de notre aptitude à discerner des accents ? En partie, peut-être, de la confusion entre accents, patois, dialectes
Accent, dialecte et variété de langue
Il convient de sarrêter un instant pour préciser ce que lon entend par certains termes. Nous ne parlerons pas de patois, terme par trop investi de connotations péjoratives (pâteux, lourd, inélégant). Nous ne nous attarderons pas non plus sur la définition dun dialecte par rapport à une langue, vieille question [Sapir, 1931 ; Kloss, 1967] et en grande partie mauvaise question comme celle qui consiste à demander, dans une pièce, quel est le mur de droite et quel est le mur de gauche : tout dépend de langle dobservation. Un dialecte est souvent interprété en négatif par le sens commun comme non-langue, non-moderne, non-écrit, nobéissant à aucune grammaire. En folk linguistics (qui sintéresse particulièrement à ce que les gens disent concernant le langage), il sagirait dun parler oral, régional, trop peu différencié par rapport à une langue de plus vaste champ, et dénué de règles [Preston, 2005]. En termes purement linguistiques, cependant, il est impossible de trancher entre langue et dialecte : la distinction est dun autre ordre, sociolinguistique, politique, culturel, historique. On connaît la boutade attribuée au maréchal Lyautey : une langue est un dialecte qui a une armée et une marine.
Le critère dintercompréhension est parfois avancé pour opposer des langues à des variétés (dialectes ou accents) de moindre prestige. Il est source denjeux identitaires (sentiment de parler une langue distincte ou au contraire nécessité réclamée dune traduction, affichage de sous-titres dans des séquences audiovisuelles, etc.) et trouve vite ses limites, pouvant notamment se montrer asymétrique [Garde, 2004 : 364. Il nest pas rare dentendre des Français se vanter de comprendre litalien, alors quils se plaisent à dire quils ne comprennent pas toujours le québécois ou le « français des jeunes de banlieue ». Ou bien, des Alsaciens expliqueront que leur dialecte leur permet de comprendre lallemand, mais quils ne se comprennent pas dun village à lautre [Bothorel-Witz, 2000].
Un dialecte peut se distinguer dun autre dialecte par la grammaire et le vocabulaire, alors que les accents stricto sensu ne font intervenir que des différences de prononciation. Un accent est ainsi définis dans louvrage de référence Dialectology [Chambers & Trudgill, 2004 : 5] :
Accent refers to the way in which a speaker pronounces, and therefore refers to a variety which is phonetically and/or phonologically different from other varieties. Dialect, on the other hand, refers to varieties which are grammatically (and perhaps lexically) as well as phonologically different from other varieties.
Mais les auteurs ajoutent quelques lignes plus loin :
Dialects and accents frequently merge into one another without any discrete break.
La frontière est poreuse entre dialectes et accents. Quand un locuteur sexprime dans un certain dialecte ou avec un certain accent on notera la différence de prépositions en français on dispose souvent de nombre dindices susceptibles dinfluencer la perception : situationnels dans la vie courante (où un lieu et une époque donnée font que lon sattend à entendre certains accents plus que dautres,), lexicaux voire morphosyntaxiques y compris dans des conditions expérimentales. Or la plupart des commentaires épilinguistiques (i.e. relevant du discours ordinaire sur le langage) sont relatifs au lexique, bien que des phénomènes liés à la prononciation puissent être décelés plus rapidement. Les mots désignant par exemple un sac plastique sont volontiers mis en avant : poche dans le Sud, cornet dans lEst. Le caractère emblématique de ces régionalismes (dautant plus emblématique, même, que ceux-ci sont peu nombreux) se retrouve dans les néologismes attribués aux « jeunes de banlieue ». La prononciation résulte peut-être moins dun choix conscient et intentionnel que, par exemple, lusage qui est fait du lexique. Cest dans ce dernier plus quau sein de traits de prononciation que vont puiser, entre autres, des hommes politiques qui veulent faire « peuple » ou jeunes, par hypocorrection. Pour la jeunesse parisienne également, les occasions sont nombreuses de croiser ou côtoyer des congénères de Seine Saint-Denis autour des Halles notamment, plaque tournante pour les transports en commun. Ce sont les particularités lexicales, qui passent davantage dun groupe à lautre, se démodant très rapidement. Elles touchent sans doute moins à lintimité que la prononciation, liée à la voix donc au corps [Bourdieu, 1982]. Elles peuvent semer la confusion dans ce qui est conçu comme accent dans limaginaire collectif. Des techniques comme le matched guise (« locuteur déguisé », disant un même texte dans une variété de langue ou une autre, avec et sans accent, etc.) tentent dy remédier, non sans poser des problèmes méthodologiques [Rubin, 1992]. Il nest pas toujours aisé de soustraire laccent à dautres variables relevant du vocabulaire, de la grammaire, voire des dispositions corporelles, reçus en bloc par lauditeur et à prendre en compte dans tout test perceptif. Comme le souligne Bourdieu :
[
] les traits linguistiques ne sont jamais clairement autonomisés par rapport à lensemble des propriétés sociales du locuteur (hexis corporelle, physionomie, cosmétique, vêtement, etc.). [Bourdieu, 1982 : 94]
De son côté, Wells intitule son livre majeur sur les variétés danglais Accents of English [Wells, 1982], réservant le terme de dialect aux parlers traditionnels comme le scots. Ces derniers faisant défaut de lautre côté de lAtlantique, le terme dialect prend aux États-Unis une acception plus large, notamment sous la plume de Labov ou Preston, fondateur de la dialectologie perceptive (perceptual dialectology [Preston, 1989]). Sans nier la possibilité de gradience (du reste, lidée de continuum nexclut pas celle de rupture), nous suivrons pour notre part lécole européenne, distinguant entre dialectes et accents formes de français régional, par exemple, ne différant que par la prononciation du français standard ou standardisé (non situé géographiquement) [Carton et al., 1983]. Ces termes de dialecte ou daccent, comme celui moins marqué mais aussi plus vague de variété de langue, sont de toute façon des constructions homogénéisantes qui ne doivent pas occulter des différences en leur sein [Gadet, 2004]. Il ny a pas non plus une frontière étanche entre dialecte et variété de langue [Pooley, 2000]. Et surtout, ces termes ne nous sont que de peu de secours pour comprendre pourquoi, dans le sens commun, il nest pas équivalent de parler daccent toulousain et daccent parisien. Pourquoi ce dernier passe-t-il pour plus neutre (sur une scène de théâtre classique, par exemple), moins localisé ? Pour comprendre cette asymétrie des rapports entre centre et périphérie, une discussion autour de la norme est incontournable.
Accent et norme
Les accents sont dabord définis, nous lavons vu, comme des écarts par rapport à une norme officielle, légitime, autour de laquelle sétablit ce consensus même qui définit son statut et assure son rayonnement [Hagège, 1992]. Cette notion de norme a fait couler beaucoup dencre en linguistique [Valdman, 1982 ; Prignitz, 1994 ; Morin, 2000 ; Laks, 2002 ; Castellotti & Robillard, 2003 ; Audrit, 2009, inter alia]. Même États-Unis, où le concept de norme est sans doute plus vague quen France, il y a des variétés de prestige et dautres stigmatisées [Preston, 1989 ; Rubin, 1992 ; Labov, 1994: 222] : en témoignent les cours et méthodes daccent reduction qui y font florès. De tout temps, lélite intellectuelle qui gravite autour des centres culturels, politiques et économiques ont déterminé un modèle promu comme le « bon usage », ce qui est « correct », la langue « la plus pure » [Calvet, 1996]. Au début du xvie siècle, si la langue était jugée la « plus parfaite » en Tourraine, cest parce que les rois de France aimaient aller chasser vers les fameux châteaux de la Loire. « Cest la façon de parler de la plus saine partie de la cour », centrée autour de Paris, qui définit le bon usage pour Vaugelas en 1646 [cité par Auroux, 1996]. Fonctionnant comme un pôle dattraction ou un catalyseur dunification, « la norme de prononciation est une affaire de classe, et seulement de classe » [Morin, 2000]. Les femmes, par ailleurs, tendent à intégrer plus rapidement que les hommes la norme prestigieuse à transmettre pour assurer une trajectoire sociale ascendante aux enfants [Gauchat, 1905 ; Labov, 1976 ; Bourdieu, 1982 ; Foulkes & Docherty, 2006]. La référence peut être un personnage ou un groupe à la mode. Tel a été le cas, en français, pour le passage du /r/ « roulé ou bourguignon » au /(/ dit « grasseyé » (au début du xviie siècle) ou encore de oi /w(/ à ai /(/ (qui simpose à la fin du xviiie siècle) [Walter, 1988 : 93]. Ces évolutions suivent assez précisément les grands bouleversements sociaux de lhistoire moderne qui, au gré des luttes politiques, voient les protestants et la bourgeoisie (surtout avec la Révolution) disputer à la Cour son statut de groupe de référence en matière de langue [Laks, 2002].
À notre époque contemporaine, la norme pour la prononciation du français (à tout le moins celle dil y a quelques décennies) est attribuée à la bourgeoisie parisienne [Martinet, 1970] plus précisément à la « conversation soignée chez les Parisiens cultivés » [Fouché, 1959 : ii], « à la conversation sérieuse mais détendue de la classe dirigeante de la capitale » [Malécot, 1977 : 1]. Cette définition est reprise dauteur en auteur, même si elle est surtout le résultat de lidée que ces auteurs se font de leur propre usage, quand bien même ils ne seraient pas parisiens (avec tous les risques dévaluation erronée et dhypercorrections que cela comporte) [Morin, 2000]. Elle sest en quelque sorte sédimentée comme lorthographe un siècle auparavant, avec de plus un fossé entre graphie et phonie. Cette assimilation de la norme aux notables de la capitale explique pourquoi, par exemple, à propos de Niçois qui parlent comme des Parisiens, on dit quils nont pas daccent ou quun léger accent. Dans des cas extrêmes, on pastichera un accent snob ou « branché » catalogué « xvie arrondissement ». Mais un Méridional allant vivre à Paris se verra très certainement plus remarqué pour son accent quun Parisien allant vivre à Marseille. En ce sens, il y a des accents plus égaux que dautres, et il nest pas tout à fait vrai de dire que ceux qui ont un accent, ce sont toujours les autres. Nous reviendrons sur le cas de laccent dit « des faubourgs parigots » ou « des cités de banlieue ».
Paris, la capitale vers laquelles convergent toutes les voies de communication, est le lieu où sont installées la plupart des administrations, où se prennent les décisions politiques nationales, où se concentre une grande partie de lactivité économique et où la vie culturelle est la plus intense. Cest à partir de là que la norme légitime va être diffusée. Ainsi, la norme acceptée pour loral serait aujourdhui incarnée et véhiculée par les « professionnels de la parole » [Encrevé, 1988], et plus particulièrement par la télévision plus que par lécole. Cest du moins ce que suggère une enquête où des auditeurs devaient réagir à des extraits de parole assez stéréotypés de sept variétés de français (Midi, banlieue, etc.) [Castellotti & Robillard, 2003] : est-ce quun professeur/un présentateur du journal TV de 20 h peut parler de cette façon ? Les sujets (surtout les plus jeunes) se montrent plus souples, plus « tolérants » vis-à-vis de la variation chez un enseignant que chez un présentateur de journal télévisé. Les journalistes jouissant du capital symbolique (ou forme de reconnaissance) qui appartenait naguère aux maîtres décole représentent ainsi la norme idéale, le canon quil est recommandé de suivre, à lécrit (lequel peut influencer la prononciation) comme à loral. Lannonceur à succès relaie en quelque sorte lÉtat, qui depuis longtemps légifère en matière de langue, depuis le xviie siècle au moins avec la création de lAcadémie française. La norme, donc, est une question éminemment politique, et nous sommes là sur un terrain glissant.
Une difficulté récurrente à parler daccents X ou Y est que tous les locuteurs X nont pas nécessairement laccent X, pour de multiples raisons neuro-, psycho- et sociolinguistiques qui nous échappent souvent. On a plus de chance dentendre un accent régional chez une personne âgée, chez quelquun qui a fait peu détudes, a toujours vécu au même endroit, fréquente des milieux où tout le monde a le même accent. Dans ce cas, il ne « sert » à rien de perdre laccent des siens pour une façon de parler plus normée ; au contraire, « avoir laccent » par mimétisme ou par choix peut être profitable pour interagir avec ses pairs. Mais comme le note Martinet, par exemple, « il est des ouvriers parisiens dont le parler, au moins en matière phonique, ne présente pas de traits dits populaires » [Martinet, 1945 : 21n1]. À linverse, des locuteurs Y peuvent être perçus comme ayant laccent X même s'ils ne sont pas X. Cela peut dépendre du sexe, de la génération, de léducation, du plus ou moins grand intérêt pour les questions de langue. Est-il encore juste de prétendre quil existe un accent X si lon ne trouve pas de locuteurs représentatifs de cet accent, qui le définiraient et le distingueraient dun accent Y ? Lépistémologie popperienne [Popper, 1973] nous a enseigné quil est plus facile de démontrer lexistence que labsence de différences entre X et Y (Y pouvant ici signifier « standard »). Il est plus difficile de démontrer que quelque chose nexiste pas (par exemple des corbeaux blancs) que de montrer que quelque chose existe. Rien nexclut en toute rigueur quun accent aixois, par exemple, soit propre à certains locuteurs et distinct dautres accents du sud de la France. Mais chercher de tels « spécimens » recherche qui du reste ne saurait être exhaustive nous inscrit, on le voit, dans un raisonnement circulaire. À affirmer a priori lexistence dune construction comme « accent aixois » et à sinterroger sur son bien fondé, il y a un risque évident de réification, cest-à-dire quon transforme une abstraction en objet concret. En outre, un accent peut être plus ou moins marqué, plus ou moins masqué.
Pourquoi a-t-on un accent ?
Nous parlerons ici de laccent en général, avant dévoquer plus particulièrement laccent dit « de banlieue » (§ 1.4.5) et laccent étranger (§ 1.4.6). Un accent (reflet dun conflit de classes, dun point de vue marxiste) peut être revendiqué et brandi comme un drapeau pour affirmer son identité, sa loyauté, son intégration à une communauté, pour afficher sa différence, se démarquer dun autre groupe. Cest le campanilisme saussurien, lesprit de clocher qui perdure dans notre monde moderne par ailleurs marqué par lindividualisme [Touraine, 1997]. Un accent « à couper au couteau », sil est bien doté en termes de capital de prestige et de sympathie, peut ainsi être une image de marque, une marque de fabrique. Pour des raisons analogues et par mimétisme, on peut même acquérir un accent : on peut perdre un accent et en gagner un autre [Sancier & Fowler, 1997].
Un accent peut également être dévalorisé, conduisant certains locuteurs de façon plus ou moins consciente et intentionnelle à en sacrifier certains traits. Une image négative pourra inciter certains à modifier leur comportement langagier, à abandonner ou à estomper leur accent. Dans certaines situations, cela se traduit par un sentiment de faute, un refoulement et des hypercorrections. Dans dautres situations, la stigmatisation peut avoir un contre-effet et produire des réactions ambivalentes. Cela se retrouve dans lautojustification intériorisée par certains, qui en viennent à dire eux-mêmes quils parlent mal, mais que cest leur langage, leur accent à eux : réappropriation, légitimation, retournement de situation, représentation mythique et manière de redonner du prestige à un parler dévalorisé. La question de lidentité (terme qui renvoie au « même », idem en latin) et de la communauté est donc fondamentale du je au nous, il sagit de la même chose : être soi et être entre soi [Fize, 1993].
Le développement des échanges, des médias, des transports, favorise une certaine homogénéisation, en même temps que des mutations : un jeu sociolinguistique extrêmement complexe est à luvre. Lenvironnement lié au lieu de résidence, les études, la profession, la mobilité géographique et sociale ne sont pas tout, loin sen faut. Le positionnement social et idéologique peut entrer en ligne de compte [Labov, 1976].
Doù vient le fait que certains traits de prononciation sont stigmatisés, pourfendus voire générateurs de ségrégation et que dautres au contraire sont considérés comme plus prestigieux ? Un même fait de langue (par exemple un /(/ postérieur) peut être interprété différemment, selon la valeur quon lui confère. Celle-ci nest pas intrinsèque, ainsi que la montré toute une tradition de psychologie sociale [Rubin, 1992 ; Lippi-Green, 1997 ; Morange & Candea, 2010]. Souvent, lappréciation esthétique dun trait de prononciation est dictée par le statut social qui lui est associé, et sapplique au premier chef à la personne qui parle. De la même façon, le rayonnement dune langue est essentiellement dû à la puissance du pays qui la promeut à un moment de son histoire : cela dépend moins du système de la langue que de raisons politico-économiques, du peuple, des élites et de ladministration (cf. § 1.4.2). Et la connotation BCBG ou populaire dun prénom néchappe pas à des effets de mode. Comme la vu Bourdieu [1982], cest lassignation sociale qui fait le prototype et non linverse.
Les sons du langage en eux-mêmes ne sont pas signifiants, ni beaux ni laids : ce nest quen se combinant quils donnent du sens. Dans certaines variétés de français, on distingue brin et brun, patte et pâte, oppositions dont la neutralisation est aujourdhui bien accomplie à Paris [Martinet, 1958 ; Malécot & Lindsay, 1976 ; Fónagy, 1989]. Des raisons internes au système de la langue peuvent motiver cette mutation : les paires minimales comme brin~brun sont peu nombreuses, et en contexte ne posent guère de problème de compréhension. Les accents qui ont maintenu cette opposition ne sont en aucun cas des formes dégénérées du français de référence. Cest ce dernier qui, évoluant à son propre rythme, a perdu des éléments de son système et peut ensuite fonctionner comme un pôle dattraction ou un catalyseur dunification. Peut-on expliquer également dautres changements comme lévolution de la prononciation du r à Paris ?
Des chercheurs ont pu avancer lidée que toute variante est motivée par le contexte, le milieu ou la situation de communication. Ils rejoignent en cela certaines spéculations sur lorigine des langues, pour reconsidérer lhypothèse de larbitraire du signe. Le phonéticien I. Fónagy [1983] redéfinit ainsi le problème du symbolisme sonore, des termes métaphoriques tels que grave/aigu, sombre/clair, dur/mouillé, dans le cadre de la psychanalyse. Les voyelles (où lon peut voir des corrélats avec les fréquences des formants) et les consonnes sont concernées, la poésie préférant par exemple les occlusives sourdes (/p/, /t/, /k/) pour exprimer lagressivité plutôt que le sentiment amoureux. De fait, ces occlusives représenteraient la rétention. Par une identification des organes phonatoires et sexuels, une consonne apicale (faisant intervenir dans son articulation la pointe de la langue) serait plus masculine quune bilabiale. Ainsi, le /r/ roulé serait associé au combat, à lidée de majesté et de virilité : cétait celui du roi de France et des paysans qui travaillaient dur en plein air, avant que la grande bourgeoisie commerçante [Malmberg, 1974] et la société feutrée des salons ne laffaiblissent en un /(/ qui porte acoustiquement moins loin. Connoté masculin, cest aussi celui que les hommes (à la différence des femmes) arabes ont tendance à préférer lorsquils parlent français, alors que la langue arabe possède deux r, lun antérieur, lautre postérieur [Caubet, 2002].
Des expériences à base de tests sémantiques [Fónagy, 1983] mettent en lumière des tendances que daucuns voudraient universelles. Cependant, ces observations devraient être validées statistiquement sur un grand ensemble de langues pour éviter les interprétations hasardeuses, dont il est loisible de compiler un sottisier [van den Berghe, 1976] : la motivation du signe souffre de nombreuses exceptions, ne serait-ce que dans les langues indo-européennes [Mompeán Guillanón, 2011].
Si le français méridional parlé en Provence peut être jugé certes moins « correct » mais plus « beau » (pleasant), plus « chantant » que le français parisien [Kuiper, 2005], cest essentiellement parce quil évoque les vacances, le soleil, la lavande, les cigales ! Le Sud-Ouest nest pas en reste quant aux jugements positifs : il est associé au rugby et au surf, au foie gras, au confit de canard et au cassoulet [Pustka, 2010]. Inversement, des stéréotypes peu amènes ont la vie dure, comme celui de la « bouche en cul-de-poule » associée à certains locuteurs ou celui du chewing-gum pour décrire certaines variétés de langue qui « mâchent les mots ». En tout état de cause, sil est possible à partir des attitudes et du discours épilinguistique de hiérarchiser les accents, cela est principalement dû à leur connotation sociale [Paltridge & Giles, 1984 ; Bulot, 2002].
Laccent de banlieue
Sur le territoire français au moins, le degré daccent a tendance à augmenter avec lâge des locuteurs [Léon & Léon, 1997 ; Pustka, 2007, 2009]. Chez certains jeunes de classes défavorisées, en même temps, des traits de prononciation partagés par le nord et le sud de la France [Jamin et al., 2006] peuvent se superposer à un accent régional. Si lécole de la République est presque parvenue à éradiquer les langues régionales et a en partie homogénéisé les accents régionaux, elle se heurte toujours à une difficile réussite des populations socialement défavorisées. Les inégalités demeurent, si bien que le plus important actuellement, dans ce qui détermine les variétés de langue dénigrées, fustigées, serait davantage le milieu social que la région dorigine [Armstrong, 2002 ; Castellotti & Robillard, 2003 ; Boughton, 2006]. À défaut de phénomène nouveau, un terme a émergé et sest imposé, cest celui daccent « de banlieue ». La banlieue (au singulier) ou les banlieues (au pluriel) doivent ici être comprises par euphémisme comme les banlieues populaires, celles des « grands ensembles » périurbains, des HLM, des ZEP, des ZUS, des ZAC, des ZFU ou autres « zones », et non pas les banlieues résidentielles, îlots pavillonnaires qui définissent un tout autre espace socio-économique. Le mot banlieue (du latin médiéval banleuca) signifie étymologiquement le territoire dune lieue (soit environ 4 km) autour de lenceinte fortifiée de la ville, sur lequel au Moyen-Âge sappliquait le ban, cest-à-dire la loi féodale. Le mot francique de ban (« autorité ») a donné banal, bannir, bandit, ainsi que des expressions comme publier les bans, mettre au ban, être en rupture de ban. Le sémantisme du mot banlieue a bien évolué : cest ce dernier sens dexil (par rapport à une métropole), de lieu « à distance de », voire dostracisme, qui, reconstruit daprès une étymologie populaire, lui est principalement associé aujourdhui. Pour désigner un territoire en marge, dans lequel souvent on na pas choisi volontairement dhabiter [Lamizet, 2002], on parle également des quartiers. Ce terme issu dune division de lespace (en quarts) évite le problème de la frontière entre ce qui est la ville (plus prestigieuse) et ce qui ne lest pas. Cependant, lexpression « accent des quartiers » nest pas dusage contrairement à celle d « accent de banlieue ». Nous sommes conscient du danger de réification que comporte cette expression « accent de banlieue » : risque de récupération politique et de stigmatisation accrue. Toutefois, nous prétendons quune recherche scientifique est nécessaire pour écorner certains lieux communs (diction forte, débit délocution rapide, rythme haché ou saccadé).
Comme pour les accents régionaux, nous pouvons être leurrés dans lappréciation dun accent de banlieue. Dans les représentations les plus répandues, laccent de banlieue est associé au verlan (zy-vas), à largot, aux emprunts (notamment à larabe comme zarma, dawa) et aux insultes rituelles. Tous ces éléments biaisent la perception, de même que les jugements négatifs soulignant la violence du discours.
Le parler vernaculaire des jeunes de banlieue est étudié principalement sous un angle sociolinguistique, en tant que miroir de lidentité, ciment de lunité dun groupe refuge vers lequel se tournent les jeunes des cités. Dans ces barres de béton isolées spatialement et économiquement, dans ces « villes sans âme » anonymes et si peu accueillantes, être reconnu devient un impératif dautant plus urgent que lavenir professionnel est angoissant [Barkat, 1996]. Or les jeunes y sont en proportion plus nombreux quailleurs, en raison dun taux de natalité supérieur à la moyenne nationale [Armstrong & Jamin, 2002]. Dans cet environnement où, avec la concentration de familles défavorisées souvent dorigine immigrée, tous les facteurs de division sont réunis, le langage assure la cohésion de la communauté, ainsi que la distanciation davec le reste de la société. Il nest pas rare dentendre des jeunes « Français issus de limmigration » parler, par écho ou par riposte, des « Français » comme dune nationalité extérieure quils renieraient. Ces jeunes adhéreraient donc à dautres valeurs. Quand ce nest pas dans la religion quils trouvent une identité de substitution « prête à porter », la culture de leurs parents nétant pas reconnue officiellement, ils vont afficher leur appartenance à une classe distincte, une différence quils contrôlent davantage que celle dont ils héritent.
Notre monde moderne est marqué par lindifférentisme, latomisation de la société, la fragmentation et la perte des identités traditionnelles, héritées. Il sagit alors de trouver sa place entre lindividu et luniversel, une médiation entre le particulier et le général. Avec le délitement dinstitutions comme lÉtat ou la famille, la communauté répond à ce besoin. En elle on recherche des liens sociaux, du secours, une reconnaissance, de la fierté voire du rêve. Ce qui est disqualifié du terme de « crispation identitaire » ou « repli communautaire » peut également être vu comme laffirmation du sujet, acteur de son identité, qui se définit dans laltérité, conciliant le personnel et le collectif [Touraine, 1997]. La liberté, cest dans une certaine acception de se sentir bien chez soi.
Des procédés cryptonymiques classiques traduisent cette spécificité, même si certains dentre eux sont entrés dans la langue commune. Ils représentent le niveau danalyse privilégié des linguistes, et les journalistes en sont friands [Boyer, 1997 ; Fagyal, 2004, 2010a]. Le verlan, largot, les emprunts et hybridations, réduisant dautant lintercompréhension avec les « bourgeois », les « honnêtes gens », les « dominants », et permettent de sen démarquer. Ils marquent comme le « look » (survêtement large, capuche, casquette et baskets) la frontière avec une société qui les rejette et/ou quils rejettent. Ils délimitent comme les tags un territoire à défendre le territoire dun certain désuvrement, comme celui des cages descalier, et permettent symboliquement de retrouver des repères. Ils participent comme le rap et le hip-hop dune culture de la rue éminemment verbale, qui compense lacculturation engendrée par le déracinement. Cette culture intermédiaire ou interstitielle adapte à la modernité les éléments dun passé mythique et fantasmé des origines. Si lune de ces formes langagières est adoptée en dehors de lunivers cloisonné de la cité, elle perd de sa valeur sur le « marché linguistique » où chacun cherche à maximiser son « capital symbolique » [Bourdieu, 1982] : dépréciée, dépossédée de son caractère authentiquement de banlieue, elle risque dès lors dêtre vite abandonnée, taxée de ringardise et remplacée doù un vocabulaire éphémère qui se démode très vite.
Dans un contexte vécu comme hostile dexclusion sociale, de ségrégation raciale, déchec scolaire, de relégation dans un habitat déclassé et parfois de pauvreté affective, les insultes rituelles répondent également aux besoins renforcés par ladolescence dindividuation, daffirmation et destime de soi. Il y a là, comme dans laspiration à sinscrire pleinement dans la société de consommation, un savant mélange entre une recherche doriginalité personnelle et une volonté dintégration parmi des pairs, articulant une quête de singularité et un souci de solidarité. Les vannes fusent comme des rafales, dans le but de faire rire ou dépater les autres aux dépens de quelquun [Lepoutre, 1997]. Elles régulent les conflits quotidiens entre pairs et fixent en leur sein une hiérarchie. Ces joutes oratoires laissent place à linventivité tout en suivant des règles préétablies, des conventions qui libèrent de toute responsabilité individuelle. Il en va ainsi des variations sur les « X de chez X », « ta mère » et autre « ta race » mais rarement « ton père » où D. Caubet [2001] a pu voir un calque des réflexifs de larabe maghrébin. Elles garantissent à celui qui les profère un gain de prestige, respect et considération dus à un « meneur verbal » [Dannequin, 1997]. Comme lécrit I. Lehka-Lemarchand [2007 : 289], « le parler des jeunes des cités ainsi que la culture de ces cités se développent à linstar du parler et de la culture populaires, sur le refus des manières et des chichis et sur la valorisation de la virilité et de la force. Cela se manifeste, nous lavons vu, par des comportements sociaux violents et, au niveau langagier, par la violence verbale ». Dans lenvironnement anonyme de la cité, avec pour horizon un avenir professionnel sombre, toutes ces pratiques langagières sont le témoin dun besoin de reconnaissance.
La créativité de certaines expressions peut être saluée, même si les jugements négatifs et les stéréotypes soulignant la trivialité, la vulgarité ou la brutalité du discours lemportent généralement. Faute de statistiques admises par la majorité, tout repose sur lidéologie, dans un sens ou dans un autre : quelle dénonce un abâtardissement de la grammaire, quelle voue aux gémonies un avachissement de la langue, quelle en déplore lindigence, quelle sindigne de propos volontiers obscènes et provocateurs, quelle soit choquée par la violence du discours ou quau contraire non sans condescendance elle encense certaines trouvailles insolites, magnifie à loccasion lhumour ou la poésie des images véhiculées, relève pour le folklore quelques joyaux exotiques et célèbre les tournures les plus pittoresques.
Si certaines formes sont nimbées de connotations positives, il semble que la prononciation (ou, en dautres termes, laccent) nen profite pas. Des traits de prononciation communs à laccent naguère dit « des faubourgs » et maintenant à laccent « de banlieue » sont repérables [Armstrong & Jamin, 2002]. Pourtant, la gouaille des titis parisiens a aujourdhui un charme désuet et est auréolée dassociations positives dont ne bénéficie pas laccent de banlieue, malgré des ressemblances et au-delà, sans doute, de différences phonétiques quil reste à élucider.
Lhypothèse suivante nest pas à exclure : laccueil réservé à laccent de banlieue, des cités ou de la « caillera » (racaille en verlan) et ce que recouvrent ces différents termes résulteraient dune grille de lecture plaquée sur une réalité méconnue, que les élites, la presse écrite et audio-visuelle enfermeraient dans une sorte de ghetto linguistique [Fagyal, 2004]. Ce serait ce prisme qui, drainant tout une série de préjugés liés à lâge, au sexe, à la précarité ou à lethnicité, sélectionnerait voire amplifierait certains faits structurels et y collerait létiquette « de banlieue ». Une variété de français évoquée comme « explosive » serait ainsi codifiée, et depuis le milieu des années 1990 les clés nous en sont données : jeunesse inculte, drogue, délinquance, chômage, immigration [Fagyal, 2010a]. Laccent de banlieue a même un visage : le portrait-robot qui en est dressé est celui de ladolescent mâle dorigine nord-africaine, du beur. Dabord à létat débauche, lorigine ethno-géographique était à peine suggérée ; elle tend aujourdhui à devenir le signe distinctif qui prévaut, bien quelle soit bannie des recensements et ne figure que rarement dans les sondages.
Certains traits de prononciation distinguent pour F. Gadet [2002] le français des jeunes de banlieue du français « populaire » (ou « ordinaire », celui des titis parisiens qui aurait pu se mêler à des éléments pieds noirs). Ils pourraient être imputables au contact de larabe maghrébin [Fagyal, 2003b], bien que perceptiveement un accent de banlieue puisse être associé à limmigration maghrébine indépendamment de lorigine réelle de celui qui parle [Stewart & Fagyal, 2005]. Cette évolution serait la conséquence de linfluence du rap pour Calvet [1994], qui à propos des banlieues parisiennes parle lui aussi du « phrasé et de la prononciation très particulière des Beurs ». Lorigine maghrébine est encore évoquée, cette fois dans limaginaire linguistique concernant laccent des Quartiers Nord (QN) de Marseille, alors que la réalité sociale est plus complexe et hétérogène [Binisti & Gasquet-Cyrus, 2003]. Il faut rester prudent quant au rôle de larabe (et du rap) dans ce qui caractérise cet accent de banlieue. Quand on connaît les difficultés à évaluer les pratiques de larabe en France [Caubet, 2002], la grande majorité des familles issues de limmigration utilisant les deux langues, le contact de langues est une interprétation tentante, mais laccent de banlieue ne saurait être analysé comme un accent étranger.
Laccent étranger
Ce qui est communément appelé « accent étranger » résulte de la confrontation de deux systèmes phonologiques en contact, en perception et en production. Est-il gouverné davantage par la production (comme la théorie motrice [Liberman et al., 1967] en ferait lhypothèse) ou par la perception ? On peut répondre quune boucle apparie les deux. Flege argue pour sa part que cest la perception qui lemporte [Flege, 2003] : celle-ci est à la base du Speech Learning Model (SLM) quil a développé car en première approximation la prononciation en une langue étrangère ne peut pas être meilleure que la perception quon en a. De façon plus explicite encore, le Perceptual Assimilation Model (PAM) [Best et al., 2001] est guidé par la perception de la parole non-native.
Déjà Troubetzkoy définissait laccent étranger à laide dune notion de crible établi par la langue maternelle [Troubetzkoy, 1938]. Par exemple, lapprentissage dun son « similaire » mais pas identique dans une langue seconde (L2) et une langue première (L1) peut être bloquée par les mécanismes déquivalence perceptive et de transfert. De même, des traits exploités pour distinguer des paires minimales en L2 mais non en L1 seront plus difficiles à acquérir, ce qui se reflétera en production. Cette notion dinterférence entre les inputs de L1 et L2 est reprise par le PAM et le SLM, même si ce dernier modèle met en avant linfluence des contextes dans lesquels les langues sont apprises et utilisées. Cette influence est dailleurs bi-directionnelle puisquelle peut opérer sur les deux langues. Une catégorie intermédiaire comme [t] peut ainsi être créée par des français apprenant langlais, avec un VOT (Voice Onset Time) intermédiaire entre ceux des deux langues, si bien quun immigrant aux États Unis pourra être perçu comme ayant un accent dans sa propre langue maternelle.
Si lon estime lenfant de moins dun an capable de traiter des contrastes étrangers à sa langue maternelle, celle-ci fonctionne vite comme un filtre tendant à regrouper dans une seule et même catégorie tout ce qui est « étranger » [Jusczyk et al., 1993 ; Mehler et al., 1998 ; Walley & Flege, 1998]. La fameuse confusion entre /l/ et /r/ chez les Japonais [Yamada et al., 1997] ou le processus dépenthèse vocalique à lintérieur de clusters consonantiques ont par exemple été abondamment documentés. Plus généralement, les études dans le domaine de laccent étranger doivent prendre en compte la relation entre la phonologie de L1 et les catégories contrastives de L2 aux niveaux à la fois segmental (les propriétés liées à la structure des sons) et suprasegmental (i.e. prosodique, surimposé aux segments que sont les phonèmes) : contraintes phonotactiques, distribution et fonction des unités, structure syllabique, gestes moteurs, rythme global, accentuation, mouvements intonatifs, etc. Les changements linguistiques induits par le contact de langues, soulèvent donc dimportants problèmes théoriques [McAllister et al., 2002]. Le simple fait que le /y/ français soit généralement assimilé à /i/ par les Portugais mais à /u/ par les Anglais, et que le /(/ anglais tende à être assimilé à /t/ par les Russes et à /s/ par les Japonais montre bien quil nexiste pas de distance phonétique universelle [Flege, 2003]. Lassignation à telle ou telle catégorie de la L1 à la fois /i/, /y/, /t/ et /s/ appartiennent aux langues citées dépend des poids relatifs accordés à tel ou tel trait phonologique.
Outre la typologie des langues L1/L2, outre les relations que celles-ci entretiennent, nombre de facteurs psycho-sociolinguistiques peuvent exercer une influence en matière daccent étranger : il arrive même quune sorte didentification ethnique fossilise certaines barrières et incite des locuteurs de L2 à ne pas sacrifier/adopter certains traits. Ce qui est perçu comme un accent étranger peut dépendre du degré de motivation à apprendre, du plus ou moins grand intérêt pour la prononciation de L2, etc. Plus facile à prouver, cela dépend de la fréquence et des circonstances dutilisation de L1/L2, du temps de résidence dans un environnement parlant en prédominance L2 et de létat du développement neuro-cognitif au moment de la première exposition à L2 [Flege et al., 1995, 1997a ; Flege, 2002 ; Piske et al., 2000 ; Guion et al., 2000] : plus L2 est adoptée tôt, plus la prononciation sera correcte, selon lhypothèse de la période critique. Au plus tard vers la puberté, les représentations cérébrales et larticulation des sons se figeraient ; une sorte de fenêtre se refermerait inévitablement. Mais lâge dacquisition de L2 est le plus souvent corrélé avec la quantité dutilisation de L1/L2, avec les années dexpérience en L2, et se confond avec bien dautres facteurs [Flege, 1999, 2002]. Les interactions entre enfants à lécole, notamment, ne sont pas les mêmes que celles entre adultes tendant à rester dans leur communauté linguistique. Les années dexpériences en L2 ont également plus dincidence au début de lapprentissage. Ensuite, cela ne suffit pas : dune part, les cas de bilingues tardifs dont la performance est « égale » dans les deux langues sont autant dexceptions. Dautre part, des adultes originaires de pays étrangers et ayant été adoptés entre trois et huit ans peuvent oublier leur langue première, si bien quils ne montrent à limagerie par résonance magnétique fonctionnelle (IRMf) aucune activation corticale spécifique à cette L1 (par rapport à dautres langues étrangères inconnues et relativement à un groupe contrôle des natifs du pays daccueil) [Pallier et al., 2003 ; Ventureyra et al., 2004].
Par ailleurs, la possibilité quun natif focalise davantage son attention à un niveau abstrait a été mise en lumière par C. Pallier, en accord avec les modèles mentaux où le lexique est mémorisé sous forme de représentations symboliques (phonologiques, prélexicales), plutôt que directement sous forme dexemplaires de surface (de traces acoustiques détaillées) [Pallier et al., 1997, 2001]. Même si le débat reste ouvert, des arguments convaincants plaident en faveur de la première théorie, « linguistique » : même des bilingues « parfaits » depuis lenfance, par exemple, peuvent souffrir dans leur langue faible de déficits perceptifs liés au système phonologique de leur langue dominante. Obtenus sur des bilingues espagnol-catalan, ces résultats seraient peut-être différents si les sujets de L1 espagnole étaient moins habitués à entendre du catalan (L2) prononcé « à lespagnole » ou si le catalan (L2) devenait leur langue majoritaire. Quoi quil en soit, ils semblent aller dans le sens de lhypothèse du filtrage phonologique et à lencontre de lhypothèse de la période critique. Comme le langage en général, ladaptation de la prononciation est un savant mélange de contraintes et de flexibilité.
Quest-ce qui caractérise un accent ?
Daprès ce qui précède, pourquoi en un même lieu certains ont un accent et dautres non est une question complexe dautant que parfois il ne subsiste que des traces daccent, ce quon appelle un « petit accent ». De même, quest-ce qui fait que lon garde un accent dans une langue seconde, après des années dexpérience ? La question, comme celle du bilinguisme [Grosjean, 1999], est au cur des sciences cognitives, à la croisée entre neurobiologie, psycholinguistique et sociolinguistique. Mais la question suivante nest pas plus simple ni moins cruciale : quest-ce qui caractérise un accent, physiologiquement, acoustiquement et perceptivement ? Une impression daccent peut reposer sur la suite de phonèmes et linstanciation des faits de coarticulation, sur des traits de nasalité, sur la qualité de voix, sur les phénomènes de pauses sonores et dhésitations, sur les clichés mélodiques, sur les registres de hauteur, sur les profils de durées, sur des erreurs de placement de laccent lexical (nucléaire) ou dautres schibboleths, qui peuvent être interprétées comme typiques dun accent donné. Ce mot schibboleth est utilisé en (socio)linguistique pour désigner une prononciation ou un mot précis auquel on reconnaît lorigine dun locuteur. Signifiant « épi » en hébreu biblique, il permettait aux gens de Galaad de démasquer leurs ennemis dEphraïm. La Bible nous raconte dans le Livre des Juges (chapitre 12, versets 56) :
Galaad sempara du gué du Jourdain, vers Ephraïm. Or, lorsquun des rescapés dEphraïm disait : « Laisse-moi passer », les hommes du Galaad lui disaient : « Es-tu Ephraïmite ? » Sil répondait « Non », alors ils lui disaient : « Eh bien ! dis Shibboleth ». Il disait : « Sibboleth », car il narrivait pas à prononcer comme il faut. Alors on le saisissait et on légorgeait près des gués du Jourdain. Il tomba en ce temps-là quarante-deux mille hommes dEphraïm. [Traduction cuménique de la Bible]
Il est intéressant de souligner que ce passage fait référence à la prononciation dune consonne (/(/) plus quà la prosodie. Un accent est-il davantage caractérisé par larticulation de certains phonèmes ou par des éléments prosodiques ? Est-ce un hasard si, en français, on a choisi le vocable accent pour désigner à la fois une façon de parler sécartant de la norme et une proéminence prosodique (la mise en relief dune syllabe parmi dautres) ? Le mot accent vient du latin accentus (< ad cantum), signifiant « pour le chant » comme le grec prosôdia dont il est le calque. Des études récentes suggèrent que ce ne serait pas une coïncidence si on utilise le même terme, parlant daccent régional, étranger ou social [Coquillon et al., 2000 ; Jilka, 2000 ; Lehka-Lemarchand, 2007]. Elles se font lécho de Jean Itard, maître de lenfant sauvage Victor de lAveyron, qui écrivait en 18011806 : « un jeune enfant, un adolescent même, quittant son pays natal, en perd très promptement les manières, le ton, le langage, mais jamais ces intonations de voix qui constituent ce quon appelle laccent ». On pardonnera à ce médecin dopposer ton à intonation ; le propos est pour le moins impressionniste et imprécis, mais il sentend toujours deux siècles plus tard. Quand on est en peine de caractériser un accent, on le ramène à une affaire globale dintonation. Cet accent serait donc caractérisé par des éléments prosodiques « which may well be the features which prove to be [
] among the most perceptually salient for ordinary speakers » [Pooley, 2000]. Que la prosodie soit le trait le plus saillant perceptivement, rien nest moins sûr. Et nobserve-t-on pas plus de plasticité, plus de souplesse, dans la mélodie que dans larticulation des phonèmes chez lenfant qui apprend à parler ? Les patrons prosodiques caractéristiques de la langue maternelle sont extraites très tôt par lenfant en phase dacquisition du langage [Konopczynski, 1991 ; Nazzi et al., 1998 ; Mehler et al., 1998] ; et la richesse des vocalises, alors que la prononciation est encore très incertaine, incite à penser que lintonation a une plus grande capacité dadaptation. Cest également ce que suggère Ladd [1996], relatant sa propre expérience daméricain vivant en Grande Bretagne. Il se peut aussi que, combinées, lintonation et la prononciation de certains phonèmes aboutissent à la perception dun accent, alors que chaque indice pris séparément ne donne pas le même résultat. Cela, de surcroît, peut dépendre des accents, de même que la façon dont interagissent la chaîne de phonèmes et la prosodie. Il devient possible aujourdhui, grâce à diverses techniques de traitement du signal, de séparer ces deux dimensions et de démêler leur importance relative [van Bezooijen & Gooskens, 1999], mais ce nest jamais sans poser de problèmes.
Au premier niveau, segmental, on distingue généralement quatre types principaux de différences entre accents [Troubetzkoy, 1938 ; Wells, 1982 ; Vaseghi et al., 2009] :
systémiques des paires minimales dopposition comme jaurai~jaurais (futur avec /e/, conditionnel avec /(/) peuvent nexister que dans certaines régions ;
phonotactiques la diphtongaison de voyelles peut être conditionnée par la position dans le mot, de même le /R/ peut chuter en coda de syllabe mais pas (ou moins) ailleurs ;
lexicales à partir du même inventaire de phonèmes, un mot se prononce différemment selon que le style est formel ou non, selon lâge du locuteur, sa région, etc. ;
allophoniques au niveau de la réalisation phonético-acoustique des phonèmes. Citons le cas du /R/, qui est un des phonèmes les plus fréquents du français si ce nest le plus fréquent [Juilland, 19665, et qui peut prendre des formes multiples [Autesserre & Chafcouloff, 1999]. Un /R/ sourd peut ainsi sentendre dans des régions aussi éloignées que le Nord-Est (y compris lAlsace et la Belgique) et le Sud-Ouest (notamment au Pays basque) [Walter, 1982].
Cest souvent dans des détails phonétiques fins que des différences entre accents sont saillantes Plus quà des catégories tranchées on a affaire à des réalisations phonétiques variables. Cela nous ramène au problème complexe de ce que retient notre perception (cf. § 1.2), problème accru en matière de prosodie.
Des différences prosodiques existent également, entre accents. Malheureusement, les publications qui y sont consacrées manquent le plus souvent de précision (cf. § 3.4.4). Nous nous contenterons ici de citer quelques projets de recherche dédiés à la prosodie, comme le très prometteur Atlas Multimédia Prosodique de lEspace Roman (AMPER) [Romano & Contini, 2000] et le réseau TIE (Tone and Intonation in Europe) [Gussenhoven, 2004], qui ont mis en évidence des patrons prosodiques spécifiques à certaines variétés de langues. Nous y reviendrons dans la troisième partie de ce mémoire.
Dans certains cas, linformation portée par le contenu segmental et la prosodie permettent didentifier un style. Cest ce que nous allons aborder à présent, sous langle de la phonostylistique.
Quest-ce quun style ?
La phonostylistique, à côté de la phonétique et de la phonologie, est une discipline créée par Troubetzkoy [1938] et développée plus tard par Fónagy [1983]. Elle traite essentiellement de la variation phonique, plus spécialement dans la mesure où celle-ci produit une réaction ou un effet sur lauditeur [Léon, 1993]. La phonostylistique sintéresse à la fois à lémetteur et au récepteur (le destinataire, le décodeur). La question du style vocal ou verbal quelle se propose daborder est centrale pour la linguistique. Quest-ce quun style ? « le mouvement de lâme » selon Cicéron, « le visage de lâme » selon Sénèque, quand pour Aristote la parole elle-même signifie « des états de lâme ». Plus récemment, lidée du lien avec la construction de la personnalité a été développée [Eckert, 2003, 2005], limportant étant alors la communauté avec laquelle on interagit. Cest le style singulier que chacun peut se donner, se façonner. Pour notre part, nous nous intéresserons davantage au style vu comme un ensemble dajustements à une situation, dépendant entre autres de la familiarité que lon a avec son interlocuteur et le sujet abordé, qui font que lon ne parle pas de la même façon pans toutes les circonstances de la vie [Bolinger, 1989 ; Lindblom, 1990 ; Eskénazi, 1993].
Parole spontanée et lecture oralisée
La phonostylistique distingue dabord entre parole spontanée et lecture oralisée [Hagège, 1986]. Cette première est faite de reprises, de lapsus, de bribes de parole, damorces de mots inachevés, dautocorrections, dinterruptions intempestives de phrases, de ruptures de construction et autres scories le plus souvent épurées dans la langue écrite et délaissées par la linguistique. Cela donne des exemples du type : « Moi, ma sur, les mecs, je te le dis, hein, bon
tu sais euh, au pas, hein, au pas elle les mène ». Le terme de « disfluence » a été proposé pour recouvrir ces phénomènes dhésitations, répétitions, faux départs, etc. [Shriberg, 2001]. Ce terme évoque malheureusement quelque chose de négatif, même si cest la graphie dysfluence qui est réservée aux pathologies du langage. Les « marqueurs discursifs », quant à eux, sont dans une autre terminologie des « particules énonciatives » [Fernandez-Vest, 1994] fréquentes dans lexpression naturelle (à défaut de lêtre dans les rubriques des grammaires), brèves et encore réduites par la prononciation familière, qui apparaissent en position initiale ou parenthétique. Ils peuvent être de deux types :
« textuels », recouvrant ce que la littérature pragmatique appelle « connecteurs » (ex. mais, alors, donc) ainsi que les « ponctuants » comme bon, ben, voilà, et des marqueurs de changement thématique (ex. sinon) ;
« interpersonnels », ce que lanalyse conversationnelle nomme les « phatiques » (ex. tu vois/sais, écoute, hein), qui vérifient que la communication fonctionne bien et fixent lattention de linterlocuteur, ou encore des expressions de réserve ou datténuation (ex. un petit peu, une espèce de, quelque part, je crois que), qui adoucissent le message, le rendent moins abrupt, le relativisent, temporisent et laissent la place à des opinions autres.
En sont cependant exclus les « régulateurs » du type hmm, bruits de bouches plus ou moins lexicalisés, plus ou moins consonantiques, plus ou moins expirés, qui assurent également un rôle de feedback interactionnel [Chanet, 2004]. En réalité, il existe des gradations et il nest pas toujours évident de faire le départ entre ces catégories (qui elles-mêmes résistent à lanalyse en parties du discours), ni entre ce qui est fluent et ce qui ne lest pas. Un autre inconvénient du terme « disfluence » est quil est défini implicitement par rapport à lécrit, où les disfluences de loral ne sont dordinaire pas transcrites [Dister, 2007]. On peut en dire autant du terme « pause remplie » [Duez, 2001] (mis sur le même plan que les pauses silencieuses), et de la distinction établie entre reperandum et repair (« réparation ») [Levelt, 1989 ; Shriberg, 2001]. Alors quun laps de temps sépare la lecture de lécriture, la simultanéité de la production et de la perception dans la communication parlée rend patents les bredouillages, bafouillages et cafouillages, achoppements et piétinements dans le flux de parole. La chaîne écrite traditionnelle comme la chaîne parlée est linéaire, mais elle permet dans sa phase de conception (traçable dans le brouillon) des ratures et des effacements normalement impossibles à loral. Lécrit a vocation à être persistant, contrairement aux mots parlés qui jaillissent de façon éphémère et senvolent à moins bien sûr dêtre enregistrés. Il nest pas astreint aux mêmes contraintes physiologiques que la phonation, qui utilise les mêmes organes que la respiration : beaucoup de fautes de frappe, au clavier, nont aucune base phonétique ou phonologique. On peut distinguer lécriture (processus dynamique), lécrit (validé par le scripteur) et la lecture (étape de décodage), alors que dans la conversation informelle de tous les jours, typiquement face à face avec des tours de parole dont lordre nest pas préétabli, lidéation (la formation des idées, la recherche des mots, le travail de formulation), le fait de parler et découter sont synchrones. Doù également des chevauchements de parole, délicats à linéariser, et des hésitations traditionnellement transcrites euh en français, qui peuvent être actualisés différemment selon les langues [Vasilescu et al., 2008]. La transcription de loral implique des choix théoriques (voire idéologiques) qui sont devenus un objet de recherche linguistique en soi [Blanche-Benveniste, 1990 ; Morel & Danon-Boileau, 1998 ; Delais-Roussarie. & Durand, 2003]. Elle est toujours un début danalyse, ne serait-ce quà travers lespace entre les mots [Catach, 1992], puisquelle discrétise des phénomènes qui peuvent présenter des ambiguïtés (ex. on (n)a pas). Elle est le résultat dun long travail de standardisation qui peut faire paraître lécrit pour plus stable, plus homogène que loral. Elle suppose des conventions et des jugements subjectifs, des prises de position qui dépendent des domaines linguistiques étudiés. La ponctuation, en particulier, rend plus lisibles les transcriptions et facilite le traitement automatique, mais elle nest quun reflet, un équivalent approximatif de la prosodie [Hagège, 1986 ; Catach, 1994]. Au reste, cest peut-être parce quelle était peu et mal transcrite graphiquement que la prosodie a longtemps été ignorée ou reléguée comme « non directement linguistique » lenseignement scolaire portant essentiellement sur le discours écrit [Martinet, 1970 ; Bertucci, 2008]. Pourtant, entre une scène de théâtre ou un sermon et un échange spontané, de même quentre un échange spontané et la lecture à haute voix de sa transcription orthographique [Lucci, 1983 ; Howell & Kadi-Hanfi, 1991 ; Silverman et al., 1992], il est le plus souvent aisé de distinguer.
Styles contextuels, genres et types de discours
Entre casual speech (« discours familier », en contexte ordinaire, quotidien, de communication familiale) et reading (lecture de textes et de listes de mots isolés), Labov [1976 : 138146] introduit un niveau intermédiaire, celui du discours surveillé (careful speech, correspondant à un registre soutenu, en situation dinterview). En sus de ces trois « styles contextuels », on pourrait établir une typologie avec quelques degrés supplémentaires de spontanéité, plus ou moins libres ou contraints, plus ou moins soignés ou relâchés. La problématique des « genres » de loral, pour remonter à lAntiquité, appartient également au langage courant, qui dispose de nombreux termes pour caractériser « une conversation, une discussion ou un débat, du bavardage ou du marchandage, une interview, un entretien ou une consultation, un cours ou un discours, une conférence ou une plaidoirie, un récit ou un rapport, une confidence ou une dispute, etc. » [Kerbrat-Orecchioni, 2003]. Puisque parler, cest classifier, une liste aussi hétérogène peut être donnée pour les genres de lécrit, avec lesquels la frontière est poreuse. Les digital genres qui émergent, avec les forums de discussion, les courriers électroniques et les textos se rapprochant du dialogue oral [David & Goncalves, 2010], nous incitent dailleurs à regarder dun il nouveau cette dichotomie oral/écrit [Biber, 1995 ; Habert et al., 1998 ; Zweigenbaum & Habert, 2006].
La théorie littéraire [Bakhtine, 1984] distingue :
(G1) les catégories de textes (ou « genres », dans la tradition des « genres littéraires »), définis dabord par des critères externes, lesquels peuvent également avoir un effet sur les attentes de ceux qui les reçoivent ;
(G2) les « types » de discours (narratif, descriptif, argumentatif, explicatif, procédural, didactique, etc.), définis dabord par des critères internes (des traits linguistiques, comme lusage des temps et la personne des verbes).
« Ainsi un guide touristique serait-il un genre constitué de différents types [
] » [Kerbrat-Orecchioni, 2003]. Et de façon similaire à loral, « au sein de ces G1 que sont les interactions dans les commerces, on trouvera du transactionnel [
] et autres G2. » Les critères externes, situationnels, sont alors, parmi dautres, la nature du site, du format, du canal de linteraction. Et cest deux que part lapproche top-down, prenant en considération les représentations a priori, le canevas, le modèle, le schéma de linteraction qui vont au moins en partie contraindre léchange et déterminer les comportements des participants. Ceux-ci vont broder plus ou moins librement, ou alors diverger par rapport à un script préexistant. Dans le cas particulier où le site est un commerce on peut dailleurs admettre une sorte de continuum entre commerce et service , on peut envisager de multiples subdivisions (ex. clos ou de plein air). De plus, lhybridation des styles, le fréquent mélange des genres, se voient concrétisés dans des mots-valises tels que langlais infotainment (ou, pour lécrit, autofiction, romanquête), où lon se situe dans lentre-deux. Déjà avec cette grille danalyse, à ce niveau de finesse, toute classification est vite battue en brèche.
Mais un éventail de styles bien plus large existe : celui du prêtre, celui du politicien, celui du journaliste sportif, celui du gendarme (stéréotype naguère conventionnellement caricaturé avec un accent méridional), celui de lacteur de théâtre, celui du DJ, etc. Des travaux dans ce domaine, en traitement automatique, ont été menés [Llisterri, 1992 ; Eskénazi, 1993 ; Obin et al., 2008 ; Simon et al., 2009] : observations à lappui, ils montrent en particulier des débits de parole (taux darticulation et de phonation) très différents entre un journal parlé et un discours officiel. Un style est selon le modèle de l « audience design » [Bell, 1984, 2001] ladaptation (design) de la production linguistique en fonction des attributs sociaux de lauditoire (audience). Depuis quont disparu les corporations, qui avaient senti le besoin de se distinguer à laide dinsignes et de vêtements représentant leur appartenance à une profession, une part de cette fonction identificatrice est assurée par le style oral bien plus riche à certains égards que le style écrit [Fónagy & Fónagy, 1976]. Linformation que porte un segment sonore est incomparablement plus grande que celle que véhicule le texte imprimé correspondant et on pourrait en dire autant de linterprétation dune uvre musicale par rapport à sa partition. On pense à ce que Fónagy [1983, 2003] a appelé cliché mélodique : celui de louvreuse, du crieur de rue, du conteur (« il était une fois
»), « oh ! hé ! hein ! bon ! », etc. Ces différents phonostyles nimpliquent plus une seule dimension [(spontané] mais plusieurs. Et les procédés typographiques dont nous disposons sont bien limités pour refléter cette richesse.
Plan du document
Le présent document comprend trois parties, sous-divisées en chapitres relatant des travaux réalisés. La première partie est consacrée à lidentification et à la caractérisation daccents (régionaux et étrangers) en français. La seconde partie se concentre sur le rôle de la prosodie dans divers accents mais également dans le style journalistique, abordé sous langle de lévolution diachronique à travers des archives remontant aux années 1940. La troisième partie traite de la variation diaphasique et diamésique (style lu/spontané, style écrit/parlé). Enfin, en guise de conclusion et perspectives, nous proposerons un projet de recherche pour les années qui viennent, pour mieux prendre en compte la dimension sociale, étudier dautres accents et diverses formes dexpressivité dans la parole.
Les chapitres suivants ont été rédigés autant que possible de manière quils puissent être lus isolément. Le chapitre 2 porte sur les accents régionaux en français du Nord et du Sud : il est une version étendue dun chapitre douvrage [Boula de Mareüil et al.,à paraître]. Le chapitre 3 étend cette étude à dautres accents régionaux, à la périphérie de la France, incluant notamment la Belgique : il est essentiellement issu de la thèse de C. Woehrling [2009], que nous avons co-encadrée avec M. Adda-Decker au Laboratoire dInformatique pour la Mécanique et les Sciences de lIngénieur (LIMSI). La perception ainsi que lanalyse de grands corpus y sont abordées [Woehrling & Boula de Mareüil, 2006, 2007], et une dimension de modélisation à travers la classification automatique est ajoutée. Le chapitre 4 sintéresse aux accents ouest-africains en français qui, entre accents régionaux et étrangers, posent des questions spécifiques : il reprend un volet perceptif. développé dans un article à paraître [Boula de Mareüil & Boutin, 2012] et poursuit des pistes danalyses acoustiques qui y sont ouvertes. Le chapitre 5 est consacré à lidentification perceptive, à la caractérisation acoustique et à la classification automatique de six accents étrangers en français (allemand, anglais, arabe, espagnol, italien et portugais) : il est issu de la thèse de B. Vieru-Dimulescu [2008], également co-encadrée avec M. Adda-Decker, et résumée dans Vieru et al. [2010]. Le chapitre 6 ouvre la deuxième partie, dédiée plus particulièrement à la contribution de la prosodie, en faisant un détour par les accents italien en espagnol et espagnol en italien : la méthodologie à base de recopie de prosodie, qui y est exposée et qui est présentée dans Boula de Mareüil et Vieru-Dimulescu [2006], sera par la suite appliquée au français. Dans le chapitre 7, diverses techniques sont ainsi utilisées pour démêler la part de la prosodie dans ce qui peut caractériser en français des accents maghrébin, polonais et cet accent social dit « de banlieue ». Après des mesures faites sur des archives journalistiques en français, la recopie de prosodie est exploitée pour étudier si une évolution de la prosodie est perceptible dans ce style journalistique : ce travail, présenté dans Boula de Mareüil et al. [2011] est lobjet du chapitre 8. Dautres styles sont ensuite explorés dans la troisième partie : le style spontané comparé au style lu, dans le chapitre 9, avec un examen du schwa (ou e muet), de la liaison et des voyelles moyennes (en particulier de lharmonie vocalique) en français ; le style parlé comparé au style écrit, dans le chapitre 10, avec un examen des marqueurs discursifs, des disfluences et des chevauchements de parole en français.
Dans la plupart des études rapportées ici, lalignement automatique en phonèmes a été utilisé. Le principe en est illustré dans le chapitre 2, mais on peut dores et déjà en dire quelques mots. Il suppose que la parole que lon cherche à analyser soit transcrite orthographiquement. La suite de mots est utilisée pour générer des transcriptions phonétiques possibles à laide dun dictionnaire de prononciation. Des modèles acoustiques sont utilisés pour comparer ces transcriptions phonétiques avec le signal de parole. La suite de phonèmes (ou plutôt de phones) la plus probable parmi les candidats est alors sélectionnée et alignée avec le signal acoustique. Le traitement de grands corpus a ainsi été permis, comme nous allons le voir.
PREMIÈRE PARTIE :
IDENTIFICATION ET CARACTÉRISATION DACCENTS EN FRANÇAIS
Cette première partie est dédiée à lidentification et à la caractérisation daccents en français, à partir de corpus totalisant plus de 100 heures de parole. Le chapitre 2 vise à poser les bases de notre méthodologie, qui combine expériences perceptives et analyses acoustiques. Ces dernières ont été rendues possibles par lalignement automatique en phonèmes, dont le principe est exposé. Lalignement, en particulier, a été utilisé pour segmenter les voyelles orales (dont les formants ont également été extraits) et les voyelles nasales (qui, par rapport au français du Nord, peuvent être dénasalisées dans le Sud). Se concentrant sur le français du Nord et du Sud, létude relatée a permis de quantifier des phénomènes connus (comme la dénasalisation des voyelles nasales en français du Sud) et moins connus (comme lantériorisation du /(/ vers [] en français du Nord). Ces voyelles peuvent faire lobjet de changements phonétiques mis en évidence par des différences de comportement entre lecture et parole spontanée.
Le chapitre 3 étend cette étude, dune part à dautres variétés de français parlées à la périphérie de la France, dautre part davantage dans une perspective de traitement automatique. Tout en appliquant une approche motivée linguistiquement, le but est de différencier des accents du sud de la France, dAlsace, de Suisse et de Belgique, ainsi que le français « standard ». Des expériences perceptives ont été menées, incluant des locuteurs de ces différentes variétés de français. Les résultats suggèrent que les accents correspondant à ces cinq grandes régions pouvaient être distingués, mais quune division plus fine conduit fréquemment à des confusions. Afin de caractériser acoustiquement ces accents, de grands corpus de plusieurs centaines de locuteurs ont été analysés. Nous utilisons lalignement automatique en phonèmes pour mesurer des formants de voyelles, le (dé)voisement de consonnes, des variantes de prononciation ainsi que des indices prosodiques comme laccent initial et lallongement pénultième. Puis ces traits sont utilisés pour identifier les variétés de français en appliquant des techniques de classification automatique (séparateurs à vaste marge et arbres de décision). Des scores de plus de 80 % didentification correcte sont obtenus. Les confusions entre variétés de français et les traits les plus discriminants utilisés (par les arbres de décision) sont linguistiquement fondés. Ces traits sont lantériorisation du /(/ (pour le français standard), la dénasalisation des voyelles nasales (pour le français méridional), le dévoisement des consonnes sonores (pour lAlsace) et les corrélats mélodiques de laccent initial (pour la Suisse).
Le chapitre 4 étudie dans quelle mesure peuvent être distingués des accents ouest-africains en français, sur la base denregistrements effectués au Burkina Faso, en Côte dIvoire, au Mali et au Sénégal. De nouveau, une expérience perceptive est conduite, suggérant que ces accents sont bien identifiés par des auditeurs ouest-africains (notamment les accents du Sénégal et de Côte dIvoire). Des indices prosodiques et segmentaux sont ensuite analysés. Les résultats montrent que laccent sénégalais (avec une tendance à laccentuation initiale suivie de mouvements mélodiques descendants) et laccent ivoirien (avec une tendance marquée à lélision ou vocalisation du /R/) sont les plus distincts du français standard et parmi les accents ouest-africains étudiés.
Le chapitre 5 se concentre sur les accents allemand, anglais, arabe, espagnol, italien et portugais en français, également comparés au français parlé comme langue maternelle par des locuteurs dÎle-de-France. Partant dexpériences perceptives didentification et de caractérisation de ces accents étrangers, nous cherchons quels indices acoustiques permettent de distinguer ces accents, avant dessayer de relier les traits mesurés à la perception humaine. Sont mesurés des paramètres comme la durée et le voisement des consonnes, les deux premiers formants des voyelles, des indices prosodiques notamment liés au schwa final, ainsi que les pourcentages de confusions obtenus en utilisant lalignement automatique avec des variantes de prononciation non-standard. Des techniques dapprentissage automatique sont utilisées pour sélectionner les traits les plus discriminants et casser les locuteurs selon leurs accents. Certains des traits dégagés sont le dévoisement des occlusives sonores, le mouvement du /e/ vers [i], les confusions /b/~/v/ et /s/~/z/, le « r roulé » et lantériorisation ou fermeture du schwa. Pour une large part, les résultats obtenus en identification automatique des différentes origines linguistiques étudiées rejoignent ainsi les données de perception.
2
2. Accents régionaux : français du Nord et du Sud
Introduction
Ce chapitre visant à lidentification et à la caractérisation daccents régionaux en français est une ébauche de panorama présentant différents instruments de mesure (analyse de données, alignement en phonèmes et extraction de formants). Il se focalise sur la variation diatopique entre le nord de la Loire et le sud de la France, en commençant par des expériences didentification perceptive (section 2.3), en poursuivant par des mesures de formants (section 2.4) et en finissant par des analyses par alignement automatique (section 2.5). Depuis le début du xxe siècle, à la suite de lAtlas Linguistique de la France [Gilliéron & Edmont, 19021910], la variation lexicale et phonétique a suscité un grand intérêt [Goebl, 2002 ; Gaillard-Corvaglia et al., 2007]. Toutefois, les dialectologues sintéressant davantage aux dialectes traditionnels quaux parlers régionaux, nous sommes encore mal renseignés sur les différences phonétiques entre les diverses formes du français. Or on dispose aujourdhui de nombreux enregistrements collectés auprès de locuteurs originaires de différentes régions de la Francophonie, notamment dans le cadre du projet « Phonologie du Français Contemporain » (PFC) [Durand et al., 2002, 2003, 2005]. Dans ces données audio, différents accents sont représentés, autant de déviations par rapport à une norme, repérables à certains traits phonétiques suffisamment saillants pour quils puissent être reconnus et caractérisés. Des auditeurs natifs sont-ils capables didentifier ces accents ? Avec quel degré de granularité, par exemple, des accents méridionaux du Sud-Est et du Sud-Ouest peuvent-ils être distingués ? Dans quelle mesure le nombre daccents discernés dépend-il de lorigine géographique des auditeurs ?
Pour le linguiste P. Garde [2004], ce souci généralisé de tracer des frontières, de définir les limites entre le même et lautre, est à relier à lessor de lidée dÉtat-nation au sens moderne et dans lacception exclusive du terme. La frontière (du latin frons) est une ligne de démarcation, de délimitation, de séparation qui cristallise dans lespace un fait social quelle ordonne, établissant des catégories celles du proche et du lointain, du dedans et du dehors [Foucher, 1991]. En sciences du langage, la méthode des isoglosses a connu un certain succès : les isoglosses sont des lignes qui séparent des zones différant les unes des autres dune certaine manière, par exemple par une prononciation différente dun mot donné. On peut tracer des isoglosses selon plusieurs critères et obtenir des cartes en combinant les isoglosses obtenues. Toutefois, si on regarde des isoglosses tracées selon des critères différents, elles peuvent ne pas coïncider, et il est alors difficile de déterminer lesquelles utiliser de préférence. Une méthode alternative, dite des flèches, consiste à demander à des sujets de citer les lieux dont ils se sentent proches par la manière de parler et ceux quils pensent être complètement différents [Preston, 1989]. À partir des réponses obtenues, il est possible de construire une carte, par exemple en reliant par des flèches les points désignés comme proches. Cependant, cette méthode ne fonctionne que pour des endroits proches géographiquement : pour des points éloignés, il est impossible de dessiner les flèches et, partant, de refléter leur proximité éventuelle dans la façon de parler. Comme nous nous intéressons nous-mêmes à la fois à des variétés du nord et du sud de la France, une autre approche perceptive doit être appliquée.
Des expériences ont été menées sur langlais américain et britannique, le néerlandais, le norvégien, le gallois, lallemand [Preston, 1989 ; Clopper & Pisoni, 2004 ; Ikeno & Hansen, 2006 ; van Bezooijen & Gooskens, 1999 ; Heeringa, 2004 ; Williams et al.,1999 ; Burger & Draxler, 1998]. En français, les études auxquelles nous avons pu nous reporter, souvent dorientation sociolinguistique, se focalisent sur les représentations de variétés spécifiques, plus ou moins stéréotypées et éventuellement différentes des comportements en réaction à des échantillons de parole réels [Paltridge & Giles, 1984 ; Castellotti & Robillard, 2003 ; Kuiper, 2005]. Mais la plupart des études nimpliquent que deux ou trois variétés de français, et peu danalyses phonétiques [Armstrong & Boughton, 1997 ; Sobotta, 2006]. Elles ne permettent pas de prédire de façon fiable les caractéristiques les plus discriminantes qui sont associées à un accent donné. Les quantités de données recueillies au cours du projet PFC permettent maintenant des études systématiques. Plusieurs tranches dâge et « styles » de parole (lecture et parole spontanée) étant représentés, leur influence sur les performances peut également être quantifiée. Tel est lobjet que, faisant suite à une présentation du corpus (section 2.2), la section 2.3 se propose dexaminer, en trois étapes : avec un pré-test dont la tâche est une simple évaluation du degré daccent dune quarantaine de locuteurs de six régions francophones, une expérience didentification de lorigine de laccent auprès dauditeurs de la région parisienne (expérience 6rp) et une réplique de cette expérience auprès dauditeurs de la région marseillaise (expérience 6rm).
Différentes méthodes et techniques seront éprouvées pour caractériser les accents identifiés : analyse discriminante, clustering, échelonnement multidimensionnel, arbres de décision. Les sections suivantes présenteront quelques analyses phonétiques des voyelles orales et nasales en français du Nord et du Sud. En section 2.4, nous comparerons des mesures de formants sur le sous-corpus utilisé dans les expériences perceptives et des corpus nettement plus volumineux, de plus dune centaine de locuteurs, segmentés en phonèmes par alignement automatique. Les résultats suggèrent limportance du second formant (corrélat de lantériorisation) du /(/ pour discriminer les variétés du Nord et du Sud.
Des contraintes phonologiques spécifiques pèsent sur les voyelles moyennes postérieures arrondies (/(/~/o/) du français [Walker, 2001] : seul le timbre semi-fermé apparaît en syllabe finale ouverte (on noppose pas pot */p(/ à peau /po/ en français « standard » à tout le moins). Inversement, seul le timbre semi-ouvert apparaît avant /(/. Certains critères orthographiques (ou du moins manifestés en synchronie par lorthographe) entrent en ligne de compte : le digramme au tend à être prononcé semi-fermé (/o/, comme le ô), hormis devant r où lon a /(/ ; et le timbre semi-ouvert /(/ est considéré comme la forme sous-jacente du o graphique ailleurs quen syllabe finale ouverte. Cependant, il existe de nombreuses exceptions où le phonème cible est /o/ : devant la consonne allongeante /z/, dans certains mots comme fosse ou atome, dans les préfixes aéro-, micro-, psycho-, etc. [Walter, 1976 ; Carton et al., 1983]. En outre, la voyelle racine (/o/) tend à être préservée par fidélité morphologique et sémantique à la base, dans des mots tels que fossé. Ajoutons que dans certains cas il y a désaccord entre les dictionnaires de prononciation quant à laperture de la voyelle finale ferme (ex. synchrone), voire antériorisation de /(/ en [].
Dans un article célèbre, « Cest jeuli, le Mareuc ! » Martinet [1958] analysait cette avancée du /(/ en termes de rendement fonctionnel (relativement faible et sans grande incidence sur la compréhension, pour lopposition /(/~//). Déjà pendant la Seconde Guerre mondiale, à partir des témoignages dofficiers recueillis dans un camp de prisonniers, lauteur avait observé lémergence de cette variante centralisée du /(/ chez les locuteurs non-méridionaux [Martinet, 1945]. Il ouvrait ainsi des pistes pour des études empiriques et théoriques sur laménagement du système vocalique français.
Si lon sen rapporte à lhistoire, dailleurs, un mot latin comme florire a donné le français fleurir ; le verbe florir (doù florissant) nest quun archaïsme littéraire. On a dautre part en synchronie les doublets priorat~prieuré, senior~seigneur (doù seigneurial alors que ladjectif dénominal de directeur est directorial), des alternances morphologiques comme mort~meurt, des erreurs comme *je vous serais gré pour je vous saurais gré, *contreverse (56 700 réponses dans Google au moment de la rédaction de ces lignes) pour controverse et petit rond pour potiron, qui appartient au langage enfantin. Ce phénomène dantériorisation a plus récemment été observé dans des travaux autour de lharmonie vocalique dans des mots comme social [Malderez, 1994 ; Landick, 1995 ; Boula de Mareüil & Fagyal, 2000 ; Fagyal et al., 2002 ; Nguyen et al., 2004]. Il serait aujourdhui une marque de préciosité, alors que du xvie au xxe siècle des auteurs ont attesté des prononciations orthographiées demaine, quement, quemencer, heu(m)me ou Beaujelais, alors connotées populaires [Fónagy, 1989 ; Carton, 2000 ; Armstrong & Low, 2008]. Dans le même temps en sociolinguistique le recul de larticulation est souvent cité comme un trait caractéristique de « laccent de banlieue » [Armstrong & Jamin, 2002 ; Caubet, 2002]. À notre connaissance, cependant, la prononciation du o na pas été étudiée de façon systématique, en raison des difficultés pratiques à mener des enquêtes phonétiques sur le terrain. De plus, ces observations, comme les règles phonologiques édictées plus haut, ont essentiellement été établies pour le français standard (parisien ou plus généralement du nord de la Loire). En français méridional, réputé pour ne pas faire la distinction côte~cote, des schibboleths comme rose ou gauche prononcés avec un [(] ouvert sont pourtant bien connus [Carton et al., 1983 ; Durand, 2008]. La masse de travaux accumulés dans le cadre de projets récents comme PFC, aussi bien que les instruments développés en traitement automatique de la parole, permettent aujourdhui de regarder dun il nouveau ces différents phénomènes, notamment lantériorisation du /(/ en [] qui pourrait bien être un changement linguistique en cours, dont on na guère conscience.
La prononciation des voyelles nasales du français « standard » ne représente pas un objet nouveau [Martinet, 1945 ; Martinet & Walter, 1973 ; Malécot & Lindsay, 1976 ; Léon, 1993 ; Hansen, 2001 ; Delvaux et al., 2002 ; Amelot, 2004 ; Montagu, 2004]. Caractérisant le français méridional, par rapport au français parisien, la tendance suivante est également bien documentée [Martinet, 1945 ; Walter, 1982 ; Durand, 1988, 1995, 2008 ; Carton et al., 1983 ; Thomas, 1991 ; Taylor, 1996 ; Binisti & Gasquet-Cyrus, 2003 ; Clairet, 2005] : là où le français standard utilise des voyelles nasales, le français méridional prononce souvent des voyelles partiellement nasalisées et suivies dun élément consonantique nasal bien audible. Cet appendice consonantique a le même lieu darticulation que la consonne suivante, si celle-ci existe (par exemple [n] devant /t/ ou /d/, [m] devant /p/ ou /b/, [(] devant /k/ ou /(/), et se réalise également souvent [(] avant une pause . Comment quantifier leurs fréquences dapparition ? Quelle peut être la contribution du traitement automatique de la parole ? Cest ce que nous examinerons dans la section 2.5.
Corpus et méthode pour les analyses acoustico-phonétiques
Cette étude sappuie sur le corpus PFC [Durand et al., 2002, 2005]. Ce projet qui sinscrit dans le sillage de Martinet [1945] et Walter [1982] a entrepris de collecter des enregistrements couvrant un vaste territoire francophone, avec une dizaine de locuteurs par point denquête. Sil se focalise sur la présence/absence des schwas et des liaisons, dautres traits de prononciation sont caractéristiques de la variation en français. Nous nous concentrons en section 2.5 sur la réalisation des voyelles orales (avec une comparaison de la prononciation du /(/, du /o/ et de la réalisation du schwa) et des voyelles nasales. Après une brève description du corpus et de la méthode utilisés, nous étudierons linfluence de la région Nord/Sud, de lâge et du sexe des locuteurs, du type de parole (lu/spontané), de la fréquence des mots et du contexte phonétique gauche/droit. Limportance de la fréquence des mots dans les changements linguistiques a été très discutée [Hansen, 2001 ; Labov, 1994, 2006]. Dans ce qui suit, nous entendrons par « mots fréquents » les mots qui dans notre corpus représentent les 5 % les plus fréquents du vocabulaire employé par les locuteurs.
Pour répondre aux questions qui peuvent se poser notamment concernant la réalisation des voyelles moyennes postérieures et la prononciation dappendices nasaux, nous avons analysé douze points denquête PFC : six dans la moitié nord de la France (Brécey, Brunoy, Dijon, Lyon-Villeurbanne, Roanne, Treize-Vents), un en Suisse romande (Nyon, dans le canton de Vaud) et cinq dans le sud de la France (Biarritz, Douzens, Lacaune, Marseille, Rodez). Malgré un substrat francoprovençal, la Suisse romande sera comptée comme Nord car sa variété de français est très peu perçue comme méridionale (cf. § 2.3). Aucun point denquête nétant situé dans le département français du Nord, nous opposerons donc dans ce qui suit deux grandes variétés de français (Nord/Sud) sans nier que des divisions plus fines puissent être faites.
Le corpus traité représente plus dune centaine de locuteurs : autant dhommes que de femmes, de tranches dâges équilibrées, de niveaux détudes et de professions variés, qui sont nés et ont passé la plus grande partie de leur vie en un même lieu. Totalisant plus de 30 heures denregistrement de lecture et de parole spontanée, ces données contiennent 12 000 mots différents, représentant 15 000 occurrences de /(/, 9 000 occurrences de /o/ sous-jacents, 60 000 voyelles nasales et 72 000 schwas potentiels (dans des proportions Nord-Sud de 2/3-1/3). Pour chaque locuteur, nous avons à notre disposition et utilisé dans ce chapitre la lecture dune liste dune centaine de mots et dun texte dune vingtaine de phrases, ainsi que 1015 minutes dentretien guidé et de conversation libre, suivant un protocole labovien [Labov, 1976, 1994].
Lensemble de ces données a été segmenté en phonèmes par alignement automatique. Issu du système de reconnaissance de la parole du LIMSI [Gauvain et al., 2005], laligneur est fondé sur un principe identique, à la différence près que la suite de mots est ici connue. À partir dun signal de parole et de sa transcription orthographique, étant donné des modèles acoustiques ainsi quun dictionnaire de prononciation qui peut inclure des variantes, le décodeur fournit la séquence de phonèmes réalisée la plus probable (cf. figure 2.1). Pour les variantes étudiées dans ce chapitre, les voyelles moyennes postérieures, le schwa et les voyelles nasales, les dictionnaires de prononciations ont été adaptés séparément , mais les mêmes modèles acoustiques indépendants du contexte avec mélange de gaussiennes ont été utilisés (512 gaussiennes par état, pour chaque phonème). Ces modèles acoustiques, appris sur de grandes quantités de données, correspondent à des formes relativement canoniques des phonèmes du français. Les différences entre les dictionnaires de prononciation de lapprentissage et de la présente étude visent précisément à quantifier lécart par rapport au standard.
Figure 2.1 : diagramme bloc de la procédure dalignement en phonèmes.
Lalignement automatique facilite ou rend possibles des travaux coûteux, fastidieux et encore très longs à accomplir, il y a peu. La méthode a été utilisée extensivement dans plusieurs études antérieures qui ont montré la qualité des résultats [Adda-Decker & Lamel, 1999 ; Gendrot & Adda-Decker, 2005 ; Adda-Decker, 2006 ; Adda-Decker & Hallé, 2007]. Sur le corpus PFC, des sous-ensembles des données ont été écoutés et vérifiés, confirmant la fiabilité de lapproche. En guise de mise en garde méthodologique, il est important de souligner que les frontières de phonèmes résultant de lalignement automatique peuvent différer de celles que produirait une segmentation manuelle. Lavantage de la procédure automatique, cependant, réside dans sa cohérence et sa reproductibilité. Précisons aussi que lalignement nécessite au préalable pour lhumain un long travail de transcription orthographique des corpus audio, de formatage des données et de construction des dictionnaires de prononciation, qui est à mettre au crédit du projet PFC. À ce prix les systèmes automatisés peuvent être considérés comme de précieux outils danalyse ou instruments de mesure pour étudier la variation phonétique/phonologique. Mais auparavant, il convient selon nous détablir quelles variétés sont susceptibles dêtre identifiées perceptivement par des auditeurs humains.
Identification perceptive
Locuteurs et stimuli
Cette section, rappelons-le, aborde la question suivante : combien daccents peut-on reconnaître, lesquels et dans quelles conditions ? Les expériences perceptives que nous rapportons ici portent sur six régions francophones, correspondant à autant de points denquête PFC et daires dialectales différentes (cf. figure 2.4) : Brécey (Normandie), Treize-Vents (Vendée), le canton de Vaud (Suisse romande), Biarritz (Pays basque), Douzens (Languedoc) et Marseille (Provence). Dans chacun de ces points denquête, six locuteurs ont été sélectionnés, de niveaux détude variés, trois hommes et trois femmes, à lintérieur de trois tranches dâge : 1530 ans (moyenne : 23 ans), 3060 ans (moyenne : 47 ans), 60 ans et plus (moyenne : 73 ans). Compte tenu de la diversité des systèmes éducatifs, du fait que les plus jeunes locuteurs nont pas tous terminé leurs études et que pour les plus âgés, en particulier les femmes, il était plus rare de faire de longues études, nous navons pas intégré le facteur scolarité dans notre travail.
Pour chacun des locuteurs, deux échantillons de parole ont été choisis. Le premier est une longue phrase lue (25 mots, 8,3 secondes en moyenne) tirée du milieu du texte PFC, identique pour tous : « La côte escarpée du mont Saint-Pierre qui mène au village connaît des barrages chaque fois que les opposants de tous les bords manifestent leur colère. » Le second est un extrait de parole spontanée, tiré des entretiens guidés : un énoncé assertif dune durée équivalente à celle de lextrait lu (89 secondes), sélectionné daprès les critères suivants : absence de référence à un lieu qui biaiserait lidentification, absence dintervention de linterviewer et peu dhésitations de la part du locuteur. Avec en moyenne 33 mots par extrait, le débit de la parole spontanée est comparable à celui de la lecture (1011 phonèmes/ seconde). La parole spontanée évite que les auditeurs aient à écouter systématiquement la même phrase et reflète mieux la façon naturelle de parler. La lecture, de surcroît, permet des comparaisons toutes choses égales par ailleurs et garantit que les différences entre locuteurs ont trait à la prononciation.
Auditeurs
Le pré-test (pour lévaluation du degré daccent), lexpérience 6rp et lexpérience 6rm (expériences didentification proprement dite) ont chacun été soumis à 25 auditeurs sans troubles daudition connus, tous de langue maternelle française. Les auditeurs du pré-test de lexpérience 6rp, résidents de la région parisienne, étaient membres dun laboratoire dinformatique (le LIMSI). Ceux de lexpérience 6rm, résidents de la région marseillaise, étaient membres dun laboratoire de sciences du langage : le Laboratoire Parole et Langage (LPL) dAix-en-Provence.
Les auditeurs du pré-test (18 hommes et 7 femmes, âgés de 26 ans en moyenne) avaient passé en moyenne 16 ans en région parisienne. Ceux de lexpérience 6rp (16 hommes et 9 femmes, âgés de 32 ans en moyenne) avaient passé en moyenne 21 ans en région parisienne Ils navaient pas participé au premier test. Enfin les auditeurs de lexpérience 6rm (7 hommes et 18 femmes, âgés de 37 ans en moyenne) avaient passé 22 ans dans la région dAix/Marseille dont 11 ans à Aix même et 6 ans à Marseille même. Parmi eux, 8 sujets avaient vécu majoritairement à Marseille, 8 sujets ny avaient jamais vécu, mais avaient longtemps vécu à Aix.
Dans les expériences 6rp et 6rm, les auditeurs se déclaraient quasiment tous familiers des accents de Marseille et de Suisse, quasiment tous non-familiers des autres accents. Sils pouvaient davantage être qualifiés dexperts en linguistique, les sujets de lexpérience 6rm ne sestimaient pas sensiblement plus compétents pour une tâche didentification que les sujets de lexpérience 6rp.
Tâches et protocole
Le pré-test comme les expériences 6rp et 6rm était réalisé à travers une interface conviviale, qui permettait entre autres, en cliquant sur des boutons, dentrer des informations sur la familiarité avec tel ou tel accent et de saisir les réponses. Tout dabord, brève familiarisation, lauditeur écoutait une fois la même phrase lue par un locuteur ou une locutrice (non utilisée par la suite) de chacune des six régions en question, qui était indiquée. Lors de la phase suivante, le test proprement dit, lauditeur écoutait 74 stimuli, dont les deux premiers (phrases spontanées dun locuteur du Nord et dune locutrice du Sud) nétaient pas comptés dans les résultats. Les 72 stimuli suivants, extraits lus ou spontanés mélangés, étaient présentés un par un dans un ordre aléatoire différent pour chaque auditeur. Cette précaution nous a semblé dautant plus importante que, pour lévaluation du degré daccent sur une échelle relative notamment, les sujets navaient dautre point de repère que létape de familiarisation et leur propre expérience quotidienne.
Pré-test : lors de la phase de familiarisation, un degré daccent était donné à titre indicatif pour chaque stimulus entendu. Lors de la phase de test, lauditeur devait attribuer un degré daccent à lextrait quil venait découter. Les degrés proposés, sur une échelle à six degrés graduée de 0 à 5, étaient paraphrasés de la façon suivante :
0 : pas daccent ; 3 : assez fort accent ;1 : petit accent ; 4 : fort accent2 : accent modéré ; 5 : très fort accent
Expériences 6rp et 6rm : la région dorigine du locuteur était indiquée pour chaque extrait entendu lors de la phase de familiarisation. Lors du test, après chaque écoute, lauditeur devait préciser daprès laccent lorigine du locuteur parmi les six possibilités déjà mentionnées : Brécey (Normandie), Treize-Vents (Vendée), le canton de Vaud (Suisse romande), Biarritz (Pays basque), Douzens (Languedoc) et Marseille (Provence). Aucune indication sur lexactitude des réponses nétait donnée.
Lauditeur pouvait prendre le temps quil voulait pour répondre. Chaque stimulus pouvait être réécouté, mais il était impossible de revenir en arrière, une fois la réponse validée. Chacune des trois expériences durait une vingtaine de minutes.
Les tests se déroulaient dans une chambre isolée, les auditeurs étaient munis dun casque fermé du même modèle, le niveau découte était confortable. Les stimuli, au format Wave, étaient échantillonnés à 22,05 kHz, 16 bits, mono. Leur niveau sonore avait été égalisé à laide du logiciel Goldwave, également utilisé pour la segmentation des stimuli.
Résultats : pré-test et expériences didentification
Les résultats du pré-test ont permis de classer les régions de nos locuteurs par degré daccent moyen : 0,8 pour la Normandie, 1,1 pour la Vendée, 2,0 pour la Provence, 2,5 pour la Suisse et le Pays basque, 3,4 pour le Languedoc en moyenne globale, les stimuli ont reçu le degré 2,0. Plus les locuteurs sont âgés, plus leur accent a été jugé fort : les degrés moyens des trois tranches dâge sont 1,4, 2 ,1 et 2,7 les résultats seront analysés statistiquement à travers une mise en relation avec les expériences perceptives ci-dessous. La différence observée est moindre entre la lecture, pour laquelle le degré moyen est 2,1 et la parole spontanée, évaluée à 2,0.
Dans les expériences 6rp et 6rm, les auditeurs ont obtenu 43 % de bonnes réponses en moyenne : 42,1 % en région parisienne et 43,9 % en région marseillaise, ce qui dans les deux cas est significativement mieux que le hasard (16,7 %) d après des tests de Dz [6rp : Dz(25) = 2092 ; p 0 dB%(duri > 0 ms#occ
%(duri > 0 msLectureStandard203572575653357Sud195070596151062Alsace41452616210767Belgique127865566233362Suisse43588765511751SpontanéStandard7242485155130952Sud6078435055115053Alsace99938566414457Belgique249840505743951Suisse164759555730653Tableau 3.6 : nombre doccurrences et pourcentage de (F0i, (intensi et (duri positifs de dans le corpus PFC. Dans la partie droite, les polysyllabes sont restreints aux mots dau moins trois syllabes. Comme dans dautres tableaux, les valeurs maximales sont mises en gras.
Ce sont les Suisses qui présentent le plus fort pourcentage de (intensi positifs dans la lecture du texte PFC. En parole spontanée, les chiffres en matière dintensité sont très proches dun accent à lautre. Les différences entre accents sont quelque peu plus marquées en matière de durée. Les Alsaciens présenent les pourcentages les plus élevés de (duri positifs en parole spontanée et dans une moindre mesure en lecture. Ils montrent également les pourcentages les plus élevés si lon restreint lanalyse aux non-clitiques au moins trisyllabiques au lieu de considérer tous les polysyllabes le nombre doccurrences examinées est bien entendu plus bas.
Figure 3.6 : distribution de (F0i entre une voyelle initiale de polysyllabe et la voyelle du clitique qui précède (en demi-tons) dans la parole spontanée du corpus PFC. Sont fournis les pourcentages de contextes pour lesquels la valeur de (F0i est comprise entre -1 et 0 dt, 0 et 1 dt, etc.
La tendance des Alsaciens à allonger la voyelle initiale de polysyllabe précédé par un clitique, dans le corpus PFC, est notable dans le tableau 3.7. Ce tableau rapporte les durées moyennes du noyau vocalique du clitique, de lattaque et de la voyelle initiale du non-clitique subséquent. La durée moyenne du noyau du clitique est indiquée bien quelle napporte pas beaucoup dinformation : on peut simplement constater quil y a entre régions peu de variation de cette durée moyenne, surtout en parole spontanée. Quant à la voyelle initiale du polysyllabe qui suit, elle se comporte comme on pouvait lattendre daprès les calculs de duri : les Alsaciens ont les durées moyennes les plus longues, ce qui n est pas seulement imputable à un débit plus lent car les Suisses, au moins en lecture, montrent un comportement très différent.
La durée moyenne des attaques de polysyllabes précédés de clitiques, qui peut être un corrélat de laccentu initial daprès Mertens [1993] et Astésano [2001], est également fournie dans le tableau 3.7, pour le corpus PFC. Le nombre doccurrences considérées dans chaque cas se déduit du chiffre indiqué dans le tableau 3.6, auquel il faut soustraire les suites clitique non-clitique ne comportant pas dattaques de non-clitiques (soit environ 15 % des cas).
PolysyllabesTrisyllabes +VcAttaqueVncVcAttaqueVncLectureStandard7288727010572Sud6994736510969Alsace7692837310676Belgique6889726410268Suisse6997706311469SpontanéStandard769163788961Sud788864778661Alsace788679848982Belgique769065768760Suisse789871779768Tableau 3.7 : durée moyenne en ms de la voyelle des clitiques (Vc), de lattaque et de la voyelle initiale (Vnc) des non-clitiques polysyllabiques ou au moins trisyllabiques dans le corpus PFC.
Les mêmes mesures ont été faites sur le corpus CTS, qui est cantonné aux frontières de la France (français standard, Sud et Alsace). Les paramètres qui révélaient des différences entre ces trois variétés de français dans le corpus PFC ne mettent plus en lumière de différences dans le corpus CTS. Dans la parole spontanée du point denquête PFC enregistré en Alsace, laugmentation de lintensité intensi était légèrement plus marquée qu ailleurs, mais ce résultat ne se retrouve pas ici. Les chiffres obtenus sont très similaires entre les locuteurs du français standard, du Sud et d Alsace. La principale différence concerne le pourcentage de duri positifs : 63 % chez les Alsaciens vs 58 % chez les locuteurs du français standard et du Sud. Même si le contraste est peu tranché, cela confirme la tendance observée dans le corpus PFC.
Comportement des syllabes prépausales
Le comportement des syllabes pénultièmes et finales avant une pause a de même été examiné une pause étant détectée comme un silence dau moins 50 ms. Aucune tendance ne se dégage si lanalyse nest pas restreinte à des mots précédant une pause. Nous navons pas non plus pu observer de tendance marquée selon la région concernant la variation de F0 entre les syllabes pénultième et finale. Cependant, le pourcentage davant-dernières voyelles plus longues que les finales (schwa exclu) permet de saisir une forme dallongement pénultième : i.e. durf = durpenultième durfinale > 0 ms. Le pourcentage de durf positifs est donné pour le corpus PFC dans les tableaux 3.8 et 3.9, avec les durées moyennes des voyelles noyaux des deux syllabes précédant une pause. Comme dans le tableau 3.6, les polysyllabes et les mots d au moins trois syllabes sont distingués pour éviter de confondre allongements initial et pénultième. La différence de durée entre voyelles pénultièmes et antépénultièmes a été calculée : durf = durpenultième durantépénultième. Le pourcentage de dura positifs et la durée moyenne des voyelles antépénultièmes sont également rapportées dans le tableau 3.9.
#occ dur.pen
(ms)dur.fin (ms)%(durf > 0 msLectureSstandard11628314823Sud11118715822Alsace2898613427Belgique9328614229Suisse3269015423SpontanéStandard33026812332Sud29867013430Alsace4728311339Belgique21767212240Suisse10778215430Tableau 3.8 : nombre de polysyllabes avant une pause, durée moyenne des deux dernières voyelles en ms et pourcentage de (durf (pénultièmefinale) positifs dans le corpus PFC.
En lecture, les pourcentages de (durf positifs sont assez proches entre les régions, quon se limite ou non aux mots de trois syllabes ou plus. Les chiffres diffèrent davantage sur la parole spontanée, les locuteurs belges réalisant le plus fort pourcentage de durf positifs. Ces pourcentages sont particulièrement bas pour les Suisses, car ces locuteurs semblent allonger à la fois les voyelles pénultièmes et finales (voir les durées moyennes dans le tableau 3.8). En parole spontanée notamment, les Suisses ont les voyelles finales les plus longues. Dans le style lu, ils ont le plus fort pourcentage de (dura positifs (cest-à-dire des voyelles pénultièmes plus longues que les voyelles antépénultièmes), les voyelles antépénultièmes les plus courtes et les voyelles pénultièmes les plus longues.
#occ dur.pen
(ms)dur.fin (ms)%(durf > 0 msLectureSstandard11628314823Sud11118715822Alsace2898613427Belgique9328614229Suisse3269015423SpontanéStandard33026812332Sud29867013430Alsace4728311339Belgique21767212240Suisse10778215430Tableau 3.9 : nombre de mots au moins trisyllabiques avant une pause, pourcentage de (dura (pénultièmeantépénultième) positifs, durée moyenne des trois dernières voyelles en ms et pourcentage de (durf (pénultièmefinale) positifs dans le corpus PFC.
Dans lensemble, les Suisses ont des voyelles pénultièmes assez brèves en comparaison avec les voyelles pénultièmes et finales. Sans surprise, les Alsaciens ont les voyelles antépénultièmes les plus longues (dans la plupart des cas également les voyelles initiales) dans les mots dau moins trois syllabes précédant une pause. Ceci est en accord avec lallongement de la voyelle initiale décrit en 3.4.4.1.En moins en parole spontanée, les Belges ont les plus forts pourcentages de voyelles pénultièmes plus longues que les voyelles antépénultièmes et finales. Lallongement pénultième mis en avant par Hambye et Simon [2004] en français de Belgique est donc (partiellement) confirmé.
Dans le corpus CTS, les (durf et (dura ont été calculés de la même façon. Ils seront également utilisés dans les expériences de classification, comme nous le verrons à la section 3.6. Cependant, ils ne sont pas rapportés ici, puisquils sont essentiellement pertinents pour les accents belge et suisse, lesquels ne sont pas représentés dans le corpus CTS.
Discussion
Dans cette section, les mesures de durée résultant de lalignement automatique, lextraction de formants ainsi que les paramètres de F0 et dintensité ont permis, sinon de révéler, du moins de quantifier des différences phonétiques entre le français standard et des variétés de français parlées dans le sud de la France, en Alsace, en Belgique et en Suisse romande. Les analyses à base de formants ont montré que le /(/ est plus antérieur en français standard que dans les autres variétés de français. Les résultats des analyses à base de F0, eux, suggèrent que les Alsaciens et les Belges tendent à dévoiser certaines consonnes. Toutefois, les différences de taux de voisement peuvent être dues aux disparités de conditions denregistrement : la parole téléphonique, en particulier, pose des problèmes de détection de F0. Une autre approche de la prononciation des voyelles et des consonnes est proposée dans la section suivante.
Dans le corpus PFC, des patrons prosodiques intéressants ont été trouvés. Tandis que lallongement de la voyelle pénultième précédant une pause semble typique de la Belgique, lallongement des deux dernières voyelles prépausales et une tendance à laccentuation initiale (montée de la mélodie, augmentation de lintensité et allongement de lattaque) sont plutôt caractéristiques de la Suisse romande, contrairement à certaines prédictions [Métral, 1977 ; Grosjean et al., 2007]. En Alsace, ce qui peut également sinterpréter comme une accentuation initiale sous linfluence du contact de langues se manifesterait davantage par un allongement de la voyelle initiale.
Ces corrélats acoustiques paraissent relativement robustes au changement de style de parole (lu ou spontané). La section suivante, qui examine des aspects segmentaux à travers les variantes de prononciation fournies par lalignement automatique, devraient également être indépendants de la source des données. Elle vise à compléter les approches à base de formants et de F0,et à quantifier des phénomènes tels que la réalisation du schwa et la dénasalisation des voyelles nasales (cf. § 2.5).
Variantes de prononciation
Dans cette section, comme dans la section 2.5, les données ont été transcrites phonétiquement par alignement automatique en utilisant un dictionnaire de prononciation enrichi de variantes régionales. Par exemple, dans des mots comme entier et Beaulieu, les variantes suivantes ont été autorisées : [((tje, ((ntje, antje], [bolj(, polj(]. Nous avons vu au chapitre précédent (cf. § 2.5.4) que les locuteurs méridionaux tendent à produire davantage de variantes alignées avec un appendice consonantique nasal (ex. [((ntje] ou [antje]). On sattend ici à ce que les Alsaciens, qui tendent à dévoiser les consonnes sonores, produisent davantage de variantes de prononciation alignées en [bolj(]. Des variantes de prononciation ont ainsi été introduites de façon systématique, pour lantériorisation ou la fermeture du /(/, le (dé)voisement des occlusives et des fricatives, larticulation du /R/, la réalisation ou lélision du schwa et la dénasalisation des voyelles nasales. La même méthodologie que dans le chapitre 2 a été suivie, avec des dictionnaires de prononciation mis à jour séparément : pour chaque variable, nous avons calculé le taux de segments alignés avec des symboles non-standards divisé par le nombre total de segments. Cette approche a récemment été appliquée (avec des modèles acoustiques monophones indépendants du contexte) par Aubanel et Nguyen [2011] pour comparer le français standard et le français méridional sur la base de courtes interactions entre locuteurs (une douzaine pour chaque variété).
Antériorisation/fermeture du /(/
Les sections 2.4, 2.5 et 3.4.2 ont mis en évidence une tendance à lantériorisation du /(/ en français standard et, dans une certaine mesure, au rapprochement /(/~/o/ en français méridional. Lanalyse, appliquée cinq variétés de français, est ici étendue en introduisant les variantes [(]~[]~[o] dans le dictionnaire de prononciation utilisé dans lalignement automatique (cf. § 2.5.1). Les taux de variantes résultant de lalignement du corpus PFC sont rapportés dans le tableau 3.10.
#occ %[(] %[] %[o] LectureSstandard1339552124Sud135535561Alsace319281062Belgique986511930Suisse32373207SpontanéStandard4756403426Sud3698391349Alsace749382141Belgique2617363331Suisse1326553114Tableau 3.10 : nombre doccurrences de /(/ et pourcentages de variantes alignées comme [(], [] ou [o] dans le corpus PFC.
La réalisation [(] savère être la variante le plus souvent alignée en français standard, en Belgique et en Suisse. Elle est légèrement plus fréquente en lecture quen parole spontanée, ce qui peut sexpliquer par une prononciation plus soignée plutôt « hyper-articulée » [Lindblom, 1990]. Au contraire, les taux de [] sont plus élevés en parole spontanée. Ils sont le plus élevés chez les locuteurs du français standard, en accord avec le tableau 2.4 et avec les mesures de formants.
La réalisation [o] est quant à elle la variante le plus souvent alignée dans le sud de la France et en Alsace, ce qui est cohérent avec une certaine tendance à neutraliser lopposition /(/~/o/ dans ces régions [Walter, 1982]. Les locuteurs méridionaux et alsaciens affichent également les taux de [] les plus bas dans nos données. Aubanel et Nguyen [2011] ont trouvé la même différence en la matière, entre français standard et méridional, avec 33 % vs 15 % dantériorisation.
Les mêmes variantes ont été utilisées pour aligner le corpus CTS. Les résultats vont dans le même sens, mais les pourcentages sont très proches enter français standard dun côté (9 % de []), Sud et Alsace de lautre (7 % de []). Les pourcentages dalignements en [o], eux, vont de 14 % (français standard) à 22 % (Sud). Les différences entre variétés de français apparaissaient plus clairement dans le corpus PFC et dans les triangles vocaliques de la figure 3.5. Les résultats de lalignement à base de variantes de prononciation ne renforcent donc que peu mais confirment les tendances observées avec lapproche à base de formants.
(Dé)voisement des occlusives et des fricatives
Les consonnes ont été étudiées à travers des taux de voisement dans la section précédente (cf. § 3.4.3). Nous avons ici ajouté des variantes de prononciation, avec la contrepartie sourde/sonore de chaque occlusive ou fricative dans le dictionnaire de prononciation, comme exemplifié ci-dessus pour le mot Beaulieu. Un nouveau dictionnaire de prononciation a été généré et un nouvel alignement forcé a été réalisé.
Les pourcentages de consonnes sonores alignées comme sourdes et inversement sont donnés dans le tableau 3.11 pour le corpus PFC. Comme cétait le cas pour le /(/, les pourcentages de réalisations non-canoniques sont plus élevés en parole spontanée quen lecture. La réalisation des consonnes sourdes (notamment des occlusives) ne dégage pas de différences notables entre variétés de français. En revanche, des différences importantes apparaissent concernant les consonnes sonores (notamment les occlusives) qui sont alignées comme sourdes dans 4046 % des cas chez les Alsaciens. Ces derniers pourcentages sont cohérents avec les résultats obtenus par Vieru et al. [2010], appliquant une approche similaire à des locuteurs natifs et non-natifs de français (cf. § 5.4.2.1). Par exemple, 3059 % docclusives sonores ont été alignées comme sourdes chez des Allemands parlant français, contre 620 % chez des Français natifs (de la région parisienne, différents de ceux que nous analysons ici). Les pourcentages auxquels nous aboutissons dans létude rapportée ici tombent dans cette fourchette : ce comportement similaire entre Alsaciens et Allemands (également connus pour dévoiser les occlusives sonores) est intéressant à noter.
Le corpus CTS a été aligné et analysé de la même façon. Les mesures révèlent des différences entre variétés cohérentes mais plus petites, sans doute en raison du fait que ce corpus est moins contrôlé que le corpus PFC quant à lorigine des locuteurs. Chez les Alsaciens, les pourcentages de consonnes sonores alignées en leur contrepartie sourde sont de 14 % pour les occlusives (contre 9 % chez les locuteurs du français standard et du Sud), 12 % pour les fricatives (contre 10 % chez les locuteurs du français standard et du Sud). Cependant, la différence mesurée pour les occlusives est plus marquée que celle qui était fondée sur les taux de voisement. Lapproche fondée sur les variantes de prononciation peut mieux rendre compte du dévoisement bien connu des occlusives sonores chez les Alsaciens.
#consonnessourdes%sourdes(sonores#consonnes sonores%sonores(sourdesocclusivesfricativesocclusivessonoresLectureStandard109259144890810Sud1102479490879Alsace24304810904023Belgique109124950351312Suisse2732351197812SpontanéStandard377571418157661412Sud275971616120081211Alsace4474102017734624Belgique304101119123012115Suisse1016681245701213Tableau 3.11 : nombres de consonnes occlusives et fricatives sourdes/sonores et pourcentages doccurrences alignées avec leur contrepartie sonore/sourde dans le corpus PFC.
Articulation du /(/
Le /(/ est très fréquent et saillant perceptivement en français, mais il est difficile à caractériser dun point de vue phonétique (cf. § 3.4.3). Il peut être dorsal ([(], plus ou moins voisé), parfois apical ([(], en particulier chez les locuteurs âgés du sud de la France, dAlsace et de Belgique) ou tendre dans ces régions vers un [x] comparable au Ach-Laut allemand ou à la jota espagnole. Les taux de voisement pour ce phonème ont été présentés en 3.4.3. Pour étudier les variantes de prononciation du /(/ comme cela a été fait en 3.5.2, des xénophones et les modèles acoustiques correspondants ont été utilisés. Contrairement aux occlusives et aux fricatives qui permettent des alternances sourdes/sonores dans le système français, le /(/ na pas de prononciations alternatives dans linventaire des phonèmes du français (et dans nos modèles acoustiques). Pour y remédier, les xénophones [(] et [x] ont été introduits, à partir du système espagnol [Lamel et al., 2007]. Les taux de variantes de prononciation donnés par lalignement automatique sont consignés dans le tableau 3.12 pour le corpus PFC.
Quelle que soit la variété de français considérée, la variante alignée dans la majorité des cas correspond à la prononciation canonique [(], dans des proportions plus élevées en lecture quen parole spontanée, comme observé pour dautres phonèmes. Dans les deux styles de parole, le pourcentage de [(] est le plus élevé chez les Suisses. Les Alsaciens et les Méridionaux montrent les pourcentages les plus bas de [(] et les plus hauts de [(]. Les Belges montrent les pourcentages de [x] les plus élevés.
Neuf locuteurs qui « roulent les r » (cest-à-dire qui produisent des r de type [(] : sept dans le sud de la France, un en Alsace, un en Belgique, tous assez âgés) ont été identifiés perceptivement dans le corpus PFC. Les résultats obtenus pour ces locuteurs ont été examinés en détail. Pour tous, la variante le plus souvent alignée était [(] (dans des proportions allant de 40 % à 77 %), tandis que pour les autres locuteurs du corpus PFC cette variante était au plus alignée dans 30 % des cas. Ce résultat est intéressant : les analyses acoustiques précédentes ne pouvaient pas facilement rendre compte de ce phénomène.
#occ %[(] %[(] %[x] LectureSstandard569380118Sud4782761410Alsace1170751212Belgique3460781013Suisse125083611SpontanéStandard16790761311Sud9808711713Alsace1380632019Belgique3242651421Suisse456678913Tableau 3.12 : nombre doccurrences de /(/ et pourcentages de variantes alignées comme [], [(] ou [x] dans le corpus PFC.
Dans le corpus CTS, les réalisations [(] et [x] étaient audibles. Cependant, pour des raisons techniques liées aux xénophones et à la parole téléphonique, nous navons pas fait le même alignement, dont les résultats étaient surtout intéressants pour la Belgique non couverte par le corpus CTS.
Réalisation/élision du schwa
Le comportement du schwa en français est bien décrit dans la littérature (cf. § 2.5.3), et nous lavons regardé à travers les lunettes de lalignement automatique. Dans le dictionnaire de prononciation standard, les schwas sont laissés optionnels dans nombre de contextes, notamment en position finale de mot. De plus, pour létude rapportée ici, nous les avons rendus optionnels dans les contextes où ils sont dordinaire élidés en français standard. Par exemple, dans un mot tel que samedi, les variants suivantes ont été autorisées : [samdi, sam(di] (cf. § 9.2.1). Les résultats de lalignement sont rapportés dans le tableau 3.13 pour le corpus PFC.
#occ%élisionLectureStandard676152Sud621441Alsace156053Belgique484453Suisse163556SpontanéStandard2009873Sud1575753Alsace324169Belgique1224775Suisse564476Tableau 3.13 : nombre de schwas potentiels et taux délision dans le corpus PFC.
Dans ce corpus, environ la moitié des schwas sont élidés en lecture et trois quarts en parole spontanée dans toutes les variétés de français sauf celle du Sud. Les locuteurs méridionaux élident moins de schwas dans les deux styles de parole. Ils réalisent la plupart des schwas en lecture : le taux délision est seulement de 41 %.
On observe des tendances similaires dans le corpus CTS (avec des milliers doccurrences de schwas dans chacune des trois grandes régions considérées). Alors que les locuteurs du français standard et les Alsaciens élident 60 % des schwas, le taux délision est seulement de 47 % chez les Méridionaux. Ce dernier pourcentage tombe dans la fourchette des taux trouvés en lecture et en parole spontanée, dans le corpus PFC. Dans tous les cas, la réalisation du schwa distingue les locuteurs du sud de la France.
Dénasalisation des voyelles nasales
La prononciation particulière des voyelles nasales dans le sud de la France a été abordée au chapitre 2 (cf. § 2.5.4). Nous avons souligné alors labsence de modèles acoustiques pour le /(/, consonne nasale qui peut sentendre dans le Midi à la fin de mots tels que pain. Dans une expérience préliminaire, nous avons tenté dintroduire des xénophones pour ce /(/. Mais que ce soit en utilisant des modèles acoustiques anglais ou allemands, cela na pas permis de discriminer les variétés du Nord et du Sud. Les mêmes variantes quen 2.5.4 ont donc été prises en compte. Les résultats pour les cinq variétés de français considérées dans le corpus PFC sont rapportés dans le tableau 3.14.
Les appendices consonantiques nasaux sont de loin plus nombreux dans le Sud que dans les autres régions. Quand un appendice nasal est aligné, cest une voyelle orale qui précède dans la plupart des cas. Et on observe légèrement plus dappendices nasaux en parole spontanée quen lecture, hormis chez les locuteurs méridionaux, qui montrent un comportement similaire dans les deux styles de parole,
#occ %VN %VN + CN %VO + CN LectureSstandard95469263Sud8896551233Alsace20729045Belgique65009334Suisse21269433SpontanéStandard4415685944156Sud29582561129582Alsace55028945502Belgique2150488521504Suisse99108879910Tableau 3.14 : nombre doccurrences de voyelles nasales et pourcentages doccurrences alignées comme voyelle nasale (VN), voyelle nasale + appendice consonantique nasal (VN + CN) ou voyelle orale + appendice consonantique nasal dans le corpus PFC.
Les résultats de lalignement du corpus CTS confirment la tendance observée dans le corpus PFC. Davantage dappendices nasaux sont alignés chez les locuteurs méridionaux (29 %) que chez les locuteurs du français standard et les Alsaciens (10 % pour chaque groupe). Même si la différence est moins marquée que dans le corpus PFC, ce trait de prononciation semble être un indice robuste pour identifier les Méridionaux. En comparaison, Aubanel et Nguyen [2011] ont trouvé 32 % dappendices nasaux en français méridional et 13 % en français standard.
Discussion
Dans cette section, le dictionnaire de prononciation utilisé pour lalignement automatique a été enrichi de variantes de prononciation (et éventuellement de xénophones). Par rapport aux mesures de F0 et de formants, cette approche complémentaire, simulant une approche catégorielle, a dans une large mesure fourni des résultats cohérents, à la fois en lecture et en parole spontanée. Les résultats convergents étayant lantériorisation du /(/ en français standard (avec apparemment une différence plus accusée mise en évidence par les valeurs de F2) et le dévoisement des consonnes sonores en français dAlsace (avec une différence plus accusée mise en évidence par les taux docclusives sonores alignées comme sourdes) peuvent être vus comme une validation de la méthodologie. Lapproche à base de variantes de prononciation, également, a permis détendre létude entamée au chapitre précédent du maintien du schwa et de la dénasalisation des voyelles nasales en français méridional Lapproche déployée dans la section 3.4 ne permettait pas facilement déclairer ces phénomènes ni les prononciations particulières du /(/ (de type [(] ou [x]) chez certains locuteurs.
Un trait linguistique donné peut être caractérisé de plusieurs manières. Et une variété de français donnée peut être identifiée à travers plusieurs traits pertinents, qui demandent à être hiérarchisés. Les paramètres les plus fiables sont-ils les fréquences des formants, les taux de viosement ou les taux de variantes de prononciation alignées ? Les plus discriminants sont-ils des indices segmentaux ou prosodiques ? Ces questions sont abordées dans la suite de ce chapitre.
Classification
Dans les sections précédentes, des différences phonétiques entre variétés régionales de français ont été mesurées. Une question que nous nous posons ici est : dans quelle mesure ces traits peuvent-il être utilisés dans une tâche didentification automatique ? La méthode employée et les résultats dexpériences de classification en cinq ou trois variétés de français sont décrits dans cette section.
Traits utilisés pour la classification des locuteurs
Comme présenté ci-dessus, nombre de mesures reflétant divers traits de prononciation ont été calculés pour chaque locuteur. Les traits (features ou « attributs ») résultants sont plus ou moins fiables, plus ou moins pertinents pour identifier laccent des locuteurs. Deux jeux dattributs sont ici proposés : un ensemble restreint dans lequel seuls quelques (15) attributs sont conservés à la lumière des sections 3.4 et 3.5, et un ensemble plus étendu de 38 attributs. Les attributs marqués dun astérisque (*) appartiennent uniquement à lensemble étendu ; les autres appartiennent aux deux ensembles. Ces attributs prennent en considération les formants des voyelles, le voisement des consonnes, des indices prosodiques et des variantes de prononciation (/bd(vz(/([ptkfs(], par exemple, dénotant les consonnes sonores alignées comme sourdes, en utilisant un dictionnaire de prononciation spécifique).
Formants des voyelles (20 attributs) : (*) la valeur moyenne des deux premiers formants pour les 10 voyelles de notre jeu de phonèmes. Seul le deuxième formant (F2) du /(/ est conservé dans lensemble restreint (cf. supra).
Voisement des consonnes (3 attributs) : .le taux de voisement (*) des consonnes sourdes /p t k f s (/, (*) des consonnes sonores /b d ( v z (/, (*) du /(/.
Indices prosodiques (7 attributs) : (*) durée moyenne des phonèmes, durée de lattaque, pourcentages de (F0t et (intensi positifs pour les polysyllabes précédés dun clitique, pourcentage de (duri positif pour les trisyllabes ou plus précédés dun clitique, pourcentages de (durf et (dura positifs pour les trisyllabes ou plus précédant une pause.
Variantes de prononciation (8 attributs) : pourcentage de voyelles nasales alignées avec un appendice nasal, pourcentage de schwas élidés, taux dalignements de variantes /(/([o], /(/([], /ptkfs(/([bd(vz(], /bd(vz(/([ptkfs(], /(/([(] et /(/([x].
Classifieurs
Afin didentifier automatiquement laccent des locuteurs, deux classifieurs ont été utilisés : les arbres de décision et les Séparateurs à Vaste Marge Support Vector Machines (SVM). Pour les arbres de décision, nous avons comme en 2.4.2 utilisé la fonction rpart du logiciel R, qui implémente lalgorithme Classification And Regression Tree (CART) [Breiman et al., 1984]. Pour les SVM multi-classes [Hsu & Lin, 2002], nous avons utilisé la fonction svm de la librairie e1071 du logiciel R avec une fonction noyau (kernel) polynomiale. Les classifieurs nont pas été réglés de façon particulière : la plupart des options par défaut ont été conservées. Étant donnée la relativement faible quantité de données pour certaines régions comme la Suisse romande (seulement une douzaine de locuteurs dans le corpus PFC), une méthode de validation croisée leave-one-out a été appliquée pour les tests. Cette méthode consiste à faire lapprentissage sur tous les locuteurs moins un et le test sur le locuteur mis de côté : cette procédure est répétée pour chaque locuteur et les résultats sont moyennés (cf. § 5.5.1).
Les deux classifieurs ont été entraînés (et testés par validation croisée) en prenant en considération différents jeux de données du corpus PFC. Ils ont également été testés sur les données du corpus CTS. Chaque locuteur était représenté par un vecteur (correspondant aux ensembles restreint ou étendu dattributs) calculé sur différentes quantités de parole disponibles pour ce locuteur : 3 minutes de lecture et 13 minutes de parole spontanée en moyenne (ou 16 minutes au total) pour le corpus PFC et 7 minutes de parole spontanée pour le corpus CTS.
Résultats
Classification par validation croisée des locuteurs PFC en 5 variétés de français
Différents tests ont été menés en utilisant les ensembles restreint ou étendu de traits, et en considérant la lecture, la parole spontanée ou la totalité de la parole disponible pour chaque locuteur. Nous avons dans un premier temps classifié les locuteurs du corpus PFC en cinq variétés de français : français standard, sud de la France, Alsace, Belgique et Suisse. Les pourcentages de locuteurs correctement classifiés par les arbres de décision et les SVM sont donnés dans le tableau 3.15.
Ensembledattributslecture(H" 3 min)spontané
(H" 13 min)tout(H" 16 min)Arbres de décisionrestreint566059étendu697367SVMrestreint647478étendu707582Tableau 3.15 : pourcentage de locuteurs correctement classifiés en 5 variétés de français dans le corpus PFC. La durée moyenne du texte lu, de la parole spontanée et de toutes les données disponibles pour chaque locuteur est rappelée entre parenthèses.
Pour des configurations identiques, les SVM donnent de meilleurs résultats que les arbres de décision. On note également que les résultats sont meilleurs avec lensemble dattributs étendu.
Avec les deux classifieurs, cest en lecture que lon observe les taux didentification correcte les plus bas. De fait, la quantité de données disponibles pour ce style de parole est limitées à seulement 3 minutes de parole, et les attributs sont estimés sur moins doccurrences. Les SVM affichent les meilleurs performances (jusquà 82 % didentification correcte) quand les valeurs des attributs sont calculées sur la plus grande quantité de données. Avec les arbres de décision, les scores les plus élevés (jusquà 73 % didentification correcte) sobservent en parole spontanée.
Les matrices de confusion obtenues avec les deux classifieurs sont présentées dans le tableau 3.16. Pour chaque variété de français, la classe majoritairement assignée par les SVM est la bonne, quel que soit lensemble dattributs utilisé. Avec ce classifieur, laccent des locuteurs est correctement identifié dans au moins 58 % des cas, et les locuteurs méridionaux sont remarquablement bien identifiés (dans 9698 % des cas). Les arbres de décision identifient correctement les classes pour lesquelles une grande quantité de données dapprentissage est disponible (français standard et méridional). Avec lensemble restreint dattributs, nombre derreurs sont dues à lassignation de la classe « standard » aux locuteurs alsaciens, belges et suisses. Avec lensemble étendu dattributs, les locuteurs belges et suisses sont correctement identifiés dans 61 % et 75 % des cas respectivement, mais une majorité dAlsaciens sont identifiés comme belges et aucun comme alsacien.
Les arbres de décision peuvent être représentés sous une forme graphique interprétable par lhumain. La figure 3.7 illustre la structure de larbre construit avec lensemble restreint dattributs pour tout le corpus PFC. Que ce soit avec lensemble restreint ou lensemble étendu dattributs, les locuteurs méridionaux se distinguent dabord grâce au taux dappendices nasaux (app. nas.) alignés. Le F2 du /(/ les sépare ensuite des locuteurs du français standard pour lesquels des taux élevés dappendices nasaux sont également alignés.
Les traits utilisés pour caractériser les autres locuteurs diffèrent selon lensemble dattributs pris en compte. Dans le cas de lensemble restreint, les Alsaciens, les Suisses et en partie les Belges se démarquent des autres par le dévoisement des consonnes sonores mesuré à travers les variantes de prononciation. Les Alsaciens sont ensuite isolés par un dévoisement encore plus marqué des consonnes sonores, et les Suisses par le corrélat mélodique de laccent initial (montée de F0). Enfin, une partie des Belges est classifiée dune manière relativement proche des locuteurs du français standard, en accord avec nombre de résultats obtenus lors des analyses acoustiques et des expériences perceptives. Les traits qui différencient ces locuteurs belges ne sont pas aussi pertinents que les précédents, dun point de vue linguistique.
(a)
ArbresStandardSudAlsaceBelgiqueSuisserestreintStandard6990157Sud884080Alsace38015388Belgique42173336Suisse38002533étenduStandard8090110Sud1672066Alsace3300588Belgique17614613Suisse1500875 (b)
SVMStandardSudAlsaceBelgiqueSuisserestreintStandard7822136Sud296020Alsace8867170Belgique2288610Suisse2500867étenduStandard816760Sud298000Alsace8058258Belgique1186696Suisse2500075Tableau 3.16 : matrices de confusion obtenues sur toutes les données PFC classifiées en 5 variétés de français par (a) les arbres de décision et (b) les SVM avec les ensembles restreint et étendu dattributs (%). Les variétés dorigine apparaissent en ligne et les sorties des classifieurs en colonne.
Larbre construit avec lensemble étendu dattributs utilise la réalisation du /(/ pour distinguer les variétés de lest (Alsace, Belgique et Suisse). Si les Suisses sont encore identifiés par un corrélat acoustique de laccent initial (montée de F0), les Alsaciens ne sen distinguent pas suffisamment pour générer une feuille dans larbre. Lensemble restreint dattributs présente en ce sens un avantage par rapport à lensemble étendu.
Figure 3.7 : arbre de décision construit à partir de tous les locuteurs du corpus PFC classifiés en 5 variétés de français avec lensemble restreint dattributs. Les chiffres sous chaque feuille indiquent les nombres de locuteurs classifiés (dans lordre alphabétique) en Alsace/Belg./Standard/Sud/Suisse.
Il est intéressant de faire le parallèle entre les résultats de lhumain et ceux de la machine. Les scores en identification automatique sont plus élevés que ceux des tests perceptifs présentés en section 3.3, même si cette comparaison doit être considérée avec prudence car les conditions étaient différentes. Les expériences perceptives rapportées en 3.3.4 impliquait des échantillons de parole plus courts et un choix forcé entre sept possibilités. Les auditeurs avaient eu du mal à différentier les accents dAlsace, de Belgique et de Suisse. En conséquence, il nest pas absurde de regrouper ces trois variétés de français en une seule classe, que nous avons appelée « Est ». Dans la sous-section qui suit, nous avons cherché à classifier nos locuteurs en trois grandes variétés (français standard, Sud et Est), qui sont donc plus équilibrées en nombres de locuteurs.
Classification par validation croisée des locuteurs PFC en 3 variétés de français
Il nétait pas certain quil serait facile de trouver des indices permettant de distinguer les locuteurs de lEst de ceux du Sud et du français standard, même si les locuteurs de lEst tendaient à être regroupés dans la sous-section précédente. Les taux didentification présentés dans le tableau 3.17 suggèrent que la tâche est quelque peu plus simple que la tâche de classification en cinq variétés de français. Ces taux (jusquà 85 % didentification correcte) sont presque tous supérieurs à ceux que nous avons obtenus pour cinq variétés.
Ensembledattributslecture(H" 3 min)spontané
(H" 13 min)tout(H" 16 min)Arbres de décisionrestreint688071étendu698369SVMrestreint707977étendu738085Tableau 3.17 : pourcentage de locuteurs correctement classifiés en 3 grandes variétés (français standard, Sud et Est) dans le corpus PFC. La durée moyenne du texte lu, de la parole spontanée et de toutes les données disponibles pour chaque locuteur est rappelée entre parenthèses.
Comme précédemment, les taux calculés sur la lecture seule sont les plus bas, et lensemble étendu dattributs donne globalement de meilleurs résultats que lensemble restreint. Dans lensemble, les SVM sont meilleurs que les arbres de décision, mais lécart est plus réduit que dans la tâche de classification en cinq variétés. On note ici que les arbres de décision sont légèrement plus performants quand seule la parole spontanée est prise en compte.
Les matrices de confusion ont également été construites pour ces trois classes (cf. tableau 3.18). La sortie majoritaire à la fois des arbres de décision et des SVM est la bonne dans tous les cas. Les Méridionaux sont très bien identifiés (à 9498 % avec les SVM). Sur les lignes qui leur correspondent, on note par ailleurs la présence de zéros. Ces résultats sont comparables avec les résultats en perception de la section 3.3.
(a) (b)
ArbresStandardSudEstSVMStandardSudEstrestreintStandard67924restreintStandard72226Sud8848Sud0946Est251065Est23868étenduStandard67924étenduStandard80417Sud20800Sud2980Est35362Est18378
Tableau 3.18 : matrices de confusion obtenues sur toutes les données PFC classifiées en 3 grandes variétés par (a) les arbres de décision et (b) les SVM avec les ensembles restreint et étendu dattributs (%). Les variétés dorigine apparaissent en ligne et les sorties des classifieurs en colonne.
Les arbres de décision sont plus simples que ceux que donnait la tâche de classification en cinq variétés. Ils ne sont pas montrés ici, mais on pourra comparer avec larbre de la figure 3.8 pour comparaison. Les traits distinguant le Sud sont les mêmes que dans la figure 3.7 (ce qui se comprend bien puisque la classe est inchangée) : les appendices nasaux et le F2 du /(/. Dans larbre construit avec lensemble restreint dattributs, interviennent ensuite les variantes de prononciation exprimant le dévoisement des consones sonores. Larbre construit avec lensemble étendu dattributs isole une partie des locuteurs grâce au taux de voisement des consonnes sourdes sous-jacentes. Il nest pas sûr que ce taux reflète une particularité régionale, mais il permet une bonne séparation entre les locuteurs du français standard et ceux de lEst. Dans les deux cas, les attributs liés à la prosodie ne sont pas utilisés : ils ne semblent pas assez homogènes entre les locuteurs alsacien, belge et suisse.
Classification des locuteurs CTS
Nous avons finalement cherché à classifier les locuteurs du corpus CTS au moyen de classifieurs entraînés sur le corpus PFC. Le corpus CTS comprend des enregistrements de français standard, du sud de la France et dAlsace, mais aucunes données de Belgique ni de Suisse. Par conséquent, les classifieurs peuvent être entraînés sur les données PFC de différentes manières, en prenant en considération une grande variété « Est » (constituée de lAlsace, de la Belgique et de la Suisse, pour disposer de plus de données) ou en ne gardant que lAlsace en plus du français standard et du Sud. Les deux configurations ont été testées : dans tous les cas, les classifieurs entraînés avec lAlsace mais sans la Belgique et la Suisse donnent des résultats meilleurs dau moins 20 %. Nous avons donc gardé cette dernière configuration.
Une autre question se pose : étant donné que le corpus CTS ne contient que des conversations spontanées, est-ce que les classifieurs doivent être entraînés seulement sur la parole spontanée ou bien sur plus de données ? Les résultats sont rapportés dans le tableau 3.19 pour les deux configurations. Les taux didentification correcte obtenus ici sont moins élevés que ceux que nous avons mesurés par validation croisée sur le corpus PFC. Ils dépassent à peine les 70 % pour une tâche de classification en trois variétés, ce qui peut sexpliquer par des changements dans les conditions denregistrement (parole téléphonique et non plus face à face) ainsi que par un contrôle moindre de lorigine des locuteurs dans le corpus CTS. Les résultats ne se comportent pas de la même manière selon les données utilisées pour lapprentissage et le type de classifieur. Les arbres de décision donnent de meilleurs résultats (que les SVM également, de façon intéressante) quand ils sont entraînés uniquement sur la parole spontanée, alors que les SVM sont plus efficaces quand ils sont entraînés sur davantage de données.
Ensembled attributsspontané
(H" 13 min)tout(H" 16 min)Arbres de décisionrestreint6461étendu6461SVMrestreint5470étendu5471Tableau 3.19 : pourcentage de locuteurs correctement classifiés en 3 variétés (français standard, Sud et Alsace) dans le corpus CTS. La durée moyenne des données dapprentissage utilisées pour chaque locuteur (données PFC) est rappelée entre parenthèses.
Les matrices de confusion (cf. tableau 3.20) révèlent que les locuteurs du français sont correctement identifiés dans la majorité des cas, mais leur classe semble attirer les autres locuteurs : de nombreux locuteurs du Sud et dAlsace ont été classés comme locuteurs du français standard, quels que soient lensemble dattributs et le classifieur utilisés. Une identification correcte des locuteurs méridionaux nest obtenue que par les SVM avec lensemble restreint dattributs. Les confusions observées peuvent sexpliquer par un degré daccent moindre chez les locuteurs du corpus CTS que chez les locuteurs du corpus PFC (qui avaient vécu en un même lieu la plupart du temps).
(a) (b)
ArbresStandardSudAlsaceSVMStandardSudAlsacerestreintStandard85015restreintStandard9145Sud473420Sud405120Alsace62336Alsace671518étenduStandard85015étenduStandard9721Sud473420Sud51464Alsace62336Alsace791010
Tableau 3.20 : matrices de confusion obtenues sur les données CTS classifiées en 3 variétés par (a) les arbres de décision et (b) les SVM avec les ensembles restreint et étendu dattributs (%). Les variétés dorigine apparaissent en ligne.
Quelle que soit la configuration, les arbres de décision sont identiques (cf. figure 3.8). Leur structure est assez simple et reste cohérente avec celle des arbres construits précédemment. Les locuteurs méridionaux se séparent des autres grâce aux appendices nasaux et au F2 du /(/ ; les Alsaciens sont isolés grâce au dévoisement des consonnes sonores, puis grâce à un faible taux de consonnes sourdes alignées comme sonores.
Figure 3.8 : arbre de décision construit à partir des locuteurs du français standard, du Sud et dAlsace du corpus PFC pour classer les locuteurs du corpus CTS. Les chiffres sous chaque feuille indiquent les nombres de locuteurs classifiés en Alsace/Standard/Sud.
Discussion
Dans cette section, deux classifieurs (les arbres de décision et les SVM) ont été utilisés pour identifier des variétés de français : chacun a ses avantages (interprétabilité pour les arbres de décision, meilleurs résultats globalement pour les SVM). À laide de la validation croisée, des taux didentification correcte atteignant 82 % et 85 % ont été obtenus pour classifier les locuteurs du corpus PFC en cinq et trois variétés respectivement. Entraînés sur ce corpus pour classifier les locuteurs du corpus CTS en trois variétés (français standard, sud de la France et Alsace), les classifieurs ont permis dobtenir jusquà 71 % didentification correcte.
Plusieurs améliorations pourraient être apportées (réglage des paramètres des classifieurs, sélection automatique des attributs) pour augmenter les performances tout en évitant le surapprentissage (cf. § 5.5.1). Avec davantage de données (même si la quantité manipulée ici nest pas négligeable), nous pourrions équilibrer le nombre de locuteurs par classe et leur degré daccent. Une classification de données non-vues du même type que les données dapprentissage pourrait également compléter la validation croisée.
Ce travail mettant à lépreuve des connaissances linguistiques requiert des empans de parole relativement longs (de quelques minutes) pour estimer les paramètres. À lavenir, il méritera dêtre comparé à une approche fondée sur des traits bruts tels que les coefficients cepstraux. Ceci vaudra également pour le chapitre 5, consacré aux accents étrangers en français.
Conclusion
Dans ce chapitre, nous avons décrit une étude combinant la perception, des analyses acoustiques et une modélisation par classification automatique. Un des buts de cette étude était de différencier automatiquement des variétés régionales de français (le français standard et des variétés de français parlées dans le sud de la France, en Alsace, en Belgique et en Suisse) en appliquant une approche motivée linguistiquement. Nous avons commencé par des expériences didentification perceptive impliquant des locuteurs dont le degré daccent était jugé de modéré à plutôt fort. Nous avons montré que les confusions sont fréquentes au sein du français standard, du Sud et de la Belgique, et que les Méridionaux sont les plus distincts des autres locuteurs. Cela était une des raisons pour lesquelles, plutôt que de tenter une classification automatique à grain plus fin, nous avons analysé cinq variétés de français (celles du Sud, dAlsace, de Belgique et de Suisse en plus du français qualifié de « standard ») dans un corpus de parole face à face (PFC) et trois variétés de français (Sud, Alsace et français « standard ») dans un corpus de parole téléphonique (CTS). Ces corpus représentaient des centaines de locuteurs, avec environ dix minutes de parole par locuteur.
Nous avons tiré parti de lalignement automatique en phonèmes pour mesurer des indices qui pourraient contribuer à distinguer les variétés de français étudiées. Deux approches complémentaires ont été employées. Tout dabord, les voyelles des formants, les taux de voisement des consonnes et des indices prosodiques ont été mesurés en reposant sur les frontières des phonèmes fournies par un système dalignement standard. Ensuite, le dictionnaire de prononciation utilisé pour lalignement automatique a été enrichi de variantes non-standard, et des taux de variantes de prononciation alignées ont été calculés pour rendre compte de phénomènes tels que la dénasalisation des voyelles nasales (avec production dun appendice consonantique nasal). De fait, ce dernier phénomène est caractéristique des locuteurs méridionaux, tandis que lantériorisation du /(/ est caractéristique des locuteurs du français standard, le dévoisement des consonnes sonores est caractéristique des locuteurs alsaciens et une tendance à laccentuation initiale (en particulier marquée par une montée de la mélodie) est caractéristique des locuteurs suisses. Une tendance à lallongement pénultième est également censée caractériser les locuteurs belges, mais nos mesures ne lont que partiellement corroborée.
Ces traits ont ensuite été utilisés pour identifier les variétés de français étudiées, en appliquant des techniques de classification (SVM et arbres de décision). Des scores de plus de 80 % didentification correcte ont été obtenus par validation croisée sur le corpus PFC (lecture et parole spontanée). Des scores denviron 70 % ont été obtenus en utilisant le corpus PFC pour lapprentissage et le corpus CTS pour les tests. Les confusions entre variétés de français et les traits utilisés (par les arbres de décision) sont conformes aux descriptions linguistiques antérieures et aux résultats de nos expériences perceptives. Les traits les plus discriminants sont le deuxième formand de /(/, le pourcentage dappendices nasaux alignés après des voyelles nasales éventuellement dénasalisées, le pourcentage de consonnes sonores alignées comme sourdes et un corrélat mélodique de laccent initial. Ces résultats, qui font sens au regard dinterprétations linguistiques, sont une nouvelle validation de la méthodologie proposée. Ils nous encouragent à examiner dautres traits et dautres accents, comme nous allons le faire dans les chapitres suivants.
Nous avons pu commettre des abus de langage en parlant par exemple des Suisses, quand seulement une douzaine de locuteurs du canton de Vaud était représentée. Nous sommes conscient de ce problème, qui est inhérent à toute étude sur la variation. Toutefois, dans cette étude, nous avons globalement traité un volume substantiel de données, ce qui na été rendu possible que par le traitement automatique de la parole. Certes davantage de données sont nécessaires. Dautre part, la dimension sociale a été quelque peu délaissée dans le corpus PFC (cf. § 2.6) et plus encore dans le corpus CTS. Elle sera prise en compte dans le prochain chapitre, sur les accents africains en français. Et nous reviendrons dans le chapitre 9 sur les différences stylistiques observées entre lecture et parole spontanée.
Les expériences de classification automatique que nous avons menées sappuyaient sur des échantillons de parole de quelques minutes. Il serait pertinent dappliquer les protocoles dévaluation en vigueur en identification automatique des langues, qui reposent sur des portions plus courtes de parole (30 secondes1 minute). La tâche serait assurément plus difficile. Par ailleurs, il serait intéressant de poursuivre le parallèle avec la perception, pour rattacher les scores didentification avec le degré daccent des locuteurs et pour interroger les similitudes entre approches linguistiques et automatiques. De nouvelles expériences pourraient se concentrer sur les caractéristiques propres à certains accents que nous avons mises en évidence ci-dessus. La synthèse de la parole pourrait être utilisée, comme cela sera envisagé dans la deuxième partie de ce document. Un travail supplémentaire est nécessaire pour étudier dans quelle mesure lhumain et la machine sappuient sur les mêmes traits. La fréquence des traits spécifiques à tel ou tel accent devrait également être prise en compte. En retour, cette étude pourrait trouver des applications directes en reconnaissance automatique de la parole, pour fournir des transcriptions enrichies dinformations telles que le degré daccent et lorigine des locuteurs [Galliano et al., 2006]. Elle pourrait enfin porter ses fruits dans la perspective à long terme de diminuer les taux derreur en adaptant le dictionnaire de prononciation du système.
4
4. Accents ouest-africains en français
Introduction
En Afrique comme en France, on peut entendre parler un « français africain » qui diffère en partie du français standard. Une forme commune d« accent africain » émerge-t-elle, quand bien même les locuteurs auraient des langues premières et des environnements linguistiques distincts ? Quelles sont les différences phonétiques entre variétés de français parlées en Afrique et comment sont-elles exploitées en perception? Ces questions ont été au cur détudes à base de tests perceptifs centrés sur le Burkina Faso [Prignitz, 1994], le Sénégal [Moreau, 2000] et le Mali [Lyche & Skattum, 2010]. Le travail rapporté dans ce chapitre sinscrit dans la même lignée, impliquant ces pays et dautres de lAfrique de lOuest. Il se propose de même de mettre à lépreuve certains discours épilinguistiques, lesquels peuvent être abordés sous trois angles.
Sous langle de la dialectologie perceptive qui sest développée dans le sillage de Preston [1989], on cherche en labsence dinput linguistique à cerner les représentations collectives et le savoir métalinguistique partagés par une communauté, en lien notamment avec la délimitation de variétés de langue dans notre cartographie mentale [Canut, 1996, 1997 ; Scherfer, 2000 ; Kuiper, 2005]. Sous un autre angle socioculturel, on peut également étudier les attitudes évaluatives ou affectives face à des variétés de langues, exprimées en réaction à des stimuli linguistiques [Lambert, 1972 ; Lafontaine, 1986]. Sous un angle plus cognitif enfin, on peut étudier laptitude à discerner différentes variétés de langues à partir dun input phonétique [Clopper & Bradlow, 2009]. En français, la perception comme compétence à appréhender la réalité linguistique avec une certaine justesse a été beaucoup moins évaluée (cf. §§ 1.3, 2.1, 3.2). Cest cette faculté cognitive, dépendant également des habitudes du groupe, des croyances et stéréotypes sur la langue et ses variétés, que ce chapitre vise dabord à approcher, par des tests perceptifs didentification daccents. Savoir identifier des accents et savoir associer à chacun une constellation de traits linguistiques sont deux choses différentes. Ce dernier aspect est également abordé ici ; en revanche, dans lapproche expérimentale qui est développée, nous navons pas demandé démettre des jugements de valeur : les attitudes linguistiques nauront donc pas ou que peu de place dans ce qui suit.
Afin de mettre en évidence les similitudes et les différences entre variétés de français ouest-africains, une expérience perceptive a été menée sur des échantillons de parole enregistrés au Burkina Faso, en Côte dIvoire, au Mali et au Sénégal dans le cadre du projet PFC. Ces points denquête représentent au total une cinquantaine dheures de parole (lue et spontanée), provenant de 52 locuteurs de différents groupes ethniques. Pour lexpérience perceptive rapportée ici, les locuteurs appréciés, parlant français, étaient Akan (de langues baoulé, ébrié, alladian), Bambara, Sénoufo, Mossi (de langue mooré) ou Wolof. Des auditeurs originaires dAfrique de lOuest sont-ils à même didentifier ces différents accents ? Si pour une oreille non-familière, retenant uniquement quelques invariants, on peut compter une seule étiquette « français dAfrique subsaharienne », combien daccents est-on en mesure de discerner quand on y est suffisamment exposé ? Telles sont quelques questions que nous nous proposons daborder dans ce chapitre.
Il est intéressant de mettre en relation les connaissances/représentations linguistiques des sujets, qui sélaborent socialement, avec leurs performances perceptives individuelles. Plusieurs opérations de catégorisation sentrecroisent : ainsi, la variation du français selon le niveau détudes, souvent mise en avant dans les descriptions du français en Afrique [Prignitz, 1994 ; Knutsen, 2007 ; Lyche & Skattum, 2010], est ici mise à lépreuve (les locuteurs pouvant être de niveaux détudes assez variés). La catégorie sociale est-elle plus perceptible que lappartenance à une ethnie ou à un pays ? Nous tenterons de le quantifier à travers différentes tâches. De même est appréciée lémergence daccents nationaux, au-delà des accents régionaux ou ethniques.
Après une présentation très générale du contexte ouest-africain et du corpus (section 4.2), la section 4.3 décrit lexpérience perceptive menée : son protocole, le matériel utilisé, les locuteurs, les auditeurs et les résultats, que nous discuterons en ouvrant quelques pistes relatives aux indices acoustiques sur lesquels ont pu sappuyer les sujets. Une étude préliminaire des stimuli de lexpérience perceptive (annotés manuellement) est présentée en section 4.4. En section 4.5, un sous-ensemble plus important du corpus est analysé acoustiquement, en utilisant lalignement automatique en phonèmes. Enfin, la section 4.6 résume les traits discriminants qui ont été trouvés.
Contexte et corpus
Contexte : statu du français et langues africaines en présence
La plupart des pays africains sont plurilingues, notamment ceux dits francophones, où le français, langue exogène, est langue officielle, langue de ladministration et langue denseignement. La plupart des locuteurs ouest-africains francophones nont quune pratique non-native et non-usuelle du français, qui passe par lécole, alors que le taux dalphabétisation peut être très faible [Lyche & Skattum, 2010]. On estime en revanche quun quart au moins des Ivoiriens ont acquis le français dans la petite enfance ou en dehors de lécole [Boutin & Turcsan, 2009] : phénomène atypique, cette « nativisation » du français en labsence dune langue africaine majoritaire et consensuelle en vient à constituer un trait identitaire de la Côte dIvoire. La situation dun français parlé comme langue première ne se retrouve dans les pays limitrophes que dans des groupes minoritaires. Par la prononciation, les formes de français vernaculaire ivoirien présentent un certain nombre de différences par rapport au français de France, qui peut être perçu comme « maniéré » : les écarts entre formes exogènes et locales de français tendent à devenir des marqueurs de lappartenance à la communauté ivoirienne [Ploog, 2002 ; Boutin & Turcsan, 2009, inter alia]. Le Sénégal, avec le rôle essentiel joué par la langue wolof, qui symbolise lappartenance à la culture sénégalaise, représente le cas opposé [Boutin & Gueye, à paraître]. Malgré ses trois siècles de présence, le français nest ni véhiculaire ni vernaculaire : il reste pour les locuteurs une langue étrangère, dans laquelle lenseignement est pourtant dispensé et le discours officiel délivré.
Parmi les langues africaines parlées en Afrique de lOuest, les langues akan, le bambara, le mooré et le wolof (toutes de la branche Niger-Congo) constituent des langues majeures de la sous-région. Le terme akan moins englobant mais plus courant que celui de kwa [Tymian et al., 2003] désigne un groupe de peuples au Ghana ainsi quau sud-est et au centre de la Côte dIvoire. Les langues ivoiriennes du groupe kwa sont, entre autres, lagni, le baoulé, lalladian, lébrié. Le bambara (du groupe mandé), principalement parlé au Mali, est la langue la plus couramment comprise de ce pays : il est la langue vernaculaire de 40 % de la population et langue véhiculaire pour encore 40 % de la population. Le bambara est parlé aussi au Burkina Faso et en Côte dIvoire (éventuellement sous sa forme véhiculaire de dioula). Le mooré (du groupe gur) est la langue des Mossi, ethnie majoritaire et historiquement dominante au Burkina Faso. Il est comme le jula (dioula) langue véhiculaire dans ce pays. Le wolof (du groupe atlantique) est la principale langue parlée au Sénégal : langue des Wolof, il est en pleine expansion et est actuellement parlé par plus des trois quarts des Sénégalais [Cissé, 2005]. Dautres langues, comme celles des Sénoufo, parlées au nord de la Côte dIvoire, au sud-est du Mali et au sud-ouest du Burkina Faso, ne constituent pas des langues majeures. Alors que les langues sénoufo font partie du même groupe gur que le mooré, leurs locuteurs parlent en général également bambara (ou dioula), et se rapprochent culturellement davantage des Bambara que des Mossi. Les locuteurs des langues sénoufo présentent donc un autre intérêt.
Toutes ces langues ont des systèmes phonologiques très différents. Le wolof se distingue peut-être plus encore par labsence de tons lexicaux, alors que les autres langues sont tonales : le wolof est une langue à accent fixe qui porte sur la première syllabe du mot. On peut dès lors se demander si le français parlé par les Wolof soppose aussi aux autres formes de français ouest-africain. Il y a là des hypothèses linguistiques intéressantes à tester, sur lesquelles peu détudes ont porté. Mais il sagit avant tout de vérifier si des auditeurs ouest-africains sont capables de distinguer les différents accents.
Corpus
Comme mentionné en introduction, 52 locuteurs au total ont été enregistrés en Afrique de lOuest, selon le protocole PFC (11 au Burkina Faso, 13 en Côte dIvoire, 12 au Mali et 16 au Sénégal). Ils ont été enregistrés sur leur lieu de résidence ou dans un endroit calme, en milieu urbain, à Abidjan, Bamako, Ouagadougou et Dakar, capitales économiques propices aux échanges en français. Disons toutefois ici quune contrainte était imposée par le projet PFC, pour pouvoir appliquer un protocole labovien [Labov, 1976, 1994] : les locuteurs devaient savoir à la fois lire et converser librement en français.
Pour lexpérience perceptive relatée dans la section suivante, 20 locuteurs ont été utilisés. Le corpus expérimental est également étudié à travers quelques mesures acoustiques dans la section 4.5. Dans la section 4.6, les productions de ces locuteurs et dautres locuteurs ouest-africains natifs de langues akan, bambara, sénoufo, mooré, wolof ou dautres langues comme le fulfulde (peul), le tamasheq, le songhay ont été comparées à celles de locuteurs représentant un français plus standard : 11 locuteurs de Normandie (Brécey) et 10 locuteurs de région parisienne (Brunoy). Ces comparaisons ont été faites sur la base de la lecture du texte PFC.
Expérience perceptive
Cette section vise avant tout à examiner avec quel degré de granularité divers accents ouest-africains (en français) peuvent être distingués. Une expérience perceptive a été conduite pour déterminer comment des auditeurs ouest-africains évaluent et identifient les accents étudiés.
Tâches et protocole
Il était demandé aux sujets, après quelques renseignements à caractère autobiographique (âge, niveau détudes, etc.) dindiquer quelle était leur familiarité avec les différents accents : les sujets devaient spécifier si oui/non ils se sentaient capables de reconnaître tel ou tel accent parmi les cinq proposés quand une personne parle français. Puis, lors dune brève phase de familiarisation, ils écoutaient des échantillons de parole provenant de locuteurs (non utilisés par la suite) dont le pays était précisé : Burkina Faso, Côte dIvoire, Mali ou Sénégal. Le test proprement dit consistait ensuite à écouter 40 extraits sonores et, pour chacun, à accomplir deux types de tâches :
évaluer le degré daccent du locuteur ou de la locutrice sur une échelle continue graduée de 0 à 5 ;
évaluer son niveau détudes sur une autre échelle continue graduée de 0 à 5 ;
identifier son appartenance ethnolinguistique (akan, bambara, sénoufo, mooré ou wolof) ;
identifier son pays de résidence (Burkina Faso, Côte dIvoire, Mali ou Sénégal).
Létude, comme dans les chapitres 2 et 3, sattachait à la conceptualisation de la variation sociolinguistique (relier un accent avec un groupe/type de locuteurs) mais ne laissait pas de place à lévaluation sur des échelles de valeurs ni aux affects concernant les variétés de langue. Quant à notre choix de demander aux sujets une évaluation du niveau détudes, il était en partie la conséquence de la difficulté à faire identifier une catégorie socioprofessionnelle. La difficulté de ce genre de tâche en contexte occidental est accrue en contexte africain, les sociétés étant structurées de façon différente.
Une interface web similaire à celle qui a été utilisée dans lexpérience décrite au chapitre 3 permettait de lire les instructions, écouter les stimuli et saisir les réponses. Elle proposait deux curseurs à déplacer pour les tâches dévaluation et deux choix forcés à effectuer en cliquant sur des boutons à cocher parmi 5 appartenances ethnolinguistiques et 4 pays pour les tâches didentification. Les degrés daccent étaient paraphrasés comme dans les chapitres précédents : (0) pas daccent, (1) petit accent, (2) accent modéré, (3) accent plutôt fort, (4) fort accent, (5) très fort accent. Les niveaux détudes létaient de la façon suivante : (01) primaire, (12) collège, (23) lycée, (34) début denseignement supérieur, (45) au moins bac + 3.
Les stimuli étaient présentés dans un ordre aléatoire qui changeait pour chaque auditeur. Chaque extrait pouvait être écouté autant de fois que cela était jugé nécessaire. Une fois passé à un autre stimulus, il nétait cependant plus possible de revenir à des stimuli précédents.
À la fin du test, les sujets étaient invités à apporter librement des commentaires sur les indices les plus saillants qui avaient guidé leurs décisions. Ils devaient également préciser sils pensaient avoir répondu au hasard pour une identification particulière. Ces commentaires, demandés à la fin du test et non au fil de lécoute des séquences sonores, pouvaient se rapporter à des identités erronées puisque les sujets navaient pas de retour sur leurs réponses.
Locuteurs et stimuli
Les stimuli retenus pour le test perceptif provenaient de 20 locuteurs (11 hommes, 9 femmes, âgés de 47 ans en moyenne), de milieux socioprofessionnels variés. Quatre locuteurs par groupe ethnolinguistique (akan, bambara, sénoufo, mooré et wolof) ont été sélectionnés. Leur répartition par pays, tranche dâge et niveau détudes est donnée schématiquement dans la figure 4.1 (voir aussi la carte de géographie, figure 4.4). Dans notre corpus expérimental, tous les locuteurs wolof (au Nord-Ouest) étaient Sénégalais, tous les locuteurs akan étaient Ivoiriens (au Sud), tous les locuteurs du mooré étaient Burkinabè. Les locuteurs sénoufo étaient ressortissants de trois pays (Mali, Burkina Faso et Côte dIvoire) et les locuteurs bambara ressortissants de deux pays (Mali et Côte dIvoire). Parmi les Sénoufo, le locuteur burkinabè avait fait un long séjour en Côte dIvoire, et le locuteur ivoirien, dont le français était la langue première, avait toujours vécu à Abidjan. On avait en outre une locutrice ivoirienne bambara qui avait fait un long séjour au Mali dans son enfance.
Dans la figure 4.1 également, le niveau détudes est rapporté selon les 5 catégories distinguées ci-dessus : primaire (A), collège (B), lycée (C), début denseignement supérieur (D), au moins bac + 3 (E). De plus, les locuteurs sont divisés en deux groupes dâge à partir de la moyenne de léchantillon, considérant comme « jeunes » (noté j) les 10 locuteurs de moins de 47 ans (moyenne : 39 ans) et comme « vieux » (noté v) les 10 locuteurs de plus de 47 ans (moyenne : 57 ans). Ce seuil de 47 ans, que nous navions pas choisi, et la division « jeunes »/« vieux » qui sensuit, correspondent peu ou prou à deux situations sociolinguistiques se distinguant par une naissance avant les Indépendances pour les « vieux » et après pour les « jeunes ». Pour le premier groupe, « lécole ancienne » était le lieu dun apprentissage uniformisant du français dont lefficacité nétait pas remise en question [Boutin & Prignitz, 2010].
Figure 4.1 : répartition des locuteurs par groupes ethnolinguistiques (encadrés), par pays (Burkina Faso en hachuré /, Côte dIvoire en treillis foncé, Mali en hachuré \, Sénégal en treillis clair), tranche dâge et niveau détudes.
Pour chaque locuteur, deux échantillons ont été sélectionnés : une phrase lue (de 30 mots) et un énoncé de parole spontanée dune dizaine de secondes, comme dans les expériences rapportées dans les chapitres 2 et 3. La phrase lue (la même pour tous les locuteurs) était : « Beaulieu préfère être inconnue et tranquille plutôt que de se trouver au centre dune bataille politique dont, par la télévision, seraient témoins des millions délecteurs. » Lénoncé de parole spontanée était extrait de conversations libres ou dentretiens guidés, daprès les critères suivants : cohérence du propos, absence de références culturelles, spatiales ou socio-économiques, de traits lexicaux ou syntaxiques qui pouvaient être typiques dune origine particulière.
Auditeurs
Le test a été soumis à 20 auditeurs ouest-africains (7 hommes, 13 femmes, âgés de 35 ans en moyenne), sans problèmes daudition connus. Les sujets nétaient pas payés pour leur participation, qui était en moyenne de 30 minutes. À une ou deux exceptions près, ils avaient tous passé la plus grande partie de leur vie en Côte dIvoire, et avaient un niveau détude dau moins bac + 3. La moitié dentre eux résidait à Abidjan, lautre moitié dans dautres villes de Côte dIvoire ou en France. La moitié dentre eux avait le français pour langue maternelle, lautre moitié des langues africaines comme le gouro (du groupe mandé sud, centre-ouest de la Côte dIvoire) ou le baoulé (du groupe kwa). Deux dentre eux, résidant en France, étaient de langue wolof. Cet ensemble dauditeurs, presque uniquement composé dIvoiriens, présente un certain intérêt : par sa position géographique et économique, la Côte dIvoire se trouve être un lieu de contacts et de migrations privilégié dans la région. La familiarité avec différentes langues africaines et formes de français favorise la construction de connaissances partagées sur les langues et accents.
La majorité des sujets se disaient capables, avant le test, de reconnaître les accents en présence, à lexception de laccent sénoufo en français. Ils nétaient que 7 sur 20 à penser pouvoir identifier laccent sénoufo, contre 17 pour laccent akan, 12 pour laccent bambara, 15 pour laccent mooré et 20 sur 20 pour laccent wolof.
Résultats : tâches dévaluation
Dans ce qui suit, nous allons étudier léventuel effet sur la perception des accents que peuvent avoir le niveau détudes, lâge des locuteurs et le style de parole (lu ou spontané). Les résultats obtenus sont exprimés en termes de degré daccent (entre 0 et 5), de niveau détudes perçu (entre 0 et 5) et de taux didentification de ce niveau détudes par rapport aux 5 catégories (A, B, C, D, E) distinguées ci-dessus. Par exemple, pour un échantillon de parole provenant dun locuteur de niveau B, on considère que ce niveau est bien identifié si le niveau détudes perçu est supérieur ou égal à 1 et inférieur à 2. En moyenne, les résultats sont très proches si on considère linégalité large pour la borne droite.
En moyenne, le degré daccent des locuteurs (3,0/5) est jugé comme plutôt fort, et le niveau détudes perçu (2,7/5) correspond au bac. Estimée en termes didentification correcte, le niveau détudes est bien reconnu à 33 %, ce qui est très significativement au-dessus du hasard daprès un test de (². Le tableau 4.1 montre lévolution de ces chiffres en fonction du niveau détudes réel des locuteurs. On voit que le degré daccent perçu est relativement stable (au-dessus de 3) hormis pour le groupe de locuteurs les plus diplômés (au moins bac + 3), qui ont 2,3 : on a donc globalement une diminution du degré daccent perçu avec le niveau détudes. Le niveau détudes perçu, quant à lui, croît régulièrement, tandis que le taux didentification de ce niveau détudes varie de 23 % à 48 %, sans tendance particulière. En termes de catégories (A, B, C, D ou E), le niveau détudes est majoritairement bien perçu, sauf le niveau B (collège) perçu comme C (lycée).
Des ANOVA révèlent que leffet du Niveau détudes réel (A, B, C, D ou E) est significatif pour le degré daccent [F(4, 795) = 22 ; p < 0,001] et le niveau détudes perçu [F(4, 795) = 71 ; p < 0,001]. Des tests de Student deux à deux (pairwise ttests), cependant, montrent que leffet nest significatif sur le degré daccent quavec les locuteurs les plus diplômés (de niveau E), tandis quil est pratiquement toujours significatif sur le niveau détudes perçu : la seule exception est la différence entre 2,3 (collège) et 2,5 (lycée). Pour les 800 réponses des auditeurs (40 stimuli ( 20 sujets), une corrélation a par ailleurs été calculée entre le degré daccent et le niveau détudes perçus. Cette corrélation est faiblement négative (-0,2), montrant par là que le lien nest pas évident entre ces deux évaluations.
Niveau détudes
primaire
(A)collège
(B)lycée
(C)déb. ens. sup.
(D)( bac + 3
(E)moyenne
degré daccent (/5)3,33,33,13,02,33,0niveau perçu (/5)1,72,32,53,13,52,7id. correcte niveau (%)302325483933Tableau 4.1 : degré daccent, niveau détudes perçus et taux didentification correcte de ce niveau par rapport au niveau détudes réel.
Les résultats des évaluations pour les « jeunes » et les « vieux » locuteurs, la lecture et la parole spontanée sont consignés dans le tableau 4.2. On observe que ces facteurs de lâge et du style nont que très peu dincidence sur les résultats. Daprès des ANOVA, leffet de lÂge (jeune ou vieux) nest jamais significatif ; le Style (lu ou spontané) a uniquement un effet significatif sur le niveau détudes perçu [F(1, 798) = 6,95 ; p < 0,01], linteraction avec lÂge restant marginale. La cohérence des résultats est intéressante à noter, car dans dautres circonstances, en matière daccents régionaux en français, le degré daccent perçu a tendance à augmenter avec lâge des locuteurs (cf. chapitre 2). De plus, le niveau détudes na pas la même valeur selon lâge des locuteurs. Dans nos données, les niveaux détudes étaient équilibrés dans les deux tranches dâges : la moitié des jeunes comme des vieux locuteurs avait le bac. Quant à la lecture par rapport à la parole spontanée, on peut penser que de possibles difficultés à lire (qui peuvent aussi avoir pour cause un problème de vue) sont interprétées comme reflétant un niveau détudes bas. De fait, un locuteur de niveau A (primaire) avait manifestement, selon nous, du mal à lire (hésitations, reprises, erreurs) ; en moyenne calculée sur les réponses des 20 auditeurs, son niveau détudes a été évalué à 0,5 (i.e. primaire) en lecture et à 1,5 (i.e. secondaire) en parole spontanée. Mais globalement, il semble que les particularités de la prononciation se retrouvent dun style à lautre.
jeunesvieuxlecturespontanédegré daccent (/5)3,02,93,02,9niveau perçu (/5)2,82,72,82,6id. cor. niveau (%)32343333Tableau 4.2 : degré daccent, niveau détudes perçus et taux didentification correcte de ce niveau par rapport au niveau détudes réel selon lâge des locuteurs et le style de parole.
La combinatoire est trop importante par rapport à nos données pour ventiler les résultats par groupe ethnolinguistique et par pays. Nous reviendrons ci-dessous sur le rôle du degré daccent et du niveau détudes perçus en matière didentification.
Résultats : tâches didentification
Les résultats des tâches didentification sont rapportés dans les tableaux 4.3 et 4.4 pour lappartenance ethnolinguistique et le pays respectivement. Une visualisation en est également donnée dans les figures 4.2 et 4.3, comme nous allons le voir.
Lappartenance ethnolinguistique est correctement identifiée à 51 %, ce qui est très significativement mieux que le hasard (20 %) daprès un test de (.². Seul laccent sénoufo est mal identifié : il a, davantage que létiquette correcte, reçu létiquette « bambara » et même létiquette « akan » dans une proportion proche (26 %) de la confusion symétrique akan-sénoufo (22 %). Laccent bambara est lui-même correctement identifié dans plus de 50 % des cas, de même que laccent des locuteurs akan. Laccent wolof est reconnu à 81 % et nest ensuite confondu avec laccent bambara que dans 7 % des cas. Laccent mooré en français nest bien identifié quà une majorité relative (46 %), mais on note quil na jamais reçu létiquette wolof.
Réponse
Origineakanbambarasénoufomooréwolofakan61102261bambara65211247sénoufo264116161mooré142119460wolof2111681Tableau 4.3 : matrice de confusion concernant lappartenance ethno-linguistique (%).
Des techniques danalyse de données permettent de représenter cette matrice de confusion de façon synthétique, sous la forme dun dendrogramme ou dun plan à deux dimensions (cf. § 2.3.5). Le dendrogramme qui est représenté dans la figure 4.2 a été obtenu au moyen du logiciel R, par un algorithme de clustering. Il montre bien, comme le tableau 4.3, que laccent wolof se détache des autres. Vient ensuite laccent akan, les accents bambara et sénoufo étant regroupés au plus profond de larbre. En accord avec cette confusion bambara/sénoufo, 17 sujets sur 20 ont répondu positivement à la question « avez-vous le sentiment davoir répondu au hasard entre le bambara et le sénoufo ? » qui leur était posée à la fin du test.
Figure 4.2 : dendrogramme représentant lidentification de lappartenance ethnolinguistique.
Une ANOVA a été menée sur les réponses comptées comme correctes (1) ou incorrectes (0) avec le facteur aléatoire Sujet et les deux facteurs intra-sujets Style (lu ou spontané) et Âge du locuteur (jeune ou vieux). Les facteurs Style et Âge nont pas deffet significatif, même si les jeunes locuteurs sont légèrement mieux identifiés que les vieux (à 53 % contre 50 %) et que les extraits de lecture sont légèrement mieux identifiés que les extraits de parole spontanée (à 54 % contre 49 %). Linteraction entre Style et Âge est également marginale.
Si lon regarde les résultats stimulus par stimulus, 25 sur 40 sont correctement identifiés en termes dappartenance ethnolinguistique par au moins la moitié des auditeurs. Tous les échantillons issus de locuteurs sénoufo sont mal identifiés, tandis que tous les échantillons issus de locuteurs wolof, que ce soit en lecture ou en parole spontanée, ont reçu létiquette « wolof » de la part dau moins 15 auditeurs sur 20. Ces chiffres reflètent assez bien les résultats affichés dans le tableau 4.3.
Le pays des locuteurs, parmi 4, a été correctement identifié à 63 %, ce qui est très significativement mieux que le hasard daprès un test de (². Pour chaque pays, la réponse majoritaire est la bonne (cf. tableau 4.4), même si la majorité nest que relative pour le Burkina Faso. Pour ce dernier pays, dont les locuteurs sélectionnés étaient essentiellement de langue mooré, on retrouve des patrons de réponses similaires à ceux qui portaient sur lappartenance ethnolinguistique aucune confusion, notamment, avec le Sénégal dont tous les locuteurs retenus étaient wolophones.
Réponse
OrigineBurkina FasoCôte dIvoireMaliSénégalBurkina Faso4136230Côte dIvoire975161Mali1919566Sénégal421083Tableau 4.4 : matrice de confusion concernant le pays des locuteurs (%).
Un algorithme déchelonnement multidimensionnel (scaling) a été utilisé pour représenter graphiquement une sorte de distance perceptive entre les différents pays. Le résultat du scaling obtenu pour les pays, au moyen du logiciel R, est donné dans la figure 4.3 : dans ce plan à deux dimensions, laxe des ordonnées représente la première dimension et laxe des abscisses, orienté de façon à faire figurer le Sénégal à lOuest, représente la deuxième dimension. On voit immédiatement que le Sénégal est isolé, alors quun continuum perceptif semble aller de la Côte dIvoire au Mali en passant par le Burkina Faso.
Figure 4.3 : plan à deux dimensions représentant identification par pays.Figure 4.4 : carte de la sous région ouest-africaine.
De nouveau, une ANOVA a été conduite sur les réponses comptées comme correctes (1) ou incorrectes (0) avec le facteur aléatoire Sujet et les deux facteurs intra-sujets Style (lu ou spontané) et Âge du locuteur (jeune ou vieux). Leffet du Style nest pas significatif, même si le pays est légèrement mieux identifié sur la lecture (à 64 %) que sur la parole spontanée (à 62 %). Leffet de lÂge des locuteurs est ici significatif [F(1, 19) = 5,77 ; p < 0,05] : le pays est significativement mieux identifié pour les jeunes locuteurs (à 68 %) que pour les vieux locuteurs (à 59 %). Linteraction Style ( Âge nest toujours pas significative. Sans tirer de conclusions hâtives sur un effet majeur de lâge des locuteurs, ces résultats, sur lesquels nous reviendrons, sont intéressants dans la mesure où ce sont surtout les jeunes Ivoiriens qui sont bien identifiés (à 87 %). Le facteur intra-sujet Niveau détudes des locuteurs a de la même façon été analysé, restreint à « bac » ou « pas bac » par manque de données, pour des tests statistiques ; cependant, il na pas ici deffet significatif le pays étant légèrement mieux reconnu pour les locuteurs ayant le bac (à 66 % contre 60 %).
Si lon examine les résultats stimulus par stimulus, 31 sur 40 sont correctement identifiés en termes de pays par au moins la moitié des auditeurs. Les échantillons qui ne sont pas bien identifiés viennent essentiellement du Burkina Faso, ce qui est en accord avec la matrice de confusion du tableau 4.4.
Afin dévaluer le lien entre identifications de lappartenance ethnolinguistique et du pays, les 800 réponses des auditeurs ont été comptées comme correctes (1) ou incorrectes (0), et une corrélation a été calculée entre les deux séries de chiffres résultants. Avec un coefficient de corrélation de 0,6, il y a bien un lien entre lappartenance ethnolinguistique et le pays identifiés. Dans notre corpus, de fait, il y a une bijection wolofSénégal et partant les wolophones ont été identifiés comme Sénégalais à 83 %. Dans plus de 99 % des cas, la réponse « wolof » (correcte ou non) était associée au Sénégal et la réponse « akan » à la Côte dIvoire ; dans plus de 90 % des cas la réponse « bambara » était associée au Mali, la réponse « mooré » au Burkina Faso, la réponse « sénoufo » à la Côte dIvoire.
Il peut être intéressant également de regarder trois cas particuliers de notre corpus : le locuteur burkinabè sénoufo (BS), le locuteur ivoirien sénoufo (IS) et la locutrice ivoirienne bambara (IB). BS a majoritairement été identifiée comme ivoirien bambara, IS comme ivoirien akan et IB comme malienne bambara. Des facteurs tels que la mobilité géographique et lenvironnement linguistique peuvent expliquer, pour ces locuteurs, l'identification dont ils font l'objet (cf. supra). On ne peut donc pas conclure, de ce seul examen, sur ce qui prime entre appartenances nationale et ethnolinguistique.
Tirant profit des résultats des tâches dévaluation et didentification, nous avons calculé, à partir des 800 séries de réponses des auditeurs, les corrélations entre dune part lidentification de lappartenance ethnolinguistique ou du pays comptée comme correcte (1) ou incorrecte (0) et dautre part le degré daccent ou le niveau détudes perçus. Les quatre coefficients de corrélation résultants sont égaux à 0,1 donc faibles.
Discussion
Ainsi, des résultats de cette expérience sur des échantillons de parole relativement courts, il ressort que la variation de type diastratique et diatopique (niveau détudes, appartenance ethnolinguistique et pays de résidence) est bien perçue et catégorisée par les auditeurs africains qui ont participé au test. Pour les jeunes locuteurs comme pour les locuteurs plus âgés, en lecture comme en parole spontanée, les résultats se sont montrés très robustes. Ils nétayent pas, bien au contraire, lhypothèse de lémergence dun « accent panafricain ».
Concernant lâge des locuteurs, ces résultats diffèrent de ceux de tests réalisés en France métropolitaine : le degré daccent perçu, comme le taux didentification correcte, a tendance à augmenter avec lâge des locuteurs sur le territoire français [Pustka 2007, 2009] (cf. § 2.3.4). Dans les résultats du présent chapitre, les « vieux » (plus de 47 ans) ne sont pas évalués avec plus daccent que les « jeunes » (moins de 47 ans). Même si lécart nest significatif ni pour le degré daccent ni pour le niveau détudes perçus, il contrecarre, a minima, une éventuelle hypothèse supposant un effacement des accents en cours. Ces premières constatations sont corroborées par le fait que, dans la tâche didentification parmi 4 pays, de façon significative, les jeunes locuteurs laissent davantage transparaître un accent national que les vieux locuteurs. Ce fait est pour nous parlant, allant dans le sens dun changement du français après les Indépendances.
Les taux didentification correcte parmi 5 catégories portant respectivement sur le niveau détudes et lappartenance ethnolinguistique (respectivement 33 % et 51 %) suggèrent que la variation de type diatopique est mieux identifiée que la variation de type diastratique. Nous avons vu également quil ny a pas de relation simple entre niveau détudes et identification ethnogéographique.
Limpact du niveau détudes sur le degré daccent perçu est particulièrement intéressant. Si les résultats manifestent une légère baisse du degré daccent à mesure que le niveau détudes augmente, il faut attendre le deuxième cycle de lenseignement supérieur (bac + 3) pour voir ce degré daccent diminuer notablement. Dun point de vue méthodologique, ces résultats montrent la pertinence dune division fine du niveau détudes ainsi que la nécessité de tester des locuteurs dun haut niveau détudes, souvent négligés dans les travaux sur le français en Afrique, ou bien considérés comme similaires à des locuteurs de niveau collège [Knutsen, 2007]. Dun point de vue sociolinguistique, les résultats nous font supposer que lécole nest pas le lieu dun nivellement des accents : le processus de nivellement ne commence quaprès plusieurs années détudes supérieures. Cela est très certainement lié au fait que lexposition au français international est peu fréquente hors de luniversité et des milieux professionnels ouverts sur létranger. Cela est certainement lié aussi à lattitude des locuteurs envers la langue, qui nont aucun motif à sapproprier le français international sils veulent sinsérer dans des milieux locaux.
Les résultats des tâches didentification se sont dans lensemble montrés assez fidèles à la conscience linguistique auto-évaluée par les auditeurs. Ceux-ci se déclaraient confiants pour reconnaître la plupart des accents en présence. Tel a effectivement été le cas, alors que mise à lépreuve de lexpérience, laptitude à identifier des accents régionaux en français est bien souvent surestimée [Moreau, 2000] (cf. § 2.3.4).
Nous navions que deux wolophones parmi nos auditeurs ; cependant, laccent wolof a été remarquablement bien identifié (à plus de 80 %). Il avait été également bien identifié par des auditeurs sénégalais [Moreau, 2000] dans une étude perceptive dans laquelle léchantillon de locuteurs ne comportait cependant pas de Maliens. Seuls les locuteurs sénoufo nont pas été bien identifiés, ce qui correspondait à la conscience linguistique des auditeurs : avant le test, 13 sur 20 ne se sentaient pas capables didentifier un accent sénoufo, et après le test, 17 sur 20 déclaraient avoir répondu au hasard pour cette identification ethnolinguistique. Nous ne disposons daucune enquête perceptive faisant intervenir des auditeurs sénoufo, mais une étude récente [Lyche & Skattum, 2010] a montré que des auditeurs maliens, parlant bambara et/ou fulfulde, confondent également les accents bambara et sénoufo en français alors que le Mali fait figure de pionnier dans la promotion des langues nationales. Les Sénoufo étant souvent bambaraphones, lexistence même dun accent sénoufo reste, dans tous les cas, à prouver.
Dans les études antérieures comme dans la nôtre, la question reste entière de savoir si les confusions et les distinctions opérées relèvent de faits ethnolinguistiques ou nationaux. Nous ne prétendons pas, bien sûr, résoudre tous les problèmes autour de la notion de « statalismes », cest-à-dire de particularismes linguistiques plus ou moins emblématiques qui sarrêteraient au passage dune frontière politique [Frey, 2004]. Il nous semble malgré tout que le présent travail fait un peu avancer le débat : les données et les problèmes méthodologiques sont brièvement résumés ici. Nous ne pensons pas que laffichage du pays de provenance de quelques échantillons (et non de lethnie des locuteurs), lors de la phase de familiarisation au début de notre expérience, aient pu influencer les résultats.
Il faut dabord tenir compte des représentations des accents nationaux en Afrique de lOuest : laccent ivoirien est, par défaut et pour des raisons historiques, laccent agni (kwa/akan), laccent burkinabè est identifié avec celui des Mossi, laccent malien avec celui des Bambara et laccent sénégalais avec celui des Wolof. Dans les réponses de nos auditeurs, nous observons des associations quasiment fixes entre pays et ethnie (dans plus de 90 % des cas). Par ailleurs, comment sassurer que les auditeurs ne sont pas tributaires de certaines représentations sociales et, partant, dassociations qui biaisent une réelle identification géographique ? Nous nous sommes, par exemple, demandés si des niveaux détudes bas et hauts allaient de pair avec lidentification à certains pays ou groupes ethnolinguistiques. Cependant, nous lavons dit, le lien est faible entre lévaluation du degré daccent ou du niveau détudes et lidentification de lappartenance ethnolinguistique ou du pays des locuteurs. Quelques éléments peuvent être tirés dune étude telle que celle-ci, sur un détachement daccents plutôt nationaux ou plutôt ethnolinguistiques. Même si le nombre réduit de locuteurs recrutés par pays ne permettait pas de représenter beaucoup de groupes ethnolinguistiques, seul le Sénégal navait quune ethnie représentée ; les autres pays en comptaient deux ou trois. Les résultats des identifications, parmi 4 pays et 5 ethnies, comme leur interprétation, ne sont pas directement comparables. Mais pour chaque pays, lidentification a été correcte dans la majorité des cas, alors que le groupe sénoufo, réparti sur trois pays, a été mal identifié. Ces faits sont sans doute le reflet de ce que le français nest pas appris comme une langue étrangère mais comme une langue qui fait lobjet dune appropriation communautaire denvergure nationale, avec des identités en train de se construire au-delà des identités ethnolinguistiques. Le rôle des médias dans cette insertion du français dans les nations, de la radio, des talk-shows télévisés, nest pas à écarter. Dautres études sont requises : pour faire la part entre le national et lethnolinguistique ; il faudrait inclure un plus grand nombre de locuteurs dune même ethnie répartie sur plusieurs pays.
Arriver à définir ces accents, les caractériser avec précision, est une tout autre affaire, bien sûr plus difficile. Reconnaître un accent, en effet, fait appel à des ressources cognitives et à des routines variées, conscientes et inconscientes. Les Ivoiriens « ne prononcent pas les r », à ce quon dit,. Il reste que les différences perçues entre les variétés de français étudiées ne sont pas réductibles à ce seul trait. Pour séparer les locuteurs sur la base de leur appartenance géo/ethnolinguistique, dautres traits plus ou moins bien documentés [Cissé, 2006] sont à déterminer, au-delà des lieux communs souvent réversibles (une variété X est décrite comme chantante par les locuteurs dune variété Y et vice versa). Les Wolof nont pas les contraintes que connaissent les langues à tons, mais possèdent un accent initial dans leur langue première. Peut-on le retrouver également en français ?
Indices acoustiques : étude préliminaire
À la fin du test, dix auditeurs ont, dans leurs commentaires, mentionné des traits segmentaux et suprasegmentaux attribués à des appartenances ethnolinguistiques plus que nationales. Les traits suprasegmentaux, afférents à la mélodie (aiguë, chantante) et au rythme (haché, rapide), étaient presque toujours attribués à laccent wolof (ou sénégalais). Parmi les traits segmentaux, les sujets ont relevé une prononciation spécifique du [p] également attribuée à laccent wolof, (ou sénégalais) un déplacement des voyelles nasales attribué à laccent bambara (ou malien), un /(/ prononcé [s] et un [r] roulé attribués à laccent mooré (ou burkinabè). La réalisation [r] (ou [(]), trait le plus fréquemment cité, lest cependant également pour dautres accents. Nous allons lexaminer dans cette section, après une analyse de la prosodie et avant une analyse de la réalisation des consonnes occlusives.
Analyse de la prosodie
Il semble que les Wolof produisent des patrons prosodiques spécifiques. Des mesures inspirées par les commentaires des auditeurs ont été faites pour le quantifier
Dans notre corpus, les séquences « inconnue et tranquille » et « bataille politique » revenaient à chaque phrase lue (en position non-finale), et ont fait lobjet de divers commentaires. Aussi avons-nous mesuré la différence de fréquence fondamentale ((F0) entre les noyaux des syllabes finales et initiales de chacun de ces mots ([ny][((], [kil][t(((], [taj][ba] et [tik][p(]). Les valeurs de F0 ont été calculées au moyen du logiciel Praat avec les options par défaut. Les résultats, calculés en demi-tons, sont moyennés par pays dans le tableau 4.5. Moyennées par appartenance ethnolinguistique et sur les quatre mots, les valeurs de (F0 sont de 2,9 demi-tons pour les Akan, 1,1 demi-tons pour les Bambara, 1,2 demi-tons pour les Sénoufo, 1,5 pour les Mossi et -1,7 demi-tons pour les Wolof. Les Sénégalais (ou Wolof), en moyenne, sont donc les seuls à présenter des mesures négatives, correspondant à une mélodie descendante. Une telle intonation accompagnant ce quon peut interpréter comme des accents initiaux se retrouve ailleurs, en lecture et en parole spontanée (cf. § 4.5.2).
Burkina FasoCôte dIvoireMaliSénégal1,52,61,3-1,7Tableau 4.5 : différence de F0 (en demi-tons) entre la syllabe finale et la syllabe initiale des mots inconnue, tranquille, bataille et politique, extraits de la phrase lue de lexpérience perceptive.
La figure 4.5 illustre les contours de F0 extraites par le logiciel Praat pour une locutrice sénégalaise wolof (jB) et une locutrice ivoirienne akan (vC) lisant la séquence une bataille politique. On voit sur cet exemple que chez la locutrice sénégalaise (à gauche), dans le mot bataille le premier [a] est plus haut que le second et dans le mot politique la première voyelle est plus haute que la dernière. On a le patron inverse chez la locutrice ivoirienne (à droite).
EMBED PBrush Figure 4.5 : cou.rbes de F0 extraites par Praat pour la séquence une bataille politique lue par une locutrice sénégalaise wolof (à gauche) et une locutrice ivoirienne akan (à droite).
Analyse de la prononciation du /R/
Une analyse fine de la prononciation du /R/ a été menée sur les locuteurs ivoiriens, chez qui cette consonne peut être vocalisée ou élidée en position de coda, favorisant ainsi une structure CVCV [Boutin & Turcsan, 2009]. Le /R/, également, est particulièrement affecté dans les groupes consonantiques, mais il lest aussi en position intervocalique et même initiale. Le contexte phonologique ainsi que des facteurs sociolinguistiques concernant les locuteurs et les situations de parole ont été examinés, mais il semble quon ait affaire à un phénomène de variation libre : un même locuteur, dans un même énoncé et dans un même environnement phonologique, peut à quelques secondes dintervalle alterner entre un [(] uvulaire perçu comme français et des variantes bien différentes. On sait que ce phonème, un des plus fréquents du français et de notre corpus, est par son extrême variabilité phonétique prédisposer à jouer un rôle sociolinguistique, et combien il donne du fil à retordre aux phonéticiens [Autesserre & Chafcouloff, 1999] (cf. chapitre 3).
De façon analogue, les /R/ sous-jacents figurant dans les stimuli de notre expérience perceptive ont été annotés manuellement. Au nombre de 283, ils ont été classés en trois catégories : [(] apical, [(] dorsal, et [w] labialisé ou élidé. Le tableau 4.6 rapporte les résultats par pays les résultats par appartenance ethnolinguistique concordent pour une large part. Les Ivoirien (ou les Akan) sont ceux qui ont le plus de /R/ vocalisés ou élidés, et les Sénégalais (ou les Wolof) sont ceux qui produisent le plus de /(/ dorsaux. Les Maliens et les Burkinabè, quant à eux, montrent une majorité de /(/ apicaux. Les chiffres correspondent assez bien à la conscience linguistique « naïve », avec peut-être une nuance à apporter pour les Sénégalais (wolophones). Ces derniers, même si la norme sénégalaise est le /r/ apical, produisent plus que leurs voisins de prononciations conformes à la norme hexagonale, rejoignant en cela des observations faites en wolof même, où des [(] à la française peuvent être utilisés [Moreau & Thiam, 1995]. Cette prononciation pouvant passer pour tubab, un jeu sociolinguistique extrêmement complexe est à luvre.
%/R/Burkina FasoCôte dIvoireMaliSénégal[(] apical71399159[(] dorsal510023[w] labialisé ou élidé2451918Tableau 4.6 : pourcentages par pays de /R/ apicaux, dorsaux ou labialisés/ élidés dans les stimuli de lexpérience perceptive.
Analyse de la prononciation des consonnes occlusives
Pour les consonnes occlusives, nous avons fait des mesures de VOT [Lisker & Abramson, 1967]. Défini comme lintervalle de temps entre la détente de locclusion et le début des vibrations périodiques, le VOT est un indice important du voisement et du lieu darticulation des occlusives. Il a été mesuré sur 703 occurrences de consonnes occlusives apparaissant dans les stimuli de lexpérience perceptive : occlusives sourdes (pour lesquelles le VOT est autour de 20 ms) et occlusives sonores (pour lesquelles le VOT est négatif, autour de -60 ms). Ces mesures sont données par pays dans le tableau 4.7. Elles sont de lordre de grandeur des valeurs mesurées pour le français standard [Saerens et al., 1989]. Laugmentation du VOT (entre [p t k] notamment) est également attendue.
VOT Burkina FasoCôte dIvoireMaliSénégal[p]17121415[t]26232320[k]31293329[b]-66-65-55-65[d]-58-62-61-70[(]--54-42-49Tableau 4.7 : VOT (en ms) des consonnes occlusives sourdes et sonores, par pays, dans les stimuli de lexpérience perceptive.
Des chiffres du tableau 4.7, aucune différence entre variétés némerge. Le trait de VOT na pas été pris en considération dans la section suivante. En § 4.5, les patrons prosodiques de (F0 et la prononciation du /R/ ont été analysés sur la base du texte lu. Comme le pays des locuteurs a été bien identifié (avec des différences non-significatives entre parole lue et spontanée), on devrait être capable de trouver des indices acoustiques discriminants sur ce matériau directement comparable quest la parole lue. Et si les résultats de cette étude acoustique préliminaire peuvent être étendus à dautres locuteurs, sur davantage de données, nos mesures devront les corroborer.
Analyse du texte lu
Méthode
Le texte lu par les 52 locuteurs ouest-africains et les 21 locuteurs français présentés en 4.2.2 a été segmenté et étiqueté phonétiquement par alignement automatique. Le principe en a été exposé dans les chapitres précédents. Le système du LIMSI, avec les mêmes modèles acoustiques indépendants du contexte, a ici été utilisé.
Deux types dalignements ont été effectués : un alignement standard pour lanalyse de la prosodie et un alignement avec variantes de prononciation non-standard pour lanalyse de la réalisation du /R/. Dans ce deuxième alignement, les variantes [(|(|w] étaient autorisées. Les modèles acoustiques ont été enrichis avec les modèles espagnols pour le [(] apical, puisque ce dernier nappartient pas à linventaire de phonèmes du français standard, et un nouveau dictionnaire de prononciation a été construit. Lélision du /R/ était également permise dans lalignement. Des taux dalignement ont ensuite été calculés, simulant une catégorisation en [(] dorsal, [(] apical et [w] labialisé ou élidé.
Analyse de la prosodie
La F0 a été mesurée toutes les 10 ms en utilisant Praat et Snack. Deux façons dassigner une valeur de F0 à chaque phonème issu de lalignement automatique ont également été comparées. La première consistait à moyenner toutes les mesures disponibles pour chaque phonème. La seconde consistait à ne retenir que les phonèmes voisés sur au moins 70 % de leurs trames dans les calculs de la F0 moyenne sinon, les phonèmes étaient considérés comme non-voisés. Quels que soient loutil et la méthode utilisés, on aboutit à des résultats très similaires. Seuls les résultats obtenus en moyennant les mesures de Praat prises toutes les 10 ms seront présentés.
Deux types danalyse ont été menés pour suivre les mouvements mélodiques. Le premier prenait en compte tous les polysyllabes (cest-à-dire les mots contenant au moins deux voyelles et potentiellement un schwa final). Il y avait 127 polysyllabes différents dans le texte PFC (ex. village, Beaulieu). Des mots comme virgule ou parenthèse, qui pouvaient être produits par les locuteurs, nont pas été pris en considération parce quils ne faisaient pas partie du texte. Ceci laissait au moins 1000 occurrences par point denquête. La deuxième analyse sest concentrée sur les suites clitique-polysyllabe. Pour les clitiques, nous avons considéré des mots-outils fréquents comme le, la, les (cf. chapitres 3 et 8). Il y avait 20 clitiques différents dans le texte PFC, aboutissant à au moins 500 contextes clitique- polysyllabe par point denquête (ex. une bataille).
La différence de F0 (en demi-tons) entre les voyelles finale et initiale de polysyllabes a été calculée comme précédemment (cf. § 4.4.1). Les résultats sont donnés dans le tableau 4.8. Une ANOVA a été menée avec la variable dépendante (F0 et le facteur indépendant Pays denquête (5 niveaux : Burkina Faso, Côte dIvoire, Mali, Sénégal et France). Le Pays sest révélé avoir un effet significatif [F(4, 8943) = 57,782 ; p < 0,001]. Des tests de Student deux à deux ont révélé que toutes les différences sont significatives avec p < 0,01, sauf celles entre le Burkina Faso et la Côte dIvoire [p = 0,05] et entre le Mali et la France [p = 0,56].
Burkina FasoCôte dIvoireMaliSénégalFrance1,51,10,5-0,40,6Tableau 4.8 : (F0 moyen (en demi-tons entre les voyelles finale et initiale de polysyllabes appartenant au texte lu.
Comme dans le tableau 4.5 pour des données plus contrôlées mais aussi plus restreintes, la seule valeur négative de F0 sobserve au Sénégal, où elle est de -0,4 demi-tons en moyenne. En comparaison, la valeur moyenne de F0 est de 0,6 demi-tons en France. Il y a donc une différence d1 demi-ton en moyenne.
On a une majorité de mouvements mélodiques descendants au Sénégal (59 % vs 2744 % dans les autres points denquête). Pour vérifier sil est pertinent dinterpréter ce résultat en termes daccent initial, nous avons regardé les contextes clitiquepolysyllabe. Les contours mélodiques en demi-tons par rapport à la F0 de la voyelle du clitique sont schématisés dans la figure 4.6.
Figure 4.6 : contours mélodiques (en demi-tons par rapport à la F0 de la voyelle du clitique) de suites clitiquepolysyllabe.
Seul le Sénégal présente un contour montant-descendant, typique dun accent initial. On peut y voir un transfert prosodique du wolof - tous les locuteurs sénégalais sauf un étaient de langue première wolof. Comme les Wolof, les locuteurs songhay et tamasheq du nord du Mali ont des langues non-tonales [Lyche & Skattum, 2010]. Les textes lus par de tels locuteurs, au nombre de 5 dans notre corpus, ont été regardés plus en détail. Mais leurs contours mélodiques sont très proches de ceux des autres locuteurs maliens. Ces locuteurs, comme les Français natifs, peuvent être considérés comme ayant un ton sous-spécifié sur la voyelle initiale des polysyllabes. En revanche, au Burkina Faso et en Côte dIvoire, la différence nulle ou faible de F0 entre la voyelle initiale du polysyllabe et celle du clitique qui précède peut être interprétée comme un patron bas-haut (LH) sur le polysyllabe.
Analyse de la prononciation du /R/
Il y avait plus de 1000 occurrences de /R/ dans le texte PFC. Afin danalyser leur prononciation à laide de lalignement automatique avec variantes, comme expliqué en § 4.5.1, nous avons eu recours à un xénophone pour rendre compte de la réalisation en [(] apical. Dans les résultats dalignement automatique rapportés dans le tableau 4.9, cette variante part en quelque sorte avec un handicap en comparaison avec les résultats de lannotation manuelle rapportés dans le tableau 4.6. Elle est de façon rassurante rarement sélectionnée en français standard. Toutefois, elle est alignée dans une majorité des cas (cest-à-dire que laligneur a considéré que le [(] apical était le plus proche de ce qui avait été prononcé) au Burkina Faso et au Mali, comme dans les stimuli annotés manuellement de lexpérience perceptive.
%/R/Burkina FasoCôte dIvoireMaliSénégalFrance[(] apical6238613912 [(] dorsal2642295076 [w] labialiséou élidé1220101111Tableau 4.9 : pourcentage de /R/ apicaux, dorsaux, labialisés ou élidés, alignés automatiquement dans le texte PFC.
Le [(] dorsal est le plus souvent aligné au Sénégal, alors que cest en Côte dIvoire quon a le taux le plus élevé de labialisation/élision, en accord avec le tableau 4.6. Ces résultats suggèrent que lalignement automatique avec variantes de prononciation est bien adapté pour caractériser diverses réalisations du /R/ français.
Conclusion
Le but de ce chapitre était double : examiner dans quelle mesure divers accents ouest-africains en français peuvent être distingués et trouver des indices phonétiques discriminant des variétés de français parlées dans la sous-région dAfrique de lOuest. Une expérience perceptive a dans un premier temps été menée, dont la tâche consistait (entre autres choses) à identifier lappartenance ethnolinguistique et le pays de résidence de 20 locuteurs mossi, akan, bambara, sénoufo et wolof, enregistrés au Burkina Faso, en Côte dIvoire, au Mali et au Sénégal. Elle a montré que des accents ouest-africains (notamment sénégalais et ivoirien) peuvent être identifiés par des auditeurs ouest-africains sans que le style (lu ou spontané) ni le niveau détudes des locuteurs ne semble affecter les résultats. Parmi les appartenances ethnolinguistiques, seul le groupe sénoufo na pas bien été reconnu en accord avec la conscience linguistique auto-évaluée par les auditeurs.
Des indices perceptivement saillants, différenciant notamment les accents wolof (Sénégal) et akan (Côte dIvoire) ont ensuite été analysés sur le corpus expérimental. Des traits suprasegmentaux (différences de fréquence fondamentale sur les polysyllabes) et segmentaux (différentes réalisations du /R/) ont corroboré certaines impressions des auditeurs et/ou connaissances linguistiques sur les systèmes des langues en présence, tandis que le trait subsegmental de VOT ne sest pas montré discriminant. Les différences les plus importantes qui ont été dégagées concernaient le Sénégal (avec une propension à laccentuation initiale suivie de mouvements mélodiques descendants) et la Côte dIvoire (avec une tendance à lélision ou à la vocalisation du /R/).
Létape suivante a consisté à vérifier si les résultats liés aux deux premiers traits (ceux qui semblaient pertinents) pouvaient être étendus à un plus grand corpus. Nous avons continué à chercher les indices susceptibles dêtre mobilisés pour distinguer entre accents ouest-africains, en termes de pays plutôt que dappartenances ethnolinguistiques, ce qui nous a permis délargir lensemble de locuteurs. En utilisant lalignement automatique en phonèmes, les textes lus par 52 locuteurs du Burkina Faso, de Côte dIvoire, du Mali et du Sénégal ont été analysés et comparés aux lectures de 21 locuteurs de France. Les mesures ont pour une large part confirmé les premières tendances : patrons mélodiques descendants (HL) sur les polysyllabes et davantage de /R/ dorsaux au Sénégal, patrons LH sur les polysyllabes et davantage de /R/ élidés ou labialisés en Côte dIvoire.
Au-delà des mesures instrumentales, le fait que les accents du Sénégal et de Côte dIvoire soient les plus distincts (et les mieux identifiés) est à relier à des facteurs sociolinguistiques, géographiques et démographiques qui autorisent des hypothèses sur la structuration daires linguistiques dans les pays dits francophones dAfrique de lOuest. Mais les spécificités de ces accents ne sont pas imputables aux mêmes processus. En Côe dIvoire, le français est largement approprié et nativisé, et laccent sest formé en labsence dune langue africaine dominante [Boutin & Turcsan, 2009]. Au Sénégal, le wolof joue un rôle essentiel [Boutin & Gueye, à paraître], et des éléments de cette langue ont pu être transférés au contact du français : le wolof langue sans tons lexicaux, alors que la plupart des autres langues dAfrique d e lOuest sont des langues tonales est notamment caractérisé par un accent initial (de mot) qui peut être transmis au français.
Des études plus approfondies sont nécessaires afin de trouver des indices discriminants pour le Mali et le Burkina Faso. Des travaux supplémentaires devront également porter sur la parole spontanée. Alors seulement pourra être envisagée une modélisation par classification automatique, comme cela a été développé dans le chapitre précédent et le sera de nouveau dans le prochain chapitre. Quant à lapproche globale, elle mérite dêtre étendue à des auditeurs et des locuteurs dautres origines. Dautres études sont enfin requises pour faire la part entre le national et lethnolinguistique : il faudrait inclure un plus grand nombre de locuteurs dune même ethnie répartie sur plusieurs pays.
La méthodologie proposée ici, pour étudier quelques accents africains en français, peut être appliquée à dautres accents : accents anglais, espagnols, etc. Dans les prochains chapitres, où nous travaillerons sur des langues de statuts comparables, comme le français, lespagnol et litalien, nous passerons sous silence toute une gamme de paramètres historiques et sociaux. Mais ceux-ci referont surface dès le chapitre 7, où sera évoqué notamment laccent « de banlieue », avec une attention particulière portée à la prosodie.
5
5. Accents étrangers en français : allemand, anglais, arabe, espagnol, italien, portugais
Introduction
Nous avons étudié dans les chapitres précédents dans quelle mesure peuvent être identifiés des accents du nord, du sud et de la périphérie de la France ainsi que dAfrique de lOuest. Des auditeurs natifs du français sont-ils capables de reconnaître la langue maternelle dAllemands, dAnglais, dArabes, dEspagnols, dItaliens ou de Portugais parlant français avec un accent étranger ? Quels sont les indices qui permettent de le faire ? Et la machine peut-elle contribuer à modéliser la perception humaine ? Le présent chapitre, traitant du français prononcé par des locuteurs natifs des langues que nous venons de citer, vise à répondre à ces questions. Dans le but de construire un ensemble concis de traits de prononciation, mesurables et linguistiquement motivés, nous avons eu recours à des techniques de classification et de sélection dattributs venant compléter celles que nous avons présentées au chapitre 3 (cf. § 3.6.2). Pour le reste, nous avons dans lensemble appliqué la même méthodologie que pour les accents régionaux, combinant connaissances linguistiques et traitement automatique de la parole : nous sommes partis dexpériences perceptives didentification ; nous avons mesuré les traits phonétiques qui peuvent caractériser ces accents en utilisant lalignement automatique en phonèmes ; et nous avons cherché à hiérarchiser les traits les plus discriminants en utilisant des techniques de fouille de données (data mining), nous intéressant aux performances que lon peut atteindre avec un système automatique exploitant des traits perceptivement saillants.
Dans le domaine des accents étrangers, de nombreuses études portent sur linteraction entre les systèmes phonologiques de la langue maternelle (L1) et dune langue seconde (L2). Nous avons eu loccasion de lévoquer en introduction à ce document (cf. § 1.4.6) : linfluence du système de la L1 sur la perception et la production dune L2 a fait lobjet de nombreux travaux en psycholinguistique [Flege & Hammond, 1982 ; Piske et al., 2001]. Une partie des phonèmes peut être considérée comme partagée par la L1 et la L2 [Liberman et al., 1957], tandis quune autre partie peut être spécifique à seulement lun des inventaires phonologiques. Par exemple, /y/ est un phonème du français, mais cette unité na pas de rôle fonctionnel en anglais (même si un son approchant peut être entendu dans un mot comme due). Des difficultés à prononcer un /y/ français peuvent contribuer à la perception dun accent étranger dans notre langue. Mais aussi et surtout, sans doute , ce qui participe dun accent étranger, ce sont ces différences de détail dans la réalisation phonétique de phonèmes qui peuvent être considérés comme communs à la L1 et la L2 (par exemple, /t/, qui peut être plus ou moins aspiré). Aussi les consonnes occlusives peuvent-elles trahir un anglais avec accent arabe [Flege & Post, 1981] ou français [Flege, 1984]. Parmi les indices qui contribuent à une impression daccent étranger en anglais, également, une assez riche documentation sur laccent espagnol cite des facteurs affectant la structure syllabique, le timbre des voyelles, les consonnes (en particulier /s/~/z/ et /b/~/v/) ainsi que laccent lexical [Flege & Hammond, 1982 ; Magen, 1998].
La plupart des études sur les accents étrangers se focalisent sur les voyelles [Lauret, 1998 ; Flege et al., 2003 ; Magnen et al., 2005]. Mais dautres niveaux linguistiques comme le rythme et lintonation peuvent aussi contribuer à déceler un accent étranger (cf. chapitres 6 et 7). Des chercheurs comme Freland-Ricard [1996] ont montré que, chez des apprenants du français langue étrangère, la prosodie de la langue maternelle reste sous-jacente, en labsence dentraînement spécifique. Nous reviendrons, au cours des prochains chapitres, sur le rôle joué par la prosodie dans une impression daccent étranger. Concernant, le rythme, une série de question se posent en lien avec laccent étranger. Est-ce que les classes rythmiques à chronométrage accentuel (stress-timed)) ou syllabique (syllable-timed) traditionnellement considérées pour les langues elles-mêmes restent valides pour de la parole non-native ? Est-ce que les Portugais (dont la L1 est classée parmi les langues à chronométrage accentuel [Frota et al., 2007]) vont en français adopter un rythme semblable à celui de leurs cousins de langue romane, à chronométrage syllabique ? Quel sera le comportement des Maghrébins, dont les dialectes peuvent être considérés comme ayant un chronométrage accentuel et dont la langue standard est à chronométrage syllabique [Ghazali et al., 2002] ? Des paramètres ont été proposés pour valider ou invalider lexistence de ces classes rythmiques [Ramus, 1999 ; Grabe & Low, 2002]. Ces mesures, effectuées sur des corpus assez petits, segmentés et annotés à la main, ont connu un certain succès [Romano, 2010].
Depuis quelques années aussi, le problème de laccent étranger a retenu lattention de chercheurs dans le domaine du traitement automatique de la parole, le plus souvent dans le but de réduire les taux derreurs de reconnaissance sur la parole non-native. Différentes directions ont été explorées : stratégies dapprentissage pour construire des modèles acoustiques spécifiques aux accents étrangers, stratégies dadaptation pour générer des variantes de prononciation non-standard à ajouter aux dictionnaires de prononciations [Livescu & Glass, 2000 ; Silke et al., 2004 ; Cincarek et al., 2004 ; Bouselmi et al., 2006]. Plus rares sont les études qui abordent la question de lidentification automatique des accents. Citons toutefois quelques travaux conduits sur langlais parlé avec divers accents étrangers [Arslan & Hansen, 1997 ; Kumpf & King, 1997 ; Berkling, 2001 ; Angkititrakul & Hansen, 2003 ; Pedersen, 2009]. Des études dorientation plus linguistique existent [ten Bosch & Cremelie, 2002 ; Schaden, 2004 ; Raux, 2004 ; Bartkova & Jouvet, 2004]. Fondées sur lalignement, comme celle de Goronzy [2004], ces études quantifient des diminutions de taux derreur de reconnaissance, mais elles ne sont pas facilement comparables et nexplicitent pas comment identifier lorigine dun accent étranger. Sangwan et Hansen [2009] exploitent certes des traits phonologiques, mais cest dans une perspective danalyse (de langlais parlé par des Chinois) plus que d'identification.
La perspective de ce chapitre, comme dans le chapitre 3, est triple perception, analyse et identification automatique. De plus, alors que les études que nous venons de mentionner sur langlais traitent deux ou trois types daccents étrangers, nous avons étendu ce nombre à six : nous avons entrepris de travailler à partir denregistrements de locuteurs natifs de lallemand, de langlais, de larabe, de lespagnol, de litalien et du portugais. Le choix de ces langues a été établi en croisant des statistiques sur le tourisme et limmigration en France, daprès lesquelles les accents correspondants devraient être les plus familiers aux oreilles dauditeurs français.
Le corpus utilisé dans ce travail est décrit en section 5.2. Il comprend 84 locuteurs (72 non-natifs et 12 natifs du français), dont les enregistrements ont été collectés en deux temps, à partir de deux sous-ensembles (équilibrés de la même façon en termes dorigines linguistiques) de 42 locuteurs. Le premier sous-ensemble a été utilisé pour une expérience perceptive et des analyses acoustiques qui nous ont permis démettre des hypothèses quant aux traits caractérisant les différents accents ; le deuxième sous-ensemble a servi pour une expérience perceptive ultérieure et a été gardé de côté pour tester les hypothèses à travers une tâche de classification automatique.
La section 5.3 présente les tests perceptifs les tâches et le protocole, le dispositif expérimental et les auditeurs, ainsi que les résultats correspondants. Outre une identification des accents, le degré daccent des locuteurs a été jugé par des auditeurs natifs du français.
Dans la section 5.4, nous examinons quelques traits phonétiques (dont des indices signalés par les auditeurs de la première expérience perceptive) concernant le timbre des voyelles, larticulation des consonnes et la prosodie. Les différentes analyses acoustiques effectuées reposent sur les alignements automatiques utilisant le système du LIMSI, comme dans les chapitres précédents avec dabord des modèles acoustiques et un dictionnaire de prononciation standards, avec ensuite des variantes de prononciation liées aux accents étrangers ajoutées au dictionnaire de prononciation, avec enfin un jeu de modèles acoustiques étendu (incluant des modèles acoustiques étrangers au français).
La section 5.5 interroge la pertinence de tous ces traits de prononciation dans une tâche de classification automatique (en six accents étrangers plus le français natif). Des expériences ont été menées (avec le sous-ensemble mis de côté de notre corpus), et la contribution de différents ensembles linguistiques de traits a été évaluée (formants des voyelles, durée et voisement des consonnes, indices prosodiques, variantes de prononciation dérivées des alignements). Les résultats de la classification obtenue avec lensemble des meilleurs traits sélectionnés automatiquement sont enfin rapportés et comparés à la perception humaine. La section 5.6 conclut ce chapitre.
Corpus
Pour cette étude, un corpus de plus de 15 heures de parole a été collecté, comprenant de la lecture et de la parole spontanée, de locuteurs natifs et non-natifs enregistrés dans des conditions similaires (dans une pièce calme, avec un micro de haute qualité, situé à environ 20 cm de la bouche). Comme mentionné ci-dessus, le corpus comprend six accents étrangers : allemand, anglais, arabe, espagnol, italien et portugais. Douze locuteurs ont été enregistrés pour chaque accent, en plus de douze locuteurs natifs du français qui pouvaient être considérés comme groupe contrôle. Tous ces locuteurs (12 locuteurs par accent) étaient européens ou originaires de pays arabes nous verrons au chapitre 7 quil est difficile de discriminer les origines possibles, algérienne, marocaine ou tunisienne, de locuteurs parlant français. Les locuteurs hispanophones nétaient ni catalans ni latino-américains. Quant aux locuteurs natifs du français, il sagissait détudiants qui étaient nés et avaient grandi dans la région parisienne. Pour chaque locuteur, on avait environ 6 minutes de lecture et autant de parole spontanée. Lensemble des enregistrements de parole lue a été transcrit orthographiquement, en corrigeant déventuelles erreurs de lecture. Seule une petite partie de la parole spontanée (utilisée dans une première expérience perceptive, totalisant 6 minutes de parole) a été transcrite manuellement afin de pouvoir fournir des éléments de comparaison.
Le matériel lu provient de deux textes largement utilisés dans des études phonétiques/ phonologiques : le texte du projet PFC (cf. § 2.2), denviron 400 mots, et la fable « La bise et le soleil » de lAssociation Phonétique Internationale (API), de 125 mots dans sa version française. La lecture de ces deux textes dure en moyenne 5 minutes et 1 minute respectivement, pour chaque locuteur. Quant à la parole lue, elle est issue dentretiens semi-directifs avec lexpérimentateur, de 510 minutes pour chaque locuteur.
Les locuteurs ont été enregistrés en deux temps, formant deux groupes (nommés « ensemble A » et « ensemble B »), chacun étant constitué de 42 locuteurs 6 par L1. Les locuteurs non-natifs de lensemble A (en parole spontanée) et les locuteurs de lensemble B (lisant le texte de lAPI) ont été utilisés dans des expériences perceptives (cf. § 5.3). Les locuteurs de lensemble A ont ensuite été utilisés pour des analyses acoustiques (cf. § 5.4) et pour entraîner des systèmes de classification automatique (cf. § 5.5), tandis que les locuteurs de lensemble B ont été gardé à part pour tester ces systèmes sur des données non-vues.
En moyenne, les locuteurs non-natifs de lensemble A (autant dhommes que de femmes, tous étudiants) étaient âgés de 25 ans, vivaient en France (dans la région parisienne) depuis 15 mois et avaient commencé à étudier le français à lâge de 15 ans. En moyenne, les locuteurs non-natifs de lensemble B (également étudiants) avaient 27 ans, étaient arrivés en France depuis 21 mois et avaient commencé à apprendre le français à lâge de 15 ans. Les deux ensembles étaient globalement comparables, eu égard à lâge et à lexposition au français : lâge des locuteurs allait de 24 à 27 ans dans lensemble A, de 24 à 34 ans dans lensemble B ; leur temps de résidence en région parisienne allait de 6 à 37 mois dans lensemble A, de 13 à 37 mois dans lensemble B ; et lâge de début dacquisition du français langue étrangère allait de 10 à 24 ans dans lensemble A, de 10 à 19 ans dans lensemble B. Les degrés daccent devraient donc être comparables, même si lon peut faire lhypothèse dun degré moindre pour lensemble B (dont le séjour en France est légèrement moins long). Aucun test de langue na été conduit.
Expériences perceptives
Tâches et protocole
Deux expériences perceptives ont été conduites pour déterminer dans quelle mesure des auditeurs natifs du français sont à même didentifier les accents dont il est question dans ce chapitre. Comme dans le chapitre précédent, cette tâche didentification de la L1 des locuteurs était couplée avec une tâche secondaire, dont le but était dévaluer le degré daccent des locuteurs : le protocole était similaire.
Il était dabord demandé aux sujets destimer leur familiarité avec les différents accents et langues : ils devaient indiquer si oui/non ils se sentaient capables de reconnaître tel ou tel accent en français, et dévaluer leurs propres connaissances dans telle ou telle langue comme faibles, moyennes ou bonnes. Suivait une phase de familiarisation avec les accents étrangers étudiés, utilisant des locuteurs (dont lorigine était indiquée) et un contenu différents de ceux du test proprement dit. Le test proprement dit consistait à évaluer leur degré daccent sur une échelle allant de 0 (pas daccent) à 5 (très fort accent) et à identifier la langue maternelle des locuteurs. Le choix était forcé (sans distracteur ni classe rejet) parmi allemand, anglais, arabe, espagnol, italien et portugais, dans une première expérience (6L1). Le choix était forcé parmi sept possibilités (le français, en plus de ces six origines) dans une deuxième expérience (7L1).
Les stimuli (préalablement égalisés) étaient présentés dans un ordre aléatoire différent pour chaque sujet. Comme antérieurement, chaque stimulus pouvait être réécouté, arrêté au milieu ou repris à partir dun certain point ; mais il était impossible de revenir en arrière une fois passé au stimulus suivant.
Dispositif expérimental
Pour lexpérience 6L1, des extraits de parole spontanée denviron 10 secondes ont été sélectionnés à partir des locuteurs non-natifs de lensemble A (cf. § 5.2), daprès les mêmes critères que dans les expériences décrites dans les chapitres précédents (cf. p. ex. § 2.3.1) et pour labsence derreurs morphosyntaxiques qui pouvaient être typiques dune L1 donnée. Le test portait donc sur 36 stimuli. Il se déroulait dans une chambre isolée, à travers linterface déjà utilisée dans les expériences 6rp et 6rm (cf. § 2.3.2). Les auditeurs, munis dun micro, étaient invités à réagir verbalement à lécoute de chaque stimulus (en limitant voire en le caricaturant) ou à écrire leurs commentaires dans une fenêtre de texte. Ces données étaient enregistrées stimulus par stimulus, et les consignes données aux sujets suggéraient simplement de préciser quels traits non-natifs dans la prononciation et lintonation du locuteur leur semblaient marquants.
Lexpérience 7L1 était fondée sur la lecture du texte de lAPI (environ 1 minute de parole) par les locuteurs de lensemble B (dont 6 locuteurs natifs du français). Nous voulions tester quels accents étrangers étaient les plus susceptibles dêtre confondus avec du français natif et examiner ces nouveaux résultats en lien avec le degré daccent des locuteurs. Les sujets pouvaient également préciser sur quels indices ils fondaient leurs décisions, mais seulement à travers des commentaires écrits à la fin du test. Linterface était la même que dans les expériences 7rp et 7Be (cf. § 3.3.2).
Auditeurs
Chaque expérience impliquait 25 auditeurs naïfs, natifs du français, vivant dans la région parisienne, sans problèmes daudition. Comme dans des expériences précédentes (cf. p. ex. § 4.3.3), ils nétaient pas payés pour leur participation, qui était de 3045 minutes par sujet.
La majorité des sujets, avant le test, sestimaient capables de reconnaître les accents arabe, allemand et anglais ; mais ils étaient en moins grand nombre à penser pouvoir reconnaître les accents espagnol, portugais et italien. Ces tendances ne vont pas de pair avec les connaissances des auditeurs dans les langues correspondantes, également auto-évaluées par les sujets : presque tous, par exemple, déclaraient quils navaient pas ou que peu de connaissances en arabe, alors que presque tous se sentaient capables de reconnaître un accent arabe en français.
Résultats : tâches dévaluation et didentification
Pour les deux expériences (6L1 et 7L1), nous résumons dans le paragraphe suivant les résultats, fondés sur lécoute des stimuli, en matière dévaluation du degré daccent, avant de présenter les résultats des tests didentification perceptive proprement dits. Des représentations graphiques de cette identification seront données, par clustering, mesurant des distances perceptives entre les accents étudiés, en 5.3.5 ; des tests statistiques suivront. Les indices perçus par les auditeurs seront rapportés en 5.3.6.
Dans chacune des deux expériences, le degré daccent moyen des locuteurs non-natifs, évalué par les auditeurs, était de 2,7 sur 5. Les degrés daccents étaient comparables entre les différents groupes linguistiques de locuteurs non-natifs (voir les premières lignes des tableaux 5.1 et 5.2), sauf pour les Arabes : ceux de lensemble A (expérience 6L1) ont été jugés comme ayant un accent moyen (2,4), tandis quun accent plus léger (1,5) a été évalué pour les locuteurs arabes de lensemble B (expérience 7L1). Cette différence ne sexplique pas facilement : en moyenne, les deux groupes avaient commencé à apprendre le français à lâge de 10 ans ; en moyenne, les locuteurs arabes de lensemble B étaient plus âgés que ceux de lensemble A (31 ans vs 27 ans), mais ils étaient arrivés depuis moins longtemps en France (27 mois vs 37 mois). À la lumière de ces résultats et en labsence de test de langue, on peut seulement faire lhypothèse que, pour les Arabes la lecture produit une parole plus normée que le spontané.
Les résultats des tâches didentification des expériences 6L1 et 7L1 sont également consignés dans les tableaux 5.1 et 5.2 respectivement. Dans les deux expériences, la langue maternelle des locuteurs a été correctement identifiée à plus de 50 %. Le taux didentification correcte est de 52 % dans lexpérience 6L1 et de 60 % dans lexpérience 7L1. Le fait que les résultats soient meilleurs dans lexpérience 7L1 est essentiellement dû à lidentification presque parfaite (à 96 %) des locuteurs natifs du français. Si on exclut ces locuteurs français, le taux didentification correcte descend à 54 % (très similaire aux résultats de lexpérience 6L1). Cette similarité, en dépit de différences de dispositif expérimental (10 secondes de parole spontanée vs 1 minute de lecture), avec des locuteurs différents (ensemble A vs ensemble B) est intéressante à noter. Néanmoins, elle ne doit pas occulter dimportantes différences entre accents.
Des tests de Dz montrent que pour chaque L1 les taux d identification sont significativement au-dessus du seuil de hasard. À chaque fois, la réponse majoritaire est la bonne pour une origine donnée, ce qui reste vrai pour la plupart des locuteurs (25 locuteurs sur 36 dans lexpérience 6L1, 28 non-natifs et les 6 natifs dans lexpérience 7L1). Dans les deux expériences, les confusions les plus fréquentes impliquent les paires daccents espagnol/ italien et anglais/allemand. Dans les deux expériences également, les taux didentification correcte les plus faibles sobservent pour laccent portugais, qui peut être pris pour nimporte quel accent autre que langlais. Le stéréotype chuintant qui est souvent et à tort associé à laccent portugais peut expliquer pourquoi cet accent est mal reconnu. Parmi les accents les mieux reconnus, apparaissent larabe, lallemand et lespagnol dans lexpérience 6L1, langlais, lallemand et lespagnol (après le français natif) dans lexpérience 7L1. Dans cette dernière expérience, on observe pour les locuteurs arabes un taux de confusion relativement élevé (de 10 %) avec les Français natifs ces confusions nexcèdent pas 3 % pour les autres locuteurs non-natifs. Ce résultat peut sexpliquer par le faible degré daccent mentionné ci-dessus pour les locuteurs arabes de lensemble B, même si le lien entre degré daccent et taux didentification ne se montre pas toujours simple. Nous allons revenir sur cette question via des tests statistiques.
Expérience 6L1: ensemble A, 10 secondes de parole spontanéeRéponse
OrigineAllemand
(2,2)Anglais
(3,0)Arabe
(2,4)Espagnol
(2,9)Italien
(3,1)Portugais
(2,4)Allemand63156358Anglais28499933Arabe6177258Espagnol335591911Italien537344010Portugais17817211225Tableau 5.1 : degrés daccent moyen par origine des locuteurs sur une échelle de 0 à 5 (entre parenthèses) et matrice de confusion de lexpérience 6L1 (%).
Expérience 7L1: ensemble B, 1 minute de lectureRéponse
OrigineAllemand
(2,9)Anglais
(3,1)Arabe
(1,5)Espagnol
(3,0)Italien
(2,4)Portugais
(3,0)Français
(0.6)Allemand651532591Anglais157333230Arabe141036915710Espagnol1026715150Italien3032246233Portugais115111919341Français20101096Tableau 5.2 : degrés daccent moyen par origine des locuteurs sur une échelle de 0 à 5 (entre parenthèses) et matrice de confusion de lexpérience 7L1 (%).
Analyse par clustering et tests statistiques
Les résultats de lidentification daccents peuvent être représentés graphiquement par des techniques danalyse de données ce qui a été fait, comme dans les chapitres précédents, en utilisant le logiciel R. Les visualisations correspondantes rassemblent les accents proches perceptivement : la figure 5.1, par exemple, montre le dendrogramme dérivé de la matrice de confusion de lexpérience 7L1 (tableau 5.2), produit par un algorithme de clustering hiérarchique agglomératif avec une distance euclidienne. Les locuteurs natifs du français sont dabord isolés des non-natifs. Les locuteurs de langues germaniques sont ensuite regroupés dans un sous-arbre, tandis que plus en profondeur dans le dendrogramme les locuteurs arabes sont séparés des locuteurs de langues romanes. Au moins pour les non-natifs, les sous-arbres donnés par cette représentation graphique sont en accord avec lintuition et avec des connaissances linguistiques sur la typologie des langues.
Figure 5.1 : dendrogramme représentant les résultats de lidentification perceptive de lexpérience 7L1.
De façon analogue à ce qui a été présenté dans les chapitres précédents, des analyses de variance ont été menées. Elles lont été séparément pour les deux expériences, en excluant les locuteurs natifs du français dans lexpérience 7L1. Ces ANOVA ont été conduites sur les réponses comptées comme correctes (1) ou incorrectes (0) avec le facteur aléatoire Sujet et les deux facteurs intra-sujet Familiarité (avec laccent) et Degré daccent. Selon que les auditeurs se sont majoritairement déclarés capables de reconnaître laccent en français (comme cétait le cas pour les Allemands, Anglais et Arabes) ou non (comme cétait le cas pour les Espagnols, Italiens, Portugais), deux groupes de Familiarité ont été distingués. En ce qui concerne le Degré daccent, les locuteurs ont été séparés en trois groupes équilibrés (trois niveaux), moyennant les évaluations des auditeurs. Les ANOVA montrent un effet majeur de la Familiarité, que ce soit dans lexpérience 6L1 [F(1, 24) = 56,5 ; p < 0,01] ou dans lexpérience 7L1 [F(1, 24) = 25,3 ; p < 0,01]. On a également un effet majeur du Degré daccent des locuteurs dans lexpérience 6L1 [F(2, 48) = 21,4 ; p < 0,01] comme dans lexpérience 7L1 [F(2, 48) = 40,8 ; p < 0,01], avec une interaction marginale entre les deux facteurs. Malgré cet effet global du Degré daccent, on peut souligner que, dans lexpérience 6L1, la différence de degré daccent entre locuteurs arabes et portugais (les groupes de locuteurs respectivement les mieux et les moins bien identifiés) nest pas significative daprès un test de Student.
Indices perçus par les auditeurs
Lors de lexpérience 6L1, les commentaires des participants ont été enregistrés stimulus par stimulus (cf. § 5.3.2). Intéressons-nous à présent aux indices (segmentaux et suprasegmentaux) rapportés par les auditeurs.
Parmi les indices segmentaux, nos 25 auditeurs ont principalement relevé : le r, quil soit « roulé » évoquant des pays du Sud ou prononcé « à langlaise » (93 fois) ; yé à la place de je, [v] à la place de /b/ et [s] à la place de /z/ pour les Espagnols (38 fois) ; [i] à la place de /e/ dans le cas des locuteurs de langue maternelle arabe (31 fois) ; [z] à la place de /s/ pour les Allemands (24 fois) ; [u] à la place de /y/ ou linverse, ainsi quune mauvaise réalisation des nasales (37 fois), sans rapprochement avec une origine particulière, mais plutôt signe dun accent étranger en général. Parmi les traits suprasegmentaux (par nature très impressionnistes) notés par les sujets, on peut citer : des phrases « chantantes » qui seraient typiques des Italiens ou une « précipitation » sur certains mots. Certains de ces traits ont été relevés par les auditeurs de lexpérience 7L1, mais ils nont pas été quantifiés.
Discussion
Nous avons décrit, dans ce qui précède, deux expériences perceptives portant sur des ensembles de locuteurs distincts, impliquant des locuteurs non-natifs dont laccent a été jugé de modéré à plutôt fort (avec une moyenne de 2,7 sur une échelle de 0 à 5). Lorigine de laccent a été correctement identifiée dans plus de 50 % des cas par des auditeurs français natifs, même si les confusions sont assez fréquentes notamment entre les locuteurs de langues romanes et entre les locuteurs de langues germaniques : les sujets ont eu du mal, particulièrement, avec laccent portugais. Des compétences dans les langues dorigine nengendraient pas nécessairement de meilleurs scores didentification. Dun autre côté, lexpérience 7L1 qui incluait des locuteurs français natifs a montré que la distinction de ces derniers avec les locuteurs non-natifs était presque parfaite.
Des traits saillants, caractéristiques de différents accents, ont été relevés par les auditeurs (par exemple [i] au lieu de /e/ pour les locuteurs arabes, [v] au lieu de /b/ et [s] au lieu de /z/ pour les Espagnols). Dans ce qui suit, nous rapportons les résultats danalyses acoustiques qui ont été entreprises aux niveaux à la fois segmental et suprasegmental, pour vérifier si ces traits peuvent être mesurés objectivement et sils corroborent la perception.
Analyses acoustiques utilisant lalignement automatique
Pour les analyses acoustiques présentées dans cette section, nous avons comme au chapitre 4 utilisé le texte du projet PFC, lu par les locuteurs de lensemble A les 36 employés dans lexpérience 6L1 et 6 natifs français (3 hommes et 3 femmes de la même tranche dâge). Ce matériel, en effet, se prêtait bien à des comparaisons entre locuteurs, le même contenu linguistique étant produit par tous.
Le corpus a été aligné en phonèmes en utilisant le système de reconnaissance de la parole du LIMSI, avec des modèles acoustiques indépendants du contexte, comme dans les chapitres précédents. Les mesures acoustiques rapportées en 5.4.1 (formants de voyelles, durée et taux de voisement de consonnes, indices prosodiques) ont été dérivées dun alignement standard : le dictionnaire de prononciation comprenait des variantes comme les liaisons et le schwa optionnels, mais pas de variantes spécifiques aux accents étrangers. Des variantes de prononciation liées aux accents étudiés ont ensuite été ajoutées (§ 5.4.2), et les taux de variantes alignées ont été mesurés, à linstar de ce qui a été présenté par exemple dans la section 2.5. En utilisant toujours des modèles acoustiques français, ces mesures sont rapportées dans la sous-section 5.4.2.1 : lidée était dintroduire des options telles que /e/ prononcé [e] ou [i] dans le dictionnaire de prononciation, différents accents étrangers pouvant privilégier différentes variantes de prononciation. Puis non avons examiné dans quelle mesure les productions des locuteurs sont alignées avec des unités acoustiques étrangères plus volontiers quavec seulement des unités acoustiques françaises. Des xénophones ont ainsi été ajoutés, comme en 3.5.3 et en 4.5.3 : les résultats sont rapportés dans la sous-section 5.4.2.2. La figure 5.2 résume schématiquement les principales étapes du processus.
Figure 5.2 : diagramme bloc de la procédure dalignement en phonèmes avec des variantes de prononciation non-standard (§ 5.4.2) et éventuellement des xénophones (§ 5.4.2.2).
Mesures à base dalignement standard
Formants des voyelles
Les fréquences des formants ont été mesurées sur les voyelles orales (plus de 500 par locuteur) au moyen du logiciel Praat. Les deux premiers formants, ainsi que la fréquence fondamentale, ont été extraits toutes les 10 ms en utilisant les options par défaut de Praat, et les mesures ont été filtrées comme dans la section 2.4. En outre, nous navons retenu que les voyelles qui étaient voisés (cest-à-dire que les valeurs détectées de F0 étaient supérieures à 75 Hz) sur plus de la moitié de leur durée. À chaque segment était ensuite assignées des valeurs de formants (de même, de F0) en moyennant les mesures élémentaires. Le taux de rejet, avec ces critères, était de 5,5 %. Puis les valeurs des formants ont été normalisées en utilisant la procédure log-moyenne [Nearey, 1989 ; Disner, 1980] pour minimiser les différences dues aux caractéristiques physiologiques des locuteurs, comme en 2.4.1. Les triangles vocaliques correspondant aux différents accents (ou origines linguistiques) sont représentés dans la figure 5.3. Par souci de lisibilité, ils sont séparés en deux sous-ensembles : le premier pour les langues romanes (espagnol, italien, portugais),en haut ; le deuxième pour les autres accents (allemand, anglais, arabe) en bas le triangle vocalique des Français natifs étant affiché en haut et en bas, comme référence.
Figure 5.3 : triangles vocaliques (normalisés) pour le texte PFC avec ou sans accent étranger.
Une première observation que lon peut faire concerne une différence de taille pour le triangle des Français natifs, qui tend à être plus petit que les triangles correspondant aux accents étrangers. Comme les triangles vocaliques tendent à être plus réduits pour des durées de voyelles plus courtes [Gendrot & Adda-Decker, 2005], ceci est le plus probablement dû à la tendance des natifs à parler plus vite que les non-natifs (voir la durée des segments dans le tableau 5.3). De plus, on note que les triangles vocaliques des Anglais (et des Allemands, dans une moindre mesure) sont plus réduits que ceux des autres locuteurs non-natifs : ceci peut être relié à la réduction vocalique que connaissent leurs langues maternelles.
Il est intéressant de relier la position moyenne des voyelles dans le plan F1/F2 à ce que lon sait des caractéristiques des voyelles dans les différentes langues concernées, et de relier ces observations aux commentaires de nos auditeurs. Ainsi, lantériorisation du /u/ chez les Anglais, phénomène largement décrit de /u/-fronting [Harrington et al., 2000] sobserve également ici dans laccent anglais en français. On note par ailleurs une certaine postériorisation du /y/ chez les Espagnols et les Italiens, et le fait que parmi les /e/, le plus proche des /i/ est celui des Arabes. La confusion /e/~/i/ est en effet assez répandue chez les locuteurs arabophones parlant français : on peut lattribuer au fait que cette distinction nest pas fonctionnelle, au moins dans le système à trois voyelles phonologiques (/a u i/) de larabe standard. Les différences que lon peut remarquer concernant le /a/ sexpliquent moins facilement. Quant au schwa, il est le plus fermé chez les Portugais (se rapprochant du /(/ haut central de leur système phonologique [Veloso, 2007] ) et le plus antériorisé chez les Espagnols et les Italiens.
La réalisation du /y/ français est particulièrement différente entre les locuteurs espagnols ou italiens notamment (chez qui elle est plus proche du [u]) et les locuteurs arabes (chez qui elle tend vers le [i]). Une interprétation est que les uns privilégient le trait [+arrondi], les autres le trait [+antérieur]. Ce phénomène souvent caricaturé est connu [Rochet, 1995] : on peut le retrouver dans des transcriptions ludiques telles que tou mas toué pour laccent espagnol ou bien Itats-Inis pour laccent arabe. Ce déplacement du /y/ dans des sens opposés est bien mis en évidence par scaling ou clustering à partir dune caractérisation de chaque locuteur par les coordonnées moyennes de son /y/ dans le plan F1/F2 : en utilisant divers algorithmes et types de distance, on obtient des dendrogrammes où les locuteurs arabes dune part, les locuteurs espagnols et italiens de lautre, sont assez bien regroupés. On retrouve les mêmes tendances sur les phrases spontanées présentées aux auditeurs.
Durée et taux de voisement des consonnes
En utilisant toujours lalignement standard, les durées et les taux de voisement des consonnes ont été mesurées. Comme le montre le tableau 5.3 (ligne du bas), les durées moyennes des phonèmes sont comparables entre accents. Pour ces locuteurs, la durée moyenne des phonèmes est proche de 90 ms (ce qui donne un taux darticulation de 11 phonèmes/seconde), alors que pour les locuteurs natifs, elle est proche de 70 ms (ce qui donne un taux darticulation de 14 phonèmes/seconde). Même si les différences observées peuvent être dues à de nombreux facteurs, il est à noter (cf. tableau 5.3) que les locuteurs ayant pour langue maternelle lallemand, langlais ou larabe tendent à avoir les occlusives sourdes les plus longues. Dans ces langues, les occlusives sourdes sont souvent aspirées, alors quen français (standard), le plus souvent, le VOT est petit [Abdelli-Beruh, 2004] (cf. §§ 3.4.3, 4.4.3). Nos mesures suggèrent que les locuteurs allemands, anglais et arabes produisent des occlusives sourdes aspirées, quand ils parlent français.
AllemandAnglaisArabeEspagnolItalienPortugaisFrançais/p/89848880798167/t/89928284818475/k/90959582868382/b/79648363928974/d/65687876787960/(/65697964747462/v/69676962779161/(/72688482568072Tous89909189919473Tableau 5.3 : durée de quelques consonnes (en ms) pour le texte PFC. La ligne du bas correspond à la durée moyenne de tous les phonèmes (voyelles et consonne).
Comme en 4.4.3, un taux de voisement a été calculé pour chaque consonne, défini comme le nombre de mesures voisées divisé par le nombre total de mesures (toutes les 10 ms). Les taux de voisement moyens, pour quelques consonnes pertinentes, sont consignés dans le tableau 5.4. On peut noter des taux de voisement faibles pour les consonnes sonores (/b/, /d/, /(/) chez les Allemands et les Anglais parlant français, reflétant une certaine tendance au dévoisement de ces consonnes dans les langues germaniques. Un dévoisement partiel des consonnes /v/ et /(/ a également été mesuré pour les Anglais.
AllemandAnglaisArabeEspagnolItalienPortugais Français/p/33321828373221/t/32281731393318/k/28251628342720/s/34232236403920/(/35223035392336/b/76579181829194/d/77608273778586/(/76618673878892/z/85798953809391/(/82718377848378/v/93869791889494/(/57595660685859Tableau 5.4 : taux de voisement de certaines consonnes (pourcentage de mesures définies de F0) pour le texte PFC.
Dans les tableaux 5.3 et 5.4, les locuteurs espagnols affichent les /b/ et les /v/ les plus cours de tous les locuteurs non-natifs, ainsi quun taux de voisement très bas pour la fricative /z/ (similaire au /s/). De fait, il ny a pas, phonologiquement, de fricatives sonores en espagnol, donc pas de distinction /b/~/v/ ni de /z/. Par ailleurs, le /(/ des Italiens est plus court et plus voisé que pour les autres locuteurs : nous y reviendrons en 5.4.2.
Rythme et indices prosodiques liés au schwa final
Certains des commentaires des sujets, au cours ou à la fin des expériences perceptives, étaient liés à des aspects rythmiques. Comme mentionné en introduction à ce chapitre (section 5.1), des paramètres impliquant la durée des segments ont été proposés pour caractériser différentes classes rythmiques de langues. Ramus [1999] considère en particulier la proportion dintervalles vocaliques (%V) et la variation de durée des intervalles consonantiques en termes décart type ((C) un intervalle consonantique étant constitué dune consonne ou de plusieurs consonnes consécutives séparées par des voyelles ou des pauses. Grabe et Low [2002] proposent une approche légèrement plus élaborée : ces auteurs mesurent la variabilité entre intervalles vocaliques et intervocaliques successifs à travers des Pairwise Variability Indices (PVI) éventuellement normalisés pour rendre compte de variations de débit de parole. Ces mesures ne prennent pas explicitement en considération la notion daccent, mais reposent sur le lien entre chronométrage accentuel, complexité des groupes consonantiques et réduction vocalique. Des travaux plus récents ont cherché à adapter ces mesures afin de quantifier la maîtrise dune langue seconde et détudier linfluence du débit de parole sur les corrélats acoustiques du rythme [Dellwo, 2010], mais ils nont pas été exploités ici.
Nous avons, pour ce qui nous concerne dans cette étude, mesuré les paramètres de Ramus et de Grabe sur des phrases françaises (notamment celles du texte PFC) lues par des étrangers. La même complexité en matière de groupes consonantiques étant imposée par la langue française, à tous les locuteurs, la variabilité de durée mesurée ne doit donc être que faiblement liée à des différences phonotactiques. On pourrait imaginer que des locuteurs peu habitués à des groupes consonantiques complexes tendraient à hyper-articuler ces derniers (à moins de recourir à des élisions). Ceci pourrait conduire à des mesures élevées de (C en opposition avec les observations faites dans leurs langues maternelles. Inversement, les locuteurs habitués à des groupes consonantiques complexes peuvent hypo-articuler ces derniers, faisant par là diminuer le %C et augmenter le %V. Les mesures en résultant seraient donc en contradiction avec la tendance à la réduction vocalique des langues à chronométrage accentuel. En réalité, la durée des groupes consonantiques semble assez dépendante du locuteur. Dans ce qui suit, nous avons donc retenu seulement les mesures de (V (lécart type de la durée des intervalles vocaliques) et de PVI sur les voyelles. Les PVI ne sont pas normalisés car les débits de parole sont comparables entre locuteurs non-natifs de 10,7 à 11,3 phonèmes/seconde (cf. § 5.4.1.2).
La figure 5.4 illustre les résultats pour les différentes L1. Comme on pouvait sy attendre, le français, dont les voyelles non-accentuées sont relativement isochrones (cf. note NOTEREF _Ref289256451 \h \* MERGEFORMAT 52), apparaît dans le coin en bas à gauche. On aurait pu sattendre à un regroupement plus systématique des L1 à chronométrage syllabique (français, espagnol, italien) et des L1 à chronométrage accentuel (anglais, allemand, arabe maghrébin, portugais). Cependant, aucune classe rythmique némerge clairement. Les résultats montrent simplement une différence importante (de (V et de PVI, paramètres qui se révèlent être étroitement liés), entre les Arabes (les plus proches des Français) et les Italiens. Daprès ces mesures, les Maghrébins ne tendent pas à reproduire le rythme à chronométrage accentuel de leurs dialectes alors que les Portugais, par exemple, restent proches des Anglais, dont la L1 est également à chronométrage accentuel. Quant aux Italiens parlant français, leurs résultats avec ce type dapproche rappellent le ratio de durée particulièrement important, en italien, entre voyelles accentuées et non-accentuées [Romano, 2010] (cf. chapitre 6).
Figure 5.4 : caractérisation du rythme combinant les paramètres (V (Ramus) et PVI (Grabe) sur les voyelles, pour le texte PFC avec ou sans accent étranger. Les durées sont exprimées en ms.
Dans la suite de cette sous-section, nous nous focalisons sur les schwas potentiels à la fin de mots comportant au moins une autre voyelle, en mesurant leurs taux de réalisation, lallongement de la voyelle qui précède et les contours de F0 correspondant. Ces mots avec schwa final potentiel (en comptant maire, par exemple, mais pas un monosyllabe comme de) sont au nombre de 123 dans le texte PFC. Le schwa final pouvait être réalisé ou non par les locuteurs, et détecté par le système dalignement, puisque laissé optionnel dans le dictionnaire de prononciation standard utilisé. Les résultats obtenus sont consignés dans le tableau 5.5. On observe que les Italiens parlant français produisent de loin le plus haut taux de réalisation du schwa final (23 %), les autres groupes de locuteurs gardant des taux inférieurs à 15 %. Ce chiffre élevé pour les Italiens peut sexpliquer au moins en partie par le fait que les mots pleins terminés par une consonne sont extrêmement rares en italien : on comprend dès lors quil soit plus naturel à un Italien parlant français de terminé sur une voyelle finale de type schwa.
Nous avons aussi mesuré le ratio de durée entre la voyelle précédant un schwa final et le schwa final prononcé, ainsi que la différence en demi-tons (F0s = F0schwa F0voyelle_précédente. Les résultats sont également donnés dans le tableau 5.5 : les Italiens affichent à la fois le ratio de durée le plus élevé, suggérant un allongement de la syllabe supposée accentuée (celle dont le noyau est la voyelle précédant le schwa final) et le (F0s le plus négatif, correspondant à une descente de la mélodie sur le schwa final. Les Allemands parlant français, eux, montrent en moyenne un contour de F0 légèrement montant sur le schwa final (la seule valeur positive de (F0s dans le tableau 5.5. Ces deux patrons sont assez saillants perceptivement et semblent typiques des accents mentionnés.
AllemandAnglaisArabeEspagnolItalienPortugaisFrançais%schwa14151011231511ratio.dur(V/schwa)1.91,62,02,12,42,21,9F0s(schwa V)0,1-0,9-1,3-1-2,2-0,7-1,1Tableau 5.5 : taux de schwas finals réalisé (%), ratio de durée entre une voyelle précédant un schwa final et le schwa final, différence de F0 (en demi-tons) entre le schwa final et la voyelle le précédant.
Comme ces chiffres ont été calculés sur un nombre relativement petit d occurrences, il nous a semblé nécessaire de mener des ANOVA. Ceci a été fait avec les mesures (%schwa, ratio.dur et F0s) moyennées par locuteur comme variables dépendantes et les L1 comme variables indépendantes. La différence n atteint pas le niveau de significativité pour le ratio de durée, mais la L1 a un effet significatif pour le taux de réalisation du schwa final [F(6, 35) = 3,86 ; p < 0,01] et [F(6, 35) = 3,04 ; p < 0,05].
Mesures fondées sur des alignements non-standards
Dans les sous-sections précédentes, pour lalignement en phonèmes, un dictionnaire de prononciation standard a été utilisé, dans lequel à chaque entrée sont associées généralement une et parfois plusieurs prononciations standard pour le français avec des liaisons et des schwas potentiels. Les résultats des expériences perceptives et des mesures acoustiques présentées ci-dessus suggèrent que les locuteurs non-natifs peuvent produire des variantes de prononciation qui sécartent des formes standard de façon importante, et que certains de ces écarts peuvent être communs aux locuteurs dune L1 donnée.
Dans les sous-sections qui suivent, des variantes de prononciation spécifiques aux accents étrangers ont été introduites, permettant à un phonème donné du français (standard) dêtre remplacé par une ou plusieurs variantes dans le dictionnaire de prononciation. Celui-ci est mis à jour à chaque fois, comme dans les sections 2.5 et en 3.5, et la pertinence de ces variantes de prononciation a été mesurée à travers des taux de variantes alignées. Dans la sous-section 5.4.2.1, linventaire de phonèmes et lensemble correspondant de modèles acoustiques restent inchangés. Dans la sous-section 5.4.2.2, linventaire de phonèmes et lensemble correspondant de modèles acoustiques ont été complétés par des xénophones (et les modèles acoustiques correspondants, empruntés à dautres langues), pour certains phonèmes dont la prononciation avec accent étranger diffère particulièrement de la prononciation française.
Variantes utilisant lensemble standard de modèles acoustiques français
À partir de connaissances linguistiques sur les différentes langues, des commentaires issus des expériences perceptives et des résultats des mesures acoustiques précédentes, nous avons défini une vingtaine de règles rendant compte de phénomènes communs, pour des prononciations non-natives du français, de voisement/dévoisement, de spirantisation ou daffrication des consonnes, douverture/fermeture, dantériorisation/postériorisation ou de dénasalisation des voyelles (cf. tableau 5.6). Pour chaque règle, un dictionnaire de prononciation spécifique a été généré, un alignement distinct a été réalisé et des taux de variantes alignées par le système ont été calculés. La plupart de ces règles proposent des alternatives simples, prévoyant des substitutions paradigmatiques au sein de paires de voyelles (ex. /e/([e|i]) ou de consonnes (ex. /b/([b|v]). Dans certains cas, la règle est plus complexe, avec une insertion de segment et des contraintes contextuelles. Nous avons par exemple autorisé que les voyelles nasales, éventuellement dénasalisées, soient suivies dappendices nasaux dans un contexte droit en p ou b, de façon analogue à ce qui a été fait en 2.5.4 et en 3.5.5. Dans ce cas (voir la dernière ligne du tableau 5.6), toutes les variantes non-standard ont été cumulées dans le calcul du taux de variantes alignées, comme en 3.6.1. Pour 20 règles qui ont été testées, les taux de variantes non-standard alignées par le système sont donnés dans le tableau 5.6. Dans la première ligne, par exemple, le /b/ peut être aligné avec [b] ou [v], et le pourcentage de [v] alignés (/b/([v]) est indiqué pour chacune des L1. Des règles de diphtongaison des voyelles ont également été testées, mais les alignements correspondants nont donné que peu de variantes diphtonguées, même en français avec accent anglais : les résultats ne sont pas présentés ici.
AllemandAnglaisArabeEspagnolItalienPortugaisFrançais/b/([v]32308608223/b/([p]4255831366/d/([t]30599306912/(/([k]59673643133020/s/([z]43141271/(/([t(]27515633/v/([b]14172232825/v/([f]82891551212/z/([s]32472679311924/(/([(]142611255612/(/([j]711729174/l/([w]2811353/(/([l]732474666/(/([w]412251432/e/([µ]15501747392619/e/([i]18151511879/y/([u]52183235213/y/([i]34343236263026/o/([(]16561870323845/v(/([v+n|v(+n]2841226963467Tableau 5.6 : taux de variantes non-standard alignées en utilisant des modèles acoustiques français, pour les occlusives, les fricatives, les liquides et les voyelles (%). Dans la dernière ligne, [v(] représente nimporte laquelle des voyelles nasales, [v] représente sa contrepartie orale et [n] représente [m] ou [n].
On peut observer que les Anglais et les Espagnols produisent les taux les plus élevés de variantes non-standard (en gras dans le tableau 5.6), tandis que souvent les résultats pour les Arabes et les Portugais restent proches des chiffres obtenus pour les natifs français. La plupart des résultats sont en accord avec les prédictions concernant les accents étrangers. Par exemple, 62 % des /b/ sont alignés comme [v] chez les Espagnols parlant français. Rappelons que lespagnol na pas deux phonèmes distincts pour /b/ et /v/ [Delattre, 19655] : un [b] est réalisé après une pause ou une consonne nasale ; un [(] apparaît ailleurs [Quilis, 1993]. Ceci peut favoriser la réalisation spirantisée dans de nombreux contextes, plus proche de la fricative [v] que de locclusive [b], quand des Espagnols parlent français. Chez ces locuteurs, de même, le [s] tend à être préféré à [z] (dans 79 % des cas), le [j] à [(] et le [t(] à [(] : ces prononciations sont bien connues pour laccent espagnol en français et également en anglais [Magen, 1998]. Chez les Anglais (et plus généralement chez les locuteurs de langues germaniques), les occlusives sonores tendent à être alignées avec leurs contreparties sourdes (dévoisées), reflétant certaines tendances de leurs langues maternelles. Chez les Italiens, lalignement de /y/ avec [u] (comme chez les Espagnols) et lalignement de /(/ avec une liquide sont également cohérents avec les résultats de la sous-section 5.4.1.2. Pour les voyelles nasales, tous les locuteurs non-natifs du français affichent des taux élevés de variantes non-standard, avec chez les Espagnols et les Italiens près de dix fois plus dappendices nasaux que chez les locuteurs natifs du français. Ceci est bien audible à lécoute de ces locuteurs. Les autres résultats sont moins concluants : par exemple, les rapprochements /e/~/y/~/i/ qui tendaient à apparaître dans le triangle vocalique des locuteurs arabes ne sobservent pas ici. On peut remarquer dailleurs que souvent, chez les natifs français, certaines variantes non-standard comme le /y/ non-arrondi sont alignées par le système.
Variantes utilisant un ensemble de modèles acoustiques incluant des xénophones
Les variantes de prononciation précédentes étaient destinées à évaluer des confusions potentiellement faites par des locuteurs non-natifs entre phonèmes français. Dans cette sous-section, lensemble standard de modèles acoustiques français est complété avec des modèles acoustiques étrangers, en incluant des xénophones afin de rendre compte de prononciations non-natives qui peuvent être « loin » de la cible ou « intermédiaires » entre deux phonèmes français. Nous abordons ci-après le cas des /b/, /v/, /(/, /s/, /l/, /(/ et /u/ français, appariés avec des phonèmes ou allophones empruntés à différentes langues premières : leur réalisation, en effet, motivée par des mécanismes linguistiques spécifiques, peut être particulière aux locuteurs de certaines origines [Delattre, 1965]. Pour des raisons techniques, les langues premières considérées sont limitées à lespagnol et à langlais, pour lesquels les modèles acoustiques ont été entraînés extensivement, au sein des systèmes correspondants de reconnaissance de la parole disponibles au LIMSI [Lamel et al., 2007]. Les unités que nous avons ajoutées sont [(], [(], [s(] et [r], de lespagnol, [(], [l(] et [(], de langlais. Les résultats de lalignement sont consignés dans le tableau 5.7.
Nous avons vu dans la sous-section 5.4.1.1 que les Anglais tendent à prononcer un /u/ antériorisé. Ceci est confirmé si on laisse le système sélectionner le [(] relâché de langlais pour le /u/ français : il apparaît que ce [(] centralisé est aligné dans plus de 50 % des cas pour les Anglais.
Le /l/ a un allophone vélarisé (sombre) en anglais et en portugais, contrairement à ce qui se passe en français [Delattre, 1965]. Le tableau 5.7 témoigne que la variante [(] correspondant au dark l anglais est plus souvent alignée pour les locuteurs anglais (et portugais) parlant français que pour les autres locuteurs comme létait la variante [w] dans le tableau 5.6.
AllemandAnglaisArabeEspagnolItalienPortugaisFrançais/u/([(] (anglais)12561638152612/l/([(] (anglais)31027783/(/([(] (anglais)621342242/(/([r] (espagnol)14337962128/b/([(] (espagnol)16265439239/v/([(] (espagnol)26198433655/s/([s(] (espagnol)30312956433610/(/([(] (espagnol)34354155404523Tableau 5.7 : taux de variantes non-standard alignées impliquant des xénophones, pour les voyelles, les liquides, les occlusives et les fricatives (%). Des modèles acoustiques français complétés avec des xénophones sont utilisés : la langue doù proviennent ces derniers (anglais ou espagnol) est indiquée entre parenthèses.
Paradoxalement, les locuteurs anglais produisent davantage de /(/ alignés avec le [r] espagnol quavec le [(] anglais, ce qui a été vérifié perceptivement : certains locuteurs prononcent vraiment des r « roulés ». Pour le /(/, ce sont les Italiens qui produisent les taux les plus élevés de variantes non-standard le xénophone [r], notamment, dans plus de 60 % des cas (cf. tableau 5.7). Ces résultats étayent la tendance de nos locuteurs italiens (suggérée dans la sous-section 5.4.1.2) à prononcer des r fort éloignés du /(/ français. Il est à noter que la variante [r] a été alignée dans moins de 10 % des cas pour les Espagnols ce qui écarte un biais potentiel provenant de lorigine des modèles acoustiques. Les Espagnols tendent plutôt à approximer le /(/ français par un son postérieur de type [(].
Chez les Espagnols parlant français, également, le taux élevé de [s°ð] alignés par le système (56 %) reflète la tendance en espagnol à réaliser un allophone apical pour le phonème /s/ [Alba, 2001]. De plus, la fricative palatale [Æð] (dans une majorité des cas) et le [Bð] (aligné avec /b/ comme avec /v/ dans 43 % des cas) sont souvent préférés aux unités correspondant aux phonèmes français. Les alignements précédents, avec uniquement des modèles acoustiques français, ne pouvaient pas aisément rendre compte de ces phénomènes.
Discussion
Dans cette section, des mesures acoustiques (à base de formants et de fréquence fondamentale, notamment) ont été présentées pour le texte PFC, aligné automatiquement. Des triangles vocaliques ont été tracés, permettant dintéressantes comparaisons entre accents : ils ont en particulier mis en évidence une prononciation plutôt fermée du schwa chez les Portugais, une certaine antériorisation du /u/ chez les Anglais et une certaine postériorisation du /y/ chez les Espagnols et les Italiens parlant français. Des tendances à aspirer les occlusives sourdes et à dévoiser les occlusives sonores ont également été mesurées chez les Allemands et les Anglais parlant français, à travers des durées plus longues pour les consonnes /p/, /t/, /k/ et des taux de voisement relativement bas pour les consonnes /b/, /d/, /(/. Et des différences prosodiques sont apparues, sur lesquelles nous reviendrons.
Une série dalignements avec des variantes de prononciation non-standard ont ensuite été menées. Une vingtaine de règles permettant de rendre compte de confusions possibles entre voyelles ou consonnes françaises ont été testées, en utilisant toujours des modèles acoustiques français. Le dévoisement des occlusives sonores, notamment, en français avec accent allemand ou anglais, sest manifesté par des taux élevés de variantes non-standard alignées (ex. /b/([p]), de même que le dévoisement de /z/ et les confusions /b/~/v/ en français avec accent espagnol. Dautres alignements, incluant des xénophones, ont enfin été réalisés. Certaines tendances comme lantériorisation du /u/ chez les locuteurs anglais et le [r] roulé chez les locuteurs italiens, ont ainsi été corroborées. On peut donc envisager dutiliser les résultats de la méthode proposée dans de nouvelles expériences, pour identifier automatiquement les accents étudiés.
Identification daccents à base de techniques de fouille de données
Cette section examine dans quelle mesure les indices mesurés dans la section 5.4 permettent didentifier nos accents et quels sont les traits de prononciation les plus utiles (à la fois efficaces, pertinents et discriminants) dans une tâche de classification parmi 7 L1. Le dispositif expérimental est décrit en 5.5.1, impliquant de nouveaux locuteurs et de nouvelles données par rapport à la section précédente. En 5.5.2, nous rapportons les résultats dexpériences conçues pour démêler limportance relative des voyelles, des consonnes et de la prosodie. En 5.5.3, nous cherchons à évaluer quels attributs sont sélectionnés par des techniques dapprentissage automatique. Les résultats obtenus en identification automatique sont présentés, et comparés à la perception humaine en 5.5.4.
Dispositif expérimental
Comme règle générale, lensemble A de locuteurs, analysés dans la section 5.4, a été utilisé pour lapprentissage et lensemble B la été pour les tests nous navons pas mis de côté de données de développement (cf. § 5.2). Plus précisément, trois configurations expérimentales ont été définies.
Dans la première configuration (PFC-PFC), les locuteurs étaient différents pour lapprentissage et pour le test cétaient ceux respectivement de lensemble A et de lensemble B , mais le matériel lu était le même : il sagissait du texte PFC. Dans la deuxième configuration (PFC-API), non seulement les locuteurs étaient différents, mais le matériel lu changeait également : les locuteurs de lensemble A lisant le texte PFC ont servi à lapprentissage, comme dans la configuration précédente, les locuteurs de lensemble B lisant le texte de lAPI ont été gardés pour les tests. Une différence de performance entre ces deux configurations, en termes de taux didentification correcte, indiquera une dépendance au contenu ou, au contraire, montrera la généricité des traits mesurés dans la section 5.4, pour caractériser les différents accents. Dans la troisième configuration (leave-one-out), une méthode de validation croisée a été utilisée, sur un locuteur à la fois, de façon à maximiser le volume de données disponibles pour lapprentissage (841 locuteurs lisant le texte PFC et celui de lAPI). Comme le contenu est partagé entre lapprentissage et le test, une comparaison des scores didentification correcte entre les configurations PFC-PFC et leave-one-out indiquera éventuellement un besoin destimer les paramètres sur plus de données. Pour appliquer ce paradigme leave-one-out, toutes les données devaient donc être alignées et traitées comme dans la section 5.4, pour construire les vecteurs dattributs correspondants, caractérisant les locuteurs.
Pour les expériences relatées dans la suite de ce chapitre, nous avons utilisé le logiciel de fouille de données Weka [Witten & Frank, 2005], qui propose 20 algorithmes de classification adaptés à nos types de données, parmi lesquels Bayesian Networks, Logistic Regression Models, Multilayer Perceptrons, Support Vector Machines (SVM), C4.5 (algorithme darbres de décision J48), Random Forests. Comme les performances en classification automatique peuvent varier dans une large mesure selon les techniques et les ensembles dattributs utilisés, les résultats de ces 20 algorithmes ont été moyennés. De cette façon, il était intéressant de comparer les résultats moyennés sur 20 classifieurs et les résultats en perception moyennés sur 25 sujets. De plus, des résultats en classification automatique ont été calculés en appliquant un vote majoritaire : pour un locuteur donné, les sorties des différents classifieurs ont été prises en compte, et létiquette (la L1) la plus souvent retournée a été attribuée.
Classification fondée sur des ensembles linguistiques de traits
Les analyses acoustiques décrites dans la section 5.4 ont permis de construire un ensemble de 87 traits (ou attributs) qui peuvent se décomposer ainsi : formants des Voyelles englobant les valeurs de F1 et de F2 des voyelles orales (2 ( 10), durée et voisement des Consonnes (2 ( 17), mesures de la Prosodie avec les deux paramètres de (V et de PVI liés au rythme ainsi que les trois traits liés au schwa final (5), taux de Variantes non-standard alignées en utilisant uniquement des unités acoustiques françaises (20) et en utilisant des Xénophones (8). Après une présentation des résultats globaux, nous allons examiner la contribution de ces sous-ensembles Voyelles, Consonnes, Prosodie, Variantes françaises et Xénophones.
Les résultats obtenus avec chaque sous-ensemble, en termes didentification correcte dans une tâche de classification en 7 L1 sont consignés dans le tableau 5.8. Les résultats obtenus avec lensemble de Tous les traits ainsi quavec les 10, 12 et 15 meilleurs traits sont également affichés le sens de « meilleurs » sera expliqué et les lignes correspondantes seront commentées en 5.5.3. À chaque fois sont rapportés les résultats moyennés sur 20 algorithmes et donnés par un vote majoritaire, dans trois configurations expérimentales (PFC-PFC, PFC-API et leave-one-out), comme présenté en 5.5.1.
Globalement, les résultats du vote majoritaire sont meilleurs que les résultats moyens, dans (presque) toutes les configurations expérimentales. En particulier, dans la configuration PFC-PFC, où le texte est le même pour les locuteurs de lapprentissage et du test, les scores didentification correcte obtenus avec lensemble de Tous les traits passent de 47 % à 69 % en appliquant le vote majoritaire. Entre configurations PFC-PFC et leave-one-out, cependant, le gain apporté par davantage de données et de locuteurs dapprentissage bénéficie aux résultats moyens (+17 %) plus quaux résultats du vote majoritaire (+5 % en absolu, pour atteindre 74 % didentification correcte). Ce dernier taux représente le meilleur score obtenu en classification automatique. Dans la configuration plus réaliste (PFC-API) où les locuteurs du test produisent un échantillon de parole relativement court (1 minute, dont le contenu est différent de celui des données dapprentissage), on note une importante diminution des performances par rapport aux configurations où le texte est commun aux locuteurs de lapprentissage et du test. Toutefois, le vote majoritaire donne 50 % didentification correcte, ce qui est assez proche des résultats de lexpérience perceptive 7L1 (cf. § 5.3.4).
Attributs (#)Résultats moyensRésultats du vote majoritairePFC-PFCPFC-APIleave-1-outPFC-PFCPFC-APIleave-1-outTous(87)473564695074Voyelles (20)362745363859Consonnes(34)391946433355Prosodie(10)261618312632Variantes fr.(20)363260603868Xénophones(8)37304433315710 meilleurs(10)45365655456012 meilleurs(12)48376162437015 meilleurs(15)473563624569Tableau 5.8 : taux didentification correcte (%) obtenus dans une tâche de classification en 7 L1, en moyennant les résultats de 20 algorithmes (à gauche) ou en appliquant un vote majoritaire (à droite), dans trois configurations expérimentales. Le nombre dattributs utilisés dans chaque ensemble ou sous-ensemble de traits est rappelé entre parenthèses.
Concernant les résultats moyens obtenus avec les différents sous-ensembles linguistiques de traits, les taux didentification correcte se montrent assez sensibles aux changements de contenu et de durée des données, pour les traits Voyelles, Consonnes et Prosodie. Dans la configuration PFC-API, les résultats auxquels on aboutit avec les traits Consonnes et Prosodie sont pratiquement au niveau du hasard. Avec les traits Prosodie, les résultats sont même plus mauvais dans la configuration leave-one-out que dans la configuration PFC-PFC, alors que pour tous les autres sous-ensembles dattributs les résultats de la validation croisée (leave-one-out) sont les meilleurs. Les traits Variantes françaises et Xénophones se révèlent plus robustes au changement de corpus : on ne perd respectivement que 4 % et 7 % en absolu, en matière de taux didentification correcte, entre les configurations PFC-PFC et PFC-API. De plus, ces sous-ensembles de traits donnent de bonnes performances pour relativement peu dattributs. Les résultats obtenus avec le sous-ensemble Xénophones (8 attributs), en particulier, sont meilleurs et plus stables que ceux que fournit le sous-ensemble Prosodie (5 attributs).
Concernant les résultats du vote majoritaire, les taux didentification correcte les plus élevés sont obtenus avec le sous-ensemble de Variantes françaises et les plus bas avec le sous-ensemble Prosodie ce, dans les dans les trois configurations expérimentales. Les résultats du vote majoritaire restant en règle générale meilleurs que les résultats moyens, on observe des tendances similaires dans ces deux schémas, à lexception peut-être des résultats obtenus avec les traits Voyelles légèrement meilleurs dans la configuration PFC-API que dans la configuration PFC-PFC, avec le vote majoritaire. Les formants de certaines voyelles, comme dautres traits, peuvent en effet être plus ou moins pertinentes dans une tâche de classification. Cest ce que nous allons analyser à présent.
Classification fondée sur une sélection automatique de traits
Nous avons eu recours à la sélection automatique de traits pour identifier quels indices sont les plus pertinents pour la classification des accents. Cette sélection vise également à éliminer les attributs inadaptés, pour potentiellement améliorer les performances des algorithmes dapprentissage [Guyon I. & Elisseeff, 2003].
Nous avons mené des expériences avec sept algorithmes de sélection implémentés dans Weka, tels que les SVM, Information Gain et Principal Component Analysis. Comme précédemment, nous avons souhaité lisser les résultats en moyennant les sorties des algorithmes lesquels fournissent différents classements et nombres dattributs sélectionnés. Dans ce but, nous avons défini un score pour chaque attribut j, selon la formule suivante :
EMBED Equation.3 [5.1]
où rangi(j) est le rang obtenu par lattribut j avec lalgorithme i, m(j) est le nombre dalgorithmes qui sélectionnent cet attribut j, M est le nombre total dalgorithmes utilisés (ici 7) et Jmax correspond au nombre total dattributs. Le rapport EMBED Equation.3 donne plus de poids aux attributs sélectionnés par le plus dalgorithmes. Les N meilleurs traits correspondent dès lors aux attributs qui obtiennent les N meilleurs scores.
Daprès le tri résultant de lapplication de la formule 5.1 ci-dessus, les N meilleurs attributs avec N = 12 sont : les deux premiers formants de /(/, le deuxième formant du /e/ et du /a/, les pourcentages dappendices nasaux issus de lalignement automatique ainsi que les taux de variantes alignées en /z/([s], /b/([v], /b/([p], /d/([t], /(/([l] et /(/([r]. Les trois suivants (étendant lensemble des N meilleurs attributs avec N = 15) sont le PVI sur les voyelles, la durée du /(/ et le taux de variantes alignées en /v/([(].
Les résultats obtenus avec les 10, 12 et 15 meilleurs attributs sont donnés dans les lignes du bas du tableau 5.8. Ils montrent combien la sélection automatique est efficace, dans la mesure où les résultats de la classification en termes didentification correcte (notamment les résultats moyens), avec peu de traits, sont très proches de ceux auxquels on aboutit avec lensemble de Tous les traits. En appliquant le vote majoritaire, on obtient systématiquement de meilleurs résultats avec lensemble de Tous les traits quavec les sous-ensembles de N meilleurs traits. Avec ces derniers, cependant, on obtient de meilleurs résultats quavec les sous-ensembles linguistiques de traits, dans la configuration PFC-API notamment, ce qui de nouveau démontre lefficacité de la sélection automatique. Les N meilleurs traits sélectionnés continuent à faire sens au regard de connaissances linguistiques et se montrent plutôt robustes au changement de corpus.
Les résultats moyens en termes didentification correcte, obtenus avec un nombre N croissant progressivement, sont illustrés dans la figure 5.5. Ils se montrent assez stables au-dessus de N = 12 attributs. Le taux moyen didentification correcte reste par exemple autour de 60 % dans la configuration leave-one-out. En appliquant le vote majoritaire, ce taux monte au-dessus de 70 %. Il est intéressant de comparer ces résultats avec ceux de lexpérience perceptive 7L1 rapportés en 5.3.4.
Figure 5.5 : taux moyen didentification correcte (%) dans les configurations PFC-PFC, PFC-API et leave-one-out de classification automatique en 7 L1, en fonction du nombre dattributs. Les lignes pointillées indiquent 10 et 15 attributs.
Comparaison avec la perception humaine
Matrices de confusion
Même si les résultats des expériences perceptives (rapportés dans les tableaux 5.1 et 5.2) et ceux de la classification automatique ne sont pas directement comparables, certaines similitudes et différences entre eux méritent dêtre notées. Nous avons déjà souligné certaines similitudes, à travers la sélection automatique de traits qui étaient également cités parmi les indices les plus saillants par les sujets des expériences perceptives. Nous y reviendrons dans les sous-sections suivantes, qui présentent des arbres de décision et des corrélations. Permettant un autre type de comparaison, les tableaux 5.9 et 5.10 donnent les matrices de confusion obtenues en moyennant les résultats de 20 algorithmes utilisant les 12 meilleurs traits, dans les configurations PFC-API et leave-one-out respectivement.
Dans la configuration PFC-API, où lon est dans les mêmes conditions que lors de lexpérience perceptive 7L1, le taux didentification correcte (37 %) est plus bas que dans lexpérience perceptive 7L1 (60 %), ce taux étant de 61 % dans la configuration leave-one-out (cf. tableau 5.8). De façon cohérente dans les deux tableaux 5.9 et 5.10, cependant, les locuteurs italiens se révèlent être mieux identifiés par la classification automatique que par la perception humaine : avec au moins 50 % didentification correcte, les Espagnols et les Italiens se voient ici bien distingués, alors quils étaient souvent confondus par les auditeurs des expériences perceptives (cf. tableaux 5.1 et 5.2). Que ce soit en classification automatique ou en perception humaine, on note également une certaine confusion entre Allemands et Anglais. Il demeure que ces locuteurs sont bien identifiés à une majorité relative : la réponse majoritaire est de fait la bonne (sur les diagonales des tableaux 5.9 et 5.10) pour pratiquement chaque origine linguistique. Les seules exceptions sont les origines arabe et portugaise dans la configuration PFC-API (tableau 5.9), ce qui peut sexpliquer par le faible degré daccent des locuteurs arabes retenus pour le test 1,5 sur 5 (cf. § 5.3.4) et la difficulté déjà mentionnée à cerner laccent portugais.
Dans le tableau 5.10, le taux didentification correcte est pour chaque L1 supérieur à ce que montre la matrice de confusion correspondant à la configuration PFC-API. Les meilleurs scores proviennent des locuteurs français (53 %) dans la configuration PFC-API et des locuteurs espagnols (77 %) dans la configuration leave-one-out. Le gain entre les deux configurations est particulièrement appréciable pour ces locuteurs espagnols, qui sont caractérisés par un certain nombre de traits robustes.
Configuration PFC-APIRéponse
OrigineAllemandAnglaisArabeEspagnolItalienPortugaisFrançaisAllemand231720811715Anglais16366716416Arabe16282732223Espagnol323650837Italien61011451217Portugais113191291810Français0251710453Tableau 5.9 : matrice de confusion (%) obtenue en moyennant les résultats de 20 algorithmes utilisant pour la classification les 12 meilleurs traits, dans la configuration PFC-API.
Configuration leave-one-outRéponse
OrigineAllemandAnglaisArabeEspagnolItalienPortugaisFrançaisAllemand4815146584Anglais205095477Arabe18838231021Espagnol77377141Italien474264118Portugais10914711463Français352412263Tableau 5.10 : matrice de confusion (%) obtenue en moyennant les résultats de 20 algorithmes utilisant pour la classification les 12 meilleurs traits, dans la configuration leave-one-out.
Arbres de décision
Il peut être instructif de suivre les stratégies dun algorithme de classification en particulier, pour comparaison avec les jugements des sujets des expériences perceptives. Lalgorithme darbres de décision C4.5 (implémenté dans Weka sous le nom J48) donne des résultats parmi les meilleurs, et sa sortie est directement interprétable. La figure 5.6 dépeint larbre de décision utilisant les 12 meilleurs traits sélectionnés automatiquement dont la performance est de 50 % didentification correcte dans la configuration PFC-PFC, de 33 % dans la configuration PFC-API.
Comme on le voit, lidentification de laccent portugais en français sappuie uniquement sur les deux premiers formants (normalisés) du /(/. Il est à noter que si lon applique ce même algorithme C4.5 avec les 15 meilleurs ou Tous les traits, les mêmes indices sont utilisés pour isoler laccent portugais. Peu dindices, en effet, caractérisent cet accent, qui a souvent été mal identifié dans les expériences perceptives de la section 5.3. Lantériorisation du schwa permet disoler les Espagnols et les Italiens, lesquels sont départagés par le taux (supérieur chez les Espagnols) de variantes alignées en /b/([v]. La fermeture/ antériorisation de /e/ est quant à elle commune aux Arabes et aux Allemands, lesquels sont départagés par le taux de variantes alignées en /d/([t] (avec davantage de dévoisement chez les Allemands).
Figure 5.6 : arbre de décision fourni par lalgorithme C4.5 implémenté dans Weka (J48), utilisant les 12 meilleurs traits sélectionnés automatiquement. Les chiffres séparés par des barres obliques désignent à gauche le nombre total de locuteurs classés sous le nud en question, à droite le nombre de locuteurs classés par erreur sous ce nud.
Les groupes de langues donnés par larbre de décision peuvent être comparés au clustering résultant des réponses des auditeurs dans lexpérience perceptive (figure 5.1). La classification automatique des Allemands est décevante par rapport à la perception humaine. Une explication peut résider dans le fait que les locuteurs allemands de lensemble A (utilisés pour lapprentissage par lalgorithme C4.5) étaient jugés comme ayant laccent le plus faible dans lexpérience 6L1 2,2 sur 5 (cf. tableau 5.1). Les locuteurs natifs du français, également, ont été bien mieux distingués dans lexpérience perceptive 7L1. Comme dans lextraction des patrons caractéristiques des accents nous étions surtout intéressés par les accents étrangers, nous avons exclu le débit de parole des traits potentiellement pertinents. Conserver cet indice aurait très certainement amélioré lidentification des locuteurs natifs du français (cf.§ 5.4.1.2).
Corrélations entre identification perceptives et mesures acoustiques
Nous avons vu dans la section 5.3 comment des auditeurs français identifient et classifient des accents étrangers. Nous avons mesuré nombre dindices, présentés dans la section 5.4, et jusquici dans la section 5.5 nous avons étudié comment ces indices peuvent être utilisés en classification automatique. On peut également se demander dans quelle mesure les traits dégagés sont utilisés en perception, pour identifier tel ou tel accent.
Une autre façon de relier lidentification par lhumain et par la machine consiste à mesurer des corrélations entre perception et traits sélectionnés automatiquement. Cela a été fait par Clopper et Pisoni [2004] pour six accents régionaux de langlais américain, avec des indices linguistiques considérés a priori. Nous avons, pour cette sous-section, calculé le combien de fois chaque locuteur a été reconnu comme allemand, anglais, arabe, espagnol, italien ou portugais dans les expériences perceptives 6L1 et 7L1, et calculé les coefficients de corrélation de Pearson entre ces nombres et les et les mesures acoustiques pour chaque locuteur, parmi les 12 meilleurs traits sélectionnés automatiquement (par exemple, le taux de variantes alignées en /b/([v]). Le tableau 5.11 rapporte les résultats qui sont cohérents entre les expériences 6L1 (avec lensemble A de locuteurs lisant le texte PFC, pour lanalyse acoustique) et lexpérience 7L1 (avec lensemble B de locuteurs lisant le texte de lAPI). Les réponses correspondant aux natifs français nont pas été comptées, puisque cette possibilité nétait pas proposée dans lexpérience 6L1. Chaque cellule du tableau contient donc un coefficient de corrélation entre deux séries de 36 valeurs.
Expérience 6L1Expérience 7L1 AlAnArEsItPoAlAnArEsItPoF2/(/0,10,16-0,160,080-0,280,17-0,03-0,040,090,02-0,42/d/([t]0,140,76-0,35-0,02-0,38-0,280,120,53-0,22-0,1-0,42-0,25/b/([p]0,270,71-0,37-0,08-0,41-0,270,260,62-0,21-0,3-0,41-0,39/b/([v]-0,060,16-0,410,47-0,080,050,14-0,07-0,030,27-0,2-0,29/(/([l]-0,290,41-0,340,120,49-0,24-0,120,11-0,19-0,10,450,02/(/([r]-0,260,27-0,320,130,58-0,23-0,010,05-0,28-0,10,460,01Tableau 5.11 : corrélations entre les identifications comme allemand, anglais, arabe, espagnol, italien ou français lors des expériences 6L1 (à gauche) et 7L1 (à droite) avec les mesures acoustiques. Ces dernières, rapportées pour certaines voyelles, occlusives et liquides sont faites sur le texte PFC lu par les locuteurs de lexpérience 6L1 et le texte de lAPI lu par les locuteurs de lexpérience 7L1.
On observe une corrélation élevée entre le fait que les locuteurs sont perçus comme anglais et les taux de consonnes sonores (/d/ ou /b/) alignées avec leurs contreparties sourdes ([t] ou [p], respectivement). Lidentification comme italien est également la plus corrélée aux taux de variantes de /Òð/ alignées avec une latérale ou une vibrante (voir les deux lignes du bas du tableau 5.11). Quant aux corrélations négatives entre identification comme portugais et F2 du schwa, elles sont en accord avec la tendance des Portugais à prononcer un /(/ moins antériorisé que les autres locuteurs. Même si les corrélations qui existent ne signifient pas que de tels indices sont les plus saillants en perception, ces traits sélectionnés automatiquement peuvent refléter des traits de prononciation utilisés consciemment ou inconsciemment par les auditeurs pour identifier différents accents en français.
Discussion
Résumons : dans cette section, différents algorithmes de classification du logiciel Weka tels que les SVM et les arbres de décision ont été utilisés. Ils ont été entraînés avec lensemble A de locuteurs et testés avec lensemble B de locuteurs, ou bien ils ont été entraînés et testés par validation croisée leave-one-out afin de maximiser le volume de données disponibles pour lapprentissage. Dans le premier cas, les tests ont été menés soit sur le texte utilisé pour lapprentissage (configuration PFC-PFC) soit sur un texte non-vu lors de lapprentissage (configuration PFC-API). Dans le dernier cas (configuration leave-one-out), ces deux tests ont servi à lapprentissage et aux tests il ny avait pas densemble de développement. Différents ensembles de traits ont été utilisés, et les résultats obtenus dans une tâche de classification en 7 L1 ont été calculés, soit en moyennant les sorties de 20 algorithmes soit en appliquant un vote majoritaire. Le vote majoritaire a donné 74 % didentification correcte dans la condition la plus favorable (configuration leave-one-out avec lensemble complet de 87 traits), correspondant aux meilleurs résultats. Le taux didentification correcte tombe à 50 % dans la configuration PFC-API, plus réaliste, où les locuteurs testés produisent un échantillon de parole relativement court (1 minute), dont le contenu diffère de celui des données dapprentissage. Ce résultat est encore en deçà des performances humaines, dans les mêmes conditions. En même temps, les taux didentification obtenus par validation croisée nous encouragent à espérer des scores meilleurs avec des quantités de données moins limitées.
Les résultats de la classification avec des sous-ensembles linguistiques de traits (formants des voyelles, durée et voisement des consonnes, indices prosodiques, taux de variantes non-standard alignées en utilisant seulement des unités acoustiques françaises et en utilisant des xénophones) font apparaître une contribution modeste de la prosodie. Globalement, de bons résultats ont été obtenus en utilisant le sous-ensemble constitué des formants des voyelles. Pour identifier les accents, nous pensons que des améliorations pourraient être obtenues en utilisant des traits comme les MFCC et en combinant des méthodes plus « standard » en traitement automatique de la parole (avec des GMM et des SVM) [Pedersen & Diederich, 2007] (cf. § 3.1). Mais le but ici était moins datteindre des scores didentification élevés que dacquérir ou de mettre à lépreuve des connaissances linguistiques.
Des techniques de sélection automatique ont également été utilisées pour hiérarchiser les indices les plus discriminants et trouver un ensemble concis de traits caractéristiques des accents étudiés. Avec un ensemble restreint de 12 traits sélectionnés automatiquement, nous avons obtenu des résultats similaires à ceux que permet dobtenir lensemble complet de 87 traits (jusquà 70 % didentification correcte en appliquant un vote majoritaire). Des mesures de formants et des taux de variantes non-standard alignées qui font sens à la lumière de connaissance linguistique se montrent les plus efficaces : ce sont, parmi dautres, les deux premiers formants du /(/, le F2 du /e/ ainsi que les taux de variantes alignées en /z/([s], /b/([v], /b/([p], /d/([t] et /(/([r]. Les matrices de confusion fournies par les algorithmes de classification, les choix opérés par les arbres de décision ainsi que les corrélations entre perception et traits sélectionnés ont donnés dintéressants éléments de comparaison avec les résultats des expériences perceptives.
Conclusion
Une étude des accents allemand, anglais, arabe, espagnol, italien et portugais en français (accents étrangers avec lesquels nous avons le plus de chance dêtre exposés) a été décrite dans ce chapitre. Un corpus de plus de 15 heures de parole a été enregistré, impliquant 72 locuteurs non-natifs et 12 natifs du français, en parole spontanée (conversations face à face) et en lecture (texte PFC et texte de lAPI). Une partie de ce corpus a fait lobjet dexpériences perceptives, dans lesquels un degré daccent et une origine perçue ont été attribués aux locuteurs testés. Des mesures acoustiques objectives ont été effectuées sur ce corpus, tirant particulièrement profit de lalignement automatique en phonèmes. Et ces mesures ont été utilisées pour identifier automatiquement, au moyen de techniques de fouille de données, la L1 des locuteurs. Au vu des résultats des expériences perceptives, des mesures acoustiques et de lidentification automatique, nous pouvons tenter de répondre aux trois questions posées en début dintroduction à ce chapitre (cf. § 5.1). Nous allons également mettre en évidence certains points différant des chapitres précédents.
Concernant la question de la capacité de sujets français à identifier les six accents étrangers étudiés, les auditeurs de nos expériences ont bien identifié les accents qui leur étaient présentés, quils jugeaient moyens, dans plus de 50 % des cas. Les auditeurs, également, ont été capables dinventorier un certain nombre dindices caractéristiques dun accent étranger en particulier ou en général. Dans au moins une des expériences perceptives qui ont été menées (lexpérience 6L1), leurs commentaires ont été enregistrés au fil du test, ce qui na pas été fait dans les expériences relatées dans les chapitres précédents.
Concernant la question des indices distinguant les accents considérés, la plupart des traits de prononciation qui ont été relevés et la plupart des mesures qui ont été effectuées (dont les formants des voyelles, la durée et le voisement des consonnes) participaient du niveau segmental. Des patrons prosodiques liés au rythme et aux mots terminés par un schwa prononcé ont été mis en évidence. Mais les indices les plus pertinents semblent être lantériorisation ou la fermeture du schwa, le dévoisement des occlusives sonores ainsi que les confusions /b/~/v/ et /s/~/z/. Dautre part, les résultats de la classification fondée sur des ensembles linguistiques de traits (voyelles, consonnes, prosodie) ont montré un rôle relativement modeste joué par la prosodie, pour reconnaître des accents étrangers en français. Cette question du poids de la prosodie, dans différents accents et styles de parole, continuera à nous occuper dans les prochains chapitres.
Concernant la question de la possibilité de modéliser la perception humaine par la machine, question complexe sil en est, certains des résultats que nous venons de rapporter vont dans ce sens. La plupart des traits sélectionnés automatiquement par des techniques de fouille de données ont été cités par les auditeurs des expériences perceptives. Mais le timbre du schwa chez les Portugais parlant français, qui semble discriminant pour la machine, nest pas apparu comme saillant aux oreilles de nos auditeurs. De même, un taux de 50 % didentification correcte a pu être atteint par classification automatique, en appliquant un vote majoritaire, dans la configuration de test la plus réaliste (celle de données non-vues). Mais le gain de performance obtenu par une méthode de validation croisée suggère que la machine a besoin de plus de données dapprentissage et de test. Enfin, les confusions entre accents allemand et anglais sont communes aux auditeurs et à la machine. Mais laccent espagnol, caractérisé par nombre de traits, a été mieux identifié par la machine, alors quil pouvait souvent être confondu avec laccent italien par les auditeurs.
Les mêmes questions se posent, au moins en partie, pour les accents étrangers et régionaux. Des différences, au demeurant, sont notables entre nos approches des accents étrangers et celle des accents régionaux, développée dans les chapitres 2 et 3. La principale tient au succès avec lequel les auditeurs de nos expériences perceptives ont pu discriminer entre six accents étrangers. Les résultats de ces expériences suggèrent quune discrimination fine entre accents régionaux est plus difficile quentre accents étrangers pour lesquels dans une tâche similaire les taux didentification correcte sont dau moins 10 % supérieurs. Dans le but, également, didentifier automatiquement six accents étrangers en plus du français natif, nous avons mesuré un plus grand nombre de traits opératoires que dans le chapitre 3 (cf. § 3.5): doù limportance dalgorithmes de sélection et de classification. Nous en avons éprouvé une vingtaine ici (contre deux dans le chapitre 3), pour nous rapprocher du dispositif expérimental des expériences perceptives impliquant 25 sujets, compensant pour ainsi dire le nombre de locuteurs plus limité que dans le chapitre 3.
Les indices dun accent quil soit étranger, régional ou social peuvent être plus ou moins fréquents, ce que nous navons pas pris en considération dans nos expériences à base de traitement automatique. Ils peuvent être rares, tout en étant très discriminants. À lavenir, nous aimerions approfondir ce problème, qui mérite un traitement en soi. Linstrument de mesure est certainement à perfectionner, pour affiner les traits et en saisir de nouveaux. Des travaux sont nécessaires, en particulier, pour extraire des traits subsegmentaux comme le VOT. De plus, les variantes de prononciation alignées les plus pertinentes peuvent être utilisées pour faire de nouvelles mesures. Un système capable de fournir une mesure du degré daccent tel que celui quont développé Sangwan et Hansen [2009] serait une autre application possible. Enfin, nous espérons que ce travail pourra être utile à lenseignement du français langue étrangère, à linstar de ce qui est fait pour dautres langues [Eskénazi et al., 2007 ; Mixdorff et al., 2009].
DEUXIÈME PARTIE :
LE RÔLE DE LA PROSODIE DANS UN ACCENT OU UN STYLE
Alors que les chapitres précédents nont que sporadiquement mis en évidence limportance des faits prosodiques dans ce qui est perçu comme un accent régional ou étranger, le rôle de la prosodie dans la perception dun accent ou dun style est au centre des trois chapitres de notre deuxième partie. Pour létudier, nous utilisons notamment la synthèse par diphones et la modification/resynthèse de la parole.
Le chapitre 6 présente la méthodologie des paradigmes de recopie de prosodie que nous avons développés et qui peuvent être appliqués à divers accents et styles. Nous illustrons dabord la méthode par une application à lespagnol et à litalien, langues qui permettent de construire des phrases qui se disent pratiquement de la même manière dans les deux langues (ex. ha visto la casa del presidente americano). Des monolingues et des bilingues espagnol/italien ont été enregistrés, et nous étudions ce qui est perçu quand on croise les caractéristiques segmentales dun énoncé avec des traits prosodiques appartenant à une autre langue. Dans ces conditions, les résultats obtenus auprès dauditeurs espagnols et italiens montrent limportance de la prosodie pour identifier un accent espagnol en italien et un accent italien en espagnol.
Le chapitre 7 présente trois études sur la contribution de la prosodie à la perception dun accent maghrébin, dun accent polonais et dun accent de banlieue en français. À chaque fois, des expériences perceptives sont menées, exploitant de différentes façons la modification/resynthèse de la prosodie. Les expériences sur laccent maghrébin ne permettent pas de mettre en évidence un rôle majeur de la prosodie, ni des différences entre accents kabyle et arabe en français sauf peut-être pour les accents les plus forts. Les expériences sur laccent polonais suggèrent que, pour les locuteurs à laccent le plus marqué, la perception de leur prononciation comme non-native vient en partie de la prosodie, et en particulier dune tendance à trop segmenter les énoncés. Pour autant, nous ninterprétons pas cette dernière tendance en termes de transfert prosodique mais plutôt comme le résultat dune charge cognitive top importante. De même, nos expériences sur laccent de banlieue montrent que la présence dune chute abrupte de F0 est un indice déterminant de cet accent. La répétition de ce patron mélodique, qui peut être perçue comme des coups exprimant une forme dagressivité, permet daffirmer une certaine identité. Cependant, linfluence de larabe sur la prononciation des jeunes de banlieue est selon nous loin dêtre prouvée.
Le chapitre 8 se concentre sur lévolution de la prosodie dans le style journalistique français, à partir de lanalyse acoustique et perceptive darchives audiovisuelles remontant aux années 1940. Deux traits prosodiques qui peuvent donner une impression de style emphatique sont examinés : laccent initial et lallongement pénultième notamment avant une pause. Des mesures objectives (automatisées sur un corpus dune dizaine dheures de parole constitué de bulletins dinformations) suggèrent quen plus dun demi-siècle ont diminué (1) la F0 moyenne des journalistes, (2) la montée initiale associée à laccent initial, (3) la durée vocalique caractérisant un accent initial emphatique et (4) lallongement pénultième prépausal. Les attaques de syllabes initiales accentuées, quant à elles, se sont allongées au fil des décennies, alors que le débit de parole (mesuré au niveau des phonèmes) na pas évolué. Ce résultat soulève dintéressantes questions pour la recherche sur la prosodie en français, suggérant que les corrélats de durée de laccent initial ont changé au cours du temps, dans le style journalistique français.
6
6. Accents espagnol en italien et italien en espagnol
Introduction
Linformation portée par le niveau segmental permet souvent didentifier un accent spécifique : nous lavons vu notamment dans le chapitre précédent, pour divers accents étrangers en français. La prosodie est également essentielle dans lacquisition du langage, et peut conditionner certains ajustements dans lapprentissage dune langue étrangère. Si les caractéristiques phonémiques et prosodiques sont importantes, un accent étranger devrait refléter ces deux dimensions. Mais la contribution de la prosodie à la perception dun accent étranger, malgré son intérêt dun point de vue à la fois empirique et théorique [Anderson-Hsieh, 1993] na que très peu été discutée. Souvent même, les études se concentrent sur larticulation des seules voyelles [Kuhl, 1991 ; Flege et al., 1997b ; Pallier et al., 1997 ; Walley & Flege, 1998] ou, plus rarement, des consonnes [Flege, 1991 ; Flege et al., 1995 ; Tsukada et al., 2004 ; Tsukada, 2005]. La prosodie na également quun rôle mineur dans les modèles de perception et de production de la parole non-native. Un modèle tel que le SLM de Flege [2003] (cf. § 1.4.6) sattache dabord aux notions de similarité phonétique et de catégories perceptives nouvelles lors de lacquisition, au niveau segmental chez ladulte fort dune certaine expérience en L2, en particulier. Le modèle Native Language Magnet (NLM) est également fondé sur des unités linguistiques de la taille du phonème. Quant au PAM [Best et al., 2001], ce modèle décrit surtout la variation de discrimination entre phonèmes non-natifs, en fonction de la qualité de leur ajustement phonétique (goodness of fit) à des catégories natives. Ces trois modèles renvoient à lhypothèse du filtrage phonologique et à linterférence entre L1 et L2, mais prêtent peu attention à la prosodie. Celle-ci est souvent négligée [Piske et al., 2001 ; Vaissière & Boula de Mareüil, 2004], peut-être en raison de difficultés expérimentales, liées à des problèmes déquipement adéquat.
Le rôle de la prosodie dans la perception dun accent étranger a été étudié pour langlais avec accent néerlandais [de Bot, 1983], le français avec accent anglais [Grover et al., 1987], le thaï avec accent anglais [Wayland, 1997], langlais avec accent espagnol [Magen, 1998] et lallemand avec accent italien [Missaglia, 1999]. Pennington et Ellis [2000] ont examiné la perception quont des Cantonais de lintonation anglaise. Jilka [2000] a également étudié la contribution de lintonation à une impression daccent anglais en allemand et allemand en anglais. Ces études donnent des arguments en faveur dun rôle majeur de lintonation dans la perception de la parole non-native. Citons enfin des travaux visant à élucider le rôle du rythme, notamment en anglais avec accent mandarin [Munro, 1995 ; Tajima et al., 1997 ; Munro & Derwing, 2001].
De nouvelles expériences peuvent bénéficier du traitement automatique de la parole. La synthèse de la parole, notamment, a été utilisée à des fins de délexicalisation et de monotonisation [Ramus, 1999] et, de même que la parole simulée ou altérée, dans des recherches sur laccent étranger [Grover et al., 1987 ; Munro, 1995 ; Flege et al., 1997b ; Magen, 1998 ; Jilka, 2000]. Elle permet de démêler la part de la chaîne de phonèmes et de la prosodie dans ce qui est perçu comme accent étranger. Nous sommes conscient que séparer ces deux niveaux soulève des questions théoriques et méthodologiques, et la façon dont interagissent les deux plans segmental et suprasegmental peut dépendre des langues et des accents [Laeufer, 1992]; mais le rôle majeur de la mélodie et de la durée comme indices de la structure prosodique est largement accepté.
Ce chapitre analyse les accents étrangers dans deux langues voisines : lespagnol et litalien, qui nous ont permis de construire des phrases qui se disent (quasiment) de la même façon dans les deux langues (ex. ha visto la casa del presidente americano). Ces phrases étroitement contrôlées ont été lues par des locuteurs natifs de lespagnol et de litalien, fournissant des chaînes de phonèmes similaires avec des prosodies différentes, en raison des caractéristiques phonétiques de ces deux langues. La synthèse de la parole a ensuite été utilisée pour combiner les propriétés segmentales dune langue avec la prosodie de lautre. Elle sera aussi utilisée dans les prochains chapitres, dédiés à divers accents et styles en français. Mais lespagnol et litalien offrent une configuration privilégiée pour éprouver la méthodologie.
Le présent chapitre rapporte deux expériences, utilisant la synthèse par diphone (expérience Dip) et de la parole naturelle modifiée (expérience Nat), sur la base du même corpus. La méthodologie est décrite dans les sections suivantes. Des tests découte ont été soumis à des groupes de sujets espagnols et italiens. Le but était de déterminer linfluence relative du niveau segmental et de la prosodie dans la perception dun accent étranger.
Expérience utilisant la synthèse par diphones (expérience Dip)
Pour analyser la perception de laccent espagnol/italien, nous avons mis au point un corpus de 14 phrases denviron 15 syllabes en moyenne, qui partagent des chaînes de phonèmes similaires en espagnol et en italien, daprès des règles de conversion graphème-phonème standard pour lespagnol (castillan) et litalien (toscan). Ce faisant, nous avons souhaité minimiser le biais de lidentification des langues, et nous avons examiné ce qui est perçu lorsquon croise le segmental et le suprasegmental de ces deux langues.
Nous avons eu recours à la recopie de prosodie et à un transcodage phonémique cross-langue : pour chaque phonème dune phrase espagnole, les paramètres de F0 et de durée sont copiés sur le phonème correspondant de la chaîne italienne et vice versa. Des locuteurs et des locutrices natifs de lespagnol et de litalien ont été enregistrés ; leurs paramètres prosodiques ont été extraits vérifiés manuellement avec laide dautres locuteurs natif, et plaqués sur les voix synthétiques à base de diphones dun locuteur espagnol (EM0), dune locutrice espagnole (EF0), dun locuteur italien (IM0) et dune locutrice italienne (IF0).
Préparation du texte
Les phrases utilisées sont inventoriées dans le tableau 6.1 et traduites en français dans le tableau 6.4. La fréquence doccurrence des voyelles et des consonnes, dans cette liste de phrase, ne se veut pas représentative de la fréquence lexicale des phonèmes dans les langues analysées. Ces phrases ont été créées, tout en essayant de maintenir une certaine cohérence sémantique, de façon à sélectionner différentes modalités (exclamative, assertive, interrogative), des structures grammaticales variées (avec des syntagmes prépositionnels, des propositions subordonnées conjonctive et relative), à différents temps (présent, passé composé, imparfait, prétérit, futur) et autant de mots outils que possible. Des exemples en sont ha, era (verbes auxiliaires), la, un (déterminants), al, del (articles contractés), con, a (prépositions), e, o (conjonctions), te, lo (pronoms clitiques), poca, tanto (adjectifs indéfinis), dentro (adverbe). Ces mots similaires entre espagnol et italien sont très fréquents. Nous avons calculé lintersection entre deux listes de mots dont nous disposions, provenant de transcriptions de dizaines dheures de parole de bulletins dinformations en espagnol et en italien. Chaque liste contenait environ 25 000 entrées différentes, dans leurs formes orthographiques et phonémiques, et nous avons trouvé plus de 500 mots partageant la même prononciation large dans les deux langues.
N°EspagnolItalien1
2
3
4
5
6
7
8
9
10Al teléfono, Antonio manifestó poca simpatía.
La música dura sólo un minuto.
Debo arrestarle e identificarle dentro.
¿Ha visto la casa del presidente americano, sí o no?
Lentamente, Marina canta Talla la leña.
La bomba atómica era un problema político.
Te lo dirá María que perdono al médico.
La mía protesta tristemente cuando bebo tanto vino.
La persona que viene sale con un alpinista.
Mario compra un piano a crédito.Al telefono, Antonio manifestò poca simpatia.
La musica dura solo un minuto.
Devo arrestarle e identificarle dentro.
Ha visto la casa del presidente americano, sì o no?
Lentamente, Marina canta Taglia la legna.
La bomba atomica era un problema politico.
Te lo dirà Maria che perdono al medico.
La mia protesta tristemente quando bevo tanto vino.
La persona che viene sale con un alpinista.
Mario compra un piano a credito.11
12
13
14La línea verde señala un itinerario fantástico.
Un baño fresco lava naturalmente poco.
Un taxi, qué sorpresa! un autobús, qué fenómeno!
La polaca prepara la lista.La linea verde segnala un itinerario fantastico.
Un bagno fresco lava naturalmente poco.
Un taxi, che sorpresa! un autobus, che fenomeno!
La polacca prepara la lista.Tableau 6.1 : phrases (numérotées) du corpus, avec les conventions orthographiques espagnoles et italiennes.
Sur le plan phonétique, nous avons veillé à la prononciation de phonèmes tels que /´ð/ et à la diversité des patrons accentuels : oxyton (ex. autobús), paroxyton (perdono), proparoxyton (ex. crédito) même si à cette étape la présence de tels phonèmes et les patrons accentuels n étaient contrôlés que sur la base de prédictions linguistiques. 80 % des mots polysyllabiques du corpus sont paroxytons (i.e. accentués sur lavant-dernière syllabe), chiffre conforme à la structure de la langue, aussi bien italienne quespagnole, où laccent sur la pénultième constitue le cas non-marqué [López Gonzalo, 1993 ; Albano Leoni et al., 1995a, 1995b ; Balducci & Cerrato, 1998 ; Grover et al., 1998 ; DImperio & Rosenthall, 1999]. Naturellement, lappariement nest pas parfait entre les phonèmes de litalien et de lespagnol, dabord parce que dans la variété qui sert de norme culturelle de prestige pour litalien (le toscan), linventaire phonologique est de 7 voyelles (/a ( e i u o (/) contre 5 pour lespagnol (/a e i u o/) ; ensuite parce que les allophones spirantisés de lespagnol ne se confondent pas exactement avec les fricatives italiennes par exemple, un [(] espagnol ne se confond pas exactement avec un /v/ italien (cf. § 5.4.2). Mais on peut rétorquer au premier point quune grande variation règne au sein des voyelles moyennes de litalien ; ensuite, la question des phonèmes proches non-identiques est loin dêtre résolue. Dans notre expérience, la voix synthétique italienne parlant espagnol ferme les voyelles moyennes, mais napplique pas les règles de spirantisation des occlusives sonores telles que /d/([(] / V_V. Quant à la voix synthétique espagnole parlant italien, elle napplique pas ces règles de spirantisation, mais nouvre pas non plus les voyelles moyennes.
Locuteurs et enregistrements
Un locuteur espagnol de Madrid (EM), une locutrice espagnole de Barcelone (EF, native du castillan, comme EM), une locutrice italienne de Milan (IF) et un locuteur italien de Naples (IM) se sont portés volontaires pour lire les phrases ci-dessus. EM, EF, IF et IM font référence aux voix originales des locuteurs ; EM0, EF0, IF0 et IM0 aux voix utilisées dans la synthèse par diphones pour les transplantations de prosodie subséquentes.
Les enregistrements ont eu lieu à Paris, dans une chambre isolée acoustiquement, avec un micro de haute qualité, en utilisant un DAT (fréquence déchantillonnage de 48 kHz). Les données (trois répétitions en moyenne de chaque phrase par locuteur) ont ensuite été transférées sur ordinateur avec une fréquence déchantillonnage de 16 kHz et une résolution de 16 bits, mono, pour les traitements ultérieurs (segmentation en phrase et normalisation de lénergie). Seulement une répétition par phrase a été retenue pour chaque locuteur, pour que le test découte soit dune durée raisonnable.
Les locuteurs, qui avaient tous moins de 40 ans, n étaient pas avertis du but de l expérience. Il était demandé aux locuteurs espagnols de prononcer le digramme ll /´ð/ et non /Æð/ (lleísmo, qui distingue la liquide latérale et la fricative palatale). Il était demandé aux locuteurs italiens de prononcer le s intervocalique /s/ et non /z/, dans des mots comme casa (« maison ») la norme toscane, Comme la prononciation de ces phonèmes est variable, ces spécifications visaient à éliciter des productions qui ne divergent pas trop entre espagnol et italien.
Une autre différence notable, dépendant de la langue, concerne la phrase 5 du tableau 6.1, est que la nasale palatale est plus longue dans litalien legna (« bûche ») que dans lespagnol leña : 149 ms vs 84 ms pour nos locuteurs. Les débits de parole allaient de 12,5 phonèmes/seconde pour IF à 15,5 phonèmes/seconde pour EM en ne comptant pas les pauses. Des mesures de durée sont rapportées dans la figure 6.1. Le débit de parole de la locutrice IF est relativement lent (par rapport au locuteur EM notamment) ; mais si on ne regarde que les phonèmes des syllabes inaccentuées, on constate que la différence de durée moyenne diminue. Cette restriction se justifie par le fait que litalien et lespagnol sont traditionnellement considérés comme des langues à chronométrage syllabique (cf. § 5.1), tendant à avoir des syllabes inaccentuées isochrones. De façon intéressante, le ratio de durée entre phonèmes accentués et inaccentués est de 1,5 pour litalien et de 1,1 pour lespagnol. Lallongement de 50 % des phonèmes accentués par rapport aux phonèmes inaccentués, chez les Italiens, contribue de façon substantielle à ralentir le débit de parole.
Figure 6.1 : durées moyennes des phonèmes accentués/inaccentués et de tous les phonèmes, dans les phrases lues par les locuteurs de l expérience Dip (EF = locutrice espagnole, EM = locuteur espagnol, IF = locutrice italienne, IM = locuteur italien). Les intervalles de confiance ont été calculés avec ± = 0,05.
L allongement de la syllabe accentuée, en italien, peut être à lorigine dun registre de hauteur plus large dans cette langue souvent décrite comme « chantante », de façon impressionniste. Défini en demi-tons par rapport aux valeurs maximum et minimum de F0 des segments voisés comme 12log2(F0max/F0min), le registre de hauteur est de 14 demi-tons pour les deux locuteurs italiens, alors quil nest que de 12 et moins de 11 demi-tons pour EM et EF. (cf. tableau 6.2). Des écarts types ont également été calculés (les valeurs non-nulles de F0 étant exprimées en demi-tons avec une référence de 1 Hz) : on voit dans le tableau 6.2 que ces écarts types sont plus importants chez les Italiens (> 2 demi-tons) que chez les Espagnols (< 2 demi-tons). La stylisation de la prosodie avec deux ou trois valeurs de F0 est décrite ci-après.
EFEMIFIMhauteur moyenne (Hz)202 107 177 106 registre de hauteur (demi-tons)10,612,0 14,0 14,1 écart type de F0 (demi-tons)1,8 1,9 2,2 2,7 Tableau 6.2 : analyse de la hauteur de la locutrice et du locuteur espagnols (EF et EM), de la locutrice et du locuteur italiens (IF et IM), dans lexpérience Dip.
Si les pentes de F0 sont généralement plus importantes en italien quen espagnol, cela nempêche pas que lancrage temporel des cibles de F0 puisse également différer entre les deux langues. Dans un cas comme arrestarle (« larrêter ») dans la phrase 3, par exemple, la mélodie monte après la syllabe pénultième accentuée dans les versions espagnoles, alors que le pic de F0 est situé sur le /a/ accentué dans les versions italiennes. Malgré tout, linformation de durée semble la plus saillante.
Méthodologie
Lexpérience décrite dans cette section utilise la synthèse de la parole par diphones, une technique qui repose sur la concaténation dunités préenregistrées, provenant de voix naturelles. Les voix italiennes et espagnoles utilisées ici sont celles du système multilingue de synthèse de la parole à partir du texte text-to-speech (TTS) développé à Elan [Boula de Mareüil et al., 2001a]. Indépendantes de cette étude, elles viennent de locuteurs natifs soit de lespagnol soit de litalien, qui ont été enregistrés dans leur ville de résidence : le locuteur espagnol EM0 vient de Barcelone (Catalogne) et sa langue maternelle est le castillan ; la locutrice espagnole EF0 vient de Burgos (Castille-et-Léon), le locuteur italien IM0 dAncône (centre de lItalie) et la locutrice italienne IF0 de Côme (nord de lItalie). Leurs voix ont été sélectionnées pour leur agrément et leur acceptabilité en synthèse de la parole.
Les paramètres de F0 et de durée sont ensuite manipulés par lalgorithme TD-PSOLA (Time Domain Pitch Synchronous Overlap and Add) [Moulines & Charpentier, 1990]. Lénergie nest pas traitée, elle est seulement normalisée. Quant à la F0, elle est définie pour chaque phonème par une cible initiale, une cible finale et éventuellement (plus souvent en italien quen espagnol) une cible intermédiaire ; un ou deux mouvements mélodiques linéaires sont ainsi associés à chaque phonème. La F0 des segments non-voisés est mise à zéro, et la F0 initiale de chaque phonème est reliée à la F0 finale du précédent si celle-ci est non-nulle.
Les paramètres prosodiques extraits des locuteurs EF, EM, IF et IM ont été greffés sur les bases de diphones dérivées de SF0, SM0, IF0 etIM0 respectivement, en utilisant un outil de recopie de prosodie également mis au point à Elan [Boula de Mareüil et al., 2001a]. Étant donné un fichier audio et le texte correspondant à ce qui est dit, le système génère un fichier contenant la suite de phonèmes, avec leur durée et leurs valeurs de F0, ainsi quun fichier son avec une voix de synthèse les caractéristiques prosodiques calculées, copiées de loriginal. Le logiciel repose sur lalgorithme Dynamic Time Warping (DTW), qui cherche un chemin minimisant la distance entre des portions de la parole naturelle et de la parole synthétisée. Cette distance est fondée sur des paramètres extraits du signal (énergie, cepstre, taux de passage par zéro, etc.). La méthode utilisée pour les croisements de prosodie est illustré dans la figure 6.2, avec des paramètres prosodiques obtenus à partir des locuteurs EF, EM, IF et IM en entrée, et des voix synthétiques parmi les bases de diphones EF0, EM0, IF0 et IM0 en sortie. Pour tous les locuteurs étudiés, la prosodie dun locuteur donné est imposée à la voix dun autre locuteur, via les bases de diphones de différentes langues dans lexpérience Dip la partie droite de la figure 6.2 schématise la méthode employée dans lexpérience Nat (§ 6.3).
La hauteur moyenne des segments voisés était de 177 Hz pour IF, 202 Hz pour EF, 106 Hz pour IM et 107 Hz pour EM (cf. tableau 6.2). La hauteur moyenne des locutrices IF (respectivement EF) a été multipliée par 1,05 (respectivement 0,95) pour mieux se conformer à la hauteur intrinsèque des voix par diphones IF0 et EF0. De cette façon, également, on évite des écarts de hauteur trop accusés qui pourraient détourner lattention des auditeurs.
Chaque phrase de notre corpus permettait ainsi de générer 8 stimuli de hauteur, de débit de parole et dintensité comparables. Aux 80 stimuli correspondant aux dix premières phrases (2 langues ( 2 types de prosodie ( 2 sexes = 80 stimuli), 4 stimuli ont été ajoutés. Obtenus à partir des phrases 1114, ces 4 stimuli visaient à fournir un échantillon des 4 voix (espagnole et italienne, masculine et féminine), avec la prosodie dune langue ou de lautre. Ces stimuli étaient présentés aux auditeurs au début du test et nétaient pas comptés dans les résultats. Ils étaient précédés dinstructions et dune phase de familiarisation, avec 4 autres énoncés naturels, espagnols et italiens (longs de 2 secondes environ, provenant de 2 hommes et de 2 femmes) qui ne faisaient pas partie du matériel expérimental. Dans cette phase seulement, la langue dorigine était indiquée. Dans le cur du test, les 80 stimuli étaient présentés lun après lautre, dans un ordre aléatoire (avec une randomisation différente selon les sujets), et aucun retour sur les réponses nétait donné.
Figure 6.2 : diagramme bloc de la recopie de prosodie, combinant des paramètres prosodiques extraits de voix naturelles, en utilisant la synthèse par diphones (à gauche) et de la parole naturelle modifiée (à droite).
Lexpérience se déroulait dans une pièce calme, à travers des écouteurs à un niveau sonore confortable. Chaque session durait environ 15 minutes.
Auditeurs et tâche
Les auditeurs, tous daudition normale, nétaient pas payés pour leur participation au test. Ils pouvaient écouter chaque stimulus seulement une fois. Ils étaient avertis quils allaient écouter de la parole modifiée acoustiquement, provenant de locuteurs natifs de lespagnol et de litalien qui pouvaient parler les deux langues. Ils étaient informés que les phrases du test, qui étaient lues dans lune ou lautre de ces langues par les locuteurs, pouvaient se dire presque de la même façon en espagnol et en italien. Il leur était demandé de juger ce quils entendaient à travers une interface conviviale, programmée avec le logiciel Eprime.
Deux groupes dauditeurs, italiens et espagnols, ont participé à cette étude. Les instructions étaient écrites dans la langue de chaque groupe.
Italiens : le test perceptif a été mené à Pise (Toscane), auquel ont pris part 20 sujets (6 hommes, 14 femmes), étudiants en linguistique ou membres du personnel de luniversité et de la Scuola Normale Superiore de Pise. La moitié dentre eux était Toscans dorigine, lautre moitié venait dautres régions dItalie. Aucun dentre eux ne se déclarait bilingue, et la plupart des auditeurs évaluaient leur familiarité avec lespagnol comme étant d1 ou 2 sur une échelle à 10 points. Leur tâche était de juger si tel ou tel énoncé était de lespagnol, de lespagnol avec accent italien, de litalien avec accent espagnol ou de litalien.
Espagnols : lexpérience a été menée à Barcelone auprès de 20 étudiants de licence en psychologie (2 hommes, 18 femmes) qui recevaient des crédits de cours pour leur participation. Les deux parents de chaque sujet étaient de langue espagnole. Les sujets déclaraient tous ne pas être ou nêtre que faiblement familiers avec litalien. Ils recevaient les mêmes instructions que les italiens (dans leur langue), et la tâche consistait également en un choix forcé entre 4 possibilités 4 boutons.
Résultats
Les réponses des sujets sont consignées dans le tableau 6.3. Dans ce tableau et jusquà la fin de ce chapitre, le type de phrase est indiqué comme suit : VePe fait référence à une voix espagnole avec une prosodie espagnole, ViPe à une voix italienne avec une prosodie espagnole, VePi à une voix espagnole avec une prosodie italienne et ViPi à une voix italienne avec une prosodie italienne. Nous avons rassemblé les réponses données aux stimuli produits par des hommes et par des femmes, car une analyse statistique préliminaire a indiqué quil ny avait pas de différences systématiques (cf. § 6.2.5.3).
Les réponses ne semblent pas avoir été affectées par certaines phrases en particulier. Aucune phrase na été entièrement rejetée par les auditeurs. La figure 6.3, qui donne une représentation des résultats phrase par phrase, affiche des réponses assez équilibrées de la part des sujets natifs de l espagnol et de l italien. Des tests de Dz (cf. § 6.2.5.1) confirment qu il n y a pas de différence significative de distribution entre les phrases sonnant espagnoles ou italiennes.
Groupe
(sujets)TypeRéponses (%)EspagnolItalien avec un accent espagnolEspagnol avec un accent italienItalienItaliensVePe4641103ViPe23431915VePi17421822ViPi4311352EspagnolsVePe5319235ViPe19363411VePi16244020ViPi5213440Tableau 6.3 : distribution des réponses pour les deux groupes de sujets de lexpérience Dip, en fonction du type de phrase VePe (voix espagnole avec une prosodie espagnole), ViPe (voix italienne avec une prosodie espagnole), VePi (voix espagnole avec une prosodie italienne), ViPi (voix italienne avec une prosodie italienne).
Figure 6.3 : réponses des auditeurs natifs de litalien et de lespagnol aux 10 phrases comptées dans les résultats de lexpérience Dip. Les pourcentages sont donnés par rapport à 320 réponses.
Comparaison entre stimuli croisés et non-croisés
La première chose à noter est que les phrases VePe ont le plus souvent reçu létiquette « espagnol », alors que les phrases ViPi ont le plus souvent reçu l étiquette « italien ». Des tests de Dz ont confirmé que ces deux types de phrases différaient de façon significative [avec les Italiens : Dz(3) = 327 ; p JND dans ce qui suit.
Dans lensemble, le tableau 8.4 révèle que la durée de lattaque augmente au fil des décennies. Laugmentation de 10 ms de la durée moyenne et laugmentation du taux %(dur > JND sont encore plus régulières si lanalyse est restreinte aux attaques simples. Comme dans la section 8.2, toutes les différences sont très significatives daprès des ANOVA.
Toutes les attaquesAttaques simples#occdur. moyenne(ms)écart type(ms)%(durf > JND#occdur. moyenne(ms)écart type(ms)%(durf> JND1940195920937234191801662919196019693906803726340574332819701979202182402917107636301980199735578237283149773532Tableau 8.4 : durée de lattaque de polysyllabes précédés de clitiques. Sont affichés, pour chaque période étudiée, le nombre doccurrences, la durée moyenne brute, lécart type de la distribution de durées et le pourcentage doccurrences dépassant un seuil de durée (%(dur > JND) correspondant au seuil différentiel (respectivement 95 ms pour lensemble des attaques et 78 ms pour les attaques simples).
Lallongement de lattaque au fil des décennies contredit la tendance suggérée en 8.3.1.1. On attendrait une tendance contraire si lallongement de lattaque était un corrélat de laccent initial [Mertens, 1993 ; Jankowski et al., 1999 ; Astésano 2001 ; Astésano et al., 2007]. Une interprétation alternative est que limportance relative des différents corrélats de laccent initial ont pu changer depuis un demi-siècle. On observe en effet ne évolution parallèle, avec une augmentation de la durée de lattaque au cours du temps, si lon considère uniquement les contextes où la voyelle initiale du non-clitique est dau moins 3 dt plus haute que la voyelle du clitique qui précède. Les valeurs de %(dur > JND, combinant le critère %(F0 > 3 dt, augmentent également à la fois pour lensemble des attaques et les attaques simples dans le dernier cas de 20 % dans les années 40 et 50 à 50 % dans les années 80 et 90. Les manifestations phonétiques peuvent avoir changé, de même que les fonctions communicatives [Kohler & Niebuhr, 2007]. Astésano [2001] a proposé quun allongement de lattaque de 80 % caractériserait un accent initial emphatique. Mais, dans nos données, ce critère aboutirait seulement à 36 % daccent emphatique. Daprès Astésano [2001], lallongement de la voyelle initiale est également caractéristique de laccent emphatique. Nous avons de même mesuré, sur nos données, la durée et lallongement (par rapport à un seuil differential de 20 %) de la voyelle initiale de polysyllabes en contexte post-clitique. Les résultats sont rapportés dans le tableau 8.5, pour chaque période étudiée.
#occdurée moyenne (ms)écart type(ms)%(dur > JND194019592183783535196019694154723627197019792113723329198019973793694023Tableau 8.5 : durée de la voyelle initiale de polysyllabes précédés de clitiques. Sont affichés, pour chaque période étudiée, le nombre doccurrences, la durée moyenne brute, lécart type de la distribution de durées et le pourcentage doccurrences dépassant un seuil de durée (%(dur > JND) correspondant au seuil différentiel (86 ms).
La durée de la voyelle en syllabe initiale de polysyllabe précédé dun clitique décroît de 1940 à 1997 (cf. tableau 8.5). Le pourcentage de voyelles plus longues qu1,2 fois la durée moyenne dans ce contexte (i.e. 86 ms) décroît également, même sil est légèrement plus élevé dans les années 70 que dans les années 60. De nouveau, leffet de la période (19401959, 19601969, 19701979 ou 19801997) est très significatif daprès des ANOVA.
Laugmentation de la durée de lattaque et la diminution de la durée du noyau, au fil des décennies, font que la durée des voyelles supposées accentuées reste stable. Plusieurs interprétations sont dès lors possibles. La nôtre est que laccent initial était plus répandu dans les années 40 et 50 que dans les décennies ultérieures, étayant lHypothèse de Diminution. Laccent emphatique, en particulier, caractérisé par un allongement du noyau vocalique de la syllabe, daprès Astésano [2001], a perdu du terrain. Ceci peut sexpliquer par le fait que, dans les décennies les plus anciennes, les annonceurs essayaient de compenser la mauvaise qualité du dispositif denregistrement en fournissant un effort vocal plus grand pour transmettre leur message. Toutefois, nos données ne montrent pas quait pu se produire un quelconque passage dun accent emphatique à un accent rythmico-démarcatif. Les deux types daccent initial sont dailleurs difficiles à différencier fonctionnellement [Vaissière, 1997a ; Oakes, 2002]. Sur la base de notre analyse des contours mélodiques, ces deux types daccent semblent avoir décru avec le temps. Nous y reviendrons dans la conclusion de ce chapitre. Des travaux antérieurs, sans distinguer les accents initiaux emphatique et non-emphatique, ont trouvé des pourcentages daccent initiale comparables à ceux que nous avons présentés, fondés sur la F0 : 33 % pour le style journalistique des années 70 [Fónagy & Fónagy, 1976], tandis que le pourcentage mesuré dans le chapitre 3, pour un style lu contemporain, sélevait à 29 %.
Allongement pénultième
Nous avons comparé la durée des deux dernières voyelles ou syllabes de polysyllabes (et des trois dernières voyelles ou syllabes des mots au moins trisyllabiques). Comme au chapitre 3, en particulier, les pourcentages de voyelles pénultièmes qui sont plus longues que les voyelles finales ont été calculés. Le schwa final a été exclu en raison notamment de la controverse autour du possible rattachement de la syllabe finale de mot terminé par un schwa prononcé à la syllabe précédente [Durand & Eychenne, 2004]. Si par exemple le e muet était prononcé dans un mot tel que pneumatique, ce mot na pas été pris en considération. De cette façon, 13 % de lensemble des occurrences ont été écartés de façon équilibrée selon les différentes périodes
Dans un mot comme amitié, par exemple, la durée du /i/ a été comparée à celle du /e/. De prime abord, les distributions des différences de durées des voyelles pénultièmefinale sont très similaires à travers les périodes étudiées : les pourcentages de différences positives restent dans une marge de 5 %. Toutefois, si lon restreint lanalyse à la position avant pause, les patrons des années 40 et 50 se distinguent des autres. Dans ce contexte prépausal, leffet perçu est le plus saillant, et ceci laisse un grand nombre doccurrences, comme le montrent les tableaux 8.6 et 8.7. Lintervalle inter-pause est de 2,11 s pour la période 19401959, 1,72 s pour la période 19601969, 1,68 pour la période 19701979 et 1,67 pour la période 19801997.
Le tableau 8.6 présente pour chaque période la durée moyenne des voyelles pénultièmes, lécart type de la distribution de durées et le pourcentage de mots dans lesquels la voyelle pénultième est plus longue que la voyelle finale : pour lensemble des voyelles dans la partie droite et pour les voyelles nasales en syllabe pénultième dans la partie droite. Ce pourcentage moyen (%(durf > 0 ms), dans la partie gauche du tableau, est remarquablement stable dans les enregistrements les plus récents (18 % depuis les années 60), mais il monte à 25 % dans les enregistrements les plus anciens. Une normalisation en z des durées garde ces chiffres (pratiquement) inchangés.
Toutes les voyellesV nasales pénultièmes #occdur. moyenne(ms)écart type(ms)%(durf> 0 ms#occdur. moyenne (ms)écart type(ms)%(durf> 0 ms1940195913448742251781404752196019692781824118312131474019701979147782401823811936301980199724927837183371133533Tableau 8.6 : nombre de mots polysyllabiques précédant une pause, durée moyenne des voyelles pénultièmes, écart type de la distribution de durées et pourcentage doccurrences dans lesquelles la voyelle pénultième est plus longue que la voyelle finale la partie de droite présente les résultats pour les voyelles nasales pénultièmes seulement.
Par ailleurs, il est connu que les voyelles nasales du français sont intrinsèquement plus longues que les voyelles orales, et nos données le montrent (121 ms pour les voyelles nasales, vs 87 ms pour les voyelles orales, en moyenne). Il nexiste pas de contraste de quantité au sein des voyelles nasales, mais au sein des voyelles orales il pouvait naguère y avoir des oppositions phonologiques comme mettre /m(t(/) face à maître (/m((t(/). De telles distinctions sont devenues obsolètes de nos jours (au profit des voyelles brèves), ce qui peut en partie rendre compte de la diminution de lallongement. Pour examiner si un changement prosodique plus général est à luvre, nous avons regardé les voyelles nasales pénultièmes plus en détail. La partie droite du tableau 8.6 (restreinte aux voyelles nasales en syllabe pénultième) montre des nombres doccurrences moins élevés et des pourcentages plus élevés que la partie gauche (pour lensemble des voyelles). De façon plus importante, lécart se creuse entre les différentes périodes. Dans les années 40 et 50, plus de la moitié des voyelles nasales sont extra-longues plus longues que les voyelles finales en dépit de lallongement prépausal. La diminution de la durée moyenne (de 140 ms à 113 ms), également, est notable. Comme décrit plus haut pour les corrélats de laccent initial, les ANOVA montrent un effet significatif des périodes étudiées. Les patrons en termes de syllabes, obtenus en appliquant les règles de syllabation présentées dans Adda-Decker et al. [2005], sont similaires.
Nous navons observé, au fil des décennies, aucune tendance évidente à la diminution ou à laugmentation de la durée des voyelles finales avant pause (voir les résultats pour les mots dau moins trois syllabes dans le tableau 8.7). En revanche, le ratio de durée entre voyelles finale et pénultième a augmenté : 1,8 dans les années 40 et 50, 2,0 dans les années 60, 2,2 depuis. En moyenne, Delattre [1965, 1966a,b] a trouvé un radio de durée de1,8 entre syllabes accentuée (i.e. finale) et inaccentuée (i.e. non-finale). Laugmentation que nous observons ici semble être due à la diminution de la durée des voyelles pénultièmes à travers les décennies.
#occdur. moy.V ant.(ms)écart typeV ant.(ms)dur. moy.V pén.(ms)écart typeV pén.(ms)durée moy.V fin.(ms)écart typeV fin.(ms)%(dur> 0 ms19401959643773482381499559196019691299703580381608965197019796667030803617510063198019971119683273321639563Tableau 8.7 : nombre de mots au moins trisyllabiques précédant une pause, durées moyennes des voyelles antépénultième, pénultième et finale, écart type des distributions de durées correspondantes et pourcentage doccurrences dans lesquelles la voyelle pénultième est plus longue que lantépénultième.
Nous nous sommes interrogés sur le comportement des voyelles antépénultièmes des mots au moins trisyllabiques, même sil y a trop peu de contextes prépausaux pour ventiler les résultats selon que la pénultième est une voyelle nasale ou non. Le tableau 8.7 montre que lallongement de la voyelle pénultième par rapport à lantépénultième na pas diminué au cours du temps, car à la fois les voyelles antépénultièmes et pénultièmes sont devenues plus courtes depuis les années 40, et de nouveau on voit un effet significatif des périodes étudiées daprès des ANOVA. Ce dernier résultat est cohérent avec la diminution discutée ci-dessus de la durée de la voyelle initiale de polysyllabe précédé de clitique (cf. tableau 8.5). Dans la plupart des cas, la voyelle antépénultième est aussi la voyelle initiale des mots au moins trisyllabiques (cf. § 3.4.4.2). Cette diminution au cours du temps de la durée de la voyelle pénultièm prépausale est également reflétée par les résultats à base de seuil différentiel, obtenus comme en 8.3.1.2 pour les corrélats de durée de laccent initial. En résumé, lanalyse acoustique suggère que lHypothèse de Diminution sapplique à la fois à laccent initial et à lallongement pénultième.
Perception de lévolution du style journalistique
Létude à base de corpus rapportée dans les sections précédentes ont permis de quantifier des changements dans le style journalistique au fil des décennies, comme la diminution de la F0 moyenne, la diminution de laccent initial (dans des contextes clitique polysyllabe) et la diminution de lallongement pénultième (avant une pause). Le but de cette section est de vérifier si les différences prosodiques, de même que les changements de qualité de voix et dautres facteurs, sont perceptibles. Pour ce faire, trois expériences perceptives utilisant la recopie de prosodie ont été mises au point. Comme présenté dans les chapitres 6 et 7, ce paradigme permet de séparer les corrélats de F0 et de durée, de les isoler des effets des conditions denregistrement et de la qualité de voix. Même si nous sommes conscients de ses limites, la méthode utilisée est celle que nous avons proposée dans les sections 6.2 et 7.3.
Nous avons sélectionné un sous-ensemble des énoncés du corpus pour représenter chaque décennie, et avons utilisé la recopie de prosodie sur une voix de synthèse par diphones, comme au chapitre 6. Nous avons également enregistré un journaliste professionnel lisant des phrases de la période la plus reculée (les années 40 et 50), dans son style contemporain et en imitant ce quil pensait pouvoir être le style dun journaliste de cette époque. Sur cette base, trois expériences visant à évaluer limportance relative de différentes dimensions (qualité de voix et de lenregistrement, contenu lexical et prosodie) dans la perception de changements concernant le style journalistique. Nous navons pas manipulé les corrélats acoustiques de laccent initial comme lont fait Jankowski et al. [1999], qui ont montré quun allongement de lattaque donne lieu à la perception dun accent initial. Plutôt que de modifier ponctuellement certains paramètres comme nous lavons fait pour laccent de banlieue (cf. § 7.4), nous avons dans une première expérience (expérience R-O) utilisé la recopie de prosodie comme nous lavons fait pour laccent espagnol/italien dans lexpérience Dip (cf. § 7.2). Dans une deuxième expérience (expérience D-S), nous avons de plus utilisé la synthèse de la parole pour faire varier le contenu (en masquant le contenu lexical par une procédure de délexicalisation) et la prosodie des énoncés. Dans une troisième expérience (expérience OCI), la recopie de prosodie a été appliquée à la fois aux documents darchives et au journaliste que nous avons enregistré. La méthode est décrite plus en détail ci-dessous.
Expérience R-O
Dans lexpérience R-O (comme dans lexpérience D-S), il était demandé aux sujets dassigner une date (entre 1940 et 1999) à chaque extrait de parole quils écoutaient. Lexpérience consistait en deux blocs : R (pour les recopies de prosodie) et O (pour les stimuli originaux). Les auditeurs écoutaient dabord les stimuli synthétiques dont la prosodie était recopiée de celle des archives ; ils écoutaient ensuite les stimuli originaux. Dans les recopies de prosodie, les sujets avaient accès aux informations lexicales et prosodiques des stimuli originaux, mais pas aux caractéristiques liées à lenregistrement ni à la qualité de voix.
Corpus
Pour lexpérience R-O (et lexpérience D-S), 30 énoncés ont été sélectionnés, provenant de journalistes hommes du corpus décrit dans la section 8.2 (voir un extrait de la liste des énoncés dans le tableau 8.9). Les phrases (5 par décennie, longues de 10 secondes en moyenne) ont été choisies de façon à éviter les indices lexicaux tels que les références culturelles à une période donnée, qui pouvaient biaiser les résultats. Pour identifier les accents initiaux de ce sous-corpus, des experts en prosodie ont été invités à marquer les syllabes proéminentes, mais aucun consensus na émergé ce qui nétait pas surprenant dans la mesure où de nombreux phonéticiens ont fait des observations similaires sur la difficulté de se mettre daccord autour de la proéminence syllabique en français [Fónagy & Léon, 1980 ; Vaissière, 1997b]. Nous avons donc considéré les séquences clitique non-clitique, avec les mesures de F0 fournies par Praat comme décrit plus haut. La différence de F0 entre la voyelle initiale de polysyllabe et la voyelle du clitique qui précède a été calculée, et le pourcentage doccurrences dans lesquelles cette différence est supérieure à 3 dt a été considéré comme une bonne estimation des corrélats acoustiques de laccent initial. Des résultats comparatifs pour le corpus expérimental (173 contextes clitique polysyllabe) et le corpus entier (12 158 contextes) sont donnés dans le tableau 8.8. Dans les deux cas, on peut observer une diminution de ce qui peut être interprété comme de laccentuation initiale Une diminution similaire de la F0 moyenne est notable à la fois pour le corpus expérimental et le corpus entier : en gros de 170 Hz dans les années 40 et 50 à 140 Hz dans les années 80 et 90. Il y avait trop peu de contextes prépausaux pour étudier lallongement pénultième avant pause.
%194019591960197919801997corpus expérimental412724corpus entier282118Tableau 8.8 : pourcentage de contexts clitique polysyllabe dans lesquels la montée de F0 est supérieure à 3 demi-tons.
La méthode de recopie de prosodie et le système de synthèse de la parole par diphones que nous avons utilisés avec ces stimuli sont décrits dans Boula de Mareüil et al. [2001a]. Étant donné un fichier son (loriginal), la transcription de ce qui est dit est utilisée pour construire la suite de diphones à laquelle correspond loriginal. Une base de diphones est utilisée, comme dans lexpérience Dip du chapitre 6, ici dérivée dun locuteur français dont les unités de parole sont préenregistrées (à des fins de synthèse de la parole à partir du texte, indépendamment de la présente étude) et concaténées. Les paramètres prosodiques sont extraits des stimuli originaux et greffés sur la chaîne correspondante de diphones. La parole synthétique qui en résulte est alignée avec le signal original en utilisant un algorithme de DTW, comme dans Malfrère et Dutoit [1997]. Les paramètres de F0 et de durée sont ensuite modifiés à laide de lalgorithme TD-PSOLA (cf. § 6.2.3). Lénergie nest pas traitée : le niveau sonore (normalisé) de la base de diphones est conservé.
Participants et tâche
Vingt-six sujets (18 hommes, 8 femmes, âgés de 34 ans en moyenne) ont pris part à lexpérience D-O. Ils étaient de langue maternelle française et navaient pas de problèmes daudition connus. Avant le test, il leur était demandé dévaluer leur capacité à distinguer des enregistrements anciens denregistrements récents sur une échelle de 1 à 5 (de as du tout capable à tout à fait capable). En moyenne, cette capacité a été évaluée à 3 par les sujets auxquels il nétait pas demandé plus dexplication.
Après une phase de familiarisation avec quelques échantillons dénoncés différents de ceux du test proprement dit, les sujets écoutaient 30 recopies de prosodie puis les 30 stimuli originaux. Dans chaque bloc (R ou O), les stimuli étaient présentés dans un ordre aléatoire (différent pour chaque sujet). Les participants pouvaient écouter chaque stimulus autant de fois quils le désiraient linterface était similaire à celle que nous avons présentée dans les chapitres 3 et 4, notamment. Un slider permettait dattribuer une date entre 1940 et 1999 à chaque stimulus. Les participants devaient le déplacer à laide de la souris, à partir dune position par défaut qui était 1940.
Résultats
Pour analyser les résultats, nous avons dabord pris en compte les réponses par décennie. En partie en raison de la difficulté de la tâche (juger la date dun enregistrement) et en partie en raison des sources différentes pour les stimuli, les réponses des auditeurs montrent une variabilité dont on ne peut pas rendre compte en décrivant les résultats stimulus par stimulus. Des tendances robustes, cependant, apparaissent si les stimuli sont regroupés. Pour chaque décennie, un vecteur a été construit en calculant le nombre de stimuli perçus par les auditeurs comme datant des années 40, 50, 60, 70, 80 ou 90. Un algorithme de clustering hiérarchique agglomératif a été appliqué aux matrices de confusion obtenues pour les stimuli synthétiques et originaux. Les résultats sont présentés dans la figure 8.4. Pour les stimuli originaux (à gauche), les années 40 et 50 se séparent des autres, et les stimuli enregistrés dans les années 60 et 70 sont regroupés. Les années 90 reçoivent de bons scores didentification (i.e. dappariement entre décennie perçue et décennie réelle), alors quon a des confusions avec les années 80. Dans la condition avec recopie de prosodie (à droite de la figure 8.4), les années 40 et 50 sécartent également des autres décennies, lesquelles sont moins bien reconnues. Dans lensemble, les auditeurs semblent catégoriser les énoncés proposés en trois tranches de vingt ans chacune (ci-dessous désignées sous le terme époques).
Figure 8.4 : clustering hiérarchique résultant des réponses obtenues pour chaque décennie avec les stimuli originaux à gauche et les recopies de prosodie à droite.
Les résultats qui suivent ont été rassemblés pour les années 40 et 50, les années 60 et 70, les années 80 et 90. Dans la figure 8.5, laxe des abscisses représente les dates réelles moyennées et laxe des ordonnées représente les dates perçues. Avec les recopies de prosodie (parole synthétique), les dates perçues pour les années 40 et 50 sont surestimées par rapport aux stimuli originaux. En dautres termes, le caractère désuet de ces stimuli est mieux perçu quand les caractéristiques de la qualité de voix et de lenregistrement sont entendues.
Figure 8.5 : résultats (a) de lexpérience D-O et (b) de lexpérience D-S. Laxe des abscisses représente la date réelle (moyennée pour les années 40 et 50, 60 et 70, 80 et 90. Laxe des ordonnées représente la date perçue (moyennée) pour les originaux et les recopies de prosodie (expérience O-R), les délexicalisations et les stimuli produits par la synthèse de la parole à partir du texte (expérience D-S).
Afin de comparer les résultats pour les stimuli originaux et synthétiques, une ANOVA a été menée sur les réponses des auditeurs (cest-à-dire la date perçue de chaque stimulus, exprimée sur une échelle continue de 1940 à 1999). Les deux facteurs fixes étaient lÉpoque de lenregistrement (3 niveaux : 19401959, 19601979, 19801997) et le Type de stimulus présenté (2 niveaux : recopies de prosodie et originaux).
Les deux facteurs ont un effet significatif : les dates perçues augmentent significative-ment avec lÉpoque [F(2, 1554) = 721 ; p >
>w>>>??????????!?'?.?ð?óéÜͶÍyfyy[QD7DhuHÆh¿ÔCJOJQJhuHÆhÇ4ÊCJOJQJh#~#CJOJQJh0ehõOJQJ%h0ehüV%B*OJQJ^JaJph%h0eh^²B*OJQJ^JaJph%h0ehÇ4ÊB*OJQJ^JaJph-h0ehÇ4ÊB*OJQJ^JaJmH phsH -h0eh¾B*OJQJ^JaJmH phsH h0eh¾OJQJmH sH huHÆhüV%CJOJQJh+rCJOJQJhuHÆh2[¬CJOJQJð?ñ?ò?@!@|@
@@@¬@ö@A{C¬CìCDDD9EFE\EFFNGlGóæÜÒÜÈÜ»®»¡»»»
xjx»]»MhuHÆh4©6CJOJPJ QJhuHÆh>D-CJOJQJh0eh4©OJQJ]^Jh0eh4©OJQJ^JhuHÆh4©CJOJQJ^JhuHÆhp}CJOJQJhuHÆh>?ÈCJOJQJhuHÆh
mNCJOJQJhuHÆh4©CJOJQJhëCJOJQJhÓÖCJOJQJh "¶CJOJQJhuHÆhÇ4ÊCJOJQJhuHÆhR*CJOJQJò?D\EoG¬I:VY\áa@d&j'j(jNjîÙÌÙ̺©}}k$
&Feþ^e`þgd8)$düþ1$a$gd8)$Ådüþ¤x1$`Åa$gd8)
8$Ťx`Åa$gd[8$Ädüþ¤x`Äa$gdÔ8²$Ťx7$8$H$`Åa$gd3@8$düþ¤xa$gd4©8$ÅÅdüþ¤x]Å^Åa$gd4©8$Ådüþ¤x`Åa$gd4©lGnGoG«I¬ISKYKZK\KäKåKæKèK0L9L¨©¾J#â$V*t-M3:Â=ø? DÔIîã×ÆÆµµµµµ z6$Ådüþ¤x`Åa$gd²$Ådüþ¤x7$8$H$`Åa$gd@$Ådüþ¤x7$8$H$`Åa$gd¾X6$Ådüþ¤x`Åa$gd¾X6$Ådüþ¤x`Åa$gdöZ
&FÐ^Ðgdá2
8$düþa$gdF 8$Ädüþ¤x`Äa$gd{
¸ÌìûýQpqs~¡¤¦·¸¹ÈËÒÚîöÊÍåûSjrÚ ã õ!#^#}###$óäó×ȹȹȹȹÈ×ó׬×t×g×g×huHÆh»lÈCJOJQJhuHÆhÓKÚCJOJQJhuHÆh¿YÄ6CJOJQJhuHÆh¿YÄ6CJOJQJ]huHÆh¿YÄCJOJQJhuHÆhÏilCJOJQJhuHÆhñ=ìCJOJQJ^JhuHÆhiCJOJQJ^JhuHÆhiCJOJQJhuHÆhñ=ìCJOJQJ^JhuHÆhñ=ìCJOJQJ'$$I$N$P$T$q$Ì$Õ$ì$ù$ý$%&¯&'I'û(ÿ()
))))*)k+y++-(-)-s-t-ú-8._.f.ñäÖÉÖ伯¼¢¼¯¼¯¼¯¼¯¼¯¼¯¼¯¼¯¼¯¼w¯jhuHÆhh1CJOJQJhuHÆh¾XCJOJQJhuHÆh@H(CJOJQJ^JhuHÆh]gCJOJQJ^JhuHÆh2QCJOJQJhuHÆh@H(CJOJQJhuHÆh]gCJOJQJhuHÆhÚpCJOJQJhuHÆhÚp6CJOJQJhuHÆhiCJOJQJhuHÆhi6CJOJQJ$f.j.m......£.³.´.s/|/¦/¯/Q2q222A3K3L3M3û344$47585ö5óæÙÌÙ¿²¥²¥¿¥¿¿¿¿¿|obooOo%jhuHÆhHdG0JCJOJQJUhuHÆh¬K-CJOJQJhuHÆhHdGCJOJQJhuHÆh]gCJOJQJ^JhuHÆhñLCJOJQJhuHÆh|kàCJOJQJhuHÆh/^HCJOJQJhuHÆhICJOJQJhuHÆh]gCJOJQJhuHÆhõJECJOJQJhuHÆh@H(CJOJQJhuHÆhh1CJOJQJhuHÆh2ùCJOJQJö56;6!>4>5>R>óæÓæÅæÅæ¸æ¸æ¸æ¸æ¸æ©~qbYPYPYhuHÆhjtCJhuHÆhã3SCJhuHÆhñLCJOJQJ^JhuHÆhñLCJOJQJhuHÆhHdGCJOJQJ^JhuHÆhw&îCJOJQJhuHÆhw&îCJOJQJ^JhuHÆhHdGCJOJQJ^JhuHÆh¬K-CJOJQJhuHÆhHdG6CJOJQJ%jhuHÆhHdG0JCJOJQJUhuHÆhHdGCJOJQJhuHÆhpICJOJQJR>S>U>z>>±>¸>×>ñ>ò>þ> ?
????Þ?÷?ø?n@v@[AjA¨AßAõABcBBBºBâBêBC#C$C%C¯C÷î÷ä÷ä÷Û÷î÷Ò÷ú÷±¨÷÷÷÷Û÷Û÷÷z÷qhq÷huHÆhõJECJhuHÆhUCJhuHÆhä4dCJhuHÆhÖ!"CJhuHÆh@CJhuHÆh]gCJhuHÆhi6CJhuHÆh¦cCJhuHÆhÁnCJhuHÆhÝCJjhuHÆhÝ0JCJUhuHÆhºRCJhuHÆh2QCJhuHÆhiCJ]huHÆhã3SCJhuHÆhiCJ%¯C°CàCáC(DDDD DÁDÛDáDâDEEEE1E}E~EEE¾EÀEÍEÎEÏEÐEäEåEêEFKFeFfF|F}FFF÷îåîåÜÍåÀ³¦³³³³³³¦³¦y³o³b³b³³ÀhuHÆh@CJOJQJh¼S(CJOJQJ%jhuHÆhÊ0JCJOJQJUhuHÆh¸HCJOJQJhuHÆhÁnCJOJQJhuHÆh$x5CJOJQJhuHÆh)CJOJQJhuHÆh$ÎCJOJQJjhuHÆhm]¯0JCJUhuHÆhm]¯CJhuHÆh^tDCJhuHÆhiCJhuHÆhQCJ&F¨FÈFÌFÍFGGHH0H1H2H3HDHoHHH~IIIIIºIÃIÓIÔIÕIæIçIJóæóæóØóËó˾±¤¤±¤}¤}p}¤b[WLhuHÆhF mHsHhÜ&th)hÜ&thuHÆhi5CJOJQJhuHÆhm]¯CJOJQJhuHÆhÉ#óCJOJQJhuHÆh²CJOJQJhuHÆh$ÎCJOJQJhuHÆhiCJOJQJhuHÆh=G CJOJQJhuHÆh@CJOJQJhuHÆh$x5CJOJQJhuHÆh)6CJOJQJhuHÆhÁnCJOJQJhuHÆh)CJOJQJÔIÕIçIæL%QlWÏ_dd°dPjClNwôèÕÕ¯¤è~oG$düþ¤x¤a$gdñV¶8$ÅÅdüþ¤x]Å^Åa$gdûS8$Ädüþ¤x`Äa$gdûS
8$düþa$gd°G$Ådüþ¤x¤`Åa$gdR_G$Ådüþ¤x¤`Åa$gd¤D
G$Ådüþ¤x¤`Åa$gdÝ
&FÐ^Ðgdá2
8$düþa$gdiJJÆJÐJÕJÞJKKKK¦K»KÚKôKyLL£L¨L©LªL«LL¾LÞLWMgM¦MÈMÜMåMN(N
P-PwPPRRRRR R,R1R2R3R4R6RARIRJRKRMRORRóèÝÑÝèÆèÆèóèÆèóèóèÆèÆèÆè»è»è»è°è¥èóèóè»è»èóè»è»è»è»èhuHÆh8²mHsHhuHÆhâoÕmHsHhuHÆhó©mHsHhuHÆh+-ÀmHsHhuHÆh¤D
mHsHhuHÆhCimHsHhuHÆhB6mHsHhuHÆhBmHsHhuHÆhF mHsHhuHÆhF 6mHsH6RRR RSSSgSySäST$T'T)TdTTTUU
UUUUUUVV©VªV«VVlWWWÃWõéõÞÖÉÞ¾Þ³Þ³§³ÞÞÞÞÞÞzÞÞÞodYhuHÆh]nmHsHhuHÆh¤D
mHsHhuHÆhR_mHsH jTðhuHÆhF huHÆhF 6mHsHhuHÆhemHsHhuHÆhF >*mHsHhuHÆh~Þ6mHsHhuHÆh~ÞmHsHhuHÆh%'¬mHsHjhuHÆhF 0JUh8?mHsHhuHÆhF mHsHhuHÆh»6mHsHhuHÆh»mHsH"ÃW×W*XËXãXåXëXYaYfYYY½YlZqZrZsZtZvZzZ|ZZZZZZZZZ Z«Z°Z±Z²Z³ZµZ}[[â[ò[w\x\y\\\Ø]Ú]ß]á]J^r^¼^Ð^õêõßõÒêõêßõÇõ»õ°õ°õ°¥õ°õ»õ°õ°õ»õ°õ°õ°õ°õ°õ°õßõßõõ°huHÆhÍ7ÖmHsHhuHÆh?mHsHhuHÆhô
QmHsHhuHÆhoWmHsHhuHÆh¤D
6mHsHhuHÆhù6ómHsHhuHÆh¤D
^JmHsHhuHÆh%'¬mHsHhuHÆh`¨mHsHhuHÆh¤D
mHsH4Ð^Ñ^í^ñ^ò^¦_«_¬__®_°_²_¸_¹_º_»_À_Å_Ì_Ï_Þ_BaGaHaIaJaPaRaZa[aâaäaìaîab6bdddd¯dõêßêßÓßêßêȽ²½²½¦½ßõßÓßßß
ßßßßzßmfh)hûShuHÆh°CJOJQJhuHÆhHUmHsHhuHÆhD&úmHsHhuHÆhRmHsHhuHÆh,#mHsHhuHÆhZÏ6mHsHhuHÆh&mHsHhuHÆhZÏmHsHhuHÆhKq±mHsHhuHÆh¤D
6mHsHhuHÆh¤D
mHsHhuHÆhoWmHsHhuHÆhR_mHsH(¯d°d!e"eeÓeòef-ffcggÉg¬h®hµhÁh
iiPjj²jÃjÅjêjíjÿjkk5kMk_khkjk+l6lCl¥lüïâÕâÕâÈâï»®»¡ïïï{{{{{{{nchuHÆhûSmHsHh0ehûSOJQJ^Jh0ehP&OJQJh0ehûSOJQJhuHÆhûS6CJOJQJ^JhuHÆhP&CJOJQJhuHÆhyCJOJQJhuHÆh¬l.CJOJQJhuHÆh8|ECJOJQJhuHÆh
CJOJQJhuHÆh]nCJOJQJhuHÆhûSCJOJQJhûS%¥l¦lDmSmjmpmnn"n*n.n7nenmno#o)o*omopopppµp¸p»pÅp,q4qIqKqqÔqXr\rhrDsöëàëÔëÔëÔëÔëÔëÔëÉë¾ë³¨³³³³³ti^ihuHÆhÍi¼mHsHhuHÆhûSmHsHhuHÆhÍi¼mH sH huHÆhÍi¼huHÆh×+¡mHsHhuHÆhVDKmHsHhuHÆhÍi¼6mHsHhuHÆh°4;mHsHhuHÆhÍi¼mHsHhuHÆh0g:mHsHhuHÆhtmHsHhuHÆhûS6mHsHhuHÆhüV%mHsHhuHÆhûSmHsH jSðhuHÆhûS$DsHs\ssÌsÑsÒsâsèsís÷sþsttt¬tt¯tÌtátuuuuvvÿvwMwõêõêßÔßɽÉõ±õê¦vêeêZ¦ZMZhuHÆhûSPJ
mHsHhuHÆhûSmHsH!jhuHÆh+kú0JUmHsHhuHÆhQPmHsHhuHÆhÏ0mHsHhuHÆhÝFömHsHhuHÆh{¯B*mHphÿsHhuHÆh{¯mHsHhuHÆhãS´6mHsHhuHÆh
}Æ6mHsHhuHÆh
}ÆmHsHhuHÆh°4;mHsHhuHÆhãS´mHsHhuHÆh+kúmHsHhuHÆhãS´mHsHMwNwawjwæwëw.x5x6x>xcxdxy yçyèyñyzBz«z¼zèz{»{¼{½{||x|y|õèÛèÍèÍèÍè½èªèèèykyèyèbUbLbhuHÆhûSCJhuHÆhãÞCJmHsHhuHÆhãÞCJhpCJOJQJmHsH huHÆhûSCJOJQJmHsHhuHÆhãÞCJOJQJ%jhuHÆhûS0JCJOJQJU%jhuHÆhc(æ0JCJOJQJU jEðhuHÆhûSCJOJQJhuHÆhûS6CJOJQJhuHÆhyCJOJQJhuHÆhûSCJOJQJhuHÆhûSmHsHNwöwxHyñy¼{ö|@&
'
îÙÙÙÙÇÇÇ»»«8$$Ådüþ`Åa$gd½Zz8$Ådüþ`Åa$gdÏSN
8$$î^îa$gdñV¶
&Feþ^e`þgdª=$düþ1$a$gd3]$Ådüþ¤x1$`Åa$gdñV¶8$ãÿdüþ¤x^ã`ÿa$gdÚyp8$Ädüþ¤x`Äa$gdñV¶y|À|Ã|Å|Ì|ô|õ|ö|5}}}}}}}¡}¢}£}½}Æ}ä}ú}~~~H~a~r~s~~÷îäî÷ÛÒź®º£º£º|oboUooUohuHÆh!CJmHsHhuHÆhlÈCJmHsHhuHÆhgKCJmHsHhuHÆh
CJmHsHhuHÆhÓU:CJmHsHhuHÆh,tzCJmHsHhuHÆhu-çCJaJhuHÆh,tz6CJaJhuHÆh,tzCJaJhuHÆhûSCJmHsHhuHÆhÓU:CJhuHÆh,tzCJhuHÆhTu·6CJhuHÆhTu·CJhuHÆhûSCJ~¥~¦~?@±²´¸STUW\ÃGPpvÈÍ9:;ACÊöéÜéÜéÓÊÁÓÁ¸± y k k k ^ huHÆhAi:CJOJQJhuHÆhñV¶6CJOJQJhuHÆh_CJOJQJhuHÆh CJOJQJhuHÆh9=GCJOJQJhuHÆhñV¶CJOJQJhñV¶h)hñV¶huHÆh ãCJhuHÆhñV¶CJhuHÆh9=GCJhuHÆhlÈCJhuHÆh>jCJmHsHhuHÆh!CJmHsHhVOCJmHsH$ÊËñ
$
&
'
K
L
¤
¨
s{ÓÔÕ×û/9efgÞäåçÝ5Hm~²óæÙÌÙæ¿¸´«¢««¢«¢«««}n«¢«¢«¢d¢dZdhuHÆh»CJ]huHÆh»6CJjhuHÆh`0JCJUhuHÆh°fCJhuHÆh`6CJ
h*2CJhuHÆh`6CJ]huHÆh»CJhuHÆh`CJh½Zzh²Iqh½ZzhuHÆh½ZzCJOJQJhuHÆhÕACJOJQJhuHÆhxCJOJQJhuHÆhñV¶CJOJQJhuHÆh`CJOJQJ#'
L
ݶzFGw¡E¡&¢£
¨©®ª®«®óâÐÐø󧧧§
8$düþa$gd3]8$ªVÿdüþ¤x^ª`Vÿa$gd,?8$Ådüþ¤x`Åa$gd,?
$düþa$gdBo«$düþ¤xa$gd»$ãÿ¤x^ã`ÿa$gd»$Ådüþ¤x`Åa$gd`
&FÐ^Ðgdá2²Í
'.`Âùx¯²´8AWXY[ñòóõ1235¤·ÆÎÏÐÒABÏ"%Dy~%&(2õìâõØõâõìâõìâìÏìÏìÆìÆì½ì½ìâìâì´ìÆìÆì¨ì¢¢
¢ìÆìÆìhuHÆhÀe6CJhuHÆhÀeCJhÀehÀe6CJ
hÀeCJjh©X0JCJUhuHÆh72CJhuHÆhL¤CJhuHÆhÌ
âCJhuHÆh æCJhuHÆhÁOgCJ]huHÆh»6CJhuHÆh»CJhuHÆh»CJ]12BCDFQ[_fkÍÎÏÑ&2°µúûüþ
!"#%*4ÝÞßáìùúûýFGõìãìãØìØìãìãìãÌãÆã½ã½ã½ã½ã´ã«ã«ã«ã«ã´ã«ã«ã¢«ã«ãã«ã«ãhuHÆh8z·CJhuHÆh»6CJhuHÆhaCJhuHÆh72CJhuHÆh¢O[CJhuHÆhL¤CJ
hb ÀCJhuHÆh»6CJ]huHÆhÌ
âCJ^JhuHÆh»CJhuHÆhÌ
âCJhuHÆhÌ
âCJPJ 6Gadvw} åì#/04u
>?@BÝëý % & 3 4 5 C b | Õ Ö × Ù å ê ë ì í ùòùîáÓáÀáÓá³¢³áÓá³á³áÓáááááá³á³áxákáhuHÆh+LCJOJQJhuHÆh½Zz6CJOJQJ]huHÆh^tÍCJOJQJhuHÆh8z·CJOJQJ!huHÆhðB*CJOJQJphhuHÆhðCJOJQJ%jhuHÆhr0JCJOJQJUhuHÆh½Zz6CJOJQJhuHÆh½ZzCJOJQJhðh²Iqh1Jch²Iqhð*í ï ÿ ¡
¡¡¡¡(¡9¡E¡F¡G¡K¡M¡£¡¤¡Ý¡ù¡&¢(¢)¢+¢,¢-¢¢¢½¢Â¢Ü¢
££{£|£}££¸¤À¤ï¤ð¤ñ¤÷¤B§N§b§y§ ¨Ï¨Õ¨©óæóæóæÙæÌæ¿óµ¨ó¿ó¿ó¿µ¨µ¨ó¿ó¨¿ó¨ó¨ó¨óóóóóóhuHÆh,?CJOJQJ]huHÆh,?CJOJQJhuHÆhð6CJOJQJhuHÆh@:{CJOJQJh²IqCJOJQJhuHÆh8z·CJOJQJhuHÆh V¹CJOJQJhuHÆh¹1=CJOJQJhuHÆh½ZzCJOJQJhuHÆhðCJOJQJ1©Z©[©\©a©b©l©}©©©©©©£©¤©§©¿©TªVª®ª´ª««:¬=¬R¬ióæÙæÌæ¿ó±ó¤¤ó|óo_o_oRCohuHÆhNCJOJQJ^JhuHÆhNCJOJQJhuHÆh,?6CJOJQJ]huHÆh,?CJOJQJhuHÆhFDCJOJQJhuHÆh¢CJOJQJhuHÆhù`q6CJOJQJhuHÆhù`qCJOJQJhuHÆhÑ56CJOJQJhuHÆh¿>CJOJQJhuHÆhCJOJQJhuHÆh$ CJOJQJhuHÆh8[CJOJQJhuHÆhÑ5CJOJQJioÃÇÈÊâçé+®,®J®®§®¨®©®«®»®¼®¯!¯ª¯±¯I°|°°°±+±Ý±Þ±G²É²Û²à²â²ñä×ä×ä×äʺÊä×ä ä{n`nhuHÆhËT6CJOJQJhuHÆhËTCJOJQJhuHÆh׬CJOJQJhuHÆhO-CJOJQJhh²IqhhuHÆhCJOJQJhuHÆh°CJOJQJ j±ðhuHÆhÄeùCJOJQJhuHÆhÄeùCJOJQJhuHÆhãd>CJOJQJhuHÆh,?CJOJQJhuHÆh,?6CJOJQJ#«®¼®½®Þ±¼v¿¿Â¿Ã¿Ä¿Å¿Æ¿Ç¿È¿ïãÔñ¡
±±±±w$d0ý¤x1$a$gd6M$düþ¤x1$a$gd8"¼
$døý1$@&a$gd|k$døý¤1$@&a$gd U`$Ådüþ¤x1$`Åa$gds,Æ8$Ådüþ¤x`Åa$gdPØ8$Ådüþ`Åa$gdPØ8$$düþa$gd3]
&Feþ^e`þgdª=
â²ì²í²i³k³s³³§³Æ³Í³Î³Ú³3´u´ ´¶´Ð´ö´÷´MµVµZµcµ
µ¥µ¦µ1¶>¶3·=·o·óæÙÌ¿²¿¨¿ó¿¿¿¿Ù¿v¿v¿i¿i\OhuHÆh¹-ÛCJOJQJhuHÆhHP1CJOJQJhuHÆhiCJOJQJhuHÆhØ6CJOJQJhuHÆh0uúCJOJQJh&BCJOJQJhuHÆheCJOJQJh¢{CJOJQJhuHÆhì+lCJOJQJhuHÆhØCJOJQJhuHÆhD
&F;ý¤`;ýgdöggdW %düþ¤ðgdQe 4$Ådÿ¤x$d%d&d'd1$NÆÿOÆÿPÆÿQÆÿ`Åa$gd]®$düþ¤x1$a$gdqRø$d@ü¤x1$a$gdqRøì¿,ÀhÀjÀÃÃÇ:DZȲÈxÉyÉcÊiÊ}Ê
ÊFËJË°Ë¼ËÆËÚËÌÌÌ0ÌaÍlÍÎ+Î}ÎÎÏ Ï&Ï'ÏÐÐyÐzÐÑ
ÑwÑxÑÒ-ÒRÒSÒUÒXÒÒÒÒ÷ñ÷èÖèÐèÇèÖèÇèÇèÇèÇèÁèÇèÇè÷è÷è÷è÷è÷è÷è÷è÷è·è÷豨
h=>DCJhWhcu@h²IqhQe 5h²Iqh²Iq5B*phÿÿÿhöZhQe CJ$
h8"¼CJh]®h·kø6CJ
hÜ(CJh]®h¬-ÜCJ
hÆCJ" jðh]®h·køCJ^JmH sH h]®h·køCJ
h/¾CJh]®h]®CJ4Ò¡Ò§ÒóÒ÷ÒÓÓ;Ó[ÓgÓÓ
ÓÓÓµÓ¶Ó·Ó¸Ó¼ÓÈÓÎÓÏÓØÓÔ(Ô+ÔXÔaÔbÔfÔzÔ¡Ô«Ô¬Ô¯Ô±ÔÄÔÆÔÇÔÕ÷îå÷ÜÓÊÁîÁîÁîܸܸܸܸܯ¦¯¦¯¦ÜrfhuHÆhm_CJH*PJ
huHÆh;[:CJPJ
^JhuHÆhm_CJPJ
huHÆhá!zCJhuHÆhR CJhuHÆhÅnCJhuHÆhý
CJhuHÆh`ÙCJhuHÆhFZ?CJhuHÆh.2]CJhuHÆhÙrjCJhuHÆhV*CJhuHÆhm_CJhuHÆhi;ÕCJhuHÆh|
^CJhuHÆh0CJ'ÕÕÕÕÕÕÕ?ÕGÕOÕaÕbÕcÕdÕgÕhÕjÕoÕÕÕÕÕÕÕÕÕÕÕðÖ@×A×J×O×Q×R×T×õêõáØÏØÆ½ÆØ´«´Æ´Ø´¢¢´ÆwØne´[´n´huHÆh06CJhuHÆhW
CJhuHÆhÙrjCJhuHÆhrCJhuHÆhvCJjhuHÆhGn0JCJUhuHÆhi76CJhuHÆhi7CJhuHÆhcu@CJhuHÆh0CJhuHÆh{õCJhuHÆhÙ3¾CJhuHÆhÄ©CJhuHÆhm_CJhuHÆh·DTCJhuHÆhÅnCJPJ
huHÆhR CJPJ
#T×U×V×X×^×b×c×RØYØIÙhÙ}Ù~Ù
ÙÙÙÚÙÞÙäÙéÙiÚnÚ\ààØàäàêàúàûàýàááá7á;áFáLáTáYá]áaáváxá÷îåÜå÷ÓÊÓÁ¸Á¸Á¸£¸£¸£¸ÓÁÓÁÁÓÁÓ{{o{{huHÆh&¾6CJPJ
huHÆhm_CJPJ
huHÆh&¾CJPJ
huHÆhÙ3¾CJhuHÆhCJhuHÆh$¾6CJhuHÆh$¾CJ^JhuHÆh$¾CJhuHÆh&¾CJhuHÆhß<CJhuHÆhm_CJhuHÆh߬CJhuHÆhGnCJhuHÆhzCJhuHÆhÙrjCJ*xáyáÃáÑá~ââ³â¸âÐâÓâÙâßâàâââäâåâ6ãVãWãkãlãnãpã{ã|ã~ããã¦ã¶ã ä9ä@äEä.å`åeåiåuåvåwåxååõìãìÚÑìÑÇìѾÑì¾ìÚµÑÚѬ£µ£ìµììììvìvmìhuHÆh}fCJhuHÆhý
CJhuHÆhá!zCJhuHÆhÙrjCJhuHÆhN&sCJhuHÆh
AYCJhuHÆhß/QCJhuHÆh U`CJhuHÆh&CJhuHÆhÙ3¾CJhuHÆhÜfû:CJhuHÆhÜfûCJhuHÆh(¦CJhuHÆhß<CJhuHÆhm_CJhuHÆhÙ3¾CJPJ
*åÁåîå'æIæbæxæ{æææØæÛæûæþæwççç·ç8è>>>> >(>)>/>÷ï÷æßÖÏǽϴϬϴϥϬϴÏǽϴÏǽϽÇÖ÷ï÷æÏ´ÏǽϴϬϴÏhuHÆhgíCJhuHÆh¥uCJ\huHÆh¥u5CJ\huHÆhÒHhuHÆh¥u5huHÆh¥uCJhuHÆh¥u5\huHÆh¥u\huHÆh¥uhuHÆh°i&CJhuHÆh°i&huHÆhG\CJhuHÆhôí5huHÆhG\54>>A>G>H>M>N>[>^>d>e>x>{>~>>>>>>>Á>Î>Ï>Ð>???"?#?$?%?-?.?8?;?