Td corrigé Table des matières - limsi pdf

Table des matières - limsi

20 oct. 2018 ... Sujet de verbes d'action et de volonté, le nous est ici « exclusif », de sorte qu'il peut ...... Le célèbre discours de Pic de la Mirandole Sur la Dignité de ..... 8) En suivant les consignes de méthodologie données en TD, vous ferez .... et de portes blindées claquent dès quatre heures de l'après-midi, New York ...




part of the document













Accents et styles

Contribution à une étude à base de perception et d’analyse à travers le traitement automatique de la parole

Philippe Boula de Mareüil

Mémoire d’habilitation à diriger des recherches






À Florence





Assurons-nous bien du fait, avant que de nous inquiéter de la cause.
Fontenelle (1687), « La dent d’or », Histoire des oracles (chapitre IV).


Le Français présume que c’était une voix d’Espagnol, et il aurait pu distinguer quelques mots s’il était familiarisé avec l’espagnol. Le Hollandais affirme que c’était la voix d’un Français, mais il est établi que le témoin, ne sachant pas le français, a été interrogé par le canal d’un interprète. L’Anglais pense que c’est la voix d’un Allemand, et il n’entend pas l’allemand. L’Espagnol est positivement sûr que c’était la voix d’un Anglais, mais il en juge uniquement par l’intonation, car il n’a aucune connaissance de l’anglais. L’Italien croit à une voix de Russe, mais il n’a jamais causé avec une personne native de Russie. Un autre Français, cependant, diffère du premier, et il est certain que c’était une voix d’Italien ; mais, n’ayant pas la connaissance de cette langue, il fait comme l’Espagnol, il tire sa certitude de l’intonation.
Edgar Poe (1856), « Double assassinat dans la rue Morgue », Histoires extraordinaires.

Remerciements
La plupart des travaux présentés ici ont été menés au LIMSI-CNRS, avec Martine Adda-Decker, Bianca Vieru et/ou Cécile Woehrling, au sein du groupe « Traitement du Langage Parlé » que dirige Jean-Luc Gauvain. Je leur suis en premier lieu redevable. Une partie de ces travaux a été réalisée dans le cadre du programme Quæro, dont Jean-Luc Gauvain est également directeur scientifisque, et qui est financé par OSEO. Une autre partie de ces travaux a été réalisée dans le cadre du projet VarCom, programme interdisciplinaire TCAN financé par le CNRS, et du projet PFC-Cor, financé par l’ANR. Je remercie Noël Nguyen, responsable de ce premier projet et Bernard Laks, responsable du second, co-responsable également avec Jacques Durand et Chantal Lyche du plus vaste projet « Phonologie du Français Contemporain » (PFC). Je tiens à exprimer ma profonde gratitude à tous les partenaires qui m’ont permis de travailler sur leurs enregistrements, en particulier Anne Catherine Simon et Béatrice Akissi Boutin. Merci aussi à Belynda Brahimi, à Anna Kaglik, à Iryna Lehka, à Giovanna Marotta, à Núria Sebastián-Gallés et à Ioana Vasilescu pour leurs enregistrements et leurs contributions. Merci à Benoît Hervieu et à tous les locuteurs qui ont bien voulu prêter leurs voix, ainsi qu’à Alice Bardiaux et à tous les auditeurs que j’ai solicités pour des tests perceptifs. Merci encore à Laurent Vinet et à l’Institut National de l’Audiovisuel (INA) pour les corpus audiovisuels et leurs transcriptions, rendus disponibles notamment dans le cadre des projets Eurodelphes et Echo. Merci de nouveau à Nigel Armstrong, Corrine Astésano, Mariapaola D’Imperio, Donna Erickson, Martine Grice et Oliver Niebuhr pour leurs commentaires sur certaines parties de ce travail. J’ai une dette particulière envers Cédric Gendrot et Christophe Pallier pour certains scripts et tests statistiques. Enfin, je suis extrêmement reconnaissant envers mes collègues du LIMSI Gilles Adda, Alexandre Allauzen, Éric Bilinski, Christophe d’Alessandro, Benoît Habert, Lori Lamel, Patrick Paroubek, Albert Rilliard et François Yvon pour leurs conseils et leur aide si précieuse.



Résumé
Articulé autour des accents et des styles de parole, ce travail combine des approches à base de perception et d’analyse phonétique pour rendre compte de diverses dimensions dans lesquelles peut se déployer la variation dans la parole, en lien notamment avec l’origine géographique et linguistique des locuteurs, ainsi qu’avec la situation de communication. Il a bénéficié d’importantes quantités de données que les instruments de mesure dérivés du traitement automatique de la parole permettent de brasser, pour quantifier certaines tendances.
Ce travail cherche d’abord à modéliser comment peuvent être identifiés et caractérisés des accents régionaux et étrangers en français. Des expériences perceptives ont été menées et des analyses acoustiques ont été effectuées, au moyen de l’alignement automatique en phonèmes pouvant inclure des variantes de prononciation, sur des accents du Midi, de Belgique, d’Afrique de l’Ouest, du Maghreb, sur des accents allemand, anglais et portugais, parmi d’autres. Au total, plus de 100 heures de parole en français avec accent régional ou étranger ont été analysées. Certains des traits de prononciation les plus discriminants, comme la réalisation des voyelles nasales en français méridional ou la réalisation du schwa (postériorisé et fermé) en français avec accent portugais, ont ainsi pu être hiérarchisés par des techniques d’apprentissage automatique.
La parole véhiculant à la fois des informations phonémiques et prosodiques, nous nous sommes concentré sur le rôle de la prosodie dans la perception d’un accent étranger (espagnol, italien, polonais, parmi d’autres), de l’accent dit « de banlieue » et du style journalistique, dont nous avons étudié l’évolution depuis les années 1940 à travers des archives de bulletins d’informations. Pour ce faire, différentes techniques de recopie et de modification/resynthèse de prosodie ont été utilisées. La contribution de la prosodie a ainsi été mise en évidence, en particulier pour l’accent de banlieue (avec une chute abrupte de fréquence fondamentale avant une frontière prosodique) et le style journalistique des années 1940–1950 (avec une tendance à l’accentuation initiale plus marquée que dans les décennies ultérieures).
La parole spontanée telle qu’on peut la rencontrer dans des dialogues ou des interviews a été étudiée, à travers un corpus de 35 heures de dialogues finalisés (comparé à un corpus de 100 heures de lecture du journal Le Monde) et un corpus d’une dizaine d’émissions de L’heure de vérité. Par rapport à la lecture oralisée, la parole spontanée montre en particulier davantage de schwas et de liaisons (au moins 12 % de différence). Par ailleurs, elle est caractérisée par la présence d’un certain nombre de disfluences (hésitations, répétitions et faux départs) et de marqueurs (totalisant au moins 8 % des mots) ainsi que de chevauchements de parole (en moyenne 3–4 par minute ) qu’on ne retrouve pas dans la langue écrite.
La modélisation de la variation et de sa perception est d’une grande importance pour comprendre comment le langage peut évoluer. En guise de conclusion et perspectives, des orientations pour des travaux futurs sont proposées, notamment pour mieux prendre en compte le fait social et pour articuler accents, styles et parole expressive.
1
1. Introduction
La variation : état de l’art et enjeux théoriques

Variabilité, variation, sociophonétique
La variabilité est inhérente à la parole. Notre capacité à catégoriser les sons de la parole que l’on nommef « perception catégorielle » est fondamentale, car elle permet d’identifier des clases — lesquelles sont utilisées (et développées) par la lecture alphabétique [Liberman et al., 1957 ; Bogliotti et al., 2008]. Mais l’observation des articulateurs et des représentations acoustiques de la parole ne révèle pas des segments séparés « comme les perles d’un collier » [Durand, 2005]. Les phonèmes et leurs allophones sont traditionnellement définis, en phonologie, par l’analyse paradigmatique de paires minimales de commutation, liées à la fonction distinctive dans une langue donnée. Si la phonétique et la phonologie ont pour objectif commun d’aborder la forme sonore du langage, la phonétique est plus ancrée dans la matérialité de la parole. Mais pas plus que le phonologue le phonéticien ne décrit tous les phénomènes physiques produits lors des gestes de parole, qui ne sont pas reproductibles. Même deux [a] prononcés successivement par la même personne ne sont pas exactement identiques. On est face au continuum sonore, où il est illusoire de vouloir noter tous les détails non-distinctifs [Pike, 1982 ; Laver, 1994]. Du reste, le constat d’une variabilité inéluctable dans la parole a conduit très tôt les phonologues de l’école fonctionnaliste à distinguer variantes combinatoires (dues au contexte) et variantes libres (non directement imputables à un facteur spécifique) [Troubetzkoy, 1938]. De même, un long débat a existé autour de la distinction entre coarticulation (qui serait universelle) et assimilation (plus phonologique) [Fagyal et al., 2002]. Cependant, le constat suivant reste d’actualité : « there is no known case of two corresponding phonemes in two languages having fully comparable denotations. Therefore phonological inventories only exhibit strong analogies » [Pierrehumbert et al., 2000]. Comme toutes les sciences qui cherchent à dégager du réel des régularités, les sciences du langage sont confrontées à la variabilité.
On peut également distinguer entre variabilité (intrinsèque à la parole) et variation (socialement investie) [Gadet, 1996]. Dans ce cadre, la variation n’est pas un simple constat phénoménologique d’usages pluriels, d’entropie ou de désordre dans les données, mais relève d’un certain niveau interprétatif.
L’objet de recherche en linguistique qu’est la variation impose de manipuler d’importantes quantités de données. Les instruments de mesure dérivés du traitement automatique de la parole sont donc particulièrement appropriés pour quantifier des tendances connues et moins connues en phonétique/phonologie. Le but, dès lors, est à la fois d’augmenter nos connaissances et d’améliorer les systèmes de traitement automatique, de relever un défi scientifique et de lever un verrou technologique [Adda-Decker, 2006].
Outre le changement diachronique (à travers le temps), la littérature sociolinguistique distingue trois dimensions dans lesquelles peut se déployer la variation [Coseriu, 2000] : diaphasique (situationnelle ou « stylistique », intra-locuteur), diatopique (régionale, géographique) et diastratique (socioculturelle et démographique). Une dimension supplémentaire a été ajoutée : la variation diamésique (de médium oral/écrit, notamment).
Ici, c’est la distinction de chenal de transmission de la parole qui constitue le point d’ancrage de la différence : aucun locuteur ne parle comme il écrit, aucun n’écrit comme il parle. [Gadet, 2004 : 98]
Depuis quelques années, le terme « sociophonétique » a fait son apparition, « referring usually to variation in speech that correlates with social factors like speaker gender, age or social class » [Foulkes & Docherty, 2006]. Les facteurs étudiés (notamment l’âge et la classe sociale, substitut de pratiques sociales), liés à la variation diastratique, ont souvent été ignorés par la phonétique expérimentale et la phonologie traditionnelles, peut-être en raison du fait que la variation diastratique qui y est liée est souvent graduelle plus que catégorielle. Une forme (segmentale, suprasegmentale ou subsegmentale) sera par exemple statistiquement davantage mobilisée par un groupe social que par d’autres. La méthode structurale ainsi que la distinction entre langue et parole, introduite par F. de Saussure en 1915, ont été très fécondes. Mais il est aujourd’hui essentiel de réconcilier le couple langue/parole (code/utilisation actualisée de ce code dans des énoncés réels), reformulé par N. Chomsky en 1965 sous la forme compétence/performance (connaissance abstraite/mise en œuvre concrète des règles du langage).

Du structuralisme à la linguistique variationniste
Si la méthode structurale a pour rôle de dégager des règles et des unités fonctionnelles, la langue est une « institution sociale » pour Saussure [1915 : 105], lequel évoquait « la partie sociale du langage, extérieure à l’individu, qui à lui seul ne peut ni la créer ni la modifier » [Saussure, 1915 : 31]. Il est donc paradoxal que ses continuateurs aient exclu le social de leur étude. « Dans la langue il n’y a que des différences » [Saussure, 1915 : 166] ; la linguistique saussurienne va ainsi s’intéresser, par exemple, à la fonction distinctive des phonèmes et aux systèmes phonologiques, bien que la pertinence d’une opposition telle que /œ(/~/((/ en français ne soit pas évidente dans la communication. Mais ce n’est pas sur les différences entre sujets que se polarise la phonologie ni la linguistique « proprement dite », dont « l’unique objet est la langue » [Saussure, 1915 : 38]. Fondatrice de la linguistique moderne, la distinction langue/parole a plutôt scellé une dualité entre invariants et variabilité, entre grammaire et réalisation. Ces dernières seraient également les terrains respectifs de la phonologie (dont le théâtre est le cerveau) et de la phonétique (dont le théâtre est la bouche et les oreilles) [Meunier, 2005]. Elles mériteraient d’être revisitée dans une optique variationniste [Labov, 1994 : 83–84 ; Sankoff, 2006], de même que la dichotomie synchronie/diachronie.
D’une variété de langue à une autre, certaines différences sont peut-être incohérentes, chaotiques de prime abord. Ne peuvent-elles pas être éclairées de manière plus opportune et fructueuse si on les rapporte à des changements linguistiques se déroulant dans l’histoire, tels une lame de fond ? Une double force s’exerce sur les langues : centripète et centrifuge, ou encore uniformisatrice et séparatrice, oscillant entre des postures d’ouverture et de fermeture, entre ce qui favorise la communication et ce qui peut tendre à la dislocation, contre la loi d’économie [Nettle, 1999]. C’est un paradoxe — mais également un fait — que le langage change, alors que comme instrument de communication il pourrait n’être l’objet que d’adaptations mineures au monde [Coseriu, 1973]. Certains passages de Labov mettent en avant la réticence au changement :
The fact of language change is difficult to reconcile with the notion of a system adapted to communication [Labov, 1994 : 9]
It is hard to avoid the conclusion that language, as an instrument of communication, would work best if it did not change at all. [Labov, 2001 : 5]
M. Alinei [2004], surtout, insiste sur la lenteur des changements structurels affectant la grammaire (au sens large de système linguistique) et non seulement le lexique, ainsi que sur les facteurs de continuité.
Activité conditionnée sociologiquement [Vendryès, 1968 : 23], le langage est un système dynamique [Labov, 1094 ; Stockwell, 2000 ; Oudoyer & Kaplan, 2007]. La langue n’est pas intangible : elle change, elle évolue, comme la flèche de Zénon qui en réalité bouge — certes pas à la même vitesse. Ce changement linguistique souvent perçu comme « trop lent, trop subtil ou trop insaisissable pour qu’on puisse l’étudier à mesure qu’il se déroule » [Labov, 1976 : 371] peut aussi s’observer en temps réel, et non seulement en temps apparent — en comparant à un instant donné les usages de jeunes et vieux locuteurs. En situation de diglossie notamment [Ferguson, 1959], entre des variétés hautes et basses coexistantes, l’insécurité linguistique se traduit par un sentiment de faute chez le locuteur, un manque d’assurance à la prise de parole, des réactions subjectives négatives envers sa propre façon de parler [Bennis, 2006 ; Hassa, 2008] et éventuellement des hypercorrections : en voulant bien faire, on en fait trop, on exagère certains traits, on rate sa cible. On est confronté à de profondes fluctuations qui font partie du système langagier pour Labov, qui déclarait :
S’il n’était pas nécessaire de marquer le contraste entre ce travail et l’étude du langage hors de tout contexte social, je dirais volontiers qu’il s’agit là tout simplement de linguistique. [Labov, 1976 : 258]
Le changement et la variation (aussi bien inter- qu’intra-locuteur) sont définitoires de l’objet qu’on appelle « langue », même si des linguistes générativistes comme Chomsky et Halle [1968] les ont pratiquement exclus du champ de la linguistique. Pour Chomsky, l’objet de description est « le locuteur-auditeur idéal, au sein d’une communauté linguistique entièrement homogène » [Chomsky, 1965 : 3]. Voici dans quels termes T. Scheer juge les corpus générativistes, dans sa présentation du volume Usage des corpus en phonologie :
[Ceux-ci] brassent un nombre impressionnant de langues qui se comptent souvent par centaines (format typique des thèses produites outre-Atlantique depuis une dizaine d’années). Ils se caractérisent par le fait que le linguiste qui rassemble les données et les interprète ne connaît aucune des langues en question (ou alors la portion congrue), n’en a entendue aucune de ses propres oreilles et ne sait d’elles rien d’autre que les trois exemples qu’il a puisés dans une grammaire qu’il n’a pas lue entièrement et dont il ne sait pas évaluer la qualité [Scheer, 2004 : 53].
Il ne faut pas nécessairement y voir un déni de la variation, mais une position théorique de ce courant générativiste qui se place du côté de la grammaticalité, de la compétence plutôt que de l’observation, de la performance. Même « le structuralisme n’est pas en reste : en pratique, les traits constitutifs de la “parole impromptue” […] se voient rejetés dans une zone périphérique, voire “extralinguistique” » [Fernandez-Vest, 1994]. Pourtant, les « fautes » elles-mêmes, à travers les surgénéralisations qu’elles peuvent opérer, nous apprennent quelque chose [Frei, 1929], que ce soit en matière de flexions nominales ou adjectivales (ex. *carnavaux, *partisante,) ou de désinences verbales (ex. *prendu, *croivent, *sontaient pour étaient). L’acquisition par l’enfant des liaisons en français donne des paradigmes particulièrement savoureux : un *zarbre ou un *zami, un nuage–des *zuages, des *navions ou des *nours (cf. la forme lexicalisée nounours) [Dugua, 2006]. Le langage ne serait pas viable s’il n’était pas variable : dès qu’il y a communauté linguistique, il y a morcellement, fragmentation [Sapir, 1931]. Pour s’en tenir au français, « l’illusion de l’unité de la prononciation », dès lors qu’il n’y a pas entrave à l’intercompréhension, a été fustigée à de nombreuses reprises [Martinet, 1970 ; Martinet & Walter, 1973]. Changement et variation inhérente au système vernaculaire doivent être mis au cœur de la description. C’est ce qu’ont fait les premiers les pionniers de la (socio)linguistique variationniste, au milieu des années 1960, s’intéressant à la covariance langue/société à l’encontre du paradigme chomskyen suivant lequel la grammaire est une réalité en soi. Au risque de sortir du cadre de la linguistique interne (également adopté par l’approche structuraliste) et à l’instar de la pragmatique d’origine anglo-saxonne, la langue n’est plus étudiée comme objet indépendamment du sujet parlant et du monde environnant [Calvet, 2005]. Sur sa logique interne telle l’économie du système pèsent des contraintes externes, des paramètres sociodémographiques, les contacts de langues [Fishman, 1991 ; Heine & Kuteva, 2005]… Crucial à une bonne compréhension est l’examen de la signification sociale de la variation : qui parle à qui, quoi, où, quand, pourquoi et comment ? D’où un empirisme programmatique renouant avec le structuralisme, rappelant que la langue n’existe qu’en vertu d’un contrat tacite passé entre les membres de la communauté. D’où un recours à des corpus attestés plutôt qu’à l’intuition et à l’introspection, contrastant avec la « linguistique de cabinet » ou « linguistique en chambre » dont le recours à l’astérisque pour noter une forme impossible, indicible présente un risque évident de circularité. Il faut étudier les performances, quitter les bureaux pour retourner sur le terrain à l’instar des dialectologues [Milroy, 1987 : 1–6] voire s’investir dans des ateliers collectifs, interactifs, participatifs et coopératifs [Léonard, 2005]. Les sociolinguistes, dans la ville, relaient aujourd’hui les dialectologues qui, traditionnellement, s’occupent des espaces ruraux et en particulier des « Non-mobile Older Rural Males (NORM) » [Chambers & Trudgill, 2004].
Il ne nous appartient pas ici d’entamer une longue discussion épistémologique autour de l’empirisme. Ce courant plonge ses racines philosophiques dans l’Antiquité, chez Aristote, tandis que le générativisme peut être vu comme une nouvelle incarnation de la pensée platonicienne ou cartésienne. Les arguments des générativistes les plus rétifs envers la méthode inductive ne manquent pas, comme celui dit de la pauvreté du stimulus (la clôture du corpus). Les textes ou les enregistrements, « accidentels », nécessairement finis, sont incapables de rendre compte de la créativité essentielle de l’homme (postulée comme innée) [Chomsky, 1969]. On ne saurait saisir l’ensemble infini des phrases d’une langue, et pourtant l’acquisition du langage est universelle et presque spontanée (contrairement par exemple à l’apprentissage des mathématiques abstraites). Notre empressement à signaler à nos congénères toute information qui nous semble digne d’intérêt se manifeste dès le plus jeune âge, et est spécifique à l’espèce humaine [Dessalles et al., 2006]. L’idée chomskyenne que le langage n’est pas une activité cognitive comme les autres mais définirait en propre l’Homme (par essence un être parlant) nous intéresse au plus haut point. Cependant, une fois passée la critique chomskyenne envers la fréquence comme modèle de l’intégration de l’usage, l’approche usage-based nous semble une bonne alternative au cadre génératif. L’immense quantité de données dont on dispose maintenant nous incite à suivre le retour de balancier en faveur de la méthodologie empirique.
Si la recherche d’invariants est le propre de la démarche scientifique, le regain d’intérêt pour la variabilité au cours du xxe siècle a touché non seulement les sciences humaines mais aussi les sciences cognitives [Lautrey et al., 2002]. Cette variabilité n’est pas complètement aléatoire, elle peut être gouvernée par des règles précises : les techniques mises au point par les enquêtes sociologiques permettent maintenant de dégager des régularités, de structurer l’hétérogénéité, en fonction de l’échelle sociale notamment (sous-prolétariat, classe ouvrière, petite bourgeoisie, moyenne et grande bourgeoisie). Les ségrégations ethniques, la stratification et la mobilité sociale (combinant la profession, l’éducation, le revenu et le lieu de résidence) peuvent engendrer certains mécanismes. Il en va même ainsi du positionnement idéologique, comme l’a montré Labov sur l’île américaine de Martha’s Vineyard : il existe des relations enter la prononciation et l’attachement ou au contraire l’attitude de rejet affichés par les locuteurs envers leur île [Labov, 1976]. Chez certains îliens, en particulier, la prononciation de deux diphtongues, celles que l’on trouve dans des mots comme mouse et mice, diverge de celle que l’on observe sur le continent ; et cette spécificité est davantage liée au ressenti d’une identité insulaire qu’à d’autres facteurs comme le niveau socioprofessionnel ou la tranche d’âge.
Au sein d’une même génération, chez un même locuteur, plusieurs grammaires sont en compétition. Or, toute variation synchronique est un candidat potentiel de changement diachronique : « C’est dans la parole que se trouve le germe de tous les changements » [Saussure, 1915 : 138]. Nous nous focalisons ici sur les changements phonétiques. Il ne faut pas y voir une supposition de notre part que ceux-ci précèdent, dirigent et orientent tout autre changement linguistique. Entre l’œuf et la poule, nous ne trancherons pas. Le grammatical exerce une influence sur le phonétique et inversement [Coseriu, 1973].
Les changements morphosyntaxiques et de niveau supérieur ont également fait l’objet d’études variationnistes (par exemple en français [Nagy & Blondeau, 1999 ; Ashby, 2001 ; Armstrong, & Smith, 2002]). Certaines différences lexicales et morphosyntaxiques entre français écrit et français parlé sont bien établies : par exemple l’usage de car et de temps synthétiques comme le passé simple, l’inversion du verbe et du pronom sujet, à l’écrit ; la substitution de nous par on, le redoublement du sujet par un pronom anaphorique, les dislocations et la chute du ne de négation, à l’oral.Cependant, ces points sont plus complexes à apprécier dès lors qu’ils mettent en jeu le sens. En phonétique/phonologie, tout l’outillage dont on est aujourd’hui équipé, de l’enregistrement aux nouvelles technologies, permet plus aisément d’obtenir des résultats novateurs. Cela tient aussi à l’objet et à la méthode d’analyse. Au xixe siècle, avant de disposer de cette débauche de techniques que nous connaissons à présent, la phonologie était la discipline phare de la linguistique, son noyau dur, et c’est en son sein qu’est né le structuralisme. En syntaxe, où la notion de variantes est difficile à convoquer, et en sémantique, le corpus n’a pas autant joué un rôle de premier plan. Si les choses commencent à changer en linguistique textuelle, dans le cadre des grammaires de construction [Loiseau, 2008], l’essentiel du travail reste à faire. Il s’agit d’un passage obligé pour toute approche inductive de la variation.


Pour une linguistique de corpus oraux

Répondant à des enjeux variés (patrimoniaux, pédagogiques, politiques, etc.), des tentatives ont été entreprises pour collecter de grands corpus oraux. Constitués à chaque fois, le plus souvent, en vue d’une utilisation précise, ceux-ci restaient au début dispersés, éparpillés. Constituer, exploiter et faire circuler un corpus cause nombre de problèmes juridiques : protection de la vie privée (anonymisation, floutage de certaines informations), propriété intellectuelle, droit de citation, droits d’auteur voire droit des peuples. Pour des raisons techniques évidentes, aussi, la linguistique de l’oral (dont Saussure défendait pourtant la primauté) a pris du retard sur celle de l’écrit [Mondada, 2001]. Mais le développement coordonné dans un souci de libre accès à la communauté scientifique (notamment à travers le web), le partage et la publication d’importantes bases de données bien documentées (ESLO, CLAPI, CORAL-ROM, CORPAIX, ELICOP, PFC, ESTER, EPAC, VARILING, RHAPSODIE, pour n’en citer que quelques-unes couvrant le français [Pusch, 2002 ; Baude, 2006 ; Bazillon, 2011]) modifie notre approche du langage parlé, la rafraîchit, la bouscule éventuellement, et favorise de nouvelles recherches.
L’existence conjointe de ressources numérisées et de dispositifs appropriés, issus des sciences et techniques de l’information, encourage ces recherches. Le moment est venu d’en tirer bénéfice pour annoter plus ou moins automatiquement ces corpus et leur apporter ainsi une valeur ajoutée, pour généraliser les observations, produire des connaissances objectives et évaluer des modèles. Tel est le but que nous nous fixons dans ce mémoire et plus généralement dans notre activité de recherche interdisciplinaire, au carrefour entre les sciences de l’information et les sciences humaines et sociales. Il apparaît de plus en plus clairement que les progrès réalisés en traitement automatique de la parole permettent d’envisager les systèmes existants comme de bons auxiliaires pour avancer dans des études linguistiques [Habert, 2005 ; Barras, 2008]. Une linguistique de corpus oraux a ainsi émergé, sensible à l’apport de ces techniques et, plus généralement, à l’augmentation de la mémoire et des possibilités de calcul de l’ordinateur.
Les corpus servent un double objectif d’heuristique et de validation [Scheer, 2004], oscillant entre des démarches inductive et déductive. Il devient possible — et nécessaire — de valider des concepts élaborés à partir de corpus contrôlées sur de grands corpus. Les deux approches sont d’ailleurs complémentaires, pour améliorer la modélisation de la variation phonétique/phonologique. La reconnaissance de la parole, notamment, facilite ou rend possibles des travaux coûteux, fastidieux et encore très longs à accomplir, il y a peu. Même s’il est issu de l’intelligence artificielle et de l’algorithmique, ce domaine qui brasse des données en grand nombre contribue à une approche expérimentale rigoureuse du langage, dont l’épistémologie de la mesure est héritée des sciences de la nature [Desrosières, 2001].
Il va de soi que, dans ce que le traitement automatique de la parole peut apporter à une approche linguistique de la variation, nous ne saurions être exhaustif. Nous nous intéresserons dans les chapitres qui suivent à l’identification et à la caractérisation, principalement en français, d’accents (régionaux, étrangers et sociaux) et de styles de parole.
D’un accent à l’autre, comme d’un style à l’autre, les différences de degré ou de fréquence plutôt que de nature sont les plus répandues. Les questionnaires, les dictionnaires de prononciation ne suffisent plus (d’autant que la plupart considère qu’il existe une et une seule prononciation acceptable de chaque mot de la langue). Il s’agit de comparer des taux d’occurrences, ce que permettent de faire les moyens considérables dont on dispose à présent en phonétique instrumentale, aidés par l’informatique, sur des centaines d’heures de parole, de centaines de locuteurs. En même temps, notre cerveau ne fonctionnant pas comme une machine (nous ne retenons pas tout mais sommes particulièrement attentifs à certains événements saillants), cela pose le problème complexe du passage de la production à la perception. Un trait présent, particulièrement caractéristique, peut colorer tout le parler d’un locuteur en dépit de sa faible fréquence. Une grande part sera donc accordée à la perception : il est important de ne pas en faire abstraction, pensons-nous, surtout en matière d’accents, même si on n’est pas en mesure de manipuler autant de données que par traitement automatique.


Accents et styles : quelques définitions

Dans les nombreux enregistrements dont on dispose aujourd’hui, différents accents et styles de parole sont représentés. Des auditeurs naïfs sont-ils capables de les identifier ? Les anecdotes sont monnaie courante en matière d’accents notamment.
Qui n’a pas fait l’expérience de percevoir un accent ou d’être perçu comme ayant un accent ? Le terme d’accent appartient au vocabulaire courant et alimente volontiers les conversations. Il ne représente pas pour autant un objet facile à cerner. Même si nous nous comprenons quand nous parlons notre langue, tout le monde ne parle pas de la même manière : chacun a sa propre personnalité. Chacun a également son mot à dire sur le langage, qui est l’une des choses les mieux partagées au monde. Nous verrons que l’imaginaire linguistique a une part importante en matière d’accents, qu’on les envie ou qu’on s’en moque. Chacun a sa façon de parler et sa personnalité. Il reste qu’on ne parle guère d’accent X (où X serait une personne), d’accent des années 1940, d’accent soutenu ou relâché, encore moins d’accent écrit alors qu’on oppose souvent le français écrit au français parlé. C’est plutôt, dans ce contexte, le mot style qui s’impose, renvoyant ici aux dimensions diaphasique, diachronique et diamésique de la variation, alors que les accents régionaux et sociaux renvoient respectivement à la variation diatopique et diastratique. Un style diffère d’un accent en ce sens qu’il résulte essentiellement d’une adaptation à la situation de communication. Il est d’après cette définition une caractéristique du locuteur moins stable que ne l’est l’accent, dans la mesure où il n’existe pas de locuteur monostyle.
Dans le Dictionary of linguistics and phonetics [Crystal, 2003], la rubrique « accent » renvoie à :
the cumulative auditory effect of those features of pronunciation which identify where a person is from regionally and socially
Si l’on comprend regionally au sens large, la définition couvre également ce qu’en linguistique « populaire » — également dite « profane », « naïve » ou « spontanée » (folk linguistics) — on désigne par « accent étranger ». La définition que donne B. Harmegnies dans un manuel de sociolinguistique [Moreau, 1997 : 9] est finalement plus précise :
l’accent est l’ensemble des caractéristiques de prononciation liées aux origines linguistiques, territoriales ou sociales du locuteur
Un accent étranger est traditionnellement défini comme résultant de la confrontation de deux systèmes provenant d’une langue maternelle et d’une langue seconde, tandis qu’un accent régional est communément défini par rapport à une norme détentrice de légitimité [Bourdieu, 1982]. Accents étrangers et régionaux posent des questions différentes. Cependant, l’assignation même d’un qualificatif tel que régional ou étranger est problématique, que l’on songe à un accent alsacien ou allemand, corse ou italien, créole ou africain. Faut-il considérer qu’un accent méridional en français est un accent étranger chez un locuteur natif de l’occitan, et considérer qu’il s’agit d’un accent régional chez ses enfants qui n’ont plus l’occitan comme langue maternelle ? Autre exemple : on estime qu’un quart au moins des Ivoiriens ont acquis le français dans la petite enfance ou en dehors de l’école [Boutin, 2003]. Doit-on dire que pour eux le français est une langue étrangère ? Avec l’urbanisation, de plus, les accents régionaux peuvent se dissoudre et se redistribuer en accents sociaux. Nous étudierons en particulier le cas de l’accent « de banlieue » des jeunes de cités populaires.
Les débats sur l’origine de l’accent « des cités », et sur l’éventuelle influence de l’arabe et des « beurs » dans son apparition, nous font croire que cet accent tient une place particulière en France, quelque part entre la variation (régionale et sociale) et l’accent étranger. […] De même il y a tout lieu de croire que la France est en train de connaître le développement d’un « accent étranger de l’intérieur » comparable à l’accent des Hispaniques aux États-Unis, de par sa fonction de marqueur d’identité mais aussi de par sa stigmatisation dans les représentations de la population générale. [Fries & Deprez, 2003]
Nous adhérons à cette analyse du traitement social de l’accent « des cités » ou « de banlieue », termes territorialisant une réalité avant tout propre à certains jeunes de classes défavorisées —substituant par métonymie le contenant au contenu. Nous sommes pour notre part prudent quant au rôle de l’arabe dans ce qui caractérise cet accent : l’explication est séduisante mais à manier avec précaution (cf. § 1.4.5).
Que l’on parle d’accent anglais ou espagnol en français, d’accent du Languedoc ou d’accent de banlieue, l’histoire des territoires, des communautés, des sujets parlants n’est certes pas la même. Un accent étranger a tendance à s’atténuer avec le temps [Flege et al., 1995, 1997 ; Flege, 2002], alors que généralement les accents régionaux sont plus marqués chez les gens âgés [Léon & Léon, 1997 ; Pustka, 2007, 2009]. Mais quelle qu’en soit la cause, quelle que soit l’importance relative de la région et de la langue d’origine, les questions de diagnostic, en perception, sont en partie les mêmes pour les différents types d’accents. Avec quel degré de granularité (quelle finesse, quelle précision) peut-on distinguer divers accents, et quels sont les indices qui permettent de reconnaître tel ou tel accent ? Combien d’accents une oreille d’expert ou celle d’un non-spécialiste est-elle à même de discerner ? Ces questions ne sont pas nouvelles en dialectométrie [Séguy, 1973], et ont été abordées pour diverses langues.
Clopper et Pisoni [2004] ont montré que, sans entraînement préalable ni retour (feedback), des auditeurs américains, invités à écouter des compatriotes de différents accents et à localiser leur origine géographique sur une carte des États-Unis, sont capables de distinguer trois grandes régions : Nouvelle Angleterre, Sud et Nord/Ouest. Une thèse sur les dialectes norvégiens et néerlandais [Heeringa, 2004] a également développé une cartographie des distances phonologiques et acoustiques qui existent au niveau lexical au sein d’un même ensemble dialectal. D’autres travaux ont été consacrés à l’identification de quatre variétés de néerlandais et de cinq variétés d’anglais par des auditeurs des pays concernés [van Bezooijen & Gooskens, 1999], ou encore de six variétés de gallois [Williams et al., 1999]. Une expérience de perception encore, pour les régions germanophones, a montré que les dialectes suisses alémaniques, autrichiens et saxons étaient les mieux identifiés [Burger & Draxler, 1998]. Jusque récemment, les résultats d’une tâche similaire de classification (clustering) perceptive n’existaient pas pour le français, même si une distinction Nord/Sud semble évidente pour tout locuteur natif.
Les études empiriques auxquelles nous avons pu nous reporter n’impliquent que deux ou trois variétés de français. Celle de Bauvois [1996] porte sur davantage de variétés de français parlé en Belgique et dans différents pays d’Afrique, mais inclut toujours peu d’analyses phonétiques. L’article d’Armstrong et Boughton [1997] examine la perception du français parlé à Nancy et à Rennes, deux villes appartenant historiquement au domaine d’oïl, quasiment symétriques par rapport à Paris : il en ressort que la classe sociale des locuteurs est bien identifiée, mais pas leur provenance géographique. De même Hauchecorne et Ball [1997] concluent que « l’accent du Havre » est plus un accent social à l’image négative et présent en d’autres lieux qu’une réalité géolinguistique identifiable. L’étude de Sobotta [2006], qui discute la question de la gradience de la variation diatopique et diaphasique (ou géographique et stylistique), porte sur trois groupes de témoins : méridionaux de l’Aveyron, Aveyronnais ayant migré à Paris et non-méridionaux. Une autre épreuve d’identification sur le français et le francique parlés dans des régions frontalières de France, Belgique et Luxembourg a montré que des auditeurs bilingues de ces trois mêmes régions se montrent capables de reconnaître l’origine géographique des locuteurs (française, belge ou luxembourgeoise), en français plus encore qu’en francique [Rispail & Moreau, 2004]. Dans l’ensemble cependant, la variation sous l’angle de ses aspects phonétiques a donné lieu à beaucoup moins de travaux que le contact de langues (alternances codiques, emprunts, etc.).
Les noms des régions ou d’autres territoires, les noms des langues d’origine nous donnent des étiquettes a priori : accent du Poitou, accent de Neuilly/Passy, accent basque, etc. Correspondent-ils à une réalité perçue ? C’est ce qu’il nous faut décrypter. Mais avant d’apporter des éléments de réponse, il s’agit de définir certaines notions comme celle de prototype (ou modèle), celle d’accent par rapport à un dialecte et celle d’accent par rapport à une norme.


Quand perçoit-on un accent ?

La question du prototype
D’après les définitions ci-dessus, le terme accent fait référence à une façon de prononcer qui permet d’identifier l’origine régionale ou sociale de celui ou de celle qui parle. Il est aussi des cas où l’on perçoit un accent (régional, étranger ou autre) sans que l’on ne parvienne à lui coller une étiquette. Les anecdotes sont légion, rapportant qu’une personne « se trahit tout de suite, au bout de deux mots », alors que l’on n’arrive pas à définir son accent avec précision. Question symptomatique : « vous avez un accent… vous êtes d’où ? » La reconnaissance d’un accent fait appel à un double processus : celui du repérage (évaluation d’une divergence plus ou moins marquée vis-à-vis d’une norme) et celui de la catégorisation (identification proprement dite) [Fries & Deprez, 2003]. Selon le premier processus, on peut noter un accent, de « petit » ou « léger » à « fort » ou « à couper au couteau » — comme on dit d’un brouillard épais qu’il est « à couper au couteau » : question d’appréciation. Le second processus est bien sûr plus difficile ; il est plus simple de noter la présence d’un accent. Il est facile aussi de s’amuser de la prononciation de certains. La littérature du xixe siècle abonde ainsi en exemples où des propos plus que teintés d’accent alsacien ou allemand sont transcrits de la façon suivante :
— Moi, fous allez foir ; regulez-vous un beu. [Dumas, La Reine Margot, 1845]
— Rassirez-fus, cheu né fus ai vait l’opjection que bir fus vaire abercevoir que ch’ai quelque méride à fus tonner la somme. Fus édes tonc pien chêné, gar la Panque a fôdre zignadire [Balzac, La cousine Bette, 1847]
— Che ne feux pas… foilà tout… Fous poufez tescentre. [Maupassant, Boule de suif, 1880]
De telles caricatures ont une incidence sur la perception, car nos représentations et les discours linguistiques produisent en grande partie nos catégories de perception. Nous sommes habitués aussi à entendre des acteurs, chansonniers et autres humoristes imitant certains accents. Cependant, on tombe souvent dans le piège du stéréotype qui, comme notre imaginaire linguistique, peut être assez éloigné de la réalité.
On peut distinguer le prototype (le premier exemplaire d’une série), l’archétype (le type idéal des origines) et le stéréotype (du grec stereos « solide » comme un préjugé simplificateur). Désignant une image toute faite, réductrice et ancrée en profondeur dans la société, le concept de stéréotype est utile en sociologie et en linguistique. En linguistique variationniste, on distingue :
– l’indicateur (variable apparemment au-dessous du seuil de la conscience, qui échappe à la correction même lorsque les sujets surveillent leur langage, et qui co-varie avec le statut économique, le groupe ethnique ou l’âge) ;
– le marqueur (montrant une différenciation à la fois sur les plans social et stylistique, vraisemblablement du fait d’un certain contrôle de la part des locuteurs quand ceux-ci prêtent attention à leur discours) ;
– et le stéréotype, qui est perçu de façon particulière dans la société [Labov, 1976 ; Chambers & Trudgill, 2004].
Des expériences menées en France et aux États-Unis ont montré l’existence de stéréotypes qui ne sont pas nécessairement représentatifs des pratiques langagières, mais plutôt des pratiques sociales [Fries & Deprez, 2003]. Dans une expérience menée aux États-Unis, par exemple, des étudiants devaient écouter dans deux salles de classe différentes un cours enregistré par un américain natif [Rubin, 1992]. La bande son était accompagnée d’une photo représentant un jeune américain, dans la première salle, et un asiatique dans la deuxième. Il s’est avéré que les étudiants de la deuxième salle ont « entendu » un accent asiatique, et certains ont moins bien réussi le test de compréhension orale qui suivait la conférence.
D’une façon générale, les clichés sont à combattre. Au demeurant, les prototypes représentent des connaissances partagées qui, sans être universelles, sont utiles comme points de repère pour toute évaluation, pour établir des catégories, faire des prédictions, organiser notre perception du monde [Rosch, 1975 ; Desrosières & Thévenot, 2002]. La théorie du prototype [Rosch, 1975] a ainsi investi plusieurs champs de la linguistique. Par exemple, un moineau est « plus oiseau » qu’un pingouin ou une autruche ; et il y a « des chiens plus chiens que les autres » qui sont plus faciles à penser et à reconnaître. Ainsi des accents imités, prototypiques, peuvent-ils être plus facilement reconnaissables que des accents réels. Même la caricature, qui distord la réalité en en exagérant les traits les plus saillants, apporte quelque chose à notre compréhension des accents.
Toute identification perceptive implique un traitement bottom-up (à partir de l’input qu’est le signal acoustique, ce que l’on entend) et un traitement top-down (à partir des représentations linguistiques, ce que l’on croit et ce que l’on connaît). Identifier, c’est aussi comparer, cela se fait nécessairement par rapport à un prototype. Comment reconnaître un accent du Jura ou un accent grec, si on ne les a pas dans l’oreille ? La question de l’existence d’un prototype (ou d’un stéréotype) est donc cruciale dans l’identification d’un accent.
Les accents, serait-on tenté de dire, n’existent que par la perception qu’on en a. Or cette perception dépend de nombreux facteurs, de notre voisinage géographique, de notre origine, de nos connaissances linguistiques, etc. On sera plus prompt à suspecter un accent chez une personne dont on sait qu’elle a vécu à l’étranger ou « en région ». Et on identifiera avec plus de succès cet accent si celui-ci nous est familier [Baker et al., 2009]. Dans ce cas, on n’est plus seulement frappé par une étrangéité ; on détecte des traits (diffus ou peut-être seulement un ou deux, subtils et ponctuels) que l’on a mémorisés et qui peuvent faire basculer la perception. La tâche est plus aisée quand on connaît l’origine du locuteur. A-t-on un ami ou un parent qui vit au Havre, on va être enclin à parler de son « accent havrais », lequel, cela a été montré, constitue un exemple de mythe linguistique Hauchecorne & Ball, 1997]. Il est imprudent d’inférer à partir d’individus uniques. Pourtant, des expressions telles que « accent havrais », « accent lyonnais », « accent marseillais » sont courantes, et il est difficile de convaincre quelqu’un persuadé de leur existence qu’en fait d’accent marseillais, par exemple, on pourrait parler d’accent méridional commun à tout le sud de la France ou, au contraire, de trois accents marseillais : celui des « Quartiers Nord » (correspondant à la façon de parler dans les quartiers difficiles), celui des « vrais » Marseillais (renvoyant à l’imaginaire pagnolesque du vieux port) et celui de la « bourgeoisie marseillaise » (plus léger) [Binisti & Gasquet-Cyrus, 2003]. De même, certains distinguent au moins deux accents parisiens : l’accent populaire parigot de Belleville ou de Ménilmontant (également dénommé « accent des titis parisiens » ou simplement « accent parisien ») et l’accent bourge(ois) « bon chic bon genre » (BCBG) de Neuilly-Auteuil-Passy (NAP) ou du xvie arrondissement (également dénommé « accent Marie-Chantal ») [Carton et al., 1983 ; Pustka, 2007] (cf. § 1.4.3). Le décalage est fréquent entre le discours et les capacités effectives de personnes à qui on demande d’identifier et juger des échantillons de parole réels. Le propos selon lequel « chaque village a son parler » ou encore « d’une cité à une autre de banlieue, on parle différemment » est très répandu, même si bien souvent les informateurs n’en fournissent aucun exemple concret. Ils se focalisent sur les différences plutôt que sur les similitudes (plus nombreuses) [Léonard, 1991 ; Iannàccaro & Dell’Aquilla, 2001], ce qui se comprend assez bien d’après la théorie de l’information : on s’intéresse davantage à des événements rares qu’à des événements banals, de même qu’on prête plus d’attention à un chien mordu par un homme qu’à un homme mordu par un chien. L’aptitude à reconnaître des spécificités est donc communément surestimée. La plupart des études sur le sujet ont corroboré l’imprécision de l’identification/caractérisation des accents étrangers. [Bauvois, 1996 ; Lippi-Green, 1997 ; Fries & Deprez, 2003], d’accents régionaux en français [Armstrong & Boughton, 2007 ; Boughton, 2006] ou en anglais [van Bezooijen & Gooskens, 1999 ; Clopper & Pisoni, 2004 ; Ikeno & Hansen, 2006 ; Edensor, 2009], et d’accents dits « de banlieue » [Stewart & Fagyal, 2005]. Citons quelques exemples à l’appui de ce constat.
[…] la plupart des gens ne distinguent pas très bien les accents régionaux sauf s’ils sont très marqués. La seule perception générale est celle des accents du Midi, opposés aux accents du Nord de la France [Léon & Léon, 1997 : 102].
L’idée qu’il existe un “accent belge” fait sans aucun doute partie de l’imaginaire commun des francophones. Pourtant, la possibilité d’identifier une prononciation du français propre à la Belgique et d’en dresser les contours est beaucoup moins évidente aux yeux des linguistes qui se sont penchés sur la question. [Hambye & Simon, 2009 : 96]
Des auditeurs se montrent incapables d’identifier géographiquement des accents du Havre, de Rennes et de Nancy [Hauchecorne & Ball, 1997 ; Armstrong & Boughton, 1997]. D’où peut bien venir cette surévaluation de notre aptitude à discerner des accents ? En partie, peut-être, de la confusion entre accents, patois, dialectes…

Accent, dialecte et variété de langue
Il convient de s’arrêter un instant pour préciser ce que l’on entend par certains termes. Nous ne parlerons pas de patois, terme par trop investi de connotations péjoratives (pâteux, lourd, inélégant). Nous ne nous attarderons pas non plus sur la définition d’un dialecte par rapport à une langue, vieille question [Sapir, 1931 ; Kloss, 1967] et en grande partie mauvaise question comme celle qui consiste à demander, dans une pièce, quel est le mur de droite et quel est le mur de gauche : tout dépend de l’angle d’observation. Un dialecte est souvent interprété en négatif par le sens commun comme non-langue, non-moderne, non-écrit, n’obéissant à aucune grammaire. En folk linguistics (qui s’intéresse particulièrement à ce que les gens disent concernant le langage), il s’agirait d’un parler oral, régional, trop peu différencié par rapport à une langue de plus vaste champ, et dénué de règles [Preston, 2005]. En termes purement linguistiques, cependant, il est impossible de trancher entre langue et dialecte : la distinction est d’un autre ordre, sociolinguistique, politique, culturel, historique. On connaît la boutade attribuée au maréchal Lyautey : une langue est un dialecte qui a une armée et une marine.
Le critère d’intercompréhension est parfois avancé pour opposer des langues à des variétés (dialectes ou accents) de moindre prestige. Il est source d’enjeux identitaires (sentiment de parler une langue distincte ou au contraire nécessité réclamée d’une traduction, affichage de sous-titres dans des séquences audiovisuelles, etc.) et trouve vite ses limites, pouvant notamment se montrer asymétrique [Garde, 2004 : 364. Il n’est pas rare d’entendre des Français se vanter de comprendre l’italien, alors qu’ils se plaisent à dire qu’ils ne comprennent pas toujours le québécois ou le « français des jeunes de banlieue ». Ou bien, des Alsaciens expliqueront que leur dialecte leur permet de comprendre l’allemand, mais qu’ils ne se comprennent pas d’un village à l’autre [Bothorel-Witz, 2000].
Un dialecte peut se distinguer d’un autre dialecte par la grammaire et le vocabulaire, alors que les accents stricto sensu ne font intervenir que des différences de prononciation. Un accent est ainsi définis dans l’ouvrage de référence Dialectology [Chambers & Trudgill, 2004 : 5] :
‘Accent’ refers to the way in which a speaker pronounces, and therefore refers to a variety which is phonetically and/or phonologically different from other varieties. ‘Dialect’, on the other hand, refers to varieties which are grammatically (and perhaps lexically) as well as phonologically different from other varieties.
Mais les auteurs ajoutent quelques lignes plus loin :
Dialects and accents frequently merge into one another without any discrete break.
La frontière est poreuse entre dialectes et accents. Quand un locuteur s’exprime dans un certain dialecte ou avec un certain accent — on notera la différence de prépositions en français — on dispose souvent de nombre d’indices susceptibles d’influencer la perception : situationnels dans la vie courante (où un lieu et une époque donnée font que l’on s’attend à entendre certains accents plus que d’autres,), lexicaux voire morphosyntaxiques y compris dans des conditions expérimentales. Or la plupart des commentaires épilinguistiques (i.e. relevant du discours ordinaire sur le langage) sont relatifs au lexique, bien que des phénomènes liés à la prononciation puissent être décelés plus rapidement. Les mots désignant par exemple un sac plastique sont volontiers mis en avant : poche dans le Sud, cornet dans l’Est. Le caractère emblématique de ces régionalismes (d’autant plus emblématique, même, que ceux-ci sont peu nombreux) se retrouve dans les néologismes attribués aux « jeunes de banlieue ». La prononciation résulte peut-être moins d’un choix conscient et intentionnel que, par exemple, l’usage qui est fait du lexique. C’est dans ce dernier plus qu’au sein de traits de prononciation que vont puiser, entre autres, des hommes politiques qui veulent faire « peuple » ou jeunes, par hypocorrection. Pour la jeunesse parisienne également, les occasions sont nombreuses de croiser ou côtoyer des congénères de Seine Saint-Denis — autour des Halles notamment, plaque tournante pour les transports en commun. Ce sont les particularités lexicales, qui passent davantage d’un groupe à l’autre, se démodant très rapidement. Elles touchent sans doute moins à l’intimité que la prononciation, liée à la voix donc au corps [Bourdieu, 1982]. Elles peuvent semer la confusion dans ce qui est conçu comme accent dans l’imaginaire collectif. Des techniques comme le matched guise (« locuteur déguisé », disant un même texte dans une variété de langue ou une autre, avec et sans accent, etc.) tentent d’y remédier, non sans poser des problèmes méthodologiques [Rubin, 1992]. Il n’est pas toujours aisé de soustraire l’accent à d’autres variables relevant du vocabulaire, de la grammaire, voire des dispositions corporelles, reçus en bloc par l’auditeur et à prendre en compte dans tout test perceptif. Comme le souligne Bourdieu :
[…] les traits linguistiques ne sont jamais clairement autonomisés par rapport à l’ensemble des propriétés sociales du locuteur (hexis corporelle, physionomie, cosmétique, vêtement, etc.). [Bourdieu, 1982 : 94]
De son côté, Wells intitule son livre majeur sur les variétés d’anglais Accents of English [Wells, 1982], réservant le terme de dialect aux parlers traditionnels comme le scots. Ces derniers faisant défaut de l’autre côté de l’Atlantique, le terme dialect prend aux États-Unis une acception plus large, notamment sous la plume de Labov ou Preston, fondateur de la dialectologie perceptive (perceptual dialectology [Preston, 1989]). Sans nier la possibilité de gradience (du reste, l’idée de continuum n’exclut pas celle de rupture), nous suivrons pour notre part l’école européenne, distinguant entre dialectes et accents — formes de français régional, par exemple, ne différant que par la prononciation du français standard ou standardisé (non situé géographiquement) [Carton et al., 1983]. Ces termes de dialecte ou d’accent, comme celui moins marqué mais aussi plus vague de variété de langue, sont de toute façon des constructions homogénéisantes qui ne doivent pas occulter des différences en leur sein [Gadet, 2004]. Il n’y a pas non plus une frontière étanche entre dialecte et variété de langue [Pooley, 2000]. Et surtout, ces termes ne nous sont que de peu de secours pour comprendre pourquoi, dans le sens commun, il n’est pas équivalent de parler d’accent toulousain et d’accent parisien. Pourquoi ce dernier passe-t-il pour plus neutre (sur une scène de théâtre classique, par exemple), moins localisé ? Pour comprendre cette asymétrie des rapports entre centre et périphérie, une discussion autour de la norme est incontournable.

Accent et norme
Les accents sont d’abord définis, nous l’avons vu, comme des écarts par rapport à une norme officielle, légitime, autour de laquelle s’établit ce consensus même qui définit son statut et assure son rayonnement [Hagège, 1992]. Cette notion de norme a fait couler beaucoup d’encre en linguistique [Valdman, 1982 ; Prignitz, 1994 ; Morin, 2000 ; Laks, 2002 ; Castellotti & Robillard, 2003 ; Audrit, 2009, inter alia]. Même États-Unis, où le concept de norme est sans doute plus vague qu’en France, il y a des variétés de prestige et d’autres stigmatisées [Preston, 1989 ; Rubin, 1992 ; Labov, 1994: 222] : en témoignent les cours et méthodes d’accent reduction qui y font florès. De tout temps, l’élite intellectuelle qui gravite autour des centres culturels, politiques et économiques ont déterminé un modèle promu comme le « bon usage », ce qui est « correct », la langue « la plus pure » [Calvet, 1996]. Au début du xvie siècle, si la langue était jugée la « plus parfaite » en Tourraine, c’est parce que les rois de France aimaient aller chasser vers les fameux châteaux de la Loire. « C’est la façon de parler de la plus saine partie de la cour », centrée autour de Paris, qui définit le bon usage pour Vaugelas en 1646 [cité par Auroux, 1996]. Fonctionnant comme un pôle d’attraction ou un catalyseur d’unification, « la norme de prononciation est une affaire de classe, et seulement de classe » [Morin, 2000]. Les femmes, par ailleurs, tendent à intégrer plus rapidement que les hommes la norme prestigieuse à transmettre pour assurer une trajectoire sociale ascendante aux enfants [Gauchat, 1905 ; Labov, 1976 ; Bourdieu, 1982 ; Foulkes & Docherty, 2006]. La référence peut être un personnage ou un groupe à la mode. Tel a été le cas, en français, pour le passage du /r/ « roulé ou bourguignon » au /(/ dit « grasseyé » (au début du xviie siècle) ou encore de oi /w(/ à ai /(/ (qui s’impose à la fin du xviiie siècle) [Walter, 1988 : 93]. Ces évolutions suivent assez précisément les grands bouleversements sociaux de l’histoire moderne qui, au gré des luttes politiques, voient les protestants et la bourgeoisie (surtout avec la Révolution) disputer à la Cour son statut de groupe de référence en matière de langue [Laks, 2002].
À notre époque contemporaine, la norme pour la prononciation du français (à tout le moins celle d’il y a quelques décennies) est attribuée à la bourgeoisie parisienne [Martinet, 1970] — plus précisément à la « conversation “soignée” chez les Parisiens cultivés » [Fouché, 1959 : ii], « à la conversation sérieuse mais détendue de la classe dirigeante de la capitale » [Malécot, 1977 : 1]. Cette définition est reprise d’auteur en auteur, même si elle est surtout le résultat de l’idée que ces auteurs se font de leur propre usage, quand bien même ils ne seraient pas parisiens (avec tous les risques d’évaluation erronée et d’hypercorrections que cela comporte) [Morin, 2000]. Elle s’est en quelque sorte sédimentée comme l’orthographe un siècle auparavant, avec de plus un fossé entre graphie et phonie. Cette assimilation de la norme aux notables de la capitale explique pourquoi, par exemple, à propos de Niçois qui parlent comme des Parisiens, on dit qu’ils n’ont pas d’accent ou qu’un léger accent. Dans des cas extrêmes, on pastichera un accent snob ou « branché » catalogué « xvie arrondissement ». Mais un Méridional allant vivre à Paris se verra très certainement plus remarqué pour son accent qu’un Parisien allant vivre à Marseille. En ce sens, il y a des accents plus égaux que d’autres, et il n’est pas tout à fait vrai de dire que ceux qui ont un accent, ce sont toujours les autres. Nous reviendrons sur le cas de l’accent dit « des faubourgs parigots » ou « des cités de banlieue ».
Paris, la capitale vers laquelles convergent toutes les voies de communication, est le lieu où sont installées la plupart des administrations, où se prennent les décisions politiques nationales, où se concentre une grande partie de l’activité économique et où la vie culturelle est la plus intense. C’est à partir de là que la norme légitime va être diffusée. Ainsi, la norme acceptée pour l’oral serait aujourd’hui incarnée et véhiculée par les « professionnels de la parole » [Encrevé, 1988], et plus particulièrement par la télévision plus que par l’école. C’est du moins ce que suggère une enquête où des auditeurs devaient réagir à des extraits de parole assez stéréotypés de sept variétés de français (Midi, banlieue, etc.) [Castellotti & Robillard, 2003] : est-ce qu’un professeur/un présentateur du journal TV de 20 h peut parler de cette façon ? Les sujets (surtout les plus jeunes) se montrent plus souples, plus « tolérants » vis-à-vis de la variation chez un enseignant que chez un présentateur de journal télévisé. Les journalistes jouissant du capital symbolique (ou forme de reconnaissance) qui appartenait naguère aux maîtres d’école représentent ainsi la norme idéale, le canon qu’il est recommandé de suivre, à l’écrit (lequel peut influencer la prononciation) comme à l’oral. L’annonceur à succès relaie en quelque sorte l’État, qui depuis longtemps légifère en matière de langue, depuis le xviie siècle au moins avec la création de l’Académie française. La norme, donc, est une question éminemment politique, et nous sommes là sur un terrain glissant.
Une difficulté récurrente à parler d’accents X ou Y est que tous les locuteurs X n’ont pas nécessairement l’accent X, pour de multiples raisons neuro-, psycho- et sociolinguistiques qui nous échappent souvent. On a plus de chance d’entendre un accent régional chez une personne âgée, chez quelqu’un qui a fait peu d’études, a toujours vécu au même endroit, fréquente des milieux où tout le monde a le même accent. Dans ce cas, il ne « sert » à rien de perdre l’accent des siens pour une façon de parler plus normée ; au contraire, « avoir l’accent » par mimétisme ou par choix peut être profitable pour interagir avec ses pairs. Mais comme le note Martinet, par exemple, « il est des ouvriers parisiens dont le parler, au moins en matière phonique, ne présente pas de traits dits “populaires” » [Martinet, 1945 : 21n1]. À l’inverse, des locuteurs Y peuvent être perçus comme ayant l’accent X même s'ils ne sont pas X. Cela peut dépendre du sexe, de la génération, de l’éducation, du plus ou moins grand intérêt pour les questions de langue. Est-il encore juste de prétendre qu’il existe un accent X si l’on ne trouve pas de locuteurs représentatifs de cet accent, qui le définiraient et le distingueraient d’un accent Y ? L’épistémologie popperienne [Popper, 1973] nous a enseigné qu’il est plus facile de démontrer l’existence que l’absence de différences entre X et Y (Y pouvant ici signifier « standard »). Il est plus difficile de démontrer que quelque chose n’existe pas (par exemple des corbeaux blancs) que de montrer que quelque chose existe. Rien n’exclut en toute rigueur qu’un accent aixois, par exemple, soit propre à certains locuteurs et distinct d’autres accents du sud de la France. Mais chercher de tels « spécimens » — recherche qui du reste ne saurait être exhaustive — nous inscrit, on le voit, dans un raisonnement circulaire. À affirmer a priori l’existence d’une construction comme « accent aixois » et à s’interroger sur son bien fondé, il y a un risque évident de réification, c’est-à-dire qu’on transforme une abstraction en objet concret. En outre, un accent peut être plus ou moins marqué, plus ou moins masqué.

Pourquoi a-t-on un accent ?
Nous parlerons ici de l’accent en général, avant d’évoquer plus particulièrement l’accent dit « de banlieue » (§ 1.4.5) et l’accent étranger (§ 1.4.6). Un accent (reflet d’un conflit de classes, d’un point de vue marxiste) peut être revendiqué et brandi comme un drapeau pour affirmer son identité, sa loyauté, son intégration à une communauté, pour afficher sa différence, se démarquer d’un autre groupe. C’est le campanilisme saussurien, l’esprit de clocher qui perdure dans notre monde moderne par ailleurs marqué par l’individualisme [Touraine, 1997]. Un accent « à couper au couteau », s’il est bien doté en termes de capital de prestige et de sympathie, peut ainsi être une image de marque, une marque de fabrique. Pour des raisons analogues et par mimétisme, on peut même acquérir un accent : on peut perdre un accent et en gagner un autre [Sancier & Fowler, 1997].
Un accent peut également être dévalorisé, conduisant certains locuteurs de façon plus ou moins consciente et intentionnelle à en sacrifier certains traits. Une image négative pourra inciter certains à modifier leur comportement langagier, à abandonner ou à estomper leur accent. Dans certaines situations, cela se traduit par un sentiment de faute, un refoulement et des hypercorrections. Dans d’autres situations, la stigmatisation peut avoir un contre-effet et produire des réactions ambivalentes. Cela se retrouve dans l’autojustification intériorisée par certains, qui en viennent à dire eux-mêmes qu’ils parlent mal, mais que c’est leur langage, leur accent à eux : réappropriation, légitimation, retournement de situation, représentation mythique et manière de redonner du prestige à un parler dévalorisé. La question de l’identité (terme qui renvoie au « même », idem en latin) et de la communauté est donc fondamentale — du je au nous, il s’agit de la même chose : être soi et être entre soi [Fize, 1993].
Le développement des échanges, des médias, des transports, favorise une certaine homogénéisation, en même temps que des mutations : un jeu sociolinguistique extrêmement complexe est à l’œuvre. L’environnement lié au lieu de résidence, les études, la profession, la mobilité géographique et sociale ne sont pas tout, loin s’en faut. Le positionnement social et idéologique peut entrer en ligne de compte [Labov, 1976].
D’où vient le fait que certains traits de prononciation sont stigmatisés, pourfendus voire générateurs de ségrégation et que d’autres au contraire sont considérés comme plus prestigieux ? Un même fait de langue (par exemple un /(/ postérieur) peut être interprété différemment, selon la valeur qu’on lui confère. Celle-ci n’est pas intrinsèque, ainsi que l’a montré toute une tradition de psychologie sociale [Rubin, 1992 ; Lippi-Green, 1997 ; Morange & Candea, 2010]. Souvent, l’appréciation esthétique d’un trait de prononciation est dictée par le statut social qui lui est associé, et s’applique au premier chef à la personne qui parle. De la même façon, le rayonnement d’une langue est essentiellement dû à la puissance du pays qui la promeut à un moment de son histoire : cela dépend moins du système de la langue que de raisons politico-économiques, du peuple, des élites et de l’administration (cf. § 1.4.2). Et la connotation BCBG ou populaire d’un prénom n’échappe pas à des effets de mode. Comme l’a vu Bourdieu [1982], c’est l’assignation sociale qui fait le prototype et non l’inverse.
Les sons du langage en eux-mêmes ne sont pas signifiants, ni beaux ni laids : ce n’est qu’en se combinant qu’ils donnent du sens. Dans certaines variétés de français, on distingue brin et brun, patte et pâte, oppositions dont la neutralisation est aujourd’hui bien accomplie à Paris [Martinet, 1958 ; Malécot & Lindsay, 1976 ; Fónagy, 1989]. Des raisons internes au système de la langue peuvent motiver cette mutation : les paires minimales comme brin~brun sont peu nombreuses, et en contexte ne posent guère de problème de compréhension. Les accents qui ont maintenu cette opposition ne sont en aucun cas des formes dégénérées du français de référence. C’est ce dernier qui, évoluant à son propre rythme, a perdu des éléments de son système — et peut ensuite fonctionner comme un pôle d’attraction ou un catalyseur d’unification. Peut-on expliquer également d’autres changements comme l’évolution de la prononciation du ‘r’ à Paris ?
Des chercheurs ont pu avancer l’idée que toute variante est motivée par le contexte, le milieu ou la situation de communication. Ils rejoignent en cela certaines spéculations sur l’origine des langues, pour reconsidérer l’hypothèse de l’arbitraire du signe. Le phonéticien I. Fónagy [1983] redéfinit ainsi le problème du symbolisme sonore, des termes métaphoriques tels que grave/aigu, sombre/clair, dur/mouillé, dans le cadre de la psychanalyse. Les voyelles (où l’on peut voir des corrélats avec les fréquences des formants) et les consonnes sont concernées, la poésie préférant par exemple les occlusives sourdes (/p/, /t/, /k/) pour exprimer l’agressivité plutôt que le sentiment amoureux. De fait, ces occlusives représenteraient la rétention. Par une identification des organes phonatoires et sexuels, une consonne apicale (faisant intervenir dans son articulation la pointe de la langue) serait plus masculine qu’une bilabiale. Ainsi, le /r/ roulé serait associé au combat, à l’idée de majesté et de virilité : c’était celui du roi de France et des paysans qui travaillaient dur en plein air, avant que la grande bourgeoisie commerçante [Malmberg, 1974] et la société feutrée des salons ne l’affaiblissent en un /(/ qui porte acoustiquement moins loin. Connoté masculin, c’est aussi celui que les hommes (à la différence des femmes) arabes ont tendance à préférer lorsqu’ils parlent français, alors que la langue arabe possède deux r, l’un antérieur, l’autre postérieur [Caubet, 2002].
Des expériences à base de tests sémantiques [Fónagy, 1983] mettent en lumière des tendances que d’aucuns voudraient universelles. Cependant, ces observations devraient être validées statistiquement sur un grand ensemble de langues pour éviter les interprétations hasardeuses, dont il est loisible de compiler un sottisier [van den Berghe, 1976] : la motivation du signe souffre de nombreuses exceptions, ne serait-ce que dans les langues indo-européennes [Mompeán Guillanón, 2011].
Si le français méridional parlé en Provence peut être jugé certes moins « correct » mais plus « beau » (pleasant), plus « chantant » que le français parisien [Kuiper, 2005], c’est essentiellement parce qu’il évoque les vacances, le soleil, la lavande, les cigales ! Le Sud-Ouest n’est pas en reste quant aux jugements positifs : il est associé au rugby et au surf, au foie gras, au confit de canard et au cassoulet [Pustka, 2010]. Inversement, des stéréotypes peu amènes ont la vie dure, comme celui de la « bouche en cul-de-poule » associée à certains locuteurs ou celui du chewing-gum pour décrire certaines variétés de langue qui « mâchent les mots ». En tout état de cause, s’il est possible à partir des attitudes et du discours épilinguistique de hiérarchiser les accents, cela est principalement dû à leur connotation sociale [Paltridge & Giles, 1984 ; Bulot, 2002].

L’accent de banlieue
Sur le territoire français au moins, le degré d’accent a tendance à augmenter avec l’âge des locuteurs [Léon & Léon, 1997 ; Pustka, 2007, 2009]. Chez certains jeunes de classes défavorisées, en même temps, des traits de prononciation partagés par le nord et le sud de la France [Jamin et al., 2006] peuvent se superposer à un accent régional. Si l’école de la République est presque parvenue à éradiquer les langues régionales et a en partie homogénéisé les accents régionaux, elle se heurte toujours à une difficile réussite des populations socialement défavorisées. Les inégalités demeurent, si bien que le plus important actuellement, dans ce qui détermine les variétés de langue dénigrées, fustigées, serait davantage le milieu social que la région d’origine [Armstrong, 2002 ; Castellotti & Robillard, 2003 ; Boughton, 2006]. À défaut de phénomène nouveau, un terme a émergé et s’est imposé, c’est celui d’accent « de banlieue ». La banlieue (au singulier) ou les banlieues (au pluriel) doivent ici être comprises par euphémisme comme les banlieues populaires, celles des « grands ensembles » périurbains, des HLM, des ZEP, des ZUS, des ZAC, des ZFU ou autres « zones », et non pas les banlieues résidentielles, îlots pavillonnaires qui définissent un tout autre espace socio-économique. Le mot banlieue (du latin médiéval banleuca) signifie étymologiquement le territoire d’une lieue (soit environ 4 km) autour de l’enceinte fortifiée de la ville, sur lequel au Moyen-Âge s’appliquait le ban, c’est-à-dire la loi féodale. Le mot francique de ban (« autorité ») a donné banal, bannir, bandit, ainsi que des expressions comme publier les bans, mettre au ban, être en rupture de ban. Le sémantisme du mot banlieue a bien évolué : c’est ce dernier sens d’exil (par rapport à une métropole), de lieu « à distance de », voire d’ostracisme, qui, reconstruit d’après une étymologie populaire, lui est principalement associé aujourd’hui. Pour désigner un territoire en marge, dans lequel souvent on n’a pas choisi volontairement d’habiter [Lamizet, 2002], on parle également des quartiers. Ce terme issu d’une division de l’espace (en quarts) évite le problème de la frontière entre ce qui est la ville (plus prestigieuse) et ce qui ne l’est pas. Cependant, l’expression « accent des quartiers » n’est pas d’usage contrairement à celle d’ « accent de banlieue ». Nous sommes conscient du danger de réification que comporte cette expression « accent de banlieue » : risque de récupération politique et de stigmatisation accrue. Toutefois, nous prétendons qu’une recherche scientifique est nécessaire pour écorner certains lieux communs (diction forte, débit d’élocution rapide, rythme haché ou saccadé).
Comme pour les accents régionaux, nous pouvons être leurrés dans l’appréciation d’un accent de banlieue. Dans les représentations les plus répandues, l’accent de banlieue est associé au verlan (z’y-vas), à l’argot, aux emprunts (notamment à l’arabe comme zarma, dawa) et aux insultes rituelles. Tous ces éléments biaisent la perception, de même que les jugements négatifs soulignant la violence du discours.
Le parler vernaculaire des jeunes de banlieue est étudié principalement sous un angle sociolinguistique, en tant que miroir de l’identité, ciment de l’unité d’un groupe refuge vers lequel se tournent les jeunes des cités. Dans ces barres de béton isolées spatialement et économiquement, dans ces « villes sans âme » anonymes et si peu accueillantes, être reconnu devient un impératif d’autant plus urgent que l’avenir professionnel est angoissant [Barkat, 1996]. Or les jeunes y sont en proportion plus nombreux qu’ailleurs, en raison d’un taux de natalité supérieur à la moyenne nationale [Armstrong & Jamin, 2002]. Dans cet environnement où, avec la concentration de familles défavorisées souvent d’origine immigrée, tous les facteurs de division sont réunis, le langage assure la cohésion de la communauté, ainsi que la distanciation d’avec le reste de la société. Il n’est pas rare d’entendre des jeunes « Français issus de l’immigration » parler, par écho ou par riposte, des « Français » comme d’une nationalité extérieure qu’ils renieraient. Ces jeunes adhéreraient donc à d’autres valeurs. Quand ce n’est pas dans la religion qu’ils trouvent une identité de substitution « prête à porter », la culture de leurs parents n’étant pas reconnue officiellement, ils vont afficher leur appartenance à une classe distincte, une différence qu’ils contrôlent davantage que celle dont ils héritent.
Notre monde moderne est marqué par l’indifférentisme, l’atomisation de la société, la fragmentation et la perte des identités traditionnelles, héritées. Il s’agit alors de trouver sa place entre l’individu et l’universel, une médiation entre le particulier et le général. Avec le délitement d’institutions comme l’État ou la famille, la communauté répond à ce besoin. En elle on recherche des liens sociaux, du secours, une reconnaissance, de la fierté voire du rêve. Ce qui est disqualifié du terme de « crispation identitaire » ou « repli communautaire » peut également être vu comme l’affirmation du sujet, acteur de son identité, qui se définit dans l’altérité, conciliant le personnel et le collectif [Touraine, 1997]. La liberté, c’est dans une certaine acception de se sentir bien chez soi.
Des procédés cryptonymiques classiques traduisent cette spécificité, même si certains d’entre eux sont entrés dans la langue commune. Ils représentent le niveau d’analyse privilégié des linguistes, et les journalistes en sont friands [Boyer, 1997 ; Fagyal, 2004, 2010a]. Le verlan, l’argot, les emprunts et hybridations, réduisant d’autant l’intercompréhension avec les « bourgeois », les « honnêtes gens », les « dominants », et permettent de s’en démarquer. Ils marquent comme le « look » (survêtement large, capuche, casquette et baskets) la frontière avec une société qui les rejette et/ou qu’ils rejettent. Ils délimitent comme les tags un territoire à défendre — le territoire d’un certain désœuvrement, comme celui des cages d’escalier, et permettent symboliquement de retrouver des repères. Ils participent comme le rap et le hip-hop d’une culture de la rue éminemment verbale, qui compense l’acculturation engendrée par le déracinement. Cette culture intermédiaire ou interstitielle adapte à la modernité les éléments d’un passé mythique et fantasmé des origines. Si l’une de ces formes langagières est adoptée en dehors de l’univers cloisonné de la cité, elle perd de sa valeur sur le « marché linguistique » où chacun cherche à maximiser son « capital symbolique » [Bourdieu, 1982] : dépréciée, dépossédée de son caractère authentiquement de banlieue, elle risque dès lors d’être vite abandonnée, taxée de ringardise et remplacée — d’où un vocabulaire éphémère qui se démode très vite.
Dans un contexte vécu comme hostile d’exclusion sociale, de ségrégation raciale, d’échec scolaire, de relégation dans un habitat déclassé et parfois de pauvreté affective, les insultes rituelles répondent également aux besoins renforcés par l’adolescence d’individuation, d’affirmation et d’estime de soi. Il y a là, comme dans l’aspiration à s’inscrire pleinement dans la société de consommation, un savant mélange entre une recherche d’originalité personnelle et une volonté d’intégration parmi des pairs, articulant une quête de singularité et un souci de solidarité. Les vannes fusent comme des rafales, dans le but de faire rire ou d’épater les autres aux dépens de quelqu’un [Lepoutre, 1997]. Elles régulent les conflits quotidiens entre pairs et fixent en leur sein une hiérarchie. Ces joutes oratoires laissent place à l’inventivité tout en suivant des règles préétablies, des conventions qui libèrent de toute responsabilité individuelle. Il en va ainsi des variations sur les « X de chez X », « ta mère » et autre « ta race » — mais rarement « ton père » — où D. Caubet [2001] a pu voir un calque des réflexifs de l’arabe maghrébin. Elles garantissent à celui qui les profère un gain de prestige, respect et considération dus à un « meneur verbal » [Dannequin, 1997]. Comme l’écrit I. Lehka-Lemarchand [2007 : 289], « le parler des jeunes des cités ainsi que la culture de ces cités se développent à l’instar du parler et de la culture populaires, sur le refus des “manières” et des “chichis” et sur la valorisation de la virilité et de la force. Cela se manifeste, nous l’avons vu, par des comportements sociaux violents et, au niveau langagier, par la violence verbale ». Dans l’environnement anonyme de la cité, avec pour horizon un avenir professionnel sombre, toutes ces pratiques langagières sont le témoin d’un besoin de reconnaissance.
La créativité de certaines expressions peut être saluée, même si les jugements négatifs et les stéréotypes soulignant la trivialité, la vulgarité ou la brutalité du discours l’emportent généralement. Faute de statistiques admises par la majorité, tout repose sur l’idéologie, dans un sens ou dans un autre : qu’elle dénonce un abâtardissement de la grammaire, qu’elle voue aux gémonies un avachissement de la langue, qu’elle en déplore l’indigence, qu’elle s’indigne de propos volontiers obscènes et provocateurs, qu’elle soit choquée par la violence du discours ou qu’au contraire — non sans condescendance — elle encense certaines trouvailles insolites, magnifie à l’occasion l’humour ou la poésie des images véhiculées, relève pour le folklore quelques joyaux exotiques et célèbre les tournures les plus pittoresques.
Si certaines formes sont nimbées de connotations positives, il semble que la prononciation (ou, en d’autres termes, l’accent) n’en profite pas. Des traits de prononciation communs à l’accent naguère dit « des faubourgs » et maintenant à l’accent « de banlieue » sont repérables [Armstrong & Jamin, 2002]. Pourtant, la gouaille des titis parisiens a aujourd’hui un charme désuet et est auréolée d’associations positives dont ne bénéficie pas l’accent de banlieue, malgré des ressemblances — et au-delà, sans doute, de différences phonétiques qu’il reste à élucider.
L’hypothèse suivante n’est pas à exclure : l’accueil réservé à l’accent de banlieue, des cités ou de la « caillera » (racaille en verlan) et ce que recouvrent ces différents termes résulteraient d’une grille de lecture plaquée sur une réalité méconnue, que les élites, la presse écrite et audio-visuelle enfermeraient dans une sorte de ghetto linguistique [Fagyal, 2004]. Ce serait ce prisme qui, drainant tout une série de préjugés liés à l’âge, au sexe, à la précarité ou à l’ethnicité, sélectionnerait voire amplifierait certains faits structurels et y collerait l’étiquette « de banlieue ». Une variété de français évoquée comme « explosive » serait ainsi codifiée, et depuis le milieu des années 1990 les clés nous en sont données : jeunesse inculte, drogue, délinquance, chômage, immigration [Fagyal, 2010a]. L’accent de banlieue a même un visage : le portrait-robot qui en est dressé est celui de l’adolescent mâle d’origine nord-africaine, du beur. D’abord à l’état d’ébauche, l’origine ethno-géographique était à peine suggérée ; elle tend aujourd’hui à devenir le signe distinctif qui prévaut, bien qu’elle soit bannie des recensements et ne figure que rarement dans les sondages.
Certains traits de prononciation distinguent pour F. Gadet [2002] le français des jeunes de banlieue du français « populaire » (ou « ordinaire », celui des titis parisiens qui aurait pu se mêler à des éléments pieds noirs). Ils pourraient être imputables au contact de l’arabe maghrébin [Fagyal, 2003b], bien que perceptiveement un accent de banlieue puisse être associé à l’immigration maghrébine indépendamment de l’origine réelle de celui qui parle [Stewart & Fagyal, 2005]. Cette évolution serait la conséquence de l’influence du rap pour Calvet [1994], qui à propos des banlieues parisiennes parle lui aussi du « phrasé et de la prononciation très particulière des Beurs ». L’origine maghrébine est encore évoquée, cette fois dans l’imaginaire linguistique concernant l’accent des Quartiers Nord (QN) de Marseille, alors que la réalité sociale est plus complexe et hétérogène [Binisti & Gasquet-Cyrus, 2003]. Il faut rester prudent quant au rôle de l’arabe (et du rap) dans ce qui caractérise cet accent de banlieue. Quand on connaît les difficultés à évaluer les pratiques de l’arabe en France [Caubet, 2002], la grande majorité des familles issues de l’immigration utilisant les deux langues, le contact de langues est une interprétation tentante, mais l’accent de banlieue ne saurait être analysé comme un accent étranger.

L’accent étranger
Ce qui est communément appelé « accent étranger » résulte de la confrontation de deux systèmes phonologiques en contact, en perception et en production. Est-il gouverné davantage par la production (comme la théorie motrice [Liberman et al., 1967] en ferait l’hypothèse) ou par la perception ? On peut répondre qu’une boucle apparie les deux. Flege argue pour sa part que c’est la perception qui l’emporte [Flege, 2003] : celle-ci est à la base du Speech Learning Model (SLM) qu’il a développé — car en première approximation la prononciation en une langue étrangère ne peut pas être meilleure que la perception qu’on en a. De façon plus explicite encore, le Perceptual Assimilation Model (PAM) [Best et al., 2001] est guidé par la perception de la parole non-native.
Déjà Troubetzkoy définissait l’accent étranger à l’aide d’une notion de crible établi par la langue maternelle [Troubetzkoy, 1938]. Par exemple, l’apprentissage d’un son « similaire » mais pas identique dans une langue seconde (L2) et une langue première (L1) peut être bloquée par les mécanismes d’équivalence perceptive et de transfert. De même, des traits exploités pour distinguer des paires minimales en L2 mais non en L1 seront plus difficiles à acquérir, ce qui se reflétera en production. Cette notion d’interférence entre les inputs de L1 et L2 est reprise par le PAM et le SLM, même si ce dernier modèle met en avant l’influence des contextes dans lesquels les langues sont apprises et utilisées. Cette influence est d’ailleurs bi-directionnelle puisqu’elle peut opérer sur les deux langues. Une catégorie intermédiaire comme [t] peut ainsi être créée par des français apprenant l’anglais, avec un VOT (Voice Onset Time) intermédiaire entre ceux des deux langues, si bien qu’un immigrant aux États Unis pourra être perçu comme ayant un accent dans sa propre langue maternelle.
Si l’on estime l’enfant de moins d’un an capable de traiter des contrastes étrangers à sa langue maternelle, celle-ci fonctionne vite comme un filtre tendant à regrouper dans une seule et même catégorie tout ce qui est « étranger » [Jusczyk et al., 1993 ; Mehler et al., 1998 ; Walley & Flege, 1998]. La fameuse confusion entre /l/ et /r/ chez les Japonais [Yamada et al., 1997] ou le processus d’épenthèse vocalique à l’intérieur de clusters consonantiques ont par exemple été abondamment documentés. Plus généralement, les études dans le domaine de l’accent étranger doivent prendre en compte la relation entre la phonologie de L1 et les catégories contrastives de L2 aux niveaux à la fois segmental (les propriétés liées à la structure des sons) et suprasegmental (i.e. prosodique, surimposé aux segments que sont les phonèmes) : contraintes phonotactiques, distribution et fonction des unités, structure syllabique, gestes moteurs, rythme global, accentuation, mouvements intonatifs, etc. Les changements linguistiques induits par le contact de langues, soulèvent donc d’importants problèmes théoriques [McAllister et al., 2002]. Le simple fait que le /y/ français soit généralement assimilé à /i/ par les Portugais mais à /u/ par les Anglais, et que le /(/ anglais tende à être assimilé à /t/ par les Russes et à /s/ par les Japonais montre bien qu’il n’existe pas de distance phonétique universelle [Flege, 2003]. L’assignation à telle ou telle catégorie de la L1 — à la fois /i/, /y/, /t/ et /s/ appartiennent aux langues citées — dépend des poids relatifs accordés à tel ou tel trait phonologique.
Outre la typologie des langues L1/L2, outre les relations que celles-ci entretiennent, nombre de facteurs psycho-sociolinguistiques peuvent exercer une influence en matière d’accent étranger : il arrive même qu’une sorte d’identification ethnique fossilise certaines barrières et incite des locuteurs de L2 à ne pas sacrifier/adopter certains traits. Ce qui est perçu comme un accent étranger peut dépendre du degré de motivation à apprendre, du plus ou moins grand intérêt pour la prononciation de L2, etc. Plus facile à prouver, cela dépend de la fréquence et des circonstances d’utilisation de L1/L2, du temps de résidence dans un environnement parlant en prédominance L2 et de l’état du développement neuro-cognitif au moment de la première exposition à L2 [Flege et al., 1995, 1997a ; Flege, 2002 ; Piske et al., 2000 ; Guion et al., 2000] : plus L2 est adoptée tôt, plus la prononciation sera correcte, selon l’hypothèse de la période critique. Au plus tard vers la puberté, les représentations cérébrales et l’articulation des sons se figeraient ; une sorte de fenêtre se refermerait inévitablement. Mais l’âge d’acquisition de L2 est le plus souvent corrélé avec la quantité d’utilisation de L1/L2, avec les années d’expérience en L2, et se confond avec bien d’autres facteurs [Flege, 1999, 2002]. Les interactions entre enfants à l’école, notamment, ne sont pas les mêmes que celles entre adultes tendant à rester dans leur communauté linguistique. Les années d’expériences en L2 ont également plus d’incidence au début de l’apprentissage. Ensuite, cela ne suffit pas : d’une part, les cas de bilingues tardifs dont la performance est « égale » dans les deux langues sont autant d’exceptions. D’autre part, des adultes originaires de pays étrangers et ayant été adoptés entre trois et huit ans peuvent oublier leur langue première, si bien qu’ils ne montrent à l’imagerie par résonance magnétique fonctionnelle (IRMf) aucune activation corticale spécifique à cette L1 (par rapport à d’autres langues étrangères inconnues et relativement à un groupe contrôle des natifs du pays d’accueil) [Pallier et al., 2003 ; Ventureyra et al., 2004].
Par ailleurs, la possibilité qu’un natif focalise davantage son attention à un niveau abstrait a été mise en lumière par C. Pallier, en accord avec les modèles mentaux où le lexique est mémorisé sous forme de représentations symboliques (phonologiques, prélexicales), plutôt que directement sous forme d’exemplaires de surface (de traces acoustiques détaillées) [Pallier et al., 1997, 2001]. Même si le débat reste ouvert, des arguments convaincants plaident en faveur de la première théorie, « linguistique » : même des bilingues « parfaits » depuis l’enfance, par exemple, peuvent souffrir dans leur langue faible de déficits perceptifs liés au système phonologique de leur langue dominante. Obtenus sur des bilingues espagnol-catalan, ces résultats seraient peut-être différents si les sujets de L1 espagnole étaient moins habitués à entendre du catalan (L2) prononcé « à l’espagnole » ou si le catalan (L2) devenait leur langue majoritaire. Quoi qu’il en soit, ils semblent aller dans le sens de l’hypothèse du filtrage phonologique et à l’encontre de l’hypothèse de la période critique. Comme le langage en général, l’adaptation de la prononciation est un savant mélange de contraintes et de flexibilité.

Qu’est-ce qui caractérise un accent ?
D’après ce qui précède, pourquoi en un même lieu certains ont un accent et d’autres non est une question complexe — d’autant que parfois il ne subsiste que des traces d’accent, ce qu’on appelle un « petit accent ». De même, qu’est-ce qui fait que l’on garde un accent dans une langue seconde, après des années d’expérience ? La question, comme celle du bilinguisme [Grosjean, 1999], est au cœur des sciences cognitives, à la croisée entre neurobiologie, psycholinguistique et sociolinguistique. Mais la question suivante n’est pas plus simple ni moins cruciale : qu’est-ce qui caractérise un accent, physiologiquement, acoustiquement et perceptivement ? Une impression d’accent peut reposer sur la suite de phonèmes et l’instanciation des faits de coarticulation, sur des traits de nasalité, sur la qualité de voix, sur les phénomènes de pauses sonores et d’hésitations, sur les clichés mélodiques, sur les registres de hauteur, sur les profils de durées, sur des erreurs de placement de l’accent lexical (nucléaire) ou d’autres schibboleths, qui peuvent être interprétées comme typiques d’un accent donné. Ce mot schibboleth est utilisé en (socio)linguistique pour désigner une prononciation ou un mot précis auquel on reconnaît l’origine d’un locuteur. Signifiant « épi » en hébreu biblique, il permettait aux gens de Galaad de démasquer leurs ennemis d’Ephraïm. La Bible nous raconte dans le Livre des Juges (chapitre 12, versets 5–6) :
Galaad s’empara du gué du Jourdain, vers Ephraïm. Or, lorsqu’un des rescapés d’Ephraïm disait : « Laisse-moi passer », les hommes du Galaad lui disaient : « Es-tu Ephraïmite ? » S’il répondait « Non », alors ils lui disaient : « Eh bien ! dis Shibboleth ». Il disait : « Sibboleth », car il n’arrivait pas à prononcer comme il faut. Alors on le saisissait et on l’égorgeait près des gués du Jourdain. Il tomba en ce temps-là quarante-deux mille hommes d’Ephraïm. [Traduction Œcuménique de la Bible]
Il est intéressant de souligner que ce passage fait référence à la prononciation d’une consonne (/(/) plus qu’à la prosodie. Un accent est-il davantage caractérisé par l’articulation de certains phonèmes ou par des éléments prosodiques ? Est-ce un hasard si, en français, on a choisi le vocable accent pour désigner à la fois une façon de parler s’écartant de la norme et une proéminence prosodique (la mise en relief d’une syllabe parmi d’autres) ? Le mot accent vient du latin accentus (< ad cantum), signifiant « pour le chant » comme le grec prosôdia dont il est le calque. Des études récentes suggèrent que ce ne serait pas une coïncidence si on utilise le même terme, parlant d’accent régional, étranger ou social [Coquillon et al., 2000 ; Jilka, 2000 ; Lehka-Lemarchand, 2007]. Elles se font l’écho de Jean Itard, maître de l’enfant sauvage Victor de l’Aveyron, qui écrivait en 1801–1806 : « un jeune enfant, un adolescent même, quittant son pays natal, en perd très promptement les manières, le ton, le langage, mais jamais ces intonations de voix qui constituent ce qu’on appelle l’accent ». On pardonnera à ce médecin d’opposer ton à intonation ; le propos est pour le moins impressionniste et imprécis, mais il s’entend toujours deux siècles plus tard. Quand on est en peine de caractériser un accent, on le ramène à une affaire globale d’intonation. Cet accent serait donc caractérisé par des éléments prosodiques « which may well be the features which prove to be […] among the most perceptually salient for ordinary speakers » [Pooley, 2000]. Que la prosodie soit le trait le plus saillant perceptivement, rien n’est moins sûr. Et n’observe-t-on pas plus de plasticité, plus de souplesse, dans la mélodie que dans l’articulation des phonèmes chez l’enfant qui apprend à parler ? Les patrons prosodiques caractéristiques de la langue maternelle sont extraites très tôt par l’enfant en phase d’acquisition du langage [Konopczynski, 1991 ; Nazzi et al., 1998 ; Mehler et al., 1998] ; et la richesse des vocalises, alors que la prononciation est encore très incertaine, incite à penser que l’intonation a une plus grande capacité d’adaptation. C’est également ce que suggère Ladd [1996], relatant sa propre expérience d’américain vivant en Grande Bretagne. Il se peut aussi que, combinées, l’intonation et la prononciation de certains phonèmes aboutissent à la perception d’un accent, alors que chaque indice pris séparément ne donne pas le même résultat. Cela, de surcroît, peut dépendre des accents, de même que la façon dont interagissent la chaîne de phonèmes et la prosodie. Il devient possible aujourd’hui, grâce à diverses techniques de traitement du signal, de séparer ces deux dimensions et de démêler leur importance relative [van Bezooijen & Gooskens, 1999], mais ce n’est jamais sans poser de problèmes.
Au premier niveau, segmental, on distingue généralement quatre types principaux de différences entre accents [Troubetzkoy, 1938 ; Wells, 1982 ; Vaseghi et al., 2009] :
– systémiques — des paires minimales d’opposition comme j’aurai~j’aurais (futur avec /e/, conditionnel avec /(/) peuvent n’exister que dans certaines régions ;
– phonotactiques — la diphtongaison de voyelles peut être conditionnée par la position dans le mot, de même le /R/ peut chuter en coda de syllabe mais pas (ou moins) ailleurs ;
– lexicales — à partir du même inventaire de phonèmes, un mot se prononce différemment selon que le style est formel ou non, selon l’âge du locuteur, sa région, etc. ;
– allophoniques — au niveau de la réalisation phonético-acoustique des phonèmes. Citons le cas du /R/, qui est un des phonèmes les plus fréquents du français si ce n’est le plus fréquent [Juilland, 19665, et qui peut prendre des formes multiples [Autesserre & Chafcouloff, 1999]. Un /R/ sourd peut ainsi s’entendre dans des régions aussi éloignées que le Nord-Est (y compris l’Alsace et la Belgique) et le Sud-Ouest (notamment au Pays basque) [Walter, 1982].
C’est souvent dans des détails phonétiques fins que des différences entre accents sont saillantes Plus qu’à des catégories tranchées on a affaire à des réalisations phonétiques variables. Cela nous ramène au problème complexe de ce que retient notre perception (cf. § 1.2), problème accru en matière de prosodie.
Des différences prosodiques existent également, entre accents. Malheureusement, les publications qui y sont consacrées manquent le plus souvent de précision (cf. § 3.4.4). Nous nous contenterons ici de citer quelques projets de recherche dédiés à la prosodie, comme le très prometteur Atlas Multimédia Prosodique de l’Espace Roman (AMPER) [Romano & Contini, 2000] et le réseau TIE (Tone and Intonation in Europe) [Gussenhoven, 2004], qui ont mis en évidence des patrons prosodiques spécifiques à certaines variétés de langues. Nous y reviendrons dans la troisième partie de ce mémoire.
Dans certains cas, l’information portée par le contenu segmental et la prosodie permettent d’identifier un style. C’est ce que nous allons aborder à présent, sous l’angle de la phonostylistique.


Qu’est-ce qu’un style ?

La phonostylistique, à côté de la phonétique et de la phonologie, est une discipline créée par Troubetzkoy [1938] et développée plus tard par Fónagy [1983]. Elle traite essentiellement de la variation phonique, plus spécialement dans la mesure où celle-ci produit une réaction ou un effet sur l’auditeur [Léon, 1993]. La phonostylistique s’intéresse à la fois à l’émetteur et au récepteur (le destinataire, le décodeur). La question du style vocal ou verbal qu’elle se propose d’aborder est centrale pour la linguistique. Qu’est-ce qu’un style ? — « le mouvement de l’âme » selon Cicéron, « le visage de l’âme » selon Sénèque, quand pour Aristote la parole elle-même signifie « des états de l’âme ». Plus récemment, l’idée du lien avec la construction de la personnalité a été développée [Eckert, 2003, 2005], l’important étant alors la communauté avec laquelle on interagit. C’est le style singulier que chacun peut se donner, se façonner. Pour notre part, nous nous intéresserons davantage au style vu comme un ensemble d’ajustements à une situation, dépendant entre autres de la familiarité que l’on a avec son interlocuteur et le sujet abordé, qui font que l’on ne parle pas de la même façon pans toutes les circonstances de la vie [Bolinger, 1989 ; Lindblom, 1990 ; Eskénazi, 1993].

Parole spontanée et lecture oralisée
La phonostylistique distingue d’abord entre parole spontanée et lecture oralisée [Hagège, 1986]. Cette première est faite de reprises, de lapsus, de bribes de parole, d’amorces de mots inachevés, d’autocorrections, d’interruptions intempestives de phrases, de ruptures de construction et autres scories le plus souvent épurées dans la langue écrite et délaissées par la linguistique. Cela donne des exemples du type : « Moi, ma sœur, les mecs, je te le dis, hein, bon… tu sais euh, au pas, hein, au pas elle les mène ». Le terme de « disfluence » a été proposé pour recouvrir ces phénomènes d’hésitations, répétitions, faux départs, etc. [Shriberg, 2001]. Ce terme évoque malheureusement quelque chose de négatif, même si c’est la graphie dysfluence qui est réservée aux pathologies du langage. Les « marqueurs discursifs », quant à eux, sont dans une autre terminologie des « particules énonciatives » [Fernandez-Vest, 1994] fréquentes dans l’expression naturelle (à défaut de l’être dans les rubriques des grammaires), brèves et encore réduites par la prononciation familière, qui apparaissent en position initiale ou parenthétique. Ils peuvent être de deux types :
– « textuels », recouvrant ce que la littérature pragmatique appelle « connecteurs » (ex. mais, alors, donc) ainsi que les « ponctuants » comme bon, ben, voilà, et des marqueurs de changement thématique (ex. sinon) ;
– « interpersonnels », ce que l’analyse conversationnelle nomme les « phatiques » (ex. tu vois/sais, écoute, hein), qui vérifient que la communication fonctionne bien et fixent l’attention de l’interlocuteur, ou encore des expressions de réserve ou d’atténuation (ex. un petit peu, une espèce de, quelque part, je crois que), qui adoucissent le message, le rendent moins abrupt, le relativisent, temporisent et laissent la place à des opinions autres.
En sont cependant exclus les « régulateurs » du type hmm, bruits de bouches plus ou moins lexicalisés, plus ou moins consonantiques, plus ou moins expirés, qui assurent également un rôle de feedback interactionnel [Chanet, 2004]. En réalité, il existe des gradations et il n’est pas toujours évident de faire le départ entre ces catégories (qui elles-mêmes résistent à l’analyse en parties du discours), ni entre ce qui est fluent et ce qui ne l’est pas. Un autre inconvénient du terme « disfluence » est qu’il est défini implicitement par rapport à l’écrit, où les disfluences de l’oral ne sont d’ordinaire pas transcrites [Dister, 2007]. On peut en dire autant du terme « pause remplie » [Duez, 2001] (mis sur le même plan que les pauses silencieuses), et de la distinction établie entre reperandum et repair (« réparation ») [Levelt, 1989 ; Shriberg, 2001]. Alors qu’un laps de temps sépare la lecture de l’écriture, la simultanéité de la production et de la perception dans la communication parlée rend patents les bredouillages, bafouillages et cafouillages, achoppements et piétinements dans le flux de parole. La chaîne écrite traditionnelle comme la chaîne parlée est linéaire, mais elle permet dans sa phase de conception (traçable dans le brouillon) des ratures et des effacements normalement impossibles à l’oral. L’écrit a vocation à être persistant, contrairement aux mots parlés qui jaillissent de façon éphémère et s’envolent — à moins bien sûr d’être enregistrés. Il n’est pas astreint aux mêmes contraintes physiologiques que la phonation, qui utilise les mêmes organes que la respiration : beaucoup de fautes de frappe, au clavier, n’ont aucune base phonétique ou phonologique. On peut distinguer l’écriture (processus dynamique), l’écrit (validé par le scripteur) et la lecture (étape de décodage), alors que dans la conversation informelle de tous les jours, typiquement face à face avec des tours de parole dont l’ordre n’est pas préétabli, l’idéation (la formation des idées, la recherche des mots, le travail de formulation), le fait de parler et d’écouter sont synchrones. D’où également des chevauchements de parole, délicats à linéariser, et des hésitations traditionnellement transcrites euh en français, qui peuvent être actualisés différemment selon les langues [Vasilescu et al., 2008]. La transcription de l’oral implique des choix théoriques (voire idéologiques) qui sont devenus un objet de recherche linguistique en soi [Blanche-Benveniste, 1990 ; Morel & Danon-Boileau, 1998 ; Delais-Roussarie. & Durand, 2003]. Elle est toujours un début d’analyse, ne serait-ce qu’à travers l’espace entre les mots [Catach, 1992], puisqu’elle discrétise des phénomènes qui peuvent présenter des ambiguïtés (ex. on (n’)a pas). Elle est le résultat d’un long travail de standardisation qui peut faire paraître l’écrit pour plus stable, plus homogène que l’oral. Elle suppose des conventions et des jugements subjectifs, des prises de position qui dépendent des domaines linguistiques étudiés. La ponctuation, en particulier, rend plus lisibles les transcriptions et facilite le traitement automatique, mais elle n’est qu’un reflet, un équivalent approximatif de la prosodie [Hagège, 1986 ; Catach, 1994]. Au reste, c’est peut-être parce qu’elle était peu et mal transcrite graphiquement que la prosodie a longtemps été ignorée ou reléguée comme « non directement linguistique » — l’enseignement scolaire portant essentiellement sur le discours écrit [Martinet, 1970 ; Bertucci, 2008]. Pourtant, entre une scène de théâtre ou un sermon et un échange spontané, de même qu’entre un échange spontané et la lecture à haute voix de sa transcription orthographique [Lucci, 1983 ; Howell & Kadi-Hanfi, 1991 ; Silverman et al., 1992], il est le plus souvent aisé de distinguer.

Styles contextuels, genres et types de discours
Entre casual speech (« discours familier », en contexte ordinaire, quotidien, de communication familiale) et reading (lecture de textes et de listes de mots isolés), Labov [1976 : 138–146] introduit un niveau intermédiaire, celui du discours surveillé (careful speech, correspondant à un registre soutenu, en situation d’interview). En sus de ces trois « styles contextuels », on pourrait établir une typologie avec quelques degrés supplémentaires de spontanéité, plus ou moins libres ou contraints, plus ou moins soignés ou relâchés. La problématique des « genres » de l’oral, pour remonter à l’Antiquité, appartient également au langage courant, qui dispose de nombreux termes pour caractériser « une conversation, une discussion ou un débat, du bavardage ou du marchandage, une interview, un entretien ou une consultation, un cours ou un discours, une conférence ou une plaidoirie, un récit ou un rapport, une confidence ou une dispute, etc. » [Kerbrat-Orecchioni, 2003]. Puisque parler, c’est classifier, une liste aussi hétérogène peut être donnée pour les genres de l’écrit, avec lesquels la frontière est poreuse. Les digital genres qui émergent, avec les forums de discussion, les courriers électroniques et les textos se rapprochant du dialogue oral [David & Goncalves, 2010], nous incitent d’ailleurs à regarder d’un œil nouveau cette dichotomie oral/écrit [Biber, 1995 ; Habert et al., 1998 ; Zweigenbaum & Habert, 2006].
La théorie littéraire [Bakhtine, 1984] distingue :
– (G1) les catégories de textes (ou « genres », dans la tradition des « genres littéraires »), définis d’abord par des critères externes, lesquels peuvent également avoir un effet sur les attentes de ceux qui les reçoivent ;
– (G2) les « types » de discours (narratif, descriptif, argumentatif, explicatif, procédural, didactique, etc.), définis d’abord par des critères internes (des traits linguistiques, comme l’usage des temps et la personne des verbes).
« Ainsi un guide touristique serait-il un “genre” constitué de différents “types” […] » [Kerbrat-Orecchioni, 2003]. Et de façon similaire à l’oral, « au sein de ces G1 que sont les “interactions dans les commerces”, on trouvera du transactionnel […] et autres G2. » Les critères externes, situationnels, sont alors, parmi d’autres, la nature du site, du format, du canal de l’interaction. Et c’est d’eux que part l’approche top-down, prenant en considération les représentations a priori, le canevas, le modèle, le schéma de l’interaction qui vont au moins en partie contraindre l’échange et déterminer les comportements des participants. Ceux-ci vont broder plus ou moins librement, ou alors diverger par rapport à un script préexistant. Dans le cas particulier où le site est un commerce — on peut d’ailleurs admettre une sorte de continuum entre commerce et service —, on peut envisager de multiples subdivisions (ex. clos ou de plein air). De plus, l’hybridation des styles, le fréquent mélange des genres, se voient concrétisés dans des mots-valises tels que l’anglais infotainment (ou, pour l’écrit, autofiction, romanquête), où l’on se situe dans l’entre-deux. Déjà avec cette grille d’analyse, à ce niveau de finesse, toute classification est vite battue en brèche.
Mais un éventail de styles bien plus large existe : celui du prêtre, celui du politicien, celui du journaliste sportif, celui du gendarme (stéréotype naguère conventionnellement caricaturé avec un accent méridional), celui de l’acteur de théâtre, celui du DJ, etc. Des travaux dans ce domaine, en traitement automatique, ont été menés [Llisterri, 1992 ; Eskénazi, 1993 ; Obin et al., 2008 ; Simon et al., 2009] : observations à l’appui, ils montrent en particulier des débits de parole (taux d’articulation et de phonation) très différents entre un journal parlé et un discours officiel. Un style est selon le modèle de l’ « audience design » [Bell, 1984, 2001] l’adaptation (design) de la production linguistique en fonction des attributs sociaux de l’auditoire (audience). Depuis qu’ont disparu les corporations, qui avaient senti le besoin de se distinguer à l’aide d’insignes et de vêtements représentant leur appartenance à une profession, une part de cette fonction identificatrice est assurée par le style oral — bien plus riche à certains égards que le style écrit [Fónagy & Fónagy, 1976]. L’information que porte un segment sonore est incomparablement plus grande que celle que véhicule le texte imprimé correspondant — et on pourrait en dire autant de l’interprétation d’une œuvre musicale par rapport à sa partition. On pense à ce que Fónagy [1983, 2003] a appelé cliché mélodique : celui de l’ouvreuse, du crieur de rue, du conteur (« il était une fois… »), « oh ! hé ! hein ! bon ! », etc. Ces différents phonostyles n’impliquent plus une seule dimension [(spontané] mais plusieurs. Et les procédés typographiques dont nous disposons sont bien limités pour refléter cette richesse.


Plan du document

Le présent document comprend trois parties, sous-divisées en chapitres relatant des travaux réalisés. La première partie est consacrée à l’identification et à la caractérisation d’accents (régionaux et étrangers) en français. La seconde partie se concentre sur le rôle de la prosodie dans divers accents mais également dans le style journalistique, abordé sous l’angle de l’évolution diachronique — à travers des archives remontant aux années 1940. La troisième partie traite de la variation diaphasique et diamésique (style lu/spontané, style écrit/parlé). Enfin, en guise de conclusion et perspectives, nous proposerons un projet de recherche pour les années qui viennent, pour mieux prendre en compte la dimension sociale, étudier d’autres accents et diverses formes d’expressivité dans la parole.
Les chapitres suivants ont été rédigés autant que possible de manière qu’ils puissent être lus isolément. Le chapitre 2 porte sur les accents régionaux en français du Nord et du Sud : il est une version étendue d’un chapitre d’ouvrage [Boula de Mareüil et al.,à paraître]. Le chapitre 3 étend cette étude à d’autres accents régionaux, à la périphérie de la France, incluant notamment la Belgique : il est essentiellement issu de la thèse de C. Woehrling [2009], que nous avons co-encadrée avec M. Adda-Decker au Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur (LIMSI). La perception ainsi que l’analyse de grands corpus y sont abordées [Woehrling & Boula de Mareüil, 2006, 2007], et une dimension de modélisation à travers la classification automatique est ajoutée. Le chapitre 4 s’intéresse aux accents ouest-africains en français qui, entre accents régionaux et étrangers, posent des questions spécifiques : il reprend un volet perceptif. développé dans un article à paraître [Boula de Mareüil & Boutin, 2012] et poursuit des pistes d’analyses acoustiques qui y sont ouvertes. Le chapitre 5 est consacré à l’identification perceptive, à la caractérisation acoustique et à la classification automatique de six accents étrangers en français (allemand, anglais, arabe, espagnol, italien et portugais) : il est issu de la thèse de B. Vieru-Dimulescu [2008], également co-encadrée avec M. Adda-Decker, et résumée dans Vieru et al. [2010]. Le chapitre 6 ouvre la deuxième partie, dédiée plus particulièrement à la contribution de la prosodie, en faisant un détour par les accents italien en espagnol et espagnol en italien : la méthodologie à base de recopie de prosodie, qui y est exposée et qui est présentée dans Boula de Mareüil et Vieru-Dimulescu [2006], sera par la suite appliquée au français. Dans le chapitre 7, diverses techniques sont ainsi utilisées pour démêler la part de la prosodie dans ce qui peut caractériser en français des accents maghrébin, polonais et cet accent social dit « de banlieue ». Après des mesures faites sur des archives journalistiques en français, la recopie de prosodie est exploitée pour étudier si une évolution de la prosodie est perceptible dans ce style journalistique : ce travail, présenté dans Boula de Mareüil et al. [2011] est l’objet du chapitre 8. D’autres styles sont ensuite explorés dans la troisième partie : le style spontané comparé au style lu, dans le chapitre 9, avec un examen du schwa (ou e muet), de la liaison et des voyelles moyennes (en particulier de l’harmonie vocalique) en français ; le style parlé comparé au style écrit, dans le chapitre 10, avec un examen des marqueurs discursifs, des disfluences et des chevauchements de parole en français.
Dans la plupart des études rapportées ici, l’alignement automatique en phonèmes a été utilisé. Le principe en est illustré dans le chapitre 2, mais on peut d’ores et déjà en dire quelques mots. Il suppose que la parole que l’on cherche à analyser soit transcrite orthographiquement. La suite de mots est utilisée pour générer des transcriptions phonétiques possibles à l’aide d’un dictionnaire de prononciation. Des modèles acoustiques sont utilisés pour comparer ces transcriptions phonétiques avec le signal de parole. La suite de phonèmes (ou plutôt de phones) la plus probable parmi les candidats est alors sélectionnée et alignée avec le signal acoustique. Le traitement de grands corpus a ainsi été permis, comme nous allons le voir.
PREMIÈRE PARTIE :
IDENTIFICATION ET CARACTÉRISATION D’ACCENTS EN FRANÇAIS








Cette première partie est dédiée à l’identification et à la caractérisation d’accents en français, à partir de corpus totalisant plus de 100 heures de parole. Le chapitre 2 vise à poser les bases de notre méthodologie, qui combine expériences perceptives et analyses acoustiques. Ces dernières ont été rendues possibles par l’alignement automatique en phonèmes, dont le principe est exposé. L’alignement, en particulier, a été utilisé pour segmenter les voyelles orales (dont les formants ont également été extraits) et les voyelles nasales (qui, par rapport au français du Nord, peuvent être dénasalisées dans le Sud). Se concentrant sur le français du Nord et du Sud, l’étude relatée a permis de quantifier des phénomènes connus (comme la dénasalisation des voyelles nasales en français du Sud) et moins connus (comme l’antériorisation du /(/ vers [œ] en français du Nord). Ces voyelles peuvent faire l’objet de changements phonétiques mis en évidence par des différences de comportement entre lecture et parole spontanée.
Le chapitre 3 étend cette étude, d’une part à d’autres variétés de français parlées à la périphérie de la France, d’autre part davantage dans une perspective de traitement automatique. Tout en appliquant une approche motivée linguistiquement, le but est de différencier des accents du sud de la France, d’Alsace, de Suisse et de Belgique, ainsi que le français « standard ». Des expériences perceptives ont été menées, incluant des locuteurs de ces différentes variétés de français. Les résultats suggèrent que les accents correspondant à ces cinq grandes régions pouvaient être distingués, mais qu’une division plus fine conduit fréquemment à des confusions. Afin de caractériser acoustiquement ces accents, de grands corpus de plusieurs centaines de locuteurs ont été analysés. Nous utilisons l’alignement automatique en phonèmes pour mesurer des formants de voyelles, le (dé)voisement de consonnes, des variantes de prononciation ainsi que des indices prosodiques comme l’accent initial et l’allongement pénultième. Puis ces traits sont utilisés pour identifier les variétés de français en appliquant des techniques de classification automatique (séparateurs à vaste marge et arbres de décision). Des scores de plus de 80 % d’identification correcte sont obtenus. Les confusions entre variétés de français et les traits les plus discriminants utilisés (par les arbres de décision) sont linguistiquement fondés. Ces traits sont l’antériorisation du /(/ (pour le français standard), la dénasalisation des voyelles nasales (pour le français méridional), le dévoisement des consonnes sonores (pour l’Alsace) et les corrélats mélodiques de l’accent initial (pour la Suisse).
Le chapitre 4 étudie dans quelle mesure peuvent être distingués des accents ouest-africains en français, sur la base d’enregistrements effectués au Burkina Faso, en Côte d’Ivoire, au Mali et au Sénégal. De nouveau, une expérience perceptive est conduite, suggérant que ces accents sont bien identifiés par des auditeurs ouest-africains (notamment les accents du Sénégal et de Côte d’Ivoire). Des indices prosodiques et segmentaux sont ensuite analysés. Les résultats montrent que l’accent sénégalais (avec une tendance à l’accentuation initiale suivie de mouvements mélodiques descendants) et l’accent ivoirien (avec une tendance marquée à l’élision ou vocalisation du /R/) sont les plus distincts du français standard et parmi les accents ouest-africains étudiés.
Le chapitre 5 se concentre sur les accents allemand, anglais, arabe, espagnol, italien et portugais en français, également comparés au français parlé comme langue maternelle par des locuteurs d’Île-de-France. Partant d’expériences perceptives d’identification et de caractérisation de ces accents étrangers, nous cherchons quels indices acoustiques permettent de distinguer ces accents, avant d’essayer de relier les traits mesurés à la perception humaine. Sont mesurés des paramètres comme la durée et le voisement des consonnes, les deux premiers formants des voyelles, des indices prosodiques notamment liés au schwa final, ainsi que les pourcentages de confusions obtenus en utilisant l’alignement automatique avec des variantes de prononciation non-standard. Des techniques d’apprentissage automatique sont utilisées pour sélectionner les traits les plus discriminants et casser les locuteurs selon leurs accents. Certains des traits dégagés sont le dévoisement des occlusives sonores, le mouvement du /e/ vers [i], les confusions /b/~/v/ et /s/~/z/, le « r roulé » et l’antériorisation ou fermeture du schwa. Pour une large part, les résultats obtenus en identification automatique des différentes origines linguistiques étudiées rejoignent ainsi les données de perception.
2
2. Accents régionaux : français du Nord et du Sud
Introduction

Ce chapitre visant à l’identification et à la caractérisation d’accents régionaux en français est une ébauche de panorama présentant différents instruments de mesure (analyse de données, alignement en phonèmes et extraction de formants). Il se focalise sur la variation diatopique entre le nord de la Loire et le sud de la France, en commençant par des expériences d’identification perceptive (section 2.3), en poursuivant par des mesures de formants (section 2.4) et en finissant par des analyses par alignement automatique (section 2.5). Depuis le début du xxe siècle, à la suite de l’Atlas Linguistique de la France [Gilliéron & Edmont, 1902–1910], la variation lexicale et phonétique a suscité un grand intérêt [Goebl, 2002 ; Gaillard-Corvaglia et al., 2007]. Toutefois, les dialectologues s’intéressant davantage aux dialectes traditionnels qu’aux parlers régionaux, nous sommes encore mal renseignés sur les différences phonétiques entre les diverses formes du français. Or on dispose aujourd’hui de nombreux enregistrements collectés auprès de locuteurs originaires de différentes régions de la Francophonie, notamment dans le cadre du projet « Phonologie du Français Contemporain » (PFC) [Durand et al., 2002, 2003, 2005]. Dans ces données audio, différents accents sont représentés, autant de déviations par rapport à une norme, repérables à certains traits phonétiques suffisamment saillants pour qu’ils puissent être reconnus et caractérisés. Des auditeurs natifs sont-ils capables d’identifier ces accents ? Avec quel degré de granularité, par exemple, des accents méridionaux du Sud-Est et du Sud-Ouest peuvent-ils être distingués ? Dans quelle mesure le nombre d’accents discernés dépend-il de l’origine géographique des auditeurs ?
Pour le linguiste P. Garde [2004], ce souci généralisé de tracer des frontières, de définir les limites entre le même et l’autre, est à relier à l’essor de l’idée d’État-nation au sens moderne et dans l’acception exclusive du terme. La frontière (du latin frons) est une ligne de démarcation, de délimitation, de séparation qui cristallise dans l’espace un fait social qu’elle ordonne, établissant des catégories — celles du proche et du lointain, du dedans et du dehors [Foucher, 1991]. En sciences du langage, la méthode des isoglosses a connu un certain succès : les isoglosses sont des lignes qui séparent des zones différant les unes des autres d’une certaine manière, par exemple par une prononciation différente d’un mot donné. On peut tracer des isoglosses selon plusieurs critères et obtenir des cartes en combinant les isoglosses obtenues. Toutefois, si on regarde des isoglosses tracées selon des critères différents, elles peuvent ne pas coïncider, et il est alors difficile de déterminer lesquelles utiliser de préférence. Une méthode alternative, dite des flèches, consiste à demander à des sujets de citer les lieux dont ils se sentent proches par la manière de parler et ceux qu’ils pensent être complètement différents [Preston, 1989]. À partir des réponses obtenues, il est possible de construire une carte, par exemple en reliant par des flèches les points désignés comme proches. Cependant, cette méthode ne fonctionne que pour des endroits proches géographiquement : pour des points éloignés, il est impossible de dessiner les flèches et, partant, de refléter leur proximité éventuelle dans la façon de parler. Comme nous nous intéressons nous-mêmes à la fois à des variétés du nord et du sud de la France, une autre approche perceptive doit être appliquée.
Des expériences ont été menées sur l’anglais américain et britannique, le néerlandais, le norvégien, le gallois, l’allemand [Preston, 1989 ; Clopper & Pisoni, 2004 ; Ikeno & Hansen, 2006 ; van Bezooijen & Gooskens, 1999 ; Heeringa, 2004 ; Williams et al.,1999 ; Burger & Draxler, 1998]. En français, les études auxquelles nous avons pu nous reporter, souvent d’orientation sociolinguistique, se focalisent sur les représentations de variétés spécifiques, plus ou moins stéréotypées et éventuellement différentes des comportements en réaction à des échantillons de parole réels [Paltridge & Giles, 1984 ; Castellotti & Robillard, 2003 ; Kuiper, 2005]. Mais la plupart des études n’impliquent que deux ou trois variétés de français, et peu d’analyses phonétiques [Armstrong & Boughton, 1997 ; Sobotta, 2006]. Elles ne permettent pas de prédire de façon fiable les caractéristiques les plus discriminantes qui sont associées à un accent donné. Les quantités de données recueillies au cours du projet PFC permettent maintenant des études systématiques. Plusieurs tranches d’âge et « styles » de parole (lecture et parole spontanée) étant représentés, leur influence sur les performances peut également être quantifiée. Tel est l’objet que, faisant suite à une présentation du corpus (section 2.2), la section 2.3 se propose d’examiner, en trois étapes : avec un pré-test dont la tâche est une simple évaluation du degré d’accent d’une quarantaine de locuteurs de six régions francophones, une expérience d’identification de l’origine de l’accent auprès d’auditeurs de la région parisienne (expérience 6rp) et une réplique de cette expérience auprès d’auditeurs de la région marseillaise (expérience 6rm).
Différentes méthodes et techniques seront éprouvées pour caractériser les accents identifiés : analyse discriminante, clustering, échelonnement multidimensionnel, arbres de décision. Les sections suivantes présenteront quelques analyses phonétiques des voyelles orales et nasales en français du Nord et du Sud. En section 2.4, nous comparerons des mesures de formants sur le sous-corpus utilisé dans les expériences perceptives et des corpus nettement plus volumineux, de plus d’une centaine de locuteurs, segmentés en phonèmes par alignement automatique. Les résultats suggèrent l’importance du second formant (corrélat de l’antériorisation) du /(/ pour discriminer les variétés du Nord et du Sud.
Des contraintes phonologiques spécifiques pèsent sur les voyelles moyennes postérieures arrondies (/(/~/o/) du français [Walker, 2001] : seul le timbre semi-fermé apparaît en syllabe finale ouverte (on n’oppose pas pot */p(/ à peau /po/ en français « standard » à tout le moins). Inversement, seul le timbre semi-ouvert apparaît avant /(/. Certains critères orthographiques (ou du moins manifestés en synchronie par l’orthographe) entrent en ligne de compte : le digramme ‘au’ tend à être prononcé semi-fermé (/o/, comme le ‘ô’), hormis devant ‘r’ où l’on a /(/ ; et le timbre semi-ouvert /(/ est considéré comme la forme sous-jacente du ‘o’ graphique ailleurs qu’en syllabe finale ouverte. Cependant, il existe de nombreuses exceptions où le phonème cible est /o/ : devant la consonne allongeante /z/, dans certains mots comme fosse ou atome, dans les préfixes aéro-, micro-, psycho-, etc. [Walter, 1976 ; Carton et al., 1983]. En outre, la voyelle racine (/o/) tend à être préservée par fidélité morphologique et sémantique à la base, dans des mots tels que fossé. Ajoutons que dans certains cas il y a désaccord entre les dictionnaires de prononciation quant à l’aperture de la voyelle finale ferme (ex. synchrone), voire antériorisation de /(/ en [œ].
Dans un article célèbre, « C’est jeuli, le Mareuc ! » Martinet [1958] analysait cette avancée du /(/ en termes de rendement fonctionnel (relativement faible et sans grande incidence sur la compréhension, pour l’opposition /(/~/œ/). Déjà pendant la Seconde Guerre mondiale, à partir des témoignages d’officiers recueillis dans un camp de prisonniers, l’auteur avait observé l’émergence de cette variante centralisée du /(/ chez les locuteurs non-méridionaux [Martinet, 1945]. Il ouvrait ainsi des pistes pour des études empiriques et théoriques sur l’aménagement du système vocalique français.
Si l’on s’en rapporte à l’histoire, d’ailleurs, un mot latin comme florire a donné le français fleurir ; le verbe florir (d’où florissant) n’est qu’un archaïsme littéraire. On a d’autre part en synchronie les doublets priorat~prieuré, senior~seigneur (d’où seigneurial alors que l’adjectif dénominal de directeur est directorial), des alternances morphologiques comme mort~meurt, des erreurs comme *je vous serais gré pour je vous saurais gré, *contreverse (56 700 réponses dans Google au moment de la rédaction de ces lignes) pour controverse et petit rond pour potiron, qui appartient au langage enfantin. Ce phénomène d’antériorisation a plus récemment été observé dans des travaux autour de l’harmonie vocalique dans des mots comme social [Malderez, 1994 ; Landick, 1995 ; Boula de Mareüil & Fagyal, 2000 ; Fagyal et al., 2002 ; Nguyen et al., 2004]. Il serait aujourd’hui une marque de préciosité, alors que du xvie au xxe siècle des auteurs ont attesté des prononciations orthographiées demaine, quement, quemencer, heu(m)me ou Beaujelais, alors connotées populaires [Fónagy, 1989 ; Carton, 2000 ; Armstrong & Low, 2008]. Dans le même temps en sociolinguistique le recul de l’articulation est souvent cité comme un trait caractéristique de « l’accent de banlieue » [Armstrong & Jamin, 2002 ; Caubet, 2002]. À notre connaissance, cependant, la prononciation du ‘o’ n’a pas été étudiée de façon systématique, en raison des difficultés pratiques à mener des enquêtes phonétiques sur le terrain. De plus, ces observations, comme les règles phonologiques édictées plus haut, ont essentiellement été établies pour le français standard (parisien ou plus généralement du nord de la Loire). En français méridional, réputé pour ne pas faire la distinction côte~cote, des schibboleths comme rose ou gauche prononcés avec un [(] ouvert sont pourtant bien connus [Carton et al., 1983 ; Durand, 2008]. La masse de travaux accumulés dans le cadre de projets récents comme PFC, aussi bien que les instruments développés en traitement automatique de la parole, permettent aujourd’hui de regarder d’un œil nouveau ces différents phénomènes, notamment l’antériorisation du /(/ en [œ] qui pourrait bien être un changement linguistique en cours, dont on n’a guère conscience.
La prononciation des voyelles nasales du français « standard » ne représente pas un objet nouveau [Martinet, 1945 ; Martinet & Walter, 1973 ; Malécot & Lindsay, 1976 ; Léon, 1993 ; Hansen, 2001 ; Delvaux et al., 2002 ; Amelot, 2004 ; Montagu, 2004]. Caractérisant le français méridional, par rapport au français parisien, la tendance suivante est également bien documentée [Martinet, 1945 ; Walter, 1982 ; Durand, 1988, 1995, 2008 ; Carton et al., 1983 ; Thomas, 1991 ; Taylor, 1996 ; Binisti & Gasquet-Cyrus, 2003 ; Clairet, 2005] : là où le français standard utilise des voyelles nasales, le français méridional prononce souvent des voyelles partiellement nasalisées et suivies d’un élément consonantique nasal bien audible. Cet appendice consonantique a le même lieu d’articulation que la consonne suivante, si celle-ci existe (par exemple [n] devant /t/ ou /d/, [m] devant /p/ ou /b/, [(] devant /k/ ou /(/), et se réalise également souvent [(] avant une pause . Comment quantifier leurs fréquences d’apparition ? Quelle peut être la contribution du traitement automatique de la parole ? C’est ce que nous examinerons dans la section 2.5.


Corpus et méthode pour les analyses acoustico-phonétiques

Cette étude s’appuie sur le corpus PFC [Durand et al., 2002, 2005]. Ce projet qui s’inscrit dans le sillage de Martinet [1945] et Walter [1982] a entrepris de collecter des enregistrements couvrant un vaste territoire francophone, avec une dizaine de locuteurs par point d’enquête. S’il se focalise sur la présence/absence des schwas et des liaisons, d’autres traits de prononciation sont caractéristiques de la variation en français. Nous nous concentrons en section 2.5 sur la réalisation des voyelles orales (avec une comparaison de la prononciation du /(/, du /o/ et de la réalisation du schwa) et des voyelles nasales. Après une brève description du corpus et de la méthode utilisés, nous étudierons l’influence de la région Nord/Sud, de l’âge et du sexe des locuteurs, du type de parole (lu/spontané), de la fréquence des mots et du contexte phonétique gauche/droit. L’importance de la fréquence des mots dans les changements linguistiques a été très discutée [Hansen, 2001 ; Labov, 1994, 2006]. Dans ce qui suit, nous entendrons par « mots fréquents » les mots qui dans notre corpus représentent les 5 % les plus fréquents du vocabulaire employé par les locuteurs.
Pour répondre aux questions qui peuvent se poser notamment concernant la réalisation des voyelles moyennes postérieures et la prononciation d’appendices nasaux, nous avons analysé douze points d’enquête PFC : six dans la moitié nord de la France (Brécey, Brunoy, Dijon, Lyon-Villeurbanne, Roanne, Treize-Vents), un en Suisse romande (Nyon, dans le canton de Vaud) et cinq dans le sud de la France (Biarritz, Douzens, Lacaune, Marseille, Rodez). Malgré un substrat francoprovençal, la Suisse romande sera comptée comme Nord car sa variété de français est très peu perçue comme méridionale (cf. § 2.3). Aucun point d’enquête n’étant situé dans le département français du Nord, nous opposerons donc dans ce qui suit deux grandes variétés de français (Nord/Sud) sans nier que des divisions plus fines puissent être faites.
Le corpus traité représente plus d’une centaine de locuteurs : autant d’hommes que de femmes, de tranches d’âges équilibrées, de niveaux d’études et de professions variés, qui sont nés et ont passé la plus grande partie de leur vie en un même lieu. Totalisant plus de 30 heures d’enregistrement de lecture et de parole spontanée, ces données contiennent 12 000 mots différents, représentant 15 000 occurrences de /(/, 9 000 occurrences de /o/ sous-jacents, 60 000 voyelles nasales et 72 000 schwas potentiels (dans des proportions Nord-Sud de 2/3-1/3). Pour chaque locuteur, nous avons à notre disposition — et utilisé dans ce chapitre — la lecture d’une liste d’une centaine de mots et d’un texte d’une vingtaine de phrases, ainsi que 10–15 minutes d’entretien guidé et de conversation libre, suivant un protocole labovien [Labov, 1976, 1994].
L’ensemble de ces données a été segmenté en phonèmes par alignement automatique. Issu du système de reconnaissance de la parole du LIMSI [Gauvain et al., 2005], l’aligneur est fondé sur un principe identique, à la différence près que la suite de mots est ici connue. À partir d’un signal de parole et de sa transcription orthographique, étant donné des modèles acoustiques ainsi qu’un dictionnaire de prononciation qui peut inclure des variantes, le décodeur fournit la séquence de phonèmes réalisée la plus probable (cf. figure 2.1). Pour les variantes étudiées dans ce chapitre, les voyelles moyennes postérieures, le schwa et les voyelles nasales, les dictionnaires de prononciations ont été adaptés séparément , mais les mêmes modèles acoustiques indépendants du contexte avec mélange de gaussiennes ont été utilisés (512 gaussiennes par état, pour chaque phonème). Ces modèles acoustiques, appris sur de grandes quantités de données, correspondent à des formes relativement canoniques des phonèmes du français. Les différences entre les dictionnaires de prononciation de l’apprentissage et de la présente étude visent précisément à quantifier l’écart par rapport au standard.












Figure 2.1 : diagramme bloc de la procédure d’alignement en phonèmes.

L’alignement automatique facilite ou rend possibles des travaux coûteux, fastidieux et encore très longs à accomplir, il y a peu. La méthode a été utilisée extensivement dans plusieurs études antérieures qui ont montré la qualité des résultats [Adda-Decker & Lamel, 1999 ; Gendrot & Adda-Decker, 2005 ; Adda-Decker, 2006 ; Adda-Decker & Hallé, 2007]. Sur le corpus PFC, des sous-ensembles des données ont été écoutés et vérifiés, confirmant la fiabilité de l’approche. En guise de mise en garde méthodologique, il est important de souligner que les frontières de phonèmes résultant de l’alignement automatique peuvent différer de celles que produirait une segmentation manuelle. L’avantage de la procédure automatique, cependant, réside dans sa cohérence et sa reproductibilité. Précisons aussi que l’alignement nécessite au préalable pour l’humain un long travail de transcription orthographique des corpus audio, de formatage des données et de construction des dictionnaires de prononciation, qui est à mettre au crédit du projet PFC. À ce prix les systèmes automatisés peuvent être considérés comme de précieux outils d’analyse ou instruments de mesure pour étudier la variation phonétique/phonologique. Mais auparavant, il convient selon nous d’établir quelles variétés sont susceptibles d’être identifiées perceptivement par des auditeurs humains.


Identification perceptive

Locuteurs et stimuli
Cette section, rappelons-le, aborde la question suivante : combien d’accents peut-on reconnaître, lesquels et dans quelles conditions ? Les expériences perceptives que nous rapportons ici portent sur six régions francophones, correspondant à autant de points d’enquête PFC et d’aires dialectales différentes (cf. figure 2.4) : Brécey (Normandie), Treize-Vents (Vendée), le canton de Vaud (Suisse romande), Biarritz (Pays basque), Douzens (Languedoc) et Marseille (Provence). Dans chacun de ces points d’enquête, six locuteurs ont été sélectionnés, de niveaux d’étude variés, trois hommes et trois femmes, à l’intérieur de trois tranches d’âge : 15–30 ans (moyenne : 23 ans), 30–60 ans (moyenne : 47 ans), 60 ans et plus (moyenne : 73 ans). Compte tenu de la diversité des systèmes éducatifs, du fait que les plus jeunes locuteurs n’ont pas tous terminé leurs études et que pour les plus âgés, en particulier les femmes, il était plus rare de faire de longues études, nous n’avons pas intégré le facteur scolarité dans notre travail.
Pour chacun des locuteurs, deux échantillons de parole ont été choisis. Le premier est une longue phrase lue (25 mots, 8,3 secondes en moyenne) tirée du milieu du texte PFC, identique pour tous : « La côte escarpée du mont Saint-Pierre qui mène au village connaît des barrages chaque fois que les opposants de tous les bords manifestent leur colère. » Le second est un extrait de parole spontanée, tiré des entretiens guidés : un énoncé assertif d’une durée équivalente à celle de l’extrait lu (8–9 secondes), sélectionné d’après les critères suivants : absence de référence à un lieu qui biaiserait l’identification, absence d’intervention de l’interviewer et peu d’hésitations de la part du locuteur. Avec en moyenne 33 mots par extrait, le débit de la parole spontanée est comparable à celui de la lecture (10–11 phonèmes/ seconde). La parole spontanée évite que les auditeurs aient à écouter systématiquement la même phrase et reflète mieux la façon naturelle de parler. La lecture, de surcroît, permet des comparaisons toutes choses égales par ailleurs et garantit que les différences entre locuteurs ont trait à la prononciation.

Auditeurs
Le pré-test (pour l’évaluation du degré d’accent), l’expérience 6rp et l’expérience 6rm (expériences d’identification proprement dite) ont chacun été soumis à 25 auditeurs sans troubles d’audition connus, tous de langue maternelle française. Les auditeurs du pré-test de l’expérience 6rp, résidents de la région parisienne, étaient membres d’un laboratoire d’informatique (le LIMSI). Ceux de l’expérience 6rm, résidents de la région marseillaise, étaient membres d’un laboratoire de sciences du langage : le Laboratoire Parole et Langage (LPL) d’Aix-en-Provence.
Les auditeurs du pré-test (18 hommes et 7 femmes, âgés de 26 ans en moyenne) avaient passé en moyenne 16 ans en région parisienne. Ceux de l’expérience 6rp (16 hommes et 9 femmes, âgés de 32 ans en moyenne) avaient passé en moyenne 21 ans en région parisienne Ils n’avaient pas participé au premier test. Enfin les auditeurs de l’expérience 6rm (7 hommes et 18 femmes, âgés de 37 ans en moyenne) avaient passé 22 ans dans la région d’Aix/Marseille —dont 11 ans à Aix même et 6 ans à Marseille même. Parmi eux, 8 sujets avaient vécu majoritairement à Marseille, 8 sujets n’y avaient jamais vécu, mais avaient longtemps vécu à Aix.
Dans les expériences 6rp et 6rm, les auditeurs se déclaraient quasiment tous familiers des accents de Marseille et de Suisse, quasiment tous non-familiers des autres accents. S’ils pouvaient davantage être qualifiés d’experts en linguistique, les sujets de l’expérience 6rm ne s’estimaient pas sensiblement plus compétents pour une tâche d’identification que les sujets de l’expérience 6rp.

Tâches et protocole
Le pré-test comme les expériences 6rp et 6rm était réalisé à travers une interface conviviale, qui permettait entre autres, en cliquant sur des boutons, d’entrer des informations sur la familiarité avec tel ou tel accent et de saisir les réponses. Tout d’abord, brève familiarisation, l’auditeur écoutait une fois la même phrase lue par un locuteur ou une locutrice (non utilisée par la suite) de chacune des six régions en question, qui était indiquée. Lors de la phase suivante, le test proprement dit, l’auditeur écoutait 74 stimuli, dont les deux premiers (phrases spontanées d’un locuteur du Nord et d’une locutrice du Sud) n’étaient pas comptés dans les résultats. Les 72 stimuli suivants, extraits lus ou spontanés mélangés, étaient présentés un par un dans un ordre aléatoire différent pour chaque auditeur. Cette précaution nous a semblé d’autant plus importante que, pour l’évaluation du degré d’accent sur une échelle relative notamment, les sujets n’avaient d’autre point de repère que l’étape de familiarisation et leur propre expérience quotidienne.
Pré-test : lors de la phase de familiarisation, un degré d’accent était donné à titre indicatif pour chaque stimulus entendu. Lors de la phase de test, l’auditeur devait attribuer un degré d’accent à l’extrait qu’il venait d’écouter. Les degrés proposés, sur une échelle à six degrés graduée de 0 à 5, étaient paraphrasés de la façon suivante :
0 : pas d’accent ; 3 : assez fort accent ; 1 : petit accent ; 4 : fort accent 2 : accent modéré ; 5 : très fort accent
Expériences 6rp et 6rm : la région d’origine du locuteur était indiquée pour chaque extrait entendu lors de la phase de familiarisation. Lors du test, après chaque écoute, l’auditeur devait préciser d’après l’accent l’origine du locuteur parmi les six possibilités déjà mentionnées : Brécey (Normandie), Treize-Vents (Vendée), le canton de Vaud (Suisse romande), Biarritz (Pays basque), Douzens (Languedoc) et Marseille (Provence). Aucune indication sur l’exactitude des réponses n’était donnée.
L’auditeur pouvait prendre le temps qu’il voulait pour répondre. Chaque stimulus pouvait être réécouté, mais il était impossible de revenir en arrière, une fois la réponse validée. Chacune des trois expériences durait une vingtaine de minutes.
Les tests se déroulaient dans une chambre isolée, les auditeurs étaient munis d’un casque fermé du même modèle, le niveau d’écoute était confortable. Les stimuli, au format Wave, étaient échantillonnés à 22,05 kHz, 16 bits, mono. Leur niveau sonore avait été égalisé à l’aide du logiciel Goldwave, également utilisé pour la segmentation des stimuli.

Résultats : pré-test et expériences d’identification
Les résultats du pré-test ont permis de classer les régions de nos locuteurs par degré d’accent moyen : 0,8 pour la Normandie, 1,1 pour la Vendée, 2,0 pour la Provence, 2,5 pour la Suisse et le Pays basque, 3,4 pour le Languedoc — en moyenne globale, les stimuli ont reçu le degré 2,0. Plus les locuteurs sont âgés, plus leur accent a été jugé fort : les degrés moyens des trois tranches d’âge sont 1,4, 2 ,1 et 2,7 — les résultats seront analysés statistiquement à travers une mise en relation avec les expériences perceptives ci-dessous. La différence observée est moindre entre la lecture, pour laquelle le degré moyen est 2,1 et la parole spontanée, évaluée à 2,0.
Dans les expériences 6rp et 6rm, les auditeurs ont obtenu 43 % de bonnes réponses en moyenne : 42,1 % en région parisienne et 43,9 % en région marseillaise, ce qui dans les deux cas est significativement mieux que le hasard (16,7 %) d après des tests de Dz [6rp : Dz(25) = 2092 ; p 0 dB%(duri > 0 ms#occ
%(duri > 0 msLectureStandard203572575653357Sud195070596151062Alsace41452616210767Belgique127865566233362Suisse43588765511751SpontanéStandard7242485155130952Sud6078435055115053Alsace99938566414457Belgique249840505743951Suisse164759555730653Tableau 3.6 : nombre d’occurrences et pourcentage de (F0i, (intensi et (duri positifs de dans le corpus PFC. Dans la partie droite, les polysyllabes sont restreints aux mots d’au moins trois syllabes. Comme dans d’autres tableaux, les valeurs maximales sont mises en gras.

Ce sont les Suisses qui présentent le plus fort pourcentage de (intensi positifs dans la lecture du texte PFC. En parole spontanée, les chiffres en matière d’intensité sont très proches d’un accent à l’autre. Les différences entre accents sont quelque peu plus marquées en matière de durée. Les Alsaciens présenent les pourcentages les plus élevés de (duri positifs en parole spontanée et dans une moindre mesure en lecture. Ils montrent également les pourcentages les plus élevés si l’on restreint l’analyse aux non-clitiques au moins trisyllabiques au lieu de considérer tous les polysyllabes — le nombre d’occurrences examinées est bien entendu plus bas.




















Figure 3.6 : distribution de (F0i entre une voyelle initiale de polysyllabe et la voyelle du clitique qui précède (en demi-tons) dans la parole spontanée du corpus PFC. Sont fournis les pourcentages de contextes pour lesquels la valeur de (F0i est comprise entre -1 et 0 dt, 0 et 1 dt, etc.

La tendance des Alsaciens à allonger la voyelle initiale de polysyllabe précédé par un clitique, dans le corpus PFC, est notable dans le tableau 3.7. Ce tableau rapporte les durées moyennes du noyau vocalique du clitique, de l’attaque et de la voyelle initiale du non-clitique subséquent. La durée moyenne du noyau du clitique est indiquée bien qu’elle n’apporte pas beaucoup d’information : on peut simplement constater qu’il y a entre régions peu de variation de cette durée moyenne, surtout en parole spontanée. Quant à la voyelle initiale du polysyllabe qui suit, elle se comporte comme on pouvait l’attendre d’après les calculs de ”duri : les Alsaciens ont les durées moyennes les plus longues, ce qui n est pas seulement imputable à un débit plus lent car les Suisses, au moins en lecture, montrent un comportement très différent.
La durée moyenne des attaques de polysyllabes précédés de clitiques, qui peut être un corrélat de l’accentu initial d’après Mertens [1993] et Astésano [2001], est également fournie dans le tableau 3.7, pour le corpus PFC. Le nombre d’occurrences considérées dans chaque cas se déduit du chiffre indiqué dans le tableau 3.6, auquel il faut soustraire les suites clitique non-clitique ne comportant pas d’attaques de non-clitiques (soit environ 15 % des cas).


PolysyllabesTrisyllabes +VcAttaqueVncVcAttaqueVncLectureStandard7288727010572Sud6994736510969Alsace7692837310676Belgique6889726410268Suisse6997706311469SpontanéStandard769163788961Sud788864778661Alsace788679848982Belgique769065768760Suisse789871779768Tableau 3.7 : durée moyenne en ms de la voyelle des clitiques (Vc), de l’attaque et de la voyelle initiale (Vnc) des non-clitiques polysyllabiques ou au moins trisyllabiques dans le corpus PFC.

Les mêmes mesures ont été faites sur le corpus CTS, qui est cantonné aux frontières de la France (français standard, Sud et Alsace). Les paramètres qui révélaient des différences entre ces trois variétés de français dans le corpus PFC ne mettent plus en lumière de différences dans le corpus CTS. Dans la parole spontanée du point d’enquête PFC enregistré en Alsace, l’augmentation de l’intensité ”intensi était légèrement plus marquée qu ailleurs, mais ce résultat ne se retrouve pas ici. Les chiffres obtenus sont très similaires entre les locuteurs du français standard, du Sud et d Alsace. La principale différence concerne le pourcentage de ”duri positifs : 63 % chez les Alsaciens vs 58 % chez les locuteurs du français standard et du Sud. Même si le contraste est peu tranché, cela confirme la tendance observée dans le corpus PFC.
Comportement des syllabes prépausales
Le comportement des syllabes pénultièmes et finales avant une pause a de même été examiné — une pause étant détectée comme un silence d’au moins 50 ms. Aucune tendance ne se dégage si l’analyse n’est pas restreinte à des mots précédant une pause. Nous n’avons pas non plus pu observer de tendance marquée selon la région concernant la variation de F0 entre les syllabes pénultième et finale. Cependant, le pourcentage d’avant-dernières voyelles plus longues que les finales (schwa exclu) permet de saisir une forme d’allongement pénultième : i.e. ”durf = durpenultième  durfinale > 0 ms. Le pourcentage de ”durf positifs est donné pour le corpus PFC dans les tableaux 3.8 et 3.9, avec les durées moyennes des voyelles noyaux des deux syllabes précédant une pause. Comme dans le tableau 3.6, les polysyllabes et les mots d au moins trois syllabes sont distingués pour éviter de confondre allongements initial et pénultième. La différence de durée entre voyelles pénultièmes et antépénultièmes a été calculée : ”durf = durpenultième  durantépénultième. Le pourcentage de ”dura positifs et la durée moyenne des voyelles antépénultièmes sont également rapportées dans le tableau 3.9.

#occ dur.pen
(ms)dur.fin (ms)%(durf > 0 msLectureSstandard11628314823Sud11118715822Alsace2898613427Belgique9328614229Suisse3269015423SpontanéStandard33026812332Sud29867013430Alsace4728311339Belgique21767212240Suisse10778215430Tableau 3.8 : nombre de polysyllabes avant une pause, durée moyenne des deux dernières voyelles en ms et pourcentage de (durf (pénultième–finale) positifs dans le corpus PFC.

En lecture, les pourcentages de (durf positifs sont assez proches entre les régions, qu’on se limite ou non aux mots de trois syllabes ou plus. Les chiffres diffèrent davantage sur la parole spontanée, les locuteurs belges réalisant le plus fort pourcentage de ”durf positifs. Ces pourcentages sont particulièrement bas pour les Suisses, car ces locuteurs semblent allonger à la fois les voyelles pénultièmes et finales (voir les durées moyennes dans le tableau 3.8). En parole spontanée notamment, les Suisses ont les voyelles finales les plus longues. Dans le style lu, ils ont le plus fort pourcentage de (dura positifs (c’est-à-dire des voyelles pénultièmes plus longues que les voyelles antépénultièmes), les voyelles antépénultièmes les plus courtes et les voyelles pénultièmes les plus longues.

#occ dur.pen
(ms)dur.fin (ms)%(durf > 0 msLectureSstandard11628314823Sud11118715822Alsace2898613427Belgique9328614229Suisse3269015423SpontanéStandard33026812332Sud29867013430Alsace4728311339Belgique21767212240Suisse10778215430Tableau 3.9 : nombre de mots au moins trisyllabiques avant une pause, pourcentage de (dura (pénultième–antépénultième) positifs, durée moyenne des trois dernières voyelles en ms et pourcentage de (durf (pénultième–finale) positifs dans le corpus PFC.

Dans l’ensemble, les Suisses ont des voyelles pénultièmes assez brèves en comparaison avec les voyelles pénultièmes et finales. Sans surprise, les Alsaciens ont les voyelles antépénultièmes les plus longues (dans la plupart des cas également les voyelles initiales) dans les mots d’au moins trois syllabes précédant une pause. Ceci est en accord avec l’allongement de la voyelle initiale décrit en 3.4.4.1.En moins en parole spontanée, les Belges ont les plus forts pourcentages de voyelles pénultièmes plus longues que les voyelles antépénultièmes et finales. L’allongement pénultième mis en avant par Hambye et Simon [2004] en français de Belgique est donc (partiellement) confirmé.
Dans le corpus CTS, les (durf et (dura ont été calculés de la même façon. Ils seront également utilisés dans les expériences de classification, comme nous le verrons à la section 3.6. Cependant, ils ne sont pas rapportés ici, puisqu’ils sont essentiellement pertinents pour les accents belge et suisse, lesquels ne sont pas représentés dans le corpus CTS.

Discussion
Dans cette section, les mesures de durée résultant de l’alignement automatique, l’extraction de formants ainsi que les paramètres de F0 et d’intensité ont permis, sinon de révéler, du moins de quantifier des différences phonétiques entre le français standard et des variétés de français parlées dans le sud de la France, en Alsace, en Belgique et en Suisse romande. Les analyses à base de formants ont montré que le /(/ est plus antérieur en français standard que dans les autres variétés de français. Les résultats des analyses à base de F0, eux, suggèrent que les Alsaciens et les Belges tendent à dévoiser certaines consonnes. Toutefois, les différences de taux de voisement peuvent être dues aux disparités de conditions d’enregistrement : la parole téléphonique, en particulier, pose des problèmes de détection de F0. Une autre approche de la prononciation des voyelles et des consonnes est proposée dans la section suivante.
Dans le corpus PFC, des patrons prosodiques intéressants ont été trouvés. Tandis que l’allongement de la voyelle pénultième précédant une pause semble typique de la Belgique, l’allongement des deux dernières voyelles prépausales et une tendance à l’accentuation initiale (montée de la mélodie, augmentation de l’intensité et allongement de l’attaque) sont plutôt caractéristiques de la Suisse romande, contrairement à certaines prédictions [Métral, 1977 ; Grosjean et al., 2007]. En Alsace, ce qui peut également s’interpréter comme une accentuation initiale sous l’influence du contact de langues se manifesterait davantage par un allongement de la voyelle initiale.
Ces corrélats acoustiques paraissent relativement robustes au changement de style de parole (lu ou spontané). La section suivante, qui examine des aspects segmentaux à travers les variantes de prononciation fournies par l’alignement automatique, devraient également être indépendants de la source des données. Elle vise à compléter les approches à base de formants et de F0,et à quantifier des phénomènes tels que la réalisation du schwa et la dénasalisation des voyelles nasales (cf. § 2.5).


Variantes de prononciation

Dans cette section, comme dans la section 2.5, les données ont été transcrites phonétiquement par alignement automatique en utilisant un dictionnaire de prononciation enrichi de variantes régionales. Par exemple, dans des mots comme entier et Beaulieu, les variantes suivantes ont été autorisées : [((tje, ((ntje, antje], [bolj(, polj(]. Nous avons vu au chapitre précédent (cf. § 2.5.4) que les locuteurs méridionaux tendent à produire davantage de variantes alignées avec un appendice consonantique nasal (ex. [((ntje] ou [antje]). On s’attend ici à ce que les Alsaciens, qui tendent à dévoiser les consonnes sonores, produisent davantage de variantes de prononciation alignées en [bolj(]. Des variantes de prononciation ont ainsi été introduites de façon systématique, pour l’antériorisation ou la fermeture du /(/, le (dé)voisement des occlusives et des fricatives, l’articulation du /R/, la réalisation ou l’élision du schwa et la dénasalisation des voyelles nasales. La même méthodologie que dans le chapitre 2 a été suivie, avec des dictionnaires de prononciation mis à jour séparément : pour chaque variable, nous avons calculé le taux de segments alignés avec des symboles non-standards divisé par le nombre total de segments. Cette approche a récemment été appliquée (avec des modèles acoustiques monophones indépendants du contexte) par Aubanel et Nguyen [2011] pour comparer le français standard et le français méridional sur la base de courtes interactions entre locuteurs (une douzaine pour chaque variété).

Antériorisation/fermeture du /(/
Les sections 2.4, 2.5 et 3.4.2 ont mis en évidence une tendance à l’antériorisation du /(/ en français standard et, dans une certaine mesure, au rapprochement /(/~/o/ en français méridional. L’analyse, appliquée cinq variétés de français, est ici étendue en introduisant les variantes [(]~[œ]~[o] dans le dictionnaire de prononciation utilisé dans l’alignement automatique (cf. § 2.5.1). Les taux de variantes résultant de l’alignement du corpus PFC sont rapportés dans le tableau 3.10.

#occ  %[(]  %[œ]  %[o] LectureSstandard1339552124Sud135535561Alsace319281062Belgique986511930Suisse32373207SpontanéStandard4756403426Sud3698391349Alsace749382141Belgique2617363331Suisse1326553114Tableau 3.10 : nombre d’occurrences de /(/ et pourcentages de variantes alignées comme [(], [œ] ou [o] dans le corpus PFC.

La réalisation [(] s’avère être la variante le plus souvent alignée en français standard, en Belgique et en Suisse. Elle est légèrement plus fréquente en lecture qu’en parole spontanée, ce qui peut s’expliquer par une prononciation plus soignée — plutôt « hyper-articulée » [Lindblom, 1990]. Au contraire, les taux de [œ] sont plus élevés en parole spontanée. Ils sont le plus élevés chez les locuteurs du français standard, en accord avec le tableau 2.4 et avec les mesures de formants.
La réalisation [o] est quant à elle la variante le plus souvent alignée dans le sud de la France et en Alsace, ce qui est cohérent avec une certaine tendance à neutraliser l’opposition /(/~/o/ dans ces régions [Walter, 1982]. Les locuteurs méridionaux et alsaciens affichent également les taux de [œ] les plus bas dans nos données. Aubanel et Nguyen [2011] ont trouvé la même différence en la matière, entre français standard et méridional, avec 33 % vs 15 % d’antériorisation.
Les mêmes variantes ont été utilisées pour aligner le corpus CTS. Les résultats vont dans le même sens, mais les pourcentages sont très proches enter français standard d’un côté (9 % de [œ]), Sud et Alsace de l’autre (7 % de [œ]). Les pourcentages d’alignements en [o], eux, vont de 14 % (français standard) à 22 % (Sud). Les différences entre variétés de français apparaissaient plus clairement dans le corpus PFC et dans les triangles vocaliques de la figure 3.5. Les résultats de l’alignement à base de variantes de prononciation ne renforcent donc que peu mais confirment les tendances observées avec l’approche à base de formants.

(Dé)voisement des occlusives et des fricatives
Les consonnes ont été étudiées à travers des taux de voisement dans la section précédente (cf. § 3.4.3). Nous avons ici ajouté des variantes de prononciation, avec la contrepartie sourde/sonore de chaque occlusive ou fricative dans le dictionnaire de prononciation, comme exemplifié ci-dessus pour le mot Beaulieu. Un nouveau dictionnaire de prononciation a été généré et un nouvel alignement forcé a été réalisé.
Les pourcentages de consonnes sonores alignées comme sourdes et inversement sont donnés dans le tableau 3.11 pour le corpus PFC. Comme c’était le cas pour le /(/, les pourcentages de réalisations non-canoniques sont plus élevés en parole spontanée qu’en lecture. La réalisation des consonnes sourdes (notamment des occlusives) ne dégage pas de différences notables entre variétés de français. En revanche, des différences importantes apparaissent concernant les consonnes sonores (notamment les occlusives) qui sont alignées comme sourdes dans 40–46 % des cas chez les Alsaciens. Ces derniers pourcentages sont cohérents avec les résultats obtenus par Vieru et al. [2010], appliquant une approche similaire à des locuteurs natifs et non-natifs de français (cf. § 5.4.2.1). Par exemple, 30–59 % d’occlusives sonores ont été alignées comme sourdes chez des Allemands parlant français, contre 6–20 % chez des Français natifs (de la région parisienne, différents de ceux que nous analysons ici). Les pourcentages auxquels nous aboutissons dans l’étude rapportée ici tombent dans cette fourchette : ce comportement similaire entre Alsaciens et Allemands (également connus pour dévoiser les occlusives sonores) est intéressant à noter.
Le corpus CTS a été aligné et analysé de la même façon. Les mesures révèlent des différences entre variétés cohérentes mais plus petites, sans doute en raison du fait que ce corpus est moins contrôlé que le corpus PFC quant à l’origine des locuteurs. Chez les Alsaciens, les pourcentages de consonnes sonores alignées en leur contrepartie sourde sont de 14 % pour les occlusives (contre 9 % chez les locuteurs du français standard et du Sud), 12 % pour les fricatives (contre 10 % chez les locuteurs du français standard et du Sud). Cependant, la différence mesurée pour les occlusives est plus marquée que celle qui était fondée sur les taux de voisement. L’approche fondée sur les variantes de prononciation peut mieux rendre compte du dévoisement bien connu des occlusives sonores chez les Alsaciens.


#consonnes sourdes%sourdes(sonores#consonnes sonores%sonores(sourdesocclusivesfricativesocclusivessonoresLectureStandard109259144890810Sud1102479490879Alsace24304810904023Belgique109124950351312Suisse2732351197812SpontanéStandard377571418157661412Sud275971616120081211Alsace4474102017734624Belgique304101119123012115Suisse1016681245701213Tableau 3.11 : nombres de consonnes occlusives et fricatives sourdes/sonores et pourcentages d’occurrences alignées avec leur contrepartie sonore/sourde dans le corpus PFC.

Articulation du /(/
Le /(/ est très fréquent et saillant perceptivement en français, mais il est difficile à caractériser d’un point de vue phonétique (cf. § 3.4.3). Il peut être dorsal ([(], plus ou moins voisé), parfois apical ([(], en particulier chez les locuteurs âgés du sud de la France, d’Alsace et de Belgique) ou tendre dans ces régions vers un [x] comparable au Ach-Laut allemand ou à la jota espagnole. Les taux de voisement pour ce phonème ont été présentés en 3.4.3. Pour étudier les variantes de prononciation du /(/ comme cela a été fait en 3.5.2, des xénophones et les modèles acoustiques correspondants ont été utilisés. Contrairement aux occlusives et aux fricatives qui permettent des alternances sourdes/sonores dans le système français, le /(/ n’a pas de prononciations alternatives dans l’inventaire des phonèmes du français (et dans nos modèles acoustiques). Pour y remédier, les xénophones [(] et [x] ont été introduits, à partir du système espagnol [Lamel et al., 2007]. Les taux de variantes de prononciation donnés par l’alignement automatique sont consignés dans le tableau 3.12 pour le corpus PFC.
Quelle que soit la variété de français considérée, la variante alignée dans la majorité des cas correspond à la prononciation canonique [(], dans des proportions plus élevées en lecture qu’en parole spontanée, comme observé pour d’autres phonèmes. Dans les deux styles de parole, le pourcentage de [(] est le plus élevé chez les Suisses. Les Alsaciens et les Méridionaux montrent les pourcentages les plus bas de [(] et les plus hauts de [(]. Les Belges montrent les pourcentages de [x] les plus élevés.
Neuf locuteurs qui « roulent les ‘r’ » (c’est-à-dire qui produisent des ‘r’ de type [(] : sept dans le sud de la France, un en Alsace, un en Belgique, tous assez âgés) ont été identifiés perceptivement dans le corpus PFC. Les résultats obtenus pour ces locuteurs ont été examinés en détail. Pour tous, la variante le plus souvent alignée était [(] (dans des proportions allant de 40 % à 77 %), tandis que pour les autres locuteurs du corpus PFC cette variante était au plus alignée dans 30 % des cas. Ce résultat est intéressant : les analyses acoustiques précédentes ne pouvaient pas facilement rendre compte de ce phénomène.

#occ  %[(]  %[(]  %[x] LectureSstandard569380118Sud4782761410Alsace1170751212Belgique3460781013Suisse125083611SpontanéStandard16790761311Sud9808711713Alsace1380632019Belgique3242651421Suisse456678913Tableau 3.12 : nombre d’occurrences de /(/ et pourcentages de variantes alignées comme [], [(] ou [x] dans le corpus PFC.

Dans le corpus CTS, les réalisations [(] et [x] étaient audibles. Cependant, pour des raisons techniques liées aux xénophones et à la parole téléphonique, nous n’avons pas fait le même alignement, dont les résultats étaient surtout intéressants pour la Belgique — non couverte par le corpus CTS.

Réalisation/élision du schwa
Le comportement du schwa en français est bien décrit dans la littérature (cf. § 2.5.3), et nous l’avons regardé à travers les lunettes de l’alignement automatique. Dans le dictionnaire de prononciation standard, les schwas sont laissés optionnels dans nombre de contextes, notamment en position finale de mot. De plus, pour l’étude rapportée ici, nous les avons rendus optionnels dans les contextes où ils sont d’ordinaire élidés en français standard. Par exemple, dans un mot tel que samedi, les variants suivantes ont été autorisées : [samdi, sam(di] (cf. § 9.2.1). Les résultats de l’alignement sont rapportés dans le tableau 3.13 pour le corpus PFC.

#occ%élisionLectureStandard676152Sud621441Alsace156053Belgique484453Suisse163556SpontanéStandard2009873Sud1575753Alsace324169Belgique1224775Suisse564476Tableau 3.13 : nombre de schwas potentiels et taux d’élision dans le corpus PFC.
Dans ce corpus, environ la moitié des schwas sont élidés en lecture et trois quarts en parole spontanée dans toutes les variétés de français sauf celle du Sud. Les locuteurs méridionaux élident moins de schwas dans les deux styles de parole. Ils réalisent la plupart des schwas en lecture : le taux d’élision est seulement de 41 %.
On observe des tendances similaires dans le corpus CTS (avec des milliers d’occurrences de schwas dans chacune des trois grandes régions considérées). Alors que les locuteurs du français standard et les Alsaciens élident 60 % des schwas, le taux d’élision est seulement de 47 % chez les Méridionaux. Ce dernier pourcentage tombe dans la fourchette des taux trouvés en lecture et en parole spontanée, dans le corpus PFC. Dans tous les cas, la réalisation du schwa distingue les locuteurs du sud de la France.

Dénasalisation des voyelles nasales
La prononciation particulière des voyelles nasales dans le sud de la France a été abordée au chapitre 2 (cf. § 2.5.4). Nous avons souligné alors l’absence de modèles acoustiques pour le /(/, consonne nasale qui peut s’entendre dans le Midi à la fin de mots tels que pain. Dans une expérience préliminaire, nous avons tenté d’introduire des xénophones pour ce /(/. Mais que ce soit en utilisant des modèles acoustiques anglais ou allemands, cela n’a pas permis de discriminer les variétés du Nord et du Sud. Les mêmes variantes qu’en 2.5.4 ont donc été prises en compte. Les résultats pour les cinq variétés de français considérées dans le corpus PFC sont rapportés dans le tableau 3.14.
Les appendices consonantiques nasaux sont de loin plus nombreux dans le Sud que dans les autres régions. Quand un appendice nasal est aligné, c’est une voyelle orale qui précède dans la plupart des cas. Et on observe légèrement plus d’appendices nasaux en parole spontanée qu’en lecture, hormis chez les locuteurs méridionaux, qui montrent un comportement similaire dans les deux styles de parole,

#occ  %VN   %VN + CN  %VO + CN LectureSstandard95469263Sud8896551233Alsace20729045Belgique65009334Suisse21269433SpontanéStandard4415685944156Sud29582561129582Alsace55028945502Belgique2150488521504Suisse99108879910Tableau 3.14 : nombre d’occurrences de voyelles nasales et pourcentages d’occurrences alignées comme voyelle nasale (VN), voyelle nasale + appendice consonantique nasal (VN + CN) ou voyelle orale + appendice consonantique nasal dans le corpus PFC.

Les résultats de l’alignement du corpus CTS confirment la tendance observée dans le corpus PFC. Davantage d’appendices nasaux sont alignés chez les locuteurs méridionaux (29 %) que chez les locuteurs du français standard et les Alsaciens (10 % pour chaque groupe). Même si la différence est moins marquée que dans le corpus PFC, ce trait de prononciation semble être un indice robuste pour identifier les Méridionaux. En comparaison, Aubanel et Nguyen [2011] ont trouvé 32 % d’appendices nasaux en français méridional et 13 % en français standard.

Discussion
Dans cette section, le dictionnaire de prononciation utilisé pour l’alignement automatique a été enrichi de variantes de prononciation (et éventuellement de xénophones). Par rapport aux mesures de F0 et de formants, cette approche complémentaire, simulant une approche catégorielle, a dans une large mesure fourni des résultats cohérents, à la fois en lecture et en parole spontanée. Les résultats convergents étayant l’antériorisation du /(/ en français standard (avec apparemment une différence plus accusée mise en évidence par les valeurs de F2) et le dévoisement des consonnes sonores en français d’Alsace (avec une différence plus accusée mise en évidence par les taux d’occlusives sonores alignées comme sourdes) peuvent être vus comme une validation de la méthodologie. L’approche à base de variantes de prononciation, également, a permis d’étendre l’étude entamée au chapitre précédent du maintien du schwa et de la dénasalisation des voyelles nasales en français méridional L’approche déployée dans la section 3.4 ne permettait pas facilement d’éclairer ces phénomènes ni les prononciations particulières du /(/ (de type [(] ou [x]) chez certains locuteurs.
Un trait linguistique donné peut être caractérisé de plusieurs manières. Et une variété de français donnée peut être identifiée à travers plusieurs traits pertinents, qui demandent à être hiérarchisés. Les paramètres les plus fiables sont-ils les fréquences des formants, les taux de viosement ou les taux de variantes de prononciation alignées ? Les plus discriminants sont-ils des indices segmentaux ou prosodiques ? Ces questions sont abordées dans la suite de ce chapitre.


Classification

Dans les sections précédentes, des différences phonétiques entre variétés régionales de français ont été mesurées. Une question que nous nous posons ici est : dans quelle mesure ces traits peuvent-il être utilisés dans une tâche d’identification automatique ? La méthode employée et les résultats d’expériences de classification en cinq ou trois variétés de français sont décrits dans cette section.

Traits utilisés pour la classification des locuteurs
Comme présenté ci-dessus, nombre de mesures reflétant divers traits de prononciation ont été calculés pour chaque locuteur. Les traits (features ou « attributs ») résultants sont plus ou moins fiables, plus ou moins pertinents pour identifier l’accent des locuteurs. Deux jeux d’attributs sont ici proposés : un ensemble restreint dans lequel seuls quelques (15) attributs sont conservés à la lumière des sections 3.4 et 3.5, et un ensemble plus étendu de 38 attributs. Les attributs marqués d’un astérisque (*) appartiennent uniquement à l’ensemble étendu ; les autres appartiennent aux deux ensembles. Ces attributs prennent en considération les formants des voyelles, le voisement des consonnes, des indices prosodiques et des variantes de prononciation (/bd(vz(/([ptkfs(], par exemple, dénotant les consonnes sonores alignées comme sourdes, en utilisant un dictionnaire de prononciation spécifique).
Formants des voyelles (20 attributs) : (*) la valeur moyenne des deux premiers formants pour les 10 voyelles de notre jeu de phonèmes. Seul le deuxième formant (F2) du /(/ est conservé dans l’ensemble restreint (cf. supra).
Voisement des consonnes (3 attributs) : .le taux de voisement (*) des consonnes sourdes /p t k f s (/, (*) des consonnes sonores /b d ( v z (/, (*) du /(/.
Indices prosodiques (7 attributs) : (*) durée moyenne des phonèmes, durée de l’attaque, pourcentages de (F0t et (intensi positifs pour les polysyllabes précédés d’un clitique, pourcentage de (duri positif pour les trisyllabes ou plus précédés d’un clitique, pourcentages de (durf et (dura positifs pour les trisyllabes ou plus précédant une pause.
Variantes de prononciation (8 attributs) : pourcentage de voyelles nasales alignées avec un appendice nasal, pourcentage de schwas élidés, taux d’alignements de variantes /(/([o], /(/([œ], /ptkfs(/([bd(vz(], /bd(vz(/([ptkfs(], /(/([(] et /(/([x].

Classifieurs
Afin d’identifier automatiquement l’accent des locuteurs, deux classifieurs ont été utilisés : les arbres de décision et les Séparateurs à Vaste Marge — Support Vector Machines (SVM). Pour les arbres de décision, nous avons comme en 2.4.2 utilisé la fonction rpart du logiciel R, qui implémente l’algorithme Classification And Regression Tree (CART) [Breiman et al., 1984]. Pour les SVM multi-classes [Hsu & Lin, 2002], nous avons utilisé la fonction svm de la librairie e1071 du logiciel R avec une fonction noyau (kernel) polynomiale. Les classifieurs n’ont pas été réglés de façon particulière : la plupart des options par défaut ont été conservées. Étant donnée la relativement faible quantité de données pour certaines régions comme la Suisse romande (seulement une douzaine de locuteurs dans le corpus PFC), une méthode de validation croisée leave-one-out a été appliquée pour les tests. Cette méthode consiste à faire l’apprentissage sur tous les locuteurs moins un et le test sur le locuteur mis de côté : cette procédure est répétée pour chaque locuteur et les résultats sont moyennés (cf. § 5.5.1).
Les deux classifieurs ont été entraînés (et testés par validation croisée) en prenant en considération différents jeux de données du corpus PFC. Ils ont également été testés sur les données du corpus CTS. Chaque locuteur était représenté par un vecteur (correspondant aux ensembles restreint ou étendu d’attributs) calculé sur différentes quantités de parole disponibles pour ce locuteur : 3 minutes de lecture et 13 minutes de parole spontanée en moyenne (ou 16 minutes au total) pour le corpus PFC et 7 minutes de parole spontanée pour le corpus CTS.

Résultats
Classification par validation croisée des locuteurs PFC en 5 variétés de français
Différents tests ont été menés en utilisant les ensembles restreint ou étendu de traits, et en considérant la lecture, la parole spontanée ou la totalité de la parole disponible pour chaque locuteur. Nous avons dans un premier temps classifié les locuteurs du corpus PFC en cinq variétés de français : français standard, sud de la France, Alsace, Belgique et Suisse. Les pourcentages de locuteurs correctement classifiés par les arbres de décision et les SVM sont donnés dans le tableau 3.15.

Ensemble d’attributslecture (H" 3 min)spontané
(H" 13 min)tout (H" 16 min)Arbres de décisionrestreint566059étendu697367SVMrestreint647478étendu707582Tableau 3.15 : pourcentage de locuteurs correctement classifiés en 5 variétés de français dans le corpus PFC. La durée moyenne du texte lu, de la parole spontanée et de toutes les données disponibles pour chaque locuteur est rappelée entre parenthèses.

Pour des configurations identiques, les SVM donnent de meilleurs résultats que les arbres de décision. On note également que les résultats sont meilleurs avec l’ensemble d’attributs étendu.
Avec les deux classifieurs, c’est en lecture que l’on observe les taux d’identification correcte les plus bas. De fait, la quantité de données disponibles pour ce style de parole est limitées à seulement 3 minutes de parole, et les attributs sont estimés sur moins d’occurrences. Les SVM affichent les meilleurs performances (jusqu’à 82 % d’identification correcte) quand les valeurs des attributs sont calculées sur la plus grande quantité de données. Avec les arbres de décision, les scores les plus élevés (jusqu’à 73 % d’identification correcte) s’observent en parole spontanée.
Les matrices de confusion obtenues avec les deux classifieurs sont présentées dans le tableau 3.16. Pour chaque variété de français, la classe majoritairement assignée par les SVM est la bonne, quel que soit l’ensemble d’attributs utilisé. Avec ce classifieur, l’accent des locuteurs est correctement identifié dans au moins 58 % des cas, et les locuteurs méridionaux sont remarquablement bien identifiés (dans 96–98 % des cas). Les arbres de décision identifient correctement les classes pour lesquelles une grande quantité de données d’apprentissage est disponible (français standard et méridional). Avec l’ensemble restreint d’attributs, nombre d’erreurs sont dues à l’assignation de la classe « standard » aux locuteurs alsaciens, belges et suisses. Avec l’ensemble étendu d’attributs, les locuteurs belges et suisses sont correctement identifiés dans 61 % et 75 % des cas respectivement, mais une majorité d’Alsaciens sont identifiés comme belges et aucun comme alsacien.
Les arbres de décision peuvent être représentés sous une forme graphique interprétable par l’humain. La figure 3.7 illustre la structure de l’arbre construit avec l’ensemble restreint d’attributs pour tout le corpus PFC. Que ce soit avec l’ensemble restreint ou l’ensemble étendu d’attributs, les locuteurs méridionaux se distinguent d’abord grâce au taux d’appendices nasaux (app. nas.) alignés. Le F2 du /(/ les sépare ensuite des locuteurs du français standard pour lesquels des taux élevés d’appendices nasaux sont également alignés.
Les traits utilisés pour caractériser les autres locuteurs diffèrent selon l’ensemble d’attributs pris en compte. Dans le cas de l’ensemble restreint, les Alsaciens, les Suisses et en partie les Belges se démarquent des autres par le dévoisement des consonnes sonores mesuré à travers les variantes de prononciation. Les Alsaciens sont ensuite isolés par un dévoisement encore plus marqué des consonnes sonores, et les Suisses par le corrélat mélodique de l’accent initial (montée de F0). Enfin, une partie des Belges est classifiée d’une manière relativement proche des locuteurs du français standard, en accord avec nombre de résultats obtenus lors des analyses acoustiques et des expériences perceptives. Les traits qui différencient ces locuteurs belges ne sont pas aussi pertinents que les précédents, d’un point de vue linguistique.

(a)
ArbresStandardSudAlsaceBelgiqueSuisserestreintStandard6990157Sud884080Alsace38015388Belgique42173336Suisse38002533étenduStandard8090110Sud1672066Alsace3300588Belgique17614613Suisse1500875 (b)
SVMStandardSudAlsaceBelgiqueSuisserestreintStandard7822136Sud296020Alsace8867170Belgique2288610Suisse2500867étenduStandard816760Sud298000Alsace8058258Belgique1186696Suisse2500075Tableau 3.16 : matrices de confusion obtenues sur toutes les données PFC classifiées en 5 variétés de français par (a) les arbres de décision et (b) les SVM avec les ensembles restreint et étendu d’attributs (%). Les variétés d’origine apparaissent en ligne et les sorties des classifieurs en colonne.

L’arbre construit avec l’ensemble étendu d’attributs utilise la réalisation du /(/ pour distinguer les variétés de l’est (Alsace, Belgique et Suisse). Si les Suisses sont encore identifiés par un corrélat acoustique de l’accent initial (montée de F0), les Alsaciens ne s’en distinguent pas suffisamment pour générer une feuille dans l’arbre. L’ensemble restreint d’attributs présente en ce sens un avantage par rapport à l’ensemble étendu.
















Figure 3.7 : arbre de décision construit à partir de tous les locuteurs du corpus PFC classifiés en 5 variétés de français avec l’ensemble restreint d’attributs. Les chiffres sous chaque feuille indiquent les nombres de locuteurs classifiés (dans l’ordre alphabétique) en Alsace/Belg./Standard/Sud/Suisse.

Il est intéressant de faire le parallèle entre les résultats de l’humain et ceux de la machine. Les scores en identification automatique sont plus élevés que ceux des tests perceptifs présentés en section 3.3, même si cette comparaison doit être considérée avec prudence car les conditions étaient différentes. Les expériences perceptives rapportées en 3.3.4 impliquait des échantillons de parole plus courts et un choix forcé entre sept possibilités. Les auditeurs avaient eu du mal à différentier les accents d’Alsace, de Belgique et de Suisse. En conséquence, il n’est pas absurde de regrouper ces trois variétés de français en une seule classe, que nous avons appelée « Est ». Dans la sous-section qui suit, nous avons cherché à classifier nos locuteurs en trois grandes variétés (français standard, Sud et Est), qui sont donc plus équilibrées en nombres de locuteurs.
Classification par validation croisée des locuteurs PFC en 3 variétés de français
Il n’était pas certain qu’il serait facile de trouver des indices permettant de distinguer les locuteurs de l’Est de ceux du Sud et du français standard, même si les locuteurs de l’Est tendaient à être regroupés dans la sous-section précédente. Les taux d’identification présentés dans le tableau 3.17 suggèrent que la tâche est quelque peu plus simple que la tâche de classification en cinq variétés de français. Ces taux (jusqu’à 85 % d’identification correcte) sont presque tous supérieurs à ceux que nous avons obtenus pour cinq variétés.

Ensemble d’attributslecture (H" 3 min)spontané
(H" 13 min)tout (H" 16 min)Arbres de décisionrestreint688071étendu698369SVMrestreint707977étendu738085Tableau 3.17 : pourcentage de locuteurs correctement classifiés en 3 grandes variétés (français standard, Sud et Est) dans le corpus PFC. La durée moyenne du texte lu, de la parole spontanée et de toutes les données disponibles pour chaque locuteur est rappelée entre parenthèses.

Comme précédemment, les taux calculés sur la lecture seule sont les plus bas, et l’ensemble étendu d’attributs donne globalement de meilleurs résultats que l’ensemble restreint. Dans l’ensemble, les SVM sont meilleurs que les arbres de décision, mais l’écart est plus réduit que dans la tâche de classification en cinq variétés. On note ici que les arbres de décision sont légèrement plus performants quand seule la parole spontanée est prise en compte.
Les matrices de confusion ont également été construites pour ces trois classes (cf. tableau 3.18). La sortie majoritaire à la fois des arbres de décision et des SVM est la bonne dans tous les cas. Les Méridionaux sont très bien identifiés (à 94–98 % avec les SVM). Sur les lignes qui leur correspondent, on note par ailleurs la présence de zéros. Ces résultats sont comparables avec les résultats en perception de la section 3.3.

(a) (b)
ArbresStandardSudEstSVMStandardSudEstrestreintStandard67924restreintStandard72226Sud8848Sud0946Est251065Est23868étenduStandard67924étenduStandard80417Sud20800Sud2980Est35362Est18378
Tableau 3.18 : matrices de confusion obtenues sur toutes les données PFC classifiées en 3 grandes variétés par (a) les arbres de décision et (b) les SVM avec les ensembles restreint et étendu d’attributs (%). Les variétés d’origine apparaissent en ligne et les sorties des classifieurs en colonne.
Les arbres de décision sont plus simples que ceux que donnait la tâche de classification en cinq variétés. Ils ne sont pas montrés ici, mais on pourra comparer avec l’arbre de la figure 3.8 pour comparaison. Les traits distinguant le Sud sont les mêmes que dans la figure 3.7 (ce qui se comprend bien puisque la classe est inchangée) : les appendices nasaux et le F2 du /(/. Dans l’arbre construit avec l’ensemble restreint d’attributs, interviennent ensuite les variantes de prononciation exprimant le dévoisement des consones sonores. L’arbre construit avec l’ensemble étendu d’attributs isole une partie des locuteurs grâce au taux de voisement des consonnes sourdes sous-jacentes. Il n’est pas sûr que ce taux reflète une particularité régionale, mais il permet une bonne séparation entre les locuteurs du français standard et ceux de l’Est. Dans les deux cas, les attributs liés à la prosodie ne sont pas utilisés : ils ne semblent pas assez homogènes entre les locuteurs alsacien, belge et suisse.
Classification des locuteurs CTS
Nous avons finalement cherché à classifier les locuteurs du corpus CTS au moyen de classifieurs entraînés sur le corpus PFC. Le corpus CTS comprend des enregistrements de français standard, du sud de la France et d’Alsace, mais aucunes données de Belgique ni de Suisse. Par conséquent, les classifieurs peuvent être entraînés sur les données PFC de différentes manières, en prenant en considération une grande variété « Est » (constituée de l’Alsace, de la Belgique et de la Suisse, pour disposer de plus de données) ou en ne gardant que l’Alsace — en plus du français standard et du Sud. Les deux configurations ont été testées : dans tous les cas, les classifieurs entraînés avec l’Alsace mais sans la Belgique et la Suisse donnent des résultats meilleurs d’au moins 20 %. Nous avons donc gardé cette dernière configuration.
Une autre question se pose : étant donné que le corpus CTS ne contient que des conversations spontanées, est-ce que les classifieurs doivent être entraînés seulement sur la parole spontanée ou bien sur plus de données ? Les résultats sont rapportés dans le tableau 3.19 pour les deux configurations. Les taux d’identification correcte obtenus ici sont moins élevés que ceux que nous avons mesurés par validation croisée sur le corpus PFC. Ils dépassent à peine les 70 % pour une tâche de classification en trois variétés, ce qui peut s’expliquer par des changements dans les conditions d’enregistrement (parole téléphonique et non plus face à face) ainsi que par un contrôle moindre de l’origine des locuteurs dans le corpus CTS. Les résultats ne se comportent pas de la même manière selon les données utilisées pour l’apprentissage et le type de classifieur. Les arbres de décision donnent de meilleurs résultats (que les SVM également, de façon intéressante) quand ils sont entraînés uniquement sur la parole spontanée, alors que les SVM sont plus efficaces quand ils sont entraînés sur davantage de données.

Ensemble d attributsspontané
(H" 13 min)tout (H" 16 min)Arbres de décisionrestreint6461étendu6461SVMrestreint5470étendu5471Tableau 3.19 : pourcentage de locuteurs correctement classifiés en 3 variétés (français standard, Sud et Alsace) dans le corpus CTS. La durée moyenne des données d’apprentissage utilisées pour chaque locuteur (données PFC) est rappelée entre parenthèses.

Les matrices de confusion (cf. tableau 3.20) révèlent que les locuteurs du français sont correctement identifiés dans la majorité des cas, mais leur classe semble attirer les autres locuteurs : de nombreux locuteurs du Sud et d’Alsace ont été classés comme locuteurs du français standard, quels que soient l’ensemble d’attributs et le classifieur utilisés. Une identification correcte des locuteurs méridionaux n’est obtenue que par les SVM avec l’ensemble restreint d’attributs. Les confusions observées peuvent s’expliquer par un degré d’accent moindre chez les locuteurs du corpus CTS que chez les locuteurs du corpus PFC (qui avaient vécu en un même lieu la plupart du temps).

(a) (b)
ArbresStandardSudAlsaceSVMStandardSudAlsacerestreintStandard85015restreintStandard9145Sud473420Sud405120Alsace62336Alsace671518étenduStandard85015étenduStandard9721Sud473420Sud51464Alsace62336Alsace791010
Tableau 3.20 : matrices de confusion obtenues sur les données CTS classifiées en 3 variétés par (a) les arbres de décision et (b) les SVM avec les ensembles restreint et étendu d’attributs (%). Les variétés d’origine apparaissent en ligne. 
Quelle que soit la configuration, les arbres de décision sont identiques (cf. figure 3.8). Leur structure est assez simple et reste cohérente avec celle des arbres construits précédemment. Les locuteurs méridionaux se séparent des autres grâce aux appendices nasaux et au F2 du /(/ ; les Alsaciens sont isolés grâce au dévoisement des consonnes sonores, puis grâce à un faible taux de consonnes sourdes alignées comme sonores.






















Figure 3.8 : arbre de décision construit à partir des locuteurs du français standard, du Sud et d’Alsace du corpus PFC pour classer les locuteurs du corpus CTS. Les chiffres sous chaque feuille indiquent les nombres de locuteurs classifiés en Alsace/Standard/Sud.

Discussion
Dans cette section, deux classifieurs (les arbres de décision et les SVM) ont été utilisés pour identifier des variétés de français : chacun a ses avantages (interprétabilité pour les arbres de décision, meilleurs résultats globalement pour les SVM). À l’aide de la validation croisée, des taux d’identification correcte atteignant 82 % et 85 % ont été obtenus pour classifier les locuteurs du corpus PFC en cinq et trois variétés respectivement. Entraînés sur ce corpus pour classifier les locuteurs du corpus CTS en trois variétés (français standard, sud de la France et Alsace), les classifieurs ont permis d’obtenir jusqu’à 71 % d’identification correcte.
Plusieurs améliorations pourraient être apportées (réglage des paramètres des classifieurs, sélection automatique des attributs) pour augmenter les performances tout en évitant le surapprentissage (cf. § 5.5.1). Avec davantage de données (même si la quantité manipulée ici n’est pas négligeable), nous pourrions équilibrer le nombre de locuteurs par classe et leur degré d’accent. Une classification de données non-vues du même type que les données d’apprentissage pourrait également compléter la validation croisée.
Ce travail mettant à l’épreuve des connaissances linguistiques requiert des empans de parole relativement longs (de quelques minutes) pour estimer les paramètres. À l’avenir, il méritera d’être comparé à une approche fondée sur des traits bruts tels que les coefficients cepstraux. Ceci vaudra également pour le chapitre 5, consacré aux accents étrangers en français.


Conclusion

Dans ce chapitre, nous avons décrit une étude combinant la perception, des analyses acoustiques et une modélisation par classification automatique. Un des buts de cette étude était de différencier automatiquement des variétés régionales de français (le français standard et des variétés de français parlées dans le sud de la France, en Alsace, en Belgique et en Suisse) en appliquant une approche motivée linguistiquement. Nous avons commencé par des expériences d’identification perceptive impliquant des locuteurs dont le degré d’accent était jugé de modéré à plutôt fort. Nous avons montré que les confusions sont fréquentes au sein du français standard, du Sud et de la Belgique, et que les Méridionaux sont les plus distincts des autres locuteurs. Cela était une des raisons pour lesquelles, plutôt que de tenter une classification automatique à grain plus fin, nous avons analysé cinq variétés de français (celles du Sud, d’Alsace, de Belgique et de Suisse en plus du français qualifié de « standard ») dans un corpus de parole face à face (PFC) et trois variétés de français (Sud, Alsace et français « standard ») dans un corpus de parole téléphonique (CTS). Ces corpus représentaient des centaines de locuteurs, avec environ dix minutes de parole par locuteur.
Nous avons tiré parti de l’alignement automatique en phonèmes pour mesurer des indices qui pourraient contribuer à distinguer les variétés de français étudiées. Deux approches complémentaires ont été employées. Tout d’abord, les voyelles des formants, les taux de voisement des consonnes et des indices prosodiques ont été mesurés en reposant sur les frontières des phonèmes fournies par un système d’alignement standard. Ensuite, le dictionnaire de prononciation utilisé pour l’alignement automatique a été enrichi de variantes non-standard, et des taux de variantes de prononciation alignées ont été calculés pour rendre compte de phénomènes tels que la dénasalisation des voyelles nasales (avec production d’un appendice consonantique nasal). De fait, ce dernier phénomène est caractéristique des locuteurs méridionaux, tandis que l’antériorisation du /(/ est caractéristique des locuteurs du français standard, le dévoisement des consonnes sonores est caractéristique des locuteurs alsaciens et une tendance à l’accentuation initiale (en particulier marquée par une montée de la mélodie) est caractéristique des locuteurs suisses. Une tendance à l’allongement pénultième est également censée caractériser les locuteurs belges, mais nos mesures ne l’ont que partiellement corroborée.
Ces traits ont ensuite été utilisés pour identifier les variétés de français étudiées, en appliquant des techniques de classification (SVM et arbres de décision). Des scores de plus de 80 % d’identification correcte ont été obtenus par validation croisée sur le corpus PFC (lecture et parole spontanée). Des scores d’environ 70 % ont été obtenus en utilisant le corpus PFC pour l’apprentissage et le corpus CTS pour les tests. Les confusions entre variétés de français et les traits utilisés (par les arbres de décision) sont conformes aux descriptions linguistiques antérieures et aux résultats de nos expériences perceptives. Les traits les plus discriminants sont le deuxième formand de /(/, le pourcentage d’appendices nasaux alignés après des voyelles nasales éventuellement dénasalisées, le pourcentage de consonnes sonores alignées comme sourdes et un corrélat mélodique de l’accent initial. Ces résultats, qui font sens au regard d’interprétations linguistiques, sont une nouvelle validation de la méthodologie proposée. Ils nous encouragent à examiner d’autres traits et d’autres accents, comme nous allons le faire dans les chapitres suivants.
Nous avons pu commettre des abus de langage en parlant par exemple des Suisses, quand seulement une douzaine de locuteurs du canton de Vaud était représentée. Nous sommes conscient de ce problème, qui est inhérent à toute étude sur la variation. Toutefois, dans cette étude, nous avons globalement traité un volume substantiel de données, ce qui n’a été rendu possible que par le traitement automatique de la parole. Certes davantage de données sont nécessaires. D’autre part, la dimension sociale a été quelque peu délaissée dans le corpus PFC (cf. § 2.6) et plus encore dans le corpus CTS. Elle sera prise en compte dans le prochain chapitre, sur les accents africains en français. Et nous reviendrons dans le chapitre 9 sur les différences stylistiques observées entre lecture et parole spontanée.
Les expériences de classification automatique que nous avons menées s’appuyaient sur des échantillons de parole de quelques minutes. Il serait pertinent d’appliquer les protocoles d’évaluation en vigueur en identification automatique des langues, qui reposent sur des portions plus courtes de parole (30 secondes–1 minute). La tâche serait assurément plus difficile. Par ailleurs, il serait intéressant de poursuivre le parallèle avec la perception, pour rattacher les scores d’identification avec le degré d’accent des locuteurs et pour interroger les similitudes entre approches linguistiques et automatiques. De nouvelles expériences pourraient se concentrer sur les caractéristiques propres à certains accents que nous avons mises en évidence ci-dessus. La synthèse de la parole pourrait être utilisée, comme cela sera envisagé dans la deuxième partie de ce document. Un travail supplémentaire est nécessaire pour étudier dans quelle mesure l’humain et la machine s’appuient sur les mêmes traits. La fréquence des traits spécifiques à tel ou tel accent devrait également être prise en compte. En retour, cette étude pourrait trouver des applications directes en reconnaissance automatique de la parole, pour fournir des transcriptions enrichies d’informations telles que le degré d’accent et l’origine des locuteurs [Galliano et al., 2006]. Elle pourrait enfin porter ses fruits dans la perspective à long terme de diminuer les taux d’erreur en adaptant le dictionnaire de prononciation du système.



4
4. Accents ouest-africains en français
Introduction

En Afrique comme en France, on peut entendre parler un « français africain » qui diffère en partie du français standard. Une forme commune d’« accent africain » émerge-t-elle, quand bien même les locuteurs auraient des langues premières et des environnements linguistiques distincts ? Quelles sont les différences phonétiques entre variétés de français parlées en Afrique et comment sont-elles exploitées en perception? Ces questions ont été au cœur d’études à base de tests perceptifs centrés sur le Burkina Faso [Prignitz, 1994], le Sénégal [Moreau, 2000] et le Mali [Lyche & Skattum, 2010]. Le travail rapporté dans ce chapitre s’inscrit dans la même lignée, impliquant ces pays et d’autres de l’Afrique de l’Ouest. Il se propose de même de mettre à l’épreuve certains discours épilinguistiques, lesquels peuvent être abordés sous trois angles.
Sous l’angle de la dialectologie perceptive qui s’est développée dans le sillage de Preston [1989], on cherche en l’absence d’input linguistique à cerner les représentations collectives et le savoir métalinguistique partagés par une communauté, en lien notamment avec la délimitation de variétés de langue dans notre cartographie mentale [Canut, 1996, 1997 ; Scherfer, 2000 ; Kuiper, 2005]. Sous un autre angle socioculturel, on peut également étudier les attitudes évaluatives ou affectives face à des variétés de langues, exprimées en réaction à des stimuli linguistiques [Lambert, 1972 ; Lafontaine, 1986]. Sous un angle plus cognitif enfin, on peut étudier l’aptitude à discerner différentes variétés de langues à partir d’un input phonétique [Clopper & Bradlow, 2009]. En français, la perception comme compétence à appréhender la réalité linguistique avec une certaine justesse a été beaucoup moins évaluée (cf. §§ 1.3, 2.1, 3.2). C’est cette faculté cognitive, dépendant également des habitudes du groupe, des croyances et stéréotypes sur la langue et ses variétés, que ce chapitre vise d’abord à approcher, par des tests perceptifs d’identification d’accents. Savoir identifier des accents et savoir associer à chacun une constellation de traits linguistiques sont deux choses différentes. Ce dernier aspect est également abordé ici ; en revanche, dans l’approche expérimentale qui est développée, nous n’avons pas demandé d’émettre des jugements de valeur : les attitudes linguistiques n’auront donc pas ou que peu de place dans ce qui suit.
Afin de mettre en évidence les similitudes et les différences entre variétés de français ouest-africains, une expérience perceptive a été menée sur des échantillons de parole enregistrés au Burkina Faso, en Côte d’Ivoire, au Mali et au Sénégal dans le cadre du projet PFC. Ces points d’enquête représentent au total une cinquantaine d’heures de parole (lue et spontanée), provenant de 52 locuteurs de différents groupes ethniques. Pour l’expérience perceptive rapportée ici, les locuteurs appréciés, parlant français, étaient Akan (de langues baoulé, ébrié, alladian), Bambara, Sénoufo, Mossi (de langue mooré) ou Wolof. Des auditeurs originaires d’Afrique de l’Ouest sont-ils à même d’identifier ces différents accents ? Si pour une oreille non-familière, retenant uniquement quelques invariants, on peut compter une seule étiquette « français d’Afrique subsaharienne », combien d’accents est-on en mesure de discerner quand on y est suffisamment exposé ? Telles sont quelques questions que nous nous proposons d’aborder dans ce chapitre.
Il est intéressant de mettre en relation les connaissances/représentations linguistiques des sujets, qui s’élaborent socialement, avec leurs performances perceptives individuelles. Plusieurs opérations de catégorisation s’entrecroisent : ainsi, la variation du français selon le niveau d’études, souvent mise en avant dans les descriptions du français en Afrique [Prignitz, 1994 ; Knutsen, 2007 ; Lyche & Skattum, 2010], est ici mise à l’épreuve (les locuteurs pouvant être de niveaux d’études assez variés). La catégorie sociale est-elle plus perceptible que l’appartenance à une ethnie ou à un pays ? Nous tenterons de le quantifier à travers différentes tâches. De même est appréciée l’émergence d’accents nationaux, au-delà des accents régionaux ou ethniques.
Après une présentation très générale du contexte ouest-africain et du corpus (section 4.2), la section 4.3 décrit l’expérience perceptive menée : son protocole, le matériel utilisé, les locuteurs, les auditeurs et les résultats, que nous discuterons en ouvrant quelques pistes relatives aux indices acoustiques sur lesquels ont pu s’appuyer les sujets. Une étude préliminaire des stimuli de l’expérience perceptive (annotés manuellement) est présentée en section 4.4. En section 4.5, un sous-ensemble plus important du corpus est analysé acoustiquement, en utilisant l’alignement automatique en phonèmes. Enfin, la section 4.6 résume les traits discriminants qui ont été trouvés.


Contexte et corpus

Contexte : statu du français et langues africaines en présence
La plupart des pays africains sont plurilingues, notamment ceux dits francophones, où le français, langue exogène, est langue officielle, langue de l’administration et langue d’enseignement. La plupart des locuteurs ouest-africains francophones n’ont qu’une pratique non-native et non-usuelle du français, qui passe par l’école, alors que le taux d’alphabétisation peut être très faible [Lyche & Skattum, 2010]. On estime en revanche qu’un quart au moins des Ivoiriens ont acquis le français dans la petite enfance ou en dehors de l’école [Boutin & Turcsan, 2009] : phénomène atypique, cette « nativisation » du français en l’absence d’une langue africaine majoritaire et consensuelle en vient à constituer un trait identitaire de la Côte d’Ivoire. La situation d’un français parlé comme langue première ne se retrouve dans les pays limitrophes que dans des groupes minoritaires. Par la prononciation, les formes de français vernaculaire ivoirien présentent un certain nombre de différences par rapport au français de France, qui peut être perçu comme « maniéré » : les écarts entre formes exogènes et locales de français tendent à devenir des marqueurs de l’appartenance à la communauté ivoirienne [Ploog, 2002 ; Boutin & Turcsan, 2009, inter alia]. Le Sénégal, avec le rôle essentiel joué par la langue wolof, qui symbolise l’appartenance à la culture sénégalaise, représente le cas opposé [Boutin & Gueye, à paraître]. Malgré ses trois siècles de présence, le français n’est ni véhiculaire ni vernaculaire : il reste pour les locuteurs une langue étrangère, dans laquelle l’enseignement est pourtant dispensé et le discours officiel délivré.
Parmi les langues africaines parlées en Afrique de l’Ouest, les langues akan, le bambara, le mooré et le wolof (toutes de la branche Niger-Congo) constituent des langues majeures de la sous-région. Le terme akan — moins englobant mais plus courant que celui de kwa [Tymian et al., 2003] — désigne un groupe de peuples au Ghana ainsi qu’au sud-est et au centre de la Côte d’Ivoire. Les langues ivoiriennes du groupe kwa sont, entre autres, l’agni, le baoulé, l’alladian, l’ébrié. Le bambara (du groupe mandé), principalement parlé au Mali, est la langue la plus couramment comprise de ce pays : il est la langue vernaculaire de 40 % de la population et langue véhiculaire pour encore 40 % de la population. Le bambara est parlé aussi au Burkina Faso et en Côte d’Ivoire (éventuellement sous sa forme véhiculaire de dioula). Le mooré (du groupe gur) est la langue des Mossi, ethnie majoritaire et historiquement dominante au Burkina Faso. Il est comme le jula (dioula) langue véhiculaire dans ce pays. Le wolof (du groupe atlantique) est la principale langue parlée au Sénégal : langue des Wolof, il est en pleine expansion et est actuellement parlé par plus des trois quarts des Sénégalais [Cissé, 2005]. D’autres langues, comme celles des Sénoufo, parlées au nord de la Côte d’Ivoire, au sud-est du Mali et au sud-ouest du Burkina Faso, ne constituent pas des langues majeures. Alors que les langues sénoufo font partie du même groupe gur que le mooré, leurs locuteurs parlent en général également bambara (ou dioula), et se rapprochent culturellement davantage des Bambara que des Mossi. Les locuteurs des langues sénoufo présentent donc un autre intérêt.
Toutes ces langues ont des systèmes phonologiques très différents. Le wolof se distingue peut-être plus encore par l’absence de tons lexicaux, alors que les autres langues sont tonales : le wolof est une langue à accent fixe qui porte sur la première syllabe du mot. On peut dès lors se demander si le français parlé par les Wolof s’oppose aussi aux autres formes de français ouest-africain. Il y a là des hypothèses linguistiques intéressantes à tester, sur lesquelles peu d’études ont porté. Mais il s’agit avant tout de vérifier si des auditeurs ouest-africains sont capables de distinguer les différents accents.

Corpus
Comme mentionné en introduction, 52 locuteurs au total ont été enregistrés en Afrique de l’Ouest, selon le protocole PFC (11 au Burkina Faso, 13 en Côte d’Ivoire, 12 au Mali et 16 au Sénégal). Ils ont été enregistrés sur leur lieu de résidence ou dans un endroit calme, en milieu urbain, à Abidjan, Bamako, Ouagadougou et Dakar, capitales économiques propices aux échanges en français. Disons toutefois ici qu’une contrainte était imposée par le projet PFC, pour pouvoir appliquer un protocole labovien [Labov, 1976, 1994] : les locuteurs devaient savoir à la fois lire et converser librement en français.
Pour l’expérience perceptive relatée dans la section suivante, 20 locuteurs ont été utilisés. Le corpus expérimental est également étudié à travers quelques mesures acoustiques dans la section 4.5. Dans la section 4.6, les productions de ces locuteurs et d’autres locuteurs ouest-africains — natifs de langues akan, bambara, sénoufo, mooré, wolof ou d’autres langues comme le fulfulde (peul), le tamasheq, le songhay — ont été comparées à celles de locuteurs représentant un français plus standard : 11 locuteurs de Normandie (Brécey) et 10 locuteurs de région parisienne (Brunoy). Ces comparaisons ont été faites sur la base de la lecture du texte PFC.


Expérience perceptive

Cette section vise avant tout à examiner avec quel degré de granularité divers accents ouest-africains (en français) peuvent être distingués. Une expérience perceptive a été conduite pour déterminer comment des auditeurs ouest-africains évaluent et identifient les accents étudiés.

Tâches et protocole
Il était demandé aux sujets, après quelques renseignements à caractère autobiographique (âge, niveau d’études, etc.) d’indiquer quelle était leur familiarité avec les différents accents : les sujets devaient spécifier si oui/non ils se sentaient capables de reconnaître tel ou tel accent parmi les cinq proposés quand une personne parle français. Puis, lors d’une brève phase de familiarisation, ils écoutaient des échantillons de parole provenant de locuteurs (non utilisés par la suite) dont le pays était précisé : Burkina Faso, Côte d’Ivoire, Mali ou Sénégal. Le test proprement dit consistait ensuite à écouter 40 extraits sonores et, pour chacun, à accomplir deux types de tâches :
– évaluer le degré d’accent du locuteur ou de la locutrice sur une échelle continue graduée de 0 à 5 ;
– évaluer son niveau d’études sur une autre échelle continue graduée de 0 à 5 ;
– identifier son appartenance ethnolinguistique (akan, bambara, sénoufo, mooré ou wolof) ;
– identifier son pays de résidence (Burkina Faso, Côte d’Ivoire, Mali ou Sénégal).
L’étude, comme dans les chapitres 2 et 3, s’attachait à la conceptualisation de la variation sociolinguistique (relier un accent avec un groupe/type de locuteurs) mais ne laissait pas de place à l’évaluation sur des échelles de valeurs ni aux affects concernant les variétés de langue. Quant à notre choix de demander aux sujets une évaluation du niveau d’études, il était en partie la conséquence de la difficulté à faire identifier une catégorie socioprofessionnelle. La difficulté de ce genre de tâche en contexte occidental est accrue en contexte africain, les sociétés étant structurées de façon différente.
Une interface web similaire à celle qui a été utilisée dans l’expérience décrite au chapitre 3 permettait de lire les instructions, écouter les stimuli et saisir les réponses. Elle proposait deux curseurs à déplacer pour les tâches d’évaluation et deux choix forcés à effectuer en cliquant sur des boutons à cocher — parmi 5 appartenances ethnolinguistiques et 4 pays — pour les tâches d’identification. Les degrés d’accent étaient paraphrasés comme dans les chapitres précédents : (0) pas d’accent, (1) petit accent, (2) accent modéré, (3) accent plutôt fort, (4) fort accent, (5) très fort accent. Les niveaux d’études l’étaient de la façon suivante : (0–1) primaire, (1–2) collège, (2–3) lycée, (3–4) début d’enseignement supérieur, (4–5) au moins bac + 3.
Les stimuli étaient présentés dans un ordre aléatoire qui changeait pour chaque auditeur. Chaque extrait pouvait être écouté autant de fois que cela était jugé nécessaire. Une fois passé à un autre stimulus, il n’était cependant plus possible de revenir à des stimuli précédents.
À la fin du test, les sujets étaient invités à apporter librement des commentaires sur les indices les plus saillants qui avaient guidé leurs décisions. Ils devaient également préciser s’ils pensaient avoir répondu au hasard pour une identification particulière. Ces commentaires, demandés à la fin du test et non au fil de l’écoute des séquences sonores, pouvaient se rapporter à des identités erronées puisque les sujets n’avaient pas de retour sur leurs réponses.

Locuteurs et stimuli
Les stimuli retenus pour le test perceptif provenaient de 20 locuteurs (11 hommes, 9 femmes, âgés de 47 ans en moyenne), de milieux socioprofessionnels variés. Quatre locuteurs par groupe ethnolinguistique (akan, bambara, sénoufo, mooré et wolof) ont été sélectionnés. Leur répartition par pays, tranche d’âge et niveau d’études est donnée schématiquement dans la figure 4.1 (voir aussi la carte de géographie, figure 4.4). Dans notre corpus expérimental, tous les locuteurs wolof (au Nord-Ouest) étaient Sénégalais, tous les locuteurs akan étaient Ivoiriens (au Sud), tous les locuteurs du mooré étaient Burkinabè. Les locuteurs sénoufo étaient ressortissants de trois pays (Mali, Burkina Faso et Côte d’Ivoire) et les locuteurs bambara ressortissants de deux pays (Mali et Côte d’Ivoire). Parmi les Sénoufo, le locuteur burkinabè avait fait un long séjour en Côte d’Ivoire, et le locuteur ivoirien, dont le français était la langue première, avait toujours vécu à Abidjan. On avait en outre une locutrice ivoirienne bambara qui avait fait un long séjour au Mali dans son enfance.
Dans la figure 4.1 également, le niveau d’études est rapporté selon les 5 catégories distinguées ci-dessus : primaire (A), collège (B), lycée (C), début d’enseignement supérieur (D), au moins bac + 3 (E). De plus, les locuteurs sont divisés en deux groupes d’âge à partir de la moyenne de l’échantillon, considérant comme « jeunes » (noté j) les 10 locuteurs de moins de 47 ans (moyenne : 39 ans) et comme « vieux » (noté v) les 10 locuteurs de plus de 47 ans (moyenne : 57 ans). Ce seuil de 47 ans, que nous n’avions pas choisi, et la division « jeunes »/« vieux » qui s’ensuit, correspondent peu ou prou à deux situations sociolinguistiques se distinguant par une naissance avant les Indépendances pour les « vieux » et après pour les « jeunes ». Pour le premier groupe, « l’école ancienne » était le lieu d’un apprentissage uniformisant du français dont l’efficacité n’était pas remise en question [Boutin & Prignitz, 2010].








Figure 4.1 : répartition des locuteurs par groupes ethnolinguistiques (encadrés), par pays (Burkina Faso en hachuré /, Côte d’Ivoire en treillis foncé, Mali en hachuré \, Sénégal en treillis clair), tranche d’âge et niveau d’études.

Pour chaque locuteur, deux échantillons ont été sélectionnés : une phrase lue (de 30 mots) et un énoncé de parole spontanée d’une dizaine de secondes, comme dans les expériences rapportées dans les chapitres 2 et 3. La phrase lue (la même pour tous les locuteurs) était : « Beaulieu préfère être inconnue et tranquille plutôt que de se trouver au centre d’une bataille politique dont, par la télévision, seraient témoins des millions d’électeurs. » L’énoncé de parole spontanée était extrait de conversations libres ou d’entretiens guidés, d’après les critères suivants : cohérence du propos, absence de références culturelles, spatiales ou socio-économiques, de traits lexicaux ou syntaxiques qui pouvaient être typiques d’une origine particulière.

Auditeurs
Le test a été soumis à 20 auditeurs ouest-africains (7 hommes, 13 femmes, âgés de 35 ans en moyenne), sans problèmes d’audition connus. Les sujets n’étaient pas payés pour leur participation, qui était en moyenne de 30 minutes. À une ou deux exceptions près, ils avaient tous passé la plus grande partie de leur vie en Côte d’Ivoire, et avaient un niveau d’étude d’au moins bac + 3. La moitié d’entre eux résidait à Abidjan, l’autre moitié dans d’autres villes de Côte d’Ivoire ou en France. La moitié d’entre eux avait le français pour langue maternelle, l’autre moitié des langues africaines comme le gouro (du groupe mandé sud, centre-ouest de la Côte d’Ivoire) ou le baoulé (du groupe kwa). Deux d’entre eux, résidant en France, étaient de langue wolof. Cet ensemble d’auditeurs, presque uniquement composé d’Ivoiriens, présente un certain intérêt : par sa position géographique et économique, la Côte d’Ivoire se trouve être un lieu de contacts et de migrations privilégié dans la région. La familiarité avec différentes langues africaines et formes de français favorise la construction de connaissances partagées sur les langues et accents.
La majorité des sujets se disaient capables, avant le test, de reconnaître les accents en présence, à l’exception de l’accent sénoufo en français. Ils n’étaient que 7 sur 20 à penser pouvoir identifier l’accent sénoufo, contre 17 pour l’accent akan, 12 pour l’accent bambara, 15 pour l’accent mooré et 20 sur 20 pour l’accent wolof.

Résultats : tâches d’évaluation
Dans ce qui suit, nous allons étudier l’éventuel effet sur la perception des accents que peuvent avoir le niveau d’études, l’âge des locuteurs et le style de parole (lu ou spontané). Les résultats obtenus sont exprimés en termes de degré d’accent (entre 0 et 5), de niveau d’études perçu (entre 0 et 5) et de taux d’identification de ce niveau d’études par rapport aux 5 catégories (A, B, C, D, E) distinguées ci-dessus. Par exemple, pour un échantillon de parole provenant d’un locuteur de niveau B, on considère que ce niveau est bien identifié si le niveau d’études perçu est supérieur ou égal à 1 et inférieur à 2. En moyenne, les résultats sont très proches si on considère l’inégalité large pour la borne droite.
En moyenne, le degré d’accent des locuteurs (3,0/5) est jugé comme plutôt fort, et le niveau d’études perçu (2,7/5) correspond au bac. Estimée en termes d’identification correcte, le niveau d’études est bien reconnu à 33 %, ce qui est très significativement au-dessus du hasard d’après un test de (². Le tableau 4.1 montre l’évolution de ces chiffres en fonction du niveau d’études réel des locuteurs. On voit que le degré d’accent perçu est relativement stable (au-dessus de 3) hormis pour le groupe de locuteurs les plus diplômés (au moins bac + 3), qui ont 2,3 : on a donc globalement une diminution du degré d’accent perçu avec le niveau d’études. Le niveau d’études perçu, quant à lui, croît régulièrement, tandis que le taux d’identification de ce niveau d’études varie de 23 % à 48 %, sans tendance particulière. En termes de catégories (A, B, C, D ou E), le niveau d’études est majoritairement bien perçu, sauf le niveau B (collège) perçu comme C (lycée).
Des ANOVA révèlent que l’effet du Niveau d’études réel (A, B, C, D ou E) est significatif pour le degré d’accent [F(4, 795) = 22 ; p < 0,001] et le niveau d’études perçu [F(4, 795) = 71 ; p < 0,001]. Des tests de Student deux à deux (pairwise ttests), cependant, montrent que l’effet n’est significatif sur le degré d’accent qu’avec les locuteurs les plus diplômés (de niveau E), tandis qu’il est pratiquement toujours significatif sur le niveau d’études perçu : la seule exception est la différence entre 2,3 (collège) et 2,5 (lycée). Pour les 800 réponses des auditeurs (40 stimuli ( 20 sujets), une corrélation a par ailleurs été calculée entre le degré d’accent et le niveau d’études perçus. Cette corrélation est faiblement négative (-0,2), montrant par là que le lien n’est pas évident entre ces deux évaluations.

Niveau d’études
primaire
(A)collège
(B)lycée
(C)déb. ens. sup.
(D)( bac + 3
(E)moyenne
degré d’accent (/5)3,33,33,13,02,33,0niveau perçu (/5)1,72,32,53,13,52,7id. correcte niveau (%)302325483933Tableau 4.1 : degré d’accent, niveau d’études perçus et taux d’identification correcte de ce niveau par rapport au niveau d’études réel.

Les résultats des évaluations pour les « jeunes » et les « vieux » locuteurs, la lecture et la parole spontanée sont consignés dans le tableau 4.2. On observe que ces facteurs de l’âge et du style n’ont que très peu d’incidence sur les résultats. D’après des ANOVA, l’effet de l’Âge (jeune ou vieux) n’est jamais significatif ; le Style (lu ou spontané) a uniquement un effet significatif sur le niveau d’études perçu [F(1, 798) = 6,95 ; p < 0,01], l’interaction avec l’Âge restant marginale. La cohérence des résultats est intéressante à noter, car dans d’autres circonstances, en matière d’accents régionaux en français, le degré d’accent perçu a tendance à augmenter avec l’âge des locuteurs (cf. chapitre 2). De plus, le niveau d’études n’a pas la même valeur selon l’âge des locuteurs. Dans nos données, les niveaux d’études étaient équilibrés dans les deux tranches d’âges : la moitié des jeunes comme des vieux locuteurs avait le bac. Quant à la lecture par rapport à la parole spontanée, on peut penser que de possibles difficultés à lire (qui peuvent aussi avoir pour cause un problème de vue) sont interprétées comme reflétant un niveau d’études bas. De fait, un locuteur de niveau A (primaire) avait manifestement, selon nous, du mal à lire (hésitations, reprises, erreurs) ; en moyenne calculée sur les réponses des 20 auditeurs, son niveau d’études a été évalué à 0,5 (i.e. primaire) en lecture et à 1,5 (i.e. secondaire) en parole spontanée. Mais globalement, il semble que les particularités de la prononciation se retrouvent d’un style à l’autre.

jeunesvieuxlecturespontanédegré d’accent (/5)3,02,93,02,9niveau perçu (/5)2,82,72,82,6id. cor. niveau (%)32343333Tableau 4.2 : degré d’accent, niveau d’études perçus et taux d’identification correcte de ce niveau par rapport au niveau d’études réel selon l’âge des locuteurs et le style de parole.

La combinatoire est trop importante par rapport à nos données pour ventiler les résultats par groupe ethnolinguistique et par pays. Nous reviendrons ci-dessous sur le rôle du degré d’accent et du niveau d’études perçus en matière d’identification.

Résultats : tâches d’identification
Les résultats des tâches d’identification sont rapportés dans les tableaux 4.3 et 4.4 pour l’appartenance ethnolinguistique et le pays respectivement. Une visualisation en est également donnée dans les figures 4.2 et 4.3, comme nous allons le voir.
L’appartenance ethnolinguistique est correctement identifiée à 51 %, ce qui est très significativement mieux que le hasard (20 %) d’après un test de (.². Seul l’accent sénoufo est mal identifié : il a, davantage que l’étiquette correcte, reçu l’étiquette « bambara » et même l’étiquette « akan » — dans une proportion proche (26 %) de la confusion symétrique akan-sénoufo (22 %). L’accent bambara est lui-même correctement identifié dans plus de 50 % des cas, de même que l’accent des locuteurs akan. L’accent wolof est reconnu à 81 % et n’est ensuite confondu avec l’accent bambara que dans 7 % des cas. L’accent mooré en français n’est bien identifié qu’à une majorité relative (46 %), mais on note qu’il n’a jamais reçu l’étiquette wolof.

Réponse
Origineakanbambarasénoufomooréwolofakan61102261bambara65211247sénoufo264116161mooré142119460wolof2111681Tableau 4.3 : matrice de confusion concernant l’appartenance ethno-linguistique (%).

Des techniques d’analyse de données permettent de représenter cette matrice de confusion de façon synthétique, sous la forme d’un dendrogramme ou d’un plan à deux dimensions (cf. § 2.3.5). Le dendrogramme qui est représenté dans la figure 4.2 a été obtenu au moyen du logiciel R, par un algorithme de clustering. Il montre bien, comme le tableau 4.3, que l’accent wolof se détache des autres. Vient ensuite l’accent akan, les accents bambara et sénoufo étant regroupés au plus profond de l’arbre. En accord avec cette confusion bambara/sénoufo, 17 sujets sur 20 ont répondu positivement à la question « avez-vous le sentiment d’avoir répondu au hasard entre le bambara et le sénoufo ? » qui leur était posée à la fin du test.














Figure 4.2 : dendrogramme représentant l’identification de l’appartenance ethnolinguistique.

Une ANOVA a été menée sur les réponses comptées comme correctes (1) ou incorrectes (0) avec le facteur aléatoire Sujet et les deux facteurs intra-sujets Style (lu ou spontané) et Âge du locuteur (jeune ou vieux). Les facteurs Style et Âge n’ont pas d’effet significatif, même si les jeunes locuteurs sont légèrement mieux identifiés que les vieux (à 53 % contre 50 %) et que les extraits de lecture sont légèrement mieux identifiés que les extraits de parole spontanée (à 54 % contre 49 %). L’interaction entre Style et Âge est également marginale.
Si l’on regarde les résultats stimulus par stimulus, 25 sur 40 sont correctement identifiés en termes d’appartenance ethnolinguistique par au moins la moitié des auditeurs. Tous les échantillons issus de locuteurs sénoufo sont mal identifiés, tandis que tous les échantillons issus de locuteurs wolof, que ce soit en lecture ou en parole spontanée, ont reçu l’étiquette « wolof » de la part d’au moins 15 auditeurs sur 20. Ces chiffres reflètent assez bien les résultats affichés dans le tableau 4.3.
Le pays des locuteurs, parmi 4, a été correctement identifié à 63 %, ce qui est très significativement mieux que le hasard d’après un test de (². Pour chaque pays, la réponse majoritaire est la bonne (cf. tableau 4.4), même si la majorité n’est que relative pour le Burkina Faso. Pour ce dernier pays, dont les locuteurs sélectionnés étaient essentiellement de langue mooré, on retrouve des patrons de réponses similaires à ceux qui portaient sur l’appartenance ethnolinguistique — aucune confusion, notamment, avec le Sénégal dont tous les locuteurs retenus étaient wolophones.

Réponse
OrigineBurkina FasoCôte d’IvoireMaliSénégalBurkina Faso4136230Côte d’Ivoire975161Mali1919566Sénégal421083Tableau 4.4 : matrice de confusion concernant le pays des locuteurs (%).

Un algorithme d’échelonnement multidimensionnel (scaling) a été utilisé pour représenter graphiquement une sorte de distance perceptive entre les différents pays. Le résultat du scaling obtenu pour les pays, au moyen du logiciel R, est donné dans la figure 4.3 : dans ce plan à deux dimensions, l’axe des ordonnées représente la première dimension et l’axe des abscisses, orienté de façon à faire figurer le Sénégal à l’Ouest, représente la deuxième dimension. On voit immédiatement que le Sénégal est isolé, alors qu’un continuum perceptif semble aller de la Côte d’Ivoire au Mali en passant par le Burkina Faso.















Figure 4.3 : plan à deux dimensions représentant ’identification par pays.Figure 4.4 : carte de la sous région ouest-africaine.
De nouveau, une ANOVA a été conduite sur les réponses comptées comme correctes (1) ou incorrectes (0) avec le facteur aléatoire Sujet et les deux facteurs intra-sujets Style (lu ou spontané) et Âge du locuteur (jeune ou vieux). L’effet du Style n’est pas significatif, même si le pays est légèrement mieux identifié sur la lecture (à 64 %) que sur la parole spontanée (à 62 %). L’effet de l’Âge des locuteurs est ici significatif [F(1, 19) = 5,77 ; p < 0,05] : le pays est significativement mieux identifié pour les jeunes locuteurs (à 68 %) que pour les vieux locuteurs (à 59 %). L’interaction Style ( Âge n’est toujours pas significative. Sans tirer de conclusions hâtives sur un effet majeur de l’âge des locuteurs, ces résultats, sur lesquels nous reviendrons, sont intéressants dans la mesure où ce sont surtout les jeunes Ivoiriens qui sont bien identifiés (à 87 %). Le facteur intra-sujet Niveau d’études des locuteurs a de la même façon été analysé, restreint à « bac » ou « pas bac » par manque de données, pour des tests statistiques ; cependant, il n’a pas ici d’effet significatif — le pays étant légèrement mieux reconnu pour les locuteurs ayant le bac (à 66 % contre 60 %).
Si l’on examine les résultats stimulus par stimulus, 31 sur 40 sont correctement identifiés en termes de pays par au moins la moitié des auditeurs. Les échantillons qui ne sont pas bien identifiés viennent essentiellement du Burkina Faso, ce qui est en accord avec la matrice de confusion du tableau 4.4.
Afin d’évaluer le lien entre identifications de l’appartenance ethnolinguistique et du pays, les 800 réponses des auditeurs ont été comptées comme correctes (1) ou incorrectes (0), et une corrélation a été calculée entre les deux séries de chiffres résultants. Avec un coefficient de corrélation de 0,6, il y a bien un lien entre l’appartenance ethnolinguistique et le pays identifiés. Dans notre corpus, de fait, il y a une bijection wolof–Sénégal — et partant les wolophones ont été identifiés comme Sénégalais à 83 %. Dans plus de 99 % des cas, la réponse « wolof » (correcte ou non) était associée au Sénégal et la réponse « akan » à la Côte d’Ivoire ; dans plus de 90 % des cas la réponse « bambara » était associée au Mali, la réponse « mooré » au Burkina Faso, la réponse « sénoufo » à la Côte d’Ivoire.
Il peut être intéressant également de regarder trois cas particuliers de notre corpus : le locuteur burkinabè sénoufo (BS), le locuteur ivoirien sénoufo (IS) et la locutrice ivoirienne bambara (IB). BS a majoritairement été identifiée comme ivoirien bambara, IS comme ivoirien akan et IB comme malienne bambara. Des facteurs tels que la mobilité géographique et l’environnement linguistique peuvent expliquer, pour ces locuteurs, l'identification dont ils font l'objet (cf. supra). On ne peut donc pas conclure, de ce seul examen, sur ce qui prime entre appartenances nationale et ethnolinguistique.
Tirant profit des résultats des tâches d’évaluation et d’identification, nous avons calculé, à partir des 800 séries de réponses des auditeurs, les corrélations entre d’une part l’identification de l’appartenance ethnolinguistique ou du pays comptée comme correcte (1) ou incorrecte (0) et d’autre part le degré d’accent ou le niveau d’études perçus. Les quatre coefficients de corrélation résultants sont égaux à 0,1 donc faibles.

Discussion
Ainsi, des résultats de cette expérience sur des échantillons de parole relativement courts, il ressort que la variation de type diastratique et diatopique (niveau d’études, appartenance ethnolinguistique et pays de résidence) est bien perçue et catégorisée par les auditeurs africains qui ont participé au test. Pour les jeunes locuteurs comme pour les locuteurs plus âgés, en lecture comme en parole spontanée, les résultats se sont montrés très robustes. Ils n’étayent pas, bien au contraire, l’hypothèse de l’émergence d’un « accent panafricain ».
Concernant l’âge des locuteurs, ces résultats diffèrent de ceux de tests réalisés en France métropolitaine : le degré d’accent perçu, comme le taux d’identification correcte, a tendance à augmenter avec l’âge des locuteurs sur le territoire français [Pustka 2007, 2009] (cf. § 2.3.4). Dans les résultats du présent chapitre, les « vieux » (plus de 47 ans) ne sont pas évalués avec plus d’accent que les « jeunes » (moins de 47 ans). Même si l’écart n’est significatif ni pour le degré d’accent ni pour le niveau d’études perçus, il contrecarre, a minima, une éventuelle hypothèse supposant un effacement des accents en cours. Ces premières constatations sont corroborées par le fait que, dans la tâche d’identification parmi 4 pays, de façon significative, les jeunes locuteurs laissent davantage transparaître un accent national que les vieux locuteurs. Ce fait est pour nous parlant, allant dans le sens d’un changement du français après les Indépendances.
Les taux d’identification correcte parmi 5 catégories portant respectivement sur le niveau d’études et l’appartenance ethnolinguistique (respectivement 33 % et 51 %) suggèrent que la variation de type diatopique est mieux identifiée que la variation de type diastratique. Nous avons vu également qu’il n’y a pas de relation simple entre niveau d’études et identification ethnogéographique.
L’impact du niveau d’études sur le degré d’accent perçu est particulièrement intéressant. Si les résultats manifestent une légère baisse du degré d’accent à mesure que le niveau d’études augmente, il faut attendre le deuxième cycle de l’enseignement supérieur (bac + 3) pour voir ce degré d’accent diminuer notablement. D’un point de vue méthodologique, ces résultats montrent la pertinence d’une division fine du niveau d’études ainsi que la nécessité de tester des locuteurs d’un haut niveau d’études, souvent négligés dans les travaux sur le français en Afrique, ou bien considérés comme similaires à des locuteurs de niveau collège [Knutsen, 2007]. D’un point de vue sociolinguistique, les résultats nous font supposer que l’école n’est pas le lieu d’un nivellement des accents : le processus de nivellement ne commence qu’après plusieurs années d’études supérieures. Cela est très certainement lié au fait que l’exposition au français international est peu fréquente hors de l’université et des milieux professionnels ouverts sur l’étranger. Cela est certainement lié aussi à l’attitude des locuteurs envers la langue, qui n’ont aucun motif à s’approprier le français international s’ils veulent s’insérer dans des milieux locaux.
Les résultats des tâches d’identification se sont dans l’ensemble montrés assez fidèles à la conscience linguistique auto-évaluée par les auditeurs. Ceux-ci se déclaraient confiants pour reconnaître la plupart des accents en présence. Tel a effectivement été le cas, alors que mise à l’épreuve de l’expérience, l’aptitude à identifier des accents régionaux en français est bien souvent surestimée [Moreau, 2000] (cf. § 2.3.4).
Nous n’avions que deux wolophones parmi nos auditeurs ; cependant, l’accent wolof a été remarquablement bien identifié (à plus de 80 %). Il avait été également bien identifié par des auditeurs sénégalais [Moreau, 2000] — dans une étude perceptive dans laquelle l’échantillon de locuteurs ne comportait cependant pas de Maliens. Seuls les locuteurs sénoufo n’ont pas été bien identifiés, ce qui correspondait à la conscience linguistique des auditeurs : avant le test, 13 sur 20 ne se sentaient pas capables d’identifier un accent sénoufo, et après le test, 17 sur 20 déclaraient avoir répondu au hasard pour cette identification ethnolinguistique. Nous ne disposons d’aucune enquête perceptive faisant intervenir des auditeurs sénoufo, mais une étude récente [Lyche & Skattum, 2010] a montré que des auditeurs maliens, parlant bambara et/ou fulfulde, confondent également les accents bambara et sénoufo en français — alors que le Mali fait figure de pionnier dans la promotion des langues nationales. Les Sénoufo étant souvent bambaraphones, l’existence même d’un accent sénoufo reste, dans tous les cas, à prouver.
Dans les études antérieures comme dans la nôtre, la question reste entière de savoir si les confusions et les distinctions opérées relèvent de faits ethnolinguistiques ou nationaux. Nous ne prétendons pas, bien sûr, résoudre tous les problèmes autour de la notion de « statalismes », c’est-à-dire de particularismes linguistiques plus ou moins emblématiques qui s’arrêteraient au passage d’une frontière politique [Frey, 2004]. Il nous semble malgré tout que le présent travail fait un peu avancer le débat : les données et les problèmes méthodologiques sont brièvement résumés ici. Nous ne pensons pas que l’affichage du pays de provenance de quelques échantillons (et non de l’ethnie des locuteurs), lors de la phase de familiarisation au début de notre expérience, aient pu influencer les résultats.
Il faut d’abord tenir compte des représentations des accents nationaux en Afrique de l’Ouest : l’accent ivoirien est, par défaut et pour des raisons historiques, l’accent agni (kwa/akan), l’accent burkinabè est identifié avec celui des Mossi, l’accent malien avec celui des Bambara et l’accent sénégalais avec celui des Wolof. Dans les réponses de nos auditeurs, nous observons des associations quasiment fixes entre pays et ethnie (dans plus de 90 % des cas). Par ailleurs, comment s’assurer que les auditeurs ne sont pas tributaires de certaines représentations sociales et, partant, d’associations qui biaisent une réelle identification géographique ? Nous nous sommes, par exemple, demandés si des niveaux d’études bas et hauts allaient de pair avec l’identification à certains pays ou groupes ethnolinguistiques. Cependant, nous l’avons dit, le lien est faible entre l’évaluation du degré d’accent ou du niveau d’études et l’identification de l’appartenance ethnolinguistique ou du pays des locuteurs. Quelques éléments peuvent être tirés d’une étude telle que celle-ci, sur un détachement d’accents plutôt nationaux ou plutôt ethnolinguistiques. Même si le nombre réduit de locuteurs recrutés par pays ne permettait pas de représenter beaucoup de groupes ethnolinguistiques, seul le Sénégal n’avait qu’une ethnie représentée ; les autres pays en comptaient deux ou trois. Les résultats des identifications, parmi 4 pays et 5 ethnies, comme leur interprétation, ne sont pas directement comparables. Mais pour chaque pays, l’identification a été correcte dans la majorité des cas, alors que le groupe sénoufo, réparti sur trois pays, a été mal identifié. Ces faits sont sans doute le reflet de ce que le français n’est pas appris comme une langue étrangère mais comme une langue qui fait l’objet d’une appropriation communautaire d’envergure nationale, avec des identités en train de se construire au-delà des identités ethnolinguistiques. Le rôle des médias dans cette insertion du français dans les nations, de la radio, des talk-shows télévisés, n’est pas à écarter. D’autres études sont requises : pour faire la part entre le national et l’ethnolinguistique ; il faudrait inclure un plus grand nombre de locuteurs d’une même ethnie répartie sur plusieurs pays.
Arriver à définir ces accents, les caractériser avec précision, est une tout autre affaire, bien sûr plus difficile. Reconnaître un accent, en effet, fait appel à des ressources cognitives et à des routines variées, conscientes et inconscientes. Les Ivoiriens « ne prononcent pas les ‘r’ », à ce qu’on dit,. Il reste que les différences perçues entre les variétés de français étudiées ne sont pas réductibles à ce seul trait. Pour séparer les locuteurs sur la base de leur appartenance géo/ethnolinguistique, d’autres traits plus ou moins bien documentés [Cissé, 2006] sont à déterminer, au-delà des lieux communs souvent réversibles (une variété X est décrite comme chantante par les locuteurs d’une variété Y et vice versa). Les Wolof n’ont pas les contraintes que connaissent les langues à tons, mais possèdent un accent initial dans leur langue première. Peut-on le retrouver également en français ?


Indices acoustiques : étude préliminaire

À la fin du test, dix auditeurs ont, dans leurs commentaires, mentionné des traits segmentaux et suprasegmentaux — attribués à des appartenances ethnolinguistiques plus que nationales. Les traits suprasegmentaux, afférents à la mélodie (aiguë, chantante) et au rythme (haché, rapide), étaient presque toujours attribués à l’accent wolof (ou sénégalais). Parmi les traits segmentaux, les sujets ont relevé une prononciation spécifique du [p] également attribuée à l’accent wolof, (ou sénégalais) un déplacement des voyelles nasales attribué à l’accent bambara (ou malien), un /(/ prononcé [s] et un [r] roulé attribués à l’accent mooré (ou burkinabè). La réalisation [r] (ou [(]), trait le plus fréquemment cité, l’est cependant également pour d’autres accents. Nous allons l’examiner dans cette section, après une analyse de la prosodie et avant une analyse de la réalisation des consonnes occlusives.

Analyse de la prosodie
Il semble que les Wolof produisent des patrons prosodiques spécifiques. Des mesures inspirées par les commentaires des auditeurs ont été faites pour le quantifier
Dans notre corpus, les séquences « inconnue et tranquille » et « bataille politique » revenaient à chaque phrase lue (en position non-finale), et ont fait l’objet de divers commentaires. Aussi avons-nous mesuré la différence de fréquence fondamentale ((F0) entre les noyaux des syllabes finales et initiales de chacun de ces mots ([ny]–[((], [kil]–[t(((], [taj]–[ba] et [tik]–[p(]). Les valeurs de F0 ont été calculées au moyen du logiciel Praat avec les options par défaut. Les résultats, calculés en demi-tons, sont moyennés par pays dans le tableau 4.5. Moyennées par appartenance ethnolinguistique et sur les quatre mots, les valeurs de (F0 sont de 2,9 demi-tons pour les Akan, 1,1 demi-tons pour les Bambara, 1,2 demi-tons pour les Sénoufo, 1,5 pour les Mossi et -1,7 demi-tons pour les Wolof. Les Sénégalais (ou Wolof), en moyenne, sont donc les seuls à présenter des mesures négatives, correspondant à une mélodie descendante. Une telle intonation accompagnant ce qu’on peut interpréter comme des accents initiaux se retrouve ailleurs, en lecture et en parole spontanée (cf. § 4.5.2).

Burkina FasoCôte d’IvoireMaliSénégal1,52,61,3-1,7Tableau 4.5 : différence de F0 (en demi-tons) entre la syllabe finale et la syllabe initiale des mots inconnue, tranquille, bataille et politique, extraits de la phrase lue de l’expérience perceptive.

La figure 4.5 illustre les contours de F0 extraites par le logiciel Praat pour une locutrice sénégalaise wolof (jB) et une locutrice ivoirienne akan (vC) lisant la séquence une bataille politique. On voit sur cet exemple que chez la locutrice sénégalaise (à gauche), dans le mot bataille le premier [a] est plus haut que le second et dans le mot politique la première voyelle est plus haute que la dernière. On a le patron inverse chez la locutrice ivoirienne (à droite).

 EMBED PBrush Figure 4.5 : cou.rbes de F0 extraites par Praat pour la séquence une bataille politique lue par une locutrice sénégalaise wolof (à gauche) et une locutrice ivoirienne akan (à droite).

Analyse de la prononciation du /R/
Une analyse fine de la prononciation du /R/ a été menée sur les locuteurs ivoiriens, chez qui cette consonne peut être vocalisée ou élidée en position de coda, favorisant ainsi une structure CVCV [Boutin & Turcsan, 2009]. Le /R/, également, est particulièrement affecté dans les groupes consonantiques, mais il l’est aussi en position intervocalique et même initiale. Le contexte phonologique ainsi que des facteurs sociolinguistiques concernant les locuteurs et les situations de parole ont été examinés, mais il semble qu’on ait affaire à un phénomène de variation libre : un même locuteur, dans un même énoncé et dans un même environnement phonologique, peut à quelques secondes d’intervalle alterner entre un [(] uvulaire perçu comme français et des variantes bien différentes. On sait que ce phonème, un des plus fréquents du français et de notre corpus, est par son extrême variabilité phonétique prédisposer à jouer un rôle sociolinguistique, et combien il donne du fil à retordre aux phonéticiens [Autesserre & Chafcouloff, 1999] (cf. chapitre 3).
De façon analogue, les /R/ sous-jacents figurant dans les stimuli de notre expérience perceptive ont été annotés manuellement. Au nombre de 283, ils ont été classés en trois catégories : [(] apical, [(] dorsal, et [w] labialisé ou élidé. Le tableau 4.6 rapporte les résultats par pays — les résultats par appartenance ethnolinguistique concordent pour une large part. Les Ivoirien (ou les Akan) sont ceux qui ont le plus de /R/ vocalisés ou élidés, et les Sénégalais (ou les Wolof) sont ceux qui produisent le plus de /(/ dorsaux. Les Maliens et les Burkinabè, quant à eux, montrent une majorité de /(/ apicaux. Les chiffres correspondent assez bien à la conscience linguistique « naïve », avec peut-être une nuance à apporter pour les Sénégalais (wolophones). Ces derniers, même si la norme sénégalaise est le /r/ apical, produisent plus que leurs voisins de prononciations conformes à la norme hexagonale, rejoignant en cela des observations faites en wolof même, où des [(] à la française peuvent être utilisés [Moreau & Thiam, 1995]. Cette prononciation pouvant passer pour tubab, un jeu sociolinguistique extrêmement complexe est à l’œuvre.

%/R/Burkina FasoCôte d’IvoireMaliSénégal[(] apical71399159[(] dorsal510023[w] labialisé ou élidé2451918Tableau 4.6 : pourcentages par pays de /R/ apicaux, dorsaux ou labialisés/ élidés dans les stimuli de l’expérience perceptive.

Analyse de la prononciation des consonnes occlusives
Pour les consonnes occlusives, nous avons fait des mesures de VOT [Lisker & Abramson, 1967]. Défini comme l’intervalle de temps entre la détente de l’occlusion et le début des vibrations périodiques, le VOT est un indice important du voisement et du lieu d’articulation des occlusives. Il a été mesuré sur 703 occurrences de consonnes occlusives apparaissant dans les stimuli de l’expérience perceptive : occlusives sourdes (pour lesquelles le VOT est autour de 20 ms) et occlusives sonores (pour lesquelles le VOT est négatif, autour de -60 ms). Ces mesures sont données par pays dans le tableau 4.7. Elles sont de l’ordre de grandeur des valeurs mesurées pour le français standard [Saerens et al., 1989]. L’augmentation du VOT (entre [p t k] notamment) est également attendue.

VOT Burkina FasoCôte d’IvoireMaliSénégal[p]17121415[t]26232320[k]31293329[b]-66-65-55-65[d]-58-62-61-70[(]--54-42-49Tableau 4.7 : VOT (en ms) des consonnes occlusives sourdes et sonores, par pays, dans les stimuli de l’expérience perceptive.

Des chiffres du tableau 4.7, aucune différence entre variétés n’émerge. Le trait de VOT n’a pas été pris en considération dans la section suivante. En § 4.5, les patrons prosodiques de (F0 et la prononciation du /R/ ont été analysés sur la base du texte lu. Comme le pays des locuteurs a été bien identifié (avec des différences non-significatives entre parole lue et spontanée), on devrait être capable de trouver des indices acoustiques discriminants sur ce matériau directement comparable qu’est la parole lue. Et si les résultats de cette étude acoustique préliminaire peuvent être étendus à d’autres locuteurs, sur davantage de données, nos mesures devront les corroborer.


Analyse du texte lu

Méthode
Le texte lu par les 52 locuteurs ouest-africains et les 21 locuteurs français présentés en 4.2.2 a été segmenté et étiqueté phonétiquement par alignement automatique. Le principe en a été exposé dans les chapitres précédents. Le système du LIMSI, avec les mêmes modèles acoustiques indépendants du contexte, a ici été utilisé.
Deux types d’alignements ont été effectués : un alignement standard pour l’analyse de la prosodie et un alignement avec variantes de prononciation non-standard pour l’analyse de la réalisation du /R/. Dans ce deuxième alignement, les variantes [(|(|w] étaient autorisées. Les modèles acoustiques ont été enrichis avec les modèles espagnols pour le [(] apical, puisque ce dernier n’appartient pas à l’inventaire de phonèmes du français standard, et un nouveau dictionnaire de prononciation a été construit. L’élision du /R/ était également permise dans l’alignement. Des taux d’alignement ont ensuite été calculés, simulant une catégorisation en [(] dorsal, [(] apical et [w] labialisé ou élidé.

Analyse de la prosodie
La F0 a été mesurée toutes les 10 ms en utilisant Praat et Snack. Deux façons d’assigner une valeur de F0 à chaque phonème issu de l’alignement automatique ont également été comparées. La première consistait à moyenner toutes les mesures disponibles pour chaque phonème. La seconde consistait à ne retenir que les phonèmes voisés sur au moins 70 % de leurs trames dans les calculs de la F0 moyenne — sinon, les phonèmes étaient considérés comme non-voisés. Quels que soient l’outil et la méthode utilisés, on aboutit à des résultats très similaires. Seuls les résultats obtenus en moyennant les mesures de Praat prises toutes les 10 ms seront présentés.
Deux types d’analyse ont été menés pour suivre les mouvements mélodiques. Le premier prenait en compte tous les polysyllabes (c’est-à-dire les mots contenant au moins deux voyelles et potentiellement un schwa final). Il y avait 127 polysyllabes différents dans le texte PFC (ex. village, Beaulieu). Des mots comme virgule ou parenthèse, qui pouvaient être produits par les locuteurs, n’ont pas été pris en considération parce qu’ils ne faisaient pas partie du texte. Ceci laissait au moins 1000 occurrences par point d’enquête. La deuxième analyse s’est concentrée sur les suites clitique-polysyllabe. Pour les clitiques, nous avons considéré des mots-outils fréquents comme le, la, les (cf. chapitres 3 et 8). Il y avait 20 clitiques différents dans le texte PFC, aboutissant à au moins 500 contextes clitique- polysyllabe par point d’enquête (ex. une bataille).
La différence de F0 (en demi-tons) entre les voyelles finale et initiale de polysyllabes a été calculée comme précédemment (cf. § 4.4.1). Les résultats sont donnés dans le tableau 4.8. Une ANOVA a été menée avec la variable dépendante (F0 et le facteur indépendant Pays d’enquête (5 niveaux : Burkina Faso, Côte d’Ivoire, Mali, Sénégal et France). Le Pays s’est révélé avoir un effet significatif [F(4, 8943) = 57,782 ; p < 0,001]. Des tests de Student deux à deux ont révélé que toutes les différences sont significatives avec p < 0,01, sauf celles entre le Burkina Faso et la Côte d’Ivoire [p = 0,05] et entre le Mali et la France [p = 0,56].

Burkina FasoCôte d’IvoireMaliSénégalFrance1,51,10,5-0,40,6Tableau 4.8 : (F0 moyen (en demi-tons entre les voyelles finale et initiale de polysyllabes appartenant au texte lu.

Comme dans le tableau 4.5 pour des données plus contrôlées mais aussi plus restreintes, la seule valeur négative de F0 s’observe au Sénégal, où elle est de -0,4 demi-tons en moyenne. En comparaison, la valeur moyenne de F0 est de 0,6 demi-tons en France. Il y a donc une différence d’1 demi-ton en moyenne.
On a une majorité de mouvements mélodiques descendants au Sénégal (59 % vs 27–44 % dans les autres points d’enquête). Pour vérifier s’il est pertinent d’interpréter ce résultat en termes d’accent initial, nous avons regardé les contextes clitique–polysyllabe. Les contours mélodiques en demi-tons par rapport à la F0 de la voyelle du clitique sont schématisés dans la figure 4.6.













Figure 4.6 : contours mélodiques (en demi-tons par rapport à la F0 de la voyelle du clitique) de suites clitique–polysyllabe.

Seul le Sénégal présente un contour montant-descendant, typique d’un accent initial. On peut y voir un transfert prosodique du wolof -— tous les locuteurs sénégalais sauf un étaient de langue première wolof. Comme les Wolof, les locuteurs songhay et tamasheq du nord du Mali ont des langues non-tonales [Lyche & Skattum, 2010]. Les textes lus par de tels locuteurs, au nombre de 5 dans notre corpus, ont été regardés plus en détail. Mais leurs contours mélodiques sont très proches de ceux des autres locuteurs maliens. Ces locuteurs, comme les Français natifs, peuvent être considérés comme ayant un ton sous-spécifié sur la voyelle initiale des polysyllabes. En revanche, au Burkina Faso et en Côte d’Ivoire, la différence nulle ou faible de F0 entre la voyelle initiale du polysyllabe et celle du clitique qui précède peut être interprétée comme un patron bas-haut (LH) sur le polysyllabe.

Analyse de la prononciation du /R/
Il y avait plus de 1000 occurrences de /R/ dans le texte PFC. Afin d’analyser leur prononciation à l’aide de l’alignement automatique avec variantes, comme expliqué en § 4.5.1, nous avons eu recours à un xénophone pour rendre compte de la réalisation en [(] apical. Dans les résultats d’alignement automatique rapportés dans le tableau 4.9, cette variante part en quelque sorte avec un handicap en comparaison avec les résultats de l’annotation manuelle rapportés dans le tableau 4.6. Elle est de façon rassurante rarement sélectionnée en français standard. Toutefois, elle est alignée dans une majorité des cas (c’est-à-dire que l’aligneur a considéré que le [(] apical était le plus proche de ce qui avait été prononcé) au Burkina Faso et au Mali, comme dans les stimuli annotés manuellement de l’expérience perceptive.

%/R/Burkina FasoCôte d’IvoireMaliSénégalFrance[(] apical6238613912 [(] dorsal2642295076 [w] labialisé ou élidé1220101111Tableau 4.9 : pourcentage de /R/ apicaux, dorsaux, labialisés ou élidés, alignés automatiquement dans le texte PFC.

Le [(] dorsal est le plus souvent aligné au Sénégal, alors que c’est en Côte d’Ivoire qu’on a le taux le plus élevé de labialisation/élision, en accord avec le tableau 4.6. Ces résultats suggèrent que l’alignement automatique avec variantes de prononciation est bien adapté pour caractériser diverses réalisations du /R/ français.


Conclusion

Le but de ce chapitre était double : examiner dans quelle mesure divers accents ouest-africains en français peuvent être distingués et trouver des indices phonétiques discriminant des variétés de français parlées dans la sous-région d’Afrique de l’Ouest. Une expérience perceptive a dans un premier temps été menée, dont la tâche consistait (entre autres choses) à identifier l’appartenance ethnolinguistique et le pays de résidence de 20 locuteurs mossi, akan, bambara, sénoufo et wolof, enregistrés au Burkina Faso, en Côte d’Ivoire, au Mali et au Sénégal. Elle a montré que des accents ouest-africains (notamment sénégalais et ivoirien) peuvent être identifiés par des auditeurs ouest-africains sans que le style (lu ou spontané) ni le niveau d’études des locuteurs ne semble affecter les résultats. Parmi les appartenances ethnolinguistiques, seul le groupe sénoufo n’a pas bien été reconnu — en accord avec la conscience linguistique auto-évaluée par les auditeurs.
Des indices perceptivement saillants, différenciant notamment les accents wolof (Sénégal) et akan (Côte d’Ivoire) ont ensuite été analysés sur le corpus expérimental. Des traits suprasegmentaux (différences de fréquence fondamentale sur les polysyllabes) et segmentaux (différentes réalisations du /R/) ont corroboré certaines impressions des auditeurs et/ou connaissances linguistiques sur les systèmes des langues en présence, tandis que le trait subsegmental de VOT ne s’est pas montré discriminant. Les différences les plus importantes qui ont été dégagées concernaient le Sénégal (avec une propension à l’accentuation initiale suivie de mouvements mélodiques descendants) et la Côte d’Ivoire (avec une tendance à l’élision ou à la vocalisation du /R/).
L’étape suivante a consisté à vérifier si les résultats liés aux deux premiers traits (ceux qui semblaient pertinents) pouvaient être étendus à un plus grand corpus. Nous avons continué à chercher les indices susceptibles d’être mobilisés pour distinguer entre accents ouest-africains, en termes de pays plutôt que d’appartenances ethnolinguistiques, ce qui nous a permis d’élargir l’ensemble de locuteurs. En utilisant l’alignement automatique en phonèmes, les textes lus par 52 locuteurs du Burkina Faso, de Côte d’Ivoire, du Mali et du Sénégal ont été analysés — et comparés aux lectures de 21 locuteurs de France. Les mesures ont pour une large part confirmé les premières tendances : patrons mélodiques descendants (HL) sur les polysyllabes et davantage de /R/ dorsaux au Sénégal, patrons LH sur les polysyllabes et davantage de /R/ élidés ou labialisés en Côte d’Ivoire.
Au-delà des mesures instrumentales, le fait que les accents du Sénégal et de Côte d’Ivoire soient les plus distincts (et les mieux identifiés) est à relier à des facteurs sociolinguistiques, géographiques et démographiques qui autorisent des hypothèses sur la structuration d’aires linguistiques dans les pays dits francophones d’Afrique de l’Ouest. Mais les spécificités de ces accents ne sont pas imputables aux mêmes processus. En Côe d’Ivoire, le français est largement approprié et nativisé, et l’accent s’est formé en l’absence d’une langue africaine dominante [Boutin & Turcsan, 2009]. Au Sénégal, le wolof joue un rôle essentiel [Boutin & Gueye, à paraître], et des éléments de cette langue ont pu être transférés au contact du français : le wolof — langue sans tons lexicaux, alors que la plupart des autres langues d’Afrique d e l’Ouest sont des langues tonales — est notamment caractérisé par un accent initial (de mot) qui peut être transmis au français.
Des études plus approfondies sont nécessaires afin de trouver des indices discriminants pour le Mali et le Burkina Faso. Des travaux supplémentaires devront également porter sur la parole spontanée. Alors seulement pourra être envisagée une modélisation par classification automatique, comme cela a été développé dans le chapitre précédent et le sera de nouveau dans le prochain chapitre. Quant à l’approche globale, elle mérite d’être étendue à des auditeurs et des locuteurs d’autres origines. D’autres études sont enfin requises pour faire la part entre le national et l’ethnolinguistique : il faudrait inclure un plus grand nombre de locuteurs d’une même ethnie répartie sur plusieurs pays.
La méthodologie proposée ici, pour étudier quelques accents africains en français, peut être appliquée à d’autres accents : accents anglais, espagnols, etc. Dans les prochains chapitres, où nous travaillerons sur des langues de statuts comparables, comme le français, l’espagnol et l’italien, nous passerons sous silence toute une gamme de paramètres historiques et sociaux. Mais ceux-ci referont surface dès le chapitre 7, où sera évoqué notamment l’accent « de banlieue », avec une attention particulière portée à la prosodie.
5
5. Accents étrangers en français : allemand, anglais, arabe, espagnol, italien, portugais
Introduction
Nous avons étudié dans les chapitres précédents dans quelle mesure peuvent être identifiés des accents du nord, du sud et de la périphérie de la France ainsi que d’Afrique de l’Ouest. Des auditeurs natifs du français sont-ils capables de reconnaître la langue maternelle d’Allemands, d’Anglais, d’Arabes, d’Espagnols, d’Italiens ou de Portugais parlant français avec un accent étranger ? Quels sont les indices qui permettent de le faire ? Et la machine peut-elle contribuer à modéliser la perception humaine ? Le présent chapitre, traitant du français prononcé par des locuteurs natifs des langues que nous venons de citer, vise à répondre à ces questions. Dans le but de construire un ensemble concis de traits de prononciation, mesurables et linguistiquement motivés, nous avons eu recours à des techniques de classification et de sélection d’attributs venant compléter celles que nous avons présentées au chapitre 3 (cf. § 3.6.2). Pour le reste, nous avons dans l’ensemble appliqué la même méthodologie que pour les accents régionaux, combinant connaissances linguistiques et traitement automatique de la parole : nous sommes partis d’expériences perceptives d’identification ; nous avons mesuré les traits phonétiques qui peuvent caractériser ces accents en utilisant l’alignement automatique en phonèmes ; et nous avons cherché à hiérarchiser les traits les plus discriminants en utilisant des techniques de fouille de données (data mining), nous intéressant aux performances que l’on peut atteindre avec un système automatique exploitant des traits perceptivement saillants.
Dans le domaine des accents étrangers, de nombreuses études portent sur l’interaction entre les systèmes phonologiques de la langue maternelle (L1) et d’une langue seconde (L2). Nous avons eu l’occasion de l’évoquer en introduction à ce document (cf. § 1.4.6) : l’influence du système de la L1 sur la perception et la production d’une L2 a fait l’objet de nombreux travaux en psycholinguistique [Flege & Hammond, 1982 ; Piske et al., 2001]. Une partie des phonèmes peut être considérée comme partagée par la L1 et la L2 [Liberman et al., 1957], tandis qu’une autre partie peut être spécifique à seulement l’un des inventaires phonologiques. Par exemple, /y/ est un phonème du français, mais cette unité n’a pas de rôle fonctionnel en anglais (même si un son approchant peut être entendu dans un mot comme due). Des difficultés à prononcer un /y/ français peuvent contribuer à la perception d’un accent étranger dans notre langue. Mais aussi — et surtout, sans doute —, ce qui participe d’un accent étranger, ce sont ces différences de détail dans la réalisation phonétique de phonèmes qui peuvent être considérés comme communs à la L1 et la L2 (par exemple, /t/, qui peut être plus ou moins aspiré). Aussi les consonnes occlusives peuvent-elles trahir un anglais avec accent arabe [Flege & Post, 1981] ou français [Flege, 1984]. Parmi les indices qui contribuent à une impression d’accent étranger en anglais, également, une assez riche documentation sur l’accent espagnol cite des facteurs affectant la structure syllabique, le timbre des voyelles, les consonnes (en particulier /s/~/z/ et /b/~/v/) ainsi que l’accent lexical [Flege & Hammond, 1982 ; Magen, 1998].
La plupart des études sur les accents étrangers se focalisent sur les voyelles [Lauret, 1998 ; Flege et al., 2003 ; Magnen et al., 2005]. Mais d’autres niveaux linguistiques comme le rythme et l’intonation peuvent aussi contribuer à déceler un accent étranger (cf. chapitres 6 et 7). Des chercheurs comme Freland-Ricard [1996] ont montré que, chez des apprenants du français langue étrangère, la prosodie de la langue maternelle reste sous-jacente, en l’absence d’entraînement spécifique. Nous reviendrons, au cours des prochains chapitres, sur le rôle joué par la prosodie dans une impression d’accent étranger. Concernant, le rythme, une série de question se posent en lien avec l’accent étranger. Est-ce que les classes rythmiques — à chronométrage accentuel (stress-timed)) ou syllabique (syllable-timed) — traditionnellement considérées pour les langues elles-mêmes restent valides pour de la parole non-native ? Est-ce que les Portugais (dont la L1 est classée parmi les langues à chronométrage accentuel [Frota et al., 2007]) vont en français adopter un rythme semblable à celui de leurs cousins de langue romane, à chronométrage syllabique ? Quel sera le comportement des Maghrébins, dont les dialectes peuvent être considérés comme ayant un chronométrage accentuel et dont la langue standard est à chronométrage syllabique [Ghazali et al., 2002] ? Des paramètres ont été proposés pour valider ou invalider l’existence de ces classes rythmiques [Ramus, 1999 ; Grabe & Low, 2002]. Ces mesures, effectuées sur des corpus assez petits, segmentés et annotés à la main, ont connu un certain succès [Romano, 2010].
Depuis quelques années aussi, le problème de l’accent étranger a retenu l’attention de chercheurs dans le domaine du traitement automatique de la parole, le plus souvent dans le but de réduire les taux d’erreurs de reconnaissance sur la parole non-native. Différentes directions ont été explorées : stratégies d’apprentissage pour construire des modèles acoustiques spécifiques aux accents étrangers, stratégies d’adaptation pour générer des variantes de prononciation non-standard à ajouter aux dictionnaires de prononciations [Livescu & Glass, 2000 ; Silke et al., 2004 ; Cincarek et al., 2004 ; Bouselmi et al., 2006]. Plus rares sont les études qui abordent la question de l’identification automatique des accents. Citons toutefois quelques travaux conduits sur l’anglais parlé avec divers accents étrangers [Arslan & Hansen, 1997 ; Kumpf & King, 1997 ; Berkling, 2001 ; Angkititrakul & Hansen, 2003 ; Pedersen, 2009]. Des études d’orientation plus linguistique existent [ten Bosch & Cremelie, 2002 ; Schaden, 2004 ; Raux, 2004 ; Bartkova & Jouvet, 2004]. Fondées sur l’alignement, comme celle de Goronzy [2004], ces études quantifient des diminutions de taux d’erreur de reconnaissance, mais elles ne sont pas facilement comparables et n’explicitent pas comment identifier l’origine d’un accent étranger. Sangwan et Hansen [2009] exploitent certes des traits phonologiques, mais c’est dans une perspective d’analyse (de l’anglais parlé par des Chinois) plus que d'identification.
La perspective de ce chapitre, comme dans le chapitre 3, est triple — perception, analyse et identification automatique. De plus, alors que les études que nous venons de mentionner sur l’anglais traitent deux ou trois types d’accents étrangers, nous avons étendu ce nombre à six : nous avons entrepris de travailler à partir d’enregistrements de locuteurs natifs de l’allemand, de l’anglais, de l’arabe, de l’espagnol, de l’italien et du portugais. Le choix de ces langues a été établi en croisant des statistiques sur le tourisme et l’immigration en France, d’après lesquelles les accents correspondants devraient être les plus familiers aux oreilles d’auditeurs français.
Le corpus utilisé dans ce travail est décrit en section 5.2. Il comprend 84 locuteurs (72 non-natifs et 12 natifs du français), dont les enregistrements ont été collectés en deux temps, à partir de deux sous-ensembles (équilibrés de la même façon en termes d’origines linguistiques) de 42 locuteurs. Le premier sous-ensemble a été utilisé pour une expérience perceptive et des analyses acoustiques qui nous ont permis d’émettre des hypothèses quant aux traits caractérisant les différents accents ; le deuxième sous-ensemble a servi pour une expérience perceptive ultérieure et a été gardé de côté pour tester les hypothèses à travers une tâche de classification automatique.
La section 5.3 présente les tests perceptifs — les tâches et le protocole, le dispositif expérimental et les auditeurs, ainsi que les résultats correspondants. Outre une identification des accents, le degré d’accent des locuteurs a été jugé par des auditeurs natifs du français.
Dans la section 5.4, nous examinons quelques traits phonétiques (dont des indices signalés par les auditeurs de la première expérience perceptive) concernant le timbre des voyelles, l’articulation des consonnes et la prosodie. Les différentes analyses acoustiques effectuées reposent sur les alignements automatiques utilisant le système du LIMSI, comme dans les chapitres précédents — avec d’abord des modèles acoustiques et un dictionnaire de prononciation standards, avec ensuite des variantes de prononciation liées aux accents étrangers ajoutées au dictionnaire de prononciation, avec enfin un jeu de modèles acoustiques étendu (incluant des modèles acoustiques étrangers au français).
La section 5.5 interroge la pertinence de tous ces traits de prononciation dans une tâche de classification automatique (en six accents étrangers plus le français natif). Des expériences ont été menées (avec le sous-ensemble mis de côté de notre corpus), et la contribution de différents ensembles linguistiques de traits a été évaluée (formants des voyelles, durée et voisement des consonnes, indices prosodiques, variantes de prononciation dérivées des alignements). Les résultats de la classification obtenue avec l’ensemble des meilleurs traits sélectionnés automatiquement sont enfin rapportés et comparés à la perception humaine. La section 5.6 conclut ce chapitre.


Corpus

Pour cette étude, un corpus de plus de 15 heures de parole a été collecté, comprenant de la lecture et de la parole spontanée, de locuteurs natifs et non-natifs enregistrés dans des conditions similaires (dans une pièce calme, avec un micro de haute qualité, situé à environ 20 cm de la bouche). Comme mentionné ci-dessus, le corpus comprend six accents étrangers : allemand, anglais, arabe, espagnol, italien et portugais. Douze locuteurs ont été enregistrés pour chaque accent, en plus de douze locuteurs natifs du français qui pouvaient être considérés comme groupe contrôle. Tous ces locuteurs (12 locuteurs par accent) étaient européens ou originaires de pays arabes — nous verrons au chapitre 7 qu’il est difficile de discriminer les origines possibles, algérienne, marocaine ou tunisienne, de locuteurs parlant français. Les locuteurs hispanophones n’étaient ni catalans ni latino-américains. Quant aux locuteurs natifs du français, il s’agissait d’étudiants qui étaient nés et avaient grandi dans la région parisienne. Pour chaque locuteur, on avait environ 6 minutes de lecture et autant de parole spontanée. L’ensemble des enregistrements de parole lue a été transcrit orthographiquement, en corrigeant d’éventuelles erreurs de lecture. Seule une petite partie de la parole spontanée (utilisée dans une première expérience perceptive, totalisant 6 minutes de parole) a été transcrite manuellement afin de pouvoir fournir des éléments de comparaison.
Le matériel lu provient de deux textes largement utilisés dans des études phonétiques/ phonologiques : le texte du projet PFC (cf. § 2.2), d’environ 400 mots, et la fable « La bise et le soleil » de l’Association Phonétique Internationale (API), de 125 mots dans sa version française. La lecture de ces deux textes dure en moyenne 5 minutes et 1 minute respectivement, pour chaque locuteur. Quant à la parole lue, elle est issue d’entretiens semi-directifs avec l’expérimentateur, de 5–10 minutes pour chaque locuteur.
Les locuteurs ont été enregistrés en deux temps, formant deux groupes (nommés « ensemble A » et « ensemble B »), chacun étant constitué de 42 locuteurs — 6 par L1. Les locuteurs non-natifs de l’ensemble A (en parole spontanée) et les locuteurs de l’ensemble B (lisant le texte de l’API) ont été utilisés dans des expériences perceptives (cf. § 5.3). Les locuteurs de l’ensemble A ont ensuite été utilisés pour des analyses acoustiques (cf. § 5.4) et pour entraîner des systèmes de classification automatique (cf. § 5.5), tandis que les locuteurs de l’ensemble B ont été gardé à part pour tester ces systèmes sur des données non-vues.
En moyenne, les locuteurs non-natifs de l’ensemble A (autant d’hommes que de femmes, tous étudiants) étaient âgés de 25 ans, vivaient en France (dans la région parisienne) depuis 15 mois et avaient commencé à étudier le français à l’âge de 15 ans. En moyenne, les locuteurs non-natifs de l’ensemble B (également étudiants) avaient 27 ans, étaient arrivés en France depuis 21 mois et avaient commencé à apprendre le français à l’âge de 15 ans. Les deux ensembles étaient globalement comparables, eu égard à l’âge et à l’exposition au français : l’âge des locuteurs allait de 24 à 27 ans dans l’ensemble A, de 24 à 34 ans dans l’ensemble B ; leur temps de résidence en région parisienne allait de 6 à 37 mois dans l’ensemble A, de 13 à 37 mois dans l’ensemble B ; et l’âge de début d’acquisition du français langue étrangère allait de 10 à 24 ans dans l’ensemble A, de 10 à 19 ans dans l’ensemble B. Les degrés d’accent devraient donc être comparables, même si l’on peut faire l’hypothèse d’un degré moindre pour l’ensemble B (dont le séjour en France est légèrement moins long). Aucun test de langue n’a été conduit.


Expériences perceptives

Tâches et protocole
Deux expériences perceptives ont été conduites pour déterminer dans quelle mesure des auditeurs natifs du français sont à même d’identifier les accents dont il est question dans ce chapitre. Comme dans le chapitre précédent, cette tâche d’identification de la L1 des locuteurs était couplée avec une tâche secondaire, dont le but était d’évaluer le degré d’accent des locuteurs : le protocole était similaire.
Il était d’abord demandé aux sujets d’estimer leur familiarité avec les différents accents et langues : ils devaient indiquer si oui/non ils se sentaient capables de reconnaître tel ou tel accent en français, et d’évaluer leurs propres connaissances dans telle ou telle langue comme faibles, moyennes ou bonnes. Suivait une phase de familiarisation avec les accents étrangers étudiés, utilisant des locuteurs (dont l’origine était indiquée) et un contenu différents de ceux du test proprement dit. Le test proprement dit consistait à évaluer leur degré d’accent sur une échelle allant de 0 (pas d’accent) à 5 (très fort accent) et à identifier la langue maternelle des locuteurs. Le choix était forcé (sans distracteur ni classe rejet) parmi allemand, anglais, arabe, espagnol, italien et portugais, dans une première expérience (6L1). Le choix était forcé parmi sept possibilités (le français, en plus de ces six origines) dans une deuxième expérience (7L1).
Les stimuli (préalablement égalisés) étaient présentés dans un ordre aléatoire différent pour chaque sujet. Comme antérieurement, chaque stimulus pouvait être réécouté, arrêté au milieu ou repris à partir d’un certain point ; mais il était impossible de revenir en arrière une fois passé au stimulus suivant.

Dispositif expérimental
Pour l’expérience 6L1, des extraits de parole spontanée d’environ 10 secondes ont été sélectionnés à partir des locuteurs non-natifs de l’ensemble A (cf. § 5.2), d’après les mêmes critères que dans les expériences décrites dans les chapitres précédents (cf. p. ex. § 2.3.1) et pour l’absence d’erreurs morphosyntaxiques qui pouvaient être typiques d’une L1 donnée. Le test portait donc sur 36 stimuli. Il se déroulait dans une chambre isolée, à travers l’interface déjà utilisée dans les expériences 6rp et 6rm (cf. § 2.3.2). Les auditeurs, munis d’un micro, étaient invités à réagir verbalement à l’écoute de chaque stimulus (en l’imitant voire en le caricaturant) ou à écrire leurs commentaires dans une fenêtre de texte. Ces données étaient enregistrées stimulus par stimulus, et les consignes données aux sujets suggéraient simplement de préciser quels traits non-natifs dans la prononciation et l’intonation du locuteur leur semblaient marquants.
L’expérience 7L1 était fondée sur la lecture du texte de l’API (environ 1 minute de parole) par les locuteurs de l’ensemble B (dont 6 locuteurs natifs du français). Nous voulions tester quels accents étrangers étaient les plus susceptibles d’être confondus avec du français natif et examiner ces nouveaux résultats en lien avec le degré d’accent des locuteurs. Les sujets pouvaient également préciser sur quels indices ils fondaient leurs décisions, mais seulement à travers des commentaires écrits à la fin du test. L’interface était la même que dans les expériences 7rp et 7Be (cf. § 3.3.2).

Auditeurs
Chaque expérience impliquait 25 auditeurs naïfs, natifs du français, vivant dans la région parisienne, sans problèmes d’audition. Comme dans des expériences précédentes (cf. p. ex. § 4.3.3), ils n’étaient pas payés pour leur participation, qui était de 30–45 minutes par sujet.
La majorité des sujets, avant le test, s’estimaient capables de reconnaître les accents arabe, allemand et anglais ; mais ils étaient en moins grand nombre à penser pouvoir reconnaître les accents espagnol, portugais et italien. Ces tendances ne vont pas de pair avec les connaissances des auditeurs dans les langues correspondantes, également auto-évaluées par les sujets : presque tous, par exemple, déclaraient qu’ils n’avaient pas ou que peu de connaissances en arabe, alors que presque tous se sentaient capables de reconnaître un accent arabe en français.

Résultats : tâches d’évaluation et d’identification
Pour les deux expériences (6L1 et 7L1), nous résumons dans le paragraphe suivant les résultats, fondés sur l’écoute des stimuli, en matière d’évaluation du degré d’accent, avant de présenter les résultats des tests d’identification perceptive proprement dits. Des représentations graphiques de cette identification seront données, par clustering, mesurant des distances perceptives entre les accents étudiés, en 5.3.5 ; des tests statistiques suivront. Les indices perçus par les auditeurs seront rapportés en 5.3.6.
Dans chacune des deux expériences, le degré d’accent moyen des locuteurs non-natifs, évalué par les auditeurs, était de 2,7 sur 5. Les degrés d’accents étaient comparables entre les différents groupes linguistiques de locuteurs non-natifs (voir les premières lignes des tableaux 5.1 et 5.2), sauf pour les Arabes : ceux de l’ensemble A (expérience 6L1) ont été jugés comme ayant un accent moyen (2,4), tandis qu’un accent plus léger (1,5) a été évalué pour les locuteurs arabes de l’ensemble B (expérience 7L1). Cette différence ne s’explique pas facilement : en moyenne, les deux groupes avaient commencé à apprendre le français à l’âge de 10 ans ; en moyenne, les locuteurs arabes de l’ensemble B étaient plus âgés que ceux de l’ensemble A (31 ans vs 27 ans), mais ils étaient arrivés depuis moins longtemps en France (27 mois vs 37 mois). À la lumière de ces résultats et en l’absence de test de langue, on peut seulement faire l’hypothèse que, pour les Arabes la lecture produit une parole plus normée que le spontané.
Les résultats des tâches d’identification des expériences 6L1 et 7L1 sont également consignés dans les tableaux 5.1 et 5.2 respectivement. Dans les deux expériences, la langue maternelle des locuteurs a été correctement identifiée à plus de 50 %. Le taux d’identification correcte est de 52 % dans l’expérience 6L1 et de 60 % dans l’expérience 7L1. Le fait que les résultats soient meilleurs dans l’expérience 7L1 est essentiellement dû à l’identification presque parfaite (à 96 %) des locuteurs natifs du français. Si on exclut ces locuteurs français, le taux d’identification correcte descend à 54 % (très similaire aux résultats de l’expérience 6L1). Cette similarité, en dépit de différences de dispositif expérimental (10 secondes de parole spontanée vs 1 minute de lecture), avec des locuteurs différents (ensemble A vs ensemble B) est intéressante à noter. Néanmoins, elle ne doit pas occulter d’importantes différences entre accents.
Des tests de Dz montrent que pour chaque L1 les taux d identification sont significativement au-dessus du seuil de hasard. À chaque fois, la réponse majoritaire est la bonne pour une origine donnée, ce qui reste vrai pour la plupart des locuteurs (25 locuteurs sur 36 dans l’expérience 6L1, 28 non-natifs et les 6 natifs dans l’expérience 7L1). Dans les deux expériences, les confusions les plus fréquentes impliquent les paires d’accents espagnol/ italien et anglais/allemand. Dans les deux expériences également, les taux d’identification correcte les plus faibles s’observent pour l’accent portugais, qui peut être pris pour n’importe quel accent autre que l’anglais. Le stéréotype chuintant qui est souvent et à tort associé à l’accent portugais peut expliquer pourquoi cet accent est mal reconnu. Parmi les accents les mieux reconnus, apparaissent l’arabe, l’allemand et l’espagnol dans l’expérience 6L1, l’anglais, l’allemand et l’espagnol (après le français natif) dans l’expérience 7L1. Dans cette dernière expérience, on observe pour les locuteurs arabes un taux de confusion relativement élevé (de 10 %) avec les Français natifs — ces confusions n’excèdent pas 3 % pour les autres locuteurs non-natifs. Ce résultat peut s’expliquer par le faible degré d’accent mentionné ci-dessus pour les locuteurs arabes de l’ensemble B, même si le lien entre degré d’accent et taux d’identification ne se montre pas toujours simple. Nous allons revenir sur cette question via des tests statistiques.

Expérience 6L1: ensemble A, 10 secondes de parole spontanéeRéponse
OrigineAllemand
(2,2)Anglais
(3,0)Arabe
(2,4)Espagnol
(2,9)Italien
(3,1)Portugais
(2,4)Allemand63156358Anglais28499933Arabe6177258Espagnol335591911Italien537344010Portugais17817211225Tableau 5.1 : degrés d’accent moyen par origine des locuteurs sur une échelle de 0 à 5 (entre parenthèses) et matrice de confusion de l’expérience 6L1 (%).

Expérience 7L1: ensemble B, 1 minute de lectureRéponse
OrigineAllemand
(2,9)Anglais
(3,1)Arabe
(1,5)Espagnol
(3,0)Italien
(2,4)Portugais
(3,0)Français
(0.6)Allemand651532591Anglais157333230Arabe141036915710Espagnol1026715150Italien3032246233Portugais115111919341Français20101096Tableau 5.2 : degrés d’accent moyen par origine des locuteurs sur une échelle de 0 à 5 (entre parenthèses) et matrice de confusion de l’expérience 7L1 (%).

Analyse par clustering et tests statistiques
Les résultats de l’identification d’accents peuvent être représentés graphiquement par des techniques d’analyse de données — ce qui a été fait, comme dans les chapitres précédents, en utilisant le logiciel R. Les visualisations correspondantes rassemblent les accents proches perceptivement : la figure 5.1, par exemple, montre le dendrogramme dérivé de la matrice de confusion de l’expérience 7L1 (tableau 5.2), produit par un algorithme de clustering hiérarchique agglomératif avec une distance euclidienne. Les locuteurs natifs du français sont d’abord isolés des non-natifs. Les locuteurs de langues germaniques sont ensuite regroupés dans un sous-arbre, tandis que plus en profondeur dans le dendrogramme les locuteurs arabes sont séparés des locuteurs de langues romanes. Au moins pour les non-natifs, les sous-arbres donnés par cette représentation graphique sont en accord avec l’intuition et avec des connaissances linguistiques sur la typologie des langues.

















Figure 5.1 : dendrogramme représentant les résultats de l’identification perceptive de l’expérience 7L1.

De façon analogue à ce qui a été présenté dans les chapitres précédents, des analyses de variance ont été menées. Elles l’ont été séparément pour les deux expériences, en excluant les locuteurs natifs du français dans l’expérience 7L1. Ces ANOVA ont été conduites sur les réponses comptées comme correctes (1) ou incorrectes (0) avec le facteur aléatoire Sujet et les deux facteurs intra-sujet Familiarité (avec l’accent) et Degré d’accent. Selon que les auditeurs se sont majoritairement déclarés capables de reconnaître l’accent en français (comme c’était le cas pour les Allemands, Anglais et Arabes) ou non (comme c’était le cas pour les Espagnols, Italiens, Portugais), deux groupes de Familiarité ont été distingués. En ce qui concerne le Degré d’accent, les locuteurs ont été séparés en trois groupes équilibrés (trois niveaux), moyennant les évaluations des auditeurs. Les ANOVA montrent un effet majeur de la Familiarité, que ce soit dans l’expérience 6L1 [F(1, 24) = 56,5 ; p < 0,01] ou dans l’expérience 7L1 [F(1, 24) = 25,3 ; p < 0,01]. On a également un effet majeur du Degré d’accent des locuteurs dans l’expérience 6L1 [F(2, 48) = 21,4 ; p < 0,01] comme dans l’expérience 7L1 [F(2, 48) = 40,8 ; p < 0,01], avec une interaction marginale entre les deux facteurs. Malgré cet effet global du Degré d’accent, on peut souligner que, dans l’expérience 6L1, la différence de degré d’accent entre locuteurs arabes et portugais (les groupes de locuteurs respectivement les mieux et les moins bien identifiés) n’est pas significative d’après un test de Student.

Indices perçus par les auditeurs
Lors de l’expérience 6L1, les commentaires des participants ont été enregistrés stimulus par stimulus (cf. § 5.3.2). Intéressons-nous à présent aux indices (segmentaux et suprasegmentaux) rapportés par les auditeurs.
Parmi les indices segmentaux, nos 25 auditeurs ont principalement relevé : le ‘r’, qu’il soit « roulé » — évoquant des pays du Sud — ou prononcé « à l’anglaise » (93 fois) ; yé à la place de je, [v] à la place de /b/ et [s] à la place de /z/ pour les Espagnols (38 fois) ; [i] à la place de /e/ dans le cas des locuteurs de langue maternelle arabe (31 fois) ; [z] à la place de /s/ pour les Allemands (24 fois) ; [u] à la place de /y/ ou l’inverse, ainsi qu’une mauvaise réalisation des nasales (37 fois), sans rapprochement avec une origine particulière, mais plutôt signe d’un accent étranger en général. Parmi les traits suprasegmentaux (par nature très impressionnistes) notés par les sujets, on peut citer : des phrases « chantantes » qui seraient typiques des Italiens ou une « précipitation » sur certains mots. Certains de ces traits ont été relevés par les auditeurs de l’expérience 7L1, mais ils n’ont pas été quantifiés.

Discussion
Nous avons décrit, dans ce qui précède, deux expériences perceptives portant sur des ensembles de locuteurs distincts, impliquant des locuteurs non-natifs dont l’accent a été jugé de modéré à plutôt fort (avec une moyenne de 2,7 sur une échelle de 0 à 5). L’origine de l’accent a été correctement identifiée dans plus de 50 % des cas par des auditeurs français natifs, même si les confusions sont assez fréquentes notamment entre les locuteurs de langues romanes et entre les locuteurs de langues germaniques : les sujets ont eu du mal, particulièrement, avec l’accent portugais. Des compétences dans les langues d’origine n’engendraient pas nécessairement de meilleurs scores d’identification. D’un autre côté, l’expérience 7L1 qui incluait des locuteurs français natifs a montré que la distinction de ces derniers avec les locuteurs non-natifs était presque parfaite.
Des traits saillants, caractéristiques de différents accents, ont été relevés par les auditeurs (par exemple [i] au lieu de /e/ pour les locuteurs arabes, [v] au lieu de /b/ et [s] au lieu de /z/ pour les Espagnols). Dans ce qui suit, nous rapportons les résultats d’analyses acoustiques qui ont été entreprises aux niveaux à la fois segmental et suprasegmental, pour vérifier si ces traits peuvent être mesurés objectivement et s’ils corroborent la perception.


Analyses acoustiques utilisant l’alignement automatique

Pour les analyses acoustiques présentées dans cette section, nous avons comme au chapitre 4 utilisé le texte du projet PFC, lu par les locuteurs de l’ensemble A — les 36 employés dans l’expérience 6L1 et 6 natifs français (3 hommes et 3 femmes de la même tranche d’âge). Ce matériel, en effet, se prêtait bien à des comparaisons entre locuteurs, le même contenu linguistique étant produit par tous.
Le corpus a été aligné en phonèmes en utilisant le système de reconnaissance de la parole du LIMSI, avec des modèles acoustiques indépendants du contexte, comme dans les chapitres précédents. Les mesures acoustiques rapportées en 5.4.1 (formants de voyelles, durée et taux de voisement de consonnes, indices prosodiques) ont été dérivées d’un alignement standard : le dictionnaire de prononciation comprenait des variantes comme les liaisons et le schwa optionnels, mais pas de variantes spécifiques aux accents étrangers. Des variantes de prononciation liées aux accents étudiés ont ensuite été ajoutées (§ 5.4.2), et les taux de variantes alignées ont été mesurés, à l’instar de ce qui a été présenté par exemple dans la section 2.5. En utilisant toujours des modèles acoustiques français, ces mesures sont rapportées dans la sous-section 5.4.2.1 : l’idée était d’introduire des options telles que /e/ prononcé [e] ou [i] dans le dictionnaire de prononciation, différents accents étrangers pouvant privilégier différentes variantes de prononciation. Puis non avons examiné dans quelle mesure les productions des locuteurs sont alignées avec des unités acoustiques étrangères plus volontiers qu’avec seulement des unités acoustiques françaises. Des xénophones ont ainsi été ajoutés, comme en 3.5.3 et en 4.5.3 : les résultats sont rapportés dans la sous-section 5.4.2.2. La figure 5.2 résume schématiquement les principales étapes du processus.














Figure 5.2 : diagramme bloc de la procédure d’alignement en phonèmes avec des variantes de prononciation non-standard (§ 5.4.2) et éventuellement des xénophones (§ 5.4.2.2).

Mesures à base d’alignement standard
Formants des voyelles
Les fréquences des formants ont été mesurées sur les voyelles orales (plus de 500 par locuteur) au moyen du logiciel Praat. Les deux premiers formants, ainsi que la fréquence fondamentale, ont été extraits toutes les 10 ms en utilisant les options par défaut de Praat, et les mesures ont été filtrées comme dans la section 2.4. En outre, nous n’avons retenu que les voyelles qui étaient voisés (c’est-à-dire que les valeurs détectées de F0 étaient supérieures à 75 Hz) sur plus de la moitié de leur durée. À chaque segment était ensuite assignées des valeurs de formants (de même, de F0) en moyennant les mesures élémentaires. Le taux de rejet, avec ces critères, était de 5,5 %. Puis les valeurs des formants ont été normalisées en utilisant la procédure log-moyenne [Nearey, 1989 ; Disner, 1980] pour minimiser les différences dues aux caractéristiques physiologiques des locuteurs, comme en 2.4.1. Les triangles vocaliques correspondant aux différents accents (ou origines linguistiques) sont représentés dans la figure 5.3. Par souci de lisibilité, ils sont séparés en deux sous-ensembles : le premier pour les langues romanes (espagnol, italien, portugais),en haut ; le deuxième pour les autres accents (allemand, anglais, arabe) en bas — le triangle vocalique des Français natifs étant affiché en haut et en bas, comme référence.
























Figure 5.3 : triangles vocaliques (normalisés) pour le texte PFC avec ou sans accent étranger.

Une première observation que l’on peut faire concerne une différence de taille pour le triangle des Français natifs, qui tend à être plus petit que les triangles correspondant aux accents étrangers. Comme les triangles vocaliques tendent à être plus réduits pour des durées de voyelles plus courtes [Gendrot & Adda-Decker, 2005], ceci est le plus probablement dû à la tendance des natifs à parler plus vite que les non-natifs (voir la durée des segments dans le tableau 5.3). De plus, on note que les triangles vocaliques des Anglais (et des Allemands, dans une moindre mesure) sont plus réduits que ceux des autres locuteurs non-natifs : ceci peut être relié à la réduction vocalique que connaissent leurs langues maternelles.
Il est intéressant de relier la position moyenne des voyelles dans le plan F1/F2 à ce que l’on sait des caractéristiques des voyelles dans les différentes langues concernées, et de relier ces observations aux commentaires de nos auditeurs. Ainsi, l’antériorisation du /u/ chez les Anglais, phénomène largement décrit de /u/-fronting [Harrington et al., 2000] s’observe également ici dans l’accent anglais en français. On note par ailleurs une certaine postériorisation du /y/ chez les Espagnols et les Italiens, et le fait que parmi les /e/, le plus proche des /i/ est celui des Arabes. La confusion /e/~/i/ est en effet assez répandue chez les locuteurs arabophones parlant français : on peut l’attribuer au fait que cette distinction n’est pas fonctionnelle, au moins dans le système à trois voyelles phonologiques (/a u i/) de l’arabe standard. Les différences que l’on peut remarquer concernant le /a/ s’expliquent moins facilement. Quant au schwa, il est le plus fermé chez les Portugais (se rapprochant du /(/ haut central de leur système phonologique [Veloso, 2007] ) et le plus antériorisé chez les Espagnols et les Italiens.
La réalisation du /y/ français est particulièrement différente entre les locuteurs espagnols ou italiens notamment (chez qui elle est plus proche du [u]) et les locuteurs arabes (chez qui elle tend vers le [i]). Une interprétation est que les uns privilégient le trait [+arrondi], les autres le trait [+antérieur]. Ce phénomène souvent caricaturé est connu [Rochet, 1995] : on peut le retrouver dans des transcriptions ludiques telles que tou m’as toué pour l’accent espagnol ou bien Itats-Inis pour l’accent arabe. Ce déplacement du /y/ dans des sens opposés est bien mis en évidence par scaling ou clustering à partir d’une caractérisation de chaque locuteur par les coordonnées moyennes de son /y/ dans le plan F1/F2 : en utilisant divers algorithmes et types de distance, on obtient des dendrogrammes où les locuteurs arabes d’une part, les locuteurs espagnols et italiens de l’autre, sont assez bien regroupés. On retrouve les mêmes tendances sur les phrases spontanées présentées aux auditeurs.
Durée et taux de voisement des consonnes
En utilisant toujours l’alignement standard, les durées et les taux de voisement des consonnes ont été mesurées. Comme le montre le tableau 5.3 (ligne du bas), les durées moyennes des phonèmes sont comparables entre accents. Pour ces locuteurs, la durée moyenne des phonèmes est proche de 90 ms (ce qui donne un taux d’articulation de 11 phonèmes/seconde), alors que pour les locuteurs natifs, elle est proche de 70 ms (ce qui donne un taux d’articulation de 14 phonèmes/seconde). Même si les différences observées peuvent être dues à de nombreux facteurs, il est à noter (cf. tableau 5.3) que les locuteurs ayant pour langue maternelle l’allemand, l’anglais ou l’arabe tendent à avoir les occlusives sourdes les plus longues. Dans ces langues, les occlusives sourdes sont souvent aspirées, alors qu’en français (standard), le plus souvent, le VOT est petit [Abdelli-Beruh, 2004] (cf. §§ 3.4.3, 4.4.3). Nos mesures suggèrent que les locuteurs allemands, anglais et arabes produisent des occlusives sourdes aspirées, quand ils parlent français.

AllemandAnglaisArabeEspagnolItalienPortugaisFrançais/p/89848880798167/t/89928284818475/k/90959582868382/b/79648363928974/d/65687876787960/(/65697964747462/v/69676962779161/(/72688482568072Tous89909189919473Tableau 5.3 : durée de quelques consonnes (en ms) pour le texte PFC. La ligne du bas correspond à la durée moyenne de tous les phonèmes (voyelles et consonne).

Comme en 4.4.3, un taux de voisement a été calculé pour chaque consonne, défini comme le nombre de mesures voisées divisé par le nombre total de mesures (toutes les 10 ms). Les taux de voisement moyens, pour quelques consonnes pertinentes, sont consignés dans le tableau 5.4. On peut noter des taux de voisement faibles pour les consonnes sonores (/b/, /d/, /(/) chez les Allemands et les Anglais parlant français, reflétant une certaine tendance au dévoisement de ces consonnes dans les langues germaniques. Un dévoisement partiel des consonnes /v/ et /(/ a également été mesuré pour les Anglais.

 AllemandAnglaisArabeEspagnolItalienPortugais Français/p/33321828373221/t/32281731393318/k/28251628342720/s/34232236403920/(/35223035392336/b/76579181829194/d/77608273778586/(/76618673878892/z/85798953809391/(/82718377848378/v/93869791889494/(/57595660685859Tableau 5.4 : taux de voisement de certaines consonnes (pourcentage de mesures définies de F0) pour le texte PFC.

Dans les tableaux 5.3 et 5.4, les locuteurs espagnols affichent les /b/ et les /v/ les plus cours de tous les locuteurs non-natifs, ainsi qu’un taux de voisement très bas pour la fricative /z/ (similaire au /s/). De fait, il n’y a pas, phonologiquement, de fricatives sonores en espagnol, donc pas de distinction /b/~/v/ ni de /z/. Par ailleurs, le /(/ des Italiens est plus court et plus voisé que pour les autres locuteurs : nous y reviendrons en 5.4.2.
Rythme et indices prosodiques liés au schwa final
Certains des commentaires des sujets, au cours ou à la fin des expériences perceptives, étaient liés à des aspects rythmiques. Comme mentionné en introduction à ce chapitre (section 5.1), des paramètres impliquant la durée des segments ont été proposés pour caractériser différentes classes rythmiques de langues. Ramus [1999] considère en particulier la proportion d’intervalles vocaliques (%V) et la variation de durée des intervalles consonantiques en termes d’écart type ((C) — un intervalle consonantique étant constitué d’une consonne ou de plusieurs consonnes consécutives séparées par des voyelles ou des pauses. Grabe et Low [2002] proposent une approche légèrement plus élaborée : ces auteurs mesurent la variabilité entre intervalles vocaliques et intervocaliques successifs à travers des Pairwise Variability Indices (PVI) éventuellement normalisés pour rendre compte de variations de débit de parole. Ces mesures ne prennent pas explicitement en considération la notion d’accent, mais reposent sur le lien entre chronométrage accentuel, complexité des groupes consonantiques et réduction vocalique. Des travaux plus récents ont cherché à adapter ces mesures afin de quantifier la maîtrise d’une langue seconde et d’étudier l’influence du débit de parole sur les corrélats acoustiques du rythme [Dellwo, 2010], mais ils n’ont pas été exploités ici.
Nous avons, pour ce qui nous concerne dans cette étude, mesuré les paramètres de Ramus et de Grabe sur des phrases françaises (notamment celles du texte PFC) lues par des étrangers. La même complexité en matière de groupes consonantiques étant imposée par la langue française, à tous les locuteurs, la variabilité de durée mesurée ne doit donc être que faiblement liée à des différences phonotactiques. On pourrait imaginer que des locuteurs peu habitués à des groupes consonantiques complexes tendraient à hyper-articuler ces derniers (à moins de recourir à des élisions). Ceci pourrait conduire à des mesures élevées de (C en opposition avec les observations faites dans leurs langues maternelles. Inversement, les locuteurs habitués à des groupes consonantiques complexes peuvent hypo-articuler ces derniers, faisant par là diminuer le %C et augmenter le %V. Les mesures en résultant seraient donc en contradiction avec la tendance à la réduction vocalique des langues à chronométrage accentuel. En réalité, la durée des groupes consonantiques semble assez dépendante du locuteur. Dans ce qui suit, nous avons donc retenu seulement les mesures de (V (l’écart type de la durée des intervalles vocaliques) et de PVI sur les voyelles. Les PVI ne sont pas normalisés car les débits de parole sont comparables entre locuteurs non-natifs — de 10,7 à 11,3 phonèmes/seconde (cf. § 5.4.1.2).
La figure 5.4 illustre les résultats pour les différentes L1. Comme on pouvait s’y attendre, le français, dont les voyelles non-accentuées sont relativement isochrones (cf. note  NOTEREF _Ref289256451 \h  \* MERGEFORMAT 52), apparaît dans le coin en bas à gauche. On aurait pu s’attendre à un regroupement plus systématique des L1 à chronométrage syllabique (français, espagnol, italien) et des L1 à chronométrage accentuel (anglais, allemand, arabe maghrébin, portugais). Cependant, aucune classe rythmique n’émerge clairement. Les résultats montrent simplement une différence importante (de (V et de PVI, paramètres qui se révèlent être étroitement liés), entre les Arabes (les plus proches des Français) et les Italiens. D’après ces mesures, les Maghrébins ne tendent pas à reproduire le rythme à chronométrage accentuel de leurs dialectes — alors que les Portugais, par exemple, restent proches des Anglais, dont la L1 est également à chronométrage accentuel. Quant aux Italiens parlant français, leurs résultats avec ce type d’approche rappellent le ratio de durée particulièrement important, en italien, entre voyelles accentuées et non-accentuées [Romano, 2010] (cf. chapitre 6).











Figure 5.4 : caractérisation du rythme combinant les paramètres (V (Ramus) et PVI (Grabe) sur les voyelles, pour le texte PFC avec ou sans accent étranger. Les durées sont exprimées en ms.

Dans la suite de cette sous-section, nous nous focalisons sur les schwas potentiels à la fin de mots comportant au moins une autre voyelle, en mesurant leurs taux de réalisation, l’allongement de la voyelle qui précède et les contours de F0 correspondant. Ces mots avec schwa final potentiel (en comptant maire, par exemple, mais pas un monosyllabe comme de) sont au nombre de 123 dans le texte PFC. Le schwa final pouvait être réalisé ou non par les locuteurs, et détecté par le système d’alignement, puisque laissé optionnel dans le dictionnaire de prononciation standard utilisé. Les résultats obtenus sont consignés dans le tableau 5.5. On observe que les Italiens parlant français produisent de loin le plus haut taux de réalisation du schwa final (23 %), les autres groupes de locuteurs gardant des taux inférieurs à 15 %. Ce chiffre élevé pour les Italiens peut s’expliquer au moins en partie par le fait que les mots pleins terminés par une consonne sont extrêmement rares en italien : on comprend dès lors qu’il soit plus naturel à un Italien parlant français de terminé sur une voyelle finale de type schwa.
Nous avons aussi mesuré le ratio de durée entre la voyelle précédant un schwa final et le schwa final prononcé, ainsi que la différence en demi-tons (F0s = F0schwa – F0voyelle_précédente. Les résultats sont également donnés dans le tableau 5.5 : les Italiens affichent à la fois le ratio de durée le plus élevé, suggérant un allongement de la syllabe supposée accentuée (celle dont le noyau est la voyelle précédant le schwa final) et le (F0s le plus négatif, correspondant à une descente de la mélodie sur le schwa final. Les Allemands parlant français, eux, montrent en moyenne un contour de F0 légèrement montant sur le schwa final (la seule valeur positive de (F0s dans le tableau 5.5. Ces deux patrons sont assez saillants perceptivement et semblent typiques des accents mentionnés.

 AllemandAnglaisArabeEspagnolItalienPortugaisFrançais%schwa14151011231511ratio.dur(V/schwa)1.91,62,02,12,42,21,9”F0s(schwa V)0,1-0,9-1,3-1-2,2-0,7-1,1Tableau 5.5 : taux de schwas finals réalisé (%), ratio de durée entre une voyelle précédant un schwa final et le schwa final, différence de F0 (en demi-tons) entre le schwa final et la voyelle le précédant.

Comme ces chiffres ont été calculés sur un nombre relativement petit d occurrences, il nous a semblé nécessaire de mener des ANOVA. Ceci a été fait avec les mesures (%schwa, ratio.dur et ”F0s) moyennées par locuteur comme variables dépendantes et les L1 comme variables indépendantes. La différence n atteint pas le niveau de significativité pour le ratio de durée, mais la L1 a un effet significatif pour le taux de réalisation du schwa final [F(6, 35) = 3,86 ; p < 0,01] et [F(6, 35) = 3,04 ; p < 0,05].

Mesures fondées sur des alignements non-standards
Dans les sous-sections précédentes, pour l’alignement en phonèmes, un dictionnaire de prononciation standard a été utilisé, dans lequel à chaque entrée sont associées généralement une et parfois plusieurs prononciations standard pour le français — avec des liaisons et des schwas potentiels. Les résultats des expériences perceptives et des mesures acoustiques présentées ci-dessus suggèrent que les locuteurs non-natifs peuvent produire des variantes de prononciation qui s’écartent des formes standard de façon importante, et que certains de ces écarts peuvent être communs aux locuteurs d’une L1 donnée.
Dans les sous-sections qui suivent, des variantes de prononciation spécifiques aux accents étrangers ont été introduites, permettant à un phonème donné du français (standard) d’être remplacé par une ou plusieurs variantes dans le dictionnaire de prononciation. Celui-ci est mis à jour à chaque fois, comme dans les sections 2.5 et en 3.5, et la pertinence de ces variantes de prononciation a été mesurée à travers des taux de variantes alignées. Dans la sous-section 5.4.2.1, l’inventaire de phonèmes et l’ensemble correspondant de modèles acoustiques restent inchangés. Dans la sous-section 5.4.2.2, l’inventaire de phonèmes et l’ensemble correspondant de modèles acoustiques ont été complétés par des xénophones (et les modèles acoustiques correspondants, empruntés à d’autres langues), pour certains phonèmes dont la prononciation avec accent étranger diffère particulièrement de la prononciation française.
Variantes utilisant l’ensemble standard de modèles acoustiques français
À partir de connaissances linguistiques sur les différentes langues, des commentaires issus des expériences perceptives et des résultats des mesures acoustiques précédentes, nous avons défini une vingtaine de règles rendant compte de phénomènes communs, pour des prononciations non-natives du français, de voisement/dévoisement, de spirantisation ou d’affrication des consonnes, d’ouverture/fermeture, d’antériorisation/postériorisation ou de dénasalisation des voyelles (cf. tableau 5.6). Pour chaque règle, un dictionnaire de prononciation spécifique a été généré, un alignement distinct a été réalisé et des taux de variantes alignées par le système ont été calculés. La plupart de ces règles proposent des alternatives simples, prévoyant des substitutions paradigmatiques au sein de paires de voyelles (ex. /e/([e|i]) ou de consonnes (ex. /b/([b|v]). Dans certains cas, la règle est plus complexe, avec une insertion de segment et des contraintes contextuelles. Nous avons par exemple autorisé que les voyelles nasales, éventuellement dénasalisées, soient suivies d’appendices nasaux dans un contexte droit en p ou b, de façon analogue à ce qui a été fait en 2.5.4 et en 3.5.5. Dans ce cas (voir la dernière ligne du tableau 5.6), toutes les variantes non-standard ont été cumulées dans le calcul du taux de variantes alignées, comme en 3.6.1. Pour 20 règles qui ont été testées, les taux de variantes non-standard alignées par le système sont donnés dans le tableau 5.6. Dans la première ligne, par exemple, le /b/ peut être aligné avec [b] ou [v], et le pourcentage de [v] alignés (/b/([v]) est indiqué pour chacune des L1. Des règles de diphtongaison des voyelles ont également été testées, mais les alignements correspondants n’ont donné que peu de variantes diphtonguées, même en français avec accent anglais : les résultats ne sont pas présentés ici.

AllemandAnglaisArabeEspagnolItalienPortugaisFrançais/b/([v]32308608223/b/([p]4255831366/d/([t]30599306912/(/([k]59673643133020/s/([z]43141271/(/([t(]27515633/v/([b]14172232825/v/([f]82891551212/z/([s]32472679311924/(/([(]142611255612/(/([j]711729174/l/([w]2811353/(/([l]732474666/(/([w]412251432/e/([µ]15501747392619/e/([i]18151511879/y/([u]52183235213/y/([i]34343236263026/o/([(]16561870323845/v(/([v+n|v(+n]2841226963467Tableau 5.6 : taux de variantes non-standard alignées en utilisant des modèles acoustiques français, pour les occlusives, les fricatives, les liquides et les voyelles (%). Dans la dernière ligne, [v(] représente n’importe laquelle des voyelles nasales, [v] représente sa contrepartie orale et [n] représente [m] ou [n].

On peut observer que les Anglais et les Espagnols produisent les taux les plus élevés de variantes non-standard (en gras dans le tableau 5.6), tandis que souvent les résultats pour les Arabes et les Portugais restent proches des chiffres obtenus pour les natifs français. La plupart des résultats sont en accord avec les prédictions concernant les accents étrangers. Par exemple, 62 % des /b/ sont alignés comme [v] chez les Espagnols parlant français. Rappelons que l’espagnol n’a pas deux phonèmes distincts pour /b/ et /v/ [Delattre, 19655] : un [b] est réalisé après une pause ou une consonne nasale ; un [(] apparaît ailleurs [Quilis, 1993]. Ceci peut favoriser la réalisation spirantisée dans de nombreux contextes, plus proche de la fricative [v] que de l’occlusive [b], quand des Espagnols parlent français. Chez ces locuteurs, de même, le [s] tend à être préféré à [z] (dans 79 % des cas), le [j] à [(] et le [t(] à [(] : ces prononciations sont bien connues pour l’accent espagnol en français — et également en anglais [Magen, 1998]. Chez les Anglais (et plus généralement chez les locuteurs de langues germaniques), les occlusives sonores tendent à être alignées avec leurs contreparties sourdes (dévoisées), reflétant certaines tendances de leurs langues maternelles. Chez les Italiens, l’alignement de /y/ avec [u] (comme chez les Espagnols) et l’alignement de /(/ avec une liquide sont également cohérents avec les résultats de la sous-section 5.4.1.2. Pour les voyelles nasales, tous les locuteurs non-natifs du français affichent des taux élevés de variantes non-standard, avec chez les Espagnols et les Italiens près de dix fois plus d’appendices nasaux que chez les locuteurs natifs du français. Ceci est bien audible à l’écoute de ces locuteurs. Les autres résultats sont moins concluants : par exemple, les rapprochements /e/~/y/~/i/ qui tendaient à apparaître dans le triangle vocalique des locuteurs arabes ne s’observent pas ici. On peut remarquer d’ailleurs que souvent, chez les natifs français, certaines variantes non-standard comme le /y/ non-arrondi sont alignées par le système.
Variantes utilisant un ensemble de modèles acoustiques incluant des xénophones
Les variantes de prononciation précédentes étaient destinées à évaluer des confusions potentiellement faites par des locuteurs non-natifs entre phonèmes français. Dans cette sous-section, l’ensemble standard de modèles acoustiques français est complété avec des modèles acoustiques étrangers, en incluant des xénophones afin de rendre compte de prononciations non-natives qui peuvent être « loin » de la cible ou « intermédiaires » entre deux phonèmes français. Nous abordons ci-après le cas des /b/, /v/, /(/, /s/, /l/, /(/ et /u/ français, appariés avec des phonèmes ou allophones empruntés à différentes langues premières : leur réalisation, en effet, motivée par des mécanismes linguistiques spécifiques, peut être particulière aux locuteurs de certaines origines [Delattre, 1965]. Pour des raisons techniques, les langues premières considérées sont limitées à l’espagnol et à l’anglais, pour lesquels les modèles acoustiques ont été entraînés extensivement, au sein des systèmes correspondants de reconnaissance de la parole disponibles au LIMSI [Lamel et al., 2007]. Les unités que nous avons ajoutées sont [(], [(], [s(] et [r], de l’espagnol, [(], [l(] et [(], de l’anglais. Les résultats de l’alignement sont consignés dans le tableau 5.7.
Nous avons vu dans la sous-section 5.4.1.1 que les Anglais tendent à prononcer un /u/ antériorisé. Ceci est confirmé si on laisse le système sélectionner le [(] relâché de l’anglais pour le /u/ français : il apparaît que ce [(] centralisé est aligné dans plus de 50 % des cas pour les Anglais.
Le /l/ a un allophone vélarisé (sombre) en anglais et en portugais, contrairement à ce qui se passe en français [Delattre, 1965]. Le tableau 5.7 témoigne que la variante [(] correspondant au dark ‘l’ anglais est plus souvent alignée pour les locuteurs anglais (et portugais) parlant français que pour les autres locuteurs — comme l’était la variante [w] dans le tableau 5.6.

AllemandAnglaisArabeEspagnolItalienPortugaisFrançais/u/([(] (anglais)12561638152612/l/([(] (anglais)31027783/(/([(] (anglais)621342242/(/([r] (espagnol)14337962128/b/([(] (espagnol)16265439239/v/([(] (espagnol)26198433655/s/([s(] (espagnol)30312956433610/(/([(] (espagnol)34354155404523Tableau 5.7 : taux de variantes non-standard alignées impliquant des xénophones, pour les voyelles, les liquides, les occlusives et les fricatives (%). Des modèles acoustiques français complétés avec des xénophones sont utilisés : la langue d’où proviennent ces derniers (anglais ou espagnol) est indiquée entre parenthèses.

Paradoxalement, les locuteurs anglais produisent davantage de /(/ alignés avec le [r] espagnol qu’avec le [(] anglais, ce qui a été vérifié perceptivement : certains locuteurs prononcent vraiment des ‘r’ « roulés ». Pour le /(/, ce sont les Italiens qui produisent les taux les plus élevés de variantes non-standard — le xénophone [r], notamment, dans plus de 60 % des cas (cf. tableau 5.7). Ces résultats étayent la tendance de nos locuteurs italiens (suggérée dans la sous-section 5.4.1.2) à prononcer des ‘r’ fort éloignés du /(/ français. Il est à noter que la variante [r] a été alignée dans moins de 10 % des cas pour les Espagnols — ce qui écarte un biais potentiel provenant de l’origine des modèles acoustiques. Les Espagnols tendent plutôt à approximer le /(/ français par un son postérieur de type [(].
Chez les Espagnols parlant français, également, le taux élevé de [s°ð] alignés par le système (56 %) reflète la tendance en espagnol à réaliser un allophone apical pour le phonème /s/ [Alba, 2001]. De plus, la fricative palatale [Æð] (dans une majorité des cas) et le [Bð] (aligné avec /b/ comme avec /v/ dans 43 % des cas) sont souvent préférés aux unités correspondant aux phonèmes français. Les alignements précédents, avec uniquement des modèles acoustiques français, ne pouvaient pas aisément rendre compte de ces phénomènes.

Discussion
Dans cette section, des mesures acoustiques (à base de formants et de fréquence fondamentale, notamment) ont été présentées pour le texte PFC, aligné automatiquement. Des triangles vocaliques ont été tracés, permettant d’intéressantes comparaisons entre accents : ils ont en particulier mis en évidence une prononciation plutôt fermée du schwa chez les Portugais, une certaine antériorisation du /u/ chez les Anglais et une certaine postériorisation du /y/ chez les Espagnols et les Italiens parlant français. Des tendances à aspirer les occlusives sourdes et à dévoiser les occlusives sonores ont également été mesurées chez les Allemands et les Anglais parlant français, à travers des durées plus longues pour les consonnes /p/, /t/, /k/ et des taux de voisement relativement bas pour les consonnes /b/, /d/, /(/. Et des différences prosodiques sont apparues, sur lesquelles nous reviendrons.
Une série d’alignements avec des variantes de prononciation non-standard ont ensuite été menées. Une vingtaine de règles permettant de rendre compte de confusions possibles entre voyelles ou consonnes françaises ont été testées, en utilisant toujours des modèles acoustiques français. Le dévoisement des occlusives sonores, notamment, en français avec accent allemand ou anglais, s’est manifesté par des taux élevés de variantes non-standard alignées (ex. /b/([p]), de même que le dévoisement de /z/ et les confusions /b/~/v/ en français avec accent espagnol. D’autres alignements, incluant des xénophones, ont enfin été réalisés. Certaines tendances comme l’antériorisation du /u/ chez les locuteurs anglais et le [r] roulé chez les locuteurs italiens, ont ainsi été corroborées. On peut donc envisager d’utiliser les résultats de la méthode proposée dans de nouvelles expériences, pour identifier automatiquement les accents étudiés.


Identification d’accents à base de techniques de fouille de données

Cette section examine dans quelle mesure les indices mesurés dans la section 5.4 permettent d’identifier nos accents et quels sont les traits de prononciation les plus utiles (à la fois efficaces, pertinents et discriminants) dans une tâche de classification parmi 7 L1. Le dispositif expérimental est décrit en 5.5.1, impliquant de nouveaux locuteurs et de nouvelles données par rapport à la section précédente. En 5.5.2, nous rapportons les résultats d’expériences conçues pour démêler l’importance relative des voyelles, des consonnes et de la prosodie. En 5.5.3, nous cherchons à évaluer quels attributs sont sélectionnés par des techniques d’apprentissage automatique. Les résultats obtenus en identification automatique sont présentés, et comparés à la perception humaine en 5.5.4.

Dispositif expérimental
Comme règle générale, l’ensemble A de locuteurs, analysés dans la section 5.4, a été utilisé pour l’apprentissage et l’ensemble B l’a été pour les tests —nous n’avons pas mis de côté de données de développement (cf. § 5.2). Plus précisément, trois configurations expérimentales ont été définies.
Dans la première configuration (PFC-PFC), les locuteurs étaient différents pour l’apprentissage et pour le test — c’étaient ceux respectivement de l’ensemble A et de l’ensemble B —, mais le matériel lu était le même : il s’agissait du texte PFC. Dans la deuxième configuration (PFC-API), non seulement les locuteurs étaient différents, mais le matériel lu changeait également : les locuteurs de l’ensemble A lisant le texte PFC ont servi à l’apprentissage, comme dans la configuration précédente, les locuteurs de l’ensemble B lisant le texte de l’API ont été gardés pour les tests. Une différence de performance entre ces deux configurations, en termes de taux d’identification correcte, indiquera une dépendance au contenu ou, au contraire, montrera la généricité des traits mesurés dans la section 5.4, pour caractériser les différents accents. Dans la troisième configuration (leave-one-out), une méthode de validation croisée a été utilisée, sur un locuteur à la fois, de façon à maximiser le volume de données disponibles pour l’apprentissage (84–1 locuteurs lisant le texte PFC et celui de l’API). Comme le contenu est partagé entre l’apprentissage et le test, une comparaison des scores d’identification correcte entre les configurations PFC-PFC et leave-one-out indiquera éventuellement un besoin d’estimer les paramètres sur plus de données. Pour appliquer ce paradigme leave-one-out, toutes les données devaient donc être alignées et traitées comme dans la section 5.4, pour construire les vecteurs d’attributs correspondants, caractérisant les locuteurs.
Pour les expériences relatées dans la suite de ce chapitre, nous avons utilisé le logiciel de fouille de données Weka [Witten & Frank, 2005], qui propose 20 algorithmes de classification adaptés à nos types de données, parmi lesquels Bayesian Networks, Logistic Regression Models, Multilayer Perceptrons, Support Vector Machines (SVM), C4.5 (algorithme d’arbres de décision J48), Random Forests. Comme les performances en classification automatique peuvent varier dans une large mesure selon les techniques et les ensembles d’attributs utilisés, les résultats de ces 20 algorithmes ont été moyennés. De cette façon, il était intéressant de comparer les résultats moyennés sur 20 classifieurs et les résultats en perception moyennés sur 25 sujets. De plus, des résultats en classification automatique ont été calculés en appliquant un vote majoritaire : pour un locuteur donné, les sorties des différents classifieurs ont été prises en compte, et l’étiquette (la L1) la plus souvent retournée a été attribuée.

Classification fondée sur des ensembles linguistiques de traits
Les analyses acoustiques décrites dans la section 5.4 ont permis de construire un ensemble de 87 traits (ou attributs) qui peuvent se décomposer ainsi : formants des Voyelles englobant les valeurs de F1 et de F2 des voyelles orales (2 ( 10), durée et voisement des Consonnes (2 ( 17), mesures de la Prosodie avec les deux paramètres de (V et de PVI liés au rythme ainsi que les trois traits liés au schwa final (5), taux de Variantes non-standard alignées en utilisant uniquement des unités acoustiques françaises (20) et en utilisant des Xénophones (8). Après une présentation des résultats globaux, nous allons examiner la contribution de ces sous-ensembles — Voyelles, Consonnes, Prosodie, Variantes françaises et Xénophones.
Les résultats obtenus avec chaque sous-ensemble, en termes d’identification correcte dans une tâche de classification en 7 L1 sont consignés dans le tableau 5.8. Les résultats obtenus avec l’ensemble de Tous les traits ainsi qu’avec les 10, 12 et 15 meilleurs traits sont également affichés — le sens de « meilleurs » sera expliqué et les lignes correspondantes seront commentées en 5.5.3. À chaque fois sont rapportés les résultats moyennés sur 20 algorithmes et donnés par un vote majoritaire, dans trois configurations expérimentales (PFC-PFC, PFC-API et leave-one-out), comme présenté en 5.5.1.
Globalement, les résultats du vote majoritaire sont meilleurs que les résultats moyens, dans (presque) toutes les configurations expérimentales. En particulier, dans la configuration PFC-PFC, où le texte est le même pour les locuteurs de l’apprentissage et du test, les scores d’identification correcte obtenus avec l’ensemble de Tous les traits passent de 47 % à 69 % en appliquant le vote majoritaire. Entre configurations PFC-PFC et leave-one-out, cependant, le gain apporté par davantage de données et de locuteurs d’apprentissage bénéficie aux résultats moyens (+17 %) plus qu’aux résultats du vote majoritaire (+5 % en absolu, pour atteindre 74 % d’identification correcte). Ce dernier taux représente le meilleur score obtenu en classification automatique. Dans la configuration plus réaliste (PFC-API) où les locuteurs du test produisent un échantillon de parole relativement court (1 minute, dont le contenu est différent de celui des données d’apprentissage), on note une importante diminution des performances par rapport aux configurations où le texte est commun aux locuteurs de l’apprentissage et du test. Toutefois, le vote majoritaire donne 50 % d’identification correcte, ce qui est assez proche des résultats de l’expérience perceptive 7L1 (cf. § 5.3.4).

Attributs (#)Résultats moyensRésultats du vote majoritairePFC-PFCPFC-APIleave-1-outPFC-PFCPFC-APIleave-1-outTous(87)473564695074Voyelles (20)362745363859Consonnes(34)391946433355Prosodie(10)261618312632Variantes fr.(20)363260603868Xénophones(8)37304433315710 meilleurs(10)45365655456012 meilleurs(12)48376162437015 meilleurs(15)473563624569Tableau 5.8 : taux d’identification correcte (%) obtenus dans une tâche de classification en 7 L1, en moyennant les résultats de 20 algorithmes (à gauche) ou en appliquant un vote majoritaire (à droite), dans trois configurations expérimentales. Le nombre d’attributs utilisés dans chaque ensemble ou sous-ensemble de traits est rappelé entre parenthèses.

Concernant les résultats moyens obtenus avec les différents sous-ensembles linguistiques de traits, les taux d’identification correcte se montrent assez sensibles aux changements de contenu et de durée des données, pour les traits Voyelles, Consonnes et Prosodie. Dans la configuration PFC-API, les résultats auxquels on aboutit avec les traits Consonnes et Prosodie sont pratiquement au niveau du hasard. Avec les traits Prosodie, les résultats sont même plus mauvais dans la configuration leave-one-out que dans la configuration PFC-PFC, alors que pour tous les autres sous-ensembles d’attributs les résultats de la validation croisée (leave-one-out) sont les meilleurs. Les traits Variantes françaises et Xénophones se révèlent plus robustes au changement de corpus : on ne perd respectivement que 4 % et 7 % en absolu, en matière de taux d’identification correcte, entre les configurations PFC-PFC et PFC-API. De plus, ces sous-ensembles de traits donnent de bonnes performances pour relativement peu d’attributs. Les résultats obtenus avec le sous-ensemble Xénophones (8 attributs), en particulier, sont meilleurs et plus stables que ceux que fournit le sous-ensemble Prosodie (5 attributs).
Concernant les résultats du vote majoritaire, les taux d’identification correcte les plus élevés sont obtenus avec le sous-ensemble de Variantes françaises et les plus bas avec le sous-ensemble Prosodie — ce, dans les dans les trois configurations expérimentales. Les résultats du vote majoritaire restant en règle générale meilleurs que les résultats moyens, on observe des tendances similaires dans ces deux schémas, à l’exception peut-être des résultats obtenus avec les traits Voyelles — légèrement meilleurs dans la configuration PFC-API que dans la configuration PFC-PFC, avec le vote majoritaire. Les formants de certaines voyelles, comme d’autres traits, peuvent en effet être plus ou moins pertinentes dans une tâche de classification. C’est ce que nous allons analyser à présent.

Classification fondée sur une sélection automatique de traits
Nous avons eu recours à la sélection automatique de traits pour identifier quels indices sont les plus pertinents pour la classification des accents. Cette sélection vise également à éliminer les attributs inadaptés, pour potentiellement améliorer les performances des algorithmes d’apprentissage [Guyon I. & Elisseeff, 2003].
Nous avons mené des expériences avec sept algorithmes de sélection implémentés dans Weka, tels que les SVM, Information Gain et Principal Component Analysis. Comme précédemment, nous avons souhaité lisser les résultats en moyennant les sorties des algorithmes —lesquels fournissent différents classements et nombres d’attributs sélectionnés. Dans ce but, nous avons défini un score pour chaque attribut j, selon la formule suivante :
 EMBED Equation.3  [5.1]
où rangi(j) est le rang obtenu par l’attribut j avec l’algorithme i, m(j) est le nombre d’algorithmes qui sélectionnent cet attribut j, M est le nombre total d’algorithmes utilisés (ici 7) et Jmax correspond au nombre total d’attributs. Le rapport  EMBED Equation.3  donne plus de poids aux attributs sélectionnés par le plus d’algorithmes. Les N meilleurs traits correspondent dès lors aux attributs qui obtiennent les N meilleurs scores.
D’après le tri résultant de l’application de la formule 5.1 ci-dessus, les N meilleurs attributs avec N = 12 sont : les deux premiers formants de /(/, le deuxième formant du /e/ et du /a/, les pourcentages d’appendices nasaux issus de l’alignement automatique ainsi que les taux de variantes alignées en /z/([s], /b/([v], /b/([p], /d/([t], /(/([l] et /(/([r]. Les trois suivants (étendant l’ensemble des N meilleurs attributs avec N = 15) sont le PVI sur les voyelles, la durée du /(/ et le taux de variantes alignées en /v/([(].
Les résultats obtenus avec les 10, 12 et 15 meilleurs attributs sont donnés dans les lignes du bas du tableau 5.8. Ils montrent combien la sélection automatique est efficace, dans la mesure où les résultats de la classification en termes d’identification correcte (notamment les résultats moyens), avec peu de traits, sont très proches de ceux auxquels on aboutit avec l’ensemble de Tous les traits. En appliquant le vote majoritaire, on obtient systématiquement de meilleurs résultats avec l’ensemble de Tous les traits qu’avec les sous-ensembles de N meilleurs traits. Avec ces derniers, cependant, on obtient de meilleurs résultats qu’avec les sous-ensembles linguistiques de traits, dans la configuration PFC-API notamment, ce qui de nouveau démontre l’efficacité de la sélection automatique. Les N meilleurs traits sélectionnés continuent à faire sens au regard de connaissances linguistiques et se montrent plutôt robustes au changement de corpus.
Les résultats moyens en termes d’identification correcte, obtenus avec un nombre N croissant progressivement, sont illustrés dans la figure 5.5. Ils se montrent assez stables au-dessus de N = 12 attributs. Le taux moyen d’identification correcte reste par exemple autour de 60 % dans la configuration leave-one-out. En appliquant le vote majoritaire, ce taux monte au-dessus de 70 %. Il est intéressant de comparer ces résultats avec ceux de l’expérience perceptive 7L1 rapportés en 5.3.4.












Figure 5.5 : taux moyen d’identification correcte (%) dans les configurations PFC-PFC, PFC-API et leave-one-out de classification automatique en 7 L1, en fonction du nombre d’attributs. Les lignes pointillées indiquent 10 et 15 attributs.

Comparaison avec la perception humaine
Matrices de confusion
Même si les résultats des expériences perceptives (rapportés dans les tableaux 5.1 et 5.2) et ceux de la classification automatique ne sont pas directement comparables, certaines similitudes et différences entre eux méritent d’être notées. Nous avons déjà souligné certaines similitudes, à travers la sélection automatique de traits qui étaient également cités parmi les indices les plus saillants par les sujets des expériences perceptives. Nous y reviendrons dans les sous-sections suivantes, qui présentent des arbres de décision et des corrélations. Permettant un autre type de comparaison, les tableaux 5.9 et 5.10 donnent les matrices de confusion obtenues en moyennant les résultats de 20 algorithmes utilisant les 12 meilleurs traits, dans les configurations PFC-API et leave-one-out respectivement.
Dans la configuration PFC-API, où l’on est dans les mêmes conditions que lors de l’expérience perceptive 7L1, le taux d’identification correcte (37 %) est plus bas que dans l’expérience perceptive 7L1 (60 %), ce taux étant de 61 % dans la configuration leave-one-out (cf. tableau 5.8). De façon cohérente dans les deux tableaux 5.9 et 5.10, cependant, les locuteurs italiens se révèlent être mieux identifiés par la classification automatique que par la perception humaine : avec au moins 50 % d’identification correcte, les Espagnols et les Italiens se voient ici bien distingués, alors qu’ils étaient souvent confondus par les auditeurs des expériences perceptives (cf. tableaux 5.1 et 5.2). Que ce soit en classification automatique ou en perception humaine, on note également une certaine confusion entre Allemands et Anglais. Il demeure que ces locuteurs sont bien identifiés à une majorité relative : la réponse majoritaire est de fait la bonne (sur les diagonales des tableaux 5.9 et 5.10) pour pratiquement chaque origine linguistique. Les seules exceptions sont les origines arabe et portugaise dans la configuration PFC-API (tableau 5.9), ce qui peut s’expliquer par le faible degré d’accent des locuteurs arabes retenus pour le test — 1,5 sur 5 (cf. § 5.3.4) — et la difficulté déjà mentionnée à cerner l’accent portugais.
Dans le tableau 5.10, le taux d’identification correcte est pour chaque L1 supérieur à ce que montre la matrice de confusion correspondant à la configuration PFC-API. Les meilleurs scores proviennent des locuteurs français (53 %) dans la configuration PFC-API et des locuteurs espagnols (77 %) dans la configuration leave-one-out. Le gain entre les deux configurations est particulièrement appréciable pour ces locuteurs espagnols, qui sont caractérisés par un certain nombre de traits robustes.

Configuration PFC-APIRéponse
OrigineAllemandAnglaisArabeEspagnolItalienPortugaisFrançaisAllemand231720811715Anglais16366716416Arabe16282732223Espagnol323650837Italien61011451217Portugais113191291810Français0251710453Tableau 5.9 : matrice de confusion (%) obtenue en moyennant les résultats de 20 algorithmes utilisant pour la classification les 12 meilleurs traits, dans la configuration PFC-API.

Configuration leave-one-outRéponse
OrigineAllemandAnglaisArabeEspagnolItalienPortugaisFrançaisAllemand4815146584Anglais205095477Arabe18838231021Espagnol77377141Italien474264118Portugais10914711463Français352412263Tableau 5.10 : matrice de confusion (%) obtenue en moyennant les résultats de 20 algorithmes utilisant pour la classification les 12 meilleurs traits, dans la configuration leave-one-out.

Arbres de décision
Il peut être instructif de suivre les stratégies d’un algorithme de classification en particulier, pour comparaison avec les jugements des sujets des expériences perceptives. L’algorithme d’arbres de décision C4.5 (implémenté dans Weka sous le nom J48) donne des résultats parmi les meilleurs, et sa sortie est directement interprétable. La figure 5.6 dépeint l’arbre de décision utilisant les 12 meilleurs traits sélectionnés automatiquement — dont la performance est de 50 % d’identification correcte dans la configuration PFC-PFC, de 33 % dans la configuration PFC-API.
Comme on le voit, l’identification de l’accent portugais en français s’appuie uniquement sur les deux premiers formants (normalisés) du /(/. Il est à noter que si l’on applique ce même algorithme C4.5 avec les 15 meilleurs ou Tous les traits, les mêmes indices sont utilisés pour isoler l’accent portugais. Peu d’indices, en effet, caractérisent cet accent, qui a souvent été mal identifié dans les expériences perceptives de la section 5.3. L’antériorisation du schwa permet d’isoler les Espagnols et les Italiens, lesquels sont départagés par le taux (supérieur chez les Espagnols) de variantes alignées en /b/([v]. La fermeture/ antériorisation de /e/ est quant à elle commune aux Arabes et aux Allemands, lesquels sont départagés par le taux de variantes alignées en /d/([t] (avec davantage de dévoisement chez les Allemands).













Figure 5.6 : arbre de décision fourni par l’algorithme C4.5 implémenté dans Weka (J48), utilisant les 12 meilleurs traits sélectionnés automatiquement. Les chiffres séparés par des barres obliques désignent à gauche le nombre total de locuteurs classés sous le nœud en question, à droite le nombre de locuteurs classés par erreur sous ce nœud.

Les groupes de langues donnés par l’arbre de décision peuvent être comparés au clustering résultant des réponses des auditeurs dans l’expérience perceptive (figure 5.1). La classification automatique des Allemands est décevante par rapport à la perception humaine. Une explication peut résider dans le fait que les locuteurs allemands de l’ensemble A (utilisés pour l’apprentissage par l’algorithme C4.5) étaient jugés comme ayant l’accent le plus faible dans l’expérience 6L1 — 2,2 sur 5 (cf. tableau 5.1). Les locuteurs natifs du français, également, ont été bien mieux distingués dans l’expérience perceptive 7L1. Comme dans l’extraction des patrons caractéristiques des accents nous étions surtout intéressés par les accents étrangers, nous avons exclu le débit de parole des traits potentiellement pertinents. Conserver cet indice aurait très certainement amélioré l’identification des locuteurs natifs du français (cf.§ 5.4.1.2).
Corrélations entre identification perceptives et mesures acoustiques
Nous avons vu dans la section 5.3 comment des auditeurs français identifient et classifient des accents étrangers. Nous avons mesuré nombre d’indices, présentés dans la section 5.4, et jusqu’ici dans la section 5.5 nous avons étudié comment ces indices peuvent être utilisés en classification automatique. On peut également se demander dans quelle mesure les traits dégagés sont utilisés en perception, pour identifier tel ou tel accent.
Une autre façon de relier l’identification par l’humain et par la machine consiste à mesurer des corrélations entre perception et traits sélectionnés automatiquement. Cela a été fait par Clopper et Pisoni [2004] pour six accents régionaux de l’anglais américain, avec des indices linguistiques considérés a priori. Nous avons, pour cette sous-section, calculé le combien de fois chaque locuteur a été reconnu comme allemand, anglais, arabe, espagnol, italien ou portugais dans les expériences perceptives 6L1 et 7L1, et calculé les coefficients de corrélation de Pearson entre ces nombres et les et les mesures acoustiques pour chaque locuteur, parmi les 12 meilleurs traits sélectionnés automatiquement (par exemple, le taux de variantes alignées en /b/([v]). Le tableau 5.11 rapporte les résultats qui sont cohérents entre les expériences 6L1 (avec l’ensemble A de locuteurs lisant le texte PFC, pour l’analyse acoustique) et l’expérience 7L1 (avec l’ensemble B de locuteurs lisant le texte de l’API). Les réponses correspondant aux natifs français n’ont pas été comptées, puisque cette possibilité n’était pas proposée dans l’expérience 6L1. Chaque cellule du tableau contient donc un coefficient de corrélation entre deux séries de 36 valeurs.

Expérience 6L1Expérience 7L1 AlAnArEsItPoAlAnArEsItPoF2/(/0,10,16-0,160,080-0,280,17-0,03-0,040,090,02-0,42/d/([t]0,140,76-0,35-0,02-0,38-0,280,120,53-0,22-0,1-0,42-0,25/b/([p]0,270,71-0,37-0,08-0,41-0,270,260,62-0,21-0,3-0,41-0,39/b/([v]-0,060,16-0,410,47-0,080,050,14-0,07-0,030,27-0,2-0,29/(/([l]-0,290,41-0,340,120,49-0,24-0,120,11-0,19-0,10,450,02/(/([r]-0,260,27-0,320,130,58-0,23-0,010,05-0,28-0,10,460,01Tableau 5.11 : corrélations entre les identifications comme allemand, anglais, arabe, espagnol, italien ou français lors des expériences 6L1 (à gauche) et 7L1 (à droite) avec les mesures acoustiques. Ces dernières, rapportées pour certaines voyelles, occlusives et liquides sont faites sur le texte PFC lu par les locuteurs de l’expérience 6L1 et le texte de l’API lu par les locuteurs de l’expérience 7L1.

On observe une corrélation élevée entre le fait que les locuteurs sont perçus comme anglais et les taux de consonnes sonores (/d/ ou /b/) alignées avec leurs contreparties sourdes ([t] ou [p], respectivement). L’identification comme italien est également la plus corrélée aux taux de variantes de /Òð/ alignées avec une latérale ou une vibrante (voir les deux lignes du bas du tableau 5.11). Quant aux corrélations négatives entre identification comme portugais et F2 du schwa, elles sont en accord avec la tendance des Portugais à prononcer un /(/ moins antériorisé que les autres locuteurs. Même si les corrélations qui existent ne signifient pas que de tels indices sont les plus saillants en perception, ces traits sélectionnés automatiquement peuvent refléter des traits de prononciation utilisés consciemment ou inconsciemment par les auditeurs pour identifier différents accents en français.

Discussion
Résumons : dans cette section, différents algorithmes de classification du logiciel Weka tels que les SVM et les arbres de décision ont été utilisés. Ils ont été entraînés avec l’ensemble A de locuteurs et testés avec l’ensemble B de locuteurs, ou bien ils ont été entraînés et testés par validation croisée leave-one-out afin de maximiser le volume de données disponibles pour l’apprentissage. Dans le premier cas, les tests ont été menés soit sur le texte utilisé pour l’apprentissage (configuration PFC-PFC) soit sur un texte non-vu lors de l’apprentissage (configuration PFC-API). Dans le dernier cas (configuration leave-one-out), ces deux tests ont servi à l’apprentissage et aux tests — il n’y avait pas d’ensemble de développement. Différents ensembles de traits ont été utilisés, et les résultats obtenus dans une tâche de classification en 7 L1 ont été calculés, soit en moyennant les sorties de 20 algorithmes soit en appliquant un vote majoritaire. Le vote majoritaire a donné 74 % d’identification correcte dans la condition la plus favorable (configuration leave-one-out avec l’ensemble complet de 87 traits), correspondant aux meilleurs résultats. Le taux d’identification correcte tombe à 50 % dans la configuration PFC-API, plus réaliste, où les locuteurs testés produisent un échantillon de parole relativement court (1 minute), dont le contenu diffère de celui des données d’apprentissage. Ce résultat est encore en deçà des performances humaines, dans les mêmes conditions. En même temps, les taux d’identification obtenus par validation croisée nous encouragent à espérer des scores meilleurs avec des quantités de données moins limitées.
Les résultats de la classification avec des sous-ensembles linguistiques de traits (formants des voyelles, durée et voisement des consonnes, indices prosodiques, taux de variantes non-standard alignées en utilisant seulement des unités acoustiques françaises et en utilisant des xénophones) font apparaître une contribution modeste de la prosodie. Globalement, de bons résultats ont été obtenus en utilisant le sous-ensemble constitué des formants des voyelles. Pour identifier les accents, nous pensons que des améliorations pourraient être obtenues en utilisant des traits comme les MFCC et en combinant des méthodes plus « standard » en traitement automatique de la parole (avec des GMM et des SVM) [Pedersen & Diederich, 2007] (cf. § 3.1). Mais le but ici était moins d’atteindre des scores d’identification élevés que d’acquérir ou de mettre à l’épreuve des connaissances linguistiques.
Des techniques de sélection automatique ont également été utilisées pour hiérarchiser les indices les plus discriminants et trouver un ensemble concis de traits caractéristiques des accents étudiés. Avec un ensemble restreint de 12 traits sélectionnés automatiquement, nous avons obtenu des résultats similaires à ceux que permet d’obtenir l’ensemble complet de 87 traits (jusqu’à 70 % d’identification correcte en appliquant un vote majoritaire). Des mesures de formants et des taux de variantes non-standard alignées qui font sens à la lumière de connaissance linguistique se montrent les plus efficaces : ce sont, parmi d’autres, les deux premiers formants du /(/, le F2 du /e/ ainsi que les taux de variantes alignées en /z/([s], /b/([v], /b/([p], /d/([t] et /(/([r]. Les matrices de confusion fournies par les algorithmes de classification, les choix opérés par les arbres de décision ainsi que les corrélations entre perception et traits sélectionnés ont donnés d’intéressants éléments de comparaison avec les résultats des expériences perceptives.


Conclusion

Une étude des accents allemand, anglais, arabe, espagnol, italien et portugais en français (accents étrangers avec lesquels nous avons le plus de chance d’être exposés) a été décrite dans ce chapitre. Un corpus de plus de 15 heures de parole a été enregistré, impliquant 72 locuteurs non-natifs et 12 natifs du français, en parole spontanée (conversations face à face) et en lecture (texte PFC et texte de l’API). Une partie de ce corpus a fait l’objet d’expériences perceptives, dans lesquels un degré d’accent et une origine perçue ont été attribués aux locuteurs testés. Des mesures acoustiques objectives ont été effectuées sur ce corpus, tirant particulièrement profit de l’alignement automatique en phonèmes. Et ces mesures ont été utilisées pour identifier automatiquement, au moyen de techniques de fouille de données, la L1 des locuteurs. Au vu des résultats des expériences perceptives, des mesures acoustiques et de l’identification automatique, nous pouvons tenter de répondre aux trois questions posées en début d’introduction à ce chapitre (cf. § 5.1). Nous allons également mettre en évidence certains points différant des chapitres précédents.
Concernant la question de la capacité de sujets français à identifier les six accents étrangers étudiés, les auditeurs de nos expériences ont bien identifié les accents qui leur étaient présentés, qu’ils jugeaient moyens, dans plus de 50 % des cas. Les auditeurs, également, ont été capables d’inventorier un certain nombre d’indices caractéristiques d’un accent étranger en particulier ou en général. Dans au moins une des expériences perceptives qui ont été menées (l’expérience 6L1), leurs commentaires ont été enregistrés au fil du test, ce qui n’a pas été fait dans les expériences relatées dans les chapitres précédents.
Concernant la question des indices distinguant les accents considérés, la plupart des traits de prononciation qui ont été relevés et la plupart des mesures qui ont été effectuées (dont les formants des voyelles, la durée et le voisement des consonnes) participaient du niveau segmental. Des patrons prosodiques liés au rythme et aux mots terminés par un schwa prononcé ont été mis en évidence. Mais les indices les plus pertinents semblent être l’antériorisation ou la fermeture du schwa, le dévoisement des occlusives sonores ainsi que les confusions /b/~/v/ et /s/~/z/. D’autre part, les résultats de la classification fondée sur des ensembles linguistiques de traits (voyelles, consonnes, prosodie) ont montré un rôle relativement modeste joué par la prosodie, pour reconnaître des accents étrangers en français. Cette question du poids de la prosodie, dans différents accents et styles de parole, continuera à nous occuper dans les prochains chapitres.
Concernant la question de la possibilité de modéliser la perception humaine par la machine, question complexe s’il en est, certains des résultats que nous venons de rapporter vont dans ce sens. La plupart des traits sélectionnés automatiquement par des techniques de fouille de données ont été cités par les auditeurs des expériences perceptives. Mais le timbre du schwa chez les Portugais parlant français, qui semble discriminant pour la machine, n’est pas apparu comme saillant aux oreilles de nos auditeurs. De même, un taux de 50 % d’identification correcte a pu être atteint par classification automatique, en appliquant un vote majoritaire, dans la configuration de test la plus réaliste (celle de données non-vues). Mais le gain de performance obtenu par une méthode de validation croisée suggère que la machine a besoin de plus de données d’apprentissage et de test. Enfin, les confusions entre accents allemand et anglais sont communes aux auditeurs et à la machine. Mais l’accent espagnol, caractérisé par nombre de traits, a été mieux identifié par la machine, alors qu’il pouvait souvent être confondu avec l’accent italien par les auditeurs.
Les mêmes questions se posent, au moins en partie, pour les accents étrangers et régionaux. Des différences, au demeurant, sont notables entre nos approches des accents étrangers et celle des accents régionaux, développée dans les chapitres 2 et 3. La principale tient au succès avec lequel les auditeurs de nos expériences perceptives ont pu discriminer entre six accents étrangers. Les résultats de ces expériences suggèrent qu’une discrimination fine entre accents régionaux est plus difficile qu’entre accents étrangers — pour lesquels dans une tâche similaire les taux d’identification correcte sont d’au moins 10 % supérieurs. Dans le but, également, d’identifier automatiquement six accents étrangers en plus du français natif, nous avons mesuré un plus grand nombre de traits opératoires que dans le chapitre 3 (cf. § 3.5): d’où l’importance d’algorithmes de sélection et de classification. Nous en avons éprouvé une vingtaine ici (contre deux dans le chapitre 3), pour nous rapprocher du dispositif expérimental des expériences perceptives impliquant 25 sujets, compensant pour ainsi dire le nombre de locuteurs plus limité que dans le chapitre 3.
Les indices d’un accent — qu’il soit étranger, régional ou social — peuvent être plus ou moins fréquents, ce que nous n’avons pas pris en considération dans nos expériences à base de traitement automatique. Ils peuvent être rares, tout en étant très discriminants. À l’avenir, nous aimerions approfondir ce problème, qui mérite un traitement en soi. L’instrument de mesure est certainement à perfectionner, pour affiner les traits et en saisir de nouveaux. Des travaux sont nécessaires, en particulier, pour extraire des traits subsegmentaux comme le VOT. De plus, les variantes de prononciation alignées les plus pertinentes peuvent être utilisées pour faire de nouvelles mesures. Un système capable de fournir une mesure du degré d’accent tel que celui qu’ont développé Sangwan et Hansen [2009] serait une autre application possible. Enfin, nous espérons que ce travail pourra être utile à l’enseignement du français langue étrangère, à l’instar de ce qui est fait pour d’autres langues [Eskénazi et al., 2007 ; Mixdorff et al., 2009].
DEUXIÈME PARTIE :

LE RÔLE DE LA PROSODIE DANS UN ACCENT OU UN STYLE
Alors que les chapitres précédents n’ont que sporadiquement mis en évidence l’importance des faits prosodiques dans ce qui est perçu comme un accent régional ou étranger, le rôle de la prosodie dans la perception d’un accent ou d’un style est au centre des trois chapitres de notre deuxième partie. Pour l’étudier, nous utilisons notamment la synthèse par diphones et la modification/resynthèse de la parole.
Le chapitre 6 présente la méthodologie des paradigmes de recopie de prosodie que nous avons développés — et qui peuvent être appliqués à divers accents et styles. Nous illustrons d’abord la méthode par une application à l’espagnol et à l’italien, langues qui permettent de construire des phrases qui se disent pratiquement de la même manière dans les deux langues (ex. ha visto la casa del presidente americano). Des monolingues et des bilingues espagnol/italien ont été enregistrés, et nous étudions ce qui est perçu quand on croise les caractéristiques segmentales d’un énoncé avec des traits prosodiques appartenant à une autre langue. Dans ces conditions, les résultats obtenus auprès d’auditeurs espagnols et italiens montrent l’importance de la prosodie pour identifier un accent espagnol en italien et un accent italien en espagnol.
Le chapitre 7 présente trois études sur la contribution de la prosodie à la perception d’un accent maghrébin, d’un accent polonais et d’un accent de banlieue en français. À chaque fois, des expériences perceptives sont menées, exploitant de différentes façons la modification/resynthèse de la prosodie. Les expériences sur l’accent maghrébin ne permettent pas de mettre en évidence un rôle majeur de la prosodie, ni des différences entre accents kabyle et arabe en français — sauf peut-être pour les accents les plus forts. Les expériences sur l’accent polonais suggèrent que, pour les locuteurs à l’accent le plus marqué, la perception de leur prononciation comme non-native vient en partie de la prosodie, et en particulier d’une tendance à trop segmenter les énoncés. Pour autant, nous n’interprétons pas cette dernière tendance en termes de transfert prosodique mais plutôt comme le résultat d’une charge cognitive top importante. De même, nos expériences sur l’accent de banlieue montrent que la présence d’une chute abrupte de F0 est un indice déterminant de cet accent. La répétition de ce patron mélodique, qui peut être perçue comme des coups exprimant une forme d’agressivité, permet d’affirmer une certaine identité. Cependant, l’influence de l’arabe sur la prononciation des jeunes de banlieue est selon nous loin d’être prouvée.
Le chapitre 8 se concentre sur l’évolution de la prosodie dans le style journalistique français, à partir de l’analyse acoustique et perceptive d’archives audiovisuelles remontant aux années 1940. Deux traits prosodiques qui peuvent donner une impression de style emphatique sont examinés : l’accent initial et l’allongement pénultième notamment avant une pause. Des mesures objectives (automatisées sur un corpus d’une dizaine d’heures de parole constitué de bulletins d’informations) suggèrent qu’en plus d’un demi-siècle ont diminué (1) la F0 moyenne des journalistes, (2) la montée initiale associée à l’accent initial, (3) la durée vocalique caractérisant un accent initial emphatique et (4) l’allongement pénultième prépausal. Les attaques de syllabes initiales accentuées, quant à elles, se sont allongées au fil des décennies, alors que le débit de parole (mesuré au niveau des phonèmes) n’a pas évolué. Ce résultat soulève d’intéressantes questions pour la recherche sur la prosodie en français, suggérant que les corrélats de durée de l’accent initial ont changé au cours du temps, dans le style journalistique français.



6
6. Accents espagnol en italien et italien en espagnol
Introduction

L’information portée par le niveau segmental permet souvent d’identifier un accent spécifique : nous l’avons vu notamment dans le chapitre précédent, pour divers accents étrangers en français. La prosodie est également essentielle dans l’acquisition du langage, et peut conditionner certains ajustements dans l’apprentissage d’une langue étrangère. Si les caractéristiques phonémiques et prosodiques sont importantes, un accent étranger devrait refléter ces deux dimensions. Mais la contribution de la prosodie à la perception d’un accent étranger, malgré son intérêt d’un point de vue à la fois empirique et théorique [Anderson-Hsieh, 1993] n’a que très peu été discutée. Souvent même, les études se concentrent sur l’articulation des seules voyelles [Kuhl, 1991 ; Flege et al., 1997b ; Pallier et al., 1997 ; Walley & Flege, 1998] ou, plus rarement, des consonnes [Flege, 1991 ; Flege et al., 1995 ; Tsukada et al., 2004 ; Tsukada, 2005]. La prosodie n’a également qu’un rôle mineur dans les modèles de perception et de production de la parole non-native. Un modèle tel que le SLM de Flege [2003] (cf. § 1.4.6) s’attache d’abord aux notions de similarité phonétique et de catégories perceptives nouvelles lors de l’acquisition, au niveau segmental — chez l’adulte fort d’une certaine expérience en L2, en particulier. Le modèle Native Language Magnet (NLM) est également fondé sur des unités linguistiques de la taille du phonème. Quant au PAM [Best et al., 2001], ce modèle décrit surtout la variation de discrimination entre phonèmes non-natifs, en fonction de la qualité de leur ajustement phonétique (goodness of fit) à des catégories natives. Ces trois modèles renvoient à l’hypothèse du filtrage phonologique et à l’interférence entre L1 et L2, mais prêtent peu attention à la prosodie. Celle-ci est souvent négligée [Piske et al., 2001 ; Vaissière & Boula de Mareüil, 2004], peut-être en raison de difficultés expérimentales, liées à des problèmes d’équipement adéquat.
Le rôle de la prosodie dans la perception d’un accent étranger a été étudié pour l’anglais avec accent néerlandais [de Bot, 1983], le français avec accent anglais [Grover et al., 1987], le thaï avec accent anglais [Wayland, 1997], l’anglais avec accent espagnol [Magen, 1998] et l’allemand avec accent italien [Missaglia, 1999]. Pennington et Ellis [2000] ont examiné la perception qu’ont des Cantonais de l’intonation anglaise. Jilka [2000] a également étudié la contribution de l’intonation à une impression d’accent anglais en allemand et allemand en anglais. Ces études donnent des arguments en faveur d’un rôle majeur de l’intonation dans la perception de la parole non-native. Citons enfin des travaux visant à élucider le rôle du rythme, notamment en anglais avec accent mandarin [Munro, 1995 ; Tajima et al., 1997 ; Munro & Derwing, 2001].
De nouvelles expériences peuvent bénéficier du traitement automatique de la parole. La synthèse de la parole, notamment, a été utilisée à des fins de délexicalisation et de monotonisation [Ramus, 1999] et, de même que la parole simulée ou altérée, dans des recherches sur l’accent étranger [Grover et al., 1987 ; Munro, 1995 ; Flege et al., 1997b ; Magen, 1998 ; Jilka, 2000]. Elle permet de démêler la part de la chaîne de phonèmes et de la prosodie dans ce qui est perçu comme accent étranger. Nous sommes conscient que séparer ces deux niveaux soulève des questions théoriques et méthodologiques, et la façon dont interagissent les deux plans segmental et suprasegmental peut dépendre des langues et des accents [Laeufer, 1992]; mais le rôle majeur de la mélodie et de la durée comme indices de la structure prosodique est largement accepté.
Ce chapitre analyse les accents étrangers dans deux langues voisines : l’espagnol et l’italien, qui nous ont permis de construire des phrases qui se disent (quasiment) de la même façon dans les deux langues (ex. ha visto la casa del presidente americano). Ces phrases étroitement contrôlées ont été lues par des locuteurs natifs de l’espagnol et de l’italien, fournissant des chaînes de phonèmes similaires avec des prosodies différentes, en raison des caractéristiques phonétiques de ces deux langues. La synthèse de la parole a ensuite été utilisée pour combiner les propriétés segmentales d’une langue avec la prosodie de l’autre. Elle sera aussi utilisée dans les prochains chapitres, dédiés à divers accents et styles en français. Mais l’espagnol et l’italien offrent une configuration privilégiée pour éprouver la méthodologie.
Le présent chapitre rapporte deux expériences, utilisant la synthèse par diphone (expérience Dip) et de la parole naturelle modifiée (expérience Nat), sur la base du même corpus. La méthodologie est décrite dans les sections suivantes. Des tests d’écoute ont été soumis à des groupes de sujets espagnols et italiens. Le but était de déterminer l’influence relative du niveau segmental et de la prosodie dans la perception d’un accent étranger.


Expérience utilisant la synthèse par diphones (expérience Dip)

Pour analyser la perception de l’accent espagnol/italien, nous avons mis au point un corpus de 14 phrases d’environ 15 syllabes en moyenne, qui partagent des chaînes de phonèmes similaires en espagnol et en italien, d’après des règles de conversion graphème-phonème standard pour l’espagnol (castillan) et l’italien (toscan). Ce faisant, nous avons souhaité minimiser le biais de l’identification des langues, et nous avons examiné ce qui est perçu lorsqu’on croise le segmental et le suprasegmental de ces deux langues.
Nous avons eu recours à la recopie de prosodie et à un transcodage phonémique cross-langue : pour chaque phonème d’une phrase espagnole, les paramètres de F0 et de durée sont copiés sur le phonème correspondant de la chaîne italienne et vice versa. Des locuteurs et des locutrices natifs de l’espagnol et de l’italien ont été enregistrés ; leurs paramètres prosodiques ont été extraits vérifiés manuellement avec l’aide d’autres locuteurs natif, et plaqués sur les voix synthétiques à base de diphones d’un locuteur espagnol (EM0), d’une locutrice espagnole (EF0), d’un locuteur italien (IM0) et d’une locutrice italienne (IF0).

Préparation du texte
Les phrases utilisées sont inventoriées dans le tableau 6.1 et traduites en français dans le tableau 6.4. La fréquence d’occurrence des voyelles et des consonnes, dans cette liste de phrase, ne se veut pas représentative de la fréquence lexicale des phonèmes dans les langues analysées. Ces phrases ont été créées, tout en essayant de maintenir une certaine cohérence sémantique, de façon à sélectionner différentes modalités (exclamative, assertive, interrogative), des structures grammaticales variées (avec des syntagmes prépositionnels, des propositions subordonnées conjonctive et relative), à différents temps (présent, passé composé, imparfait, prétérit, futur) et autant de mots outils que possible. Des exemples en sont ha, era (verbes auxiliaires), la, un (déterminants), al, del (articles contractés), con, a (prépositions), e, o (conjonctions), te, lo (pronoms clitiques), poca, tanto (adjectifs indéfinis), dentro (adverbe). Ces mots similaires entre espagnol et italien sont très fréquents. Nous avons calculé l’intersection entre deux listes de mots dont nous disposions, provenant de transcriptions de dizaines d’heures de parole de bulletins d’informations en espagnol et en italien. Chaque liste contenait environ 25 000 entrées différentes, dans leurs formes orthographiques et phonémiques, et nous avons trouvé plus de 500 mots partageant la même prononciation large dans les deux langues.

N°EspagnolItalien1
2
3
4
5
6
7
8
9
10Al teléfono, Antonio manifestó poca simpatía.
La música dura sólo un minuto.
Debo arrestarle e identificarle dentro.
¿Ha visto la casa del presidente americano, sí o no?
Lentamente, Marina canta “Talla la leña”.
La bomba atómica era un problema político.
Te lo dirá María que perdono al médico.
La mía protesta tristemente cuando bebo tanto vino.
La persona que viene sale con un alpinista.
Mario compra un piano a crédito.Al telefono, Antonio manifestò poca simpatia.
La musica dura solo un minuto.
Devo arrestarle e identificarle dentro.
Ha visto la casa del presidente americano, sì o no?
Lentamente, Marina canta “Taglia la legna”.
La bomba atomica era un problema politico.
Te lo dirà Maria che perdono al medico.
La mia protesta tristemente quando bevo tanto vino.
La persona che viene sale con un alpinista.
Mario compra un piano a credito.11
12
13
14La línea verde señala un itinerario fantástico.
Un baño fresco lava naturalmente poco.
Un taxi, qué sorpresa! un autobús, qué fenómeno!
La polaca prepara la lista.La linea verde segnala un itinerario fantastico.
Un bagno fresco lava naturalmente poco.
Un taxi, che sorpresa! un autobus, che fenomeno!
La polacca prepara la lista.Tableau 6.1 : phrases (numérotées) du corpus, avec les conventions orthographiques espagnoles et italiennes.

Sur le plan phonétique, nous avons veillé à la prononciation de phonèmes tels que /´ð/ et à la diversité des patrons accentuels : oxyton (ex. autobús), paroxyton (perdono), proparoxyton (ex. crédito)  même si à cette étape la présence de tels phonèmes et les patrons accentuels n étaient contrôlés que sur la base de prédictions linguistiques. 80 % des mots polysyllabiques du corpus sont paroxytons (i.e. accentués sur l’avant-dernière syllabe), chiffre conforme à la structure de la langue, aussi bien italienne qu’espagnole, où l’accent sur la pénultième constitue le cas non-marqué [López Gonzalo, 1993 ; Albano Leoni et al., 1995a, 1995b ; Balducci & Cerrato, 1998 ; Grover et al., 1998 ; D’Imperio & Rosenthall, 1999]. Naturellement, l’appariement n’est pas parfait entre les phonèmes de l’italien et de l’espagnol, d’abord parce que dans la variété qui sert de norme culturelle de prestige pour l’italien (le toscan), l’inventaire phonologique est de 7 voyelles (/a ( e i u o (/) contre 5 pour l’espagnol (/a e i u o/) ; ensuite parce que les allophones spirantisés de l’espagnol ne se confondent pas exactement avec les fricatives italiennes — par exemple, un [(] espagnol ne se confond pas exactement avec un /v/ italien (cf. § 5.4.2). Mais on peut rétorquer au premier point qu’une grande variation règne au sein des voyelles moyennes de l’italien ; ensuite, la question des phonèmes proches non-identiques est loin d’être résolue. Dans notre expérience, la voix synthétique italienne parlant espagnol ferme les voyelles moyennes, mais n’applique pas les règles de spirantisation des occlusives sonores telles que /d/([(] / V_V. Quant à la voix synthétique espagnole parlant italien, elle n’applique pas ces règles de spirantisation, mais n’ouvre pas non plus les voyelles moyennes.

Locuteurs et enregistrements
Un locuteur espagnol de Madrid (EM), une locutrice espagnole de Barcelone (EF, native du castillan, comme EM), une locutrice italienne de Milan (IF) et un locuteur italien de Naples (IM) se sont portés volontaires pour lire les phrases ci-dessus. EM, EF, IF et IM font référence aux voix originales des locuteurs ; EM0, EF0, IF0 et IM0 aux voix utilisées dans la synthèse par diphones pour les transplantations de prosodie subséquentes.
Les enregistrements ont eu lieu à Paris, dans une chambre isolée acoustiquement, avec un micro de haute qualité, en utilisant un DAT (fréquence d’échantillonnage de 48 kHz). Les données (trois répétitions en moyenne de chaque phrase par locuteur) ont ensuite été transférées sur ordinateur avec une fréquence d’échantillonnage de 16 kHz et une résolution de 16 bits, mono, pour les traitements ultérieurs (segmentation en phrase et normalisation de l’énergie). Seulement une répétition par phrase a été retenue pour chaque locuteur, pour que le test d’écoute soit d’une durée raisonnable.
Les locuteurs, qui avaient tous moins de 40 ans, n étaient pas avertis du but de l expérience. Il était demandé aux locuteurs espagnols de prononcer le digramme  ll /´ð/ et non /Æð/ (lleísmo, qui distingue la liquide latérale et la fricative palatale). Il était demandé aux locuteurs italiens de prononcer le ‘s’ intervocalique /s/ et non /z/, dans des mots comme casa (« maison ») — la norme toscane, Comme la prononciation de ces phonèmes est variable, ces spécifications visaient à éliciter des productions qui ne divergent pas trop entre espagnol et italien.
Une autre différence notable, dépendant de la langue, concerne la phrase 5 du tableau 6.1, est que la nasale palatale est plus longue dans l’italien legna (« bûche ») que dans l’espagnol leña : 149 ms vs 84 ms pour nos locuteurs. Les débits de parole allaient de 12,5 phonèmes/seconde pour IF à 15,5 phonèmes/seconde pour EM — en ne comptant pas les pauses. Des mesures de durée sont rapportées dans la figure 6.1. Le débit de parole de la locutrice IF est relativement lent (par rapport au locuteur EM notamment) ; mais si on ne regarde que les phonèmes des syllabes inaccentuées, on constate que la différence de durée moyenne diminue. Cette restriction se justifie par le fait que l’italien et l’espagnol sont traditionnellement considérés comme des langues à chronométrage syllabique (cf. § 5.1), tendant à avoir des syllabes inaccentuées isochrones. De façon intéressante, le ratio de durée entre phonèmes accentués et inaccentués est de 1,5 pour l’italien et de 1,1 pour l’espagnol. L’allongement de 50 % des phonèmes accentués par rapport aux phonèmes inaccentués, chez les Italiens, contribue de façon substantielle à ralentir le débit de parole.










Figure 6.1 : durées moyennes des phonèmes accentués/inaccentués et de tous les phonèmes, dans les phrases lues par les locuteurs de l expérience Dip (EF = locutrice espagnole, EM = locuteur espagnol, IF = locutrice italienne, IM = locuteur italien). Les intervalles de confiance ont été calculés avec ± = 0,05.
L allongement de la syllabe accentuée, en italien, peut être à l’origine d’un registre de hauteur plus large dans cette langue souvent décrite comme « chantante », de façon impressionniste. Défini en demi-tons par rapport aux valeurs maximum et minimum de F0 des segments voisés comme 12log2(F0max/F0min), le registre de hauteur est de 14 demi-tons pour les deux locuteurs italiens, alors qu’il n’est que de 12 et moins de 11 demi-tons pour EM et EF. (cf. tableau 6.2). Des écarts types ont également été calculés (les valeurs non-nulles de F0 étant exprimées en demi-tons avec une référence de 1 Hz) : on voit dans le tableau 6.2 que ces écarts types sont plus importants chez les Italiens (> 2 demi-tons) que chez les Espagnols (< 2 demi-tons). La stylisation de la prosodie avec deux ou trois valeurs de F0 est décrite ci-après.

EFEMIFIMhauteur moyenne (Hz)202 107 177 106 registre de hauteur (demi-tons)10,612,0 14,0 14,1 écart type de F0 (demi-tons)1,8 1,9 2,2 2,7 Tableau 6.2 : analyse de la hauteur de la locutrice et du locuteur espagnols (EF et EM), de la locutrice et du locuteur italiens (IF et IM), dans l’expérience Dip.

Si les pentes de F0 sont généralement plus importantes en italien qu’en espagnol, cela n’empêche pas que l’ancrage temporel des cibles de F0 puisse également différer entre les deux langues. Dans un cas comme arrestarle (« l’arrêter ») dans la phrase 3, par exemple, la mélodie monte après la syllabe pénultième accentuée dans les versions espagnoles, alors que le pic de F0 est situé sur le /a/ accentué dans les versions italiennes. Malgré tout, l’information de durée semble la plus saillante.

Méthodologie
L’expérience décrite dans cette section utilise la synthèse de la parole par diphones, une technique qui repose sur la concaténation d’unités préenregistrées, provenant de voix naturelles. Les voix italiennes et espagnoles utilisées ici sont celles du système multilingue de synthèse de la parole à partir du texte — text-to-speech (TTS) — développé à Elan [Boula de Mareüil et al., 2001a]. Indépendantes de cette étude, elles viennent de locuteurs natifs soit de l’espagnol soit de l’italien, qui ont été enregistrés dans leur ville de résidence : le locuteur espagnol EM0 vient de Barcelone (Catalogne) et sa langue maternelle est le castillan ; la locutrice espagnole EF0 vient de Burgos (Castille-et-Léon), le locuteur italien IM0 d’Ancône (centre de l’Italie) et la locutrice italienne IF0 de Côme (nord de l’Italie). Leurs voix ont été sélectionnées pour leur agrément et leur acceptabilité en synthèse de la parole.
Les paramètres de F0 et de durée sont ensuite manipulés par l’algorithme TD-PSOLA (Time Domain Pitch Synchronous Overlap and Add) [Moulines & Charpentier, 1990]. L’énergie n’est pas traitée, elle est seulement normalisée. Quant à la F0, elle est définie pour chaque phonème par une cible initiale, une cible finale et éventuellement (plus souvent en italien qu’en espagnol) une cible intermédiaire ; un ou deux mouvements mélodiques linéaires sont ainsi associés à chaque phonème. La F0 des segments non-voisés est mise à zéro, et la F0 initiale de chaque phonème est reliée à la F0 finale du précédent — si celle-ci est non-nulle.
Les paramètres prosodiques extraits des locuteurs EF, EM, IF et IM ont été greffés sur les bases de diphones dérivées de SF0, SM0, IF0 etIM0 respectivement, en utilisant un outil de recopie de prosodie également mis au point à Elan [Boula de Mareüil et al., 2001a]. Étant donné un fichier audio et le texte correspondant à ce qui est dit, le système génère un fichier contenant la suite de phonèmes, avec leur durée et leurs valeurs de F0, ainsi qu’un fichier son avec une voix de synthèse les caractéristiques prosodiques calculées, copiées de l’original. Le logiciel repose sur l’algorithme Dynamic Time Warping (DTW), qui cherche un chemin minimisant la distance entre des portions de la parole naturelle et de la parole synthétisée. Cette distance est fondée sur des paramètres extraits du signal (énergie, cepstre, taux de passage par zéro, etc.). La méthode utilisée pour les croisements de prosodie est illustré dans la figure 6.2, avec des paramètres prosodiques obtenus à partir des locuteurs EF, EM, IF et IM en entrée, et des voix synthétiques parmi les bases de diphones EF0, EM0, IF0 et IM0 en sortie. Pour tous les locuteurs étudiés, la prosodie d’un locuteur donné est imposée à la voix d’un autre locuteur, via les bases de diphones de différentes langues dans l’expérience Dip — la partie droite de la figure 6.2 schématise la méthode employée dans l’expérience Nat (§ 6.3).
La hauteur moyenne des segments voisés était de 177 Hz pour IF, 202 Hz pour EF, 106 Hz pour IM et 107 Hz pour EM (cf. tableau 6.2). La hauteur moyenne des locutrices IF (respectivement EF) a été multipliée par 1,05 (respectivement 0,95) pour mieux se conformer à la hauteur intrinsèque des voix par diphones IF0 et EF0. De cette façon, également, on évite des écarts de hauteur trop accusés qui pourraient détourner l’attention des auditeurs.
Chaque phrase de notre corpus permettait ainsi de générer 8 stimuli de hauteur, de débit de parole et d’intensité comparables. Aux 80 stimuli correspondant aux dix premières phrases (2 langues ( 2 types de prosodie ( 2 sexes = 80 stimuli), 4 stimuli ont été ajoutés. Obtenus à partir des phrases 11–14, ces 4 stimuli visaient à fournir un échantillon des 4 voix (espagnole et italienne, masculine et féminine), avec la prosodie d’une langue ou de l’autre. Ces stimuli étaient présentés aux auditeurs au début du test et n’étaient pas comptés dans les résultats. Ils étaient précédés d’instructions et d’une phase de familiarisation, avec 4 autres énoncés naturels, espagnols et italiens (longs de 2 secondes environ, provenant de 2 hommes et de 2 femmes) qui ne faisaient pas partie du matériel expérimental. Dans cette phase seulement, la langue d’origine était indiquée. Dans le cœur du test, les 80 stimuli étaient présentés l’un après l’autre, dans un ordre aléatoire (avec une randomisation différente selon les sujets), et aucun retour sur les réponses n’était donné.



























Figure 6.2 : diagramme bloc de la recopie de prosodie, combinant des paramètres prosodiques extraits de voix naturelles, en utilisant la synthèse par diphones (à gauche) et de la parole naturelle modifiée (à droite).

L’expérience se déroulait dans une pièce calme, à travers des écouteurs à un niveau sonore confortable. Chaque session durait environ 15 minutes.

Auditeurs et tâche
Les auditeurs, tous d’audition normale, n’étaient pas payés pour leur participation au test. Ils pouvaient écouter chaque stimulus seulement une fois. Ils étaient avertis qu’ils allaient écouter de la parole modifiée acoustiquement, provenant de locuteurs natifs de l’espagnol et de l’italien qui pouvaient parler les deux langues. Ils étaient informés que les phrases du test, qui étaient lues dans l’une ou l’autre de ces langues par les locuteurs, pouvaient se dire presque de la même façon en espagnol et en italien. Il leur était demandé de juger ce qu’ils entendaient à travers une interface conviviale, programmée avec le logiciel Eprime.
Deux groupes d’auditeurs, italiens et espagnols, ont participé à cette étude. Les instructions étaient écrites dans la langue de chaque groupe.
Italiens : le test perceptif a été mené à Pise (Toscane), auquel ont pris part 20 sujets (6 hommes, 14 femmes), étudiants en linguistique ou membres du personnel de l’université et de la Scuola Normale Superiore de Pise. La moitié d’entre eux était Toscans d’origine, l’autre moitié venait d’autres régions d’Italie. Aucun d’entre eux ne se déclarait bilingue, et la plupart des auditeurs évaluaient leur familiarité avec l’espagnol comme étant d’1 ou 2 sur une échelle à 10 points. Leur tâche était de juger si tel ou tel énoncé était de l’espagnol, de l’espagnol avec accent italien, de l’italien avec accent espagnol ou de l’italien.
Espagnols : l’expérience a été menée à Barcelone auprès de 20 étudiants de licence en psychologie (2 hommes, 18 femmes) qui recevaient des crédits de cours pour leur participation. Les deux parents de chaque sujet étaient de langue espagnole. Les sujets déclaraient tous ne pas être ou n’être que faiblement familiers avec l’italien. Ils recevaient les mêmes instructions que les italiens (dans leur langue), et la tâche consistait également en un choix forcé entre 4 possibilités — 4 boutons.

Résultats
Les réponses des sujets sont consignées dans le tableau 6.3. Dans ce tableau et jusqu’à la fin de ce chapitre, le type de phrase est indiqué comme suit : VePe fait référence à une voix espagnole avec une prosodie espagnole, ViPe à une voix italienne avec une prosodie espagnole, VePi à une voix espagnole avec une prosodie italienne et ViPi à une voix italienne avec une prosodie italienne. Nous avons rassemblé les réponses données aux stimuli produits par des hommes et par des femmes, car une analyse statistique préliminaire a indiqué qu’il n’y avait pas de différences systématiques (cf. § 6.2.5.3).
Les réponses ne semblent pas avoir été affectées par certaines phrases en particulier. Aucune phrase n’a été entièrement rejetée par les auditeurs. La figure 6.3, qui donne une représentation des résultats phrase par phrase, affiche des réponses assez équilibrées de la part des sujets natifs de l espagnol et de l italien. Des tests de Dz (cf. § 6.2.5.1) confirment qu il n y a pas de différence significative de distribution entre les phrases sonnant espagnoles ou italiennes.


Groupe
(sujets)TypeRéponses (%)EspagnolItalien avec un accent espagnolEspagnol avec un accent italienItalienItaliensVePe4641103ViPe23431915VePi17421822ViPi4311352EspagnolsVePe5319235ViPe19363411VePi16244020ViPi5213440Tableau 6.3 : distribution des réponses pour les deux groupes de sujets de l’expérience Dip, en fonction du type de phrase — VePe (voix espagnole avec une prosodie espagnole), ViPe (voix italienne avec une prosodie espagnole), VePi (voix espagnole avec une prosodie italienne), ViPi (voix italienne avec une prosodie italienne).













Figure 6.3 : réponses des auditeurs natifs de l’italien et de l’espagnol aux 10 phrases comptées dans les résultats de l’expérience Dip. Les pourcentages sont donnés par rapport à 320 réponses.

Comparaison entre stimuli croisés et non-croisés
La première chose à noter est que les phrases VePe ont le plus souvent reçu l’étiquette « espagnol », alors que les phrases ViPi ont le plus souvent reçu l étiquette « italien ». Des tests de Dz ont confirmé que ces deux types de phrases différaient de façon significative [avec les Italiens : Dz(3) = 327 ; p JND dans ce qui suit.
Dans l’ensemble, le tableau 8.4 révèle que la durée de l’attaque augmente au fil des décennies. L’augmentation de 10 ms de la durée moyenne et l’augmentation du taux %(dur > JND sont encore plus régulières si l’analyse est restreinte aux attaques simples. Comme dans la section 8.2, toutes les différences sont très significatives d’après des ANOVA.

Toutes les attaquesAttaques simples#occdur. moyenne (ms)écart type (ms)%(durf > JND#occdur. moyenne (ms)écart type (ms)%(durf > JND1940–1959209372341918016629191960–1969390680372634057433281970–1979202182402917107636301980–199735578237283149773532Tableau 8.4 : durée de l’attaque de polysyllabes précédés de clitiques. Sont affichés, pour chaque période étudiée, le nombre d’occurrences, la durée moyenne brute, l’écart type de la distribution de durées et le pourcentage d’occurrences dépassant un seuil de durée (%(dur > JND) correspondant au seuil différentiel (respectivement 95 ms pour l’ensemble des attaques et 78 ms pour les attaques simples).

L’allongement de l’attaque au fil des décennies contredit la tendance suggérée en 8.3.1.1. On attendrait une tendance contraire si l’allongement de l’attaque était un corrélat de l’accent initial [Mertens, 1993 ; Jankowski et al., 1999 ; Astésano 2001 ; Astésano et al., 2007]. Une interprétation alternative est que l’importance relative des différents corrélats de l’accent initial ont pu changer depuis un demi-siècle. On observe en effet ne évolution parallèle, avec une augmentation de la durée de l’attaque au cours du temps, si l’on considère uniquement les contextes où la voyelle initiale du non-clitique est d’au moins 3 dt plus haute que la voyelle du clitique qui précède. Les valeurs de %(dur > JND, combinant le critère %(F0 > 3 dt, augmentent également à la fois pour l’ensemble des attaques et les attaques simples — dans le dernier cas de 20 % dans les années 40 et 50 à 50 % dans les années 80 et 90. Les manifestations phonétiques peuvent avoir changé, de même que les fonctions communicatives [Kohler & Niebuhr, 2007]. Astésano [2001] a proposé qu’un allongement de l’attaque de 80 % caractériserait un accent initial emphatique. Mais, dans nos données, ce critère aboutirait seulement à 3–6 % d’accent emphatique. D’après Astésano [2001], l’allongement de la voyelle initiale est également caractéristique de l’accent emphatique. Nous avons de même mesuré, sur nos données, la durée et l’allongement (par rapport à un seuil differential de 20 %) de la voyelle initiale de polysyllabes en contexte post-clitique. Les résultats sont rapportés dans le tableau 8.5, pour chaque période étudiée.

#occdurée moyenne (ms)écart type (ms)%(dur > JND1940–195921837835351960–196941547236271970–197921137233291980–19973793694023Tableau 8.5 : durée de la voyelle initiale de polysyllabes précédés de clitiques. Sont affichés, pour chaque période étudiée, le nombre d’occurrences, la durée moyenne brute, l’écart type de la distribution de durées et le pourcentage d’occurrences dépassant un seuil de durée (%(dur > JND) correspondant au seuil différentiel (86 ms).

La durée de la voyelle en syllabe initiale de polysyllabe précédé d’un clitique décroît de 1940 à 1997 (cf. tableau 8.5). Le pourcentage de voyelles plus longues qu’1,2 fois la durée moyenne dans ce contexte (i.e. 86 ms) décroît également, même s’il est légèrement plus élevé dans les années 70 que dans les années 60. De nouveau, l’effet de la période (1940–1959, 1960–1969, 1970–1979 ou 1980–1997) est très significatif d’après des ANOVA.
L’augmentation de la durée de l’attaque et la diminution de la durée du noyau, au fil des décennies, font que la durée des voyelles supposées accentuées reste stable. Plusieurs interprétations sont dès lors possibles. La nôtre est que l’accent initial était plus répandu dans les années 40 et 50 que dans les décennies ultérieures, étayant l’Hypothèse de Diminution. L’accent emphatique, en particulier, caractérisé par un allongement du noyau vocalique de la syllabe, d’après Astésano [2001], a perdu du terrain. Ceci peut s’expliquer par le fait que, dans les décennies les plus anciennes, les annonceurs essayaient de compenser la mauvaise qualité du dispositif d’enregistrement en fournissant un effort vocal plus grand pour transmettre leur message. Toutefois, nos données ne montrent pas qu’ait pu se produire un quelconque passage d’un accent emphatique à un accent rythmico-démarcatif. Les deux types d’accent initial sont d’ailleurs difficiles à différencier fonctionnellement [Vaissière, 1997a ; Oakes, 2002]. Sur la base de notre analyse des contours mélodiques, ces deux types d’accent semblent avoir décru avec le temps. Nous y reviendrons dans la conclusion de ce chapitre. Des travaux antérieurs, sans distinguer les accents initiaux emphatique et non-emphatique, ont trouvé des pourcentages d’accent initiale comparables à ceux que nous avons présentés, fondés sur la F0 : 33 % pour le style journalistique des années 70 [Fónagy & Fónagy, 1976], tandis que le pourcentage mesuré dans le chapitre 3, pour un style lu contemporain, s’élevait à 29 %.

Allongement pénultième
Nous avons comparé la durée des deux dernières voyelles ou syllabes de polysyllabes (et des trois dernières voyelles ou syllabes des mots au moins trisyllabiques). Comme au chapitre 3, en particulier, les pourcentages de voyelles pénultièmes qui sont plus longues que les voyelles finales ont été calculés. Le schwa final a été exclu en raison notamment de la controverse autour du possible rattachement de la syllabe finale de mot terminé par un schwa prononcé à la syllabe précédente [Durand & Eychenne, 2004]. Si par exemple le e muet était prononcé dans un mot tel que pneumatique, ce mot n’a pas été pris en considération. De cette façon, 13 % de l’ensemble des occurrences ont été écartés — de façon équilibrée selon les différentes périodes
Dans un mot comme amitié, par exemple, la durée du /i/ a été comparée à celle du /e/. De prime abord, les distributions des différences de durées des voyelles pénultième–finale sont très similaires à travers les périodes étudiées : les pourcentages de différences positives restent dans une marge de 5 %. Toutefois, si l’on restreint l’analyse à la position avant pause, les patrons des années 40 et 50 se distinguent des autres. Dans ce contexte prépausal, l’effet perçu est le plus saillant, et ceci laisse un grand nombre d’occurrences, comme le montrent les tableaux 8.6 et 8.7. L’intervalle inter-pause est de 2,11 s pour la période 1940–1959, 1,72 s pour la période 1960–1969, 1,68 pour la période 1970–1979 et 1,67 pour la période 1980–1997.
Le tableau 8.6 présente pour chaque période la durée moyenne des voyelles pénultièmes, l’écart type de la distribution de durées et le pourcentage de mots dans lesquels la voyelle pénultième est plus longue que la voyelle finale : pour l’ensemble des voyelles dans la partie droite et pour les voyelles nasales en syllabe pénultième dans la partie droite. Ce pourcentage moyen (%(durf > 0 ms), dans la partie gauche du tableau, est remarquablement stable dans les enregistrements les plus récents (18 % depuis les années 60), mais il monte à 25 % dans les enregistrements les plus anciens. Une normalisation en z des durées garde ces chiffres (pratiquement) inchangés.

Toutes les voyellesV nasales pénultièmes #occdur. moyenne (ms)écart type (ms)%(durf > 0 ms#occdur. moyenne (ms)écart type (ms)%(durf > 0 ms1940–1959134487422517814047521960–1969278182411831213147401970–1979147782401823811936301980–199724927837183371133533Tableau 8.6 : nombre de mots polysyllabiques précédant une pause, durée moyenne des voyelles pénultièmes, écart type de la distribution de durées et pourcentage d’occurrences dans lesquelles la voyelle pénultième est plus longue que la voyelle finale — la partie de droite présente les résultats pour les voyelles nasales pénultièmes seulement.

Par ailleurs, il est connu que les voyelles nasales du français sont intrinsèquement plus longues que les voyelles orales, et nos données le montrent (121 ms pour les voyelles nasales, vs 87 ms pour les voyelles orales, en moyenne). Il n’existe pas de contraste de quantité au sein des voyelles nasales, mais au sein des voyelles orales il pouvait naguère y avoir des oppositions phonologiques comme mettre /m(t(/) face à maître (/m((t(/). De telles distinctions sont devenues obsolètes de nos jours (au profit des voyelles brèves), ce qui peut en partie rendre compte de la diminution de l’allongement. Pour examiner si un changement prosodique plus général est à l’œuvre, nous avons regardé les voyelles nasales pénultièmes plus en détail. La partie droite du tableau 8.6 (restreinte aux voyelles nasales en syllabe pénultième) montre des nombres d’occurrences moins élevés et des pourcentages plus élevés que la partie gauche (pour l’ensemble des voyelles). De façon plus importante, l’écart se creuse entre les différentes périodes. Dans les années 40 et 50, plus de la moitié des voyelles nasales sont extra-longues — plus longues que les voyelles finales en dépit de l’allongement prépausal. La diminution de la durée moyenne (de 140 ms à 113 ms), également, est notable. Comme décrit plus haut pour les corrélats de l’accent initial, les ANOVA montrent un effet significatif des périodes étudiées. Les patrons en termes de syllabes, obtenus en appliquant les règles de syllabation présentées dans Adda-Decker et al. [2005], sont similaires.
Nous n’avons observé, au fil des décennies, aucune tendance évidente à la diminution ou à l’augmentation de la durée des voyelles finales avant pause (voir les résultats pour les mots d’au moins trois syllabes dans le tableau 8.7). En revanche, le ratio de durée entre voyelles finale et pénultième a augmenté : 1,8 dans les années 40 et 50, 2,0 dans les années 60, 2,2 depuis. En moyenne, Delattre [1965, 1966a,b] a trouvé un radio de durée de1,8 entre syllabes accentuée (i.e. finale) et inaccentuée (i.e. non-finale). L’augmentation que nous observons ici semble être due à la diminution de la durée des voyelles pénultièmes à travers les décennies.

#occdur. moy. V ant. (ms)écart type V ant. (ms)dur. moy. V pén. (ms)écart type V pén. (ms)durée moy. V fin. (ms)écart type V fin. (ms)%(dur > 0 ms1940–19596437734823814995591960–196912997035803816089651970–197966670308036175100631980–19971119683273321639563Tableau 8.7 : nombre de mots au moins trisyllabiques précédant une pause, durées moyennes des voyelles antépénultième, pénultième et finale, écart type des distributions de durées correspondantes et pourcentage d’occurrences dans lesquelles la voyelle pénultième est plus longue que l’antépénultième.

Nous nous sommes interrogés sur le comportement des voyelles antépénultièmes des mots au moins trisyllabiques, même s’il y a trop peu de contextes prépausaux pour ventiler les résultats selon que la pénultième est une voyelle nasale ou non. Le tableau 8.7 montre que l’allongement de la voyelle pénultième par rapport à l’antépénultième n’a pas diminué au cours du temps, car à la fois les voyelles antépénultièmes et pénultièmes sont devenues plus courtes depuis les années 40, et de nouveau on voit un effet significatif des périodes étudiées d’après des ANOVA. Ce dernier résultat est cohérent avec la diminution discutée ci-dessus de la durée de la voyelle initiale de polysyllabe précédé de clitique (cf. tableau 8.5). Dans la plupart des cas, la voyelle antépénultième est aussi la voyelle initiale des mots au moins trisyllabiques (cf. § 3.4.4.2). Cette diminution au cours du temps de la durée de la voyelle pénultièm prépausale est également reflétée par les résultats à base de seuil différentiel, obtenus comme en 8.3.1.2 pour les corrélats de durée de l’accent initial. En résumé, l’analyse acoustique suggère que l’Hypothèse de Diminution s’applique à la fois à l’accent initial et à l’allongement pénultième.


Perception de l’évolution du style journalistique

L’étude à base de corpus rapportée dans les sections précédentes ont permis de quantifier des changements dans le style journalistique au fil des décennies, comme la diminution de la F0 moyenne, la diminution de l’accent initial (dans des contextes clitique polysyllabe) et la diminution de l’allongement pénultième (avant une pause). Le but de cette section est de vérifier si les différences prosodiques, de même que les changements de qualité de voix et d’autres facteurs, sont perceptibles. Pour ce faire, trois expériences perceptives utilisant la recopie de prosodie ont été mises au point. Comme présenté dans les chapitres 6 et 7, ce paradigme permet de séparer les corrélats de F0 et de durée, de les isoler des effets des conditions d’enregistrement et de la qualité de voix. Même si nous sommes conscients de ses limites, la méthode utilisée est celle que nous avons proposée dans les sections 6.2 et 7.3.
Nous avons sélectionné un sous-ensemble des énoncés du corpus pour représenter chaque décennie, et avons utilisé la recopie de prosodie sur une voix de synthèse par diphones, comme au chapitre 6. Nous avons également enregistré un journaliste professionnel lisant des phrases de la période la plus reculée (les années 40 et 50), dans son style contemporain et en imitant ce qu’il pensait pouvoir être le style d’un journaliste de cette époque. Sur cette base, trois expériences visant à évaluer l’importance relative de différentes dimensions (qualité de voix et de l’enregistrement, contenu lexical et prosodie) dans la perception de changements concernant le style journalistique. Nous n’avons pas manipulé les corrélats acoustiques de l’accent initial comme l’ont fait Jankowski et al. [1999], qui ont montré qu’un allongement de l’attaque donne lieu à la perception d’un accent initial. Plutôt que de modifier ponctuellement certains paramètres comme nous l’avons fait pour l’accent de banlieue (cf. § 7.4), nous avons dans une première expérience (expérience R-O) utilisé la recopie de prosodie comme nous l’avons fait pour l’accent espagnol/italien dans l’expérience Dip (cf. § 7.2). Dans une deuxième expérience (expérience D-S), nous avons de plus utilisé la synthèse de la parole pour faire varier le contenu (en masquant le contenu lexical par une procédure de délexicalisation) et la prosodie des énoncés. Dans une troisième expérience (expérience OCI), la recopie de prosodie a été appliquée à la fois aux documents d’archives et au journaliste que nous avons enregistré. La méthode est décrite plus en détail ci-dessous.

Expérience R-O
Dans l’expérience R-O (comme dans l’expérience D-S), il était demandé aux sujets d’assigner une date (entre 1940 et 1999) à chaque extrait de parole qu’ils écoutaient. L’expérience consistait en deux blocs : R (pour les recopies de prosodie) et O (pour les stimuli originaux). Les auditeurs écoutaient d’abord les stimuli synthétiques dont la prosodie était recopiée de celle des archives ; ils écoutaient ensuite les stimuli originaux. Dans les recopies de prosodie, les sujets avaient accès aux informations lexicales et prosodiques des stimuli originaux, mais pas aux caractéristiques liées à l’enregistrement ni à la qualité de voix.
Corpus
Pour l’expérience R-O (et l’expérience D-S), 30 énoncés ont été sélectionnés, provenant de journalistes hommes du corpus décrit dans la section 8.2 (voir un extrait de la liste des énoncés dans le tableau 8.9). Les phrases (5 par décennie, longues de 10 secondes en moyenne) ont été choisies de façon à éviter les indices lexicaux tels que les références culturelles à une période donnée, qui pouvaient biaiser les résultats. Pour identifier les accents initiaux de ce sous-corpus, des experts en prosodie ont été invités à marquer les syllabes proéminentes, mais aucun consensus n’a émergé — ce qui n’était pas surprenant dans la mesure où de nombreux phonéticiens ont fait des observations similaires sur la difficulté de se mettre d’accord autour de la proéminence syllabique en français [Fónagy & Léon, 1980 ; Vaissière, 1997b]. Nous avons donc considéré les séquences clitique non-clitique, avec les mesures de F0 fournies par Praat comme décrit plus haut. La différence de F0 entre la voyelle initiale de polysyllabe et la voyelle du clitique qui précède a été calculée, et le pourcentage d’occurrences dans lesquelles cette différence est supérieure à 3 dt a été considéré comme une bonne estimation des corrélats acoustiques de l’accent initial. Des résultats comparatifs pour le corpus expérimental (173 contextes clitique polysyllabe) et le corpus entier (12 158 contextes) sont donnés dans le tableau 8.8. Dans les deux cas, on peut observer une diminution de ce qui peut être interprété comme de l’accentuation initiale Une diminution similaire de la F0 moyenne est notable à la fois pour le corpus expérimental et le corpus entier : en gros de 170 Hz dans les années 40 et 50 à 140 Hz dans les années 80 et 90. Il y avait trop peu de contextes prépausaux pour étudier l’allongement pénultième avant pause.

%1940–19591960–19791980–1997corpus expérimental412724corpus entier282118Tableau 8.8 : pourcentage de contexts clitique polysyllabe dans lesquels la montée de F0 est supérieure à 3 demi-tons.
La méthode de recopie de prosodie et le système de synthèse de la parole par diphones que nous avons utilisés avec ces stimuli sont décrits dans Boula de Mareüil et al. [2001a]. Étant donné un fichier son (l’original), la transcription de ce qui est dit est utilisée pour construire la suite de diphones à laquelle correspond l’original. Une base de diphones est utilisée, comme dans l’expérience Dip du chapitre 6, ici dérivée d’un locuteur français dont les unités de parole sont préenregistrées (à des fins de synthèse de la parole à partir du texte, indépendamment de la présente étude) et concaténées. Les paramètres prosodiques sont extraits des stimuli originaux et greffés sur la chaîne correspondante de diphones. La parole synthétique qui en résulte est alignée avec le signal original en utilisant un algorithme de DTW, comme dans Malfrère et Dutoit [1997]. Les paramètres de F0 et de durée sont ensuite modifiés à l’aide de l’algorithme TD-PSOLA (cf. § 6.2.3). L’énergie n’est pas traitée : le niveau sonore (normalisé) de la base de diphones est conservé.
Participants et tâche
Vingt-six sujets (18 hommes, 8 femmes, âgés de 34 ans en moyenne) ont pris part à l’expérience D-O. Ils étaient de langue maternelle française et n’avaient pas de problèmes d’audition connus. Avant le test, il leur était demandé d’évaluer leur capacité à distinguer des enregistrements anciens d’enregistrements récents sur une échelle de 1 à 5 (de as du tout capable à tout à fait capable). En moyenne, cette capacité a été évaluée à 3 par les sujets —auxquels il n’était pas demandé plus d’explication.
Après une phase de familiarisation avec quelques échantillons d’énoncés différents de ceux du test proprement dit, les sujets écoutaient 30 recopies de prosodie puis les 30 stimuli originaux. Dans chaque bloc (R ou O), les stimuli étaient présentés dans un ordre aléatoire (différent pour chaque sujet). Les participants pouvaient écouter chaque stimulus autant de fois qu’ils le désiraient — l’interface était similaire à celle que nous avons présentée dans les chapitres 3 et 4, notamment. Un slider permettait d’attribuer une date entre 1940 et 1999 à chaque stimulus. Les participants devaient le déplacer à l’aide de la souris, à partir d’une position par défaut qui était 1940.
Résultats
Pour analyser les résultats, nous avons d’abord pris en compte les réponses par décennie. En partie en raison de la difficulté de la tâche (juger la date d’un enregistrement) et en partie en raison des sources différentes pour les stimuli, les réponses des auditeurs montrent une variabilité dont on ne peut pas rendre compte en décrivant les résultats stimulus par stimulus. Des tendances robustes, cependant, apparaissent si les stimuli sont regroupés. Pour chaque décennie, un vecteur a été construit en calculant le nombre de stimuli perçus par les auditeurs comme datant des années 40, 50, 60, 70, 80 ou 90. Un algorithme de clustering hiérarchique agglomératif a été appliqué aux matrices de confusion obtenues pour les stimuli synthétiques et originaux. Les résultats sont présentés dans la figure 8.4. Pour les stimuli originaux (à gauche), les années 40 et 50 se séparent des autres, et les stimuli enregistrés dans les années 60 et 70 sont regroupés. Les années 90 reçoivent de bons scores d’identification (i.e. d’appariement entre décennie perçue et décennie réelle), alors qu’on a des confusions avec les années 80. Dans la condition avec recopie de prosodie (à droite de la figure 8.4), les années 40 et 50 s’écartent également des autres décennies, lesquelles sont moins bien reconnues. Dans l’ensemble, les auditeurs semblent catégoriser les énoncés proposés en trois tranches de vingt ans chacune (ci-dessous désignées sous le terme époques).












Figure 8.4 : clustering hiérarchique résultant des réponses obtenues pour chaque décennie avec les stimuli originaux à gauche et les recopies de prosodie à droite.

Les résultats qui suivent ont été rassemblés pour les années 40 et 50, les années 60 et 70, les années 80 et 90. Dans la figure 8.5, l’axe des abscisses représente les dates réelles moyennées et l’axe des ordonnées représente les dates perçues. Avec les recopies de prosodie (parole synthétique), les dates perçues pour les années 40 et 50 sont surestimées par rapport aux stimuli originaux. En d’autres termes, le caractère désuet de ces stimuli est mieux perçu quand les caractéristiques de la qualité de voix et de l’enregistrement sont entendues.












Figure 8.5 : résultats (a) de l’expérience D-O et (b) de l’expérience D-S. L’axe des abscisses représente la date réelle (moyennée pour les années 40 et 50, 60 et 70, 80 et 90. L’axe des ordonnées représente la date perçue (moyennée) pour les originaux et les recopies de prosodie (expérience O-R), les délexicalisations et les stimuli produits par la synthèse de la parole à partir du texte (expérience D-S).

Afin de comparer les résultats pour les stimuli originaux et synthétiques, une ANOVA a été menée sur les réponses des auditeurs (c’est-à-dire la date perçue de chaque stimulus, exprimée sur une échelle continue de 1940 à 1999). Les deux facteurs fixes étaient l’Époque de l’enregistrement (3 niveaux : 1940–1959, 1960–1979, 1980–1997) et le Type de stimulus présenté (2 niveaux : recopies de prosodie et originaux).
Les deux facteurs ont un effet significatif : les dates perçues augmentent significative-ment avec l’Époque [F(2, 1554) = 721 ; p  >
>w>‰>Š> ??????????!?'?.?ð?óéÜͶ͟ŒyŒfyŒyŒ[QD7DhuHÆh¿ÔCJOJQJhuHÆhÇ4ÊCJOJQJh#~#CJOJQJhœ0eh‚õOJQJ%hœ0ehüV%B*OJQJ^JaJph%hœ0eh^²B*OJQJ^JaJph%hœ0ehÇ4ÊB*OJQJ^JaJph-hœ0ehÇ4ÊB*OJQJ^JaJmH phsH -hœ0eh”¾B*OJQJ^JaJmH phsH hœ0eh”¾OJQJmH sH huHÆhüV%CJOJQJh+rCJOJQJhuHÆh2[¬CJOJQJð?ñ?ò?@!@|@…@Ž@ž@¬@ö@A{C¬CìCD‡DˆD9EFE\EFFNGlGóæÜÒÜÈÜ»®»¡»”»”»…xjx»]»MhuHÆh‚4©6CJOJPJ QJhuHÆh>D-CJOJQJhœ0eh‚4©OJQJ]^Jhœ0eh‚4©OJQJ^JhuHÆh‚4©CJOJQJ^JhuHÆhp}CJOJQJhuHÆh>?ÈCJOJQJhuHÆh…mNCJOJQJhuHÆh‚4©CJOJQJhëŸCJOJQJhÓÖCJOJQJh "¶CJOJQJhuHÆhÇ4ÊCJOJQJhuHÆhR*CJOJQJò?ˆD\EoG¬I:VY\áa@d&j'j(jNjîÙÌÙ̺©›‰}}k$
& F„e„›þ^„e`„›þgd8) $düþ1$a$gd8)$„Ådüþ¤x1$`„Åa$gd8)
8$„Ťx`„Åa$gd[‹8$„Ädüþ¤x`„Äa$gdÔ8²$„Ťx7$8$H$`„Åa$gd3@— 8$düþ¤xa$gd‚4©8$„Å„Ådüþ¤x]„Å^„Åa$gd‚4©8$„Ådüþ¤x`„Åa$gd‚4© lGnGoG«I¬ISKYKZK\KäKåKæKèK0L9L¨©¾J#â$V*t-M3:Â=ø? DÔIîã×ÆÆµµµµµ ‹z6$„Ådüþ¤x`„Åa$gd‡²$„Ådüþ¤x7$8$H$`„Åa$gdƒ@$„Ådüþ¤x7$8$H$`„Åa$gd¾X6$„Ådüþ¤x`„Åa$gd¾X6$„Ådüþ¤x`„Åa$gdöZ€ 
& F„Ð^„Ðgdá2
8$düþa$gdF 8$„Ädüþ¤x`„Äa$gd‰{
¸ÌìûýQpqs~¡¤¦·¸¹ÈËÒÚîöÊÍåûSjrÚ ã õ!#^#}#‚#ƒ# $óäó×ȹȹȹȹÈ×ó׬ןŸŸŸŸŸŸŸt×g×g×huHÆh»lÈCJOJQJhuHÆhÓKÚCJOJQJhuHÆh¿YÄ6CJOJQJhuHÆh¿YÄ6CJOJQJ]huHÆh¿YÄCJOJQJhuHÆhÏilCJOJQJhuHÆhñ=ìCJOJQJ^JhuHÆhiCJOJQJ^JhuHÆhiCJOJQJhuHÆhñ=ìCJOJQJ^JhuHÆhñ=ìCJOJQJ' $$I$N$P$T$q$Ì$Õ$ì$ù$ý$%Š&¯&'I'û(ÿ()
) )))*)k+y++-(-)-s-t-ú-8._.f.ñäÖÉÖ伯¼¢¼¯¼¯¼¯¼¯¼¯¼¯¼¯¼¯¼“„“¯“¼w¯jhuHÆhh1CJOJQJhuHÆh¾XCJOJQJhuHÆh@H(CJOJQJ^JhuHÆh]gCJOJQJ^JhuHÆh2QCJOJQJhuHÆh@H(CJOJQJhuHÆh]gCJOJQJhuHÆhÚpCJOJQJhuHÆhÚp6CJOJQJhuHÆhiCJOJQJhuHÆhi6CJOJQJ$f.j.m..€.ƒ.†.–.£.³.´.s/|/¦/¯/Q2q22€2A3K3L3M3û344$47585ö5óæÙÌÙ¿²¥²¥¿¥¿˜¿˜¿˜¿‹¿|obo‹oOo%jhuHÆhHdG0JCJOJQJUhuHÆh¬K-CJOJQJhuHÆhHdGCJOJQJhuHÆh]gCJOJQJ^JhuHÆhñLCJOJQJhuHÆh|kàCJOJQJhuHÆh/^HCJOJQJhuHÆhICJOJQJhuHÆh]gCJOJQJhuHÆhõJECJOJQJhuHÆh@H(CJOJQJhuHÆhh1CJOJQJhuHÆhƒ2ùCJOJQJö56;6!>4>5>R>óæÓæÅæÅæ¸æ¸æ¸æ¸æ¸æ©š~qbYPYPYhuHÆhjtCJhuHÆhã3SCJhuHÆhñLCJOJQJ^JhuHÆhñLCJOJQJhuHÆhHdGCJOJQJ^JhuHÆhw&îCJOJQJhuHÆhw&îCJOJQJ^JhuHÆhHdGCJOJQJ^JhuHÆh¬K-CJOJQJhuHÆhHdG6CJOJQJ%jhuHÆhHdG0JCJOJQJUhuHÆhHdGCJOJQJhuHÆhpICJOJQJR>S>U>z>€>±>¸>×>ñ>ò>þ> ?
????Þ?÷?ø?n@v@[AjA¨AßAõABcBB™BºBâBêBC#C$C%C¯C÷î÷ä÷ä÷Û÷î÷Ò÷ú÷±¨÷ž÷•÷Œ÷Û÷Û÷ƒ÷z÷qhq÷huHÆhõJECJhuHÆhUCJhuHÆhä4dCJhuHÆhÖ!"CJhuHÆhƒ@CJhuHÆh]gCJhuHÆhi6CJhuHÆh¦cCJhuHÆhÁnƒCJhuHÆhÝCJjhuHÆhÝ0JCJUhuHÆhºRCJhuHÆh2QCJhuHÆhiCJ]huHÆhã3SCJhuHÆhiCJ%¯C°CàCáC(DœDžDŸD DÁDÛDáDâDEEEE1E}E~E€EŸE¾EÀEÍEÎEÏEÐEäEåEêE FKFeFfF|F}FFF÷îåîåÜÍåÀ³¦³™³Œ³Œ³Œ³™³¦³¦Œy³o³b³b™³™³ÀhuHÆhƒ@CJOJQJh¼S(CJOJQJ%jhuHÆhÊ0JCJOJQJUhuHÆh¸HCJOJQJhuHÆhÁnƒCJOJQJhuHÆh$x5CJOJQJhuHÆh’)CJOJQJhuHÆh$ÎCJOJQJjhuHÆhm]¯0JCJUhuHÆhm]¯CJhuHÆh^tDCJhuHÆhiCJhuHÆh‰QCJ&F¨FÈFÌFÍFƒGGHH0H1H2H3HDHoHHH~I†I‡II­IºIÃIÓIÔIÕIæIçIJóæóæóØóËó˾±¤—¤±Š¤}¤}pŠ}¤b[WLhuHÆhF mH sH hÜ&t h’)hÜ&thuHÆhi5CJOJQJhuHÆhm]¯CJOJQJhuHÆhÉ#óCJOJQJhuHÆh‡²CJOJQJhuHÆh$ÎCJOJQJhuHÆhiCJOJQJhuHÆh=G CJOJQJhuHÆhƒ@CJOJQJhuHÆh$x5CJOJQJhuHÆh’)6CJOJQJhuHÆhÁnƒCJOJQJhuHÆh’)CJOJQJÔIÕIçIæL%QlWÏ_‰dŠd°dPjClNwôèÕÕ¯¤è“~oG$düþ¤x¤a$gdñV¶8$„Å„Ådüþ¤x]„Å^„Åa$gdûS†8$„Ädüþ¤x`„Äa$gdûS†
8$düþa$gd›°G$„Ådüþ¤x¤`„Åa$gdR_œG$„Ådüþ¤x¤`„Åa$gd¤D…G$„Ådüþ¤x¤`„Åa$gdÝ 
& F„Ð^„Ðgdá2
8$düþa$gdi JJÆJÐJÕJÞJ‚KƒK„K†K¦K»KÚKôKyL–L£L¨L©LªL«L­L¾LÞLWMgM¦MÈMÜMåMN(N
P-PwP‡PRRRRR R,R1R2R3R4R6RARIRJRKRMRORŠRóèÝÑÝèÆèÆèóèÆèóèóèÆèÆèÆè»è»è»è°è¥èóèóè»è»èóè»è»èš»è»èhuHÆh™8²mH sH huHÆhâoÕmH sH huHÆhó©mH sH huHÆh+-ÀmH sH huHÆh¤D…mH sH huHÆhCi›mH sH huHÆh—B6mH sH huHÆh—BmH sH huHÆhF mH sH huHÆhF 6mH sH 6ŠR’R—R RSSSgSySäST$T'T)TdTT’TUU…UŠU‹UŒUUUVV©VªV«V­VlWW’WÃWõéõÞÖÉÞ¾Þ³Þ³§³Þ›ÞÞ„ސސÞzސސÞodYhuHÆh]nmH sH huHÆh¤D…mH sH huHÆhR_œmH sH  jTðhuHÆhF huHÆhF 6mH sH huHÆhemH sH huHÆhF >*mH sH huHÆh~Þ6mH sH huHÆh~ÞmH sH huHÆh%'¬mH sH jhuHÆhF 0JUh8?›mH sH huHÆhF mH sH huHÆh»6mH sH huHÆh»mH sH "ÃW×W*XËXãXåXëXYaYfYƒY—Y½YlZqZrZsZtZvZzZ|ZˆZ‰Z‹Z–Z›ZœZZžZ Z«Z°Z±Z²Z³ZµZ}[‰[â[ò[w\x\y\\\Ø]Ú]ß]á]J^r^¼^Ð^õêõßõÒêõêßõÇõ»õ°õ°õ°¥õ°õ»õ°õ°õ»õ°õ°õ°õ°õ°õš°õßõßõõ°huHÆhÍ7ÖmH sH huHÆh?›mH sH huHÆhô
QmH sH huHÆhoWmH sH huHÆh¤D…6mH sH huHÆhù6ómH sH huHÆh¤D…^JmH sH huHÆh%'¬mH sH huHÆh`¨mH sH huHÆh¤D…mH sH 4Ð^Ñ^í^ñ^ò^¦_«_¬_­_®_°_²_¸_¹_º_»_À_Å_Ì_Ï_Þ_BaGaHaIaJaPaRaZa[aâaäaìaîab6bdˆd‰dŠd¯dõêßêßÓßêßêȽ²½²½¦½ßõßÓߛߐ›ß…ߛߛߛßzßmf h’)hûS†huHÆh›°CJOJQJhuHÆhHUmH sH huHÆhD&úmH sH huHÆhŠRmH sH huHÆh•,#mH sH huHÆh€ZÏ6mH sH huHÆh•&mH sH huHÆh€ZÏmH sH huHÆhKq±mH sH huHÆh¤D…6mH sH huHÆh¤D…mH sH huHÆhoWmH sH huHÆhR_œmH sH (¯d°d!e"e‡eÓeòef-fžfcg­gÉg¬h®hµhÁh
iiPj‘j²jÃjÅjêjíjÿjkk5kMk_khkjk+l6lCl¥lüïâÕâÕâÈâï»®»¡ï‘ï‘ï†{†{†{†{†{†{†{†n†chuHÆhûS†mH sH hœ0ehûS†OJQJ^Jhœ0eh‚P&OJQJhœ0ehûS†OJQJhuHÆhûS†6CJOJQJ^JhuHÆh‚P&CJOJQJhuHÆh yžCJOJQJhuHÆh¬l.CJOJQJhuHÆh8|ECJOJQJhuHÆh
ŒCJOJQJhuHÆh]nCJOJQJhuHÆhûS†CJOJQJhûS†%¥l¦lDmSmjmpm nn"n*n.n7nenmno#o)o*omopop“pžpµp¸p»pÅp,q4qIqKq•qÔqXr\rhrDsöëàëÔëÔëÔëÔëÔëÔëÉë¾ë³¨³œ³œ³‘³†³ti^ihuHÆhÍi¼mH sH huHÆhûS†mH sH huHÆhÍi¼mH sH  huHÆhÍi¼huHÆh×+¡mH sH huHÆhVDKmH sH huHÆhÍi¼6mH sH huHÆh°4;mH sH huHÆhÍi¼mH sH huHÆh0g:mH sH huHÆhtmH sH huHÆhûS†6mH sH huHÆhüV%mH sH huHÆhûS†mH sH  jSðhuHÆhûS†$DsHs\ssÌsÑsÒsâsèsís÷sþsttt¬t­t¯tÌtátuuuuŒv‘vÿvwMwõêõêßÔßɽÉõ±õꦗŒvêŒeêZ¦ZMZhuHÆhûS†PJ
mH sH huHÆhûS†mH sH !jhuHÆh+kú0JUmH sH huHÆhQPmH sH huHÆhÏ0mH sH huHÆhÝFömH sH huHÆh{¯B*mH phÿsH huHÆh{¯mH sH huHÆhãS´6mH sH huHÆh
}Æ6mH sH huHÆh
}ÆmH sH huHÆh°4;mH sH huHÆhãS´mH sH huHÆh+kúmH sH huHÆhãS´mH sH MwNwawjwæwëw.x5x6x>xcxdxy yçyèyñyzBz«z¼zèz{»{¼{½{||x|y|õèÛèÍèÍèÍè½èªè—èŠèykyèyèbUbLbhuHÆhûS†CJhuHÆhãÞCJmH sH huHÆhãÞCJhpCJOJQJmH sH  huHÆhûS†CJOJQJmH sH huHÆhãÞCJOJQJ%jhuHÆhûS†0JCJOJQJU%jhuHÆhc(æ0JCJOJQJU jEðhuHÆhûS†CJOJQJhuHÆhûS†6CJOJQJhuHÆh yžCJOJQJhuHÆhûS†CJOJQJhuHÆhûS†mH sH Nwöw–xHyñy¼{ö|@€€€€€&…'…îÙÙÙÙÇÇÇ»»«ž8$$„Ådüþ`„Åa$gd½Zz8$„Ådüþ`„Åa$gdÏSN
8$$„î^„îa$gdñV¶
& F„e„›þ^„e`„›þgdª= $düþ1$a$gd3]$„Ådüþ¤x1$`„Åa$gdñV¶8$„ã„ÿdüþ¤x^„ã`„ÿa$gdÚyp8$„Ädüþ¤x`„Äa$gdñV¶y|À|Ã|Å|Ì|ô|õ|ö|5}”}–}˜}š}›}Ÿ}¡}¢}£}½}Æ}ä}ú}~~~H~a~r~s~’~÷îäî÷ÛÒź®º£º£º–‰|‰oboUo‰oU‰ohuHÆh!ƒCJmH sH huHÆhœlÈCJmH sH huHÆhgKCJmH sH huHÆh…ŸCJmH sH huHÆhÓU:CJmH sH huHÆh,tzCJmH sH huHÆhu-çCJaJhuHÆh,tz6CJaJhuHÆh,tzCJaJhuHÆhûS†CJmH sH huHÆhÓU:CJhuHÆh,tzCJhuHÆhTu·6CJhuHÆhTu·CJhuHÆhûS†CJ’~¥~¦~?@±²€€€€€€ˆ€€´€¸€STUW\ÁG‚P‚p‚v‚Ȃ͂9ƒ:ƒ;ƒAƒCƒʄöéÜéÜéÓÊÁÓÁ¸±­ “ “ † † y k k k † ^† huHÆhAi:CJOJQJhuHÆhñV¶6CJOJQJhuHÆh_CJOJQJhuHÆh CJOJQJhuHÆh9=GCJOJQJhuHÆhñV¶CJOJQJhñV¶ h’)hñV¶huHÆh ãCJhuHÆhñV¶CJhuHÆh9=GCJhuHÆhœlÈCJhuHÆh>jCJmH sH huHÆh!ƒCJmH sH h‡VOCJmH sH $ʄ˄ñ„……$…&…'…K…L…¤…¨…s†{†ӇԇՇׇû‡ˆ/ˆ9ˆeˆfˆgˆވäˆåˆçˆ݉5ŠHŠmŠ~ЭвŠóæÙÌÙæ¿¸´«¢«–«¢«¢««†«}n«¢«¢«¢d¢dZdhuHÆh»CJ]huHÆh»6CJjhuHÆh`™0JCJUhuHÆh°fCJhuHÆh`™6CJ
h*2œCJhuHÆh`™6CJ]huHÆh»CJhuHÆh`™CJh½Zz h²Iqh½ZzhuHÆh½ZzCJOJQJhuHÆhÕA‡CJOJQJhuHÆh‹x‚CJOJQJhuHÆhñV¶CJOJQJhuHÆh`™CJOJQJ#'…L…݉¶ŠzŒF›G›w›¡E¡&¢£
¨©®ª®«®óâÐÐø󧧒’§§‡‡
8$düþa$gd3]8$„ª„Vÿdüþ¤x^„ª`„Vÿa$gd,?8$„Ådüþ¤x`„Åa$gd,?
$düþa$gdBo« $düþ¤xa$gd»$„ã„ÿ¤x^„ã`„ÿa$gd»$„Ådüþ¤x`„Åa$gd`™ 
& F„Ð^„Ðgdá2²Š͊
‹'‹.‹`‹‹ù‹xŒ¯Œ²Œ´Œ8AWXY[ñŽòŽóŽõŽ1235šž¤·ƏΏϏЏҏA’B’ϔ"•%•D•y•~•ˆ•–%–&–(–2–õìâõØõâõìâõìâìÏìÏìÆìÆì½ì½ìâìâì´ìÆìÆì¨ì¢˜¢…¢ìÆìÆìhuHÆhÀe 6CJhuHÆhÀe CJhÀe hÀe 6CJ
hÀe CJjh©X0JCJUhuHÆh72CJhuHÆhƒL¤CJhuHÆhÌ
âCJhuHÆh æCJhuHÆhÁOgCJ]huHÆh»6CJhuHÆh»CJhuHÆh»CJ]12–B–C–D–F–Q–[–_–f–k–͖Ζϖі&—2—°˜µ˜ú˜û˜ü˜þ˜ ™
™ ™
™™˜™šššš!š"š#š%š*š4šݚޚߚášìšùšúšûšýš ››››››F›G›õìãìãØìØìãìãìãÌãÆã½ã½ã½ã½ã´ã«ã«ã«ã«ã´ã«ã«ã¢«ã«ã˜ã«ã«ãhuHÆh8z·CJhuHÆh»6CJhuHÆhaCJhuHÆh72CJhuHÆh¢O[CJhuHÆhƒL¤CJ
hb ÀCJhuHÆh»6CJ]huHÆhÌ
âCJ^JhuHÆh»CJhuHÆhÌ
âCJhuHÆhÌ
âCJPJ 6G›a›d›v›w›}›Š›Ÿ› ›å›ì›#œ/œ0œ4œuœ„œ…œ>Ÿ?Ÿ@ŸBŸݟëŸýŸ % & 3 4 5 C b | Õ Ö × Ù å ê ë ì í ùòùîáÓáÀáÓá³¢³áӕá³á³áÓáˆáˆáˆáˆáˆá³á³áxákáhuHÆh+LCJOJQJhuHÆh½Zz6CJOJQJ]huHÆh^tÍCJOJQJhuHÆh8z·CJOJQJ!huHÆhð B*CJOJQJphhuHÆhð CJOJQJ%jhuHÆhr0JCJOJQJUhuHÆh½Zz6CJOJQJhuHÆh½ZzCJOJQJhð h²Iqh1Jc h²Iqhð *í ï ÿ  ¡
¡ ¡¡¡(¡9¡E¡F¡G¡K¡M¡£¡¤¡Ý¡ù¡&¢(¢)¢+¢,¢-¢¢„¢½¢¢Ü¢
££{£|£}££¸¤À¤ï¤ð¤ñ¤÷¤B§N§b§y§ ¨ϨÕ¨©óæóæóæÙæÌæ¿óµ¨ó¿ó¿ó¿µ¨µ¨ó¿ó¨¿ó¨ó¨ó¨óšóšóšóšóšóhuHÆh,?CJOJQJ]huHÆh,?CJOJQJhuHÆhð 6CJOJQJhuHÆh@:{CJOJQJh²IqCJOJQJhuHÆh8z·CJOJQJhuHÆh V¹CJOJQJhuHÆh¹1=CJOJQJhuHÆh½ZzCJOJQJhuHÆhð CJOJQJ1©Z©[©\©a©b©l©}©‚©‡©Ž©—©©£©¤©§©¿©TªVª®ª´ª««:¬=¬R¬i­óæÙæÌæ¿ó±ó¤–¤ó‰|‰óo_o_oRCohuHÆhN CJOJQJ^JhuHÆhN CJOJQJhuHÆh,?6CJOJQJ]huHÆh,?CJOJQJhuHÆhFDCJOJQJhuHÆhŒ¢CJOJQJhuHÆhù`q6CJOJQJhuHÆhù`qCJOJQJhuHÆhÑ5 6CJOJQJhuHÆh¿>CJOJQJhuHÆh CJOJQJhuHÆh$ CJOJQJhuHÆh˜8[CJOJQJhuHÆhÑ5 CJOJQJi­o­íÇ­È­Ê­â­ç­é­+®,®J®®§®¨®©®«®»®¼®¯!¯ª¯±¯I°|°‹°˜°±+±ݱÞ±G²ɲÛ²à²â²ñä×ä×ä×äʺÊä×ä­ ™• ˆ ˆ ˆ ˆ ˆ äˆ{n`nhuHÆhËT6CJOJQJhuHÆhËTCJOJQJhuHÆh׬CJOJQJhuHÆhO-CJOJQJh˜ h²Iqh˜huHÆh˜CJOJQJhuHÆh›°CJOJQJ j±ðhuHÆhÄeùCJOJQJhuHÆhÄeùCJOJQJhuHÆhãd>CJOJQJhuHÆh,?CJOJQJhuHÆh,?6CJOJQJ#«®¼®½®Þ±‘¼v¿‰¿¿ÿĿſƿǿȿïãÔñ¡“…±±±±w$d0ý¤x1$a$gd6M‹$düþ¤x1$a$gd8"¼
$døý1$@&a$gd|k‚$døý¤1$@&a$gd U`$„Ådüþ¤x1$`„Åa$gds,Æ8$„Ådüþ¤x`„Åa$gdPØ8$„Ådüþ`„Åa$gdPØ 8$$düþa$gd3]
& F„e„›þ^„e`„›þgdª=
â²ì²í²i³k³s³ƒ³§³ƳͳγÚ³3´u´ ´¶´дö´÷´MµVµZµcµ…µ¥µ¦µ1¶>¶3·=·o·óæÙÌ¿²¿¨¿ó¿›¿‘¿„¿Ù¿v¿v¿i¿i\„O„huHÆh¹-ÛCJOJQJhuHÆhHP1CJOJQJhuHÆhiCJOJQJhuHÆhØ6CJOJQJhuHÆh0uúCJOJQJh&BCJOJQJhuHÆh†e˜CJOJQJh¢{’CJOJQJhuHÆhì+lCJOJQJhuHÆhØCJOJQJhuHÆhD
& F„;ý¤`„;ýgdöggdœW %düþ¤ðgdQe 4$„Ådÿ¤x$d%d&d'd1$NÆÿOÆÿPÆÿQÆÿ`„Åa$gd]®$düþ¤x1$a$gdqRø$d@ü¤x1$a$gdqRø ì¿,ÀhÀjÀÃÃÇ:DZȲÈxÉyÉcÊiÊ}Ê…ÊFËJË°Ë¼ËÆËÚËÌÌÌ0ÌaÍlÍÎ+Î}ΔÎÏ Ï&Ï'ÏÐÐyÐzÐÑ
ÑwÑxÑÒ-ÒRÒSÒUÒXÒ‡Ò”Ò•Ò÷ñ÷èÖèÐèÇèÖèÇèÇèÇèÇèÁèÇèÇè÷è÷è÷è÷è÷è÷è÷è÷è·è÷豨›“Œ†
h=>DCJ hœWhcu@h²IqhQe 5h²Iqh²Iq5B*phÿÿÿhöZ€hQe CJ$
h8"¼CJh]®h·kø6CJ
hÜ(–CJh]®h¬-ÜCJ
hžÆCJ" jðh]®h·køCJ^JmH sH h]®h·køCJ
h/¾CJh]®h]®CJ4•Ò¡Ò§ÒóÒ÷ÒÓÓ;Ó[ÓgӁӅӆӑӵӶӷӸӼÓÈÓÎÓÏÓØÓÔ(Ô+ÔXÔaÔbÔfÔzÔ¡Ô«Ô¬Ô¯Ô±ÔÄÔÆÔÇÔÕ÷îå÷ÜÓÊÁîÁîÁîܸܸܸܸܯ¦¯”¦¯‹”¦Ü€rf€huHÆhm_CJH*PJ
huHÆh;[:CJPJ
^JhuHÆhm_CJPJ
huHÆhá!zCJhuHÆhR CJhuHÆhÅnCJhuHÆhý

CJhuHÆh`ÙCJhuHÆhFZ?CJhuHÆh.2]CJhuHÆhÙrjCJhuHÆhV*CJhuHÆhm_CJhuHÆhi;ÕCJhuHÆh|
^CJhuHÆh0ƒCJ'ÕÕÕÕÕÕÕ?ÕGÕOÕaÕbÕcÕdÕgÕhÕjÕoՁՂՇՈՌՏՐՑ՛՞ÕðÖ@×A×J×O×Q×R×T×õêõáØÏØÆ½ÆØ´«´Æ´Ø´¢˜¢´Æ‰€w€Øne´[´n´huHÆh0ƒ6CJhuHÆhW
šCJhuHÆhÙrjCJhuHÆhrCJhuHÆh˜vCJjhuHÆhGnž0JCJUhuHÆhi76CJhuHÆhi7CJhuHÆhcu@CJhuHÆh0ƒCJhuHÆh{õCJhuHÆhÙ3¾CJhuHÆhÄ©CJhuHÆhm_CJhuHÆh·DTCJhuHÆhÅnCJPJ
huHÆhR CJPJ
#T×U×V×X×^×b×c×RØYØIÙhÙ}Ù~مىيÙÚÙÞÙäÙéÙiÚnÚ\ààØàäàêàúàûàýàááá7á;áFáLáTáYá]áaáváxá÷îåÜå÷ÓÊÓÁ¸­Á¸Á¸£¸£¸£¸šÓÁÓÁ‘ÁÓÁӆ{†{†o†{†{huHÆh& ¾6CJPJ
huHÆhm_CJPJ
huHÆh& ¾CJPJ
huHÆhÙ3¾CJhuHÆh‰CJhuHÆh$¾6CJhuHÆh$¾CJ^JhuHÆh$¾CJhuHÆh& ¾CJhuHÆhß< CJhuHÆhm_CJhuHÆh߬CJhuHÆhGnžCJhuHÆhzœCJhuHÆhÙrjCJ*xáyáÃáÑá~âžâ³â¸âÐâÓâÙâßâàâââäâåâ6ãVãWãkãlãnãpã{ã|ã~ã€ãã¦ã¶ã ä9ä@äEä.å`åeåiåuåvåwåxå›åõìãìÚÑìÑÇìѾÑì¾ìÚµÑÚѬ£µ£ìµìšì‘ìˆìvìvmìhuHÆh}fCJhuHÆhý

CJhuHÆhá!zCJhuHÆhÙrjCJhuHÆhN&sCJhuHÆh
AYCJhuHÆhß/QCJhuHÆh U`CJhuHÆh&ŸCJhuHÆhÙ3¾CJhuHÆhÜfû:CJhuHÆhÜfûCJhuHÆh–(¦CJhuHÆhß< CJhuHÆhm_CJhuHÆhÙ3¾CJPJ
*›åÁåîå'æIæbæxæ{æ™æœæØæÛæûæþæwç–ç—ç·ç8è>>>> >(>)>/>÷ï÷æßÖÏǽϴϬϴϥϬϴÏǽϴÏǽ™Ï½Ç†Ö÷ï÷æÏ´ÏǽϴϬϴÏhuHÆhgíCJhuHÆh¥uˆCJ\huHÆh¥uˆ5CJ\ huHÆhÒHŸhuHÆh¥uˆ5huHÆh¥uˆCJhuHÆh¥uˆ5\huHÆh¥uˆ\ huHÆh¥uˆhuHÆh°i&CJ huHÆh°i&huHÆhG\€CJhuHÆhôí5huHÆhG\€54›>>A>G>H>M>N>[>^>d>e>x>{>~>>–>™>š>>ž>Á>Î>Ï>Ð>???"?#?$?%?-?.?8?;?