Corpus spécialisé en textes médicaux - Limsi
Pour ma part, j'ai conseillé de constituer un dossier à ce sujet consignant les ...
Les étudiants ne maîtriseraient pas assez les types d'écrits demandés à l'examen
. ...... de la France (biotechnologie, énergie, universités publiques, informatique,
santé, .... analyses médicales britanniques ont recours à leurs collègues indiens.
part of the document
11
2.2.2 Echantillonnage RENVOIPAGE _Toc490968205 \h 11
2.2.3 Langue actuelle RENVOIPAGE _Toc490968206 \h 11
2.2.4 Documentation de chaque texte RENVOIPAGE _Toc490968207 \h 11
2.2.5 Un corpus annoté RENVOIPAGE _Toc490968208 \h 11
2.2.6 Encodage XCES RENVOIPAGE _Toc490968209 \h 12
3 Matériel et méthodes RENVOIPAGE _Toc490968210 \h 12
3.1 Matériel RENVOIPAGE _Toc490968211 \h 12
3.2 Méthodes RENVOIPAGE _Toc490968212 \h 12
3.2.1 Quels documents médicaux RENVOIPAGE _Toc490968213 \h 12
3.2.2 Méthode de collecte RENVOIPAGE _Toc490968214 \h 14
3.2.3 Méthodes dencodage RENVOIPAGE _Toc490968215 \h 15
4 Résultats RENVOIPAGE _Toc490968216 \h 16
4.1 Classification des types de documents médicaux RENVOIPAGE _Toc490968217 \h 16
4.1.1 Taxinomies RENVOIPAGE _Toc490968218 \h 16
4.1.2 Documentation RENVOIPAGE _Toc490968219 \h 17
4.2 Encodage RENVOIPAGE _Toc490968220 \h 17
4.2.1 Standardisation RENVOIPAGE _Toc490968221 \h 17
4.2.2 Linstanciation RENVOIPAGE _Toc490968222 \h 17
4.2.3 Choix de léchantillon RENVOIPAGE _Toc490968223 \h 17
4.2.4 Encodage et documentation de léchantillon retenu RENVOIPAGE _Toc490968224 \h 18
5 Discussion RENVOIPAGE _Toc490968225 \h 18
5.1 Dimensions RENVOIPAGE _Toc490968226 \h 18
5.2 Genres RENVOIPAGE _Toc490968227 \h 18
5.3 Format électronique RENVOIPAGE _Toc490968228 \h 18
5.4 Normalisation RENVOIPAGE _Toc490968229 \h 19
6 Perspectives RENVOIPAGE _Toc490968230 \h 19
7 Conclusion RENVOIPAGE _Toc490968231 \h 20
Remerciements RENVOIPAGE _Toc490968232 \h 20
Références RENVOIPAGE _Toc490968233 \h 21
Annexe 1 RENVOIPAGE _Toc490968234 \h 1
Annexe 2 RENVOIPAGE _Toc490968235 \h 2
Annexe 3 RENVOIPAGE _Toc490968236 \h 3
Annexe 4 RENVOIPAGE _Toc490968237 \h 4
Annexe 5 RENVOIPAGE _Toc490968238 \h 4
Annexe 6 RENVOIPAGE _Toc490968239 \h 5
Annexe 7 RENVOIPAGE _Toc490968240 \h 7
Annexe 8 RENVOIPAGE _Toc490968241 \h 9
Annexe 9 RENVOIPAGE _Toc490968242 \h 11
Annexe 10 RENVOIPAGE _Toc490968243 \h 13
Conception dun corpus de textes médicaux
Pierre Jacquemart
stage effectué dans le laboratoire
DIAM SIM / DSI / AP-HP
Sous la direction de P. Zweigenbaum
91 Bd de lHôpital F-75634 Paris cedex 13
Abstract :
Medical texts include many different types or « genres » for which general-purpose Natural Language Processing (NLP) tools may be more or less effective. French medical language corpora are therefore necessary to enable French NLP tools to reach a good level of performance on medical texts. The goal of this work is to study a model of corpus that will represent the range of genres of medical sublanguage. We have defined a typology to class and cover the variety of genres in the medical field according to some linguistic and bibliographic criteria.. For computer processing XML is a good mean to encode a corpus according to the Corpus Encoding standard (this one follows the Text Encoding Initiative). After solving methodological aspects, we have encoded an exemple in XML format to verify the validity of our choices.
Keywords : corpus, medicine, representativeness, XML, TEI, CES
Introduction
Le succès rapide du Web aboutit à une situation anarchique et la difficulté est désormais dextraire linformation pertinente même avec lusage doutils de recherche. Les outils de traitement automatique des langues doivent leur efficacité à leur mise au point à partir de vastes corpus de référence développés pour langlais [1]. Ce degré dindustrialisation explique en partie le poids considérable pris par la langue anglaise sur la toile.
Lindustrialisation de la langue française est elle aussi très dépendante de la constitution de bases de travail linguistiques. Les anglo-saxons ont dans ce domaine une avance importante liée à la disponibilité déjà ancienne de corpus en langue anglaise; il apparaît donc un besoin crucial de corpus pour le français, notre relatif retard en la matière pouvant être considéré comme un avantage sil nous permet déviter les écueils rencontrés par les auteurs anglo-saxons.
Cest sur les bases de ces constatations que le projet Corpus CLEF [2] a été lancé. Ce projet consiste à créer un recueil textuel de diverses origines pour le français actuel. Le projet Corpus CLEF entend représenter les emplois du français contemporain peu accessibles actuellement. Ce corpus de textes est constitué pour les besoins de la recherche et sinscrit dans le cadre des nouvelles technologies de linformation appliquées à la langue française. Il servira de base pour létude et le développement de logiciels destinés au traitement de données textuelles pour la recherche dinformations, le traitement automatique des langues, lindexation des données.
Lobjectif de notre travail consiste à étudier une maquette de sous corpus de Corpus CLEF représentant les variétés langagières médicales. Cela nécessite létude des genres distincts plus ou moins spécifiques du discours médical et de représenter leur diversité. Les autres parties du projet ne sont pas encore démarrées et de ce fait notre travail ne peut s appuyer sur des base déjà acquises il fait donc fonction de défrichage pour lensemble du projet corpus CLEF.
Réaliser un échantillon cohérent de langage scientifique et technique nécessite tout dabord de résoudre un certain nombre de difficultés méthodologiques : quels sont les genres de documents médicaux existants? quelles dimensions caractérisent le mieux les textes? peut-on faire une typologie de ces textes? Comment décider lesquels représenter dans notre corpus? Il convient aussi de résoudre des problèmes réglementaires et pratiques parfois spécifiques au domaine médical comme la confidentialité des documents (secret professionnel, etc.). Une autre difficulté est posée par les problèmes juridiques (droit dauteur, droit moral, protection des données nominatives ou indirectement nominatives).
Nous préciserons (section RENV _Ref490471000 \r \h 2) ce que recouvre la notion de corpus, réfléchirons aux critères linguistiques sous-jacents et verrons les réalisations existantes actuellement. Le domaine médical possède un certain nombre de spécificités qui vont nous conduire (section RENV _Ref490470952 \r \h 3) à effectuer des choix particuliers en matière de représentativité, de choix dans léchantillonnage et la taille afin de rester cohérent avec les utilisations escomptées. Nous aborderons ensuite les problèmes de sélection puis de collecte. Il sera ensuite nécessaire de prévoir un encodage du corpus dans un format approprié. Nous présenterons (section RENV _Ref490471068 \r \h 4) nos résultats sur un échantillon et discuterons (section RENV _Ref490471089 \r \h 5) les intérêts de notre réalisation et de ses limites, puis nous parlerons (section RENV _Ref490471113 \r \h 6) des évolutions envisageables.
Contexte et objectifs
Etat de lart
Nous allons tout dabord préciser la terminologie employée. Nous présentons ensuite lopposition entre corpus spécialisé et corpus de référence. Puis nous étudions les manières possibles de caractériser et de documenter nos textes. Nous faisons enfin la revue des solutions employées par les travaux existants.
Définitions
Un corpus est à distinguer dune simple collection bibliographique, il est défini usuellement par « un ensemble de documents servant de base à la description dans un domaine ou à létude dun phénomène » [3]. En linguistique B.Habert précise la définition : « un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir déchantillon demplois déterminés dune langue »[4]. On peut constituer des sous corpus selon des critères plus spécifiques. Un sous corpus peut encore être constitué de composants. Les textes aussi peuvent être constitués dune ou plusieurs unités linguistiquement homogènes.
Les corpus existants
Sous le terme de corpus nous pouvons distinguer deux catégories :
le Corpus de référence qui est capable de fournir une vue complète dune langue dans toutes ses variétés et ses caractéristiques linguistiques. Il peut alors servir de base pour la production de grammaires, thesaurus, dictionnaires [5]. Typiquement, sa composition est basée sur une sélection de textes définis par un modèle utilisant des critères sociologiques, puis une structure organise ses composants et sous corpus.
Le Corpus spécialisé qui se caractérise par ses particularités lexicales et grammaticales [5]. Il représente un langage de spécialité (vs. langage général) aussi appelé sous langage pour un domaine donné. Les corpus spécialisés ne contribuent donc pas à la description de la langue ordinaire.
Un sous langage se définit comme un ensemble dénoncés liés par un sujet limité, utilisé pour une fonction particulière et engendré par une grammaire et un vocabulaire spécifique [6]. Les sous langages représentent un concept important du traitement automatique du langage naturel (TALN) car ces derniers restreignent les constructions ainsi que le vocabulaire [5 p144].
Ces caractéristiques favorisent lutilisation dun certain nombre doutils du TALN car les corpus spécialisés sont plus homogènes et disposent dun vocabulaire plus réduit et spécialisé, on y trouve des contraintes au niveau sémantique, conceptuel et pragmatique [7]. Par ailleurs un sous corpus est aussi déterminé par des critères internes et externes. Les critères internes se réfèrent au texte et à son contenu, les critères externes sont davantage liés à lenvironnement ou à la situation dénonciation. Les premiers sont souvent considérés comme primordiaux en linguistique.
Il est possible de concevoir un corpus qui serait divisé en sous corpus ou composants héritant des propriétés du corpus, ces parties ne sont pas obligatoirement des extraits représentatif du sous langage. Dans une telle structure les pièces de langage devraient être sélectionnées selon des critères linguistiques pour assurer une certaine homogénéité [7].
Il est intéressant de noter que les différences de structures entre un langage spécialisé et le langage général sont plus importantes que celles survenant dans un langage spécialisé écrit dans des langues distinctes [1]. Le langage médical répond bien aux critères de sous langage spécialisé. Il est représentatif dun langage spécialisé technique. Mais il a aussi comme caractéristique de contenir des genres langagiers très divers.
Extraits
Pour des raisons principalement historiques et techniques les corpus en langue anglaise sont surtout constitués dextraits de textes de taille constante (par exemple 2000 mots dans le corpus [ RENV Brown \h RENV Brown \h RENV Brown \h RENV Brown \h Brown RENV Brown \h RENV Brown \h ] voir section RENV _Ref490475934 \r \h 2.1.8). Les corpus en langue française sont eux plutôt constitués de textes entiers.
Nous trouvons sur ce sujet de grandes différences dans les réalisations mais Sinclair [8] considère quant à lui que lutilisation dextraits ne fait que donner un aspect pseudo-scientifique à un corpus.
Méta-informations
Pour être en mesure de retrouver, manipuler ou regrouper des textes de manière simple et efficace il est indispensable de les documenter le plus finement possible. Il devient dès lors possible de constituer par sélection des sous corpus spécialisés.
Pour la documentation une proposition très intéressante nous est apportée par les bibliothécaires et documentalistes, qui pour les documents textuels traditionnels ont depuis longtemps défini des schémas descriptifs normalisés associant des métadonnées aux données. Les plus utilisés sont des variantes de MARC et UNIMARC [9] ainsi que lISBD.
En 1997 une proposition de schéma descriptif normalisé est apparue pour décrire toutes les ressources documentaires du Web : le Dublin-core [13]. (voir RENV _Ref490476877 \h Annexe 3)
En linguistique une hypothèse largement partagée veut que les textes puissent se regrouper par familles selon une typologie (classement selon des listes de critères linguistiques préétablis : traits, morphologiques, syntaxiques, sans se préoccuper dautres ressemblances ni dune possible communauté dorigine [11] ) mais ces typologies varient selon les auteurs et les objectifs à atteindre. Les textes ou éléments peuvent être décrits selon des dimensions, internes ou externes, et selon larrangement de ces dimensions il devient possible de classer les textes en différentes typologies (groupe de types se caractérisant par leurs dimensions).
Quelques exemples nous montrent les différences dapproche. Sinclair repris par Habert [1] nous propose une grille (voir RENV _Ref490476409 \h \* FUSIONFORMAT
Annexe 1). Il convient de distinguer pour lui des caractéristiques externes et internes. La classification de textes est majoritairement faite à laide de critères externes. Mais un système de classification basé purement sur des critères externes ne regrouperait pas nécessairement les textes linguistiquement similaires ensemble. Deux arguments centraux de classification sont selon Sinclair mieux décrits en utilisant les critères internes : le sujet et le style.
Biber pour sa part propose une autre grille [5]. Les dimensions de Biber recoupent partiellement celles de Sinclair, mais il ne différencie pas pour cette grille les critères internes et externes (voir RENV _Ref490476717 \h \* FUSIONFORMAT
Annexe 2)
Nous avons aussi la grille du Dublin-core publiée en1995 [13] qui propose une quinzaine de propriétés descriptives ( RENV _Ref490476877 \h Annexe 3), relatives pour les unes au contenu proprement dit de la ressource, pour les deuxièmes à la propriété intellectuelle de ce contenu, et pour les dernières aux caractéristiques physiques de la ressource. Même si lannuaire médical français CISMeF [17] en fait un usage partiel (avec le thesaurus MeSH en Français [14] ), le Dublin-core est encore assez peu utilisé sur le Web, alors même quil peut parfaitement être exploité avec les technologies existantes, notamment en utilisant les éléments de HTML. Remarquons que sa définition est purement sémantique: elle ne fait aucune hypothèse sur les langages formels et sur les outils logiciels qui peuvent être employés pour créer des descriptions, les associer aux ressources et les exploiter dans des moteurs de recherche. RDF offre une méthode générale pour représenter et exploiter un tel schéma, ou dautres plus complexes.
Nous avons donc ici trois grilles qui se recoupent partiellement et se complètent mutuellement. Il nous semble judicieux dutiliser ces éléments, de les compléter et den faire la synthèse pour obtenir une grille plus complète.
Typologie des textes selon des critères internes
Il est possible de grouper les textes en catégories linguistiques selon une typologie. La typologie des textes a suscité de nombreux travaux et lhypothèse partagée par ces différentes recherches est que chacun des types postulés se caractérise par lassociation dun certain nombre de caractéristiques linguistiques. De cette manière, on peut classer, catégoriser des textes en genres par analyse automatique de leur contenu. La démarche de travail sur les types de textes part souvent des types liés au mode de production des textes ou par identification des fonctions visées par les textes, examine les textes qui relèvent de chacun de ces types et leur fonctionnement linguistique, et essaie de mettre en évidence certaines corrélations entre types et caractéristiques (ou traits) linguistiques. On ne sait toutefois pas si, en partant dune autre typologie a priori, on ne rassemblerait pas sous un même chef des textes différents, ce qui aurait toutes chances de produire des agrégats de traits linguistiques distincts de ceux produits par la typologie précédente. La répartition des textes retenus sous les rubriques choisies est elle-même contestable. Cela est dautant plus gênant que lexistence de types textuels distincts paraît intuitivement fondée, même sil savère délicat de létayer empiriquement.[1]
La statistique multidimensionnelle peut aussi être mise à contribution pour repérer les oppositions majeures entre associations de traits linguistiques. Elle rassemble les traits qui ont tendance à apparaître ensemble. Elle constitue dans le même temps les configurations de traits qui sont systématiquement évités par les mêmes rassemblements. Cette démarche permet dobtenir des pôles multiples, positifs et négatifs, correspondant à ces constellations. Ces pôles deux à deux constituent des dimensions. Chaque texte, par son emploi des traits linguistiques étudiés, se situe en un point déterminé de lespace à n dimensions déterminé par cette analyse.
Illouz [15] pour obtenir une structuration de textes par rubriques, choisit des traits surfaciques (longueur de paragraphes et des mots), ou linguistiques, (fréquence du vocabulaire présent dans le texte, proportion dadjectifs, fréquence de certains motifs linguistiques
). Il retrouve ensuite les formes lexicales les plus présentes. Idéalement un « outil de profilage » pourrait évaluer lhomogénéité interne de sous parties définies à priori.
Biber [5] rejette les typologies déterminées par la différenciation par critères externes. Il montre quà partir de corrélations avec 67 traits linguistiques relevant de 16 catégories distinctes, on peut déterminer par la statistique multidimensionnelle des dimensions et aboutir par classification automatique à différents types de textes en fonction de leurs valeurs pour chaque dimension. Les types ainsi trouvés ne recoupent pas directement les genres à priori. La typologie construite par D. Biber à partir des résultats de lanalyse factorielle sorganise autour de cinq dimensions ( RENV _Ref490480507 \h \* FUSIONFORMAT
Annexe 4). Ces dimensions proposées à lissue de linterprétation des contrastes majeurs mis en évidence par lanalyse multidimensionnelle sont en fait des prototypes, des pôles de fonctionnements textuels. Chacune des dimensions mises en évidence oppose deux pôles, mais les textes concrets se situent en des points variés des échelles ainsi définies [1].
En fonction de leur place sur chacune de ces dimensions, Biber aboutit à huit types de textes ( RENV _Ref490480697 \h Annexe 5). Ces types ne correspondent pas forcément aux intuitions communes. Cest ainsi quon ne débouche pas sur un type unique interaction ou dialogue, mais deux : linteraction à visée informationnelle et linteraction à visée interpersonnelle. De la même manière, Biber distingue plusieurs types de textes « expositifs » et de textes narratifs [5].
En outre, les travaux typologiques inductifs examinent également les subdivisions internes à un texte et les traits linguistiques liés. D. Biber et E. Finegan [16] sur un corpus darticles du New England Journal of Medicine et du Scottish Medical Journal montrent que les parties canoniques dun article scientifique (introduction, méthodes, résultats, conclusion) comportent des différences linguistiques sensibles entre elles. Ces travaux raffinent lidée de type de texte. Un texte donné nest pas forcément homogène sur le plan des types de texte auxquels il recourt. Il peut inclure des sous-types, ou faire appel pour telle ou telle part à un autre type que celui qui y prédomine. Le grain pour létude des types de textes nest donc pas forcément un document dans son ensemble, même sil est bref, ce qui est le cas des articles de médecine étudiés par Biber et Finegan. Cela aura des conséquences sur la problématique de léchantillonnage introduite plus haut (section RENV _Ref490481014 \r \h 2.1.3).
Par ailleurs dautres auteurs comme Sinclair pensent quaucune classification externe ne semble être totalement satisfaisante et il lui semble quune technique utilisable serait un classement multiaxial [8].
Genres textuels médicaux
En médecine de nombreux genres de textes sont représentés, les classements se font habituellement par thématique et spécialités. Un exemple très intéressant nous est fourni par le CISMeF sur le site du CHU de Rouen [17]. Sans viser lexhaustivité il répertorie entre autres : les principaux sites médicaux en ligne, les listes de diffusion santé, une partie de journaux électroniques, des bases de données, des institutions dans la santé, des bibliothèques des listes par pathologies ; ainsi que 74 spécialités médicales. Dautres genres se rencontrent au sein du dossier patient, de textes denseignements etc
Balisage et encodage de corpus
Lencodage pour un corpus consiste à matérialiser les structures de données et leur association à dautres information (les méta-données) ; classiquement cela se fait au moyen de balises prédéfinies. Ce procédé va permettre les traitements informatiques. La structure interne est organisée de manière hiérarchique et respecte une syntaxe logique définie par une DTD (définition de type de document). Enfin grâce à lopération détiquetage il est possible dassocier à chaque mot une ou plusieurs valeurs précisant sa valeur morpho-syntaxique. On peut aussi construire des arbres matérialisant les relations syntaxiques entre mots dans les phrases.
La norme internationale SGML (standard generic markup langage) [19] traite du balisage structurel des documents sous leur forme électronique. Adoptée en 1986 par lISO elle à été largement reprise par les éditeurs, des grandes entreprises internationales, des institutions gouvernementales. Elle a déjà été beaucoup utilisée dans le balisage de certains corpus.
La TEI ( text encoding initiative) [20] à été soutenue par les associations ACH et ALLC pour unifier lencodage des textes. Ce travail collectif sest étalé sur plusieurs années et se veut relativement exhaustif dans la description et normalisation du balisage pour les textes des sciences humaines en SGML [21].
La CES (corpus encoding standard ) à été développé sur la base de la TEI par Ide & Véronis [22]: ce standard de codage des corpus à été mis au point dans le cadre du projet MULTEX [32] en collaboration avec le groupe chargé de la représentation des textes EAGLES [33]. La CES permet la séparation des données primaires et des annotations liées par des liens hypertexte. Le CES fournit les balises et les DTD : CesDoc (pour les données), CesAna (pour les étiquetages) et éventuellement CesAlign (pour les correspondances de textes en langues différentes). Il a été défini trois niveaux de codages pour le TEI : niveau 1 (encodage jusquau paragraphe), niveau 2 (codage grossier des éléments internes des paragraphes) et niveau 3 (codage fin). La structure du corpus est constitué dune entête de corpus et de documents comportant eux même un entête de texte. Les entêtes suivent le même modèle.
Le format XML [18] qui hérite dun certain nombre de propriétés de SGML est utilisé pour de nombreuses applications médicales. Cest un métalangage très intéressant car il présente une relative simplicité et semble être un bon candidat de format universel déchange dans les années à venir. Sur ces base a été publiée la norme XCES [23] : elle reprend en XML la norme CES.
Corpus Existants
Parmi les nombreux corpus actuellement disponibles nous avons retenu quelques un que nous pouvons schématiquement regrouper en catégories :
Les corpus de référence :
[British National Corpus] (BNC) [24] corpus de référence pour la langue anglaise qui comprend 100 millions de mots étiquetés, les textes sont attachés à des données signalétiques permettant lextraction selon certains critères. Ce corpus répond au normes de balisage SGML et respecte la TEI. Les données se veulent représentatives dune grande variété de situations de communication. Il comprend des données orales (10%) et de lécrit (fiction depuis 1960, textes informatifs depuis 1975). Les extraits sont de 45000 mots, parmi eux se trouvent des magazines et journaux en entier. Ce corpus datant des années 80 est le plus gros corpus du monde. Les échantillons sont représentatifs dune grande diversité de situations langagières, mais sans organisation par thèmes, registres ou genres [26]. En ce qui concerne lécrit, les variables prises en compte sont le domaine (textes informatifs et textes de fiction), le support (livres, périodiques, discours), la datation et la diffusion (sélection parmi les listes des meilleures ventes, celles de prix littéraires, les indications de prêts en bibliothèque, etc.). Laccent mis sur la diffusion effective certifie la représentation dusages majeurs de langlais [1]. La classification prend en compte la taille de lextrait, le sujet, des critères dauteur, de cible, et un niveau décriture. Enfin ce corpus est annoté (par le système dannotation probabiliste Claws).
[The Bank of English] est un autre corpus de référence, accessible par lInternet comprenant environ 167 millions de mots. Il contient plusieurs sous corpus de journaux, livres, magazines, radio, éphémères, information parlée. Le corpus est construit avec des extraits de taille similaire et les groupes sont de taille comparable (environ 40 millions de mots). Une partie du corpus a été saisie manuellement. Un logiciel permet de sélectionner des composants désirés.
Les corpus diversifiés couvrent une certaine variété langagière :
[Brown] ce corpus étiqueté dun million de mots a été mis au point en 1979 par W. Francis et H. Kucera, à luniversité Brown (USA). Il comprend 500 extraits de 2000 occurrences chacun provenant de textes américains publiés en 1961 et relevant de 15 genres : reportage, écrits scientifiques et techniques, etc. Les genres représentés sont parallèles à ceux du corpus LOB. Il a été soigneusement étiqueté et a été mis dans le domaine public.
[LOB] (Lancaster-Oslo-Bergen) est un corpus étiqueté conçu comme léquivalent anglais de Brown (pour laméricain). Il comprend également 1 million de mots sélectionnés selon les mêmes critères mais à partir de textes anglais publiés en1961. Il contient comme sous corpus le Leeds-Lancaster Treebank et le Lancaster Parsed qui sont des parties analysées arborées (voir ci dessous).
[London-Lund] est un corpus étiqueté, il totalise 435000 mots danglais parlé, répartis en 87 extraits de 5000 occurrences de locuteurs adultes ayant fait des études. Il inclut conversations, y compris téléphoniques, conférences et cours, commentaires radiophoniques, etc. Il comprend de nombreuses informations prosodiques (pauses, limites, etc.).
Corpus arborés :
[Susanne] comprend 128000 occurrences et a été annoté de manière purement manuelle de1994 à1995, il est constitué de 64 extraits de 2000 occurrences chacun pris dans le Brown. Il intègre des reportages, des textes littéraires (romans, biographies, mémoires), des écrits scientifiques et techniques et enfin des textes de fiction. La particularité du [Susanne] est que chaque phrase est assortie dun arbre syntaxique très détaillé, associant des étiquettes catégorielles et des étiquettes fonctionnelles.
[Lancaster/IBM Treebank] est un corpus arboré qui rassemble 1 million de mots de lagence Associated Press, 1 million de mots issus des débats du parlement canadien, 250000 mots de APHB (American Printing House for the Blind), 800000 mots de manuels IBM. Il est muni dune annotation syntaxique limitée : parenthésage et étiquetage des constituants.
[Penn Treebank] est un corpus arboré et comprend 4 millions de mots issus de sources diverses: Manuels IBM, Brown, Department of Energy, Department of Agriculture, textes littéraires, Library of America, oral transcrit, DARPA Air Travel Information System, informations financières, Dow Jones. Il a été analysé syntaxiquement de manière automatique (parsé) puis un travail manuel a été réalisé en aval pour améliorer lanalyse produite.
Les corpus pour létude diachronique (étude des variations dans le temps):
[Helsinki] est un corpus pour létude diachronique de langlais. Il comprend 1,5 millions de mots non annotés, couvrant la période allant de lannée 750 à 1700, répartis en 11 périodes et entre différents types de textes.
[Archer] est un corpus pour létude diachronique de langlais et de laméricain. Il comprend 1,7 millions de mots non annotés, de lannée 1650 à 1990, répartis en périodes de cinquante ans et en genres (journaux intimes, fiction, écrits journalistiques, médecine, science, décisions de justice, théâtre, sermons, etc.).
Pour le français nous pouvons citer les corpus suivants:
[Frantext] propose un fond en ligne de 160 millions de mots constitué à linstitut national de la langue Française INaLF-CNRS depuis les années soixante. Il a servi pour la rédaction des dix-sept volumes dun dictionnaire : le trésor de la langue française. Il sagit principalement de textes littéraires saisis dans leur intégralité. Les textes contemporains ainsi que les textes scientifiques et techniques sont peu représentés et loral y est absent.
Les projets MULTEX et PAROLE (extraits de Frantext et 14 millions de mots étiquetés provenant du journal Le Monde) offrent à la communauté des textes littéraires et journalistiques annotés morpho-syntaxiquement.
[Corfrans] est un projet de corpus textuel de référence pour le français, annoté par les lemmes, les informations morpho-syntaxiques et « arboré » (arbres syntaxiques). Ce corpus est encodé en SGML, il est annoté automatiquement puis contrôlé manuellement. Il comprend 1 million de mots provenant des extraits du journal Le Monde. Les textes sont récents et traitent de domaines divers par des auteurs différents sans autres critères de sélection (projet du TALaNa) [27].
[Menelas] [28] est un corpus spécialisé étiqueté et partiellement arboré, de 84839 occurrences et 6191 formes (ou types), il a été rassemblé dans le cadre dun projet européen de compréhension de comptes rendus dhospitalisation. Il concerne les maladies coronariennes. Il réunit un extrait de manuel médical, des comptes rendus dhospitalisation et des lettres des médecins hospitaliers à leurs collègues non hospitaliers à propos de patients communs.
Le projet [scriptorium] est un projet de la direction des études et recherches dEDF, cest un corpus de veille il a pour particularité daccueillir en permanence de nouveaux composants pour étudier lévolution sociale interne
Le projet [Corpus CLEF] concernera le français actuel (corpus linguistique électronique Français): « un corpus CLEF pour le français actuel »[29]. Ce corpus rassemblera différents sous corpus dans plusieurs domaines et sera suffisamment diversifié pour être représentatif du français actuel. Il est cordonné par lUMR 8503CNRS et lENS de Fontenay/Saint-Cloud. Le sous corpus médical est réalisé au sein de notre laboratoire.
Objectifs
La mise au point dune méthodologie et la validation par un exemple doit ouvrir la voie à la réalisation dun corpus complet représentatif des variétés langagières du langage médical et dont Les utilisations possibles sont nombreuses : il doit pouvoir servir doutil dans plusieurs domaines : pour lindustrie dans le test et le développement doutils de correction orthographique, la mise au point détiqueteurs, danalyseurs, de moteurs de recherche, la mise à jour de thesaurus facilitant laccès sémantique aux textes, la constitution de grosses ressources linguistiques (grammaires, dictionnaires). En linguistique pour lanalyse lexicographique et grammaticale.
En principe la constitution den corpus est guidée par lobjectif, cela aide à sélectionner les textes à incorporer. Nous voulons sélectionner une collection déchantillons pour donner une idée du champ et de ses variétés langagières. Nous opérerons une sélection des sous genres formant ainsi des sous corpus. Les sous corpus constitués, même sils risquent de se révéler trop réduits pour nombre dapplications scientifiques ou industrielles, pourront néanmoins être utilisés comme maquettes pour des applications.
Représenter la diversité
Lassemblage dun corpus est déterminé par ses futures utilisations et bien que celles ci soient potentiellement nombreuses, pour nous un objectif majeur est dobjectiver la meilleure représentativité possible des genres langagiers présents dans la langue médicale en montrant la variété des différents usages de cette langue. Pour cela nous devons recenser les principaux genres textuels, déterminer les dimensions qui sy rattachent. Cela servira de base pour létude de typologies et le développement de logiciels destinés au traitement de données textuelles pour la recherche dinformations, le traitement automatique de langues, lindexation et le codage de données. Ainsi les différentes applications pourront être testées sur des genres langagiers spécifiques.
Echantillonnage
Afin de faciliter la comparaison des différents éléments entre eux et dhomogénéiser la structure de notre corpus nous avons décidé dopter pour un échantillonnage. Nous pensons aussi que cela facilite lobtention des autorisations de la part des éditeurs. Le projet corpus CLEF [12] envisage une standardisation sur une valeur dextraits de 2000 mots environ. Nous allons néanmoins opter pour une formule souple qui permettra de privilégier lintégralité du texte pour les petits textes et ainsi de préserver leur structure dès lors que leur volume sera proche de la valeur standard.
Langue actuelle
La médecine est une science en évolution permanente, il en est de même du langage tant spécialisé que général. Comme nous souhaitons représenter le langage spécialisé actuel, il paraît donc judicieux de restreindre la sélection des textes aux plus récents. Nous avons donc choisi de ne retenir que les textes produits après1980.
Documentation de chaque texte
Pour autoriser un usage souple de parties de corpus il est nécessaire de recourir à lidentification des éléments. Celle-ci devra pouvoir se faire selon des critères de thématique (ou domaine RENV _Ref490884111 \h Annexe 8) genre et aussi de types de textes. Par ailleurs afin de faciliter lautomatisation fine de laccès aux éléments on doit disposer de suffisamment dinformations sur chacun deux. Cela conduit à la définition dune grille de dimensions ( RENV _Ref490579331 \h Annexe 7). Enfin il est utile dobtenir le grain le plus fin possible tout en tenant compte des ressources temps nécessaires.
Un corpus annoté
Suite à la réalisation du corpus il sera nécessaire de l étiqueter morpho-syntaxiquement. Certains outils détiquetage sont désormais disponibles. Mais les analyseurs les plus robustes et les plus fiables ne peuvent annoter complètement, cest-à-dire en fait désambiguïser totalement, les corpus. La constitution dun corpus bien étiqueté, utilisable pour toutes sortes dapplications ou dinterrogations linguistiques, doit donc nécessairement comporter à la suite de lannotation morpho-syntaxique automatique, une phase de correction manuelle et denrichissement humain.
Encodage XCES
Compte tenu de lévolution rapide des technologies et des normes, il nous semble raisonnable dopter pour des outils à la fois récents, les plus appropriés et pouvant facilement être réutilisables. La norme XCES [23] dencodage des corpus basée sur XML nous paraît être la meilleure formule pour ce faire.
Matériel et méthodes
Après létude de lexistant et des objectifs que nous nous fixons, il convient détudier les moyens et les procédures appropriées pour notre travail.
Matériel
Nous avons utilisé dune part des moyens logistiques du laboratoire soit un système Unix équipé de léditeur Emacs et un PC sous Windows avec Word 97 pour la réalisation des documents textuels daccompagnement. Le logiciel en open source Merlot [25] qui utilise Xerces et DOM qui fonctionne sous Java 1.2.2 permet de vérifier la conformité et de valider les documents XML. Létiqueteur de textes sous licence (Cordial Université) et lextracteur de termes (Lexter) pourront être utilisés postérieurement à la première phase de notre travail. Nous utilisons aussi la documentation de la CES [22] et les DTD de la XCES [23]. Nous avons dautre part le matériel textuel que lon collecte sous forme de fichiers .ps, .doc, .rtf, .html, .pdf. Pour notre réalisation le matériel textuel est sous forme html.
Méthodes
Notre travail débute par le recensement des genres puis nous déterminons des dimensions que nous recherchons et sélectionnons au travers de divers travaux existants. Nous vérifions la pertinence de nos choix au travers de la documentation des genres. Nous localisons les sources correspondantes aux divers genres. Nous étudions ensuite les problèmes réglementaires et légaux afin de pouvoir collecter et éventuellement anonymiser les textes nominatifs. Enfin nous étudions la meilleure méthode dencodage pour nous adapter aux standards du domaine.
Quels documents médicaux
Pour les Genres nous procédons, dans un premier temps, au recensement des formes de textes médicaux connus. Puis notre liste est complétée à la lumière de nos diverses recherches afin de la rendre la plus exhaustive et homogène. La synthèse aboutit à la réalisation dun document de travail ( RENV _Ref490886546 \h Annexe 6) contenant notre compilation de genres de textes médicaux.
Pour les Dimensions nous déterminons ensuite des critères (principalement liés à la situation dénonciation) qui permettent de caractériser les textes. Nous les déterminons de telle sorte quelles soient le plus discriminantes et le plus orthogonales deux à deux. Il nexiste pas de méthode idéale, notre choix va donc sorienter vers une solution intégrant des dimensions internes et externes par la synthèse déléments sélectionnés dans le Dublin core, dans une grille danalyse de Biber et une autre de Sinclair plus certains éléments provenant de notre réflexion. Cela aboutit à une classification de type multiaxial qui intègre des dimensions à priori le plus exhaustives ( RENV _Ref490579331 \h Annexe 7). Nous procédons ensuite à la documentation (nous en montrons un exemple RENV _Ref490666176 \h Annexe 10) de chaque genre selon notre grille de dimensions. Cela va permettre de préciser les caractéristiques pour chaque genre et dévaluer les critères de pertinence et dintérêt pour le futur corpus. Une explication est fournie pour faciliter la compréhension des futurs acteurs. Cette documentation sert de modèle pour valider ou modifier nos choix.
Les typologies textuelles restent un sujet de recherche, le corpus constitué nous offrira un bon outil pour la recherche de nouvelles dimensions (probablement internes) afin de déterminer de nouvelles typologies adaptées au domaine médical.
La Localisation des textes candidats sur leurs différents supports est effectuée. Lobjectif est de couvrir la diversité des genres initialement déterminés. Si certains types de textes ne sont pas immédiatement accessibles il restera possible de les intégrer ultérieurement.
La sélection des textes se fait selon certains critères comme : leur représentativité, il ne doivent pas correspondre à une utilisation marginale (la notion de volume de production étant à placer en parallèle avec lintérêt médical), leur utilisation doit être avérée, nous devons éviter de favoriser les textes provenant de la toile et en revanche bien représenter des éléments provenant douvrages et articles même si le captage en est plus difficile. La très grande proportion représentée et la grande facilité de captage de textes sur la toile peut aboutir à un biais dans la représentativité par déformation. (lerreur inverse serait lincertitude et pourrait provenir dun échantillonnage trop petit)
Les critères de sélection gardent cependant une part darbitraire ; il nous a semblé quil était intéressant de bien représenter des textes techniques cliniques et dintégrer des genres intermédiaires entre loral et lécrit comme des polycopiés ou des Ronéo copies de cours prises par les étudiants ou les textes dictés. Cela offre de la sorte un enrichissement de la couverture des variétés langagières en intégrant des genres dotés de caractéristiques linguistiquement intéressantes et nous apporte de plus une nouveauté par rapport aux travaux habituels du domaine où ces genres sont peu étudiés. En revanche le problème de loral reste entier car la constitution dun corpus lintégrant se révèle extrêmement consommatrice en temps (B. Habert [1] précise que le coût pour une minute doral est environ une demi-heure de travail) cest pour cette raison que nous nenvisageons pas de sélectionner dans limmédiat doral pour le corpus. Les textes provenant darticles et douvrages sont eux moins coûteux en termes de temps dès lors quils sont disponibles sous forme électronique. Nous nous sommes fixés dans un premier temps un volume de mots pour chaque genre. Nous devons assumer ici un choix arbitraire mais comme le remarque D Biber repris par B.Habert « il ny a pas de caractérisation globale du langage dans son ensemble qui soit satisfaisante » [1].
Méthode de collecte
Auparavant les corpus étaient peu accessibles du fait de la complexité même de leur constitution et de leur gestion. Lusage sen trouvait restreint à une petite communauté dutilisateurs. La facilité actuelle daccès aux ressources (par numérisation ou copie) impose la résolution en amont des problèmes juridiques tant par rapport aux ayants droits sur les documents primaires que par rapport aux institutions qui ont ajouté de la valeur en fournissant des versions électroniques et des annotations. Le statut juridique des données est en effet souvent incertain, ce qui obère leur réutilisation. Dans notre cas le problème est dautant plus important que laboutissement de notre travail sera ultérieurement diffusé auprès des chercheurs et étudiants sous forme dun CD-ROM. Les problèmes réglementaires doivent donc être résolus. En premier lieu il faut résoudre le problème des droits dauteurs et du droit moral ce qui nécessite la réalisation dun contrat avec les éditeurs ou auteurs. Un contrat type est en cours de réalisation par nos partenaires au sein du projet corpus CLEF. Dautre part, la gestion du respect de la confidentialité du dossier médical (hospitalier pour notre part) nécessite lautorisation de la CNIL [30] avant la collecte dans les services (utilisation de données nominatives et indirectement nominatives). Ceci nous permettra lusage de ces textes après anonymisation des données en supprimant les noms propres (patients, médecins, lieux) ainsi que les dates y compris les âges. Il convient de plus deffectuer les démarches administratives auprès des autorités hospitalières et des services. Cette procédure est très consommatrice en temps. Il est donc décidé initialement de restreindre la collecte a un échantillon libre de droits.
Nous savons que chaque genre de textes nécessite une approche spécifique. Les textes publiés peuvent être collectés auprès des éditeurs, ceux non publiés auprès des auteurs. Les ronéocopies, les thèses sont accessibles auprès des étudiants, les laboratoires pour les résumés dAMM, les publicités, les services pour le contenu du dossier patient, les enseignants pour les articles, cours, polycopiés. Dans le contexte de la démarche les sites Web nous intéressent pour des documents libres dutilisation comme par exemple le Bulletin Epidémiologique Hebdomadaire [31] qui ne demande que de citer la source. Enfin nous recherchons en priorité une forme électronique, la forme papier ne servant qua évaluer la qualité de léchantillon.
La taille fixe dun corpus, daprès Sinclair [8] est une restriction qui na plus lieu dêtre et napporte aucun bénéfice. On peut concevoir le corpus de manière dynamique avec un taux de flux entrant permanent, il ne semble pas nécessaire de procéder à léviction de certains textes. Leffet de taille étant un atout pour représenter des phénomènes peu fréquents, un échantillon trop petit pourrait aboutir à un biais par incertitude en perdant des éléments objectivant certains genres. En effet la technique évoluant très rapidement les problèmes limitatifs anciens tendent à disparaître. Dans le cadre du projet corpus CLEF nous devons néanmoins nous fixer une limite, un des supports de diffusion étant un CD-ROM, il est prévu pour le corpus médical un volume denviron 1 à 2 millions de mots.
Dans le cadre du projet corpus CLEF nous avons opté pour des extraits de textes dune taille denviron 2000 mots. Pour les gros ouvrages nous pourrons opérer une sélection dans des zones de textes homogènes et en sortir lextrait de taille standard. Mais un certain nombre de textes pressentis sont relativement petits (par exemple les comptes rendus) et devront être pris dans leur intégralité, certains autres (articles) sont un peu trop volumineux mais comportent une structure interne présentant des variations linguistiques sensibles selon les parties (introduction, méthodes, résultats, discussion) ; nous choisissons donc de les sélectionner en entier.
Les textes présentent une grande variation de forme et de présentation. Mais nous recherchons en priorité une forme électronique (par exemple chez léditeur pour un livre). Des textes jugés importants disponibles sous forme papier nécessiteraient de les scanner puis de procéder à la reconnaissance automatique de caractères et enfin de corriger manuellement les erreurs. Cela représente un temps de travail important ce qui, sauf exception, sera pour nous un critère dexclusion. La forme électronique originale principalement les format .ps, .doc, .rtf, .html, .pdf devra être transcrit au standard XML en respectant une DTD provenant du XCES.
Méthodes dencodage
Pour les raisons évoquées en section RENV _Ref490619403 \r \h 2.1.7 nous utilisons le métalangage XML et nous reprenons la structure de XCES. Les données sont encadrées par des balises formées déléments respectant la structure hiérarchique de la DTD. Nous verrons section RENV _Ref490620635 \r \h 4.2.1 les difficultés pratiques. La structure du document instancié se conforme à la une DTD unique pour lentête du corpus et pour chaque texte de telle sorte que nous avons dans linstance de un de type « corpus » suivie dau moins un comprenant un de type « text » et un balisant lextrait. La partie « text » se conforme à une DTD cesDoc de nieau 1 pour la XCES.
Résultats
Nous allons détailler comment nous pouvons classer des textes selon des taxinomies. Pour ce faire nous utilisons certaines dimensions, les genres et domaines (ou thématique). Puis nous verrons comment procéder à lencodage des données.
Classification des types de documents médicaux
Taxinomies
Les Dimensions de notre étude sont au nombre de 52, elles sont majoritairement externes cest à dire liées à la situation dénonciation ( RENV _Ref490579331 \h Annexe 7). Un groupe de nature essentiellement bibliographique est représentée par les champs de la dimension origine, taille, liens et extraits. Un autre groupe est plus lié au contexte de production du document comme cadre, format, mode de production, mode de transmission, fréquence de publication, qualité de présentation, destinateur, destinataire. Le dernier groupe se rapproche plus de dimensions internes comme style, objectif, niveau de technicité, factualité, message, interaction avec le public et niveau de style. Nous obtenons des dimensions pratiquement orthogonales deux à deux. Mais nous pouvons observer des corrélations plus ou moins fortes comme entre les dimensions style et objectif particulièrement dans style didactique et lobjectif enseigner qui apparaissent intuitivement associées et sont souvent renseignées ensemble lorsque lon cherche à documenter les genres de documents, de même qualité de présentation et niveau de style présentent une proximité.
Les 57 genres de documents cités en RENV _Ref490579500 \h \* FUSIONFORMAT Annexe 8 sont plus difficiles à regrouper nous pouvons tout de même placer ensemble des documents de référence tels : les documents officiels, les textes de bonne pratique, les informations classées. De même comptes rendus et courriers peuvent être rapprochés et enfin les documents publiés. Parmi les genres recensés certains tendent à se rapprocher de loral comme les ronéocopies cela est plus généralement le cas pour ceux ayant comme dimension mode de production tapuscrit et dicté.
Pour les domaines ou (thématique) retenus la classification est plus simple que pour les cas précédents, nous avons repris (voir RENV _Ref490884111 \h Annexe 8) avec quelques modifications la classification utilisée dans le CISMEF [17]. Nous avons regroupé certaines rubriques marginales comme par exemple réalité virtuelle qui sera englobée dans le thème informatique médicale nouvellement créé, nous avons aussi ajouté génétique, informatique médicale. Nous obtenons ainsi 78 domaines. Cela offre une vision élargie de la notion de spécialités déjà utilisée avec succès dans le classement de documents médicaux. Cet aspect peut parfois aboutir à une certaine redondance nous avons par exemple la rubrique infectiologie et plus loin sida mais ceci facilite la lecture par les non spécialistes.
Documentation
Une documentation complète de tous les genres de textes a été réalisée, elle consiste à renseigner les différents champs obtenus précédemment et y avons adjoint un en-tête contenant plusieurs éléments utiles pour en faciliter lusage par tous les acteurs. Nous présentons un court exemple pour le genre compte rendu opératoire ( RENV _Ref490581381 \h Annexe 9).
Encodage
Standardisation
Nous avons vu en section RENV _Ref490667045 \r \h 2.1.7 que selon la CES un corpus comporte un entête de corpus suivi dau moins un document ces contenant lui même un entête de texte et un texte. La complexité de la norme nous a dabord conduit a réaliser une DTD pour lentête intégrant les éléments pour les dimensions, genres et domaines selon notre travail. Nous utilisions, dans cet ancien modèle, des éléments pour chaque dimension et nous passions les valeurs en attributs. Ce modèle bien quadapté à notre situation nautoriserai pas lintégration de notre travail dans le projet plus global du Corpus CLEF. En effet le projet ambitionne de réunir des corpus de natures très variées. Nous avons donc réexaminé le standard plus polyvalent de la CES sous sa forme XML. Et après étude détaillée nous sommes parvenus à lexploiter pour y faire entrer les données contenues dans notre modèle .De la sorte la DTD de lentête du corpus se conforme au standard XCES.
Pour la partie textuelle nous utilisons la DTD encoding conventions for level 1 disponible dans le Corpus Encoding standard for XML [23]. Nous avons choisi dans un premier temps de rester à ce niveau dencodage qui balise les éléments jusquau niveau paragraphe.
Linstanciation
Selon la structure de la DTD XCES et il est possible de faire apparaître directement nos méta données bibliographiques dans linstance de document avec une distribution de linformation différente de notre premier modèle. Les taxinomies (dimensions, genres, domaines) sont placées dans linstance de la partie entête de corpus. Comme daprès le modèle nous ne pouvons créer de nouveaux éléments, nous allons placer les valeurs dans le corps de lélément associé a lélément .
Nous utilisons pour cela lélément fils de lélément et de puis de . est père de que nous utilisons pour chaque dimension. Nous faisons usage des pointeurs ID / IDREF pour faire référence dans lentête du document aux valeurs des taxinomies situées dans linstance de lentête du corpus. ( RENV _Ref490666176 \h Annexe 10)
Choix de léchantillon
Compte tenu du temps important nécessaire, nous travaillons sur un échantillon textuel publié par le SAMU 75 [34] et validé par lagence nationale daccréditation et dévaluation en santé (ANAES). Il sagit de la conférence de consensus de 1997 traitant de la prise en charge de la douleur postopératoire chez ladulte et lenfant. Ce texte dune taille de 3591 mots est présenté sous forme HTML sur le site. Le texte est nettoyé manuellement de ses parties non pertinentes pour nous ou non utilisables dun point de vue TALN (commentaires méthodologiques sur la réalisation du document, tableaux récapitulatifs, feuilles de suivi). Pour les échanges de format de fichiers nous pouvons utiliser pour linstant un convertisseur de types de fichiers en ligne [35].
Encodage et documentation de léchantillon retenu
Ce travail est réalisé pour linstant manuellement en renseignant les divers champs suivant les spécifications précédentes. Nous utilisons pour mettre au point et vérifier la conformité de notre fichier au langage XML le parseur Merlot [25] qui sert aussi à la validation du fichier en sappuyant sur les DTD de XCES.
Discussion
Dimensions
Nous avons fait le choix de travailler sur des dimensions principalement externes relativement intuitives dans un domaine spécialisé comme le domaine médical. En linguistique les auteurs ont plus travaillé sur les dimensions internes ces dernières étant considérées comme potentiellement plus riches en informations. Les dimensions externes ne sont pas nécessairement parallèles aux dimensions internes bien quintuitivement pour un domaine spécialisé comme le nôtre il est vraisemblable que les différences soient peu notables. Les dimensions internes sont vraisemblablement plus pertinentes mais leur détermination ne pourra se faire que postérieurement à la réalisation du corpus. Par ailleurs il reste dans les dimensions que nous avons retenu un risque de proximités entre elles. Cela nous conduit à relativiser la notion dorthogonalité pour nos dimensions. En effet il semble naturel quun document ayant une qualité de présentation donné ait aussi un niveau de style en rapport ou quun autre ayant un style didactique soit renseigné avec un objectif enseigner pourtant cette corrélation nest pas systématique.
Genres
Nous pensons que notre recensement des divers genres existants offre une bonne couverture du domaine, mais lexhaustivité supposée de notre travail ne pourra être confirmée que par lusage. Par ailleurs la documentation réalisée permet à des acteurs non médicaux de mieux cerner notre approche des différents genres.
Format électronique
Pour des questions de coût et de délai nous avons décidé de travailler pour commencer sur des textes sous forme électronique disponibles en ligne. Cela exclut un pool important de textes valables. Pour la même raison nous avons dû exclure loral malgré son grand intérêt..
Normalisation
Le choix de nous conformer à la norme XCES implique de suivre les normes CES et XML. Le format déchange XML qui se développe va faciliter lusage et la réutilisabilité des travaux, laccès à de nombreux outils existants ou à venir en sera facilité et nous pouvons espérer obtenir une certaine pérennité de notre travail dans le temps. le standard CES dérivé de la « Text Encoding Initiative » représente lactuelle référence pour l encodage de corpus. De la sorte nous favorisons les échanges et linteropérabilité des travaux.
Le choix de normaliser implique tout de même certaines contraintes, nous devons nous conformer à une structure ayant pour objectif la complétude, or nous travaillons sur un modèle ayant une logique différente de part sa spécificité ce qui entraîne des difficultés dadéquation. Nous devons donc gérer de nombreux éléments inutiles dans notre cas avec une certaine redondance et la complexité de la structure nécessite souvent une interprétation de la documentation [22],[23] daccompagnement. voir une certaine imprécision dans linterprétation de quelques éléments imposés par la norme (voir taxonomy). Cela conduit à des manipulations plus complexe en particulier lors de la saisie où la documentation de XCES devient indispensable. De plus la saisie est actuellement manuelle ce qui représente un travail important. Et nous observons une certaine redondance de informations.
Perspectives
En prolongement de la mise au point de notre procédure de travail et de sa validation sur un texte, un important travail dintégration de textes au futur corpus sera à effectuer. Il conviendra dévaluer des méthodes permettant dautomatiser au moins partiellement le travail de renseignement des divers champs.
Afin daméliorer lintérêt du corpus il sera profitable de procéder à son étiquetage morpho syntaxique. Parmi les étiqueteurs disponibles, nous disposons de Cordial Université et de lextracteur de termes Lexter.
Du fait de son enrichissement par des méta données, il devient envisageable de procéder à des extractions sélectives de textes à laide doutils du type SGMLQL.[36] ou pour XML/XSL de type XQL[18].
Ensuite une recherche pourra se faire vers la catégorisation de dimensions internes pertinentes pour le domaine et létude de leur corrélation avec les dimensions externes déjà obtenues. Il serait aussi intéressant de procéder à une étude de contraste avec dautres textes techniques. Un aspect intéressant serait de pouvoir être en mesure de détecter les spécialités ou domaines dun texte ainsi que son niveau de technicité.
Conclusion
Il existe un besoin de corpus spécialisé médical pour le Français. Mais plutôt que de construire un simple agrégat de texte médicaux il est plus judicieux dorganiser une sélection selon une classification. Les recherches en la matière isolent des dimensions externes et internes et aboutissent à des typologies textuelles. Lencodage des données pour les besoins informatiques autorise aussi lintégration de méta-données utiles pour le travail sur linformation. Notre travail sintègre dans un projet plus vaste sur le français actuel : le corpus CLEF. Nous avons pour objectif de représenter le plus finement la diversité langagière de la spécialité médicale. Pour ce faire nous avons répertorié les différents genres de textes médicaux et déterminé des dimensions principalement externes pratiquement orthogonales deux à deux. Létape de la collecte des textes choisis selon nos critères de pertinence est compliquée par des difficultés réglementaires et pratiques. Pour lencodage des données nous avons privilégié la standardisation. Nous nous sommes appuyés sur les normes de référence dans le domaine que sont la CES dérivée de la TEI sous une forme XML. Cela nous permet dutiliser les set de DTD provenant de XCES. Nous introduisons nos classifications dans linstance de lentête du corpus et les référençons dans lentête du texte. Maintenant que le modèle a été validé sur un échantillon, il reste à étendre ce travail aux différents textes pour obtenir un corpus. Il sera alors possible de prolonger nos recherches sur différents axes comme la mise en évidence de dimensions internes. Enfin loral partie importante du langage médical reste un domaine à étudier.
Remerciements
Je tiens à remercier Pierre Zweigenbaum pour laide attentive quil a su mapporter,
Benoit Habert pour son soutien et sa documentation
ainsi que Natalia Grabar, Brigitte Seroussi et tous ceux qui mont aidé.
Références
[1] Habert B, Nazarenko A, Salem A. Linguistiques de corpus. Armand Colin/masson. Paris 1997
[2] habert B Un Corpus Clef pour le Français actuel. Maj 05/03/1999 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.biomath.jussieu.fr/CLEF http://www.biomath.jussieu.fr/CLEF
[3] Petit Larousse illustré. Librairie Larousse. Paris1887 p252
[4] Habert B. Des corpus représentatifs : de quoi, pour quoi, comment? Presse de lUniversité de Perpignan. Perpignan 1999
[5] Biber D. Corpus linguistics. Investigating language struture and use Cambridge University press Cambridge 1998 p145
[6] Harris ZS. The form of information in Science, Analysis of Immunology Sublanguage. Kluwer AcademicPublisher. Dordrecht 1989
[7] Lopez P, Fay-Varnier C, Roussanaly A. Sous-langages dapplication et LTAG : le système EGAL. Conférence TALN Cargèse 1999
[8] Sinclair J M. Préliminary recommandations on text typology. Birmingham Corpus Linguistics Group School. Birmingham 1996
[9] LIENHYPERTEXTE http://www.BNF.fr http://www.BNF.fr
[10] Michard A. XML langage et applications. Eyrolles Paris 1999 p233
[11] Dubois J, Giacomo M, Guespin L, Marcellesi C, Marcellesi JB, Mével JP. dictionnaire de linguistique et des sciences du langage. Larousse Paris 1994
[12] B Habert. Représentation des principaux genres du discours médical dans le Corpus CLEF. Paris 2000
[13] Collectif. Dublin Core Metadata Initiative. Maj 02/07/1999 visite 17/08/1999. En ligne à ladresse : LIENHYPERTEXTE http://purl.org/DC/about/element_set.htm http://purl.org/DC/about/element_set.htm
[14] LIENHYPERTEXTE http://dicdoc.kb.inserm.fr:2010/basismesh99/mesh.html http://dicdoc.kb.inserm.fr:2010/basismesh99/mesh.html
[15] Illouz G, Habert B, Fleury S, Floch H, Heiden S, Lafon P. maîtriser les déluges de données hétérogènes. Atelier thématique TALN Cargèse 1999
[16] Biber D, Finegan E. Intra-textual variation within medical research articles. Nelleke Oostdijk and Pieter de Haan. Amsterdam 1994
[17] Collectif CHU rouen. CISMEF. Maj14/08 /2000 visite 17/08/2000 LIENHYPERTEXTE http://www.chu-rouen.fr/cismef http://www.chu-rouen.fr/cismef (maj : 14/09/99)
[18] Collectif World Wide Web Consortium. W3C. derniére visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.w3.org http://www.w3.org
[19] Goossens M. introduction pratique à SGML. Cahiers GUTemberg . 1995 n°19 p27-58
[20] Collectif Text Encoding Initiative. TEI. Maj 13/04/2000 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.tei-c.org http://www.tei-c.org
[21] LIENHYPERTEXTE http://www.uic.edu/orgs/TEI http://www.uic.edu/orgs/TEI.
[22] collectif EAGLES. Corpus Encoding Standard. Maj 20/03/2000 dernière visite 17 :08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.cs.vassar.edu/CES http://www.cs.vassar.edu/CES
[23] Department of Computer Science Vassar College Poughkeepsie NY USA, Equipe Langue et Dialogue LORIA/CNRS Vandoeuvre lès-Nancy France. Corpus Encoding Standard for XML Maj 16/08/2000 dernière visite 17/08/2000 en ligne à ladresse LIENHYPERTEXTE http://www.cs.vassar.edu/XCES http://www.cs.vassar.edu/XCES
[24] LIENHYPERTEXTE http://www.BNC.org http://www.BNC.org
[25] Chanelpoint, inc. Merlot. Maj 13/08/2000 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://merlotxml.org http://merlotxml.org
[26] Burnard L. Users Reference Guide for the British National Corpus. British national Corpus Consortium, Oxford University Computing services. Oxford 1995
[27] Danlos L, Collectif TALANA. Maj 27/05/2000 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://TALANA.linguist.jussieu.fr http://TALANA.linguist.jussieu.fr
[28] P Zweigenbaum, Consortium MENELAS. MENELAS : an acces system for Medical records using natural language. Computer Methods and Programs in Biomedicine 1994 n°45 p177-120
[29] habert B. Un corpus Clef pour le Français actuel. Document interne. 1999
[30] Commission Nationale de lInformatique et des Libertés. Dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.CNIL.fr www.CNIL.fr
[31] institut national de Veille sanitaire. Maj 16/08/2000 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.INVS.sante.fr www.INVS.sante.fr
[32] Véronis j. MULTEXT Maj 22/04/1996 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.lpl.univ-aix.fr/projects/multext http://www.lpl.univ-aix.fr/projects/multext
[33] Consortium Expert Advisory group on langage Engineering Standards. EAGLES. Maj 06/1996 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.ilc.pi.cnr.it/EAGLES/home.html http://www.ilc.pi.cnr.it/EAGLES/home.html
[34] SAMU de Paris. Conférences de consensus. Maj 08/07/2000 en ligne à ladresse : LIENHYPERTEXTE http://www.invivo.net/samu75/protoc.html http://www.invivo.net/samu75/protoc.html
[35] Carnegie Mellon University, TOM server. Maj 03/07/1997 dernière visite 17/08/2000 en ligne à ladresse : LIENHYPERTEXTE http://wheel.compose.cs.cmu.edu:8001/cgi-bin/browse/objweb http://wheel.compose.cs.cmu.edu:8001/cgi-bin/browse/objweb
[36] Harié S, Murisasco E, Le Maître J, Véronis J. SgmlQL: un langage de requêtes pour la manipulation de documents SGML. Cahiers GUTenberg.1996 24, 181-184.
Annexe 1
Grille de Dimensions selon Sinclair
DimensionsValeursCritère externeOriginePersonnes impliquéesAuteur, traducteur éditeur, adaptateur, responsable
ContexteDatationEtatMode de transmissionEcritOralElectroniqueDonnées non textuelles liéesDiagrammes, figures
ObjectifsPublic viséPrésent dans la communicationLectorat(taille, profil)Relation auteur publicEffet viséinformationDiscussionRecommandationFormationCritères internesThèmeStyleNiveau de langueDe tenu à relâchéUtilisationDegré de PréparationInteraction avec le publicTableau 1 : grille selon Sinclair
Annexe 2
Grille de dimensions selon Biber
Dimensions ValeursCanalEcritParléParlé/ luFormatPubliéNon publiéCadreInstitutionnelAutre cadre publicPrivé interpersonnelDestinatairePluralitéSoi-même IndividuelPlurielNon comptéPrésencePrésent absentInteractionsAucunePeubeaucoupConnaissances partagéesGénéralesSpécialiséesPersonnellesDestinateurVariation démographiqueSexeAgeprofessionStatutInstitutionIndividuFactualitéInformatifIntermédiaireImaginaireObjectifsPersuaderInformerExpliquerDécrireEnregistrerDonner des consignesthèmesdomaineTableau 2 : Grille selon Biber
Annexe 3
Grille de dimensions du Dublin-Core
DimensionDescriptionTitle nom donné à la ressource par son auteur ou par son éditeurCreatorpersonne ou organisme responsable de la création du contenu intellectuel de la ressource. Dans le cas dun document écrit, il sagit de lauteur. Dans le cas dune photographie numérisée, il sagit du photographe.Subjectdescription du domaine sémantique par des mots-clefs ou par une ou des phrases. Lutilisation dun vocabulaire normalisé (thesaurus, listes dautorités) est encouragé.
Description : description textuelle du contenu: résumé dans le cas dun document textuel, description iconographique dans le cas dune image, etc.Descriptiondescription textuelle du contenu: résumé dans le cas dun document textuel, description iconographique dans le cas dune image, etcPublisherentité responsable de lédition de la ressource, cest-à-dire de sa distribution dans le public ou dans une communauté définie dutilisateursContributorPersonne ou entité non mentionnée dans Creator, mais qui néanmoins fournit un apport non négligeable dans la création de la ressource. Typiquement, un traducteur, un illustrateur, etcDatedate de création ou de publication de la ressource. Doit être de préférence exprimée conformément au format ISO-8601 (ex.:1998-06-27 ou, simplifié, 1998).Typecatégorie à laquelle appartient la ressource: roman, poème, thèse, rapport technique, prospectus commercial, carte géographique, plan darchitecte, photographie dart, etc. Le Dublin-core ne propose pas un ensemble prédéfini de valeurs possiblesFormatformat de la ressource permettant didentifier le logiciel capable de la traiter. En pratique, les types MIME répertoriés auprès de lIETF suffisent à la plupart des besoinsIdentifieridentificateur unique de la ressource: URL, URN, numéro ISBN, FPI, etcSourcedescription(s) dune autre ressource que celle à laquelle la présente propriété est attachée et dont on considère quelle constitue un produit dérivé. Ex. : si la ressource décrite est un logiciel exécutable foo.exe, Source pourra contenir lidentificateur de la ressource constituée par le code source de cette application. Nous verrons plus loin en étudiant la syntaxe RDF comment une propriété peut prendre pour valeur une autre propriété ou un ensemble de propriétésLanguagelangue dans laquelle est exprimé le contenu intellectuel de la ressource. Les codes utilisés sont ceux proposés par la RFC 1766Relationidentificateur dune seconde ressource ayant une certaine relation avec la première. La relation entre les deux doit être spécifiée ainsi que nous le verrons en étudiant les exemples RDFCoveragecaractéristiques spatiales ou temporelles du contenu de la ressource, par exemple : valide du tant au tant, couvre la zone « Europe du Nord », etcRightsmention de la propriété des droits dauteur, correspond au copyright statement des Anglo-SaxonsGrille des méta données du Dublin core.
Annexe 4
Dimensions Biber
production impliquée versus production informationnellelorientation narrative versus non narrativela référence dépendante ou non de la situation dénonciationla visée persuasive apparente ou nonle style impersonnel ou nonGrille de dimensions expérimentales selon Biber
Annexe 5
Typologie Biber
Interaction interpersonnelle intime (intimate interpersonal interaction)Interaction informationnelle (informational interaction)Exposé « scientifique » (« scientific » exposition)Exposé savant (learned exposition)Fiction narrative (imaginative fiction)Récit (general narrative exposition)Reportage situé (situated reportage)Argumentation impliquée (involved persuasion)Grille de typologie linguistique selon Biber
Annexe 6
Genres de documents textuels médicaux :
Compte Rendus : De séance (colloques, conférences.)
Dexamens Imagerie
Fonctionnel
biologique
imagerie
anatomopathologie
électrocardiogramme
EEG
endoscopie
biologie
biochimie
CRH
CR opératoire
CR de staff (virtuel)
Courriers : Demande davis
Pour adresser
Lettre au médecin traitant(courrier de renvoi).
Ordonnance complémentaire
Spontané : Forum de discussions
Listes de diffusion électroniques
Cours : Polycopiés
Ronéocopies
Pages Web
QCM
Questions dexamens
Publications : Publicités
Thèse
Périodiques : Revues
Journaux
Bulletins
Articles : Général
Scientifique
Résumés
Ouvrages : Livres
Encyclopédies
Atlas
Dictionnaires médicaux
Monographie
Résumés dAMM
Informations classées Nomenclature
NGAP/CdAM/CCAM
Thesaurus
Terminologies
Classifications
Annuaires
Registres
Bonne pratique : RMO
Consensus
Recommandations
Protocoles
Consentement éclairé
Officiel : Bulletin Officiel
Code de déontologie
convention
Annexe 7
Dimensions CLEF
Dimensions bibliographiquesOrigine du documentTitre du texteAuteur Nom prénomCoauteurs associésResponsable de la création du texteRédacteur ou adaptateurDate de la créationEditeurIdentificateurTaille du texteMots, Ko, MoLocalisation Zone ou pagep
Référence de la sourceLiensAbsence de liensLié à une sérieLié à un autre texteLié à des entités non textuellesExtraitEntierPartieArticleChapitreParagrapheDimensions liées au contexte de productionCadreInstitutionnelAutre cadre publicprivé interpersonnelDossier patientFormat Publiénon publiéMode de production Saisi au clavierDictéManuscritTapuscritMode de transmission OralElectroniqueImpriméFréquence de publication PériodiquePonctuelleQualité de présentation Document brutRevuEvoluéDestinateurIndividuelAssociationSociété commercialeInstitutionnelDestinatairePluralitéDestinataire uniqueDestinataires multiplesPrésenceDestinataires absentsDestinataires présentsprofil des lecteursgrand publicpatientprofessionnel médicalDimensions plus internesNiveau de stylenon tenucourantTenuInteraction avec le publicDistanteNeutreProcheMessagePersonnaliséImpersonnelFactualitéInformatif factuelIntermédiaireImaginaireNiveau de technicité FaibleMoyenSpécialiséStyle LégalConseil MagistralDidactiqueDescriptifInformatifInterrogatifOrdreObjectifEnregistrerDécrireInformerExpliquerDiscuterPersuaderRecommanderEnseignerOrdonnerGrille des dimensions CLEF (Annexe 7)
Annexe 8
Domaines
Alcoolisme, Toxicologie, & Toxicomanie
Allergologie
Anatomie
Anatomopathologie
Anesthésiologie
Angiologie & Cardiologie
Bactériologie
Biochimie
Bioéthique
Biologie, Génétique
Biophysique & Médecine Nucléaire
Biotechnologies & Génie Biologique et Médical
Cancérologie
Cardiologie & Angiologie
Chirurgie
Dermatologie
Economie de la Santé
Endocrinologie
Epidémiologie, Santé Publique, & Information Médicale
gastro-entérologie & Hépatologie
Génétique
Génie Biologique, Biotechnologies
Gériatrie
Gynécologie Obstétrique
Handicap, Kinésithérapie, & Rééducation fonctionnelle
Hématologie
Histoire de la Médecine
Histologie
Hydrologie, Climatologie, Thermalisme, Thalassothérapie
Imagerie
Immunologie & Allergologie
Infectiologie
Informatique médicale
Information médicale
Kinésithérapie, rééducation fonctionnelle
Médecine Aéronautique
Médecine Alternative, Homéopathie, Acupuncture
Médecine de la Reproduction
Médecine du Sport
Médecine du Travail
Médecine Générale
Médecine Humanitaire
Médecine Interne
Médecine Légale
Médecine Préventive
Médecine Tropicale
Médecine Vétérinaire
Néphrologie
Neurologie
Nutrition
Obstétrique & Gynécologie
Odontologie
Oncologie
Ophtalmologie
ORL
Orthopédie
Parasitologie
Pédiatrie
Pharmacie
Pharmacologie
Physiologie
Planing familial
Pneumologie
Psychiatrie, Psychologie
Réanimation médicale
Rééducation fonctionnelle & Handicap
Rhumatologie
Rhumatologie
Sida
Soins Infirmiers
Soins Palliatifs
Stomatologie, Chirurgie buccale
Toxicologie
Toxicomanie
Transplantation
Urgences
Urologie
Virologie
Annexe 9
Documentation du CRO
Compte rendu opératoire Définitiondescription du déroulement de linterventionCaractéristiquestexte dicté relativement standardisé très techniqueIntérêt texte complet donne une vue globale des termes et tournures techniques du domaine dun point de vue anatomique et chirurgical et représente un texte transcritAccessibiliténécessite laccès au dossier patientTraitement à effectuer anonymisation, transcription en xml/xcesRéférencesDr xAuteurle chirurgienCoauteurNonResponsablele chirurgienRédacteurle chirurgien ou la secrétaire médicaleDateEditeurIdentificateurCadreDossier patient, restreint aux acteurs médicaux autorisées intervenant sur le patientFormatnon publiéExtraitNon compte tenu de la taille il peut être retenu dans son intégralitéTailleune à deux pages environ (de 300 à environ 1000 mots)Localisationsource dossier patientLiensOui autres textes, à relier au dossier patient sintègre dans la chronologie des autres éléments et suit le plan de traitementMode de production imprimé ou sous forme électroniqueFréquenceponctuelStyledescriptifNiveau de style courantQualité de présentationprésentation minimaleDestinateurindividuel, chirurgien hospitalierDestinataire pluralitédestinataire uniqueDestinataire présenceabsence du destinataireProfil des destinatairesprofessionnels médicaux, médecin hospitalier ou de ville généraliste ou spécialiste ayant demandé linterventionInteraction avec le publicproche Connivence (connaissances partagées)Niveau de technicité spécialiséDomainechirurgieObjectifinformer décrire (description résumée des étapes de lintervention et de la façon dont le malade à répondu).Grille de documentation (Annexe 10)
Annexe 10
Maquette de Corpus CLEF (instance)
Ancienneté des textes, problèmes de classification et de sélection des textes.
Corpus linguistique électronique du Français.
En classification un trait est une coordonnée du vecteur représentant les valeurs possible dune caractéristique pertinente.
Illouz définit les « profileurs de corpus » comme des outils de calibrage donnant des indications sur lemploi du vocabulaire, de catégories morpho-syntaxiques et de patrons dans les parties dun corpus, pour en déterminer lhomogénéité ou lhétérogénéité.
la valeur dune dimension est indépendante dune autre.
classe les éléments dun domaine dans des groupe qui ont les mêmes propriétés distributionnelles.
Traitement Automatique du Langage Naturel.
PAGE 1
PAGE 6
PAGE \# "'Page: '#''"
PAGE \# "'Page: '#''" définition de tapuscrit
CÒâãðñ !";OPQnúóðóíæíÜæíæíæíÒæíæíæíÈæíæíæí¾æíæíºíºíæí°æíæíºíºíæí¦æíæíºíºíæíjqUmHjôUmHhmHjwUmHjúUmHj}UmHjUmH
jUmHmHCJ
jCJU
56CJ?./ABh¦ÐÒÔÕáâ#^È8s÷÷÷÷ññîéãããããáááßááØÑÑÑÑ
ưU"
ÆÐU"
dèþ@&dèþ@&dèþ@&$dèþ@&./ABh¦ÐÒÔÕáâ#^È8sÍWÃ@zÂý5 p ¡ Ò
S
üüüüüüù÷ùùùùùòíèåàÛÖÑÌǽ¸³®©¤|wrm}úÿÿ»úÿÿþúÿÿ/ûÿÿ`ûÿÿûÿÿÓûÿÿüÿÿVüÿÿüÿÿÊüÿÿ
ýÿÿ?ýÿÿyýÿÿÁýÿÿþÿÿ]þÿÿþÿÿÊþÿÿÿÿÿ=ÿÿÿrÿÿÿÿÿÿîÿÿÿïÿÿÿûÿÿÿüÿÿÿþÿÿÿ)nopqrª«ÈÉÊËÌìí
45RSTUVW\]mno ½¾¿ÁÂâã:;?VWtõîëîëîëáîëîëîë×îëîëîëÍîëîëÉëÉëîë¿îëîëîëµîëîëîë«îëîëîë¡îëîëîëjYUmHjÜUmHj_UmHjâUmHhmHjeUmHjèUmHjkUmHmH
jUmHjîUmH.¦/[1d13ã3õ3ï4K6 798:^B^§^²^û^___p_s___W`]`
aa¿aÃaÃbÇbßbâbìbðbòbc¬cÃcÆcÉc·d¼dÊdÎdúúøøõñõñõñõñõêõàêõêõÝÝÝÝÙÝÝÙÝÝÝÙÝÝÝÝÝÝÝÝÝÝÝÝÕÑÝÝÝ56hnH6CJCJjÎ!UnH
jUnH6nHnH6 jUR®XÍXV[À\ù]{aòbcc«c9i
kPk mnåoöoïqMsuMu-vmw¦wly@z|ß}Â~mxñìçâÝØÊÅÀ»¶±¬§¢zupkfa\NÇ¢ÿÿ@
Ç¢ÿÿ0äÿÿåÿÿÙæÿÿ²èÿÿéÿÿLëÿÿ
ëÿÿÅìÿÿ¥íÿÿðíÿÿ¥ïÿÿñÿÿüòÿÿ
óÿÿkôÿÿéõÿÿ¢÷ÿÿå÷ÿÿ¹ùÿÿGÿÿÿbÿÿÿïÿÿÿXÀÿÿ@
XÀÿÿ3÷ÿÿµúÿÿîûÿÿXýÿÿáÿÿÿÊÿÿ@
ÊÿÿÎd4fÈf6i9i:iMiQkVkIlOl
m
mmmbmhmzm|mn3n:nJnnn÷oþop¦pUq\q]q^qðqrrrIrYrªrÏrNs[s\s]s¹s¾sÀsÔsÖsàsásïstt)t.t/t9t:tLthtqt«t°tNuVu-v.v4v5v§w¯wxxxxx#xx¦xlyÖyÝy?zAzIz{{{{ýý÷ý÷ýóý÷ý÷ýóý÷ýóýóý÷ý÷ýóýóýóý÷ý÷ýóýóý÷ý÷ýó÷óýóýóýóýóýóýóýóýóý÷ýï÷ïýïýêýêýêýóýèý÷ýãýóCJnH6CJnH5nH6nH
56nHnHZmw¦wly@z|ß}Â~mx
5
6F¡êrÅÓ²»Ýýýýýýýýûýýöýôýöýöýöýôýýòðýûýdèþ{|!|#|É|Ê|'}(}ê}õ}0~5~N~O~S~T~Â~Í~Ô~Ø~Ù~üÿ lmxõ67Y]^bc±¼ÈÉàáâêëÿØÙðñòúû%ÅÓ¢¦46ËÎ+.0 ý÷óýïýëýóýæýæýæýäàÝÝÝÝýÛÛÝØØÖÑÉÑÑÖÑÁÑÑÖý½ÝÝÝÝØÝÝhnHjÈ"UjK"U jU6CJhCJ5CJ5CJnHH*nH6nH5nH
56nHnHJx
5
6F¡êrÅÓ²»Ýæ$¨=ûöêå×ÒÄÒ¶±£~{vjeWeKåFcþÿÿÒýÿÿ@ Òýÿÿ)üÿÿ@
)üÿÿ÷ÿÿÿTÿÿÿ@ Tÿÿÿêÿÿÿëÿÿÿ@
Àþÿÿòÿÿÿ¨ïÿÿ@
¨ïÿÿïÿÿÿûñÿÿ@
ûñÿÿâÿÿÿôÿÿ@
ôÿÿÜõÿÿ@
Üõÿÿðÿÿÿ7øÿÿ@
7øÿÿçÿÿÿQûÿÿ@ QûÿÿXýÿÿõÿÿÿ$(*-3IJabckl±»¯°epPQhijrs½¾ÕÖ×àáAK2>¢«¢Æ¢Ñ¢w«}«¯¬³¬´¬?Hs°x°Ö³×³å³ò³´±´µµ
µ|µµLºOºbºfºrºwº³º´ºÎºÏºÐºÕºÖºõºùº»»»»ýýûöîööûçûößööö×ööûûûûýýÓýýûûýýÐýýýýöÈööýýýj¼$UCJ6CJj?$UjÂ#U
j0J*UjE#U jU6CJOÝæ$¨=/C £_¨s¨^¯>²]µñ·zººe½q½r½_¾¾¾ÃMÅnÈ|ÈêÉóÉýûùûûûûûûùûûûûûùû÷õûýùûûûùûý=/C £_¨s¨^¯>²]µñ·zººe½q½r½_¾¾¾ÃMÅnÈ|ÈêÉóÉÊ9Ê>ÊÐÍÚÎûöñìÞÙÔÏÊÅ·Ù¯¬§
rm_SQQQL#üÿÿ÷ÿÿÿ@ ÷ÿÿÿ{óÿÿ@
{óÿÿòÿÿÿñõÿÿ@
ñõÿÿCùÿÿ{ûÿÿõÿÿÿÏÿÿÿ@ Ïÿÿÿÿÿÿ@ ÿÿÿóÿÿÿôÿÿÿ@
cÛÿÿ@
cÛÿÿnðÿÿóÿÿ!öÿÿùÿÿìÿÿÿ~íÿÿ@
~íÿÿõÿÿÈ÷ÿÿÜøÿÿÎùÿÿ»»»¤»¥»¿»À»Á»Æ»Ç»¼¼A½D½_½f½Ä½Å½$¿%¿¿F¿G¿Â%Â+Â3Â4Â=Â9Ã:ÃQÃRÃcÃdÃlÃmÃØÄãÄ9ÅBÅFÅKÅÅÅÏÅÐÅçÅèÅéÅñÅòÅ3Æ9ÆÄÉÅÉÜÉÝÉÞÉæÉçÉÊÊ7Ê8Ê9Ê>Ê?ÊMÊPÊýøðøøýýýéøáøøßßßø×øøßßßÌøÄøøýø¼øøø´øøýjª'Uj-'Uj°&Uj0Jßµâ¹âææ)æ0æ9æAæ ê$ê]ì`ìoìrìì
ì®ì±ì¿ìÅìmïnï¢ïýýýúýúúýýýøøýúúúúúýóëóóýýýäýýýýýýýýýýýýýúýýýýáKH
j0J*Uj'(U jU6CJCJYÚÎìÎÜÐ_ÒhÒkÒÒ~Õ±ÕïÖðÖüÖ×gÛnÛ«Ü¿ÜÑÝßÝñß`ãaãnãoã§ä|åBæíçñìêêêÜ×ÉÄ¿·«¦
rmhc[XmSNIýÿÿåýÿÿºþÿÿóÿÿÿ@
qúÿÿàýÿÿòÿÿÿùÿÿ@
ùÿÿìÿÿÿEúÿÿ@
Eúÿÿùÿÿÿûÿÿ@
ûÿÿõÿÿÿôÿÿÿ@ ôÿÿÿ@
þÿÿÍÿÿÿlôÿÿ@
lôÿÿéÿÿÿ÷ÿÿ@
÷ÿÿîÿÿÿûÿÿ@
ûÿÿíçîçùçúçîîîîïî"ïlïmïzï{ïÜï®ðððmñæñgòèòhó¦óîóôóôÅõKöãöm÷ø°øù·ù
úÌúûóðëæãàÛÖÑÌãǽ¸³®©¤~ytoje`[cõÿÿ¶õÿÿeöÿÿ½öÿÿX÷ÿÿøÿÿøÿÿ"ùÿÿ¨ùÿÿzúÿÿäúÿÿûÿÿÇûÿÿüÿÿ
üÿÿýÿÿýÿÿþÿÿ}þÿÿ¿þÿÿÿÿÿòÿÿÿóÿÿÿÿÿÿhÿÿÿÿÿÿñÿÿÿòÿÿÿeùÿÿôÿÿÿõÿÿÿ@
tûÿÿ#íçîçùçúçîîîîïî"ïlïmïzï{ïÜï®ðððmñæñgòèòhó¦óîóôóôýûùýýòùýýýýëýåÞýØØØØØýýØØ"ü$]ü]ü
&F©
&F©¢ïºïÏïÐïêïSðTðððð«ð¬ð´ðÌðöðñ8ñ{ñ¶ñÀñÁñæñôñöñ=òmòò³ò·òÅòÊòËòÖòÚòèòûò(ó4ó5ómónóóóó£ó¤ó¬ó¶ó·óºóÓó;ôsôôæôóôõ#õ^õ_õõõõÂõÃõËõÌõöööIöJöQöö½öýûýöîöëöýèäèäèàèûýèäÚäÚäèÕèýûöÍöëöèÚäèäèäèýöÅöëöö½öëöèäjµ*Ujò)Uj[)UCJnH6CJnH5nH6nHnH0Jj¤(U jU56JóôÅõKöãöm÷ø°øù·ù
úÌúüIüéüýBþôþDÿçÿ^W
ªù÷ññññññ÷ëå÷ññññÞñññ××ùñ$#ü$"ü!ü!ü"ü"ü½öÐöÔöãöéöþö7÷8÷m÷÷±÷²÷á÷â÷ã÷øøvøwøøøø¬øø®ø°øÛøßøàøáøâøôøyùzùù ù¡ùµù¶ù¼ù½ùéùêùëùúú
ú}ú~ú«ú¬úúÉúÊúÌúUû·û¸û¹ûçûèûéûüüüüü2üýøýýöýöñéñæññÞñæñýÛ×Û×öñÏñæññÇñæñýÀý¶ÀæÀýýñ®ñæñýÀýjñ.UjF.UnH
jUnHj-Uj-U6CJCJjA,U0Jj+U jU6CJnHnHCÌúüIüéüýBþôþDÿçÿ^W
ª«¬µ¶ÚÛæîïÿQRST]^_`ajü÷òíèãÞÙÔÏÊŽ¹¶¶³°¨£}xsoje`
Kÿÿÿ
Lÿÿÿ
MÿÿÿNÿÿÿ
Oÿÿÿ
Xÿÿÿ
Yÿÿÿ
Zÿÿÿ[ÿÿÿ
ÿÿÿ
¥ÿÿÿ
ÿÿÿ
½ÿÿÿ¾ÿÿÿ
Æÿÿÿ
ÑÿÿÿÒÿÿÿöÿÿÿ÷ÿÿÿÃêÿÿ cëÿÿ[ìÿÿíÿÿîÿÿÖîÿÿïÿÿ)ðÿÿyðÿÿ+ñÿÿæñÿÿòÿÿ$óÿÿeóÿÿ¡ôÿÿ$2ü3ü4üFüGü«ü¬üÑüÒüÓüçüèüéüïüúü0ýýêýëýþþþ@þAþ°þßþÿ+ÿBÿ´ÿµÿÐÿ×ÿØÿÙÿÚÿåÿæÿçÿíÿUVñò./0[\îï)*+TU¬æõîëîèîèÞîëîèèÜèîèÒîëîèÎèÎèÉÆ¾ÉëɯɶÉëÉÆÉ®ÉëÉɦÉëÉÉjÀ3Uj÷2UjR2Uj¹1UCJ jU6nHj1UnH6j70UnHnH0J
jUnHj/UnHAæçèÌÍÎ
ª«¶ÚÛÇÙ"QrsÖ Þ ß
-
.
8
D
E
J
gn"«·<
E
Õ
à
;?7=í÷@F'©±nvs¨¹º÷òïòòçòïòäâäßäÛäßäÛäßÒÊļļļļļļļļļļļļļļļļĸßhnH6CJhnHCJhnH5CJhnH56CJhnH6CJCJ6CJj5U0J jUj
4UGª«¬µ¶ÚÛæîïÿQRýøøýõýíí¾ííííy4E$$F4ÖÖ\ÿÿ¾x2"``ÿÿÿÿÿÿÿÿÿÿÿÿ/$$F4ÖÖ0yU"ÿÿÿÿ$dèþ$$
&FRST]^_`ajklmr÷÷÷÷²4÷÷÷÷²÷÷÷÷E$$F4ÖÖ\ÿÿ¾x2" ÿÿÿÿÿÿÿÿÿÿÿÿ$dèþ$jklmr§¨©ªÇÜÝÞèô/012úöñìçâÞÙÔÏÊÆÁ¼·²®©¤~ytojfa\
{þÿÿ
|þÿÿ}þÿÿ
þÿÿ
þÿÿ
þÿÿ
þÿÿþÿÿ
¸þÿÿ
Äþÿÿ
Îþÿÿ
ÏþÿÿÐþÿÿ
åþÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿÿÿÿ
%ÿÿÿ
:ÿÿÿ
?ÿÿÿ
@ÿÿÿAÿÿÿ
Bÿÿÿ"§¨©º$²²²²mD²²²²mÔ²E$$F4ÖÖ\ÿÿ¾x2" ÿÿÿÿ ÿÿÿÿÿÿÿÿ$dèþ$E$$F4ÖÖ\ÿÿ¾x2" `ÿÿÿÿ`ÿÿÿÿÿÿÿÿ©ªÇÜÝÞèô÷÷÷²Ø÷÷÷÷mt÷÷÷E$$F4ÖÖ\ÿÿ¾x2" `ÿÿÿÿ`ÿÿÿÿÿÿÿÿE$$F4ÖÖ\ÿÿ¾x2" ÿÿÿÿÿÿÿÿÿÿÿÿ$dèþ$/0123JKLMXde÷²l÷÷÷÷²h÷÷÷÷m3?3@3L3M3p3q3r3Ã3ó3u4x5²56C6D6O6P6Q6\6]6^6_6z66®6¯6ûûùûûùûûùûûùöôôôôôôôòòòòððòòòòò)
(AÄr6 /;http://wheel.compose.cs.cmu.edu:8001/cgi-bin/browse/objwebDA,)http://www.invivo.net/samu75/protoc.html
)*http://www.ilc.pi.cnr.it/EAGLES/home.html*w&,http://«233=3>3?3@3L3M3p3q3r3Ã3ó3u4x5²56C6D6O6P6üÎËÉÉÉÄÉÉÉÉÂÂÂÂÂÂÂɹµh&`#$üÿ)
&F$-$$FÖÖ0ºÿg y!$www.lpl.univ-aix.fr/projects/multextSS#http://www.invs.sante.fr/4} http://www.cnil.fr/},#http://talana.linguist.jussieu.fr/EGhttp://merlotxml.org/b"http://www.bnc.org/Ahttp://www.cs.vassar.edu/XCESGhttp://www.cs.vassar.edu/CES)ohttp://www.uic.edu/orgs/TEID]http://www.tei-c.org/}DÐÉêyùºÎªK©_Toc490968192}DÐÉêyùºÎªK©_Toc490968193}DÐÉêyùºÎªK©_Toc490968194}DÐÉêyùºÎªK©_Toc490968195}DÐÉêyùºÎªK©_Toc490968196}DÐÉêyùºÎªK©_Toc490968197}DÐÉêyùºÎªK©_Toc490968198}DÐÉêyùºÎªK©_Toc490968199}DÐÉêyùºÎªK©_Toc490968200}DÐÉêyùºÎªK©_Toc490968201}DÐÉêyùºÎªK©_Toc490968202}DÐÉêyùºÎªK©_Toc490968203}DÐÉêyùºÎªK©_Toc490968204}DÐÉêyùºÎªK©_Toc490968205}DÐÉêyùºÎªK©_Toc490968206}DÐÉêyùºÎªK©_Toc490968207}DÐÉêyùºÎªK©_Toc490968208}DÐÉêyùºÎªK©_Toc490968209}DÐÉêyùºÎªK©_Toc490968210}DÐÉêyùºÎªK©_Toc490968211}DÐÉêyùºÎªK©_Toc490968212}DÐÉêyùºÎªK©_Toc490968213}DÐÉêyùºÎªK©_Toc490968214}DÐÉêyùºÎªK©_Toc490968215}DÐÉêyùºÎªK©_Toc490968216}DÐÉêyùºÎªK©_Toc490968217}DÐÉêyùºÎªK©_Toc490968218}DÐÉêyùºÎªK©_Toc490968219}DÐÉêyùºÎªK©_Toc490968220}DÐÉêyùºÎªK©_Toc490968221}DÐÉêyùºÎªK©_Toc490968222}DÐÉêyùºÎªK©_Toc490968223}DÐÉêyùºÎªK©_Toc490968224}DÐÉêyùºÎªK©_Toc490968225}DÐÉêyùºÎªK©_Toc490968226}DÐÉêyùºÎªK©_Toc490968227}DÐÉêyùºÎªK©_Toc490968228}DÐÉêyùºÎªK©_Toc490968229}DÐÉêyùºÎªK©_Toc490968230}DÐÉêyùºÎªK©_Toc490968231}DÐÉêyùºÎªK©_Toc490968232}DÐÉêyùºÎªK©_Toc490968233}DÐÉêyùºÎªK©_Toc490968234}DÐÉêyùºÎªK©_Toc490968235}DÐÉêyùºÎªK©_Toc490968236}DÐÉêyùºÎªK©_Toc490968237}DÐÉêyùºÎªK©_Toc490968238}DÐÉêyùºÎªK©_Toc490968239}DÐÉêyùºÎªK©_Toc490968240}DÐÉêyùºÎªK©_Toc490968241}DÐÉêyùºÎªK©_Toc490968242}DÐÉêyùºÎªK©_Toc490968243}DÐÉêyùºÎªK©_Ref490471000}DÐÉêyùºÎªK©_Ref490470952}DÐÉêyùºÎªK©_Ref490471068}DÐÉêyùºÎªK©_Ref490471089}DÐÉêyùºÎªK©_Ref490471113mDÐÉêyùºÎªK©BrownmDÐÉêyùºÎªK©BrownmDÐÉêyùºÎªK©BrownmDÐÉêyùºÎªK©BrownmDÐÉêyùºÎªK©BrownmDÐÉêyùºÎªK©Brown}DÐÉêyùºÎªK©_Ref490475934}DÐÉêyùºÎªK©_Ref490476877}DÐÉêyùºÎªK©_Ref490476409}DÐÉêyùºÎªK©_Ref490476717}DÐÉêyùºÎªK©_Ref490476877}DÐÉêyùºÎªK©_Ref490480507}DÐÉêyùºÎªK©_Ref490480697}DÐÉêyùºÎªK©_Ref490481014}DÐÉêyùºÎªK©_Ref490884111}DÐÉêyùºÎªK©_Ref490579331}DÐÉêyùºÎªK©_Ref490886546}DÐÉêyùºÎªK©_Ref490579331}DÐÉêyùºÎªK©_Ref490666176}DÐÉêyùºÎªK©_Ref490619403}DÐÉêyùºÎªK©_Ref490620635}DÐÉêyùºÎªK©_Ref490579331}DÐÉêyùºÎªK©_Ref490579500}DÐÉêyùºÎªK©_Ref490884111}DÐÉêyùºÎªK©_Ref490581381}DÐÉêyùºÎªK©_Ref490667045}DÐÉêyùºÎªK©_Ref490666176·DÐÉêyùºÎªK©àÉêyùºÎªK©Fhttp://www.biomath.jussieu.fr/CLEFDÐÉêyùºÎªK©àÉêyùºÎªK©&http://www.bnf.fr/ÃDÐÉêyùºÎªK©àÉêyùºÎªK©Rhttp://purl.org/DC/about/element_set.htmÝDÐÉêyùºÎªK©àÉêyùºÎªK©lhttp://dicdoc.kb.inserm.fr:2010/basismesh99/mesh.html¯DÐÉêyùºÎªK©àÉêyùºÎªK©>http://www.chu-rouen.fr/cismef¿DÐÉêyùºÎªK©http://www.w3.orgàÉêyùºÎªK©&http://www.w3.org/DÐÉêyùºÎªK©àÉêyùºÎªK©,http://www.tei-c.org/©DÐÉêyùºÎªK©àÉêyùºÎªK©8http://www.uic.edu/orgs/TEI«DÐÉêyùºÎªK©àÉêyùºÎªK©:http://www.cs.vassar.edu/CESDÐÉêyùºÎªK©àÉêyùºÎªK©Vux½ÀÙøû03Lkn}®ÍÐñ/NQm¼¿ö+JMc
³¶Îíð'*Ihk¥ÄÇÖõø ( + 8 W Z t ª É Ì Ý ü ÿ
-
0
@
_
b
o
»
½
È
ç
é
ô
?ALkmx¤ÃÅÐïñü*ILR¶¸¦ÂÄ'CEô$.5.6.G.H.Y.Z.k.q....¤.À.Æ.ä2ý23666@6Ø89999¥9öI J*JèKL
L9QUQ[QÈáêØñúIbkPir½Ö೶϶ն¤·À·Æ·$»=»F»9¿c¿l¿ÏÁèÁñÁÄÅÝſů8Æ>ÆEÎ^ÎhÎSìì«ìmïï£ï^ññÂñËñòIò±óâóôvôô¬ôyõ õµõ¼õêõö}ö¬öÉö¸÷è÷øø3øFø«øÒøçøêùú@ú´ûÙûåûUüüüñü/ý[ýîý*þTþ¬þçþÿÿÍÿ¯2
ôÿ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿtÿTÿTÿTÿTÿTÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿX
!ÿ!ÿ4Q!!ð8ð@ñÿÿÿ÷ððð0ð( ð
ððB
ðSð¿Ëÿ ?ðÿÿZ
_Hlt490971987
_Ref490471081
_Toc490968192
_Hlt490471008
_Ref490471000
_Toc490968193
_Toc490968194
_Ref490469342
_Toc490968195
_Toc490968196incertitude
_Ref490480947
_Ref490481014
_Toc490968197Brown
_Toc490968198
_Toc490968199
_Toc490968200
_Ref490619403
_Ref490667045
_Toc490968201
_Ref490475934
_Toc490968202
_Toc490968203
_Toc490968204
_Toc490968205
_Toc490968206
_Toc490968207
_Toc490968208
_Toc490968209
_Ref490470952
_Toc490968210
_Toc490968211
_Toc490968212
_Toc490968213
_Toc490968214
_Toc490968215
_Ref490471068
_Toc490968216
_Toc490968217
_Toc490968218
_Hlt490840322
_Toc490968219
_Toc490968220
_Ref490620635
_Toc490968221
_Toc490968222
_Toc490968223
_Toc490968224
_Ref490471089
_Toc490968225
_Toc490968226
_Toc490968227
_Toc490968228
_Toc490968229
_Ref490471113
_Toc490968230
_Toc490968231
_Toc490968232
_Toc488405516
_Ref490468358
_Toc490968233
_Hlt490925475
_Hlt490927525
_Hlt489419320
_Hlt491160292
_Ref490476409
_Toc490968234
_Ref490476717
_Toc490968235
_Ref490476877
_Toc490968236
_Ref490480507
_Toc490968237
_Ref490480697
_Toc490968238
_Ref490578995
_Ref490886546
_Toc490968239
_Ref490579331
_Toc490968240
_Ref490579500
_Ref490884111
_Toc490968241
_Ref490581381
_Ref490581749
_Toc490968242
_Ref490666176
_Ref490741211
_Toc490968243¤¨¨44J ]#A,[-[-[-H.ã/>0R®T®T®Tò^ò^m|6êrŲÝ_¤z¶f¹f¹_ººd¿nÄêÅóÅóÅÚÊkÎ~ÑðÒðÒüÒg׫ØÑÙaßaßîãêmënënë¨ìróãÿ«¬FGÕÕ¡¢¢++""""("("(A/A/A/°2
!"#$%&'()*+,-./0123456789:;?@ABCDEFGHIJKLMNOPQRSTUVWXYÆ´´¹IIW q#A,c-c-c-H.ô/0>HRÌTÌTÌT__v|4E Òºå#r¤¶o¹o¹ººl¿{ÄòÅÆÆéÊίÑúÒúÒÓm×¾ØÞÙmßmßøãêxëxëxë©ìôäÿ´´OO¥¥Ýݪªª33"""*(*(*(J/J/J/°2¥çò-
4
5
:
;
B
C
G
H
Q
k
p
r
£
¨
©
¬
¯
¸
¼
Ï
Ö
×
ß
à
ç
ì
õ
ö
ÿ
#&*+0CJKP^bcghjns±¸¹ÄÆÈÎÕØàêíîóøÿ(,01;Marque de commentaireCJ4BR4Corps de texte$XCbXRetrait corps de texteÁ
ÆÌCJhnH4U@¢q4Lien hypertexte>*B*.@.CommentaireCJ8 @8Pied de page
Ƹp#@þ¢@Critère de diffusionKH,)@¢±,Numéro de page,@,TM 1
ÆàU"
CJ @ TM 2ð @ TM 3à TM 4Ð TM 5 À TM 6!° TM 7" TM 8# TM 9$LSRLRetrait corps de texte 3 %$S2"@2Légende
&$¤x¤xCJDMQrDRetrait 1ère ligne
'$Ò¤x@V@¢@Lien hypertexte suivi>*B*>@>Note de bas de page)CJB&@¢¡BAppel note de bas de p.H*.².En-tête
+
Ƹp#J#JTable des illustrations
,à þKùF[G¯Å¹Ð°2Q@¤ÑÔ-4Á°2-ÿÿÿÿ-ÿÿÿÿNQO¬°2^ÿÿÿÿ7^ÿÿÿÿn^ÿÿÿÿâ#^5pÁÉúÎ
2
d
¿
ë
CoÇó N34JXm|x|¶f¹ÆÑÉÝÌlÎÝë¯ìñìníçíhîéîiï§ïïïðôðÆñLòäònóô±ô õ¸õöÍö øJøêøùCúõúEûèûü_ýXþÿ«¬r/E2R2]2±2¨@ @ 44@ 44z¶ôÅÛÊnënënënënënënënënënënënënënënënënënënënënënënënënënënënënënënënënënënë`në@@
ntM
I0ù42
;PÎd{»PÊ¢ï½ö2ü溡"m%m2
`«®°±³µ¶¹¼½¿ÁÃÅÈÊÎÐÒÓñý ,sú]'"NmwÝóÉíçóôªR©eÙ·(Zº V ¡ .
r:r6 P £ ü "!r!½!"J"²"à"B##å##$^$$ó$(%m%§%ç%%'±)+x,×-N./1«2P6
`¬¯´¸º¾ÂÆÉÍÏÔÕרÙÛÜÝßàáãäæçéêìíïðóôõ÷ùúüþ
"$&'()*-.
>.®Xx=ÚÎíçÌúj2ܹn ¡ á
º«2 !Å!p"#å#$(%%&È(¯*,%2
¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖרÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ¯6²·»ÀÄÇËÌÑÖÚÞâåèëîòöøûÿ!#%+ÿÿUnknownAllan Strattonâð!;Z\p¥ÄÆã46PoqªÉËì
4SUn¾Áâ;>Vux½ÀÙøû03Lkn}®ÍÐñ/NQm¼¿ö+JMc
³¶Îíð'*Ihk¥ÄÇÖõø ( + 8 W Z t ª É Ì Ý ü ÿ
-
0
@
_
b
o
»
½
È
ç
é
ô
?ALkmx¤ÃÅÐïñü*ILR¶¸¦ÂÄ'CEô$.5.6.G.H.Y.Z.k.q....¤.À.Æ.ä2ý23666@6Ø89999¥9öI J*JèKL
L9QUQ[QÈáêØñúIbkPir½Ö೶϶ն¤·À·Æ·%»>»G»:¿d¿m¿ÐÁéÁòÁÅÅÞÅçÅÆ9Æ?ÆFÎ_ÎiÎTìì¬ìnïï¤ï_ññÃñÌñòJò²óãóôwôôôzõ¡õ¶õ½õëõö~ööÊö¹÷é÷øø4øGø¬øÓøèøëùúAúµûÚûæûVüüüòü0ý\ýïý+þUþþèþÿÿÎÿ °2
ôÿ%TÿÄ%TÿÄ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÄ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÄ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÄ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄ%TÿÄTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿtÿTÿTÿTÿTÿTÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿ
!ÿ!ÿ4Q!!ð8ð@ñÿÿÿ÷ððð0ð( ð
ððB
ðSð¿Ëÿ ?ðÿÿZ
_Hlt490971987
_Ref490471081
_Toc490968192
_Hlt490471008
_Ref490471000
_Toc490968193
_Toc490968194
_Ref490469342
_Toc490968195
_Toc490968196incertitude
_Ref490480947
_Ref490481014
_Toc490968197Brown
_Toc490968198
_Toc490968199
_Toc490968200
_Ref490619403
_Ref490667045
_Toc490968201
_Ref490475934
_Toc490968202
_Toc490968203
_Toc490968204
_Toc490968205
_Toc490968206
_Toc490968207
_Toc490968208
_Toc490968209
_Ref490470952
_Toc490968210
_Toc490968211
_Toc490968212
_Toc490968213
_Toc490968214
_Toc490968215
_Ref490471068
_Toc490968216
_Toc490968217
_Toc490968218
_Hlt490840322
_Toc490968219
_Toc490968220
_Ref490620635
_Toc490968221
_Toc490968222
_Toc490968223
_Toc490968224
_Ref490471089
_Toc490968225
_Toc490968226
_Toc490968227
_Toc490968228
_Toc490968229
_Ref490471113
_Toc490968230
_Toc490968231
_Toc490968232
_Toc488405516
_Ref490468358
_Toc490968233
_Hlt490925475
_Hlt490927525
_Hlt489419320
_Hlt491160292
_Ref490476409
_Toc490968234
_Ref490476717
_Toc490968235
_Ref490476877
_Toc490968236
_Ref490480507
_Toc490968237
_Ref490480697
_Toc490968238
_Ref490578995
_Ref490886546
_Toc490968239
_Ref490579331
_Toc490968240
_Ref490579500
_Ref490884111
_Toc490968241
_Ref490581381
_Ref490581749
_Toc490968242
_Ref490666176
_Ref490741211
_Toc490968243¤¨¨44J ]#A,[-[-[-H.ã/>0R®T®T®Tò^ò^m|6êrŲÝ_¤z¶g¹g¹`ººe¿oÄëÅôÅôÅÛÊlÎÑñÒñÒýÒh׬ØÒÙbßbßïãênëoëoë©ìsóäÿ¬GHÖÖ¢££,,"""#(#(#(B/B/B/±2
!"#$%&'()*+,-./0123456789:;?@ABCDEFGHIJKLMNOPQRSTUVWXYÆ´´¹IIW q#A,c-c-c-H.ô/0>HRÌTÌTÌT__v|4E Òºå#r¤¶p¹p¹ººm¿|ÄóÅÆÆêÊΰÑûÒûÒÓn׿ØßÙnßnßùãêyëyëyëªìôåÿµµPP ¦¦ÞÞ«««44"""+(+(+(K/K/K/±2¥çò-
4
5
:
;
B
C
G
H
Q
k
p
q
£
¨
©
¬
¯
¸
¼
Ï
Ö
×
ß
à
ç
ì
õ
ö
ÿ
#&*+0CJKP^bcghjns±¸¹ÄÆÈÎÕØàîóøÿ(,01;@MNVfpuwz~ ÂÆËÒ×Ûò÷øÿ 'DJOW[^_fhp{
Â/Õ/ã/ô/ã1î1Ì2×2ã5é5-989ë:ö:èEîENFNVN]NÍPÔPIUUU}WW
WWÉXÍXLZSZ[[°[¶[à[è[0m222¡2¢2»23=3M3p3r3s3Ã3Ä3ó3ô3õ3t4u4v4x5y5²5³566D6E6K6L6M6N6O6Q6R6X6Y6Z6[6\6_6`6v6x6y6z6{66666¯6º^¼^À^Â^ýýýú÷ðððîððððçäçßçäçäçßçäÚ×ÚÚ×ÚÐÍßnH
j0JU0J jU0JmH0J
j0JUh
j0J*UCJCJ575 000&P P/R °. ° A!°4"°û#$§%°° 5 000&P P/R °. ° A!°4"°û#$§%°° 5 000&P P/R °. ° A!°4"°û#$§%°°
niveauH9RC22
P6Q6\6]6^6_6z66®6¯6¨^Â^ýôðýýîîýýìýh&`#$üÿ-
[(@ñÿ(NormalCJmHR@RTitre 1%$
&F@XQþdèþ¤ð¤®]±ñ³z¶¶r¹s¹`ººº¿oÄ}ÄëÅôÅÆÑÉÛÊíÊÝÌlÎÎѲÑðÒñÒýÒÓh×o׬ØÀØÒÙàÙòÛaßbßoßpߨà}áCâîãïãúãûãêêêêðê#ëmë{ë|ëÝë¯ìñìníçíhîéîiï§ïïïðôðÆñLòäònóô±ô õ¸õöÍö øJøêøùCúõúEûèûü_ýXþÿ¬¶·ÛÜçïðRSTU^_`abklmns¨©ª«ÈÝÞßéõ01234KLMNYefghituvwx¨®¯°±·ÈÚÛÜÝéêëìí!"#EHQRst©ª±¸¹ºÅÆÌÛÜÝðñò)*+,789:BCDEPQR[defgnop}
±»¼½¾ËÌÍÎÛÜè
&23456?@ALWXYghitu ¡¢ª«¬¸¹ºÏÐ×ßàÿ
./9EFMghp«¬¸< = G Õ Ö â
;<A78?íîù@
A
H
)©ª³noxst§¨©º»óô!"_`
¢£ÓÔÕÖßàáñò;.®Xx=ÚÎíçÌúj2ܹn ¡ á
º«2 !Å!p"#å#$(%%&È(¯*,%2¯6²·»ÀÄÇËÌÑÖÚÞâåèëîòöøûÿ!#%+ÿÿUnknownAllan Strattonâð!;Z\p¥ÄÆã46PoqªÉËì
4SUn¾Áâ;>Vux½ÀÙøû03Lkn}®ÍÐñ/NQm¼¿ö+JMc
³¶Îíð'*Ihk¥ÄÇÖõø ( + 8 W Z t ª É Ì Ý ü ÿ
-
0
@
_
b
o
»
½
È
ç
é
ô
?ALkmx¤ÃÅÐïñü*ILR¶¸¦ÂÄ'CEô$.5.6.G.H.Y.Z.k.q....¤.À.Æ.ä2ý23666@6Ø89999¥9öI J*JèKL
L9QUQ[QÈáêØñúIbkPir½Ö೶϶ն¤·À·Æ·%»>»G»:¿d¿m¿ÐÁéÁòÁÅÅÞÅçÅÆ9Æ?ÆFÎ_ÎiÎTìì¬ìnïï¤ï_ññÃñÌñòJò²óãóôwôôôzõ¡õ¶õ½õëõö~ööÊö¹÷é÷øø4øGø¬øÓøèøëùúAúµûÚûæûVüüüòü0ý\ýïý+þUþþèþÿÿÎÿ ±2
ôÿ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀ%TÿÀTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿTÿtÿTÿTÿTÿTÿTÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿXÿ
!ÿ!ÿ4Q!!ð8ð@ñÿÿÿ÷ððð0ð( ð
ððB
ðSð¿Ëÿ ?ðÿÿZ
_Hlt490971987
_Ref490471081
_Toc490968192
_Hlt490471008
_Ref490471000
_Toc490968193
_Toc490968194
_Ref490469342
_Toc490968195
_Toc490968196incertitude
_Ref490480947
_Ref490481014
_Toc490968197Brown
_Toc490968198
_Toc490968199
_Toc490968200
_Ref490619403
_Ref490667045
_Toc490968201
_Ref490475934
_Toc490968202
_Toc490968203
_Toc490968204
_Toc490968205
_Toc490968206
_Toc490968207
_Toc490968208
_Toc490968209
_Ref490470952
_Toc490968210
_Toc490968211
_Toc490968212
_Toc490968213
_Toc490968214
_Toc490968215
_Ref490471068
_Toc490968216
_Toc490968217
_Toc490968218
_Hlt490840322
_Toc490968219
_Toc490968220
_Ref490620635
_Toc490968221
_Toc490968222
_Toc490968223
_Toc490968224
_Ref490471089
_Toc490968225
_Toc490968226
_Toc490968227
_Toc490968228
_Toc490968229
_Ref490471113
_Toc490968230
_Toc490968231
_Toc490968232
_Toc488405516
_Ref490468358
_Toc490968233
_Hlt490925475
_Hlt490927525
_Hlt489419320
_Hlt491160292
_Ref490476409
_Toc490968234
_Ref490476717
_Toc490968235
_Ref490476877
_Toc490968236
_Ref490480507
_Toc490968237
_Ref490480697
_Toc490968238
_Ref490578995
_Ref490886546
_Toc490968239
_Ref490579331
_Toc490968240
_Ref490579500
_Ref490884111
_Toc490968241
_Ref490581381
_Ref490581749
_Toc490968242
_Ref490666176
_Ref490741211
_Toc490968243¤¨¨44J ]#A,[-[-[-H.ã/>0R®T®T®Tò^ò^m|6êrŲÝ_¤z¶g¹g¹`ººe¿oÄëÅôÅôÅÛÊlÎÑñÒñÒýÒh׬ØÒÙbßbßïãênëoëoë©ìsóäÿ¬GHÖÖ¢££,,"""#(#(#(B/B/B/²2
!"#$%&'()*+,-./0123456789:;?@ABCDEFGHIJKLMNOPQRSTUVWXYÆ´´¹IIW q#A,c-c-c-H.ô/0>HRÌTÌTÌT__v|4E Òºå#r¤¶p¹p¹ººm¿|ÄóÅÆÆêÊΰÑûÒûÒÓn׿ØßÙnßnßùãêyëyëyëªìôåÿµµPP ¦¦ÞÞ«««44"""+(+(+(K/K/K/²2¥çò-
4
5
:
;
B
C
G
H
Q
k
p
q
£
¨
©
¬
¯
¸
¼
Ï
Ö
×
ß
à
ç
ì
õ
ö
ÿ
#&*+0CJKP^bcghjns±¸¹ÄÆÈÎÕØàîóøÿ(,01;@MNVfpuwz~ ÂÆËÒ×Ûò÷øÿ 'DJOW[^_fhp{
Â/Õ/ã/ô/ã1î1Ì2×2ã5é5-989ë:ö:èEîENFNVN]NÍPÔPIUUU}WW
WWÉXÍXLZSZ[[°[¶[à[è[0e5e>eBe°g¶gi%ij*j+j3jDjJjjjþmnInSnTnYnªn²nÊnÏn o,oSo[oÀoÊoÎoÔoÖoàopppp3p9ppp«p°p§s¯st#tuu)v>vAvIvx!xêyõyÇÜ(-ÁÇ
×Ûkoï¡õ¡M£Q£¬¬
¶¶¶¶¶¶¶"¶%¶(¶
¸¸¸¸È¸Î¸ß¸è¸ô¸ø¸¹¹(¹,¹E¹K¹
½½ÙÀäÀÊÊÛÊêÊ´Ì»ÌÒÌÚÌÍ
ÍÍ(Í1Í=ÍHÍQÍUÍ]ÍlÍtÍÒÒyÚÚOÛSÛDÞLÞýàáuá{áå¡åèè·êÂêðêöê÷êýêGëOëëëëëâëèëìì÷ìýìííííí¦í§í¯íÂíÌíÍíÒíûíÿíî#î'î1î2î=î?îEîFîWîwîîîîýîïï ï!ï)ï=ïHïOïUïÕïÝïÿïð
ðððð#ð-ð2ð7ðððññññ&ñ)ñRòXò\òbòròwò{òòòòôòûòÿòóóóó%ó9ó@óAóIóNóTóXó\óô ô,ô0ôFôNô·ô¿ôõõ8õ;õöö=ö@öÓöÝöòöøöùö÷÷
÷;÷E÷F÷O÷y÷|÷Qø\ø^øaøkønøðø÷øûøùù
ù]ùgùhùqùùùªùùKúVúzúúúúú ú¡ú¨ú©ú±ú½úÄúÉúÑúÕúàúûúûüüü¥ü±ü´üwýý±ý´ýþþ"ÿ(ÿ)ÿ3ÿ9ÿ?ÿAÿDÿ#4;?E"-FKhoÖ á
ñü (owXa -ZgºÁÿ/7]e1ÁèÊ@ZáXÀ@°è?ï¿@ÔnùÀ'å+5úÿÿÿÿÿÿÿÿ
!"#$%&'()*+,-./0123456789:;?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
!"#$%&'()*+¤ÿÿÿÿ¦ÿÿÿÿÿÿÿÿ123456789:;?@ABCDEFGHIJKþÿÿÿMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~e5e>eBe°g¶gi%ij*j+j3jDjJjjjþmnInSnTnYnªn²nÊnÏn o,oSo[oÀoÊoÎoÔoÖoàopppp3p9ppp«p°p§s¯st#tuu)v>vAvIvx!xêyõyÇÜ(-ÁÇ
×Ûkoï¡õ¡M£Q£¬¬
¶¶¶¶¶¶¶"¶%¶(¶
¸¸¸¸È¸Î¸ß¸è¸ô¸ø¸¹¹(¹,¹E¹K¹
½½ÙÀäÀÊÊÛÊêÊ´Ì»ÌÒÌÚÌÍ
ÍÍ(Í1Í=ÍHÍQÍUÍ]ÍlÍtÍÒÒyÚÚOÛSÛDÞLÞýàáuá{áå¡åèè·êÂêðêöê÷êýêGëOëëëëëâëèëìì÷ìýìííííí¦í§í¯íÂíÌíÍíÒíûíÿíî#î'î1î2î=î?îEîFîWîwîîîîýîïï ï!ï)ï=ïHïOïUïÕïÝïÿïð
ðððð#ð-ð2ð7ðððññññ&ñ)ñRòXò\òbòròwò{òòòòôòûòÿòóóóó%ó9ó@óAóIóNóTóXó\óô ô,ô0ôFôNô·ô¿ôõõ8õ;õöö=ö@öÓöÝöòöøöùö÷÷
÷;÷E÷F÷O÷y÷|÷Qø\ø^øaøkønøðø÷øûøùù
ù]ùgùhùqùùùªùùKúVúzúúúúú ú¡ú¨ú©ú±ú½úÄúÉúÑúÕúàúûúûüüü¥ü±ü´üwýý±ý´ýþþ"ÿ(ÿ)ÿ3ÿ9ÿ?ÿAÿDÿ#4;?E"-FKhoÖ á
ñü (owXa -ZgºÁÿ/7]e1 @AT @@ @@8F@@¦^AhF@AjF@@F@A¨^@¨z@A´^@Äß@A¶^@Ðá@A¸^@ï@Aº^@"ô@@\m@@äf@@`@l@A¢l@A`A´l@@¶l@@ºl@@`@¾l@@`@\m@GTimes New Roman5Symbol3&Arial5&:ÿTahoma"qÄ©tG]H'H¿×å+6ú!3¼`$¥À´´0dF37Ýÿÿ$Corpus spécialisé en textes médicauxpierre Jacquemart-
!"#$%&'()*+,-./0123456789:;?@ABCDEFGHIJKLMNOPQRSTUVWXYZÃì¥Áq,¿¯6bjbjt+t+bAÐÙs/ÒOÿÿÿÿÿÿ]üpV Rz.z$¨zHðz{44{hjÌ6Ê ãÔ·lÅÝÇÝÇÝÇÝÇÝÇÝÇÝ$âôÿãëÝ4¤z###ëÝ
«¤z¤z>>Û4
«
«
«#ê
¤z>¤z>ÅÝ4{4{¤z¤z¤z¤z#ÅÝ
«2
«?®N aÖ¨¤z¤z¹Ý>r
$`zåÀ4{Î
« ݰRoot Entryÿÿÿÿÿÿÿÿ ÀF ´8À`zåÀB
Data
ÿÿÿÿÿÿÿÿ0
61TableÿÿÿÿÿÿÿÿLäWordDocumentÿÿÿÿ=bþÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿþÿÿÿþÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿýÿÿÿÿÿÿÿ !"#$%&'()*+,-./0123456789:;ýÿÿÿýÿÿÿCDEFGHþÿÿÿýÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ-þÿÿÿýÿÿÿ ¡¢£ÿÿÿÿÿÿÿÿÿÿÿÿ¨©ª«¬®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖרÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿþÿ
ÿÿÿÿ ÀFDocument Microsoft Word
MSWordDocWord.Document.8ô9²qþÿ
ÕÍÕ.+,ù®DÕÍÕ.+,ù®Php|¤¬´
¼íä /F3³
%Corpus spécialisé en textes médicauxTitre (RZ²
_PID_GUID_PID_HLINKSäAN{C279298B-2C3B-11D4-897B-B6C13BA07245}AÄr6 /;http://wheel.compose.cs.cmu.edu:8001/cgi-bin/browse/objwebDA,)http://www.invivo.net/samu75/protoc.html
)*http://www.ilc.pi.cnr.it/EAGLES/home.html*w&,http://www.lpl.univ-aix.fr/projects/multextSS#http://www.invs.sante.fr/4} http://www.cnil.fr/},#http://talana.linguist.jussieu.fr/EGhttp://merlotxml.org/b"http://www.bnc.org/Ahttp://www.cs.vassar.edu/XCESGhttp://www.cs.vassar.edu/CES)ohttp://www.uic.edu/orgs/TEID]http://www.tei-c.org/k/http://www.w3.org/6http://www.chu-rouen.fr/cismef
6http://dicdoc.kb.inserm.fr:2010/basismesh99/mesh.htmldPÿ)http://purl.org/DC/about/element_set.htmbfühttp://www.bnf.fr/7iù#http://www.biomath.jussieu.fr/CLEFþÿ
à
òùOh«+'³Ù0ÈÔðü (
DP\
ht|ä%Corpus spécialisé en textes médicauxft orppierre JacquemartenierNormal.dotu-rm191Microsoft Word 8.0n@ÊG0Ë@ZáXÀ@°è?ï¿@¦¸dÀå+6ú
!"#$%&'()*+ÿÿÿÿÿÿÿÿÿÿÿÿ123456789:;?@ABCDEFGHIJKþÿÿÿMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~