Octobre 2007
Afin d'afficher correctement les diapositives, téléchargez le document PDF
XML,
DTD et TEI pour un dictionnaire étymologique des créoles
12
Octobre 2007
Hélène
Manuélian et Emmanuel Schang
Universités
de Cergy Pontoise et Orléans
Ressources
textuelles
- Données
hétérogènes (en-têtes, caractères spéciaux, illustrations, sens
de l’écriture, etc.)
- Informatisation?lecture
possible sur un écran
-
La solution : coder les données
- Un
problème : moyens pour le codage informatique souvent incompatibles
entre eux et dédiés à une catégorie de texte
- Une
solution : NORMALISER !
Quels
éléments coder ?
- Niveau
physique : codage des caractères.
- Niveau
logique :
- sémantique
du codage
- organisation
de l'information
- description
explicite de cette information.
- Niveau
de présentation : indépendant du support de sortie (CD-Rom, Page Web,
etc…) .
Normalisation
- Ressources
portables :
- Echanges
possibles quels que soient les moyens informatiques de l’utilisateur
- Archivage
garanti, malgré l’évolution des technologies
- Visibilité
nationale et internationale
- La
référence : une instance internationale
- Comité
de l’ISO (International Standard Office)
- Normes
éditées par le TC 37 / SC 4 (Sous comité pour la standardisation
des ressources textuelles)
Au
commencement…
- SGML
(Standard Generalized Markup Language)
- Les
données au format SGML ont un format d’arbre hiérarchique (comme
en syntaxe !)
- Représente
les données textuelles avec des éléments de contenus encapsulés
les uns avec les autres : balises
Exemple
<entry>
<form>
</form>
<gramGrp>
</gramGrp>
<sense
n="1">
</sense>
<sense
n="2">
</sense>
</entry>
Entry
Form
GramGrp Sense1 Sense2
Orth
pron pos
def def
XML
est …
- Un
protocole de stockage et de gestion de l’information
- Une
famille de technologies qui permettent d’effectuer le formatage de
documents et l’extraction de données
- Une
philosophie de gestion de l’information qui recherche un maximum d’utilité
et de souplesse en organisant les données sous la forme la plus pure
et la plus structurée
XML
n’est pas…
- A
proprement parler un langage de balisage
- En
fait, c’est un ensemble de règles qui permettent le balisage
Les
balises servent à…
- Délimiter
un fragment de texte
<paragraph> blablabla </paragraph>
- Indiquer
le rôle d’un fragment de texte
<salutation> bonjour ! </salutation>
- Indiquer
la position d’un élément dans un texte
<title> TITRE </title>
<paragraph> BLABLA </paragraph>
- Imbriquer
des éléments les uns dans les autres
<chapter> <paragraph> blabla-truc </paragraph> <paragraph> blabla-bidule </paragraph> <paragraph> blabla-machin </paragraph> </chapter>
- Faire
des liens entre les fichiers
<graphique fileref
= "sourire.pict"/>
Composition
d’une balise
<link type="coref” subtype="infidèle" lex-rel="hyper" />
Autres valeurs possibles
pour l’attribut type :
"anaphor"
"bridging"
Autres valeurs possibles
pour l’attribut subtype si type
= "coref"
: "direct"
Autres valeurs possibles
pour l’attribut lex-rel :
”hypo" ”syn"
Attributs
"Valeurs"
Modèle
de document
- XML
fournit ce qu’on appelle un modèle de document
- Ce
sont des règles propres à un type de document
- Qui
permettent de comparer le document produit à un document du même type
et de dire s’il est conforme aux règles. On parle de validation.
- Il
en existe deux sortes : DTD (Document Type Definition) et Schéma XML.
Je ne présente que les DTD ici.
DTD
- Ensemble
de règles qui indiquent quelles balises le document peut utiliser en
fonction de sa nature.
-
Elle fournit une description formelle de l’organisation de l’information
au sein du document.
- Elle
fournit la liste des attributs possibles pour une balise et les
valeurs possibles de ces attributs
- On
fait référence à la DTD utilisée au début du document pour que
XML puisse valider le document
La
TEI
- Text
Encoding Initiative
- Résultat
d’un consensus entre diverses associations internationales spécialisées
dans l’alliance entre linguistique et informatique
- Propose
des directives d’encodage des ressources textuelles (normes de codage
et représentation uniforme des données)
La
TEI
- A
la fois rigoureuse et flexible : l’utilisateur élabore son propre
schéma de codage à partir d’un ensemble d’éléments et d’attributs
- Structure
de base commune : tous les documents sont divisés en deux parties :
l’entête et le texte.
<teiHeader> informations
générales sur le texte </teiHeader>
<text> texte
constituant la ressource textuelle </text>
L’entête
TEI
- Mise
au point par des experts en documentation
- Contient
la description complète du document en quatre parties
<fileDesc> description du fichier </fileDesc>
<encodingDesc> description du codage </encodingDesc>
<profileDesc> profil textuel du
document (classification du texte, thème, etc.) </profileDesc>
<revisionDesc> historique des changements </revisionDesc>
Texte
TEI
Exemple pour
un roman
<text>
<front>
<body> <back>
<div>
<div> <div> <div>
Exemple pour un ensemble
d’articles :
<text>
<front>
<group> <back>
<text>
<text> <text>
<front>
<body> <back>
<div>
<div> <div> <div>
Une
norme en cours d’élaboration : LMF
- Lexical
Markup Framework
- Deux
perspectives:
- La
modélisation des dictionnaires
- La
construction de bases de données lexicales pour le TAL
- Projet
de spécification de structure de bases de données lexicales et lexicographiques
qui unifie ces deux modèles
Structure
de LMF
Info.
globales
Base de Données
Lexicales
1..1
1..1
Entrée lexicale
0..n
1..1
1..1
Forme
1..1
Sens
0..n
1..1
0..n
1..1
Extension
Lexicale
Extension
Lexicale
Extension
Lexicale
Perspectives
pour le dictionnaire des créoles
- Utiliser
la norme « Print Dictionaries » de la TEI.
- Utiliser,
voire contribuer à l’élaboration de la norme : la structure d’un
dictionnaire des créoles pourrait montrer qu’une souplesse reste
nécessaire
- Propositions
au TC37/SC4
Problème
- Structure
des dictionnaires étymologiques du créoles peut-être problématique,
parce que différente de la structure des dictionnaires étymologiques
classiques, et des dictionnaires bi/multilingues
Deux
exemples
Exemples
standards
<entry>
<form>
...
</form>
<etym>
<mentioned>publicare, publicatum</mentioned>.
<xr>See
<ref>public</ref>; cf.
2d
<ref>-ish</ref>.
</xr>
</etym>
</entry>
(From: Webster's Second
International)
<entry>
<!--
... -->?
</entry>
Exemple
(C. Fontes)
- Dictionnaire
étymologique du forro
- Particularité
: à la fois dictionnaire trilingue et dictionnaire étymologique
- Structure
complexe : forro / Traduction(s) portugaise(s) / traduction(s) anglaise(s)
/ Etymologie : propriété 1 + propriété 2 + …
Exemple
de problème à résoudre
<entry>
<form>
</form>
<gramGrp>
</gramGrp>
<trans
n=“1”>
</trans>
<trans
n=“2”>
</trans>
<etym>
<lang>
P. </lang>
<mentioned> desbragado </mentioned>
<gloss>unchained </gloss>
</etym>
</entry>
une
application
- prenons
l’exemple du forro
- il
existe :
- un
dictionnaire étymologique : Rougé (2004)
- un
mémoire de master (Fontes 2007)
- un
dictionnaire fantôme (Aires Major xxxx)
- des
bouts de travaux ici et là (Ferraz 1979, Hagemeijer 2007, Schang 2000,
…).
deux
approches différentes
- codage
TEI des textes existants (dans leur version électronique)
- réalisation
d’une base de données sous un format nouveau en incorporant des infos
prises dans les dictionnaires existants. Il s’agit alors d’un nouveau
travail.
avantages
et inconvénients
- Solution
1 :
- faible
coût (+)
- rien
de neuf (-)
- Solution
2 :
- coût
important selon l’ampleur du projet
- véritable
base multimédia (son/corpus, images, etc.)
un
exemple simple
aba,
bord d’un habit
En guinéen
aba : « revers », « bas d'un
vêtement » ; à Santiago aba : «rebord
d'un chapeau ou d'une jupe. » Pour le capverdien, Lang donne aussi
ce nom comme synonyme de bandera « dessus de la porte ».
En forro
aba : « volant d’une robe », « rebord
d’un chapeau » ; baba de même sens en est vraisemblablement
une variante. aba est aussi attesté en angolar avec le même
sens, mais il nous semble, considérant les vêtements traditionnels
des angolares, qu’il s’agit là d’un emprunt récent au forro.
(Rougé 2004)
structure
d’une entrée
entry
form gloss etym
Dans ce qui
est étiqueté ‘etym’, on va trouver des
informations de nature étymologique sur diverses langues. On peut concevoir
des sous-entrées pour chaque langue.
Pour chaque
langue évoquée, on trouve :
- une
ou deux formes
- une
ou deux gloses
- des
informations variées (emprunt récent, synonymes, etc.)
un
exemple délicat
Rougé
(2004:49)
aguardar,
attendre
L’impératif
pluriel du verbe aguardar, aguardai, a donné l’interjection
forro agwêdê ! « Attention ! » qui est
utilisée en particulier dans Agwêdê ! Alê ! « Attention!
Le roi ! », formule rituelle qui ouvre les devinettes traditionnelles.
L’harmonisation vocalique régressive empêche que agwêdê
puisse être interprété comme un dérivé de gwada, qui pourtant
est de même racine.
proposition
de codage TEI
<entry>
<form>aguardar</form>,
<gloss xml:lang="fr">attendre</gloss>
<etym>Limpératif
pluriel du verbe aguardar, aguardai, a donné l’interjection <lang>forro</lang>
<form xml:lang="cri">agwêdê!</form>
<gloss>Attention!</gloss>
qui est utilisé en particulier dans <mentioned>Agwêdê!
Al!</mentioned> <gloss xml:lang="fr">Attention! Le
roi!</gloss>,
<def>formule
rituelle qui ouvre les devinettes traditionnelles.</def>
L’harmonisation
vocalique régressive empêche que <mentioned>agwêdê</mentioned>
puisse être interprêté comme un dérivé de <mentioned>gwada</mentioned>,
qui pourtant est de même racine.</etym>
</entry>
CreolData
et LMF
- un
projet de base de données lexicales (Schang & alii 2005)
- idée
simple : réutiliser l’existant pour l’incorporer dans une base
de données fonctionnant avec xml
- à
l’origine, utilisation de LMF et Afnor (Lexique pour le TAL)
CreolData
et LMF
Entrée Lexicale
identifiant
: ‘535’
forme lemmatisée :
‘flêsê’
sens : ‘s535 s536’
Forme
1
chaîne : ‘flêsê’
Forme
2
chaîne : ‘ôflêsê’
Sens
identifiant
: "s535"
comportement
syntaxique : ‘syn535’
Sens
identifiant : "s536"
comportement syntaxique
: "syn536"
CreolData
et LMF
- ce
qui donne sous forme xml :
<lexicalEntry
id="535" pos="verb" lemmatizedForm="flêsê"
autonomy="yes" components="" senses="s535 s536">
<form id="f535a" string="flêsê"/>
<form id="f535b"
string="ôflêsê"/>
</lexicalEntry>
<sense id="s535" syntacticBehaviors="syn535"
definitionBlocks="def535">
<definition id="def535" text="donner
quelque chose en cadeau à quelqu’un"
lang="fr"/>
</sense>
<sense id="s536" syntacticBehaviors="syn536"
definitionBlocks="def535">
<definition id="def536" text="présenter
un enfant à l’Eglise"
lang="fr"/>
</sense>
CreolData
et LMF
- un
système adapté à la description syntaxique :
<syntacticBehavior
id="syn535" frameSet="fS535"/>
<frameSet id="fS535" frames="fS535_f1 fS535_f2"/>
<frame id="fS535_f1" comment="verbe doc" slots="synSlot_1
synSlot_2 synSlot_3"/>
<frame id="fS535_f2" comment="verbe à cos" slots="synSlot_1
synSlot_3 synSlot_4"/>
<slot id="synSlot_1" function="subject" semanticActant="agent"
syntacticActant="np"/>
<slot id="synSlot_2" function="object" semanticActant="benef"
syntacticActant="np"/>
<slot id="synSlot_3" function="object" semanticActant="theme"
syntacticActant="np"/>
<slot id="synSlot_4" function="object" semanticActant="benef"
syntacticActant="da_np"/>
CreolData
et LMF
comportement
syntaxique
id="syn535"
ensemble
de cadres
id="fS535"
cadre
1
verbe
double objet
slots
: 1, 2, 3
cadre
2
verbe
à Compl. Obj. Sec.
slots
: 1, 3, 4
slot 1
SN
slot 2
SN
slot 3
SN
slot 4
SP
CreolData
et LMF
- avantages
:
- liens
avec des fichiers sons et des images facilités par la structure hiérarchisée.
- description
syntaxique et morphologique poussée permettant le développement d’analyseurs
morphologiques et de grammaires électroniques
- inconvénients
:
- pas
de place initialement prévue pour l’étymologie. Travail à faire
pour l’évolution de la norme