Dictionnaire Hydrographique International



Yüklə 187,62 Kb.
tarix17.01.2018
ölçüsü187,62 Kb.
#20821




Laurent Romary et Patrice Bonhomme

CRIN-CNRS & INRIA Lorraine

B.P. 239, F-54506 Vandœuvre lès Nancy

romary@loria.fr



Informatisation du

Dictionnaire Hydrographique International

Etude de faisabilité réalisée pour le Service Hydrographique et Océanographique de la Marine


0. Contexte de l’étude 3

1. Description générale du DHI 3

2. Contenu des entrées 4

2.1 Entrées du volume anglais 4

2.2 Entrées du volume français 5

2.3 Mécanismes de pointage 6

3. Codage des entrées 6

3.1 Vers une perspective « éditoriale » 6

3.2 Utiliser la TEI : pourquoi ? 7

3.3 Structure générale du dictionnaire 10

3.3.1 L’entête TEI pour le DHI 10

3.3.2 Représentation en SGML 11

3.4 Structure générale des entrées 12

3.5 Représentation des références croisées 14

3.6 Choix éditoriaux à adopter 17

3.6.1 Opérations d’édition 18

3.6.2 Quelques solutions à envisager 19

3.7 Extensions possibles 21

4. Environnements d’édition et de manipulation de données SGML 24

4.1 Les différentes opérations entrant dans le cycle de vie d’un document électronique 24

4.2 Environnements d’édition hors ligne 25

4.2.1 Les DTD TEI et TEI Lite 25

4.2.2 Un éditeur simple, EMACS 25

4.2.3 Un éditeur professionnel, Author/Editor 27

4.2.4 Génération de formats RTF et HTML, Jade 27

4.3 Expérimentation d’un outil en ligne 28

4.4 L’avenir de SGML (alias XML) 29

5. Bilan de l’étude 30

Annexe 1 - Un extrait du DHI codé en SGML 32

Annexe 2 - Extrait du DHI mis en page automatiquement par une feuille de style DSSSL 37

Annexe 3 - Extrait d’une feuille de style DSSSL permettant de produire un document RTF à partir d’un fichier TEI 39




0. Contexte de l’étude


L’Organisation Hydrographique Internationale (OHI) publie régulièrement un dictionnaire hydrographique dans ses deux langues officielles (anglais et français) et en espagnol. Ce document, édité jusqu’à présent sous forme « papier », devrait faire l’objet d’un projet de version « électronique ». Le Bureau Hydrographique International (BHI) a demandé aux membres du groupe de travail de l’OHI chargé de l’entretien du dictionnaire d’étudier indépendamment les différentes offres pouvant satisfaire ce projet.

C’est dans ce cadre que le service hydrographique et océanographique de la marine (SHOM) a demandé au CRIN une étude de faisabilité permettant d’identifier les éléments à mettre en œuvre pour ce projet.

Remarque 1 : Les exemples de ce rapport sont extraits de la 5ème édition anglaise et de la 4ème ou de la 5ème édition à venir pour le volume français.

Remarque 2 : du point de vue de la terminologie adoptée, nous avons gardé la notion de volume (pour les différentes langues au sein du DHI) pour désigner les versions électroniques correspondantes.


1. Description générale du DHI


Le dictionnaire hydrographique est publié sous la forme d’un volume indépendant par langue. Chaque volume contient une Préface, une Introduction, ainsi qu’une suite de chapitres correspondant à un découpage alphabétique du dictionnaire. Chacune de ces parties est formée d’une suite d’entrées, sans regroupement particulier par homographe (pas de suite d’entrées correspondant au même terme). Si nécessaire, les entrées sont redécomposées en plusieurs acceptions.

On remarquera que le DHI est d’une complexité similaire à différents projets de dictionnaires informatisés spécialisés que l’on peut trouver actuellement sur le web, par exemple :



http://www.state.nv.us/cnr/ndwp/dict-1/waterwds.htm

  • DICTIONARY OF ABBREVIATIONS AND ACRONYMS IN GEOGRAPHIC INFORMATION SYSTEMS, CARTOGRAPHY, AND REMOTE SENSING by Philip Hoehn and Mary Larsgaard October 1997 Version 3.0

http://www.lib.berkeley.edu/EART/abbrev.html

  • DICTIONARY OF TECHNICAL TERMS FOR AEROSPACE USE, Web edition edited by Daniel R. Glover, Jr., NASA Lewis Research Center, Cleveland, Ohio

http://sulu.lerc.nasa.gov/dictionary/intro.html
Il existe par ailleurs un certain nombre de projets beaucoup plus ambitieux (mais dont la mise en œuvre se déroule sur plusieurs années), par exemple :

  • l’informatisation du Trésor de la Langue Française à l’INaLF-CNRS (Institut National de la Langue Française)

http://www.ciril.fr/~mastina/TLF

http://www.hti.umich.edu/dict/med/

2. Contenu des entrées

2.1 Entrées du volume anglais


Le volume anglais du DHI (DHI-EN) s’articule autour de trois champs principaux observés dans leur forme la plus simple dans certaines entrées telles que :

3 abrasion. The wearing away or rounding of surfaces by friction.

Le mot-vedette, marqué en gras, représente le point d’entrée dans le dictionnaire et sert de base à l’organisation alphabétique du volume. Le mot-vedette, peut être soit simple (‘abrasion’), soit composé (‘absolute error’). Pour les entrées composées (souvent des structures adjectif+nom), l’ordre des mots peut être conservé (‘absolute error’) ou inversé pour mettre en tête le deuxième terme comme point d’accès au dictionnaire. Une notation particulière est alors adoptée (‘acceleration: angular’).

La définition suit immédiatement le mot-vedette et se compose d’une ou de plusieurs phrases non structurées autour de rubriques particulières. Les éventuelles indications de domaine (‘In astronomy’) ou de renvoi (‘Also called achromat’, ‘See abberation of light’) sont intégrées dans la continuité du texte sans marque typographique particulière (mis à part la mise en évidence des références croisées sur lesquelles nous reviendrons).

Un numéro d’ordre, en tête de colonne, identifie l’entrée - ou l’acception quand il y a plusieurs sens associés à une entrée - de façon à ce qu’elle puisse être référencée dans les autres volumes du DHI. Ce numéro est susceptible de varier d’une édition du DHI à une autre, en fonction des opérations d’insertion ou de suppression effectuées sur des entrées.
Tant pour le volume anglais que pour le volume français la partie définition de l’entrée peut devenir plus complexe, soit parce que sont décrits plusieurs sens pour le même mot-vedette :

Aberration. f

2 a) En ASTRONOMIE, […].



b) En optique, […].

soit pour détailler le sens d’une entrée par des indications d’usage :

331 Azimut m géodésique.

Angle dièdre entre les demi-plans limités par la normale à l’ELLIPSOÏDE DE RÉFÉRENCE au point d’observation, et contenant respectivement l’axe de l’ellipsoïde, et le point d’observé ou la direction considérée.



Se compte de 000° à 360° dans le sens des aiguilles d’une montre.

2.2 Entrées du volume français


Les entrées du volume français ont globalement la même structure que celles du volume anglais, avec les différences suivantes :

  • le mot-vedette, ou éventuellement la première partie de celui-ci dans le cas de mots composés est systématiquement suivi d’une indication grammaticale1 (cf. ci-dessus Azimut m géodésique) ;

  • le numéro en tête de ligne indique l’équivalent de l’entrée dans le volume anglais (ou d’une sous-acception de l’entrée).

2.3 Mécanismes de pointage


Par mécanisme de pointage, on signifie ici toute manière de faire référence, à partir d’un mot ou une entrée d’un dictionnaire à une autre entrée décrite ou non dans le même dictionnaire. Le dictionnaire hydrographique réalise différents types de pointages, à savoir :

  • des références à partir de mots apparaissant dans certaines entrées (définitions ou indications d’usage) et définis par ailleurs dans le même volume. Ces références sont marquées en lettres capitales dans les volumes anglais et français ;

  • des références à des termes dont le sens est lié au mot-vedette de l’entrée courante, toujours dans le même volume. Ces références sont indiquées en capitales, précédées d’une mention explicite (En anglais See, See also; En français Voir, Voir aussi) ;

  • des références à des synonymes, indiquées en italiques et précédées d’une mention (On dit aussi…) ;

  • des références du volume français vers le volume anglais, sur la base des numéros d’ordre décrits plus haut.

3. Codage des entrées

3.1 Vers une perspective « éditoriale »


Dans la mise en oeuvre d’une version électronique d’un dictionnaire existant au préalable sous forme papier, il est classique de distinguer trois points de vue pouvant guider ce processus :

  • le point de vue typographique vise à préserver dans les moindres détails la forme (bidimensionnelle) du document initial (ruptures de page, colonage, marques typographiques etc.) ;

  • le point de vue éditorial s’intéresse plutôt à la structure linéaire du dictionnaire en identifiant les entrées et les champs qui les composent dans leur ordre d’apparition, ainsi que l’essentiel des marques de ponctuation qui structurent les champs ;

  • le point de vue lexical se démarque complètement de l’organisation de l’information sur le support papier d’origine pour ne voir dans le dictionnaire qu’une base de données parfaitement structurée ;

Dans le présent rapport, nous envisageons une représentation qui puisse se déduire aisément de la structure actuelle du DHI telle que disponible à partir du traitement de texte (MS Word) qui a servi à l’éditer, tout en passant au niveau d’abstraction nécessaire pour identifier les champs de façon logique (par exemple distinguer que telle information correspond à une indication grammaticale) par opposition à un simple marquage typographique qui pourrait s’avérer ambigu (mot en italique). C’est pourquoi nous envisageons ici une perspective résolument éditoriale, avec pour conséquences :

  • la préservation de l’ordre des entrées et des champs qui les composent dans la représentation informatique ;

  • la transformation de toute indication typographique (italique, gras, majuscule) en marquage explicite de la signification de ces indications ;

  • le maintien de toutes les marques de ponctuation qui ne peuvent se déduire directement de la structure du dictionnaire informatisé.

3.2 Utiliser la TEI : pourquoi ?


L’informatisation du DHI s’inscrit dans un mouvement général de conversion de documents existant initialement sous forme papier et convertis en un format exploitable électroniquement, afin d’en améliorer l’utilisation et en faciliter éventuellement l’évolution. Il est ainsi clair que d’autres entreprises du même type voient le jour de par le monde et qu’il faut tenir compte des choix qui ont été faits et de l’expérience acquise par d’autres. Du point de vue de l’édition électronique de documents, la norme SGML2 s’est imposée comme l’une des meilleures solutions pour représenter de l’information structurée, tant au sein des entreprises qu’au niveau académique. C’est ainsi cette même norme qui a servi de base à une réflexion internationale initiée en 1987 dans le cadre de la TEI, Text Encoding Initiative. Cette initiative regroupe, sous l’égide des principales sociétés savantes du domaine3, la plupart des chercheurs de sciences humaines (linguistes, philologues, historiens, etc.) ayant à manipuler des informations textuelles sous forme électronique. Ce travail véritablement exemplaire de collaboration internationale a mené à la définition d’un ensemble de directives (“TEI guidelines”), sous la forme d’une part d’une DTD modulaire permettant de traiter différents types de documents (prose, poésie, théâtre, transcription d’échanges oraux, dictionnaires…) et d’autre part une documentation précise publiée en 1992 et disponible directement sur le web.

Dans le cas des dictionnaires, les directives sont relativement complètes et couvrent un large ensemble de phénomènes susceptibles d’être rencontrés dans une activité d’informatisation. Parmi ceux-ci, on peut mentionner :



  • la représentation de la structure générale d’un dictionnaire en grandes divisions et entrées, avec de possibles regroupements d’entrées correspondant à des homonymes etc. ;

  • la structure interne des entrées en différentes acceptions (éventuellement hiérarchiques) ;

  • les différentes informations reliées à une entrée ou une acception tels que les informations morphologiques (forme orthographique, phonétique etc.), grammaticales (catégorie syntaxique, genre, nombre etc.), les définitions, les exemples, l’étymologie, les traductions éventuelles dans d’autres langues, les indications d’usage, les références croisées à d’autres entrées, des notes etc.

Ce cadre général présente par ailleurs une grande souplesse grâce à l’utilisation de différents attributs permettant de mieux cibler la représentation sur les caractéristiques propres d’un dictionnaire donné. A titre d’illustration, nous mentionnons le codage possible de l’entrée “dab” du Collin’s Student Dictionary. Voici tout d’abord l’entrée telle qu’elle apparaît dans le dictionnaire :

dab /d*!ab/, dabs, dabbing, dabbed. 1. VB with OBJ and ADJUNCT If you dab a substance onto a surface, you put it there with quick, light, strokes. If you dab a surface with something, you touch it quickly and lightly with that thing. She dabbed some powder on her nose. He dabbed the cuts with disinfectant. 2. COUNT N A dab of something is a small amount of it that is put onto a surface. She returned wearing a dab of rouge on each cheekbone. 3. PHRASE If you are a dab hand at something, you are good at doing it; an informal British use.

Et son codage conforme à la DTD de la TEI. On notera en particulier l’indication des variations flexionnelles du verbe et l’indication d’usage du nom. Par ailleurs, on observe que certains champs peuvent être répétés.







dab

/d*!ab/







dabs

dabbing

dabbed




subst. fém.








VB with OBJ and ADJUNCT

If you dab a substance onto a surface, you put it there with quick, light, strokes. If you dab a surface with something, you touch it quickly and lightly with that thing.

She dabbed some powder on her nose.

He dabbed the cuts with disinfectant.





COUNT N

A dab of something is a small amount of it that is put onto a surface.

She returned wearing a dab of rouge on each cheekbone.





PHRASE

If you are a dab hand at something, you are good at doing it; an informal British use.





3.3 Structure générale du dictionnaire


La TEI structure un document électronique en deux parties principales :

  • d’une part un entête contenant l’ensemble des informations permettant de documenter le texte électronique et éventuellement sa source. Cette partie est identifiée à l’aide de l’élément  ;

  • d’autre part le contenu informationnel proprement dit, inclus dans l’élément .

3.3.1 L’entête TEI pour le DHI


Tout document TEI doit obligatoirement être précédé d’un entête (élément ) qui contient toutes les informations permettant d’identifier et de décrire le contenu informationnel associé. La DTD de la TEI subdivise cet entête en quatre grandes parties :

  • la description du fichier électronique (), avec son titre, son auteur, les personnes ou institutions responsables de la distribution du document, ainsi que toute information relative à la source bibliographique du document quand celui-ci n’est pas « primaire » (c’est le cas de tout document qui résulte de l’électronisation d’une version papier). C’est aussi dans cette partie (élément ) que peuvent être déclarées les contraintes d’accès et de diffusion du document électronique ;

  • une description du contenu informationnel du document (
    ) ;

  • un section éditoriale permettant de préciser les choix de codage spécifiques utilisés pour l’informatisation du document () ;

  • l’ensemble des opérations de révision « majeures » subies par le document ().

Dans un premier temps, l’entête de la version électronique du DHI peut ne contenir que l’élément (au demeurant le seul obligatoire), sous une forme pouvant correspondre à l’exemple qui suit et qui pourra être affinée en interaction avec le BHI :







Dictionnaire Hydrographique International

une version électronique









Organisation Hydrographique Internationale

Dictionnaire Hydrographique

5ème édition


Bureau Hydrographique International

Monaco


1997












3.3.2 Représentation en SGML


La version électronique du DHI peut être structurée sur trois niveaux :

  1. une organisation générale de l’élément en , contenant la préface et l’introduction, , contenant le corps du dictionnaire et , contenant d’éventuels annexe et index ;

  2. un deuxième niveau de découpage de notamment en une suite de divisions (élément
    ) correspondant aux différentes lettres de l’alphabet ;

  3. un découpage des divisions sous la forme de la suite des entrées de dictionnaire correspondantes (suite d’éléments ).















A












A







Abaque.




m






Diagramme indiquant les relations entre plusieurs variables à l'aide de réseaux de courbes graduées appropriées. Il permet de résoudre graphiquement des équations liant ces diverses variables.



On dit aussi monogramme.







Abaque




m






(d'échelle).





Abaque permettant de déterminer l'échelle d'une carte en

un point donné lorsque celle-ci est fortement variable.













Abattre




vi






en carène.





Coucher volontairement un navire sur un bord.











Aberration




f






annuelle.





Voir ABERRATION.










Aberration




f






chromatique.





Voir ABERRATION.










Aberration




f






de sphéricité.





Voir ABERRATION.




Aberration.




f










En ASTRONOMIE, l'aberration de la lumière est le déplacement apparent de la position d'un CORPS CÉLESTE, due à la combinaison de la VITESSE de la lumière et de celle d'un observateur à la surface de la TERRE. L'aberration de la lumière due à la ROTATION de la TERRE sur son AXE est appelée ABERRATION DIURNE. Celle due à la RÉVOLUTION de la TERRE autour du SOLEIL est nommée ABERRATION ANNUELLE.





En optique, défaut affectant un SYSTÈME OPTIQUE lorsque tous les RAYONS LUMINEUX issus d'un point objet ne convergent pas exactement en un point image de position bien définie. L'aberration sphérique provient du fait que les RAYONS ayant utilisé des zones différentes d'une LENTILLE ou d'un MIROIR convergent à des distances différentes de cette LENTILLE ou de ce MIROIR. L'aberration chromatique provient des différences d'INDICE DE RÉFRACTION des verres DU SYSTÈME OPTIQUE en fonction de la couleur de la lumière, imparfaitement corrigées de sorte qu'à chaque couleur correspond un FOYER différent.











Aberration




f






diurne.





Voir ABERRATION.










Aberration




f






radiale.





ABERRATION d'une lentille qu'on corrige sur la PHOTOGRAPHIE en déplaçant l'IMAGE le long d'un rayon partant du POINT PRINCIPAL.











Abioseston.




m






Ensemble des particules détritiques en suspension dans l'eau.









Abrasion.




f






Action d'user par frottements.






Yüklə 187,62 Kb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə