Documents structurés multilingues (XML)


L'objectif principal de ce cours est de donner la capacité à comprendre et à utiliser les possibilités du standard XML et des outils associés. Le cours offre d'abord une vue d'ensemble de l'univers XML. Des exercices pratiques utilisant le logiciel Altova XMLSpy® accompagnent l'exposé des principaux aspects d'XML. À partir de ces bases, plusieurs applications d'XML au domaine du traitement des documents multilingues sont présentées. Les compétences acquises dans ce cours permettent par la suite à chacun de progresser de façon autonome dans l'univers XML en fonction des nécessités de son contexte professionnel.

J'ai créé ce cours en 2002 et je l'ai donné jusqu'à 2007, pour le Master en traduction (cours 2914) et le DESS en traduction assistée par ordinateur (cours 3919).

Andrei Popescu-Belis
Maître assistant (2002-2007), ISSCO/TIM/ETI, Université de Genève
andreipb@free.fr



Présentation

Le cours de Documents structurés multilingues (XML) présente les fondements théoriques du langage extensible de balisage XML (eXtensible Markup Language) puis fournit un panorama de ses applications dans le domaine du traitement informatique des documents multilingues. En effet, loin d'être simplement un nouveau langage de marquage (comme HTML), XML est un méta-langage accompagné d'une série de normes et outils, permettant la gestion des documents structurés en fonction de l'application particulière à laquelle ils sont destinés, souvent définie par un consortium d'utilisateurs.

Le cours présente les bases du standard XML sans faire appel à des connaissances préalables spécialisées en informatique, puisque le cours est destiné aux étudiants post-grades de l'ETI qui suivent le Master en traduction ou le DESS en TAO. Les notions sont essentiellement expliquées par l'exemple, et utilisées dans des travaux pratiques (une heure de cours et une heure de TP hebdomadaires) réalisés principalement à l'aide du logiciel Altova XMLSpy®. Le cours décrit également les principales normes fondées sur XML qui sont utilisées dans le domaine du traitement informatique multilingue, et fournit un aperçu de la variété des documents structurés selon leur champ d'application. L'objectif est ainsi de donner aux futurs professionnels de la langue les moyens théoriques et pratiques d'appliquer ces nouveaux outils, d'être en mesure de suivre leur évolution continue, et de discerner rapidement le potentiel des nouvelles applications pour leurs domaines respectifs.

L'introduction au langage XML, qui occupe la première moitié du cours, aborde essentiellement les aspects suivants : la bonne formation des documents XML, leur validité (basée sur les DTD, avec application aux documents HTML), l'encodage des caractères et le standard Unicode/ISO-10646, les feuilles de style XSLT. La présentation des applications d'XML à la gestion des documents structurés multilingues au sens large aborde les domaines suivants : les ressources informatiques pour la terminologie (MARTIF, XLT, TMF, TBX) ; les ressources linguistiques (XCES) et notamment lexicales (OLIF) ; la localisation (OpenTag, XLIFF) ; et les mémoires de traduction (TMX, SRX). D'autres domaines sont également abordés, comme le catalogage des ressources bibliographiques (Dublin Core, DCMS), la description sémantique des documents (RDF/XML), ainsi que l'échange des informations nouvelles via Internet (RSS).

Évaluation : préparation et soutenance d'un projet personnel approfondissant l'un des thèmes ou notions vus en cours ou présentant une application nouvelle d'XML. La soutenance aura lieu pendant la session d'examens. Le projet doit comporter une introduction théorique du sujet, suivie d'un exemple d'application (la proportion respective de ces deux parties peut varier considérablement). Un résumé de 1-2 pages est à fournir quelques jours avant l'examen. La soutenance consiste en un exposé de 15 minutes environ, suivi de 5 minutes de questions. Un ordinateur avec connexion au réseau sera disponible dans la salle d'examen.


Contenu

 

Cours n°1 - XML et le traitement informatique multilingue


Cours n°2 - Documents XML bien formés


Cours n°3 - Documents XML valides : DTD et schémas XML


Cours n°4 - Validation des documents HTML et XHTML


Cours n°5 - Les jeux de caractères en XML et (X)HTML - la norme Unicode


Cours n°6 - Pages d'accueil en XHTML : révisions. Introduction aux feuilles de style CSS


Cours n°7 - Les feuilles de style : application de CSS aux documents XML


Cours n°8 - Feuilles de style XSLT : transformation de XML en XML ou XHTML


Cours n°9 - Standards basés sur XML: introduction générale et deux exemples d'applications personnalisées


Cours n°10a : présentation de XCES - XML Corpus Encoding Standard


Cours n°10b - Standards pour la description sémantique et les métadonnées : RDF et Dublin Core


Cours n°11 - XML pour la gestion des actualités sur Internet : utilisation de RSS


Cours n°12 - Standards basés sur XML pour la traduction et la localisation


Cours n°13 - Normes basées sur XML pour la gestion de ressources terminologiques et lexicales