UIMA peut-il réconcilier le text-mining et les outils sémantiques ?

… peut être.

UIMA (Unstructured Information Management Architecture) est le framework de traitement des données non structurées d’abord lancé par IBM, dont l’architecture est en cours de normalisation à l’OASIS. L’objectif de ce framework est de décrire des étapes de traitement d’un document non structuré (texte, image, vidéo, etc.), en vue d’en extraire de façon automatique des informations structurées. UIMA ne décrit par contre ni comment ces informations doivent être extraites du texte, ni la façon de s’en servir.

Si UIMA est extrêmement séduisant de par son architecture et sa prise en compte de nombreuses problématiques de façon native (réutilisation de composants, montée en charge et déploiement distribué, prise en compte des erreurs, etc.), il reste encore purement orienté vers les problématiques du text-mining pur, et n’a pas (ou pas encore) amorcé le virage des ontologies et des métadonnées contrôlées; le fossé entre l’information (brute) extraite du texte et une ontologie ou une base RDF à alimenter reste à faire par le développeur. En particulier, si ce framework avait pris en compte les besoins d’enrichissement d’ontologies ou de population de bases RDF, il n’aurait pas contraint le développeur à définir un « schéma d’annotation » avant tout développement (le schéma d’annotation est la structure de données qui sera manipulée durant tout le processus de traitement), mais aurait défini celui-ci sous forme d’un méta-modèle simple de type triplets RDF, de façon à pouvoir s’interfacer de façon générique avec les ontologies.

Signe encourageant, depuis peu (fin 2006), UIMA est maintenant en incubation à la fondation Apache . Gageons que cela va contribuer à faire grossir la communauté autour de ce composant.

Mais ne soyons pas trop rêveurs… UIMA va dans le bon sens, mais si cela donne les fondations pour construire un pont par dessus le fossé qui sépare les outils de traitement automatique de la langue et les outils sémantiques, le fossé, lui, reste bien là, et n’a pas diminué de largeur pour autant. Cet article (de Chris Welty and J. William Murdock) expose 5 enjeux de la connexion entre « Information Extraction » (IE – les outils de text-mining) et « Knowledge Integration » :

  1. Les systèmes à base de connaissances (et particulièrement les systèmes qui font du raisonnement) n’aiment pas les inconsistances, alors que les systèmes d’IE sont notoirement amenés à produire de l’information fausse (et quand bien même ils ne la produirait pas eux-même, ce serait les textes traités qui pourraient se contredire entre eux !);
  2. L’IE extrait peu de connaissance d’un document par rapport à la somme de connaissances qu’un humain en déduirait; (d’où la nécessité d’une sorte de « pool de connaissances communes », d’un « socle de connaissances » disponible de base dans le système de raisonnement)
  3. L’IE a encore du mal a extraire des relations entre entités; or ce sont ces relations qui ont le plus de valeur ajoutée dans un système à base de connaissances;
  4. La connexion entre l’IE et les systèmes à base de connaissance ne peut pas se faire sans une étape de résolution des co-références (ou comment savoir que 2 mots trouvés dans le texte désignent la même chose);
  5. Les systèmes de raisonnements à base de connaissance ne sont pas suffisamment scalables par rapport aux systèmes d’IE;

Mondeca travaille actuellement, dans le cadre du projet européen TAO, à fournir un socle UIMA open-source permettant de réaliser plus facilement le passage des résultats du text-mining vers de l’information sémantiquement structurée.

1 Responses to UIMA peut-il réconcilier le text-mining et les outils sémantiques ?

  1. […] UIMA peut-il réconcilier le text-mining et les outils sémantiques ? (Towards Knowledge Acquisition from Information Extraction) […]

Laisser un commentaire