Utilisation de la librairie tenet (modules config, structure et inference) dans l'interface de démo TétrasLab

Le script python utilisé pour l'interface de démonstration TétrasLab utilise actuellement des fonctions spécifiques pour exécuter le processus d'extraction.

En l'état, il est donc tout à fait possible d'avoir des incohérences de comportements entre les tests réalisés en local via le script run_extraction.py de tenet, et les résultats obtenus via l'interface de démonstration. Cette situation s'est déjà produite, avec parfois des anomalies constatées tardivement, et dont la correction a nécessité plusieurs jours. Pour limiter ce risque, et tendre vers de meilleurs pratiques, il est préférable d'utiliser les mêmes fonctions dans les deux scripts.

Toutes les fonctions utiles doivent être regroupées dans la librairie (dossier lib) de tenet, en créant les modules correspondant aux différentes étapes d'exécution.

Le processus d'extraction s'applique maintenant en trois étapes :

le chargement de la configuration
la préparation de la structure de travail
l'application des schémas d'extraction par inférence sur la structure de travail

Ces trois étapes sont couvertes par les modules config, structure et inference. Elles peuvent être exécutées avec les script run_extraction.py. La configuration est définie dans le fichier config.xml, et les références vers les données d'entrée et de sortie sont précisées dans le script run_extraction.py. La structure de travail regroupe toutes les structures nécessaires : schéma UNL-RDF, structure de configuration générale (configStructure), structure des filets sémantiques (netStructure), structure linguistique (linguisticStructure), schéma des graines d'extraction (seedSchema) et les schémas de transduction. Une fois la structure créée, l'inférence est appliquée en utilisant le moteur SHACL.

Edited Apr 05, 2022 by Aurélien Lamercerie