Extraction et conversion de MACAO
Dépendances
- Python 3.11 ou supérieur
- Java 11 ou supérieur (pour la phase d'export qui utilise Corese-Python via Py4j)
Setup
ℹ️ Le script wrapper
mcli
fournit des commandes dédiées pour initialiser l'environnement et lancer les extracteurs. Sa documentation est sur la page de wiki Extraction et CLI.
Le reste de ce README décrit la méthode manuelle.
Le script setup.sh
se charge d'initialiser l'environnement Python
./setup.sh
Ensuite pour chaque shell, il est nécessaire d'activer l'environnement avec source venv/bin/activate
.
main.py
est le point d'entrée du processus de conversion complet, qui produit une arborescence de fichiers pour Macao-Hugo. Chacune des trois phases de conversion peut aussi être lancée séparément :
-
extract.py
-> Extraction des contenus textuels MACAO vers une représentation RDF/Turtle -
transform.py
-> Transformation, notamment inférence sur RDFS, nettoyage HTML, identification des ressources liées (images, Flash...) -
export.py
-> Export vers le format Hugo+SurveyJS
Ces points d'entrée ne prennent pas d'arguments mais dépendent de quelques variables d'environnement. L'outil mcli
s'en occuper, notamment avec la commande setup-debug
qui permet de préparer un fichier .env
pour les outils externes (IDE, debuggers...).
Protégé
Le fichier RDF/Turtle result/macao_content.ttl
généré est une ontologie qui peut être ouverte avec
Protégé (File -> Open).
Si le logiciel se plaint qu'il manque un import, choisir ../macao_schema.ttl
.