diff --git a/README.md b/README.md index 03e74ac7b50d6f35619adbc84bbd60eeb3c8c7ad..2225a923704080a41b78b3605aa6e017e51808c4 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,8 @@ # Macao Legacy -Code source et contenus de MACAO Legacy + code d'extraction et conversion semi-automatique des contenus. +Code source et contenus de MACAO Legacy. + +Le code d'extraction et conversion semi-automatique des contenus est dans `tetras_extraction/script` avec [un README dédié](tetras_extraction/script/README.md) Le nouveau projet basé sur Hugo est disponible ici : https://gitlab.tetras-libre.fr/macao/macao-hugo diff --git a/tetras_extraction/script/README.md b/tetras_extraction/script/README.md index 9cfa2903c9824b540d70a2b85b7510df06b35454..7e5d6e04ea7fc11d02bf2b42e9786cdf74113089 100644 --- a/tetras_extraction/script/README.md +++ b/tetras_extraction/script/README.md @@ -9,21 +9,17 @@ Ensuite pour chaque shell, il est nécessaire de `source venv/bin/activate` avan de pouvoir lancer Python. ```sh -python src/extract.py +python src/main.py ``` -`extract.py` est le point d'entrée de l'extracteur, qui produit une représentation -RDF des contenus textuels extraits de Macao12. -Il accepte des paramètres sous forme de variables d'environnement: -- `MACAO_ROOT`: Répertoire racine du dépôt. -Par défaut `"../../.."` -- `SOURCES_DIR`: Répertoire source Macao (celui avec le `imsmanifest.xml`) -Par défaut `"../../../Basilisk/MACAO/macao_12"` -- `RESULTS_DIR`: Répertoire résultat de l'extraction -Par défaut `"../result"` -- `RESULT_FILE`: Fichier résultat RDF/Turtle -Par défaut `"../result/macao_content.ttl"` -- `SCHEMA_FILE`: Fichier schéma RDF -Par défaut `"../macao_schema.ttl"` +`main.py` est le point d'entrée du processus de conversion complet, qui produit une arborescence de fichiers pour Macao-Hugo. Chacune des trois phases de conversion peut aussi être lancée séparément : +- `extract.py` -> Extraction des contenus textuels MACAO vers une représentation RDF/Turtle +- `transform.py` -> Transformation, notamment inférence sur RDFS, nettoyage HTML, identification des ressources liées (images, Flash...) +- `export.py` -> Export vers le format Hugo+SurveyJS + +Ces points d'entrée ne prennent pas d'arguments mais dépendent de quelques variables d'environnement. L'outil [`mcli`](../../mcli) s'en occupe, voir sa documentation sur le [wiki](https://gitlab.tetras-libre.fr/macao/macao-legacy/-/wikis/Extraction-et-CLI) (notamment la commande `setup-debug` qui permet de préparer un fichier `.env` pour les outils externes). + +### Dépendances externes +La phase d'export utilise [Corese-Python](https://github.com/Wimmics/corese/blob/master/docs/corese-python/Corese-library%20with%20Python.md) via Py4j, et nécessite donc un environnement **Java 11**. ## Protégé