|
|
|
|
|
# Outil CLI
|
|
|
|
|
|
Le script Bash `mcli` permet de centraliser des commandes courantes, notamment liées à l'indexation ou l'extraction. Il est à la racine du répertoire git Macao-Legacy.
|
|
|
|
|
|
```sh
|
... | ... | @@ -53,17 +56,13 @@ Your branch is up to date with 'origin/extraction'. |
|
|
nothing to commit, working tree clean
|
|
|
```
|
|
|
|
|
|
Toutes ces variables d'environnement ont une valeur par défaut, mais **héritent de leur valeur existante** si définie, ce qui permet de paramétrer `mcli`
|
|
|
|
|
|
|
|
|
|
|
|
## Indexation et comptage
|
|
|
`mcli` centralise quelques commandes utilisées pour explorer les sources de MACAO. Leurs résultats sont écrits dans `$INDEXES_DIR` (par défault `result/<version>/indexes`)
|
|
|
- `index-extensions` génère l'index des fichiers triés par extension (6881597beece6d9a1b7a37fb3a313a19d32c49e9), vers `index_per_extension.txt`
|
|
|
|
|
|
`mcli index-extensions` génère l'[index des fichiers triés par extension](https://gitlab.tetras-libre.fr/macao/macao-legacy/-/commit/6881597beece6d9a1b7a37fb3a313a19d32c49e9 "Indexation Macao12 par extension de fichier pour comptage"), vers `$INDEXES_DIR/index_per_extension.txt`
|
|
|
|
|
|
`mcli count-streams` compte les streams audio dans chaque SWF, vers `$INDEXES_DIR/swf_streams_count.txt` ; ce comptage peut être assez long (1-2 min).
|
|
|
- `count-streams` compte les streams audio dans chaque SWF, vers `swf_streams_count.txt` ; ce comptage peut être assez long (1-2 min).
|
|
|
|
|
|
`mcli count-all` se base sur ces index pour générer un compte des nombreux types d'objets de Macao (cf [Concepts et objets de MACAO](Concepts-et-objets-de-MACAO)). Avec `--force`, les index sont régénérés du même coup.
|
|
|
- `count-all` se base sur ces index pour générer un compte des nombreux types d'objets de Macao (cf [Concepts et objets de MACAO](Concepts-et-objets-de-MACAO)). Avec `--force`, les index sont régénérés du même coup.
|
|
|
|
|
|
|
|
|
## Extraction / conversion
|
... | ... | @@ -77,3 +76,13 @@ L'extraction des audios à partir des fichiers Flash se fait séparément (et sa |
|
|
|
|
|
### Debugging
|
|
|
`mcli` passe au programme de conversion des variables d'environnement qui varient selon la version. Pour débuguer un cas précis, `mcli setup-debug` ne lance rien mais écrit ces variables dans un fichier `tetras_extraction/script/.env` (ignoré par Git). Le debugger ou IDE peut ainsi être configuré pour sourcer ce fichier à l'exécution.
|
|
|
|
|
|
|
|
|
# Résultats d'extraction
|
|
|
Le dossier `tetras_extraction/result` contient 3 dossiers, qui correspondent respectivement au résultat d'extraction de Macao 12, Macao 3, et des deux réunis.\
|
|
|
Chacun suit la même structure:
|
|
|
- `macao_content.ttl` : graphe RDF de la phase d'extraction
|
|
|
- `macao_full.ttl` : graphe RDF après la phase de transformation, avec schéma et inférences.
|
|
|
- `activities` : contenu pour Macao-Hugo, résultat de la phase d'export
|
|
|
- `audio` : audios extraits des fichiers Flash *(sujet à changement selon #30)*
|
|
|
- `indexes` : résultats d'indexation lors de l'exploration des sources |
|
|
\ No newline at end of file |