Chaque répertoire d'un auteur (voir le fichier **liste_des_recueils.txt** pour la liste des codes
des auteurs) contient un ou plusieurs répertoires correspondant chacun à une pièce de théâtre
ou à un recueil de poésies.
▫ Les répertoires (voir le document **liste_des_recueils.txt** pour le code des auteurs et des recueils) :
* Code à 3 lettres pour les pièces de théâtre d'un auteur
(exemple : **MOL** pour les pièces de théâtre de *Molière*)
* Code à 3 lettres+soulignement+numéro d'ordre pour les recueils de poésies d'un auteur
(exemple : **BAU_1** pour le premier recueil de poésie de *Baudelaire*).
▫ Chaque répertoire contient :
* 3 sous-répertoires :
+**documents** : contient le ou les fichiers des éditions de référence (pdf, djvu...).
+**notes** : contient le fichier de prise de notes lors de la préparation et de l'analyse du texte
(Ce répertoire est vide dans la version mise en dépôt).
+**origine** : contient le fichier ou les fichiers à l'origine du texte numérisé.
* Un fichier **numéro.txt** qui contient un nombre incrémentiel pour la numérotation automatique des poèmes du recueil.
Ce numéro permet d'avoir une numérotation continue des poèmes d'un auteur.
* Le fichier xml du corpus initial : nom du répertoire suivi de _0.xml
(exemple : **BAU_1_0.xml**). C'est ce fichier qu'il faut éventuellement modifier si une correction s'impose.
Le répertoire **corpus** est à copier dans le dossier **Malherbe_Corpus** du répertoire des programmes d'analyse (voir le dépôt **Programmes** du projet **Malherbe**).
Chaque répertoire d'une pièce de théâtre ou d'un recueil de poésies contient trois fichiers :
* Le texte au format XML_TEI
* Le texte au format TXT
* Une table des matières
Le texte au format TXT est généré automatiquement à partir du fichier
XML au moyen du script **faire_texte_brut.sh**.
La table des matières est générée automatiquement à partir du fichier