diff --git a/Gold corpus/README.md b/Gold corpus/README.md new file mode 100644 index 0000000000000000000000000000000000000000..9072ab501e071a84c20d5a4ac580e78936afdfff --- /dev/null +++ b/Gold corpus/README.md @@ -0,0 +1,81 @@ +**FRENCH VERSION** + +*Introduction* + +- La plupart des textes du corpus est distribuée sous licence CC BY-NC-SA 4.0 (Attribution / NonCommercial / ShareAlike / 4.0 Internal) <https://creativecommons.org/licenses/by-nc-sa/4.0/>. Certains textes cependant, toujours protégés par le droit d'auteur, ne peuvent cependant être partagés librement dans ce répertoire. Lorsque le projet MICLE n'a pas l'autorisation de partager les textes, nous ne communiquerons ceux-ci qu'avec leurs métadonnées, sans les mots-formes, afin d'autoriser la recherche, ou bien en contexte limité, sur le portail TXM-CRISCO <https://txm-crisco.huma-num.fr/txm/>, selon l'art. L122-5CPI de la législation française, de laquelle dépend l'hébergement du projet. + +*Corpus Gold* + +- La version Gold du corpus MICLE <https://www.unicaen.fr/projet_de_recherche/micle/> est composée de X textes ancien français (de Normandie et anglo-normand) et de X textes en ancien vénitien. Chaque texte a son propre dossier du type "DATE_Nom", dans lequel se trouve différents sous-dossiers par format d'encodage. + +*Annotation de la partie française* + +- La partie française du corpus a été annotée automatiquement par HOPS <https://github.com/hopsparser/hopsparser> (Grobl & Benoît, 2021, https://hal.archives-ouvertes.fr/hal-03223424/file/HOPS_final.pdf). L'annotation a été corrigée manuellement pour les UPOS, et les lemmes ont été annotées grâce aux dictionnaires PRESTO <https://presto.ens-lyon.fr/> et AND <https://anglo-norman.net/>. L'étiquetage UD (<https://universaldependencies.org/format.html>) a été ensuite converti dans les formats PRESTO et UPENN <https://www.ling.upenn.edu/hist-corpora/annotation/index.html>. Les outils ayant servi à la conversion sont disponibles dans le dossier correspondant. Les trois jeux d'étiquettes (UD, UPENN, PRESTO) autorisent différents degrés d'analyse et leur combinaison permet d'affiner les résultats des questions de recherche. + +*Annotation de la partie vénitienne* + +- La partie vénétienne a été annotée manuellement, en l'absence de documentation suffisante pour cette langue, directement dans le système UPENN. Les étiquettes ont ensuite été converties selon le modèle UD pour servir de futur modèle d'entraînement, avec quelques indications syntaxiques. Cette partie du travail durera jusqu'à la fin du projet MICLE, et nous communiquerons ici les données d'entraînement pour les futurs projets les exploitant. + +*Édition numérique* + +- Pour l'édition numérique des textes, les choix de transcriptions et de découpages des phrases, merci de vous rendre sur la page de documentation générale sur le site du projet : <https://www.unicaen.fr/projet_de_recherche/micle/> ou sur le portail TXM-Crisco <https://txm-crisco.huma-num.fr/txm/>. + +*Formats de fichier* + +- La version XML-TEI est la version "base" des textes du corpus. Elle comporte toutes les informations métalinguistiques que l'on retrouve dans les autres formats, avec un *header* détaillant l'ensemble des caractéristiques de l'édition et du texte concerné. Merci de vous y reporter en cas de questions sur l'établissement des textes. Pour faciliter leur navigation, les XML ont été encodés avec les niveaux book/chapter/section/paragraph/sentence/word, chacun numéroté continuement et avec réinitialisation du compteur à chaque nouvel élément parent. Dans les cas où le texte n'a qu'un niveau de structure, celui-ci a été considéré comme une @section, et nous avons rajouté des divisions @chapter et @book "vides" pour conserver une hiérarchisation homogène de tous les textes du corpus. + +- Les versions CONLLU, POS et éventuellement PSD des textes ont été générées à partir de cette version base. Des informations relatives au projet MICLE sont présentes en entête, avec le titre, langue et date du texte concerné. Également, la numérotation des phrases dans ces versions {Sentence X-X-X-X-X} (POS) #sent_id="X-X-X-X-X" (CONLLU) correspondent au XPath de la phrase dans l'XML-TEI. Par exemple, la phrase "1-27-1-6-1" correspond à la première phrase du sixième paragraphe de la première section du vingt-septième chapitre du premier libre. Cette numérotation, homogène entre toutes les versions du fichier, facilite la recherche. + +*Accès via TXM-CRISCO* + +- La version XML-TEI du corpus a été versée sur le portail TXM-CRISCO <https://txm-crisco.huma-num.fr/txm/> dans le dossier "MICLE", pour permettre la lecture au kilomètre (exception faite des textes protégés par le droit d'auteur, voir *supra*) et la recherche grâce aux requêtes CQL <https://www.sketchengine.eu/documentation/corpus-querying/>. + +*Annotation syntaxique* + +- Le CONLL et l'XML-TEI proposent une analyse syntaxique en dépendance des phrases du corpus. Les versions PSD et leurs conversion en XML-TEI proposent une analyse en constituants sur une partie des textes : la numérotation des phrases et le XPATH sont identiques avec les versions complètes, pour faciliter leur recherche. Au regard de la structure hiérarchique de l'XML-TEI "base", on trouve deux éléments supplémentaires, \<cl\> (pour "proposition") et \<phr\> ("syntagme"), avec différents attributs. L'XML-TEI "Part/Parsed" a été versé à part sur le portail TXM-CRISCO pour ne pas interférer avec les recherches dans le texte intégral. + +*Informations complémentaires* + +- Pour les détails regardant les jeux d'étiquettes et les formats employés pour ce corpus, merci de visiter les différents liens présents ici. + +---- + +**ENGLISH VERSION** + +*Introduction* + +- Most of the texts in the corpus are distributed under the CC BY-NC-SA 4.0 (Attribution / NonCommercial / ShareAlike / 4.0 Internal) license <https://creativecommons.org/licenses/by-nc-sa/4.0/>. Some texts, however, are still protected by copyright and cannot be shared freely in this directory. When the MICLE project does not have permission to share the texts, we will only communicate them with their metadata, without the words, in order to allow research, or in limited context, on the TXM-CRISCO portal <https://txm-crisco.huma-num.fr/txm/>, according to art. L122-5CPI of the French legislation, on which the hosting of the project depends. + +*Gold corpus* + +- The Gold version of the MICLE <https://www.unicaen.fr/projet_de_recherche/micle/> corpus is composed of 4 Old French texts (from Normandy and Anglo-Norman) and 5 Old Venetian texts. Each text has its own folder of type "DATE_Nom", in which there are different subfolders by encoding format. + +*French annotation* + +- The French part of the corpus was automatically annotated by HOPS <https://github.com/hopsparser/hopsparser> (Grobl & Benoît, 2021, https://hal.archives-ouvertes.fr/hal-03223424/file/HOPS_final.pdf). The annotation was manually corrected for UPOS, and the lemmas were annotated using PRESTO <https://presto.ens-lyon.fr/> and AND <https://anglo-norman.net/> dictionaries. The UD tagset (<https://universaldependencies.org/format.html>) was then converted into PRESTO and UPENN <https://www.ling.upenn.edu/hist-corpora/annotation/index.html> formats. The tools used for the conversion process will be available in the corresponding folder. The three tagsets (UD, UPenn and Presto) are used for the French corpus as each offers a slightly different level of analysis and combining them permits finetuning queries depending on the research question. + +*Venetian annotation* + +- The Venetian part was annotated manually, in the absence of sufficient documentation for this language, directly in the UPENN system. The labels were then converted to the UD model to serve as a future training model, with some syntactic indications. This part of the work will last up until the end of the MICLE project, and we will communicate here the training data for future projects using them. + +*Digital edition* + +- For digital editing of the texts, choices of transcriptions and sentence breakdowns, please check the documentation page on the main website: <https://www.unicaen.fr/projet_de_recherche/micle/>. + +*File format* + +- The XML-TEI version is the "main" version of the texts in the corpus. It includes all the metalinguistic information found in the other formats, with a *header* detailing all the characteristics of the edition and the text concerned. Please refer to it if you have any questions about the editing and encoding of the texts. For ease of navigation, the XML has been encoded with the levels book/chapter/section/paragraph/sentence/word, each continuously numbered and with a resetted counterat each new parent element. In cases where the text has only one level of structure, it was considered as a @section, and we added "empty" @chapter and @book divisions to keep a homogeneous hierarchy of all the texts of the corpus. + +- The CONLLU, POS and eventually PSD versions of the texts were generated from this main version. Informations about the MICLE project is included in the header, with the title, language and date of the text. Also, the sentence numbering in these versions {Sentence X-X-X-X-X} (POS) #sent_id="X-X-X-X-X" (CONLLU) corresponds to the XPath in the XML-TEI. For example, the sentence "1-27-1-6-1" corresponds to the first sentence of the sixth paragraph of the first section of the twenty-seventh chapter of the first book of this specific text. This numbering, homogeneous between all the versions of the file, facilitates the search. + +*Access via TXM-CRISCO* + +- The XML-TEI version of the corpus has been uploaded to the TXM-CRISCO portal <https://txm-crisco.huma-num.fr/txm/> in the "MICLE" folder, to allow reading by the mile (except for copyrighted texts, see *supra*) and searching through the use of the CQL language <https://www.sketchengine.eu/documentation/corpus-querying/>. + +*Syntactic parsing* + +- The CONLL and the main XML-TEI files offer a dependencies analysis on the sentences of the corpus. The PSD versions and their conversions into XML-TEI propose a constituent analysis. The numbering of the sentences and the XPATH are identical with the main versions, to facilitate their research. With regard to the hierarchical structure of the "base" XML-TEI, there are two additional elements, \<cl\> (for "clause") and \<phr\> ("phrase"), with different attributes. The XML-TEI "Part/Parsed" has been placed separately on the TXM-CRISCO portal so as not to interfere with full text searches. + +*Further info* + +- For details regarding the tag sets and formats used for this corpus, please visit the various links here. \ No newline at end of file diff --git a/README.md b/README.md index ba2b503463a6facb579f9fe567e3e2117e2719de..e246eac30994fe12004e92000676a94fbd4ea03f 100644 --- a/README.md +++ b/README.md @@ -1,83 +1,96 @@ **MICLE: Gold Corpus** / V. 0.1., XXX 2022. -**FRENCH VERSION** +---- +---- -*Introduction* +**VERSION FRANÇAISE** -- La plupart des textes du corpus est distribuée sous licence CC BY-NC-SA 4.0 (Attribution / NonCommercial / ShareAlike / 4.0 Internal) <https://creativecommons.org/licenses/by-nc-sa/4.0/>. Certains textes cependant, toujours protégés par le droit d'auteur, ne peuvent cependant être partagés librement dans ce répertoire. Lorsque le projet MICLE n'a pas l'autorisation de partager les textes, nous ne communiquerons ceux-ci qu'avec leurs métadonnées, sans les mots-formes, afin d'autoriser la recherche, ou bien en contexte limité, sur le portail TXM-CRISCO <https://txm-crisco.huma-num.fr/txm/>, selon l'art. L122-5CPI de la législation française, de laquelle dépend l'hébergement du projet. +---- -*Corpus Gold* +**INFORMATIONS GÉNÉRALES** -- La version Gold du corpus MICLE <https://www.unicaen.fr/projet_de_recherche/micle/> est composée de X textes ancien français (de Normandie et anglo-normand) et de X textes en ancien vénitien. Chaque texte a son propre dossier du type "DATE_Nom", dans lequel se trouve différents sous-dossiers par format d'encodage. +**Site institutionnel** -*Annotation de la partie française* +<https://www.unicaen.fr/projet_de_recherche/micle/> -- La partie française du corpus a été annotée automatiquement par HOPS <https://github.com/hopsparser/hopsparser> (Grobl & Benoît, 2021, https://hal.archives-ouvertes.fr/hal-03223424/file/HOPS_final.pdf). L'annotation a été corrigée manuellement pour les UPOS, et les lemmes ont été annotées grâce aux dictionnaires PRESTO <https://presto.ens-lyon.fr/> et AND <https://anglo-norman.net/>. L'étiquetage UD (<https://universaldependencies.org/format.html>) a été ensuite converti dans les formats PRESTO et UPENN <https://www.ling.upenn.edu/hist-corpora/annotation/index.html>. Les outils ayant servi à la conversion sont disponibles dans le dossier correspondant. Les trois jeux d'étiquettes (UD, UPENN, PRESTO) autorisent différents degrés d'analyse et leur combinaison permet d'affiner les résultats des questions de recherche. +**Description du projet** -*Annotation de la partie vénitienne* +*Projet collaboratif entre l’université de Caen Normandie (France) et Goethe Universität Frankfurt am Main (Allemagne).* -- La partie vénétienne a été annotée manuellement, en l'absence de documentation suffisante pour cette langue, directement dans le système UPENN. Les étiquettes ont ensuite été converties selon le modèle UD pour servir de futur modèle d'entraînement, avec quelques indications syntaxiques. Cette partie du travail durera jusqu'à la fin du projet MICLE, et nous communiquerons ici les données d'entraînement pour les futurs projets les exploitant. +Le projet MICLE (*MICro-indicateurs de L’Évolution grammaticale : un modèle multifactoriel de la perte de V2 en italien et en français anciens*) se propose d’accomplir les objectifs principaux suivants : -*Édition numérique* + - constituer un corpus de textes des mêmes types pour le français de Normandie et la langue vénitienne, des origines au 17e siècle ; + - d’expliquer le changement syntaxique dans la forme de la phrase dans ces deux variétés romanes pour la période investiguée ; + - d’élaborer un modèle reliant le changement grammatical à l’acquisition du langage, pour faire avancer les pratiques méthodologiques et les perspectives conceptuelles dans le domaine. + +Dates : 01/06/2021 - 31/05/2024 -- Pour l'édition numérique des textes, les choix de transcriptions et de découpages des phrases, merci de vous rendre sur la page de documentation générale sur le site du projet : <https://www.unicaen.fr/projet_de_recherche/micle/> ou sur le portail TXM-Crisco <https://txm-crisco.huma-num.fr/txm/>. +Financement : ANR-DFG (<https://anr.fr/fr/projets-finances-et-impact/projets-finances/projet/funded/project/anr-20-fral-0001/>) -*Formats de fichier* +**Corpus** -- La version XML-TEI est la version "base" des textes du corpus. Elle comporte toutes les informations métalinguistiques que l'on retrouve dans les autres formats, avec un *header* détaillant l'ensemble des caractéristiques de l'édition et du texte concerné. Merci de vous y reporter en cas de questions sur l'établissement des textes. Pour faciliter leur navigation, les XML ont été encodés avec les niveaux book/chapter/section/paragraph/sentence/word, chacun numéroté continuement et avec réinitialisation du compteur à chaque nouvel élément parent. Dans les cas où le texte n'a qu'un niveau de structure, celui-ci a été considéré comme une @section, et nous avons rajouté des divisions @chapter et @book "vides" pour conserver une hiérarchisation homogène de tous les textes du corpus. +Ayant pour but de développer et de tester un modèle multifactoriel de l’évolution de l’ordre des mots, le projet MICLE élabore un corpus bilingue entre deux variétés romanes ayant subi des développements comparables, le vénitien et le français de Normandie. -- Les versions CONLLU, POS et éventuellement PSD des textes ont été générées à partir de cette version base. Des informations relatives au projet MICLE sont présentes en entête, avec le titre, langue et date du texte concerné. Également, la numérotation des phrases dans ces versions {Sentence X-X-X-X-X} (POS) #sent_id="X-X-X-X-X" (CONLLU) correspondent au XPath de la phrase dans l'XML-TEI. Par exemple, la phrase "1-27-1-6-1" correspond à la première phrase du sixième paragraphe de la première section du vingt-septième chapitre du premier libre. Cette numérotation, homogène entre toutes les versions du fichier, facilite la recherche. +Le corpus des textes vise à permettre de se rapprocher de la langue de tous les jours à travers le temps. Allant des plus anciens témoins jusqu’au 17e siècle, ces textes appartiennent aux mêmes deux types non-littéraires, ce qui permet de minimiser les distorsions que créerait l’assemblage de textes divers. Les types retenus sont : -*Accès via TXM-CRISCO* + - les pièces de procès ; + - les correspondances personnelles et d’affaires -- La version XML-TEI du corpus a été versée sur le portail TXM-CRISCO <https://txm-crisco.huma-num.fr/txm/> dans le dossier "MICLE", pour permettre la lecture au kilomètre (exception faite des textes protégés par le droit d'auteur, voir *supra*) et la recherche grâce aux requêtes CQL <https://www.sketchengine.eu/documentation/corpus-querying/>. +parce qu’ils sont susceptibles de contenir des témoignages et des traces de dialogues. Pourtant, nous ne négligeons pas les spécificités des textes de chaque langue. Le corpus vénitien comprendra notamment des statuts et autres textes juridiques qui éclairent le système du gouvernement dans les différentes régions sous le contrôle vénitien ; le corpus français, pour sa part, donnera de l’importance aux procès en sorcellerie en Normandie, depuis Jeanne d’Arc jusqu’à Madeleine Bavent. -*Annotation syntaxique* +Numérisés et balisés en suivant les préceptes de la TEI (Text Encoding Initiative), lemmatisés et annotés afin d’optimiser la recherche, les textes seront mis à la disposition des chercheurs et du public sur le site du projet, actuellement en cours de construction, et sur ce serveur GIT. -- Le CONLL et l'XML-TEI proposent une analyse syntaxique en dépendance des phrases du corpus. Les versions PSD et leurs conversion en XML-TEI proposent une analyse en constituants sur une partie des textes : la numérotation des phrases et le XPATH sont identiques avec les versions complètes, pour faciliter leur recherche. Au regard de la structure hiérarchique de l'XML-TEI "base", on trouve deux éléments supplémentaires, \<cl\> (pour "proposition") et \<phr\> ("syntagme"), avec différents attributs. L'XML-TEI "Part/Parsed" a été versé à part sur le portail TXM-CRISCO pour ne pas interférer avec les recherches dans le texte intégral. +**Équipe** -*Informations complémentaires* +- Porteurs du projet: Pierre Larrivée (CRISCO · université de Caen Normandie · France) & Cécilia Poletto (Institut für Romanische Sprachen und Literaturen · Goethe Universität · Frankfurt, Germany) -- Pour les détails regardant les jeux d'étiquettes et les formats employés pour ce corpus, merci de visiter les différents liens présents ici. +- Post-doctorants du projet: Mathieu Goux (CRISCO · université de Caen Normandie · France), Francesco Pinzin (Institut für Romanische Sprachen und Literaturen · Goethe Universität · Frankfurt, Germany) & Natlia Romanova (CRISCO · université de Caen Normandie · France) + +- Stagiaires (2022) : Agathe Aubert, Lucy Marie-Leblanc, Marie Picart & Valentin Simenel (Unicaen). ---- **ENGLISH VERSION** -*Introduction* +---- -- Most of the texts in the corpus are distributed under the CC BY-NC-SA 4.0 (Attribution / NonCommercial / ShareAlike / 4.0 Internal) license <https://creativecommons.org/licenses/by-nc-sa/4.0/>. Some texts, however, are still protected by copyright and cannot be shared freely in this directory. When the MICLE project does not have permission to share the texts, we will only communicate them with their metadata, without the words, in order to allow research, or in limited context, on the TXM-CRISCO portal <https://txm-crisco.huma-num.fr/txm/>, according to art. L122-5CPI of the French legislation, on which the hosting of the project depends. +**BASIC INFORMATION** -*Gold corpus* +**Institutional website** -- The Gold version of the MICLE <https://www.unicaen.fr/projet_de_recherche/micle/> corpus is composed of 4 Old French texts (from Normandy and Anglo-Norman) and 5 Old Venetian texts. Each text has its own folder of type "DATE_Nom", in which there are different subfolders by encoding format. +<https://www.unicaen.fr/en/projet_de_recherche/micle-2/> -*French annotation* +**Project description** -- The French part of the corpus was automatically annotated by HOPS <https://github.com/hopsparser/hopsparser> (Grobl & Benoît, 2021, https://hal.archives-ouvertes.fr/hal-03223424/file/HOPS_final.pdf). The annotation was manually corrected for UPOS, and the lemmas were annotated using PRESTO <https://presto.ens-lyon.fr/> and AND <https://anglo-norman.net/> dictionaries. The UD tagset (<https://universaldependencies.org/format.html>) was then converted into PRESTO and UPENN <https://www.ling.upenn.edu/hist-corpora/annotation/index.html> formats. The tools used for the conversion process will be available in the corresponding folder. The three tagsets (UD, UPenn and Presto) are used for the French corpus as each offers a slightly different level of analysis and combining them permits finetuning queries depending on the research question. +*A collaborative project between the University of Caen (France) and Goethe University, Frankfurt am Main (Germany).* -*Venetian annotation* +The MICLE (*Micro-cues of language evolution: A Multifactorial model of V2 loss in Central Romance*) project aims to : -- The Venetian part was annotated manually, in the absence of sufficient documentation for this language, directly in the UPENN system. The labels were then converted to the UD model to serve as a future training model, with some syntactic indications. This part of the work will last up until the end of the MICLE project, and we will communicate here the training data for future projects using them. + - create a corpus of texts of the same types for the Norman French and the Venetian language, for the origins to the seventeenth century + - explain syntactic change in the sentence structure in two Romance language varieties for the period in question + - advance methodological practices and conceptual perspectives in the field by creating a model linking grammatical change to the acquisition of language. + +Dates : 06/01/2021 - 05/31/2024 -*Digital edition* +Funders : ANR-DFG (<https://anr.fr/en/funded-projects-and-impact/funded-projects/project/funded/project/b2d9d3668f92a3b9fbbf7866072501ef-a55ba403b3/>) -- For digital editing of the texts, choices of transcriptions and sentence breakdowns, please check the documentation page on the main website: <https://www.unicaen.fr/projet_de_recherche/micle/>. +**Corpus** -*File format* +In order to achieve MICLE’s main goal of elaborating and testing a multifactorial model of word order evolution, we are creating a bilingual corpus of texts in two Romance language varieties with simiar trajectories of development, the Venetian and the French of Normandy. -- The XML-TEI version is the "main" version of the texts in the corpus. It includes all the metalinguistic information found in the other formats, with a *header* detailing all the characteristics of the edition and the text concerned. Please refer to it if you have any questions about the editing and encoding of the texts. For ease of navigation, the XML has been encoded with the levels book/chapter/section/paragraph/sentence/word, each continuously numbered and with a resetted counterat each new parent element. In cases where the text has only one level of structure, it was considered as a @section, and we added "empty" @chapter and @book divisions to keep a homogeneous hierarchy of all the texts of the corpus. +Our corpus aims, as far as possible, to give acces to the everyday language from the earliest vernacular witnesses to the seventeenth century. The texts of the corpus belong to the same two non-literary genres, which will allow us to avoid distortions and biases that collecting a diverse range of texts would have introduced. The genres in question are : -- The CONLLU, POS and eventually PSD versions of the texts were generated from this main version. Informations about the MICLE project is included in the header, with the title, language and date of the text. Also, the sentence numbering in these versions {Sentence X-X-X-X-X} (POS) #sent_id="X-X-X-X-X" (CONLLU) corresponds to the XPath in the XML-TEI. For example, the sentence "1-27-1-6-1" corresponds to the first sentence of the sixth paragraph of the first section of the twenty-seventh chapter of the first book of this specific text. This numbering, homogeneous between all the versions of the file, facilitates the search. + - legal texts and trial accounts; + - personal and business correspondence -*Access via TXM-CRISCO* +since they are likely to contain evidence of spoken language and traces of dialogue. At the same time, we take into account the specificity of both languages’ extant witnesses. The Venetian part of the corpus will thus include statutes and other legal texts that illuminate the system of government in different regions under Venetian control. On the other hand, the French corpus will showcase witch trials in Normandy, from Jeanne d’Arc to Madelein Bavent. -- The XML-TEI version of the corpus has been uploaded to the TXM-CRISCO portal <https://txm-crisco.huma-num.fr/txm/> in the "MICLE" folder, to allow reading by the mile (except for copyrighted texts, see *supra*) and searching through the use of the CQL language <https://www.sketchengine.eu/documentation/corpus-querying/>. +Digitised and tagged following the rules of TEI (Text Encoding Initiative), lemmatised and annotated in order to enable the search function, the texts of the corpus are available to researchers and the public via the project website, currently under construction, and this GIT server. -*Syntactic parsing* +**Team** -- The CONLL and the main XML-TEI files offer a dependencies analysis on the sentences of the corpus. The PSD versions and their conversions into XML-TEI propose a constituent analysis. The numbering of the sentences and the XPATH are identical with the main versions, to facilitate their research. With regard to the hierarchical structure of the "base" XML-TEI, there are two additional elements, \<cl\> (for "clause") and \<phr\> ("phrase"), with different attributes. The XML-TEI "Part/Parsed" has been placed separately on the TXM-CRISCO portal so as not to interfere with full text searches. +- Principal investigators: Pierre Larrivée (CRISCO · université de Caen Normandie · France) & Cécilia Poletto (Institut für Romanische Sprachen und Literaturen · Goethe Universität · Frankfurt, Germany) -*Further info* +- Post-doctoral researchers: Mathieu Goux (CRISCO · université de Caen Normandie · France), Francesco Pinzin (Institut für Romanische Sprachen und Literaturen · Goethe Universität · Frankfurt, Germany) & Natlia Romanova (CRISCO · université de Caen Normandie · France) -- For details regarding the tag sets and formats used for this corpus, please visit the various links here. +- Student interns (2022) : Agathe Aubert, Lucy Marie-Leblanc, Marie Picart & Valentin Simenel (Unicaen). \ No newline at end of file diff --git a/Support material/README.md b/Support material/README.md new file mode 100644 index 0000000000000000000000000000000000000000..1fdf1e5b6a7b64931f71636ada6cb30c24abaaea --- /dev/null +++ b/Support material/README.md @@ -0,0 +1,3 @@ +**MICLE: Gold Corpus** / V. 0.1., XXX 2022. + +This folder contains support materials used for different purposes. diff --git a/Tools/README.md b/Tools/README.md new file mode 100644 index 0000000000000000000000000000000000000000..8d52927110f730dd98da5c4dbcca60bfc0f7fcf8 --- /dev/null +++ b/Tools/README.md @@ -0,0 +1,3 @@ +**MICLE: Gold Corpus** / V. 0.1., XXX 2022. + +This folder contains different tools used by the team to tokenize, annotate and convert text files in different formats.