Formats de données

La plateforme Ortolang suit les recommandations de la communauté linguistique par le biais de CORLI, un Centre K CLARIN concernant les formats de données pour les ressources linguistiques.

Ortolang accepte une grande variété de ressources (corpus, lexiques, terminologies et outils) et de formats de données, afin de ne pas limiter les usages que pourraient en faire les scientifiques dans leur travail de recherche de pointe.

Ortolang encourage les producteurs, à travers son processus de validation, à déposer leurs données dans des formats ouverts qui pourront être exploités et conservés sur le long terme. Il s’agit notamment des standards recommandés par CLARIN tels que TEI, XML, texte Unicode, et les formats adéquats pour les données brutes(CSV, TXT), audio (MP3, WAV) et vidéo (MPEG 1/2/4).

Lorsque des formats ouverts sont utilisés, la ressource peut recevoir des traitements automatiques spécifiques à la linguistique. Ainsi, les corpus de langue française pourront bénéficier de l’indexation plein texte, d’un traitement automatique syntaxique et d’une visualisation en direct.

Les producteurs peuvent également proposer leurs matériels dans différents formats alternatifs afin de faciliter leur diffusion et leur exploitation.