Métadonnées – ORTOLANG

Dans cette page

Champs obligatoires
Validations
Conversions
Importations
- Sur une ressource
- Sur un fichier/dossier

Il est possible de placer des métadonnées sur une ressource ou sur un fichier (ou un répertoire contenant des fichiers). Les métadonnées permettent de générer correctement les fiches de ressources. La diversité des formats proposés est propice à leur interrogation par les moissonneurs OAI-PMH externes.

Les métadonnées sont enregistrées dans le format JSON sur le serveur ORTOLANG et sont ingérées dans un moteur d’indexation ElasticSearch pour permettre une recherche efficace. Elles sont servies via l’API REST au client HTML afin d’afficher la page d’information de la ressource ainsi que le formulaire pour les éditer dans l’espace de travail. Et elles sont utilisées pour proposer une sortie OAI-PMH de type OAI_DC, OLAC et CMDI.

Champs obligatoires

Bien qu’il soit utile de renseigner la majorité des champs de métadonnée pour garantir la visibilité des ressources, seuls 3 champs sont obligatoires.

Informations générales

Titre : le titre est obligatoire. Il est affiché dans les résultats de recherche et dans la fiche de la ressource. Il peut être donné en Français, Anglais, Espagnol ou Chinois.
Description : la description est obligatoire. Il est affiché dans les résultats de recherche (liste détaillée) et dans la fiche de la ressource. Elle peut être rédigée en Français, Anglais, Espagnol ou Chinois.
Type de ressource : Le type de ressource est obligatoire. Il est utilisé pour ranger la ressource dans une des catégories (Corpus, Lexique, Terminologie, Outil).
Documentations : Il est possible de faire référence à un ou plusieurs fichiers qui décrivent la ressource. Ces documents doivent être déposés dans l’espace de travail.

Personnes impliquées

Laboratoire(s) producteur(s) : La constitution d’une ressource implique généralement plusieurs établissements de recherche. Cette information est affichée dans la fiche de la ressource qui sera consultée par les utilisateurs de la plateforme. De plus, nous nous engageons à renseigner la liste des ressources produites des établissements à travers une page accessible en ligne, à tous (voir la liste des producteurs).
Soutien(s) institutionnel(s) : Une ressources peut avoir été constituées grâce au soutien de tutelles comme un Equipex, Labex ou consortium.
Personne(s) contributrice(s) : Une liste de contributeur ayant chacun un rôle défini peut être ajoutée à la fiche d’informations.

Informations complémentaires

Publications de référence : Les publications de référence sont celles qui décrivent comment la ressource a été créée. Elles sont également affichées dans le citation de la ressource.
Aperçu : Une image, une partie de fichier XML ou une vidéo peut être un bon moyen de donner un aperçu à l’utilisateur du contenu et de la qualité de la ressource.
Mots clés : Une liste de mots clés peut permettre de trouver plus facilement votre ressource dans la barre de recherche. Les mots clés peuvent être donnés en Français, Anglais, Espagnol ou Chinois.
Site internet : Un lien vers le site internet qui décrit la ressource. Il peut s’agir d’un site statique (HTML/JS) déposé dans l’espace de travail. Dans ce cas, il faut sélectionner l’option « interne » et choisir le fichier index du site.

Licence

Licence : Il est recommandé de choisir une licence dans la liste proposée. Pour une ouverture complète de la ressource, il est suggéré de prendre une licence Creative Common Zero. Si aucune licence ne vous convient, proposer l’ajout d’une autre dans l’espace de discussion.
Conditions d’utilisation : La ressource peut afficher des conditions d’utilisations particulières rédigées en Français, , Anglais, Espagnol ou Chinois. Elles seront indiquées avant le téléchargement de la ressource.
Copyright : Si un Copyright est attaché à la ressource, il est possible de l’indiquer dans cet emplacement.

Sous-partie

Si votre ressource peut se découper en plusieurs sous-parties, vous pouvez l’indiquer dans cette section. De cette manière, il sera possible à l’utilisateur de télécharger ou parcourir spécifiquement une sous-partie. Pour chaque sous-partie, vous pouvez remplir les champs suivants :

Titre : Comme pour la ressource, il faut nommer la sous-partie.
Description : Une description peut être affichée.
Chemin : Le chemin vers le répertoire de l’espace de travail qui contient la sous-partie.
Image : Une image illustrant la sous-partie.
Contribution : Une liste de contributeurs.

Champs spécifiques

Lorsque vous sélectionnez un type de ressource, vous pouvez ensuite renseigner des informations spécifiques au type. Voici la liste des champs en fonction du type :

Corpus
- Type de corpus : Pour ranger la ressource dans une des sous catégories : Écrit, Oral ou Multimodal
- Type de langue : Monolingue, Multilingue, Comparable ou Parallèle
- Langues du corpus : Choisir une ou plusieurs langues qui est utilisé dans le corpus
- Langues étudiés : Indiquer la langue (ou les langues) qui est étudiée dans le corpus
- Genre de corpus : Indiquer le type d’écriture. Exemple : Journalistique, Scientifique, Littéraire
- Niveau d’annotation: Exemple : Transcription orthographique, phonétique
- Format : Exemple : Texte, TEI, TextGrid
- Encodage de la données : UTF-8 ou ISO-8859-1
- Type de source : Audio, Image ou Vidéo
- Nombre de mots : Renseigner le nombre de mots permet de connaitre la taille du corpus
Lexique
- Type d’entrée : Exemple : Sens Lexical, Forme fléchie, Lemme
- Type de langue : Monlingue, Multilingue ou Bilingue
- Langue des entrées
- Nombre d’entités lexicales décrites
- Type de description : Exemple : Réseau sémantique, Genre, Forme fléchie
- Langue de description
- Format : Exemple : LMF, CSV, XML
Outil
- Systèmes d’exploitation
- Langages de programmation
- Fonctionnalité
- Format en entrée
- Format en sortie
- Encodage de la donnée
- Langue traitée
- Langues de navigation
- Type de support
Terminologie
- Type de la ressource terminologique : Type de ressource terminologique au regard de la nature des données qu\’il contient et de son organisation
- Type de structure : Organisation structurant les concepts entre eux
- Champs de description terminologique : Ensemble des champs d’informations utilisés pour décrire les concepts et/ou les termes qu’ils désignent
- Type de couverture linguistique : Pluralité des langues des entrées terminologiques
- Langues des entrées : Langue des unités terminologiques décrites
- Formats et modèles : Format ou modèle utilisé pour modéliser la ressource
- Usage : Contexte d’application usages de la ressource tels que indexation documentaire, rédaction scientifique, traduction, etc
- Origine ressource : Une source principale dont la ressource décrite est dérivée. La ressource décrite peut en être dérivée, en totalité ou en partie. Typiquement, le nom d’une base terminologique d’appartenance.
- Nombre d’entrées : Nombre approximatif d’entrées contenues dans la ressource terminologique.
- Version : Identification de la version de la ressource si système de version
- Contrôlé : Vérification du maintien de l’intégrité de la ressource
- Validé : Vérification de la fiabilité de la ressource
- Homologué : Règle d’application exclusive, prioritaire ou obligatoire de la ressource
- Vérifié : Exactitude
- Domaines : Champ notionnel dans lequel s’inscrit la ressource

Validations

Nous utilisons des schémas de type JSON schema pour vérifier la validité des métadonnées. Il y en a pour chaque type de métadonnées ingérées dans ORTOLANG. Les plus importants sont :

pour une ressource : schema JSON
pour Dublin Core : schema JSON
pour OLAC : schema JSON
pour CMDI OLAC : A venir

Conversions

Pour répondre à la demande des moissonneurs OAI-PMH en matière de formats de métadonnées, nous avons implémenté un algorithme pour convertir le format JSON en XML. Ainsi, une ressource comportant uniquement les métadonnées JSON, pourra exposer via l’OAI-PMH des documents XML Dublin Core, OLAC et CMDI selon le tableau de correspondance suivant :

ORTOLANG	OAI_DC	OLAC	CMDI	VLO
title	title	title	title	name
description	description	description	description	description
keywords	subject	subject	subject	subject
corporaLanguages	language/subject	language	language	language
lexiconInputLanguages	language/subject	language	language	language
studyLanguages	X	subject	subject	subject
producers	publisher	publisher	publisher	X
contributors	contributor/creator	contributor/creator	contributor	X
sponsors	X	contributor	contributor	X
statusOfUse	rights	rights	rights	availability/license
conditionsOfUse	rights	rights	rights	availability/license
license	rights	license	license	availability/license
linguisticSubjects	subject	subject	subject	subject
type	type	type	type	resourceClass
linguisticDataType	type	type	type	resourceClass
discourseTypes	type	type	type	resourceClass
bibliographicCitation	X	bibliographicCitation	bibliographicCitation	X
originDate/publicationDate	date	date/temporal	date/temporal	X
handles	identifier	identifier	identifier	resourceClass

Notes : * Voici le tableau de correspondance utilisé par le VLO : https://github.com/clarin-eric/VLO-mapping/blob/master/mapping/facetConcepts.xml

Importations

Sur une ressource

Les métadonnées d’une ressource sont éditées dans l’espace de travail à travers un formulaire HTML. Mais il est également possible de les importer à partir d’un fichier JSON dans la section “Importer” de l’onglet “Métadonnées” (l’extension du fichier doit être .json).

Sur un fichier/dossier

Pour importer un ensemble de métadonnées sur des fichiers/dossiers, il faut créer un zip structuré de manière à pouvoir identifier le chemin des fichiers/dossiers. Le nom du fichier de métadonnées doit être le nom du format de métadonnées. Voici la liste des formats possibles :

oai_dc
olac

Et voila un exemple de structure :

dossier1
- sous-dossier1
  - oai_dc

fichier1
- olac

Dans cet exemple, les dossiers sont dossier1, sous-dossier1 et fichier1 et les fichiers de métadonnées sont oai_dc (qui est associé au dossier dossier1/sous-dossier1) et olac (qui est associé au fichier fichier1).

Un fois connecté, il faut aller dans un espace de travail et dans la section Contenu. Après avoir cliqué sur le + (dans la barre d’outil), il faut cliquer sur Importer un zip. Pour importer un ensemble de métadonnées, il faut sélectionner le zip précédemment créé puis cocher la case Téléverser des fichiers de métadonnées.

Note : Dans le cas d’import de métadonnées, le champ Dossier ainsi que la case à cocher Remplacer ne sont pas utilisés.