Charte ORTOLANG

Préambule

ORTOLANG est un équipement d’excellence validé dans le cadre des investissements d’avenir initiés par le gouvernement français. Son but est de proposer une infrastructure en réseau (cf. liste des partenaires) offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement.

Ce réservoir doit être disponible et être alimenté le plus largement possible pour permettre :

  • une mutualisation efficace des données de recherche sur le langage
  • une exploitation aisée par les scientifiques, les enseignants ou le grand public

Les fonctionnalités exactes et le contenu de la version 1 de l’EquipEx ORTOLANG et du site Internet www.ortolang.fr sont décrits par ailleurs (cf. annexe de cette charte).

Le fonctionnement et la réussite d’un tel équipement dépendent autant de l’équipement que de ses usagers. C’est pour cela cette charte d’utilisation de l’EquipEx ORTOLANG a été rédigée : son respect permet une utilisation optimale des moyens mis à la disposition des usagers d’ORTOLANG.

Dans le texte ci-dessous, on utilisera les termes suivants :

  • ORTOLANG désigne les institutions et les personnels chargés de la gestion de la plateforme et du site Internet www.ortolang.fr, de la sécurisation et de la diffusion des ressources, de la création ou de la diffusion des logiciels et des outils figurant sur le site.
  • les contributeurs désignent les personnes ou les institutions qui fournissent des ressources informatisées qui alimentent le réservoir que représente ORTOLANG.
  • les utilisateurs désignent les personnes ou les institutions qui se servent des ressources disponibles sur ORTOLANG, que ce soit à des fins de recherche, d’enseignement ou pour tout autre usage, que ce soit par téléchargement partiel ou intégral, ou par simple consultation.

Engagements mutuels d’ORTOLANG, des contributeurs et des utilisateurs

L’EquipEx ORTOLANG est conscient que les contributeurs et les utilisateurs peuvent avoir des besoins et des contraintes très variés. C’est pour cela qu’il existe une large gamme de configurations concernant la protection des ressources et les conditions de leur utilisation.

Les contributeurs sont conscients que le dépôt de ressources sur une plate-forme publique de gestion et d’archivage présente un coût important qui engage le contributeur à une diffusion des ressources.

Les utilisateurs des ressources sont conscients que les investissements produits par l’ensemble des acteurs de la chaîne de création et de diffusion des corpus doivent être rendus visibles et de ce fait justifiés auprès des institutions qui financent les projets. Il faut également valoriser le travail de recherche et respecter la propriété intellectuelle des contributeurs. Pour cela il faut citer les sources des ressources utilisées et faire largement connaître l’usage qui est fait de ces ressources.

L’application de ces principes permet une valorisation mutuelle de l’ensemble des moyens mis en œuvre par les acteurs de la recherche en linguistique, l’Etat, principal partenaire financier d’ORTOLANG, les contributeurs, et les utilisateurs.

Fonctionnalités et engagements d’ORTOLANG

  1. Le dépôt de ressources est totalement gratuit, dans la limite des volumes qui sont à l’échelle des capacités d’ORTOLANG (Cette capacité évolue d’année en année). Les ressources déposées peuvent couvrir toutes les sciences du langage, de l’écrit à l’oral et au multimodal.
  2. ORTOLANG s’engage à réaliser une conservation sécurisée à long terme des dépôts numériques, en utilisant les moyens de l’informatique et du stockage sécurisé de ressources. La durée du stockage est au minimum celle de l’existence d’ORTOLANG, existence garantie par les institutions qui sont représentées dans ORTOLANG (notamment Universités et CNRS, cf. liste des partenaires).
  3. Le dépôt de ressources est libre pour toute source de ressources provenant de laboratoires de recherche français (C’est-à-dire dont le financement relève de l’état français) et portant sur toute langue, ou pour toute source de ressources portant sur les langues de France (La caractérisation « langue de France » relève des compétences de la DGLFLF) quelle que soit leur origine. Pour les sources d’autres origines, un accord ponctuel est possible sur la base d’une négociation entre les parties. Ce type d’accord peut amener à une participation financière.
  4. ORTOLANG reçoit, sauvegarde et diffuse toutes les ressources qui concernent les sciences du langage. Les formats de ressources pouvant être traités ainsi ne sont limités que par les capacités techniques d’ORTOLANG.
  5. Un certain nombre de formats de données bénéficieront de traitements supplémentaires spécifiques de la linguistique. Il s’agit en particulier de corpus de langage fournis dans des formats connus et utilisés par la communauté scientifique (cette liste des formats connus peut s’enrichir dans le temps). Ces formats bénéficieront d’outils comme par exemple l’indexation plein texte, le traitement automatique syntaxique, la visualisation en direct, etc. Des traitements automatiques sont proposés en priorité pour le français.
  6. Les ressources qui sont dans des formats compatibles avec les exigences de l’archivage à long terme par les services des Archives nationales seront proposées à l’archivage auprès des institutions spécialisées au travers de la solution mise en place par la TGIR Huma-Num. L’archivage effectif par ces institutions est sous la seule responsabilité de ces institutions, ORTOLANG ne jouant que le rôle de service versant dans ce processus. Lorsque les archivages seront réalisés, une trace de ce dépôt sera incluse dans les métadonnées des ressources.
  7. ORTOLANG s’engage à respecter les contraintes de sécurité des données définies par les contributeurs (voir ci-dessous). Pour cela, ORTOLANG s’engage à contrôler la modification des données par les contributeurs et leur exploitation par les utilisateurs.
  8. Les ressources déposées sont identifiées de manière unique à l’aide d’un identifiant dit pérenne. Ceci permet de diffuser une référence à des ressources qui pourront être retrouvées à tout moment y compris de nombreuses années après le dépôt. L’identification des ressources de manière unique impose l’utilisation d’un système de versionnage. Les ressources déposées sont donc associées à un numéro de version unique qui fait partie de l’identifiant pérenne. La modification des ressources de manière mineure (correction d’erreur par exemple) est possible sans changement de version. Une modification majeure peut amener à la création d’un nouveau numéro de version. Pour des raisons de coût, une nouvelle version doit présenter au moins 10% de données nouvelles.
  9. A terme, dans la version finale de l’Equipex ORTOLANG (fin 2016), grâce à des outils de supervision et de statistiques ORTOLANG s’engage à rendre accessible aux contributeurs des statistiques d’accès et de téléchargement de leurs ressources.

Engagements des contributeurs

  1. Les contributions à ORTOLANG ne peuvent être réalisées que par des personnes identifiées. La création d’un identifiant s’accompagnera de la création d’un espace de travail permettant le dépôt, la préparation et la mise en forme des contributions.
  2. Le dépôt de ressources sur ORTOLANG implique d’avoir une connaissance exacte des droits d’utilisation des ressources, et, dans le cas où le contributeur n’est pas le propriétaire ou l’ayant droit juridique des ressources, avoir toutes autorisations de dépôt de la part du propriétaire ou de l’ayant droit juridique.
  3. Ainsi le dépôt de ressources implique :
    • de pouvoir prendre toutes décisions concernant l’utilisation et la diffusion du corpus (propriété intellectuelle en particulier) ;
    • de disposer de toutes les informations concernant les sources des corpus et le consentement des personnes enregistrées ou filmées.
  4. ORTOLANG étant un service public financé par l’Etat, il est nécessaire pour déposer des ressources d’accorder un droit d’utilisation de celles-ci qui comprenne au minimum celui de leur utilisation libre dans le cadre de la recherche scientifique publique soit par téléchargement soit au travers d’un outil spécifique de visualisation ou d’exploitation.
    • Les droits supplémentaires sont largement encouragés et il est possible d’appliquer des droits différents pour des sous-ensembles des ressources déposées (Cf. annexe 2 : liste des types d’identification d’utilisateurs proposés sur la plateforme). Les ressources déposées ne peuvent donner lieu à rétribution financière.
    • Il est possible de déposer des ressources dont l’ouverture à l’utilisation par d’autres personnes que les contributeurs est fixée à une date ultérieure (système de quarantaine), soit pour des raisons d’exploitation des ressources et de retombées des travaux, soit pour des raisons juridiques.
    • La durée des périodes de quarantaine liées à des contraintes juridiques ne dépend que de la loi française et n’est pas du ressort d’ORTOLANG. La durée des périodes de quarantaine liées à des droits intellectuels ou financiers est limitée à la durée des contraintes (bourse de thèse, financement ANR, etc.) plus une période maximale de deux ans. Au delà de cette période, les droits d’utilisation fixés s’appliquent.
  5. Dans tous les cas le dépôt d’une ressource sur ORTOLANG devra être accompagné d’un jeu minimum de métadonnées descriptives au format Dublin Core, et administratives spécifiques à ORTOLANG. Pour aider les utilisateurs à construire ces métadonnées, un éditeur interactif de ces métadonnées est proposé par ORTOLANG dans l’espace de travail lors du dépôt d’une ressource. Il permet de préciser en particulier des renseignements généraux de type descriptif de la ressource, les droits y afférant et les divers contributeurs à cette ressource. Le dépôt d’une ressource vaut acceptation de diffusion entièrement libre de ses métadonnées administratives et descriptives.
  6. Le dépôt de ressources peut s’accompagner de consignes d’utilisation, notamment sur la manière de citer les ressources utilisées. La politique d’ ORTOLANG est d’exiger que soit citée, a minima, la source des ressources, c’est-à-dire leur identifiant pérenne. La demande de citation de travaux, références scientifiques, indications de propriété intellectuelle est possible, dans la limite de trois citations par corpus. Le respect de ces citations fait partie de la charte d’usage des utilisateurs et doit être respecté par tous les acteurs du domaine.
  7. Le dépôt de ressources par des étudiants ou thésards ne relevant pas d’un établissement scientifique public est possible et souhaitable, et doit se faire sous la responsabilité du laboratoire dans lequel ils réalisent leurs travaux.
  8. Le dépôt de ressources incomplètes (ressources en cours de numérisation, ressources audiovisuelles non encore transcrites) est possible et souhaitable (en particulier pour desraisons de sécurité des ressources) à condition que les droits de propriété et d’utilisation des données soient clairement définis et décrits. Ce type d’usage permet la mise en place d’un système de quarantaine. Toutefois, un dépôt partiel et non finalisé de données sera rendu public et disponible à la recherche à la fin de la période de quarantaine quelque soit le statut des données.
  9. Pour des raisons de coût de stockage et de coût de fonctionnement, les ressources de type média (audio, vidéo, données physiologiques) ne peuvent être déposées que si elles sont associées à des annotations linguistiques. Si les ressources sont en cours de création (par exemple dans le cadre d’un projet de recherche), des données média peuvent être déposées par anticipation sans que les annotations soient déjà disponibles à condition que les droits d’utilisation soient déjà clairement définis.
  10. Les ressources déposées ne sont modifiables que par le déposant original. La modification du déposant ou le transfert de droit s’accompagne de la création d’un nouveau numéro de version.
  11. Les ressources déposées par un contributeur sans en posséder les droits pourront être supprimées d’ORTOLANG, notamment en cas de recours juridique ou de conflit de droit.

Engagements des utilisateurs

  1. Les utilisateurs doivent s’identifier sur le site pour toute utilisation autre que celles des ressources libres de tout droit. Cette contrainte permet de contrôler et d’appliquer les droits définis par les contributeurs.
  2. L’utilisation de ressources à des fins scientifiques ou personnelles doit respecter les contraintes fixées par les contributeurs. Elle doit également respecter les usages (voir la charte «Ethique et Big Data»).
  3. La diffusion, mais aussi la visualisation des ressources doit respecter les droits originaux. Il n’est ainsi pas possible de diffuser publiquement des ressources qui ont des droits restreints.
  4. Toute ressource utilisée doit être accompagnée de son identifiant pérenne ORTOLANG et les citations souhaitées par les contributeurs doivent être respectées. Les identifiants et modes de citations des ressources sont précisés dans leurs métadonnées. Tout utilisateur d’une ressource ORTOLANG est donc tenu de les faire apparaître dans ses citations bibliographiques, ses remerciements, ses notes de bas de page ou sa licence, selon les conditions d’utilisation des ressources.

ANNEXE 1 : Fonctionnalités contenues dans l’EquipEx ORTOLANG

Fonctionnalité du site www.ortolang.fr offertes sans identification

Le site www.ortolang.fr, bilingue français anglais, offre à tout utilisateur les fonctionnalités suivantes :

  1. Accueil : présentant les actualités et les nouveautés sur ORTOLANG ainsi que diverses informations sur le projet (Présentation, partenaires, feuille de route, lettres d’information, charte d’ORTOLANG mentions légales, accès au site communautaire, etc .).
  2. Présentation avec fenêtre de recherche des ressources intégrées dans ORTOLANG :
    • Corpus
    • Lexiques
    • Outils
    • Projets intégrés

Cela permet, pour chaque ressource :

    • l’accès à une page descriptive de la ressource,
    • l’accès à une visualisation d’un extrait,
    • et le téléchargement dans le respect des contraintes de diffusion de la ressource.

Fonctionnalités supplémentaires de la plateforme www.ortolang.fr après identification

Après identification l’utilisateur peut accéder à chacun de ses espaces de travail qui, pour une ressource, lui permettent :

  1. De déposer les fichiers composant sa ressource
  2. D’accéder aux divers fichiers composant sa ressource
  3. D’éditer ses métadonnées de présentation
  4. De sauvegarder son espace de travail
  5. De suivre les processus de traitement en cours
  6. D’accéder à des outils applicables à sa ressource
  7. D’obtenir des prévisualisations avant publication
  8. De visualiser un historique et les membres ayant accès à cet espace de travail
  9. De soumettre sa ressource à publication

ANNEXE 2 : Liste des types d’identification d’utilisateurs proposés

ORTOLANG propose 4 classes d’identification des utilisateurs potentiels d’une ressource :

  1. L’ensemble des utilisateurs potentiels sans aucune restriction,
  2. Les membres de l’ESR Français,
  3. L’ensemble des utilisateurs inscrits sur la plateforme,
  4. Un groupe spécifique d’utilisateurs préalablement identifiés sur la plateforme ORTOLANG.