À propos d’ORTOLANG

ORTOLANG (Outils et Ressources pour un Traitement Optimisé de la LANGue) est un équipement d’excellence validé dans le cadre des investissements d’avenir.

Il s’agit d’une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue française et son traitement clairement disponibles et documentés qui a pour but de :

permettre à la Recherche sur l’analyse, la modélisation et le traitement automatique de notre langue, de se hisser au meilleur niveau international, au travers d’une véritable mutualisation ;
faciliter l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ;
valoriser le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics.

ORTOLANG est un service spécialisé pour la langue, complémentaire de l’offre générale proposée par la TGIR Huma-Num (Très Grande Infrastructure de Recherche).

Objectifs

ORTOLANG a pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les Centres de Ressources Numériques sur la langue :

CNRTL (Centre National de Ressources Textuelles et Lexicales)
SLDR (Speech and Language Data Repository)

ORTOLANG a aussi pour ambition de servir :

de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par la TGIR Huma-Num,
d’équipement scientifique en cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects patrimonialisation des parlers de France,
de nœud français de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure).

Fonctions

Identification/préparation des données

catalogage des ressources et outils existants à travers un ensemble de métadonnées normalisées ;
contrôle et validation des ressources et des outils : accompagnement des auteurs sur les standards, les normes et les recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ;
enrichissement de ressources et des outils.

Archivage

stockage, maintenance et curation des ressources et des outils ;
archivage pérenne, à travers la solution mise en place par la TGIR Huma-Num en lien avec le CINES.

Diffusion

aide et accompagnement des utilisateurs et mise en place des procédures permettant à des utilisateurs de la plateforme d’exploiter les ressources et outils mutualisés sans avoir à se soucier de leur localisation et implantation géographiques.

Le modèle d’ORTOLANG reprend les entités de base du modèle OAIS en précisant le cycle de correction/enrichissement des données, rendu possible par l’archivage intermédiaire.

Compétences réunies

Pour ce faire, ORTOLANG fait appel à des compétences complémentaires au sein d’un consortium :

les sciences du langage à travers l’ATILF, le LPL, MoDyCo et le LLL,
l’informatique avec le LORIA et l’INIST mais aussi en partie l’ATILF et le LPL,
les bases de données et l’accès à de l’information scientifique, à travers l’INIST, et à des ressources linguistiques, à travers les deux centres de ressources que sont le CNRTL et le SLDR.

Au-delà de la réunion de ces partenaires réunissant des compétences disciplinaires différentes, l’objectif d’ORTOLANG est aussi de fédérer – pour cet équipement de mutualisation de ressources et d’outils sur la langue écrite et orale – des partenaires représentant la diversité des approches d’étude de la langue :

modélisation linguistique (MoDyCo, LPL et ATILF),
linguistique expérimentale (LPL, ATILF),
production et de perception du langage (LPL, MoDyCo),
études diachroniques (ATILF, LLL),
sociolinguistique (LLL, MoDyCo),
traitement Automatique des Langues (LORIA, LPL, ATILF).