Pour l’exploitation des bi-textes de l’occitan, la Pierre de Rosette, l’Ordinateur, et l’Occitan

Séminaire RedOc / LLACS ouvert à tous, mardi 28 janvier 2014-17 h 15, salle A 105
Pour l’exploitation des bi-textes de l’occitan, La pierre de Rosette, l’Ordinateur, et l’Occitan, par Gérard Ligozat, http://www.normalesup.org/~ligozat

rosette Lorsque l’ordinateur rencontre la pierre de Rosette, on découvre que l’on dispose d’un instrument nouveau pour attaquer d’anciennes questions touchant aux langues dans laquelle sont écrits les textes bilingues.
L’occitan, qui présente la particularité de disposer d’un très important corpus bilingue (potentiel, à numériser), doit tirer parti de cette situation. Pour quoi faire, et comment ? Cet exposé a pour but de fournir des réponses à ces deux questions.

On parle de bi-texte pour désigner l’ensemble formé par un texte écrit dans une langue donnée et par sa traduction dans une ou plus généralement plusieurs autres langues. Notre travail se fonde sur deux constatations : – d’une part, le fait que l’ensemble, ou peu s’en faut, de la production littéraire moderne en occitan existe sous forme de bi-textes ;
- d’autre part, sur l’existence, dans le domaine du traitement automatique des langues, d’un nombre croissant d’applications utilisant les bi-textes comme source de connaissances. Ces applications peuvent avoir un objectif qui porte de manière égale sur les deux langues en présence (constitution automatique de lexiques, bases de traduction, formation de traducteurs, traduction assistée par ordinateur, traduction automatique, veille technologique, etc.), mais aussi sur l’une des deux langues (désambiguïsation de termes, création automatique de bases de dictionnaires numérisés de type WordNet, extraction de synonymes, de paraphrases, etc.). Nous donnerons dans cet exposé les éléments de base de l’exploitation automatique de bi-textes et plaiderons pour le développement de travaux utilisant ces techniques dans le domaine occitan. Nous présenterons nos travaux en cours sur des bi-textes occitan-français, en décrivant les difficultés principales et le type de résultat espéré. À plus long terme, l’utilisation de bi-textes permet d’envisager également de nombreuses applications touchant à la linguistique, à l’histoire, et à la sociolinguistique occitanes.                                                                   Gérard Ligozat, http://www.normalesup.org/~ligozat/

Ce contenu a été publié dans Espace occitan / RedOc, avec comme mot(s)-clé(s) , , . Vous pouvez le mettre en favoris avec ce permalien.