_____________________________________________________________________

Le traitement des données de la recherche au sein du projet PuppetPlays

Paul Robert (Université de Montpellier-Paul Valéry)

_____________________________________________________________________

Définir les données de la recherche

Une définition

Selon la définition donnée par Philippe Amiel lors de la conférence « Résultats de l’enquête CommonData : Pratiques de gestion des données scientifiques » donnée le 16 novembre 2020 en ligne par la MSHSUD[1], les données de la recherche sont :

« Tous relevés, enregistrements factuels ou renseignements factuels, notamment : chiffres, textes, images et sons, quel qu’en soit le support (audiovisuel, archives, publications, base de données, plateformes numériques, etc.), utilisés pour produire des résultats de recherche. »

Les données de la recherche sont donc des données extrêmement hétérogènes aussi bien selon leur format que leur support ou leur statut. Cette diversité est l’un des enjeux majeurs dans le traitement des données de la recherche : en fonction du type de données, de son intérêt et de son support découle une chaîne de traitement différente. La première étape consiste donc à bien identifier les types de données et les formats pour trouver la méthode de conservation et de valorisation adaptée.

Il faut également bien connaître l’intérêt de chaque jeu de données pour en déduire son statut : est-ce une donnée intermédiaire permettant de comprendre le travail du projet de recherche ou du laboratoire, ou bien est-ce une donnée finale produite par les chercheurs et chercheuses en tant que résultat de leur étude ? Ces différents statuts varient en fonction du statut administratif du projet, des tutelles et des objectifs : les étapes intermédiaires de travail telles que les maquettes de prestataire ou les notes d’un chercheur sur des fonds d’archives doivent-elles être conservées pour témoigner de l’évolution de notre réflexion et de notre processus de travail ? Ou bien faut-il les conserver pour les transmettre en guise de modèle pour d’autres projets similaires ? En cela, la connaissance de la théorie des trois âges des archives[2] (archives courantes, archives intermédiaires, archives définitives) est une aide précieuse pour anticiper la gestion de tout ces documents et leur appliquer un traitement adapté. Les archives courantes servant à justifier nos décisions auprès de nos tutelles, l’European Research Council (ERC) et l’Université Paul Valéry (UPVM), ne feront ainsi pas l’objet d’une politique attentive sur la pérennité de leurs formats, car les technologies qui leur sont associées ne disparaîtront pas d’ici 4 ans.

Les points de vigilance

Les points sensibles sont aujourd’hui plutôt bien identifiés par la communauté des ingénieurs, des archivistes et des bibliothécaires. Si nous laissons de côté la question des documents papiers privés dont la conservation est complexe à cause de leur quantité et de leur fragilité — et, dans notre cas de leur éclatement, car ces documents voyagent avec les chercheurs—, il reste la question de la conservation des documents numériques, laquelle fait l’objet de toute notre attention.

Les problématiques touchant les documents numériques se retrouvent à trois niveaux :

La difficulté de conserver et de gérer une infinité de formats ;
La spécificité du fonctionnement de la recherche par projets ;
La nécessité de garantir l’interopérabilité des formats afin de permettre la réutilisation des données[3].

La question des formats numériques est primordiale. Il est important de distinguer les formats propriétaires (dont le code source est inaccessible et dont la maintenance relève uniquement d’une entreprise privée) des formats open-source utilisables par tous et dont la maintenance est souvent collaborative.

Malgré la circulaire Ayrault du 19 septembre 2012[4] encourageant l’utilisation de logiciels libres au sein de l’administration française (incitation répétée au sein de l’article 16 de la loi « Pour une République numérique »[5]), leur diffusion reste lente et se heurte au libre-choix de chacun en matière de logiciels et de systèmes d’exploitation. Il reste cependant primordial d’utiliser des logiciels libres et open source, nettement plus pérennes.

En dépit de ce premier verrou de sûreté, il faut coordonner le travail des participants au projet pour restreindre la variété des formats. Cela implique par exemple d’obtenir de leur part des fichiers de traitement de texte uniquement au format .odt plutôt que sous une multitude de formats (du type .docx, .odt, .pdf ou .pages) afin d’éviter un travail de conversion long et susceptible d’entraîner une perte d’informations. La question se complexifie même au sein d’un même format dans la mesure où des versions différentes d’un même logiciel ainsi que des mises à jour régulières de celui-ci peuvent provoquer des pertes des données ou des blocages.

Plus généralement, la conservation des données est rendue plus difficile par le financement temporaire des projets de recherche. En effet, l’hébergement et la mise à jour des logiciels et formats représente un coût annuel à long terme qui ne peut pas être entièrement assumé par les projets de recherche au financement pluriannuel mais nécessairement limité dans la durée.

L’ensemble de problématiques précédemment mentionnées doivent donc être anticipées, ce qui implique de trouver un hébergeur pérenne et d’utiliser un format de données stable. La quête de ce format de données stable doit répondre en outre à la question de l’interopérabilité pour permettre leur réutilisation, leur accroissement et, d’une certaine manière, leur pérennité.

Le traitement des donnees de la recherche au sein du projet PuppetPlays

Nos engagements sur le traitement des données

Dans le cadre des spécifications du programme Horizon 2020 encourageant au libre accès des publications et données de la recherche[6], nous nous sommes engagés auprès de notre organisme financeur, l’European Research Council (ERC), à suivre les principes des données FAIR (Findable Accessible Interoperable Reusable). Les données produites au sein du projet PuppetPlays doivent donc être accessibles à tous sous licence open source et dans des formats interopérables et réutilisables. Nous avons choisi de privilégier le Gold Open Access avec des articles et données rendues accessibles dès leur publication. Le Gold Open Access consiste à publier directement un article sur un dépôt ou une revue en ligne permettant à l’article d’être directement accessible et consultable. Cela s’oppose au Green Open Access où l’auteur archive sa publication sur un dépôt en ligne mais, ne rend sa publication accessible qu’au bout d’un certain temps. Toutes nos données seront accessibles directement sur notre plateforme, mais elles seront également accessibles via divers portails tel qu’Isidore[7] grâce au protocole OAI-PMH et au moissonnage de nos données.

La base de données PuppetPlays

Nous créons une base de données recensant et décrivant les textes écrits pour la marionnette en Europe de l’ouest du XVII^e siècle à nos jours. Les données seront stockées dans une base de données relationnelles codée en SQL et utilisant le moteur PostgreSQL[8], un moteur de bases de données open-source.

Riche de près de 2 000 références dans la table principale, cette base sera accessible grâce à une API (Application Programming Interface), c’est-à-dire une interface permettant d’interagir directement avec elle. Une API est à imaginer comme une sorte de « petite porte d’entrée » permettant, via une série de requêtes informatiques automatisées, d’avoir directement accès aux ressources d’une base de données sans être obligé de passer par l’interface et le moteur de recherche de la base en question. Il sera ainsi possible d’extraire directement des données contenues dans la plateforme PuppetPlays sans accéder à celle-ci, si l’on souhaite par exemple en réaliser des analyses ou bien s’en servir pour compléter la base de données d’un autre projet.

Les données en elles-mêmes font l’objet d’un soin particulier. Un DOI (Digital Object Identifier : identifiant pérenne que l’on peut attribuer à une donnée quelconque) sera attribué aussi bien à un jeu de données qu’à chacune des données isolées. Ce DOI permet notamment de référencer ces données sur le portail international Datacite[9].

De multiples identifiants seront attachés aux œuvres recensées et décrites dans la base de données PuppetPlays. Les identifiants ARK[10] et VIAF[11] seront attribuées aux œuvres et les identifiants ARK, VIAF, ISNI[12] et IdRef[13] seront donnés aux auteurs, quand ces identifiants existent. Pour les auteurs absents du catalogue IdRef, nous créerons des notices en collaboration avec le Service Commun de la Documentation de notre bibliothèque universitaire pour faire ressortir ces auteurs dans les catalogues national (IdRef) et international (VIAF). Attribuer ces identifiants permet une meilleure réutilisation de la base de données : bien souvent ces identifiants permettent de fusionner deux bases de données en servant de référentiel pour l’alignement des données, le nom ou le titre n’étant ni unique ni international. Ces données seront également référencées par les métadonnées dites « Dublin Core », un ensemble de 15 critères permettant de qualifier une donnée. Ces métadonnées seront ensuite indexées par un entrepôt OAI (Open Archive Initiative : un projet visant à permettre l’échange des données via un protocole uniformisé appelé PMH) pour être finalement moissonnées via les différents portails de données tels qu’Isidore.

Même si nos données sont intégrées dans une base de données relationnelles et qu’elles sont dans un format open-source plutôt stable aujourd’hui, elles restent dépendantes de la technologie SQL (Structured Query Language), c’est-à-dire d’un langage informatique spécifique pour interroger les bases de données dites relationnelles. Son efficacité et sa bonne interopérabilité ne compensent pas sa dépendance à une technologie et à un format peu intelligible par un humain, notamment pour le stockage à longue durée. C’est pour cela que ces données seront transformées en simultané en XML TEI : ce format très simple et complètement lisible est idéal pour un stockage à long terme et une réutilisation aisée.

Les données seront stockées initialement sur la plateforme PuppetPlays (elle-même hébergée sur une machine virtuelle de la TGIR —Très Grande Infrastructure de Recherche— Huma-Num). Une machine virtuelle est un ordinateur créé par un autre ordinateur. Le fonctionnement en machines virtuelles permet d’avoir plusieurs petits ordinateurs distincts accessibles tout en ne disposant matériellement que d’une seule machine. Cette solution permet également d’avoir un ordinateur doté de toutes les caractéristiques souhaitées.

Cependant, ce choix ne résout pas la question de la pérennisation des données ni celle de leur accessibilité à long terme. Huma-Num s’engage en effet à maintenir la machine virtuelle en état de fonctionnement, mais sans s’occuper ni des formats des données stockées ni des technologies de la plateforme. Lorsque, dans 20 ans, ces technologies seront devenues obsolètes, les données ne seront probablement plus accessibles via la plateforme PuppetPlays. Nous devons donc trouver un hébergeur qui, outre le stockage et l’accessibilité des données, prenne en charge la maintenance de leurs formats. C’est pourquoi nous avons décidé de recourir à Nakala, un service également fourni par la TGIR Huma-Num. La question des formats n’est pas résolue, mais l’accessibilité et les technologies liées à la consultation des données est prise en charge.

D’autre part, à la fin du projet, nous envisageons de déposer nos données sur Zenodo (une autre plateforme de stockage européenne des données de la recherche) ainsi qu’au CINES (le Centre Informatique National de l’Enseignement Supérieur) qui propose aussi une plateforme nationale d’archivage des données de la recherche. Mais à cette étape-là, les données doivent être sous l’un des formats prescrits par ces plateformes, notamment des formats open-source et non dépendants de technologies spécifiques.

Les textes encodés en TEI et les numérisations, enregistrements et vidéos

Environ 300 textes pour marionnettes seront numérisés et transcrits. Les numérisations seront au format .png, un format open-source notamment accepté par le CINES et reconnu comme archivable. Notre choix ne s’est pas porté sur une numérisation de type patrimonial : nos numérisations se limiteront à une résolution de 150 dpi, auront un taux de compression de 85% et un profil colorimétrique Adobe RGB. Ces documents resteront cependant très lisibles et agréables à la consultation en ligne sans être trop lourds. Ce dernier paramètre est important pour garantir un temps de chargement des pages de la plateforme ou de téléchargement des documents suffisamment rapide : un équilibre doit être trouvé entre la qualité de l’image et son poids. Nos numérisations seront déposées sur Nakala et sur la plateforme d’archivage PAC du CINES.

Les textes transcrits seront encodés en TEI (Text Encoding Initiative), un standard de nommage de balises XML permettant un encodage sémantique de la littérature, un standard de format de fichier offrant une bonne interopérabilité et facilitant sa conservation. Ils seront téléchargeables en format .xml TEI ou en format .pdf. Ces textes encodés ainsi que le corpus intégral auront un DOI leur permettant d’être aisément retrouvés. Ils seront en outre hébergés sur la plateforme Nakala, sur la plateforme du CINES et probablement sur Zenodo. L’objectif est de rendre ces fichiers facilement réutilisables sur le long terme grâce à un encodage peu complexe et à un hébergement à long terme. Les enregistrements sonores et vidéos seront quant à eux directement déposés sur Nakala pour être facilement consultés et conservés le plus longtemps possible.

Les actes de colloque, articles et documents divers

Ce dernier type de données sera paradoxalement celui dont la conservation sera la plus complexe, à cause de leur diversité de nature. Ces documents seront en format de traitement de texte ou en PDF pour les textes, ou encre dans le format vidéo à disposition pour les enregistrements. Il est difficile d’exercer un contrôle dans la chaîne de production de ces données tant leur production est décentralisée[14] et le fruit direct d’une activité de recherche s’adaptant aux contraintes réelles. Il faudra donc les traiter au cas par cas afin de leur trouver des solutions d’hébergement selon leurs formats et l’intérêt de la donnée : si c’est un enregistrement sur l’état de l’avancement du projet, la conservation longue durée n’a pas grand intérêt. Evaluer chaque donnée permettra de déterminer les conditions de sa conservation en fonction de ses caractéristiques.

Conclusion

Nous nous engageons complètement dans la science ouverte et nous cherchons à assurer de front à la fois l’interopérabilité, la pérennité et la stabilité de nos données. Cela passe par un travail préparatoire fondamental, par des partenariats avec des acteurs de la communauté scientifique et par des échanges avec des ingénieurs travaillant sur l’interopérabilité des données. Dans la question de l’échange de la réutilisation des données, il est essentiel de s’appuyer sur le travail des autres projets et le poursuivre plutôt que d’innover. Nous accomplissons nous même un travail de synthèse des solutions expérimentées depuis des années par différents projets. Plus généralement, la communauté des chercheurs et des ingénieurs cherche plutôt à harmoniser les identifiants et les méthodes de travail, comme le montre le projet « Fichier national d’entités »[15] lancé par la BNF en 2020 et visant à créer une plateforme commune de production de données d’autorité pour les professionnels des bibliothèques. Nous cherchons donc les identifiants les plus pérennes à appliquer.

Néanmoins, nous ne pouvons maîtriser jusqu’au bout la conservation des données produites ou réunies. Tout d’abord parce que le projet PuppetPlays, comme beaucoup de projet dans l’enseignement supérieur, est limité dans le temps et que nous ne pouvons financer des ingénieurs et des infrastructures pour maintenir et mettre à jour les données. Mais au-delà, la chaîne du traitement de la donnée numérique n’est pas stabilisée : la donnée dite « chaude », en cours de travail, est stockée par le service Nakala d’Huma-Num dans certaines limites, tandis que la donnée « froide », stable et issue d’un projet fini, est hébergée par la plateforme PAC du CINES. Les données ayant un aspect historique doivent quant à elle être archivées par les Archives Nationales. Mais il n’y a presque aucun lien entre ces acteurs, aucune norme commune dans l’acceptation des formats et leur gestion. Plus généralement, il n’y aucune gestion centralisée et générale sur le traitement pérenne des données en SHS. Il convient alors aux acteurs des projets de recherche de développer eux-mêmes leur processus de traitement des données à court, moyen et long-terme sans pouvoir agir a posteriori.

[1] http://www.mshsud.tv/spip.php?article1014

[2] Direction des archives de France et Association des archivistes français, Manuel d'archivistique : théorie et pratique des Archives publiques en France, Paris, SEVPEN, 1970, 805 p.

[3] Cela passe donc par une phase de réduction de la diversité des formats de fichier pour ne garder que quelques formats jugés stables et maintenables à long terme.

[4] https://www.legifrance.gouv.fr/download/pdf/circ?id=35837

[5] https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000033202746/

[6] https://www.horizon2020.gouv.fr/cid82025/le-libre-acces-aux-publications-aux-donnees-recherche.html

[7] Isidore est un portail de recherche. Concrètement, c’est un site internet avec un moteur de recherche où les résultats obtenus sont des pages web d’autres sites internet contenant l’information recherchée. Ce type de portail permet donc de rechercher en simultanée sur des centaines de sites web différents en même temps.

[8] https://www.postgresql.org/about/licence/

[9] Datacite est une plateforme internationale permettant d’attribuer un DOI et incluant notamment un portail appelé « Datacite Search » permettant de faire des recherches parmi toutes les données ayant un DOI.

[10] Archival Reference Key, identifiant créé en 2001 par la bibliothèque numérique de Californie et permettant d’identifier des ressources en ligne. Cet identifiant est surtout employé dans le monde anglo-saxon ainsi que par la France via la BNF et la Belgique.

[11] Virtual International Authority File, identifiant créé en 2003 par l’OCLC, organisme international au service des bibliothèque, afin de réunir tous les catalogues d’identifiants des bibliothèques et les rendre consultables sur un seul site internet.

[12] International Standard Name Identifier, identifiant créé en 2012 par l’Organisation Internationale des Normalisations (ISO) pour identifier au niveau international des personnes physiques ou des organisations ayant créé du contenu intellectuel ou artistique.

[13] IdRef, signifiant Identifiants et Référentiels, est un identifiant des auteurs créé à partir des catalogues des bibliothèques universitaires françaises et un portail permettant de rechercher simultanément dans les catalogues français. Bien que ce soit un identifiant purement français, il faut en France qu’il soit attribué pour obtenir ensuite un identifiant ISNI et un identifiant VIAF internationaux.

[14] Ces documents sont produits hors de nos bureaux ou par des contributeurs extérieurs au projet, loin de nos normes et nos outils de travail. Par exemple, nous ne contrôlons pas le format des productions dans le cadre d’un séminaire, il y a donc une phase de traitement de ces données.

[15] https://www.transition-bibliographique.fr/fne/fichier-national-entites/

PUPPETPLAYS-Reappraising Western European

Repertoires for Puppet and Mationette Theatres

Prof. Dr. Didier Plassard

European Research Council (GA 835193)

Université Paul-Valéry Montpellier 3 (France)

Publisher

PuppetPlays

Electronic reference

Paul Robert, Le traitement des données de la recherche au sein du projet PuppetPlays, Marionnettes et Humanités numériques : les chroniques d’un digital humanist 12 | 2020, Online since 09 February 2021

URL : https://nakala.fr/10.34847/nkl.f3fa265c

DOI : 10.34847/nkl.f3fa265c

Dernière mise à jour : 10/02/2021