Soutenance de thèse

Le Lundi, 8. décembre 2025 -
9:30 - 13:00
Salle des Actes, Université de Montpellier Paul-Valéry, Site Saint-Charles 1

Mme Julia MARCHAUD 

Soutiendra lundi 8 décembre 2025 à 9 h 30 

Salle des Actes n° 011 à l'Université de Montpellier Paul-Valéry, Site Saint-Charles 1 

une thèse de DOCTORAT

Discipline : Sciences du langage 

Titre de la thèse : Dynamique du développement de la parole en français langue première : un exemple de fouille en syntaxe et en lexique 

Composition du jury : 

  • Mme Sandra BRINGAY, Professeure, Université de Montpellier Paul-Valéry, codirectrice de thèse
  • Mme Emmanuelle CANUT, Professeure, Université de Lille 
  • M. Damien CHABANAL, Professeur, Université Clermont Auvergne
  • Mme Delphine GUEDAT-BITTIGOFFER, Maîtresse de conférences habilitée, Université Angers
  • M. Arnaud SALLABERRY, Professeur, Université de Montpellier Paul-Valéry
  • M. Jérémi SAUVAGE, Professeur, Université de Montpellier Paul-Valéry, directeur de thèse

Résumé de la thèse :

Cette thèse interroge l’acquisition de la parole en français langue première à travers le prisme de la complexité. S’inscrivant dans les sciences du langage et mobilisant les apports de Morin (Morin, 2013) ainsi que de courants tels que le structuralisme, le constructivisme et l’interactionnisme, elle propose d’appréhender le développement langagier comme une dynamique non linéaire, marquée par la variation et l’auto-organisation. L’objectif est de comprendre comment les enfants construisent progressivement la syntaxe et les catégories grammaticales, entre divergences individuelles et régularités communes. Cette perspective s’appuie sur les régularités du français décrites par Abou Haidar (Abou Haidar, 2006), qui souligne l’intérêt d’une approche typologique pour comprendre les structures morphosyntaxiques disponibles à l’enfant. Un corpus composite francophone a été constitué à partir de la base CHILDES. Les transcriptions ont fait l’objet d’un traitement semi-automatique : nettoyage, étiquetage
morphosyntaxique par plusieurs outils (TreeTagger, NLTK, Spacy, Stanza), consolidation des résultats et production de visualisations. Cette méthodologie, développée en dialogue avec les travaux de Sallaberry (Sallaberry et al., 2020) sur le traitement et l’exploration de corpus, a permis d’explorer les dynamiques développementales à grande échelle tout en maintenant une lecture critique des outils numériques. Les analyses révèlent que le développement de la parole n’est pas linéaire : il alterne phases d’avancée rapide, stagnations et régressions apparentes. Les catégories grammaticales n’apparaissent pas simultanément et certaines se stabilisent plus tôt que d’autres. Des différences existent entre enfants, notamment entre filles et garçons, mais l’ensemble des données montre une convergence progressive vers une organisation syntaxique proche de celle de l’adulte. Ces résultats confirment que le développement langagier est un processus complexe et dynamique, où l’ordre émerge du désordre. Cette recherche souligne l’intérêt d’une approche interdisciplinaire croisant sciences du langage, informatique et épistémologie, et met en lumière l’apport comme les limites des méthodes de traitement semi-automatique pour l’étude de grands corpus.

___________________________________

This dissertation explores the acquisition of speech in French as a first language through the lens of complexity. Building on the field of language sciences and drawing on Morin’s (Morin, 2013 theory of complexity as well as perspectives such as structuralism, constructivism and interactionism, it considers language development as a non-linear dynamic process shaped by variation and self-organization. The aim is to understand how children progressively construct syntax and grammatical categories, while revealing both individual divergences and common regularities. This perspective is supported by the work of Abou Haidar (Abou Haidar, 2006), who highlights the importance of a typological approach to the study of morphosyntactic structures available to the child. To address these questions, a composite French corpus was created from the CHILDES database. The transcriptions underwent semi-automatic processing : data cleaning, morpho- syntactic tagging with multiple tools (TreeTagger, NLTK, Spacy, Stanza), consolidation of the outputs, and the production of visualizations. This methodology, developed in dialogue with the work of Sallaberry (Sallaberry et al., 2020) on corpus processing and exploration, enabled large-scale analysis of developmental dynamics while maintaining a critical perspective on the use of digital tools. The analyses show that speech development is not linear : it alternates between rapid advances, periods of stagnation and apparent regressions. Grammatical categories do not emerge simultaneously, and some stabilize earlier than others. Differences are also observed between children, including between boys and girls, but overall the results indicate a gradual convergence toward an adult-like syntactic organization. These findings confirm that language development is a complex and dynamic process, where order emerges from apparent disorder. This research highlights the value of an interdisciplinary approach at the crossroads of language sciences, computer science and the
epistemology of complexity. It also underscores both the contributions and the limitations of semi-automatic corpus processing methods for the study of large-scale data, and contributes to a deeper understanding of the mechanisms of syntactic development in children.

Dernière mise à jour : 26/11/2025