Motifs, textométrie et stylistique des textes littéraires

Sous la direction de Dominique Legallois (Lattice, Université Sorbonne Nouvelle), Dominique Longrée (Lasla, Université de Liège,) Iva Novakova (Lidilem, Université Grenoble Alpes), Antoine Silvestre de Sacy (Thalim & Lattice, Université Sorbonne Nouvelle)

Ce numéro de la revue Corpus invite les contributeurs à soumettre des analyses mettant en relation la notion (ou les notions) de motif avec des études stylistiques, stylométriques ou textométriques du texte littéraire – quelles que soient la période et la langue du corpus. L’analyse informatisée des textes littéraires (ou non-littéraires) a permis de dépasser la seule étude du mot, et même du segment répété (entendu ici comme suite de mots, de lemmes ou de séquences morphosyntaxiques), pour identifier des configurations à la fois plus larges et plus schématiques que les unités généralement prises en compte dans les travaux lexicographiques, textométriques ou stylométriques. Ces avancées ont bien souvent conduit les chercheurs à adopter une même terminologie – celle de motif – pour désigner des unités répondant parfois à des définitions différentes. On peut se référer d’abord au travail pionnier de Ganascia (2001) qui extrait automatiquement des séquences récurrentes de schèmes abstraits à partir d’arbres syntaxiques. Appliquée à des corpus, la méthode permet d’identifier les caractéristiques stylistiques des textes. Plus récemment, Ganascia et son équipe ont travaillé sur un modèle plus simple, qui consiste à identifier des motifs de POS (part-of-speech) par analyse factorielle (Frontini, Boukhaled, Ganascia. 2018).

À partir des années 2010, Longrée et Mellet (2013, 2018), travaillant sur les textes latins, cherchent à identifier des configurations présentant de multiples variations lexicales, morphologiques et syntaxiques, au point qu’elles peuvent ne plus avoir de points communs en surface ; ces configurations ou motifs se définissent alors comme des micro-structures récurrentes de n éléments pouvant avoir une fonction d’organisateur textuel (mais pas seulement). Elles peuvent spécifier un type de texte, ou des parties de textes lorsque l’analyse est topologique.

Dans un certain nombre de collaborations développées depuis 2012, Legallois propose la conception suivante du motif : un motif est un patron lexico-grammatical séquentiel identifié de manière non supervisée par sa surreprésentation statistique dans un texte ou groupe de textes. Ce patron doit être interprétable : il remplit une fonction sémantique et /ou stylistique. Par une annotation particulière, le motif ici se différencie des suites de formes simples (segments répétés), ou des suites d’étiquettes morpho-syntaxiques (POS_ngrams), pour acquérir une granularité satisfaisante (Legallois, Charnois et Poibeau (2016), Legallois, Charnois et Larjavarra (2018) pour des explications plus développées).

Le terme de motif est également au cœur des travaux menés au laboratoire Lidilem (Université Grenoble Alpes). Ces travaux visent à identifier des patterns de pivots lexicaux spécifiques à des sous-genres littéraires (Novakova & Siepmann, 2020). Pour ce faire, est utilisée une méthode basée sur des corpus syntaxiquement arborés en dépendances syntaxiques (Arbres lexico-syntaxiques récurrents, ALR) afin d’extraire des données sur la combinatoire lexico-syntaxique des unités lexicales (Kraif 2019) en s’appuyant sur la notion de cooccurrence syntaxique. L’extraction de ces arbres prend comme point de départ un pivot lexical (verbal ou nominal, simple ou complexe) et produit un ensemble de sous-arbres récurrents (Kraif, 2016), qu’on peut généraliser sous forme de constructions. La saillance statistique d’un collocatif est repérée sur la base de mesures telle que la keyness (Bertels & Speelman 2013). A la différence de Quiniou et al. (2012), les objets extraits sont des structures hiérarchiques et non séquentielles. La méthode a été implémentée dans le Lexicoscope http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/

Enfin, très récemment, une équipe de chercheurs du laboratoire BCL de l’Université de Nice, en s’appuyant sur des outils d’aide à l’interprétation d’algorithmes de deep learning, explore la « boite noire » des informations cachées dans les couches intermédiaires de l’apprentissage profond de réseaux convolutionnels (Vanni L., Mayaffre D., Longrée D. (2018) ; Vanni L., Corneli M., Mayaffre D., & Precioso F (2023)). Avec cette technique, Hyperdeep, une extension du logiciel de logométrie Hyperbase (https://hyperbase.unice.fr/), est à même, non seulement de prédire l’appartenance d’un texte à un style ou un auteur, mais aussi d’identifier explicitement les caractéristiques linguistiques, apprises par le système, et sur lesquelles reposent l’analyse. Certaines de ces caractéristiques sont là encore appelées motifs.

Au regard de ces multiples approches et définitions, à la fois différentes et complémentaires, on pourrait se demander s’il y a… un motif émergeant dans ces différentes définitions ou conceptions du motif.

Ces approches, conceptions et outils, pour divers qu’ils soient, doivent cependant être considérés comme pouvant former un ensemble cohérent car ils ont pour but commun de tenter de modéliser les textes littéraires en mettant au cœur du système l’interprétabilité des résultats et le retour possible aux textes. Croisant le close et le distant reading, l’analyse des textes littéraires à la lumière du concept de motif semble trouver son point d’unification dans l’utilisation de méthodes mixtes mettant au cœur de son herméneutique le retour aux données.

Les contributions attendues développeront des analyses sur le texte littéraire qui s’appuient sur différentes approches pour étudier des faits de style répondant, plus ou moins directement, à la notion de motif. Les méthodes et outils automatiques de détection devront être présentés et les unités dégagées feront l’objet d’une discussion concernant leur statut, leur valeur et leurs divers cadres d’utilisation.

Calendrier :

  • Mars 2024 : publication de l’Appel
  • 10 juin 2024 : envoi des résumés (2 pages hors bibliographie)
  • 10 juillet 2024 : pré-sélection sur résumé
  • 30 novembre 2024 : remise des articles (30 000 signes)
  • Décembre – Mars 2025 : réponse aux auteurs, allers-retours pour la remise de l’article en forme définitive
  • Avril-Mai 2025 : Publication du numéro
  • Mai 2025 : Parution

Les résumés doivent être envoyés à:
dominique.legallois@sorbonne-nouvelle.fr
dominique.longree@uliege.be
iva.novakova@univ-grenoble-alpes.fr
antoinedesacy@gmail.com

Beitrag von: Ludwig Fesenmeier

Redaktion: Robert Hesselbach