Frist: 2021-05-31

Approches numériques des corpus historiques des langues de France
Robert Hesselbach (Erlangen-Nuremberg) & Tanja Prohl (Bamberg)

L’expansion de la numérisation ouvre aux sciences humaines et en particulier à la linguistique de nouvelles voies de recherche autant méthodiques qu’empiriques. Alors que les processus numériques se sont établis depuis longtemps dans la recherche sur les langues modernes, entre autres en phonétique expérimentale, acoustique ou perceptive (par ex. avec praat ou SpeechRecoder) ou encore en analyse syntaxique (par ex. Freeling), les corpus historiques, en tant qu’éléments de recherche linguistique, représentent encore, sous plusieurs aspects, un défi pour les sciences humaines numériques. La tâche qu’implique la numérisation notamment de vieux manuscrits, ne doit pas être sous-estimée, malgré la maîtrise des logiciels OCR et leur facilité d’utilisation, par ex. OCR4all à l’Université de Würzburg en Allemagne (Reul et al. 2019 ; Wehner 2019 ; Wehner et al. 2020).

En France, notamment à l’université de Lyon, un logiciel d’analyse de texte –TXM (Heiden et al. 2010)– a été mis au point et peut également être utilisé pour des corpus historiques, comme par exemple la Base de Français Médiéval (Guillot-Barbance et al. 2017), qui comprend 170 textes du IXe au XVe siècles (http://txm.bfm-corpus.org/). Par ailleurs, des projets à vocation historique sur la variation diasystématique du français –comprenant des originaux numérisés (cf. CHSF : Corpus Historique du Substandard Français, Thun 2011 & 2016)– témoignent de la pertinence d’une telle perspective de recherche.

Le but du recueil sera de donner un aperçu des travaux actuels dans le domaine de la linguistique de corpus historique qui se servent d’instruments numériques. Ainsi peuvent être thématisées entre autres des questions de lexicologie, de phraséologie, de syntaxe, d’orthographe ou encore de linguistique textuelle. Une attention particulière sera portée sur les méthodes utilisées.

En outre, le recueil se donne pour but de prendre également en compte, à côté du français et de ses variétés diasystématiques, les autres langues de France (par ex. l’occitan, le catalan etc.). Concrètement, des articles concernant les problèmes méthodiques et pratiques suivants seront les bienvenus :

  • Problèmes posés par l’annotation des corpus historiques (orthographes différentes, place des mots, variation diasystématique, …)
  • Problèmes liés à la numérisation des textes historiques
  • Défi concret posé par la constitution de corpus
  • Méthode de dépouillement numérique des corpus historiques
  • Relation entre les méthodes numériques et le contexte historique

Le recueil proposera ainsi un aperçu permettant de mesurer à quel point le potentiel des méthodes de recherches numériques dans le domaine de la linguistique historique est déjà exploité. Nous accueillons les articles concernant tous les aspects de la recherche numérique en matière d’histoire de la langue au sein de la Galloromania et nous encourageons tout particulièrement les jeunes chercheurs et chercheuses à nous envoyer leurs articles. La langue de publication sera le français, les contributions ne doivent pas dépasser 40 000 caractères, espaces compris. Un processus de « Double-blind-peer-review » sera utilisé pour l’évaluation. Veuillez nous contacter pour recevoir la feuille de style. Vous pouvez envoyer votre article à l’adresse électronique suivante jusqu’au 31 mai 2021 : robert.hesselbach@fau.de

Bibliographie
Freeling : http://nlp.lsi.upc.edu/freeling/demo/demo.php (dernier accès le 19.01.2021).

Guillot-Barbance, Céline/Heiden, Serge/Lavrentiev, Alexei. 2017. « Base de français médiéval : une base de référence de sources médiévales ouverte et libre au service de la communauté scientifique », Diachroniques 7, 168–184.
http://txm.bfm-corpus.org/ (dernier accès le 19.01.2021).

Heiden, Serge/ Magué, Jean-Philippe/Pincemin, Bénédicte. 2010. « TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement », in : Bolasco, Sergio/Chiara, Isabella/Giuliano, Luca (eds.) : Proc. of 10th International Conference on the Statistical Analysis of Textual Data – JADT 2010), Vol. 2. Rome : Edizioni Universitarie di Lettere Economia Diritto, 1021–1032.

OCR4all : http://www.ocr4all.org/ (dernier accès le 19.01.2021).

praat : Boersma, Paul/Weenink, David. 2021. Praat: doing phonetics by computer [Computer program]. Version 6.1.38, retrieved 2 January 2021 from http://www.praat.org/ (dernier accès le 19.01.2021).

Reul, Christian et al. 2020. « OCR4all – An Open-Source Tool Providing a (Semi-)Automatic OCR Workflow for Historical Printings », in : ArXiv Preprints (submitted to MDPI – Applied Sciences), 1–54.
https://arxiv.org/pdf/1909.04032.pdf (dernier accès le 19.01.2021).

SpeechRecorder : https://www.bas.uni-muenchen.de/forschung/Bas/software/speechrecorder/ (dernier accès le 19.01.2021).

Thun, Harald. 2011. « Die diachrone Erforschung der français régionaux auf der Grundlage des Corpus Historique du Substandard Français », in : Busse,
Lena/Schlaak, Claudia (eds.): Sprachkontakte, Sprachvariation und Sprachwandel. Festschrift für Thomas Stehl zum 60. Geburtstag, Tübingen : Narr, 359–394.

Thun, Harald. 2018. « Nouvelles perspectives pour une vieille discipline. Le Corpus Historique du Substandard Français (1789-1918) et l’histoire de la langue », in : Steffen, Joachim/Thun, Harald/Zaiser, Rainer (eds.): Classes populaires, scripturalité et histoire de la langue : un bilan interdisciplinaire. Kiel : Westensee, 641–720.

Wehner, Maximilian. 2019. « OCR4all – Texterkennungssoftware für historische Drucke », KulturBetrieb 25, 42–43.

Wehner, Maximilian et al. 2020. « OCR4all – Eine semi-automatische Open-Source-Software für die OCR historischer Drucke », In : Schöch, Christof (ed.): DHd 2020 Spielräume: Digital Humanities zwischen Modellierung und Interpretation (Konferenzabstracts). Universität Paderborn : Digital Humanities im deutschsprachigen Raum e.V., 43–45.
doi: 10.5281/zenodo.3666690 (dernier accès le 19.01.2021).

Beitrag von: Robert Hesselbach

Redaktion: Robert Hesselbach