Des corpus d'auteurs pour les humanités à leur exploitation numérique

7-10 juin 2021 Bordeaux (France)

FR EN

Appel à contributions

“10 ans de corpus d’auteurs”

IUT, 1 Rue Jacques Ellul, 33800 Bordeaux

07-10 juin 2021

Pour sa dernière année d’existence, le consortium « Corpus d’auteurs pour les humanités : informatisation, édition, recherche » (CAHIER) souhaite réunir l’ensemble des projets adhérents, mais aussi des représentants d’autres projets et initiatives numériques, pour une rencontre sur les nouveaux savoirs produits dans le domaine des sciences du texte grâce aux corpus numériques et aux bases de données.

Plutôt qu’un bilan du consortium, ce colloque veut être un espace de dialogue entre les différents spécialistes des corpus d’auteurs sur les résultats de l’exploration de ces ressources après leur constitution, gestion, publication et pérennisation, ou après la création de nouvelles applications ou plateformes. Il s’agit ainsi non pas de présenter un projet, une ressource, ou les facilités de consultation et d’interrogation de celle-ci (pas seulement et pas exclusivement en tout cas), mais de se concentrer sur les questions scientifiques que l’on peut résoudre de la sorte, ou sur la constitution de nouveaux champs d’interrogation dans le sillage de la production de corpus numériques. Le colloque attend tout particulièrement des propositions et des communications permettant de mesurer la distance entre les présupposés théoriques de départ, qui ont mené à la constitution du ou des corpus, et les résultats concrets ou les perspectives épistémologiques dégagées à partir de ceux-ci.

Deux axes de réflexion sont proposés :

1. Nouveaux regards sur l’histoire littéraire ou l’histoire des idées

Le “distant reading” de Franco Moretti, les “macro-lectures” de Matthew Jockers et autres études portant sur l’analyse des données du net ont ouvert des pistes et donné des idées sur la façon de penser les phénomènes culturels observables grâce à de grands volumes de données. Toutefois, nous sommes loin d’avoir épuisé la matière et une nouvelle histoire de la littérature, nationale ou mondiale, comme de nouvelles histoires des idées et des arts, restent à écrire. Des critiques commencent d’ailleurs à émerger à propos des approches citées plus haut, appelant par exemple à la constitution d’une “data-rich literary history” (K. Bode) qui prenne mieux en compte les complexités de l’articulation entre recensement numérique de sources, numérisation des textes, création des données et contextualisation historique.

Dès lors, dans le cadre de cet axe le colloque souhaite accueillir des communications portant, par exemple, sur :

l’exploration des données des catalogues de bibliothèques ;
l’analyse en masse de mots clés liés à des projets de numérisation ;
les thésaurus et les ontologies pour l’étude de la littérature, de l’histoire des idées, de la philosophie, et d’autres disciplines des SHS ;
les régularités stylistiques et thématiques à l’échelle d’une génération d’écrivains ;
les ruptures et les innovations nationales et transnationales détectées par ordinateur ;

etc.

2. Linguistique, poétique et génétique numériques

Depuis plusieurs années, l’étude des discours, des genres et des styles a été renouvelée grâce à l’apport de l’informatique. Des ouvrages et numéros de revue récents montrent la fécondité de l’exploration textométrique et stylométrique de grands corpus littéraires, de l’analyse des chaînes de co-référence, de l’interrogation des motifs, de l’identification des entités nommées, des tâches de classification et autres techniques du TAL appliquées aux œuvres littéraires (voir, entre autres, Legalllois et al., 2018 ; Frontini et Ganascia, 2019; Lebart, Pincemin et Poudat, 2019). Ces travaux ont toute leur place dans le colloque qui espère, en outre, susciter un intérêt similaire auprès des spécialistes de la littérature qui se sont moins emparés de ces techniques et de ces résultats. Comment nos perspectives changent-elles sur le fonctionnement narratif, dramatique ou lyrique des textes à la lumière de ces apports ? Comment l’ordinateur permet-il d’observer sur de nouvelles bases la co-construction du sens grâce à la lecture ? Plus largement, quel est l’apport de l’ordinateur à la question insoluble de l’essence de la littérature ?

Par ailleurs, d’intéressantes perspectives ont été ouvertes par le numérique pour étudier, sous des angles nouveaux, le processus de création des œuvres et les avants-textes. Alors que le traitement informatique permet une plus grande précision de la démarche processuelle de la génétique grâce aux images en haute résolution à partir desquelles le généticien peut travailler depuis n’importe quel pays du monde (De Biasi, 2010), l’édition numérique permet de mieux croiser les approches philologiques et génétiques (D’Iorio, 2010), tandis que le balisage des textes (en format XML/TEI) a enfin permis de visualiser la superposition de phases génétiques et de visualiser les strates et traces du processus de création (André, Pierazzo, 2013; Van Hulle, 2018). Même si la plupart des propositions (outils, langages ou méthodes) sont encore exploratoires, la génétique a vu émerger de nouveaux enjeux pour son champ avec le document nativement numérique, des “brouillons” et des traces sous forme de disques durs ou de cloud. Il serait donc intéressant de s’interroger sur la place de l'herméneutique génétique dans ces travaux et projets, sur les progrès possibles dans le domaine de la visualisation des processus de création et sur les perspectives scientifiques de la génétique en tant que “science des processus” (De Biasi, 2017).

Au-delà de ces deux axes, le colloque accueillera toutes les propositions, venant d’horizons disciplinaires variés, qui concernent l’exploitation des corpus d’auteurs en milieu numérique.

À noter que sont également bienvenues les communications réfléchissant sur les limites (matérielles ou conceptuelles) des approches s’inscrivant dans le spectre des humanités numériques. Les participants sont encouragés à mettre en évidence non seulement les résultats obtenus grâce aux corpus qu’ils ont construits ou interrogés, mais aussi les « angles morts » liés à la quantité, la nature et la structure des données utilisées. De même, sont les bienvenues les réflexions portant sur la réutilisation de corpus produits ailleurs et sur la façon de gérer l’hétérogénéité des données qu’une telle réutilisation implique.

Bibliographie

André, Julie ; Pierazzo, Elena, « Le codage en TEI des brouillons de Proust : vers l’édition numérique », Genesis [Online], 36|2013, Online since 09 July 2015, connection on 27 September 2020. URL: http://journals.openedition.org/genesis/1159 ; DOI : https://doi.org/10.4000/genesis.1159

Bode, Katherine, A World of Fiction: Digital Collections and the Future of Literary History, University of Michigan Press, 2018.

D’Iorio, Paolo, “Qu’est-ce qu’une édition génétique numérique ?”, in Genesis, 30, 2010, 49-53.

De Biasi, Pierre-Marc, Herschberg Pierrot, Anne, L’œuvre comme processus, CNRS Edition, Paris, 2017

Galleron, Ioana ; Idmhand, Fatiha, « ‘Réutilisabilité’ : L’utilisateur dans l’édition électronique », Humanistica, numéro 1, 2019. https://revues.univ-lyon3.fr/humanites-numeriques/

Galleron, Ioana ; Idmhand, Fatiha ; Meynard, Cécile, « Que mille lectures s’épanouissent… Modélisation du personnage et expérience de "crowdreading" » in Digital Humanities Quaterly, 1938-4122, 2018, http://www.digitalhumanities.org/dhq/vol/12/1/000363/000363.html

Galleron, Ioana; Fatiha Idmhand, Marie-Luce Demonet, Cécile Meynard, Elena Pierazzo, et al. LES PUBLICATIONS NUMERIQUES DE CORPUS D'AUTEURS - Guide de travail, grille d'analyse et recommandations (V1-Novembre 2018). [Rapport de recherche] Huma-Num ; identifiant : halshs-01932519

Ganascia, Jean-Pierre, Frontini, Francesca, TAL et humanités numériques, numéro spécial de la Revue TAL, vol. 60, no. 3, 2019.

Jockers, Matthew, Macroanalysis. Digital Methods and Literary History, University of Illinois Press, 2013.

Lebart, Ludovic, Pincemin, Bénédicte et Poudat, Céline, Analyse des données textuelles, Presses de l’université du Québec, 2019.

Legallois, Dominique, Thierry Charnois, and Meri Larjavaara, The Grammar of Genres and Styles. From Discrete to Non-Discrete Units,De Gruyter Mouton, 2018.

Moretti, Franco. Distant reading. New York, Verso, 2013.

Van Hulle, Dirk, “Intégrer la bibliothèque d’écrivain aux éditions génétiques numériques : le cas Beckett”, in Belin, Olivier, Mayaux, Catherine, Verdure-Mary, Anne, Bibliothèques d’écrivains : Lecture et création, histoire et transmission, Rosenberg & Sellier, Torino, 2018. https://doi.org/10.4000/books.res.1856.

Téléchargez l'appel ici.

Types de communications acceptées

Le colloque accueillera quatre types de propositions:

1. Des communications orales longues donnant lieu à 20 minutes de présentation et au moins à dix minutes de discussion. Les propositions pour les communications orales longues doivent comporter entre 1500 et 2000 mots (hors bibliographie, notes de bas de page incluses). Elles présenteront une ou plusieurs conclusions majeures d’un travail de recherche abouti.

Dans la version complète, ces communications auront une longueur comprise entre 6000 et 9000 mots (hors bibliographie, notes comprises).

2. Des communications orales courtes, donnant lieu à 10 minutes de présentation et à 5 minutes de discussion. Les propositions pour les communications orales courtes doivent comporter entre 750 et 1500 mots (hors bibliographie, notes de bas de page incluses). Elles feront le point sur un travail de recherche en cours et ouvriront des perspectives sur les résultats attendus.

Dans la version complète, ces communications auront une longueur comprise entre 4000 et 5000 mots (hors bibliographie, notes comprises).

3. Des tables rondes, impliquant 3 à 5 communicants et un modérateur ou une modératrice. La durée des tables rondes est fixée à 1h30. Il est attendu que les présentations initiales n’excèdent pas 10 minutes par communicant, et qu’un véritable dialogue soit engagé par la suite à la fois entre les communicants, le modérateur et la salle.

Les propositions de table ronde comporteront entre 1500 et 2000 mots. Elles devront présenter la problématique, le modérateur, les communicants et leur expertise en lien avec la problématique, les questions ouvertes à être débattues avec la salle. Les propositions de table ronde seront déposées par le modérateur, au nom de l’ensemble des communicants dont il recherchera au préalable l’accord.

4. Des posters: propositions de 500 mots (hors bibliographie, notes comprises), présentant une ressource dans la perspective des questions scientifiques à partir desquelles elle a été conçue, ou une expérimentation en cours.

Pour soumettre une proposition, connectez-vous à votre compte sciencesconf ici ou créez un compte là.

Langues du colloque et calendrier

Langues du colloque

Les communications et les discussions pendant le colloque auront lieu en français. Les actes seront publiés en français ou en anglais, au choix des communicants. Le volume collectif (v. infra) issu du colloque sera publié en anglais.

Calendrier

31 janvier 2021: date limite d’envoi des propositions, en français sur la plateforme https://cahier10.sciencesconf.org/ (ouverture de la plateforme le 26 octobre 2020)

21 février 2021: notification d’acceptation ou de rejet

26 avril 2021: ouverture des inscriptions au colloque

15 mai 2021: date limite d’envoi des communications complètes, en français ou anglais, ou des résumés définitifs

26 mai 2021: fin des inscriptions au colloque

07-10 juin 2021: Colloque “Dix ans de corpus d’auteurs”

10 juillet 2021: notification d’inclusion dans le volume collectif

23 août 2021: envoi des textes définitifs pour les publications

Publication

Publication

Les travaux du colloque donneront lieu à deux types de publications:

un volume numérique d’actes, réunissant les résumés, ou les communications complètes reçues à temps, de l’ensemble des communications acceptées;
un volume collectif, en anglais, intitulé Computer-assisted Literary Studies, publié par un éditeur reconnu, en open access.

Pour ce volume collectif, une sélection sera effectuée, principalement - mais pas exclusivement - à partir des communications longues. Si des communications courtes sont repérées comme particulièrement intéressantes, elles pourront être étoffées en vue de cette publication. Une discussion à propos de la traduction en anglais sera portée, le cas échéant, avec les auteurs des communications.

Dans tous les cas, seules les communications complètes parvenues avant le début du colloque (v. calendrier) seront considérées pour publication dans ce volume collectif.

Personnes connectées : 2

Vie privée