Contenu

[ Université Grenoble Alpes ]

Groupe de recherche sur les enjeux de la Communication Groupe de recherche sur les enjeux de la Communication

Accueil > Axes de recherche > Chantiers de recherche


  • Version PDF

Cluster 13

Mis à jour le 22 novembre 2011

Recherches menées dans le cadre du Cluster 13 : «Culture, patrimoine et création», projet 4 «corpus numérique» - Projet Canu XIX, les canards numériques du XIXe siècle.

Il s’agit donc de construire et d’alimenter une base de données contenant les versions textes et images de ces collections. Au-delà, il s’agit de valoriser ce patrimoine numérique de manière à :

  • permettre au lecteur de construire ses propres documents à partir de ces sources ;
  • permettre aux professionnels des bibliothèques de construire des parcours thématiques ;
  • offrir au lecteur une reconstruction du contexte spatial et temporel dans lequel ces textes et gravures ont été produits.

Une telle application, actuellement visible sur le site de la bibliothèque municipale de Lyon ouvre de nombreux champs de recherche sur les usages et les usagers de ces collections, sur les enjeux de la description de tels documents, sur les notions d’espaces territoriaux et temporels.

Dans le cadre de ce projet, deux études complémentaires sont menées par des membres du GRESEC, l’une orientée sur l’analyse des usages et l’autre sur les traitements de l’information.

La première étude porte sur l’analyse des pratiques de consultation des fonds patrimoniaux, dans des bibliothèques ou des services d’archives, et de leurs représentations par les professionnels permet de contextualiser et d’appréhender de manière plus globale les usages effectifs de ce type de collections : le type d’information recherché, l’activité et l’objectif qui provoquent la consultation de ces collections, les stratégies de recherche que les lecteurs développent. Les premiers résultats montrent que ce type de collections peut être consulté dans un cadre professionnel (chercheurs, journalistes, urbanistes,…) ou de loisirs, et que les recherches effectuées portent sur des thématiques, des événements, des noms de personnes ou de lieux, et enfin des objets particuliers comme les petites annonces, les publicités ou les caricatures.

L’idée qui préside à cette analyse d’usages consiste à considérer que les traitements documentaires et les modalités d’accès à l’information dans ces collections, peuvent être développés en prenant appui sur les pratiques de consultation et de recherche existantes.


La seconde étude poursuit les objectifs suivants :

  • proposer des parcours thématiques destinés au grand public afin de faire découvrir la collection ;
  • proposer des méthodes d’annotation semi-automatiques pour indexer les textes ;
  • définir un langage d’indexation susceptible d’apporter une aide aux indexeurs professionnels ou aux usagers spécialistes de la collection.

Concernant le premier point, une analyse de corpus a été réalisée sur les textes déjà numérisés et ayant fait l’objet d’une reconnaissance optique de caractères. Le corpus comporte 389 « Causeries » (déc. 1890 à juil. 1898), 81 « faits divers » (1890-1892) et 1 375 illustrations. Une analyse des thèmes récurrents a été réalisée dans les textes avec des outils de lexicométrie et dans les illustrations. Concernant le second point, c’est à partir du thème des sciences et des techniques qu’est proposée une méthode d’annotation plus systématique et partiellement automatisée. Cette étude a été menée avec un logiciel de traitement automatique des langues (Nooj) qui permet d’annoter des textes en recourant à des grammaires fondées sur des automates d’états finis. Deux niveaux d’annotation sont proposés : d’une part, au niveau lexical, le vocabulaire scientifique et technique peut être identifié et classé en grandes rubriques thématiques. D’autre part, au niveau sémantique, l’on peut proposer une classification qui décrit les événements, les objets techniques, les institutions, les célébrités régionales ou nationales. Le niveau sémantique est transversal à toutes les thématiques. La création de grammaires permet un balisage automatique des thèmes, avec une correction manuelle relativement peu coûteuse. Sur le plan plus fondamental, l’annotation pose la question de la pertinence des thèmes extraits d’un corpus du XIXe siècle pour des lecteurs du XXIe.

Une journée d’études internationale consacrée à la « Mise en ligne de la presse ancienne » s'est déroulée les 6 et 7 mai 2010 à la bibliothèque municipale de Lyon. Co-organisée par les laboratoires ELICO (Lyon), GRESEC (Grenoble) et la bibliothèque municipale de Lyon, la journée d’études a rassemblé des professionnels des bibliothèques et des archives (BNF, Bibliothèque Nationale Suisse, National Library of Australia, National Library of Congress), des représentants du ministère de la culture, des journalistes, et des chercheurs spécialistes de l’histoire de la presse, de la valorisation de collections numériques et des dispositifs de mise en ligne de collections numérisées. Une publication collective est envisagée.
  • Version PDF

GRESEC - Université Stendhal Grenoble 3 - Institut de la Communication et des Médias
11, avenue du 8 mai 1945 - BP 337 - 38434 Échirolles Cedex