Chapitre 1

Introduction

1 Introduction

Les percées technologiques récentes en matière de multimédia ont permis d'accroître les possibilités d'interaction entre l'homme et la machine. La manipulation digitale de graphiques, de sons et d'images animées sur des stations de travail ou des ordinateurs personnels a changé la nature d'un grand nombre d'applications.

En particulier, les applications de traitement de documents électroniques, habituellement dédiées à la création et à la présentation de données textuelles et graphiques, trouvent dans le multimédia des possibilités nouvelles. L'information qu'elles manipulent est plus riche, puisqu'elles intègrent dans ces documents du son et des images animées. Ces nouveaux types de documents électroniques sont communément appelés documents multimédia. Le développement des réseaux de communication rapides permet par ailleurs de relier ces documents pour constituer ainsi des réseaux de documents hypermédia à l'intérieur desquels on peut envisager de naviguer à la manière du World Wide Web.

La présentation des documents électroniques à l'utilisateur a jusqu'ici été effectuée principalement en fonction de leur structure spatiale (présentation graphique et mise en page), de leur structure logique (organisation en chapitres, sections, paragraphes, etc.) et de leur structure sémantique (hypertexte). Un nouveau type de structure est maintenant considéré, la structure temporelle qui décrit l'enchaînement des éléments dans le temps dont certains ont eux-mêmes une dimension temporelle (vidéo, audio, interaction de l'utilisateur...). Les documents étudiés ici sont donc multimédia, temporisés et interactifs. L'intégration de cette nouvelle dimension dans la structure globale d'un document a défini un nouveau type de présentation spécifique aux documents multimédia appelé présentation multimédia. La présentation multimédia constitue l'objet de cette thèse.

Les standards et les modèles employés pour représenter les documents classiques, comme SGML et XML, sont devenus inadaptés pour représenter de tels documents. De ce fait, de nouveaux standards comme HyTime, SMIL, MHEG et PREMO, émergent pour les compléter. Mais les standards ne suffisent pas et il existe peu d'outils pour la création, la modification et la présentation de documents multimédia complexes.

Le travail présenté dans cette thèse a pour objectif de contribuer au domaine de la présentation des documents multimédia, en considérant de façon prioritaire les besoins des auteurs et des lecteurs.

[Table des matières]

2 Motivation et objectifs

Dans les standards proposés pour les systèmes de présentation multimédia comme MHEG et PREMO, ainsi que dans les langages de script des produits commerciaux comme Macromedia Director [Macromedia 95], le contrôle du déroulement de la présentation d'un document multimédia est fondé sur une approche événementielle. Cette approche s'appuie sur la spécification des événements et les actions qui y sont associées. Dans ce cas, la construction d'une présentation se fait au moyen de langages de programmation, selon une approche impérative, pour définir des enchaînements temporels complexes. Cette approche comporte plusieurs inconvénients majeurs, comme la faible portabilité des documents, l'inadaptation de la programmation à la nature incrémentale du processus d'édition, la difficulté de la maintenance des documents ainsi produits, et enfin, les problèmes qu'ont les auteurs non-informaticiens pour les maîtriser. Ces inconvénients peuvent être évités par l'utilisation d'un format déclaratif dans lequel sont spécifiés les contraintes spatiales et temporelles des documents.

La plupart des systèmes multimédia actuels ne couvrent pas tous les types de synchronisation nécessaires entre les objets média, notamment la synchronisation forte qui s'avère intéressante dans le cas de la synchronisation des mouvements de lèvres dans une séquence vidéo avec l'audio correspondant. Le plus souvent, les systèmes ne réalisent qu'un type de synchronisation appelé la synchronisation faible qui synchronise seulement le début de la présentation des objets média. Ainsi, une vidéo et une audio peuvent être synchronisées sur leur démarrage, mais non au cours de leur présentation.

De plus, les standards et les systèmes multimédia actuels ne traitent pas l'incertitude liée à la valeur des informations temporelles de certains types de média. Par exemple, il est difficile de contrôler la durée de présentation d'une vidéo à cause des variations de charge du réseau et/ou de la machine. Un autre cas typique, source d'indéterminisme dans la présentation multimédia, vient de la spécification des interactions utilisateur dans les documents. Cet indéterminisme peut aboutir à une désynchronisation entre les objets média d'un document. Il est donc nécessaire que le système de présentation adopte des techniques qui peuvent rétablir la synchronisation entre les objets média désynchronisés.

Les techniques de navigation adoptées par les systèmes hypermédia actuels ne profitent que d'une petite partie des informations temporelles sur les objets média et sur la spécification temporelle des documents multimédia. Ces informations peuvent être utilisées afin de fournir un ensemble de fonctions de navigation temporelle avancées qui peuvent améliorer la perception de la présentation multimédia.

Ces motivations nous ont conduit à aborder cette thèse selon les objectifs suivants :

La définition d'un format interne du document multimédia à partir duquel le système d'édition et le système de présentation de document multimédia peuvent effectuer respectivement les différentes fonctions d'édition et de présentation.
L'intégration des techniques de synchronisation faible et forte dans le système de présentation.
La définition d'un schéma d'accès aux objets média distants qui permette d'adapter la qualité de la présentation des objets en fonction du débit possible sur le réseau.
La définition d'un mécanisme pour effectuer les opérations de navigation temporelle.
La proposition d'un mécanisme de compensation pour la désynchronisation produite due à l'indéterminisme de la présentation.
La spécification et la mise en oeuvre d'un système de présentation qui réalise les services décrits ci-dessus pour répondre aux besoins de présentation de Madeus, un environnement intégré d'édition et de présentation de documents multimédia.

Les objectifs de cette thèse exposés ci-dessus se situent clairement dans un contexte applicatif, les environnements auteur de documents multimédia dans lesquels les solutions proposées doivent être validées. C'est pourquoi, les résultats attendus de cette thèse sont de deux types, théoriques et expérimentaux :

Les résultats théoriques porteront sur les choix d'architecture d'un système de présentation multimédia qui prend en compte la synchronisation entre les objets média, l'indéterminisme de la durée de certains objets de base, la navigation à travers la présentation de différents documents, l'extensibilité du système de présentation pour présenter de nouveaux formats d'objets média et la gestion de la qualité de présentation des objets média.
Les résultats pratiques quant à eux, seront constitués par la mise en oeuvre des solutions proposées dans le prototype d'édition et de présentation de documents multimédia Madeus, de façon à lui fournir un support de présentation efficace.

[Table des matières]

3 Cadre de travail

Ce travail de thèse s'est déroulé au sein du projet Opéra de l'Inria Rhône-Alpes. Le projet Opéra s'intéresse aux documents électroniques : documents structurés, hypertextes et multimédia. Il étudie des modèles de documents qui rendent compte à la fois de leur organisation logique ou abstraite, de leur présentation graphique, de leur contenu et de leur aspect temporel. Il met également au point des techniques d'édition qui s'appuient sur ces modèles.

La plupart des actions de recherche du projet Opéra trouve leur application dans les logiciels expérimentaux développés dans le projet :

Thot, un système général et paramétrable pour l'édition interactive de documents et d'objets structurés.
Byzance, un système d'édition coopérative pour les documents web.
Madeus, un système d'édition et de présentation de documents multimédia.

Le travail réalisé au cours de ma thèse concerne la présentation des documents multimédia interactifs au sein du système Madeus. Ce travail est complémentaire à celui effectué dans la thèse de Nabil Layaïda [Layaïda 97] qui porte sur la modélisation et l'édition des documents multimédia interactifs dans le système Madeus.

[Table des matières]

4 Plan de la thèse

Ce mémoire de thèse est organisé en deux grandes parties : les deux premiers chapitres fixent le contexte de notre travail en faisant l'analyse des besoins et des applications existantes dans le domaine de la présentation multimédia ; les deux chapitres suivants constituent notre réponse aux problèmes soulevés dans les objectifs cités ci-dessus. Nous détaillons dans la suite le contenu de chacun de ces chapitres :

Chapitre II: Le chapitre II introduit les notions de base sur les systèmes de présentation multimédia. Cette étude aborde dans une première partie les besoins et les caractéristiques d'une présentation multimédia. La deuxième partie présente les fonctions de base qui doivent être fournies par un système de présentation afin de satisfaire les besoins identifiés. La dernière présente une étude comparative des standards HyTime et SMIL utilisés dans le domaine de la spécification de documents multimédia ainsi que des standards MHEG et PREMO utilisés dans le domaine de la présentation multimédia.

Chapitre III: Dans ce chapitre III, nous décrivons le système d'édition et de présentation Madeus. Cette description porte sur son principe de conception, son architecture générale et son interface utilisateur. Nous décrivons ensuite les deux formats de documents utilisés au sein de Madeus : le format pivot et le format interne. Le format pivot est le format de spécification qui permet de décrire les différentes structures d'un document multimédia (logique, spatiale, hypermédia et temporelle). Par contre, le format interne est une interprétation du format pivot qui facilite l'exécution des fonctions d'édition et de présentation sur un document multimédia. Ce format interne représente le point clé duquel dépend ma contribution dans les deux chapitres suivants.

Chapitre IV: Nous décrivons l'architecture et le fonctionnement de la machine d'exécution de Madeus qui effectue les fonctions de présentation en tenant compte de l'interaction utilisateur. Nous décrivons comment cette machine gère les problèmes liés à la synchronisation entre les objets média, à la navigation temporelle à travers les documents multimédia ainsi que à l'indéterminisme de la présentation. En effet, nous présentons les algorithmes que nous avons proposés pour résoudre ces problèmes et les mesures de performance de leur réalisation. De plus, nous montrons comment la machine d'exécution se charge de gérer la création et la mise à jour de l'ensemble des objets média supportés par Madeus.

Chapitre V: Dans le chapitre V, nous décrivons l'architecture et le fonctionnement du gestionnaire de présentation qui agit de façon complémentaire à la machine d'exécution. Ce gestionnaire réalise les fonctions de présentation liées au système de communication, au système d'exploitation et aux périphériques de présentation. Nous décrivons comment le gestionnaire de présentation permet l'accès aux objets média qu'ils soient locaux ou distants et comment la qualité de présentation des objets peut être adaptée en fonction de la bande passante disponible sur le réseau. Ensuite, nous décrivons comment ce gestionnaire résout les problèmes liés à la gestion du traitement des formats différents des objets média, à la communication entre les objets média et à la gestion des événements produits pendant la présentation multimédia. Finalement, nous présentons les fonctions effectuées sur les périphériques de présentation.

Chapitre VI: La conclusion résume les points essentiels de ce travail, fait le bilan de la réalisation du système de présentation de Madeus et présente les perspectives de recherche suggérées par ce travail.