Дисертації: "Synthèse vidéo"

1

Rocher, Pierre-Olivier. "Transmodalité de flux d'images de synthèse." Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET2026/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ces dernières années, l’utilisation de la vidéo comme support de diffusion de l’information est devenue prépondérante. Selon certains analystes, d’ici 2017, environ 90% de la bande passante mondiale sera consommée par des services utilisant des flux vidéos. Basées sur ce genre de services, les solutions de cloud gaming se démocratisent. Ces solutions ont été imaginées dans un contexte de développement fort du paradigme de cloud computing, et elles ont été dopées par la prolifération des terminaux mobiles ainsi que par la qualité des réseaux qui ne cesse de croître. Les technologies mises en œuvre dans ce type de solutions se réfèrent au rendu à distance. Pour permettre au plus grand nombre l’accès à ce type d’applications, mais aussi pour maximiser le nombre de clients par serveur, il est primordial de maîtriser au mieux la bande passante nécessaire au bon fonctionnement du service. Toutes les solutions de cloud gaming existantes utilisent une compression vidéo pour la transmission des images générées sur un serveur et à destination d’un client : le pixel règne en maître. Néanmoins, il existe bien d’autres façons de représenter une image numérique, notamment de manière paramétrique. Un certain nombre de travaux – à la fois sur l’image et la vidéo – montrent que cette approche est viable. Dans cette thèse, nous proposons un espace de représentation hybride afin de réduire le débit binaire. Notre approche repose à la fois sur une approche pixel, mais aussi sur une approche paramétrique pour la compression d’un même flux vidéo. L’utilisation de deux systèmes de compression nécessite la définition de zones, auxquelles s’appliqueront les différents encodeurs. Pour le cas d’utilisation choisi, l’utilisateur étant un joueur impliqué de manière active dans la chaîne de rendu, il est intéressant d’utiliser un partitionnement de l’image dépendant des zones ou se porte son attention. Pour déterminer les zones importantes à ses yeux, un eye-tracker a été utilisé sur plusieurs jeux et par plusieurs testeurs. Cette étude permet de mettre en avant différentes corrélations, tant au niveau des caractéristiques des images que du type de jeu utilisé. Cette étude permet de connaître les zones que le joueur regarde ou ne regarde pas directement (obtention des « cartes d’attention sélective »), et ainsi de gérer les encodeurs en conséquence. Nous établissons ensuite l’architecture et l’implémentation d’un tel encodeur multimodal (que nous appelons « transmodeur ») afin d’établir la preuve de réalisation d’un tel encodeur. Profitant alors de la maîtrise complète de l’implémentation, nous nous livrons ensuite à l’analyse de l’influence des paramètres de notre transmodeur quant à son efficacité au moyen d’une étude objective. Le transmodeur a été intégré dans la chaîne de rendu utilisée par le projet XLcloud. Un certain nombre d’améliorations (au niveau des performances notamment) seront nécessaires pour une utilisation en production, mais il est dès à présent possible de l’utiliser de manière fluide en se limitant à des résolutions spatiales légèrement inférieures au 720p et à 30 images par seconde
The use of video as an information dissemination support has become preponderant during the last few years. According to some analysts, by 2017 approximately 90% of the world's bandwidth will be consumed by video streaming services. These services have encouraged cloud gaming solutions to become more democratic. Such solutions have been devised in the context of strong development of the cloud-computing paradigm, and they were driven by the proliferation of mobile devices as well as growing network quality. The technologies used in this kind of solutions refer to as remote rendering. They allow the execution of multiple applications, while maximizing the number of clients per server. Thus, it is essential to control the necessary bandwidth to allow the required functionality of various services. The existing cloud gaming solutions in the literature use various methods of video compression to transmit images between sever and clients (pixels reigns supreme). However, there are various other ways of encoding digital images, including parametric map storage and a number of studies encourage this approach (for both image and video). In this thesis, we propose a hybrid representation of space in order to reduce the bit rate. Our approach utilizes both pixel and parametric approaches for the compression of video stream. The use of two compression techniques requires defining the area to be covered by different encoders. This is accomplished by including user to the life cycle of rendering, and attending to the area mostly concerned to the user. In order to identify the area an eye-tracker device was used on several games and several testers. We also establish a correlation between the characteristics of images and the type of game. This helps to identify areas that the player looks directly or indirectly (“maps of selective attention"), and thus, encoders are manager accordingly. For this thesis, we details and implement the architecture and algorithms for such multi-model encoder (which we call "transmodeur") as proof of concept. We also provide an analytical study of out model and the influence of various parameters on transmodeur and describe in effectiveness through an objective study. Our transmodeur (rendering system) has been successfully integrated into XLcloud project for rendering purposes. A number of improvement (especially in performance) will be required for production use, but it is now possible to use it smoothly using spatial resolutions slightly lower than 720p at 30 frames per second

2

Moinard, Matthieu. "Codage vidéo hybride basé contenu par analyse/synthèse de données." Phd thesis, Telecom ParisTech, 2011. http://tel.archives-ouvertes.fr/tel-00830924.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les travaux de cette thèse sont destinés à la conception d'outils algorithmiques permettant d'accroître le facteur de compression des standards actuels de codage vidéo, tels que H.264/AVC. Pour cela, une étude préalable portant sur un ensemble de méthodes de restauration d'image a permis d'identifier et d'inspecter deux axes de recherche distincts. La première partie est fondée sur des méthodes d'analyse et de synthèse de texture. Ce type de procédé, aussi connu sous le nom de template matching, est couramment utilisé dans un contexte de codage vidéo pour prédire une portion de la texture de l'image suite à l'analyse de son voisinage. Nous avons cherché à améliorer le modèle de prédiction en prenant en compte les spécificités d'un codeur vidéo de type H.264/AVC. En particulier, la fonction débit/distorsion utilisée dans les schémas de codage vidéo normatifs se base sur une mesure objective de la qualité. Ce mécanisme est par nature incompatible avec le concept de synthèse de texture, dont l'efficacité est habituellement mesurée selon des critères purement perceptuels. Cette contradiction a motivé le travail de notre première contribution. La deuxième partie des travaux de cette thèse s'inspire des méthodes de régularisation d'image basée sur la minimisation de la variation totale. Des méthodes ont été élaborées originellement dans le but d'améliorer la qualité d'une image en fonction de la connaissance a priori des dégradations qu'elle a subies. Nous nous sommes basés sur ces travaux pour concevoir un modèle de prédiction des coefficients transformés obtenus à partir d'une image naturelle, qui a été intégré dans un schéma de codage vidéo conventionnel.

3

Chevrier, Christine. "Génération de séquences composées d'images de synthèse et d'images vidéo." Nancy 1, 1996. http://www.theses.fr/1996NAN10121.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les études d'impact en architecture sont réalisées jusqu'à présent sur la base de dessins, de photographies retouchées, de maquettes ou plus récemment encore d'images de synthèse. Mais ces techniques sont coûteuses et peu réalistes. La synthèse d'image seule nécessite une modélisation tridimensionnelle non seulement de la future construction mais aussi de son environnement (immeubles, rues, ouvrages d'art, végétation, etc). Cette façon de procéder s'avère longue et fournit des images peu réalistes eu égard à la complexité du monde réel et à l'impossibilité d'en modéliser tous les détails. La composition d'images de synthèse et de photographies peut être un autre moyen de représentation plus fiable et plus rapide. L'incrustation d'images de synthèse de projets dans leur site réel que l'on a préalablement photographié est une technique prometteuse à la fois du point de vue temps car elle ne nécessite pas de modélisation détaillée de l'environnement existant, et du point de vue réalisme car celui-ci est garanti par la photographie même. Une telle technique où la réalité est «augmentée» par l'addition d'images d'objets qui ne sont encore que virtuels (puisqu'à l'état de projet) pose néanmoins de nombreux problèmes qu'il convient de résoudre pour obtenir une cohérence au niveau de l'image, à la fois du point de vue géométrique et du point de vue photométrique. Pour ce faire, la conception et la mise en oeuvre de modèles d'analyse et de synthèse d'images sont nécessaires. Appliquée dans le cadre du calcul d'une séquence d'images (ou film vidéo) et non plus dans celui d'une seule image, cette technique peut augmenter le réalisme d'une simulation de façon spectaculaire. L’objectif de ce travail était la mise au point, le test et l'intégration de diverses méthodes d'analyse et de synthèse pour la composition réaliste d'images de synthèse et d'images vidéo dans le cadre de la simulation de projets d'architecture et de projets urbains. Ce mémoire présente les différentes étapes nécessaires à l'incrustation réaliste d'objets virtuels dans un environnement réel. Pour chacune de ces étapes, diverses méthodes ont été proposées, mises en oeuvre et testées afin de sélectionner la ou les solutions les plus adaptées et de les intégrer dans la plate-forme de développement de l'équipe. L'application de cette étude a été la simulation du projet d'éclairage du Pont Neuf à Paris dans une séquence vidéo. Parallèlement à ce travail d'intégration, je me suis plus particulièrement intéressée au problème posé par la génération de séquences d'images de synthèse afin d'accélérer le processus d'incrustation de ces images dans des films vidéo. Une nouvelle technique d'interpolation d'images de synthèse est ainsi présentée (dans le cas où un observateur se déplace dans une scène statique). Cette méthode est générale (non limitée aux environnements parfaitement diffus) et ne requiert aucune approximation du mouvement de la caméra. De plus, cette méthode permet d'interpoler des images entrelacées comme le sont les images vidéo, dans le but d'un meilleur résultat visuel
The visual impact assessment of architectural projects in urban environments is usually based on manual drawings, paintings on photographs, scale models or computer-generated images. These techniques are either too expensive or not realistic enough. Strictly using computer images means requiring an accurate 3D model of the environment. Computing such a model takes a long time and the results lack of visual accuracy. Our technique of overlaying computer generated images onto photographs of the environment is considerably more effective and reliable. This method is a promising solution regarding computation time (no accurate 3D model of the environment) as weIl as visual realism (provided by the photograph itself). Such a solution requires nevertheless to solve lots of problems in order to get geometrical and photometrical coherence in the resulting image. To this end, image analysis and image synthesis methods have to be designed and developed. The method is generalized to produce an animated film, and can furthermore greatly increase the realism of the simulation. My Ph. D. Work was to test and integrate various image analysis and synthesis techniques for the composition of computer generated images with pictures or video film. This report explains the steps required for a realistic encrustation. For each of these steps, various techniques were tested in order to be able to choose the most suitable solutions according to the state of the most recent researches and to the applications we were dealing with (architectural and urban projects). The application of this work was the simulation of the Paris Bridges illumination projects. Concurrently to this work, I present a new method for the interpolation of computer images for the generation of a sequence of images. This method requires no approximation of the camera motion. Since video images are interlaced, sequences of computer images need to be interleaved too. The interpolation technique we propose is capable of doing this

4

Beaumesnil, Brice. "Suivi labial couleur pour analyse-synthèse vidéo et communication temps-réel." Pau, 2006. http://www.theses.fr/2006PAUU3048.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le problème abordé dans cette thèse concerne l'extraction vidéo et le suivi de points caractéristiques de la bouche d'un locuteur en vue d'animer de façon réaliste et en temps réel un clone de synthèse dans des conditions d'éclairage suffisantes mais non contraintes (typiquement un éclairage de bureau) sans exploitation d'information sonore. Nous avons cherché à étudier les différentes techniques existant dans le domaine pour les modifier afin de les adapter à notre cas de figure. Tout d'abord nous avons choisi l'utilisation d'un espace couleur non-linéaire peu sensible à la luminosité afin d'en extraire une teinte lèvre permettant une bonne discrimination par rapport au reste du visage. Cette teinte est ensuite segmentée par un outil de classification pour pouvoir détecter la position de bouche ainsi que ses contours. Afin de rendre l'algorithme plus robuste nous avons utilisé l'information issue de la synthèse du visage pour guider l'analyse de la bouche (technique de contre-réaction). L'utilisation de méthodes dites de bas niveau nous procure l'avantage par rapport aux nombreux autres travaux existants de ne pas avoir à réaliser de base d'apprentissage. De plus, leurs paramétrages dynamiques assurent une grande robustesse aux conditions d'éclairage et aux différents types de peau des locuteurs. Le travail réalisé nous a permis d'obtenir une chaîne globale de traitement allant de la capture vidéo du locuteur jusqu'à l'animation d'un clone de synthèse. Un prototype complet opérationnel permet de réaliser des animations en temps-réel avec de nombreux individus sous différents types d'éclairage
The objective of this thesis is to extract and to track relevant primitives of the mouth in a nonconstrained environment (typically o_ce lighting) to make a realistic animation of a synthetic 3D face model in real-time without audio information. We sought to study various existing methods to adapt them to our problem. First we define a lip hue based on a non-linear color space (little sensitive to lighting variation) in order to exhibit very distinctly skin and lip hue areas on the speaker's face. This hue is then segmented by a clustering algorithm to be able to detect the position of the mouth and its contours. In order to make the algorithm more robust we use synthesis information (feedback loop) of the face to guide the mouth analysis. Low-level methods give us the avantage not to use a database compared to many existing works (typically AAMs). Moreover, their dynamic control ensures a great robustness to the lighting exposition and to the various types of speaker's skin. With this work we have realized a global analysis/synthesis chain (going from the video capture of the speaker until the clone animation). An operational prototype enables us to make animations in real time with many speakers under various types of lighting

5

Ong, Lolet Yin-Ty. "Techniques numériques appliquées à la synthèse, aux traitements d'image et à la production vidéo." Paris 8, 1998. http://www.theses.fr/1998PA081695.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Il y a encore quelques temps, le numerique etait l'apanage des professionnels, il touche aujourd'hui tous les domaines de la creation et de la distraction. De la television grand public aux effets speciaux cinematographiques en passant par l'informatique individuelle, il revolutionne les habitudes et affirme sa domination. Profondement bouleversee depuis quelques annees par l'image de synthese, les traitements numeriques de l'image et du son, la pratique video change radicalement de visage. Quelles sont les techniques a l'origine de cette invasion numerique? qu'apportent-elles? quelles sont les nouvelles donnees mises en jeu?

6

Rempulski, Nicolas. "Synthèse dynamique de superviseur pour l'exécution adaptative d'applications interactives." Thesis, La Rochelle, 2013. http://www.theses.fr/2013LAROS407/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse a pour objectif de proposer des solutions aux problématiques de la narration interactive. Nous souhaitons ainsi proposer une méthode de conception pour les auteurs, ainsi qu’une logique d’exécution utilisant ce modèle pour contrôler la construction d’un récit. Nous appliquons nos travaux au contexte des jeux vidéo, mais souhaitons adresser la narration interactive dans une dimension plus large. Nous abordons la narration interactive comme une déstructuration de la narration classique. Le processus de création du récit n’est ainsi plus à la seule charge de l’auteur, mais implique également le public. Au travers d’une revue de la narration classique, nous souhaitons donc, dans un premier temps, formaliser le récit et ses enjeux. Nous utilisons ensuite le concept d’œuvre en mouvement pour identifier les processus et acteurs mis en jeu dans la coproduction d’une œuvre, et ainsi définir les enjeux de nos travaux. Pour adresser ces problématiques, nous proposons un modèle de la narration interactive à base d’automates. Celui-ci permet un contrôle et une vérification des récits possibles, tant lors de la conception, que dynamiquement à l’exécution. Cependant ce formalisme peut être complexe à prendre en main pour des auteurs non-initiés. Ainsi, nous formulons un modèle de haut-niveau, basé sur les concepts de la narratologie, permettant à ces derniers de créer un modèle de narration interactive en manipulant des concepts qu’ils maitrisent. Ce modèle est alors converti vers notre modèle à base d’automates. Ce dernier sert alors de référent pour le contrôle dynamique de la narration interactive par un superviseur multi-agents. Celui-ci, par observation des évènements produits dans le jeu vidéo, est alors en mesure de contrôler le récit en cours de production pour garantir les critères de qualités spécifiés par l’auteur. Nous proposons une implémentation de notre approche sous la forme d’un framework, comprenant notamment des outils auteurs d’édition des modèles que nous définissons, mais également les algorithmes de supervision nécessaires à l’asservissement de l’univers virtuel du jeu vidéo
This PhD thesis has for objective to propose solutions to interactive storytelling problems. We aim to propose a design method for the authors, as well as a logic of execution using this model to control the narrative unfolding. We apply our works in the video games context, but wish to address interactive storytelling in a wider dimension. We so approach the interactive story as a breakdown of the classic storytelling. Indeed, interactive storytelling creation process is not any more only under the author responsability, but also involves spectators. Through a review of the classic storytelling, we thus wish, at first, to formalize storytelling and its stakes. We use then the concept of ”œuvre en mouvement” to identify processes and actors involved in this creation process of a work, and thus to define the stakes in our research works. We propose an interactive storytelling mode base on automata. This one allows a controland a check on possible narratives, during design as well as dynamically while producing the story. However this formalism is complex to handle by authors. So, we formulate a top-level model, based on storytelling concepts, allowing authors to create an interactive story model using concepts they know. This model is then converted into our automaton based model. The latter serves then as referent for the dynamic control of the interactive storytelling, done by a supervisor multi-agents. This one, by observing produced events in the video game, is then able of controlling and guarantee the quality criteria specified by authors. We propose an implementation of our approach in a framework, including authoring tools to edite our models. We also implements automata check and supervision algorithms necessary to control video game virtual universe

7

Racapé, Fabien. "Mise en Œuvre de Techniques d'Analyse/Synthèse de Texture dans un Schéma de Compression Vidéo." Phd thesis, INSA de Rennes, 2011. http://tel.archives-ouvertes.fr/tel-00680826.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s'inscrit dans le contexte des schémas de compression vidéo de nouvelles générations. Elle vise plus particulièrement à coder plus efficacement les régions texturées des images et séquences vidéo que les schémas actuels. Ces zones sont souvent dégradées lors de codage à bas débit, provoquant des aplats visuellement dérangeants. Ce travail est fondé sur les propriétés du système visuel humain, qui préfèrera une zone texturée synthétisée avec des détails, même un peu éloignée de la réalité, plutôt que des aplats. L'idée est ici d'adapter les algorithmes de synthèse de texture de la littérature, afin de reconstruire, au décodeur, des régions qui n'auront pas été intégralement transmises. L'approche est construite de manière à être utilisée conjointement avec les standards de compression actuels ou futurs. L'analyse de la séquence source, côté encodeur, utilise des outils de segmentation et de caractérisation de texture, afin de localiser les régions candidates pour la synthèse. Les régions qui ne sont pas synthétisables sont encodées classiquement par le codeur joint, elles seront décodées et serviront potentiellement d'échantillons de départ pour la synthèse des zones manquantes. L'ensemble des outils ont été développés et adaptés dans l'optique principale de proposer une chaîne cohérente. L'analyse des textures comportant des outils de segmentation et de caractérisation permettant de paramétrer les algorithmes de synthèse. Aussi la solution proposée inclut l'utilisation de deux types de synthèse : une version orientée " pixel " et l'autre orientée " patch ". Une première approche est présentée pour un codage intra image. Le schéma est ensuite couplé à une méthode d'estimation et de modélisation affine de mouvement par région, afin d'optimiser le traitement des textures rigides et de synthétiser les régions déformables. Fondé sur des outils de synthèse, le schéma est difficilement estimable à l'aide de critères objectifs. A qualité visuelle comparable, il permet, par exemple, de préserver jusqu'à 35% de débit, comparé à l'encodage de H.264/AVC, sur différentes séquences SD et CIF.

8

Goujet, Raphaël. "Hero.coli : a video game empowering stealth learning of synthetic biology : a continuous analytics-driven game design approach." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCB175.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les jeux vidéo ont prouvé leur valeur en tant que loisir et qu'outil pédagogique, que ce soit dans l'éducation ou dans le monde professionnel. Cependant, les jeux éducatifs doivent intégrer des stratégies pédagogiques et être finement ajustés pour être efficaces, et adoptés. La biologie de synthèse est une discipline émergente d'ingénierie centrée sur la conception de systèmes vivants pour accomplir des fonctions contrôlées. Elle partage des concepts avec les jeux vidéo de crafting et d'ingénierie. Nous avons conçu le premier jeu vidéo de biologie de synthèse, baptisé Hero.Coli, pour la vulgarisation et l'éducation. Pour intéresser et engager les joueurs volontaires et involontaires, c'est-à-dire les internautes lambda et les étudiants, notre principale stratégie est l'utilisation de techniques d'UX et d'apprentissage furtif. Cela consiste à créer un jeu éducatif sans coupure dans l'expérience (phases explicites d'apprentissage ou d'évaluation), par imitation des jeux commerciaux à succès. Les données d'utilisation ont été analysées en continu pour pouvoir améliorer le jeu, en identifiant les problèmes de game design, les mauvaises compréhensions révélées au posttest ainsi que les phases d'apprentissage réussies. J'ai validé l'utilité du jeu en comparant les pré- et posttests des joueurs (n=89). En moyenne, le pourcentage de réponses correctes s'accroît de 32 points de pourcentage par question entre le prétest et le posttest. Les plus grands accroissements se produisent pour les questions de plus haut niveau conceptuel, par opposition aux questions portant sur le lexique. Cela correspond à ce que l'on peut attendre d'un apprentissage furtif, qui met plus l'accent sur le fonctionnement (les mécaniques de jeu) que sur le lexique. J'ai ensuite corrélé différents paramètres des traces des joueurs avec leurs scores de posttest. Enfin, nous avons aussi établi à partir des caractéristiques des joueurs que l'intérêt pour la biologie est plus critique que la formation pour expliquer la variance dans le score. Ces résultats pourraient conduire à des innovations en apprentissage adaptatif comme des retours personnalisés, que ce soit virtuellement ou en présentiel. De façon plus générale, la méthodologie de développement d'Hero.Coli peut servir d'exemple pour le développement futur de solutions d'apprentissage par le jeu : conception, suivi (tracking et analytics), itération rapide et test, et évaluation finale
Video games have demonstrated their value as a hobby and as a pedagogic tool, both in academic and professional fields. However, learning video games have to integrate pedagogical strategies and be fine-tuned to be efficient and adopted. Synthetic biology is an emerging field focusing on engineering living systems to achieve controlled functions. It shares concepts with crafting and engineering games. We designed the first synthetic biology crafting game, named Hero.Coli, for popularization and learning. In order to engage both forced and voluntary users, ie students and citizens, our main pedagogical strategy is stealth learning. This means creating an educational game with no interruption in the experience - due to explicit learning or assessment phases -, mimicking successful mainstream games. I used embedded analytics to continuously refine this new pedagogical tool, by spotting the bottlenecks and issues in level design, the eventual misconceptions revealed in posttests, and the learning successes. I validated the usefulness of the game by comparing pre- and posttests of players (n=89). I found an average of 32 percentage point increase between pretest and posttest correct answer rate per question. The higher achievements stemmed mainly from higher-order thinking questions as compared to lexical questions. This is in line with our expectation from the chosen stealth learning strategy, which prioritizes function - game mechanics - over lexicon. I then correlated different user tracking parameters to their posttest scores. Lastly, by analyzing surveys, we also revealed that interest in biology is more critical than education to explain the variance in learning. These results could lead to future adaptive learning improvements including user-tailored feedbacks, in-game or in-class. Overall, the Hero.coli framework facilitates future implementations of game-based learning solutions by exemplifying a methodological approach of game development: design, tracking and analytics, quick iteration and testing, and final evaluation

9

Roquier, Ghislain. "Etude de modèles flux de données pour la synthèse logicielle multiprocesseur." Rennes, INSA, 2004. http://www.theses.fr/2008ISAR0020.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le parallélisme est une caractéristique importante des plates-formes modernes de calcul, et ce, depuis les processeurs multi-cœurs jusqu'aux circuits logiques programmables. Le paradigme de programmation séquentielle jusqu'à présent utilisé dans le cadre logiciel n'est plus adapté. Les travaux présentés dans ce mémoire trouvent leurs fondements dans la méthodologie AAA basée sur les graphes qui permet la construction à haut-niveau de programmes parallèles. Ces travaux ont permis d'élargir le spectre des applications modélisables par la spécification d’un nouveau formalisme de graphe. De plus, ces travaux ont été mis à profit dans le cadre de la norme MPEG RVC. Les travaux présentés dans ce mémoire montrent la contribution à cet environnement par la spécification et le développement d'un outil de synthèse logicielle
Parallelism is a universal characteristic of modern computing platforms, from multi-core processorsto programmable logic devices. The sequential programming paradigm is no longer adapted in thecontext of parallel and distributed architectures. The work presented in this thesis document findtheir foundation in the AAA methodology to build parallel programs based on an high-level representationsof both application and architecture. This work has enabled to extend the class of applications that can be modelled by the specification of new graph formalism. The final part of the document shows our involvement in the MPEG RVC framework. The RVC standard intends to facilitate for building the reference codecs offuture MPEG standards, which is based on dataflow to build decoder using a new dataflow languagecalled CAL. This work has enabled to specify and develop a software synthesis tool that enables anautomatic translation of dataflow programs written in CAL

10

Tiger, Guillaume. "Synthèse sonore d'ambiances urbaines pour les applications vidéoludiques." Thesis, Paris, CNAM, 2014. http://www.theses.fr/2015CNAM0968/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Suite à un état de l'art détaillant la création et l'utilisation de l'espace sonore dans divers environnements urbains virtuels (soundmaps, jeux vidéo, réalité augmentée), il s'agira de déterminer une méthodologie et des techniques de conception pour les espaces sonores urbains virtuels du point de vue de l'immersion, de l'interface et de la dramaturgie.ces développements se feront dans le cadre du projet terra dynamica, tendant vers une utilisation plurielle de la ville virtuelle (sécurité et sureté, transports de surface, aménagement de l'urbanisme, services de proximité et citoyens, jeux). le principal objectif du doctorat sera de déterminer des réponses informatiques concrètes à la problématique suivante : comment, en fonction de leur utilisation anticipée, les espaces sonores urbains virtuels doivent-ils être structurés et avec quels contenus?la formalisation informatique des solutions étayées au fil du doctorat et la création du contenu sonore illustrant le projet seront basés sur l'analyse de données scientifiques provenant de domaines variés tels que la psychologie de la perception, l'architecture et l'urbanisme, l'acoustique, la recherche esthétique (musicale) ainsi que sur l'observation et le recueil de données audio-visuelles du territoire urbain, de manière à rendre compte tant de la richesse du concept d'espace sonore que de la multiplicité de ses déclinaisons dans le cadre de la ville virtuelle
In video gaming and interactive media, the making of complex sound ambiences relies heavily on the allowed memory and computational resources. So a compromise solution is necessary regarding the choice of audio material and its treatment in order to reach immersive and credible real-time ambiences. Alternatively, the use of procedural audio techniques, i.e. the generation of audio content relatively to the data provided by the virtual scene, has increased in recent years. Procedural methodologies seem appropriate to sonify complex environments such as virtual cities.In this thesis we specifically focus on the creation of interactive urban sound ambiences. Our analysis of these ambiences is based on the Soundscape theory and on a state of art on game oriented urban interactive applications. We infer that the virtual urban soundscape is made of several perceptive auditory grounds including a background. As a first contribution we define the morphological and narrative properties of such a background. We then consider the urban background sound as a texture and propose, as a second contribution, to pinpoint, specify and prototype a granular synthesis tool dedicated to interactive urban sound backgrounds.The synthesizer prototype is created using the visual programming language Pure Data. On the basis of our state of the art, we include an urban ambiences recording methodology to feed the granular synthesis. Finally, two validation steps regarding the prototype are described: the integration to the virtual city simulation Terra Dynamica on the one side and a perceptive listening comparison test on the other

11

Ali, Karim Mohamed Abedallah. "Architectures parallèles reconfigurables pour le traitement vidéo temps-réel." Thesis, Valenciennes, 2018. http://www.theses.fr/2018VALE0005/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les applications vidéo embarquées sont de plus en plus intégrées dans des systèmes de transport intelligents tels que les véhicules autonomes. De nombreux défis sont rencontrés par les concepteurs de ces applications, parmi lesquels : le développement des algorithmes complexes, la vérification et le test des différentes contraintes fonctionnelles et non-fonctionnelles, la nécessité d’automatiser le processus de conception pour augmenter la productivité, la conception d’une architecture matérielle adéquate pour exploiter le parallélisme inhérent et pour satisfaire la contrainte temps-réel, réduire la puissance consommée pour prolonger la durée de fonctionnement avant de recharger le véhicule, etc. Dans ce travail de thèse, nous avons utilisé les technologies FPGAs pour relever certains de ces défis et proposer des architectures matérielles reconfigurables dédiées pour des applications embarquées de traitement vidéo temps-réel. Premièrement, nous avons implémenté une architecture parallèle flexible avec deux contributions principales : (1) Nous avons proposé un modèle générique de distribution/collecte de pixels pour résoudre le problème de transfert de données à haut débit à travers le système. Les paramètres du modèle requis sont tout d’abord définis puis la génération de l’architecture a été automatisée pour minimiser le temps de développement. (2) Nous avons appliqué une technique d’ajustement de la fréquence pour réduire la consommation d’énergie. Nous avons dérivé les équations nécessaires pour calculer le niveau maximum de parallélisme ainsi que les équations utilisées pour calculer la taille des FIFO pour le passage d’un domaine de l’horloge à un autre. Au fur et à mesure que le nombre de cellules logiques sur une seule puce FPGAaugmente, passer à des niveaux d’abstraction plus élevés devient inévitable pour réduire la contrainte de « time-to-market » et augmenter la productivité des concepteurs. Pendant la phase de conception, l’espace de solutions architecturales présente un grand nombre d’alternatives avec des performances différentes en termes de temps d’exécution, ressources matérielles, consommation d’énergie, etc. Face à ce défi, nous avons développé l’outil ViPar avec deux contributions principales : (1) Un modèle empirique a été introduit pour estimer la consommation d’énergie basé sur l’utilisation du matériel (Slice et BRAM) et la fréquence de fonctionnement ; en plus de cela, nous avons dérivé les équations pour estimer les ressources matérielles et le temps d’exécution pour chaque alternative au cours de l’exploration de l’espace de conception. (2) En définissant les principales caractéristiques de l’architecture parallèle comme le niveau de parallélisme, le nombre de ports d’entrée/sortie, le modèle de distribution des pixels, ..., l’outil ViPar génère automatiquement l’architecture matérielle pour les solutions les plus pertinentes. Dans le cadre d’une collaboration industrielle avec NAVYA, nous avons utilisé l’outil ViPar pour implémenter une solution matérielle parallèle pour l’algorithme de stéréo matching « Multi-window Sum of Absolute Difference ». Dans cette implémentation, nous avons présenté un ensemble d’étapes pour modifier le code de description de haut niveau afin de l’adapter efficacement à l’implémentation matérielle. Nous avons également exploré l’espace de conception pour différentes alternatives en termes de performance, ressources matérielles, fréquence, et consommation d’énergie. Au cours de notre travail, les architectures matérielles ont été implémentées et testées expérimentalement sur la plateforme d’évaluation Xilinx Zynq ZC706
Embedded video applications are now involved in sophisticated transportation systems like autonomous vehicles. Many challenges faced the designers to build those applications, among them: complex algorithms should be developed, verified and tested under restricted time-to-market constraints, the necessity for design automation tools to increase the design productivity, high computing rates are required to exploit the inherent parallelism to satisfy the real-time constraints, reducing the consumed power to extend the operating duration before recharging the vehicle, etc. In this thesis work, we used FPGA technologies to tackle some of these challenges to design parallel reconfigurable hardware architectures for embedded video streaming applications. First, we implemented a flexible parallel architecture with two main contributions: (1)We proposed a generic model for pixel distribution/collection to tackle the problem of the huge data transferring through the system. The required model parameters were defined then the architecture generation was automated to minimize the development time. (2) We applied frequency scaling as a technique for reducing power consumption. We derived the required equations for calculating the maximum level of parallelism as well as the ones used for calculating the depth of the inserted FIFOs for clock domain crossing. As the number of logic cells on a single FPGA chip increases, moving to higher abstraction design levels becomes inevitable to shorten the time-to-market constraint and to increase the design productivity. During the design phase, it is common to have a space of design alternatives that are different from each other regarding hardware utilization, power consumption and performance. We developed ViPar tool with two main contributions to tackle this problem: (1) An empirical model was introduced to estimate the power consumption based on the hardware utilization (Slice and BRAM) and the operating frequency. In addition to that, we derived the equations for estimating the hardware resources and the execution time for each point during the design space exploration. (2) By defining the main characteristics of the parallel architecture like parallelism level, the number of input/output ports, the pixel distribution pattern, etc. ViPar tool can automatically generate the parallel architecture for the selected designs for implementation. In the context of an industrial collaboration, we used high-level synthesis tools to implement a parallel hardware architecture for Multi-window Sum of Absolute Difference stereo matching algorithm. In this implementation, we presented a set of guiding steps to modify the high-level description code to fit efficiently for hardware implementation as well as we explored the design space for different alternatives in terms of hardware resources, performance, frequency and power consumption. During the thesis work, our designs were implemented and tested experimentally on Xilinx Zynq ZC706 (XC7Z045- FFG900) evaluation board

12

Pavie, Hugues. "Synthèse d'images texturées : application au domaine de la production en télévision." Compiègne, 1994. http://www.theses.fr/1994COMPD682.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les travaux présentés dans cette thèse concernent un procédé de génération d'effets spéciaux basés sur la synthèse de textures, pour la production en télévision. Le but est de générer en temps réel différents types de textures destinées à être incrustées dans des séquences d'images vidéo moyennant des déformations géométriques et des effets de lumière. Ce procédé nous permet de générer des fonds d'image, des effets atmosphériques, des effets d'habillage, ou des transitions évoluées entre des séquences. La première partie du mémoire présente l'environnement de la télédiffusion et de l'image vidéo numérique. La seconde partie rappelle les différentes méthodes de synthèse de textures, les modes de rééchantillonnage et les modèles d'éclairage. Un nouveau procédé de synthèse de textures à base de fractales intégrant un étage de rééchantillonnage et d'éclairage est présenté dans la troisième partie. L'architecture temps réel vidéo associée est également décrite.

13

Wang, Yaohui. "Apprendre à générer des vidéos de personnes." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4116.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les réseaux antagonistes génératifs (GAN) ont suscité une attention croissante en raison de leurs capacités à modéliser des distributions de données visuelles complexes, ce qui leur permet de générer et de traduire des images réalistes. Bien que la génération de vidéos réalistes soit la suite naturelle, elle est nettement plus difficile en ce qui concerne leur complexité et leur calcul, associés à la modélisation simultanée de l'apparence, ainsi que du mouvement de la personne dans la vidéo. Plus précisément, en inférant et en modélisant la distribution de vidéos, les modèles génératifs sont confrontés à trois défis principaux : (a) générer un nouveau mouvement et conserver l'apparence de la personne, (b) modéliser la cohérence spatio-temporelle, ainsi que (c) comprendre la représentation latente de la vidéo.Dans cette thèse, nous proposons un certain nombre d'approches novatrices pour générer des vidéos de haute qualité visuelle et interpréter l'espace latent de la représentation de la vidéo dans ces modèles génératifs. Nous introduisons tout d'abord une méthode, qui apprend à générer conditionnellement des vidéos basées sur une seule image en entrée. Notre modèle proposé permet une génération de vidéo contrôlable en fournissant diverses catégories de mouvement. Deuxièmement, nous présentons un modèle, qui est capable de produire des vidéos à partir de vecteurs de bruit en dissociant l'apparence et le mouvement dans l'espace latent. Nous démontrons que les deux facteurs peuvent être manipulés de manière conditionnelle et inconditionnelle. Troisièmement, nous introduisons un modèle génératif inconditionnel de vidéos qui permet l'interprétation de l'espace latent. Nous mettons l'accent sur l'interprétation et la manipulation du mouvement. Nous montrons que la méthode proposée est capable de découvrir des représentations du mouvement sémantiquement significatives, qui à leur tour permettent le contrôle des vidéos générées. Enfin, nous décrivons une nouvelle approche pour combiner la modélisation générative avec l'apprentissage contrastif pour la réidentification de personnes en mode non supervisé. Nous exploitons les données générées en tant qu'augmentation de données et montrons que ces données peuvent améliorer la précision de la ré-identification
Generative Adversarial Networks (GANs) have witnessed increasing attention due to their abilities to model complex visual data distributions, which allow them to generate and translate realistic images. While realistic \textit{video generation} is the natural sequel, it is substantially more challenging w.r.t. complexity and computation, associated to the simultaneous modeling of appearance, as well as motion. Specifically, in inferring and modeling the distribution of human videos, generative models face three main challenges: (a) generating uncertain motion and retaining of human appearance, (b) modeling spatio-temporal consistency, as well as (c) understanding of latent representation. In this thesis, we propose three novel approaches towards generating high-visual quality videos and interpreting latent space in video generative models. We firstly introduce a method, which learns to conditionally generate videos based on single input images. Our proposed model allows for controllable video generation by providing various motion categories. Secondly, we present a model, which is able to produce videos from noise vectors by disentangling the latent space into appearance and motion. We demonstrate that both factors can be manipulated in both, conditional and unconditional manners. Thirdly, we introduce an unconditional video generative model that allows for interpretation of the latent space. We place emphasis on the interpretation and manipulation of motion. We show that our proposed method is able to discover semantically meaningful motion representations, which in turn allow for control in generated results. Finally, we describe a novel approach to combine generative modeling with contrastive learning for unsupervised person re-identification. Specifically, we leverage generated data as data augmentation and show that such data can boost re-identification accuracy

14

Hueber, Thomas. "Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://pastel.archives-ouvertes.fr/pastel-00005707.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'objectif poursuivi dans ce travail de thèse est la réalisation d'un dispositif capable d'interpréter une parole normalement articulée mais non vocalisée, permettant ainsi la " communication parlée silencieuse ". Destiné, à terme, à être léger et portatif, ce dispositif pourrait être utilisé d'une part, par une personne ayant subi une laryngectomie (ablation du larynx suite à un cancer), et d'autre part, pour toute communication, soit dans un milieu où le silence est requis (transport en commun, opération militaire, etc.), soit dans un environnement extrêmement bruité. Le dispositif proposé combine deux systèmes d'imagerie pour capturer l'activité de l'appareil vocal pendant " l'articulation silencieuse " : l'imagerie ultrasonore, qui donne accès aux articulateurs internes de la cavité buccale (comme la langue), et la vidéo, utilisée pour capturer le mouvement des lèvres. Le problème traité dans cette étude est celui de la synthèse d'un signal de parole " acoustique ", uniquement à partir d'un flux de données " visuelles " (images ultrasonores et vidéo). Cette conversion qualifiée ici de " visuo-acoustique ", s'effectue par apprentissage artificiel et fait intervenir quatre étapes principales : l'acquisition des données audiovisuelles, leur caractérisation, l'inférence d'une cible acoustique à partir de l'observation du geste articulatoire et la synthèse du signal. Dans le cadre de la réalisation du dispositif expérimental d'acquisition des données, un système de positionnement de la sonde ultrasonore par rapport à la tête du locuteur, basé sur l'utilisation combinée de deux capteurs inertiaux a tout d'abord été conçu. Un système permettant l'enregistrement simultané des flux visuels et du flux acoustique, basé sur la synchronisation des capteurs ultrasonore, vidéo et audio par voie logicielle, a ensuite été développé. Deux bases de données associant observations articulatoires et réalisations acoustiques, contenant chacune environ une heure de parole (continue), en langue anglaise, ont été construites. Pour la caractérisation des images ultrasonores et vidéo, deux approches ont été mises en œuvre. La première est basée sur l'utilisation de la transformée en cosinus discrète, la seconde, sur l'analyse en composantes principales (approche EigenTongues/EigenLips). La première approche proposée pour l'inférence des paramètres acoustiques, qualifiée de " directe ", est basée sur la construction d'une " fonction de conversion " à l'aide d'un réseau de neurones et d'un modèle par mélange de gaussiennes. Dans une seconde approche, qualifiée cette fois " d'indirecte ", une étape de décodage des flux visuels au niveau phonétique est introduite en amont du processus de synthèse. Cette étape intermédiaire permet notamment l'introduction de connaissances linguistiques a priori sur la séquence observée. Elle s'appuie sur la modélisation des gestes articulatoires par des modèles de Markov cachés (MMC). Deux méthodes sont enfin proposées pour la synthèse du signal à partir de la suite phonétique décodée. La première est basée sur une approche par concaténation d'unités ; la seconde utilise la technique dite de " synthèse par MMC ". Pour permettre notamment la réalisation d'adaptations prosodiques, ces deux méthodes de synthèse s'appuient sur une description paramétrique du signal de parole du type "Harmonique plus Bruit" (HNM).

15

Ferland, François. "Interfaces graphiques tridimentionnelles de téléopération de plateformes robotiques mobiles." Mémoire, Université de Sherbrooke, 2009. http://savoirs.usherbrooke.ca/handle/11143/1475.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les besoins grandissant en santé rendent des technologies comme la téléprésence à domicile de plus en plus intéressantes. Cependant, dans le domaine des interfaces humains-machines, il est souvent noté que négliger la façon dont est présentée l'information provenant du robot peut nuire à l'opérateur dans sa compréhension de la situation, ce qui entraîne une efficacité réduite. C'est en considérant la façon dont est traitée l'information chez l'opérateur que nous arriverons à développer une interface permettant d'allouer le maximum des capacités cognitives de l'opérateur à la tâche. De plus, les développements récents de matériel à haute performance et à coûts réduits nous permettent de mettre en oeuvre des techniques modernes de traitement d'images en temps réel. Nous proposons donc de développer un système flexible pour étudier les différentes façons de présenter l'information pertinente à la navigation efficace d'une plateforme robotique mobile. Ce système est basé sur une reconstruction en trois dimensions de l'environnement parcouru à partir des lectures de capteurs retrouvés couramment sur ces plateformes. De plus, l'utilisation d'une caméra vidéo stéréoscopique permet de reproduire l'effet de perspective tel qu'une personne sur place le percevrait. La présence d'un flux vidéo est souvent appréciée par les opérateurs et nous croyons que d'ajouter la profondeur dans notre reproduction de celui-ci est un avantage. Finalement, la caméra virtuelle de l'interface peut être continuellement réorientée de façon à fournir une perspective soit égocentrique, soit exocentrique, selon les préférences de l'opérateur. Nous validons l'utilisation de ce système en évaluant selon différentes métriques les performances d'opérateurs, autant néophytes qu'experts en robotique mobile, de façon à bien cibler les besoins fonctionnels de ce genre d'interfaces et leurs évaluations avec des populations-cibles. Nous croyons que la flexibilité quant au positionnement de la caméra virtuelle de l'interface demeure l'aspect le plus important du système. En effet, nous nous attendons â ce que cela permette à chaque opérateur d'adapter l'interface à ses préférences et les tâches en cours pour qu'il effectue son travail le plus efficacement possible. Bien que nous n'incluons pas de tâches spécifiques au domaine de la télésanté dans nos expérimentations, nous croyons que les observations de ce travail quant à la téléopération en général pourront s'appliquer éventuellement à ce domaine en particulier.

16

Calemme, Marco. "Codage de carte de profondeur par déformation de courbes élastiques." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0048/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans le format multiple-view video plus depth, les cartes de profondeur peuvent être représentées comme des images en niveaux de gris et la séquence temporelle correspondante peut être considérée comme une séquence vidéo standard en niveaux de gris. Cependant les cartes de profondeur ont des propriétés différentes des images naturelles: ils présentent de grandes surfaces lisses séparées par des arêtes vives. On peut dire que l'information la plus importante réside dans les contours de l'objet, en conséquence une approche intéressante consiste à effectuer un codage sans perte de la carte de contour, éventuellement suivie d'un codage lossy des valeurs de profondeur par-objet. Dans ce contexte, nous proposons une nouvelle technique pour le codage sans perte des contours de l'objet, basée sur la déformation élastique des courbes. Une évolution continue des déformations élastiques peut être modélisée entre deux courbes de référence, et une version du contour déformée élastiquement peut être envoyée au décodeur avec un coût de codage très faible et utilisé comme information latérale pour améliorer le codage sans perte du contour réel. Après que les principales discontinuités ont été capturées par la description du contour, la profondeur à l'intérieur de chaque région est assez lisse. Nous avons proposé et testé deux techniques différentes pour le codage du champ de profondeur à l'intérieur de chaque région. La première technique utilise la version adaptative à la forme de la transformation en ondelette, suivie par la version adaptative à la forme de SPIHT. La seconde technique effectue une prédiction du champ de profondeur à partir de sa version sous-échantillonnée et l'ensemble des contours codés. Il est généralement reconnu qu'un rendu de haute qualité au récepteur pour un nouveau point de vue est possible qu’avec la préservation de l'information de contour, car des distorsions sur les bords lors de l'étape de codage entraînerait une dégradation évidente sur la vue synthétisée et sur la perception 3D. Nous avons étudié cette affirmation en effectuant un test d'évaluation de la qualité perçue en comparant, pour le codage des cartes de profondeur, une technique basée sur la compression d'objects et une techniques de codage vidéo hybride à blocs
In multiple-view video plus depth, depth maps can be represented by means of grayscale images and the corresponding temporal sequence can be thought as a standard grayscale video sequence. However depth maps have different properties from natural images: they present large areas of smooth surfaces separated by sharp edges. Arguably the most important information lies in object contours, as a consequence an interesting approach consists in performing a lossless coding of the contour map, possibly followed by a lossy coding of per-object depth values. In this context, we propose a new technique for the lossless coding of object contours, based on the elastic deformation of curves. A continuous evolution of elastic deformations between two reference contour curves can be modelled, and an elastically deformed version of the reference contours can be sent to the decoder with an extremely small coding cost and used as side information to improve the lossless coding of the actual contour. After the main discontinuities have been captured by the contour description, the depth field inside each region is rather smooth. We proposed and tested two different techniques for the coding of the depth field inside each region. The first technique performs the shape-adaptive wavelet transform followed by the shape-adaptive version of SPIHT. The second technique performs a prediction of the depth field from its subsampled version and the set of coded contours. It is generally recognized that a high quality view rendering at the receiver side is possible only by preserving the contour information, since distortions on edges during the encoding step would cause a sensible degradation on the synthesized view and on the 3D perception. We investigated this claim by conducting a subjective quality assessment test to compare an object-based technique and a hybrid block-based techniques for the coding of depth maps

17

Conze, Pierre-Henri. "Estimation de mouvement dense long-terme et évaluation de qualité de la synthèse de vues. Application à la coopération stéréo-mouvement." Phd thesis, INSA de Rennes, 2014. http://tel.archives-ouvertes.fr/tel-00992940.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les nouvelles technologies de la vidéo numérique tendent vers la production, la transmission et la diffusion de contenus de très haute qualité, qu'ils soient monoscopiques ou stéréoscopiques. Ces technologies ont énormément évolué ces dernières années pour faire vivre à l'observateur l'expérience la plus réaliste possible. Pour des raisons artistiques ou techniques liées à l'acquisition et à la transmission du contenu, il est parfois nécessaire de combiner la vidéo acquise à des informations de synthèse tout en veillant à maintenir un rendu photo-réaliste accru. Pour faciliter la tâche des opérateurs de production et post-production, le traitement combiné de contenus capturés et de contenus de synthèse exige de disposer de fonctionnalités automatiques sophistiquées. Parmi celles-ci, nos travaux de recherche ont porté sur l'évaluation de qualité de la synthèse de vues et l'élaboration de stratégies d'estimation de mouvement dense et long-terme. L'obtention d'images synthétisées de bonne qualité est essentielle pour les écrans 3D auto-stéréoscopiques. En raison d'une mauvaise estimation de disparité ou interpolation, les vues synthétisées générées par DIBR font cependant parfois l'objet d'artéfacts. C'est pourquoi nous avons proposé et validé une nouvelle métrique d'évaluation objective de la qualité visuelle des images obtenues par synthèse de vues. Tout comme les techniques de segmentation ou d'analyse de scènes dynamiques, l'édition vidéo requiert une estimation dense et long-terme du mouvement pour propager des informations synthétiques à l'ensemble de la séquence. L'état de l'art dans le domaine se limitant quasi-exclusivement à des paires d'images consécutives, nous proposons plusieurs contributions visant à estimer le mouvement dense et long-terme. Ces contributions se fondent sur une manipulation robuste de vecteurs de flot optique de pas variables (multi-steps). Dans ce cadre, une méthode de fusion séquentielle ainsi qu'un filtrage multilatéral spatio-temporel basé trajectoires ont été proposés pour générer des champs de déplacement long-termes robustes aux occultations temporaires. Une méthode alternative basée intégration combinatoire et sélection statistique a également été mise en œuvre. Enfin, des stratégies à images de référence multiples ont été étudiées afin de combiner des trajectoires provenant d'images de référence sélectionnées selon des critères de qualité du mouvement. Ces différentes contributions ouvrent de larges perspectives, notamment dans le contexte de la coopération stéréo-mouvement pour lequel nous avons abordé les aspects correction de disparité à l'aide de champs de déplacement denses long-termes.

18

Jerbi, Khaled. "Synthese matérielle haut niveau des programmes flot de données." Rennes, INSA, 2012. https://tel.archives-ouvertes.fr/tel-00827163.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’evolution des algorithmes de traitement de la video a implique l’apparition de plusieurs standards. Ces standards presentent plusieurs algorithmes communs. Cependant, il n’est pas facile de reutiliser ces algorithmes a cause du monolithisme des codes. Pour resoudre ces problemes, la communaute iso/iec mpeg a cree le standard « reconfigurable video coding » (rvc) base sur le principe que les algorithmes peuvent etre definis sous la forme d’une librairie de composants separes. Ainsi, les composants sont normalises au lieu du decodeur entier. Mpeg-rvc propose une specification haut-niveau unifiee des technologies mpeg utilisant un langage oriente flot de donnees appele cal (cal actor language) et une plateforme de compilation sur des cibles logicielles et materielles. Le probleme est que les compilateurs hardware ne sont pas capables de compiler les structures haut-niveau du cal qui sont omnipresents dans la majorite des designs rvc-cal evolues. Dans cette these, le langage cal est utilise pour le developpement du codec d’image fixe lar. Le probleme de la generation materielle a ensuite ete resolu en utilisant des transformations automatiques des structures haut-niveau vers leur equivalent en bas-niveau. Ces transformation ont ete testees et validees sur differents designs rvc-cal
The evolution of video processing algorithms involved the advent of several standards. These standards present many common algorithms but designers are not able to reuse them because of their monolithic description. To solve this problem, iso/iec mpeg committee created the reconfigurable video coding (rvc) standard based on the idea that processing algorithms can be defined as a library of components that can be updated separately. Thus, these components of the modular library are standardized instead of the whole decoder. Mpeg rvc framework aims at providing a unified high-level specification of current mpeg coding technologies using a dataflow language called cal actor language (cal). Rvc presents also a compilation framework of the cal for hardware and software targets, but hardware compilers cannot compile high-level features which are omnipresent in most advanced designs. In this thesis, the cal language is used to develop a baseline of the lar still image coder. The problem of hardware generation is later resolved using automatic transformations of the high-level features into their equivalent low-level ones. These transformations are validated using different designs

19

Le, Guen Benjamin. "Adaptation du contenu spatio-temporel des images pour un codage par ondelettes." Phd thesis, Université Rennes 1, 2008. http://tel.archives-ouvertes.fr/tel-00355207.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les limites de l'ondelette séparable standard, dans le cas 2D, sont bien connues. Le support rectangulaire fixe de l'ondelette ne permet pas d'exploiter la géométrie des images et en particulier les corrélations le long de contours courbes. Ceci se traduit par une dispersion de l'énergie des coefficients dans le domaine ondelette et produit un phénomène de rebonds gênant visuellement lors d'une approximation avec un petit nombre de coefficients. Pour y remédier, une seconde génération d'ondelettes est née. L'approche la plus courante est de déformer le noyau d'ondelette pour l'adapter au contenu géométrique d'une image.
Dans cette thèse, nous proposons d'aborder le problème d'adaptativité sous un angle différent. L'idée est de déformer le contenu d'une image pour l'adapter au noyau d'ondelette séparable standard. La déformation est modélisée par un maillage déformable et le critère d'adaptation utilisé est le coût de description de l'image déformée. Une minimisation énergétique similaire à une estimation de mouvement est mise en place pour calculer les paramètres du maillage. A l'issue de cette phase d'analyse, l'image est représentée par une image déformée de moindre coût de codage et par les paramètres de déformation. Après codage, transmission et décodage de ces inforrnations, l'image d'origine peut être synthétisée en inversant la déformation. Les performances en compression de ce schéma par analyse-synthèse spatiales sont étudiées et comparées à celles de JPEG2000. Visuellement, on observe une meilleure reconstruction des contours des images avec une atténuation significative de l'effet rebond.
Conservant l'idée d'adapter le contenu des images à un noyau de décomposition fixe, nous proposons ensuite un schéma de codage par analyse-synthèse spatio-temporelles dédié à la vidéo. L'analyse prend en entrée un groupe d'images (GOF) et génère en sortie un groupe d'images déformées dont le contenu est adapté à une décomposition 3D horizontale-verticale-temporelle fixe. Le schéma est conçu de sorte qu'une seule géométrie soit estimée et transmise pour l'ensemble du GOF. Des résultats de compression sont présentés en utilisant le maillage déformable pour modéliser la géométrie et le mouvement. Bien qu'une seule géométrie soit encodée, nous montrons que son coût est trop important pour permettre une amélioration significative de la qualité visuelle par rapport à un schéma par analyse-synthèse exploitant uniquement le mouvement.

20

Cunat, Christophe. "Accélération matérielle pour le rendu de scènes multimédia vidéo et 3D." Phd thesis, Télécom ParisTech, 2004. http://tel.archives-ouvertes.fr/tel-00077593.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Un processus de convergence des techniques algorithmiques de deux domaines autrefois disjoints, convergence facilité par l'émergence de normes telles que MPEG-4, s'est engagé au cours de ces dernières années. Grâce au concept de codage par objets, une scène peut être reconstituée par la composition de divers objets dans un ordre déterminé.
Cette thèse s'inscrit dans le cadre de la composition d'objets visuels qui peuvent être de natures différentes (séquences vidéo, images fixes, objets synthétiques 3D, etc.). Néanmoins, les puissances de calcul nécessaires afin d'effectuer cette composition demeurent prohibitives sans mise en place d'accélérateurs matériels spécialisés et deviennent critiques dans un contexte de terminal portable.
Une revue tant algorithmique qu'architecturale des différents domaines est effectuée afin de souligner à la fois les points de convergence et de différence. Ensuite, trois axes (interdépendants) de réflexions concernant les problématiques de représentation des données, d'accès aux données et d'organisation des traitements sont principalement discutés.
Ces réflexions sont alors appliquées au cas concret d'un terminal portable pour la labiophonie : application de téléphonie où le visage de l'interlocuteur est reconstruit à partir d'un maillage de triangles et d'un placage de texture. Une architecture unique d'un compositeur d'image capable de traiter indifféremment ces objets visuels est ensuite définie. Enfin, une synthèse sur une plateforme de prototypage de cet opérateur autorise une comparaison avec des solutions existantes, apparues pour la plupart au cours de cette thèse.

21

Mora, Elie-Gabriel. "Codage multi-vues multi-profondeur pour de nouveaux services multimédia." Thesis, Paris, ENST, 2014. http://www.theses.fr/2014ENST0007/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les travaux effectués durant cette thèse de doctorat ont pour but d’augmenter l’efficacité de codage dans 3D-HEVC. Nous proposons des approches conventionnelles orientées vers la normalisation vidéo, ainsi que des approches en rupture basées sur le flot optique. En approches conventionnelles, nous proposons une méthode qui prédit les modes Intra de profondeur avec ceux de texture. L’héritage est conditionné par un critère qui mesure le degré de similitude entre les deux modes. Ensuite, nous proposons deux méthodes pour améliorer la prédiction inter-vue du mouvement dans 3D-HEVC. La première ajoute un vecteur de disparité comme candidat inter-vue dans la liste des candidats du Merge, et la seconde modifie le processus de dérivation de ce vecteur. Finalement, un outil de codage intercomposantes est proposé, où le lien entre les arbres quaternaires de texture et de profondeur est exploité pour réduire le temps d’encodage et le débit, à travers un codage conjoint des deux arbres. Dans la catégorie des approches en rupture, nous proposons deux méthodes basées sur l’estimation de champs denses de vecteurs de mouvement en utilisant le flot optique. La première calcule un champ au niveau d’une vue de base reconstruite, puis l’extrapole au niveau d’une vue dépendante, où il est hérité par les unités de prédiction en tant que candidat dense du Merge. La deuxième méthode améliore la synthèse de vues : quatre champs sont calculés au niveau de deux vues de référence en utilisant deux références temporelles. Ils sont ensuite extrapolés au niveau d’une vue synthétisée et corrigés en utilisant une contrainte épipolaire. Les quatre prédictions correspondantes sont ensuite combinées
This PhD. thesis deals with improving the coding efficiency in 3D-HEVC. We propose both constrained approaches aimed towards standardization, and also more innovative approaches based on optical flow. In the constrained approaches category, we first propose a method that predicts the depth Intra modes using the ones of the texture. The inheritance is driven by a criterion measuring how much the two are expected to match. Second, we propose two simple ways to improve inter-view motion prediction in 3D-HEVC. The first adds an inter-view disparity vector candidate in the Merge list and the second modifies the derivation process of this disparity vector. Third, an inter-component tool is proposed where the link between the texture and depth quadtree structures is exploited to save both runtime and bits through a joint coding of the quadtrees. In the more innovative approaches category, we propose two methods that are based on a dense motion vector field estimation using optical flow. The first computes such a field on a reconstructed base view. It is then warped at the level of a dependent view where it is inserted as a dense candidate in the Merge list of prediction units in that view. The second method improves the view synthesis process: four fields are computed at the level of the left and right reference views using a past and a future temporal reference. These are then warped at the level of the synthesized view and corrected using an epipolar constraint. The four corresponding predictions are then blended together. Both methods bring significant coding gains which confirm the potential of such innovative solutions

22

Gautier, Josselin. "Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues." Phd thesis, Université Rennes 1, 2012. http://tel.archives-ouvertes.fr/tel-00758112.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse a pour objet les systèmes 3D émergents et leurs problématiques de codage multi-vues-plus-profondeur, de synthèse de vues virtuelles et de perception stéréoscopique. Des solutions sont proposées au travers d'un codage de carte de profondeur efficace, d'une nouvelle méthode de synthèse par extrapolation et d'un modèle d'attention visuelle dynamique. Premièrement, le rôle de la disparité binoculaire dans le déploiement de l'attention visuelle est étudié. Suite à une analyse statistique de biais potentiels de centre et de profondeur en condition mono et stéréoscopique, un nouveau modèle de saillance est proposé combinant des attributs bas et haut niveau, dont le mécanisme visuel de séparation fond/forme. Les performances confirment la validité de l'approche et la pertinence d'une combinaison d'attributs visuels pondérés au cours du temps. En outre une nouvelle méthode de compression de carte de profondeur est présentée ; celle-ci se base sur la transmission sans perte des contours et permet une reconstruction fiable de la géométrie de la scène pour des synthèses de vues précises. Cette méthode est évaluée par des métriques de qualité objectives ainsi que par des tests subjectifs. Enfin une nouvelle méthode d'inpainting directionnelle est présentée pour l'extrapolation de nouveaux points de vues à la fois pour la 3DTV et la FTV. La structure située à l'arrière-plan est propagée en priorité dans les zones découvertes. Le calcul d'isophotes, robuste car basée tenseur, ainsi que le remplissage directionnel assurent une synthèse de vue plausible. Ces résultats sont visuellement prometteurs que ce soit à faible ou large écart de la vue d'origine.

23

Chen, Jiazhou. "Structure d'une image : de la réalité augmentée à la stylisation d'images." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2012. http://tel.archives-ouvertes.fr/tel-00977086.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse, nous nous intéressons aux structures d'une image en général, et plus particulièrement aux gradients et aux contours. Ces dernières se sont révélées très importantes ces dernières années pour de nombreuses applications en infographie,telles que la réalité augmentée et la stylisation d'images et de vidéos. Le but de toute analyse des structures d'une image est de décrire à un haut-niveau la compréhension que l'on peut avoir de son contenu et de fournir les bases nécessaires à l'amélioration de la qualité des applications citées au-dessus, notamment la lisibilité, la précision, la cohérence spatiale et temporelle.Dans une premier temps, nous démontrons le rôle important que ces structures jouent pour des applications de type composition "Focus+Context". Une telle approche est utilisée en réalité augmentée pour permettre la visualisation de parties d'une scènes qui sont normalement derrières ce que l'on peut observer dans un flux vidéo. L'utilisation d'une segmentation et de lignes caractéristiques permettent de mettre en avant et/ou de révéler les relations d'ordre entre les différents objets de la scène. Pour la synthèse d'images guidée par une fonction d'importance, de multiples styles de rendu sont combinés de manière cohérente grâce à l'utilisation d'une carte de gradients et une de saillance.Dans un deuxième temps, nous introduisons une nouvelle techniques qui permet de reconstruire de manière continue un champ de gradient, et ceci sans trop lisser les détails originaux contenus dans l'image. Pour cela, nous développons une nouvelle méthode d'approximation locale et de plus haut-degré pour des champs de gradients discrets et non-orientés. Cette méthode est basée sur le formalisme"moving least square" (MLS). Nous démontrons que notre approximation isotrope et linéaire est de meilleure qualité que le classique tenseur de structure : les détails sont mieux préservés et les instabilités sont réduites de manière significative. Nous démontrons aussi que notre nouveau champ de gradients apporte des améliorations à de nombreuses techniques de stylisation.Finalement, nous démontrons que l'utilisation d'une technique d'analyse de profil caractéristique par approximation polynomiale permet de distinguer les variations douces des zones dures. Les paramètres du profil sont utilisés comme des paramètres de stylisation tels que l'orientation des coups de pinceau, leur taille et leur opacité. Cela permet la création d'une large variété de styles de ligne.

24

Guiard-Marigny, Thierry. "Modélisation tridimensionnelle des articulateurs de la parole : implémentation temps réel et mesures d'intelligibilité bimodale." Grenoble INPG, 1996. http://www.theses.fr/1996INPG0164.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous presentons une chaine complete d'analyse-synthese de visages tridimensionnels parlants, developpee pour mener des etudes fondamentales sur la production et la perception visuelle de la parole. Dans un premier temps, une taxinomie originale des differents systemes d'animation de visages synthetiques existants est dressee en decrivant precisement toutes les phases du processus. Les principaux resultats sur la bimodalite intrinseque de la parole sont ensuite analyses pour souligner les precautions a prendre afin de respecter une bonne synchronisation labiale. Une modelisation des organes visibles de la partie inferieure du visage (levres, machoire et peau) a ete realisee sur la base de leurs caracteristiques physiologiques. L'ensemble des modeles est commande par six parametres anatomiques, directement mesurables sur le visage d'un locuteur maquille. La qualite des mouvements labiaux et de leur synchronisation avec le signal de parole a ete evaluee a travers des tests de perception mesurant l'apport d'intelligibilite des modeles a de la parole bruitee. Notre dispositif d'extraction des parametres faciaux est base sur une analyse chromatique d'images video du visage d'un locuteur aux levres maquillees en bleu. Il fournit precisement, en temps reel et 25 fois par seconde, les parametres de commande du visage synthetique. L'ensemble des modeles faciaux et du dispositif de mesure constitue un systeme complet d'analyse-synthese de visages parlants dont les performances permettent des applications aussi bien en recherche fondamentale sur la bimodalite de la parole qu'en communication homme-machine. Notre systeme peut etre mis a la disposition des infographistes pour automatiser le lip-sync dans les films d'images de synthese. Ce travail a ete developpe et est utilise dans le cadre du projet esprit-bra miami

25

Neyret, Fabrice. "Complexité Naturelle et Synthèse d'Images." Habilitation à diriger des recherches, 2001. http://tel.archives-ouvertes.fr/tel-00005790.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Après un post-doctorat à l'Université de Toronto au DGP, j'ai été recruté en octobre 1997 au laboratoire GRAVIR (UMR 5527 CNRS-UJF-INPG-INRIA; dirigé par Claude Puech), dans l'équipe iMAGIS. Mes travaux s'inscrivent dans le domaine de la synthèse d'images, l'équipe s'intéressant plus particulièrement au traitement des scènes complexes. "Complexe" recouvre ici de multiples dimensions, comme la nature des phénomènes (optiques et mécaniques), des formes et des matériaux, et la quantité d'information impliquée. Ce mémoire présente les approches que j'ai faites miennes pour tenter de représenter la complexité de la nature dans l'espoir d'en produire des images et animations de synthèses, ainsi que les travaux particuliers que j'ai menés dans cet esprit après ma thèse de doctorat. Dans le premier chapitre, j'introduis le contexte de la production d'images, ainsi que les trois principaux axes d'attaque que j'adopte pour le traitement de la complexité, à savoir le multi-échelle, le procéduralisme, et la simulation phénomènologique. Dans le second chapitre, je décline mes thèmes de recherche, et retrace les travaux existants relatifs au sujet. Dans le troisième, je résume mes contributions dans ces divers thèmes, le texte de mes principaux articles étant reproduit en Annexes A a D.

Дисертації з теми "Synthèse vidéo"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями