To see the other types of publications on this topic, follow the link: Analyse de contenu vidéo.

Dissertations / Theses on the topic 'Analyse de contenu vidéo'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Analyse de contenu vidéo.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Cámara, Chávez Guillermo. "Analyse du contenu vidéo par apprentissage actif." Cergy-Pontoise, 2007. http://www.theses.fr/2007CERG0380.

Full text
Abstract:
L’objet de cette thèse est de proposer un système d’indexation semi-automatique et de recherche interactive pour la vidéo. Nous avons développé un algorithme de détection des plans automatique sans paramètre, ni seuil. Nous avons choisi un classifieur SVM pour sa capacité à traiter des caractéristiques de grandes dimensions tout en préservant des garanties de généralisation pour peu d’exemples d’apprentissage. Nous avons étudié plusieurs combinaisons de caractéristiques et de fonctions noyaux et présenté des résultats intéressants pour la tâche de détection de plan de TRECVID 2006. Nous avons proposé un système interactif de recherche de contenu vidéo : RETINVID, qui permet de réduire le nombre d’images à annoter par l’utilisateur. Ces images sont sélectionnées pour leur capacité à accroître la connaissance sur les données. Nous avons effectué de nombreuses simulations sur les données de la tâche de concepts haut-niveaux de TRECVID 2005
This thesis presents work towards a unified framework for semi-automated video indexing and interactive retrieval. To create an efficient index, a set of representative key frames are selected from the entire video content. We developed an automatic shot boundary detection algorithm to get rid of parameters and thresholds. We adopted a SVM classifier due to its ability to use very high dimensional feature spaces while at the same time keeping strong generalization guarantees from few training examples. We deeply evaluated the combination of features and kernels and present interesting results obtained, for shot extraction TRECVID 2006 Task. We then propose an interactive video retrieval system: RETINVID, to significantly reduce the number of key frames annotated by the user. The key frames are selected based on their ability to increase the knowledge of the data. We perform an experiment against the 2005 TRECVID benchmark for high-level task
APA, Harvard, Vancouver, ISO, and other styles
2

Decombas, Marc. "Compression vidéo très bas débit par analyse du contenu." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0067/document.

Full text
Abstract:
L’objectif de cette thèse est de trouver de nouvelles méthodes de compression sémantique compatible avec un encodeur classique tel que H.264/AVC. . L’objectif principal est de maintenir la sémantique et non pas la qualité globale. Un débit cible de 300 kb/s a été fixé pour des applications de sécurité et de défense Pour cela une chaine complète de compression a dû être réalisée. Une étude et des contributions sur les modèles de saillance spatio-temporel ont été réalisées avec pour objectif d’extraire l’information pertinente. Pour réduire le débit, une méthode de redimensionnement dénommée «seam carving » a été combinée à un encodeur H.264/AVC. En outre, une métrique combinant les points SIFT et le SSIM a été réalisée afin de mesurer la qualité des objets sans être perturbée par les zones de moindre contenant la majorité des artefacts. Une base de données pouvant être utilisée pour des modèles de saillance mais aussi pour de la compression est proposée avec des masques binaires. Les différentes approches ont été validées par divers tests. Une extension de ces travaux pour des applications de résumé vidéo est proposée
The objective of this thesis is to find new methods for semantic video compatible with a traditional encoder like H.264/AVC. The main objective is to maintain the semantic and not the global quality. A target bitrate of 300 Kb/s has been fixed for defense and security applications. To do that, a complete chain of compression has been proposed. A study and new contributions on a spatio-temporal saliency model have been done to extract the important information in the scene. To reduce the bitrate, a resizing method named seam carving has been combined with the H.264/AVC encoder. Also, a metric combining SIFT points and SSIM has been created to measure the quality of objects without being disturbed by less important areas containing mostly artifacts. A database that can be used for testing the saliency model but also for video compression has been proposed, containing sequences with their manually extracted binary masks. All the different approaches have been thoroughly validated by different tests. An extension of this work on video summary application has also been proposed
APA, Harvard, Vancouver, ISO, and other styles
3

Moinard, Matthieu. "Codage vidéo hybride basé contenu par analyse/synthèse de données." Phd thesis, Telecom ParisTech, 2011. http://tel.archives-ouvertes.fr/tel-00830924.

Full text
Abstract:
Les travaux de cette thèse sont destinés à la conception d'outils algorithmiques permettant d'accroître le facteur de compression des standards actuels de codage vidéo, tels que H.264/AVC. Pour cela, une étude préalable portant sur un ensemble de méthodes de restauration d'image a permis d'identifier et d'inspecter deux axes de recherche distincts. La première partie est fondée sur des méthodes d'analyse et de synthèse de texture. Ce type de procédé, aussi connu sous le nom de template matching, est couramment utilisé dans un contexte de codage vidéo pour prédire une portion de la texture de l'image suite à l'analyse de son voisinage. Nous avons cherché à améliorer le modèle de prédiction en prenant en compte les spécificités d'un codeur vidéo de type H.264/AVC. En particulier, la fonction débit/distorsion utilisée dans les schémas de codage vidéo normatifs se base sur une mesure objective de la qualité. Ce mécanisme est par nature incompatible avec le concept de synthèse de texture, dont l'efficacité est habituellement mesurée selon des critères purement perceptuels. Cette contradiction a motivé le travail de notre première contribution. La deuxième partie des travaux de cette thèse s'inspire des méthodes de régularisation d'image basée sur la minimisation de la variation totale. Des méthodes ont été élaborées originellement dans le but d'améliorer la qualité d'une image en fonction de la connaissance a priori des dégradations qu'elle a subies. Nous nous sommes basés sur ces travaux pour concevoir un modèle de prédiction des coefficients transformés obtenus à partir d'une image naturelle, qui a été intégré dans un schéma de codage vidéo conventionnel.
APA, Harvard, Vancouver, ISO, and other styles
4

Blanc, Katy. "Description de contenu vidéo : mouvements et élasticité temporelle." Thesis, Université Côte d'Azur (ComUE), 2018. http://www.theses.fr/2018AZUR4212/document.

Full text
Abstract:
La reconnaissance en vidéo atteint de meilleures performances ces dernières années, notamment grâce à l'amélioration des réseaux de neurones profonds sur les images. Pourtant l'explosion des taux de reconnaissance en images ne s'est pas directement répercuté sur les taux en reconnaissance vidéo. Cela est dû à cette dimension supplémentaire qu'est le temps et dont il est encore difficile d'extraire une description robuste. Les réseaux de neurones récurrents introduisent une temporalité mais ils ont une mémoire limitée dans le temps. Les méthodes de description vidéo de l'état de l'art gèrent généralement le temps comme une dimension spatiale supplémentaire et la combinaison de plusieurs méthodes de description vidéo apportent les meilleures performances actuelles. Or la dimension temporelle possède une élasticité propre, différente des dimensions spatiales. En effet, la dimension temporelle peut être déformée localement : une dilatation partielle provoquera un ralentissement visuel de la vidéo sans en changer la compréhension, à l'inverse d'une dilatation spatiale sur une image qui modifierait les proportions des objets. On peut donc espérer améliorer encore la classification de contenu vidéo par la conception d'une description invariante aux changements de vitesse. Cette thèse porte sur la problématique d'une description robuste de vidéo en considérant l'élasticité de la dimension temporelle sous trois angles différents. Dans un premier temps, nous avons décrit localement et explicitement les informations de mouvements. Des singularités sont détectées sur le flot optique, puis traquées et agrégées dans une chaîne pour décrire des portions de vidéos. Nous avons utilisé cette description sur du contenu sportif. Puis nous avons extrait des descriptions globales implicites grâce aux décompositions tensorielles. Les tenseurs permettent de considérer une vidéo comme un tableau de données multi-dimensionnelles. Les descriptions extraites sont évaluées dans une tache de classification. Pour finir, nous avons étudié les méthodes de normalisation de la dimension temporelle. Nous avons utilisé les méthodes de déformations temporelles dynamiques des séquences. Nous avons montré que cette normalisation aide à une meilleure classification
Video recognition gain in performance during the last years, especially due to the improvement in the deep learning performances on images. However the jump in recognition rate on images does not directly impact the recognition rate on videos. This limitation is certainly due to this added dimension, the time, on which a robust description is still hard to extract. The recurrent neural networks introduce temporality but they have a limited memory. State of the art methods for video description usually handle time as a spatial dimension and the combination of video description methods reach the current best accuracies. However the temporal dimension has its own elasticity, different from the spatial dimensions. Indeed, the temporal dimension of a video can be locally deformed: a partial dilatation produces a visual slow down during the video, without changing the understanding, in contrast with a spatial dilatation on an image which will modify the proportions of the shown objects. We can thus expect to improve the video content classification by creating an invariant description to these speed changes. This thesis focus on the question of a robust video description considering the elasticity of the temporal dimension under three different angles. First, we have locally and explicitly described the motion content. Singularities are detected in the optical flow, then tracked along the time axis and organized in chain to describe video part. We have used this description on sport content. Then we have extracted global and implicit description thanks to tensor decompositions. Tensor enables to consider a video as a multi-dimensional data table. The extracted description are evaluated in a classification task. Finally, we have studied speed normalization method thanks to Dynamical Time Warping methods on series. We have showed that this normalization improve the classification rates
APA, Harvard, Vancouver, ISO, and other styles
5

Dhollande, Nicolas. "Optimisation du codage HEVC par des moyens de pré-analyse et/ou pré-codage du contenu." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S113.

Full text
Abstract:
La compression vidéo HEVC standardisée en 2013 offre des gains de compression dépassant les 50% par rapport au standard de compression précédent MPEG4-AVC/H.264. Ces gains de compression se paient par une augmentation très importante de la complexité de codage. Si on ajoute à cela l’augmentation de complexité générée par l’accroissement de résolution et de fréquence image du signal vidéo d’entrée pour passer de la Haute Définition (HD) à l’Ultra Haute Définition (UHD), on comprend vite l’intérêt des techniques de réduction de complexité pour le développement de codeurs économiquement viables. En premier lieu, un effort particulier a été réalisé pour réduire la complexité des images Intra. Nous proposons une méthode d'inférence des modes de codage à partir d'un pré-codage d'une version réduite en HD de la vidéo UHD. Ensuite, nous proposons une méthode de partitionnement rapide basée sur la pré-analyse du contenu. La première méthode offre une réduction de complexité d'un facteur 3 et la deuxième, d'un facteur 6, contre une perte de compression proche de 5%. En second lieu, nous avons traité le codage des images Inter. En mettant en œuvre une solution d'inférence des modes de codage UHD à partir d'un pré-codage au format HD, la complexité de codage est réduite d’un facteur 3 en considérant les 2 flux produits et d’un facteur 9.2 sur le seul flux UHD, pour une perte en compression proche de 3%. Appliqué à une configuration de codage proche d'un système réellement déployé, l'apport de notre algorithme reste intéressant puisqu'il réduit la complexité de codage du flux UHD d’un facteur proche de 2 pour une perte de compression limitée à 4%. Les stratégies de réduction de complexité mises en œuvre au cours de cette thèse pour le codage Intra et Inter offrent des perspectives intéressantes pour le développement de codeurs HEVC UHD plus économes en ressources de calculs. Elles sont particulièrement adaptées au domaine de la WebTV/OTT qui prend une part croissante dans la diffusion de la vidéo et pour lequel le signal vidéo est codé à des résolutions multiples pour adresser des réseaux et des terminaux de capacités variées
The High Efficiency Video Coding (HEVC) standard was released in 2013 which reduced network bandwidth by a factor of 2 compared to the prior standard H.264/AVC. These gains are achieved by a very significant increase in the encoding complexity. Especially with the industrial demand to shift in format from High Definition (HD) to Ultra High Definition (UHD), one can understand the relevance of complexity reduction techniques to develop cost-effective encoders. In our first contribution, we attempted new strategies to reduce the encoding complexity of Intra-pictures. We proposed a method with inference rules on the coding modes from the modes obtained with pre-encoding of the UHD video down-sampled in HD. We, then, proposed a fast partitioning method based on a pre-analysis of the content. The first method reduced the complexity by a factor of 3x and the second one, by a factor of 6, with a loss of compression efficiency of 5%. As a second contribution, we adressed the Inter-pictures. By implementing inference rules in the UHD encoder, from a HD pre-encoding pass, the encoding complexity is reduced by a factor of 3x when both HD and UHD encodings are considered, and by 9.2x on just the UHD encoding, with a loss of compression efficiency of 3%. Combined with an encoding configuration imitating a real system, our approach reduces the complexity by a factor of close to 2x with 4% of loss. These strategies built during this thesis offer encouraging prospects for implementation of low complexity HEVC UHD encoders. They are fully adapted to the WebTV/OTT segment that is playing a growing part in the video delivery, in which the video signal is encoded with different resolution to reach heterogeneous devices and network capacities
APA, Harvard, Vancouver, ISO, and other styles
6

Wehbe, Hassan. "Synchronisation automatique d'un contenu audiovisuel avec un texte qui le décrit." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30104/document.

Full text
Abstract:
Nous abordons le problème de la synchronisation automatique d'un contenu audiovisuel avec une procédure textuelle qui le décrit. La stratégie consiste à extraire des informations sur la structure des deux contenus puis à les mettre en correspondance. Nous proposons deux outils d'analyse vidéo qui extraient respectivement : * les limites des évènements d'intérêt à l'aide d'une méthode de quantification de type dictionnaire * les segments dans lesquels une action se répète en exploitant une méthode d'analyse fréquentielle : le YIN. Ensuite, nous proposons un système de synchronisation qui fusionne les informations fournies par ces outils pour établir des associations entre les instructions textuelles et les segments vidéo correspondants. Une "Matrice de confiance" est construite et exploitée de manière récursive pour établir ces associations en regard de leur fiabilité
We address the problem of automatic synchronization of an audiovisual content with a procedural text that describes it. The strategy consists in extracting pieces of information about the structure from both contents, and in matching them depending on their types. We propose two video analysis tools that respectively extract: * Limits of events of interest using an approach inspired by dictionary quantization. * Segments that enclose a repeated action based on the YIN frequency analysis method. We then propose a synchronization system that merges results coming from these tools in order to establish links between textual instructions and the corresponding video segments. To do so, a "Confidence Matrix" is built and recursively processed in order to identify these links in respect with their reliability
APA, Harvard, Vancouver, ISO, and other styles
7

Souvannavong, Fabrice. "Indexation et recherche de plans vidéo par le contenu sémantique." Phd thesis, Télécom ParisTech, 2005. http://pastel.archives-ouvertes.fr/pastel-00001298.

Full text
Abstract:
Nous abordons dans ce mémoire le problème délicat de l'indexation de plans vidéo et en particulier l'indexation automatique par le contenu sémantique. L'indexation est l'opération qui consiste à extraire une signature numérique ou textuelle qui décrit le contenu de manière précise et concise afin de permettre une recherche efficace dans une base de données. L'aspect automatique de l'indexation est important puisque nous imaginons bien la difficulté d'établir les signatures manuellement sur de grandes quantités de données. Jusqu'à présent les systèmes automatiques d'indexation et de recherche d'images ou de vidéos se sont concentrés sur la description et l'indexation du contenu purement visuel. Les signatures permettaient d'effectuer une recherche principalement sur les couleurs et les textures des images. A présent, le nouveau défi est d'ajouter à ces signatures une description sémantique du contenu de manière automatique. Un éventail des techniques utilisées pour l'indexation du contenu visuel est tout d'abord présenté. Ensuite nous introduisons une méthode pour calculer une signature précise et compacte à partir des régions des images clefs des plans. Il s'agit d'une adaptation de l'analyse de la sémantique latente qui fut initialement introduite pour indexer le texte. La tâche délicate de la recherche par le contenu sémantique est ensuite abordée. Les expériences sont conduites dans le cadre de l'évaluation TRECVID qui nous permet d'obtenir une grande quantité de vidéo avec leurs annotations. Nous poursuivons la classification sémantique en étudiant la fusion de systèmes de classification. Finalement nous introduisons une nouvelle méthode d'apprentissage actif.
APA, Harvard, Vancouver, ISO, and other styles
8

Demarty, Claire-Hélène. "Segmentation et structuration d'un document vidéo pour la caractérisation et l'indexation de son contenu sémantique." Phd thesis, École Nationale Supérieure des Mines de Paris, 2000. http://pastel.archives-ouvertes.fr/pastel-00003303.

Full text
Abstract:
La multitude de documents multimédia déjà existants ou créés chaque jour nous confronte au problème de la recherche d' informations au sein de bases de données gigantesques qui rendent toute volonté d'indexation entièrement manuelle impossible. Dans ce contexte il est devenu nécessaire de concevoir et de construire des outils capables sinon d' extraire tout le contenu sémantique d'un document donné du moins d' en élaborer une première structuration de manière automatique. En se restreignant aux documents vidéo, cette thèse se propose donc de bâtir des outils automatiques réalisant une structuration en deux étapes. Tout d'abord linéaire, elle aboutit à un découpage d'un document vidéo en entités allant de la scène à l'image en passant par la prise de vue et le morceau de prise de vue. Puis relationnelle, elle consiste en l'extraction de relations par la mise en évidence de liens syntaxiques ou sémantiques de tout ordre entre deux entités de types quelconques. En plus de leur caractère général et automatique, l'ensemble des outils que nous présentons sont, en outre, conçus dans le respect d'une méthodologie précise. Cette dernière consiste à n'utiliser que des critères simples et de bas niveau de traitements d'images et tout particulièrement de morphologie mathématique qui combinés entre eux et avec des règles logiques de décision permettent déjà d'atteindre une structuration cohérente efficace et représentative d'un contenu informationnel de niveau sémantique élevé. Ce choix induit de plus une grande rapidité de nos outils puisque dans leur ensemble leur temps d'exécution est inférieur au temps réel. Leur validation est obtenue au travers de nombreux exemples et applications appartenant essentiellement à la classe des journaux télévisés.
APA, Harvard, Vancouver, ISO, and other styles
9

Don, Anthony. "Indexation et navigation dans les contenus visuels : approches basées sur les graphes." Bordeaux 1, 2006. http://www.theses.fr/2006BOR13258.

Full text
Abstract:
Cette thèse s'inscrit dans le domaine de l'indexation et de la visualisation des documents vidéo et des collections d'images. Les méthodes proposées reposent sur l'utilisation de graphes pour représenter les relations de similarité entre les plans vidéo et images indexés. La première partie de cette thèse concerne l'indexation des documents vidéo en scènes. Les scènes sont des ensembles de plans vidéo partageant des caractéristiques similaires. Nous proposons d'abord une méthode interactive de détection de groupes de plans, partageant un contenu couleur similaire, basé sur la fragmentation de graphe. Nous abordons ensuite l'indexation des documents vidéo en scènes de dialogues, basée sur des caractéristiques sémantiques et structurelles présentes dans l'enchaînement des plans vidéo. La seconde partie de cette thèse traite de la visualisation et de la recherche dans des collections d'images indexées. Nous présentons un algorithme de plongement d'un espace métrique dans le plan appliqué à la visualisation de collections d'images indexées. Ce type de visualisation permet de représenter les relations de dissimilarité entre images et d'identifer visuellement des groupes d'images similaires. Nous proposons enfin une interface de recherches d'images basée sur le routage local dans un graphe. Les résultats d'une validation expérimentale ont présentés et discutés.
APA, Harvard, Vancouver, ISO, and other styles
10

Le, Guen Benjamin. "Adaptation du contenu spatio-temporel des images pour un codage par ondelettes." Phd thesis, Université Rennes 1, 2008. http://tel.archives-ouvertes.fr/tel-00355207.

Full text
Abstract:
Les limites de l'ondelette séparable standard, dans le cas 2D, sont bien connues. Le support rectangulaire fixe de l'ondelette ne permet pas d'exploiter la géométrie des images et en particulier les corrélations le long de contours courbes. Ceci se traduit par une dispersion de l'énergie des coefficients dans le domaine ondelette et produit un phénomène de rebonds gênant visuellement lors d'une approximation avec un petit nombre de coefficients. Pour y remédier, une seconde génération d'ondelettes est née. L'approche la plus courante est de déformer le noyau d'ondelette pour l'adapter au contenu géométrique d'une image.
Dans cette thèse, nous proposons d'aborder le problème d'adaptativité sous un angle différent. L'idée est de déformer le contenu d'une image pour l'adapter au noyau d'ondelette séparable standard. La déformation est modélisée par un maillage déformable et le critère d'adaptation utilisé est le coût de description de l'image déformée. Une minimisation énergétique similaire à une estimation de mouvement est mise en place pour calculer les paramètres du maillage. A l'issue de cette phase d'analyse, l'image est représentée par une image déformée de moindre coût de codage et par les paramètres de déformation. Après codage, transmission et décodage de ces inforrnations, l'image d'origine peut être synthétisée en inversant la déformation. Les performances en compression de ce schéma par analyse-synthèse spatiales sont étudiées et comparées à celles de JPEG2000. Visuellement, on observe une meilleure reconstruction des contours des images avec une atténuation significative de l'effet rebond.
Conservant l'idée d'adapter le contenu des images à un noyau de décomposition fixe, nous proposons ensuite un schéma de codage par analyse-synthèse spatio-temporelles dédié à la vidéo. L'analyse prend en entrée un groupe d'images (GOF) et génère en sortie un groupe d'images déformées dont le contenu est adapté à une décomposition 3D horizontale-verticale-temporelle fixe. Le schéma est conçu de sorte qu'une seule géométrie soit estimée et transmise pour l'ensemble du GOF. Des résultats de compression sont présentés en utilisant le maillage déformable pour modéliser la géométrie et le mouvement. Bien qu'une seule géométrie soit encodée, nous montrons que son coût est trop important pour permettre une amélioration significative de la qualité visuelle par rapport à un schéma par analyse-synthèse exploitant uniquement le mouvement.
APA, Harvard, Vancouver, ISO, and other styles
11

Guironnet, Mickaël. "Méthodes de résumé de vidéo à partir d'informations bas niveau, du mouvement de caméra ou de l'attention visuelle." Université Joseph Fourier (Grenoble), 2006. http://www.theses.fr/2006GRE10155.

Full text
Abstract:
Le volume grandissant de vidéos a suscité le besoin de nouveaux outils d'aide à l'indexation. Un des outils possibles est le résumé de vidéo qui permet de fournir un aperçu rapide à l'usager. L'objectif de cette thèse est d'extraire, à partir d'informations visuelles, un résumé de vidéo contenant le « message » de la vidéo. Nous avons choisi d'étudier trois nouvelles méthodes de résumé de vidéo utilisant différentes informations visuelles. La première méthode de résumé repose sur des caractéristiques de bas niveau (couleur, orientation et mouvement). La combinaison de ces index qui s'appuie sur un système d'inférence floue a permis de construire un résumé hiérarchique. Nous avons montré l'intérêt d'un tel résumé dans une application de la recherche par l'exemple. La deuxième méthode de résumé est construite à partir du mouvement de caméra. Cette caractéristique de plus haut niveau sémantique est réfléchie par le réalisateur et induit une information sur le contenu. Une méthode de classification des mouvements basée sur le Modèle des Croyances Transférables est élaborée. La méthode de résumé est alors établie selon des règles sur l'amplitude et l'enchaînement des mouvements de caméra identifiés. La troisième méthode de résumé est développée à partir de l'attention visuelle. Connaître les endroits où le regard se porte lors du visionnage de la vidéo est une information de plus haut niveau sémantique et pertinente pour créer le résumé. Un modèle spatio-temporel d'attention visuelle est proposé, puis utilisé pour détecter le changement de contenu au cours du temps afin de construire le résumé
The growing volume of video leads to the need of new tools for indexing. One of the possible tools is video summary which provides a fast overview to the user. The objective of this thesis is to extract from visual information, a summary containing the “message” of video. We chose to study three new methods of video summary using different types of visual features. The first method of summary rests on low level features (color, orientation and motion). The combination of these features which is based on a fuzzy inference system allows a hierarchical summary to be built. We show the interest of such a summary in an application of query by example. The second method of summary is built from camera motion. This higher level feature is thought by the filmmaker and so induces information on the content. A method of camera motion classification based on Transferable Belief Model is achieved. The method of summary is elaborated according to rules about the magnitude and the chain of the identified motions. The third method of summary is developed from visual attention. To know the places where the glance is directed during the video playback is higher level information and relevant to create the summary. A spatio-temporal attention model is proposed, and then used to detect the change of content in time in order to build the summary
APA, Harvard, Vancouver, ISO, and other styles
12

Derbas, Nadia. "Contributions à la détection de concepts et d'événements dans les documents vidéos." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM035/document.

Full text
Abstract:
L'explosion de la quantité de documents multimédias, suite à l'essor des technologies numériques, a rendu leur indexation très coûteuse et manuellement impossible. Par conséquent, le besoin de disposer de systèmes d'indexation capables d'analyser, de stocker et de retrouver les documents multimédias automatiquement, et en se basant sur leur contenu (audio, visuel), s'est fait ressentir dans de nombreux domaines applicatifs. Cependant, les techniques d'indexation actuelles rencontrent encore des problèmes de faisabilité ou de qualité. Leur performance reste très limitée et est dépendante de plusieurs facteurs comme la variabilité et la quantité de données à traiter. En effet, les systèmes d'indexation cherchent à reconnaître des concepts statiques, comme des objets (vélo, chaise,...), ou des événements (mariage, manifestation,...). Ces systèmes se heurtent donc au problème de variabilité de formes, de positions, de poses, d'illuminations, d'orientations des objets. Le passage à l'échelle pour pouvoir traiter de très grands volumes de données tout en respectant des contraintes de temps de calcul et de stockage est également une contrainte.Dans cette thèse, nous nous intéressons à l'amélioration de la performance globale de ces systèmes d'indexation de documents multimédias par le contenu. Pour cela nous abordons le problème sous différents angles et apportons quatre contributions à divers stades du processus d'indexation. Nous proposons tout d'abord une nouvelle méthode de fusion "doublement précoce " entre différentes modalités ou différentes sources d'informations afin d'exploiter au mieux la corrélation entre les modalités. Cette méthode est ensuite appliquée à la détection de scènes violentes dans les films. Nous développons ensuite une méthode faiblement supervisée pour la localisation des concepts basiques (comme les objets) dans les images qui pourra être utilisé plus tard comme un descripteur et une information supplémentaire pour la détection de concepts plus complexes (comme des événements). Nous traitons également la problématique de réduction du bruit généré par des annotations ambiguës sur les données d'apprentissage en proposant deux méthodes: une génération de nouvelles annotations au niveau des plans et une méthode de pondération des plans. Enfin, nous avons mis en place une méthode d'optimisation des représentations du contenu multimédia qui combine une réduction de dimension basée sur une ACP et des transformations non linéaires.Les quatre contributions sont testées et évaluées sur les collections de données faisant référence dans le domaine, comme TRECVid ou MediaEval. Elles ont participé au bon classement de nos soumissions dans ces campagnes
A consequence of the rise of digital technology is that the quantity of available collections of multimedia documents is permanently and strongly increasing. The indexing of these documents became both very costly and impossible to do manually. In order to be able to analyze, classify and search multimedia documents, indexing systems have been defined. However, most of these systems suffer quality or practicability issues. Their performance is limited and depends on the data volume and data variability. Indexing systems analyze multimedia documents, looking for static concepts (bicycle, chair,...), or events (wedding, protest,...). Therefore, the variability in shapes, positions, lighting or orientation of objects hinders the process. Another aspect is that systems must be scalable. They should be able to handle big data while using reasonable amount of computing time and memory.The aim of this thesis is to improve the general performance of content-based multimedia indexing systems. Four main contributions are brought in this thesis for improving different stages of the indexing process. The first one is an "early-early fusion method" that merges different information sources in order to extract their deep correlations. This method is used for violent scenes detection in movies. The second contribution is a weakly supervised method for basic concept (objects) localization in images. This can be used afterwards as a new descriptor to help detecting complex concepts (events). The third contribution tackles the noise reduction problem on ambiguously annotated data. Two methods are proposed: a shot annotation generator, and a shot weighing method. The last contribution is a generic descriptor optimization method, based on PCA and non-linear transforms.These four contributions are tested and evaluated using reference data collections, including TRECVid and MediaEval. These contributions helped our submissions achieving very good rankings in those evaluation campaigns
APA, Harvard, Vancouver, ISO, and other styles
13

Niaz, Usman. "Amélioration de la détection des concepts dans les vidéos en coupant de plus grandes tranches du monde visuel." Thesis, Paris, ENST, 2014. http://www.theses.fr/2014ENST0040/document.

Full text
Abstract:
Les documents visuels comprenant des images et des vidéos sont en croissance rapide sur Internet et dans nos collections personnelles. Cela nécessite une analyse automatique du contenu visuel qui fait appel à la conception de méthodes intelligentes pour correctement indexer, rechercher et récupérer des images et des vidéos. Cette thèse vise à améliorer la détection automatique des concepts dans les vidéos sur Internet. Nos contributions portent sur des différents niveaux dans le cadre de détection de concept et peuvent être divisés en trois parties principales. La première partie se focalise sur l’amélioration du modèle de représentation des vidéos « Bag-of-Words (BOW) » en proposant un nouveau mécanisme de construction qui utilise des étiquettes de concepts et une autre technique qui ajoute un raffinement à la signature BOW basée sur la distribution de ses éléments. Nous élaborons ensuite des méthodes pour intégrer des entités semblables et dissemblables pour construire des modèles de reconnaissance améliorés dans la deuxième partie. A ce stade-là, nous observons l’information potentielle que les concepts partagent et construisons des modèles pour les méta-concepts dont sont dérivés les résultats spécifiques de concepts. Cela améliore la reconnaissance des concepts qui ont peu d’exemples annotés. Enfin, nous concevons certaines méthodes d'apprentissage semi-supervisé pour bénéficier de la quantité importante de données non étiquetées. Nous proposons des techniques pour améliorer l'algorithme de cotraining avec une sélection optimale des classifieurs utilisés
Visual material comprising images and videos is growing ever so rapidly over the internet and in our personal collections. This necessitates automatic understanding of the visual content which calls for the conception of intelligent methods to correctly index, search and retrieve images and videos. This thesis aims at improving the automatic detection of concepts in the internet videos by exploring all the available information and putting the most beneficial out of it to good use. Our contributions address various levels of the concept detection framework and can be divided into three main parts. The first part improves the Bag of Words (BOW) video representation model by proposing a novel BOW construction mechanism using concept labels and by including a refinement to the BOW signature based on the distribution of its elements. We then devise methods to incorporate knowledge from similar and dissimilar entities to build improved recognition models in the second part. Here we look at the potential information that the concepts share and build models for meta-concepts from which concept specific results are derived. This improves recognition for concepts lacking labeled examples. Lastly we contrive certain semi-supervised learning methods to get the best of the substantial amount of unlabeled data. We propose techniques to improve the semi-supervised cotraining algorithm with optimal view selection
APA, Harvard, Vancouver, ISO, and other styles
14

Bendraou, Youssef. "Détection des changements de plans et extraction d'images représentatives dans une séquence vidéo." Thesis, Littoral, 2017. http://www.theses.fr/2017DUNK0458/document.

Full text
Abstract:
Les technologies multimédias ont récemment connues une grande évolution surtout avec la croissance rapide d'internet ainsi que la création quotidienne de grands volumes de données vidéos. Tout ceci nécessite de nouvelles méthodes performantes permettant d'indexer, de naviguer, de rechercher et de consulter les informations stockées dans de grandes bases de données multimédia. La récupération de données basée sur le contenu vidéo, qui est devenue un domaine de recherche très actif durant cette décennie, regroupe les différentes techniques conçues pour le traitement de la vidéo. Dans le cadre de cette thèse de doctorat, nous présentons des applications permettant la segmentation temporelle d'une vidéo ainsi que la récupération d'information pertinente dans une séquence vidéo. Une fois le processus de classification effectué, il devient possible de rechercher l'information utile en ajoutant de nouveaux critères, et aussi de visualiser l'information d'une manière appropriée permettant d'optimiser le temps et la mémoire. Dans une séquence vidéo, le plan est considéré comme l'unité élémentaire de la vidéo. Un plan est défini comme une suite d'image capturée par une même caméra représentant une action dans le temps. Pour composer une vidéo, plusieurs plans sont regroupés en utilisant des séquences de transitions. Ces transitions se catégorisent en transitions brusques et transitions progressives. Détecter les transitions présentes dans une séquence vidéo a fait l'objet de nos premières recherches. Plusieurs techniques, basées sur différents modèles mathématiques, ont été élaborées pour la détection des changements de plans. L'utilisation de la décomposition en valeur singulière (SVD) ains que la norme Frobenius ont permis d'obtenir des résultats précis en un temps de calcul réduit. Le résumé automatique des séquences vidéo est actuellement un sujet d'une très grande actualité. Comme son nom l'indique, il s'agit d'une version courte de la vidéo qui doit contenir l'essentiel de l'information, tout en étant le plus concis possible. Ils existent deux grandes familles de résumé : le résumé statique et le résumé dynamique. Sélectionner une image représentative de chaque plan permet de créer un scénarimage. Ceci est considéré comme étant un résumé statique et local. Dans notre travail, une méthode de résumé globale est proposée
With the recent advancement in multimedia technologies, in conjunction with the rapid increase of the volume of digital video data and the growth of internet ; it has becom mandatory to have the hability browse and search through information stored in large multimedia databases. For this purpose, content based video retrieval (CBVR) has become an active area of research durinf the last decade. The objective of this thesis is to present applications for temporal video segmentation and video retrieval based on different mathematical models. A shot is considered as the elementary unit of a video, and is defined as a continuous sequence of frames taken from a single camera, representing an action during time. The different types of transitions that may occur in a video sequence are categorized into : abrupt and gradual transition. In this work, through statistical analysis, we segment a video into its constituent units. This is achieved by identifying transitions between adjacent shots. The first proposed algorithm aims to detect abrupt shot transitions only by measuring the similarity between consecutive frames. Given the size of the vector containing distances, it can be modeled by a log normal distribution since all the values are positive. Gradual shot transition identification is a more difficult task when compared to cut detection. Generally, a gradual transition may share similar characteristics as a dynamic segment with camera or object motion. In this work, singular value decomposition (SVD) is performed to project features from the spatial domain to the singular space. Resulting features are reduced and more refined, which makes the remaining tasks easier. The proposed system, designed for detecting both abrupt and gradual transitions, has lead to reliable performances achieving high detection rates. In addition, the acceptable computational time allows to process in real time. Once a video is partitioned into its elementary units, high-level applications can be processed, such as the key-frame extraction. Selecting representative frames from each shot to form a storyboard is considered as a static and local video summarization. In our research, we opted for a global method based on local extraction. Using refined centrist features from the singular space, we select representative frames using modified k-means clustering based on important scenes. This leads to catch pertinent frames without redoudancy in the final storyboard
APA, Harvard, Vancouver, ISO, and other styles
15

Silverston, Thomas. "Peer-to-Peer video live streaming : measurement experiments and traffic analysis." Paris 6, 2009. http://www.theses.fr/2009PA066303.

Full text
Abstract:
L'Internet est en train de connaître l'un de ses plus importants bouleversements en termes de distribution de contenu depuis qu'il est utilisé comme support de diffusion : les utilisateurs jusqu'alors passifs récepteurs de contenu deviennent producteurs de contenus. Suite à ce changement, l'architecture de diffusion de contenu de l'Internet évolue également passant du modèle classique client/serveur au modèle pair-à-pair (P2P). Pour les nouveaux services de diffusion de contenu qui visent un grand nombre de récepteurs sur l'Internet, il y a des inquiétudes concernant leur aptitude à transmettre les contenus à large échelle à des millions d'utilisateurs en même temps. C'est typiquement le cas pour le service de diffusion de télévision sur l'Internet. La diffusion de télévision sur l'Internet via une architecture pair-à-pair (P2P-TV) est devenu un sujet de recherche important puisque l'on s'attend à ce que ces applications soient massivement utilisées sur l'Internet. Ainsi, il y a eu de nombreuses propositions d'architectures P2P-TV mais aucune d'entre elles n'a réellement été implémentée ni même déployée. Dans le même temps, des applications P2P-TV commerciales sont apparues sur l'Internet (PPLive, SOPCast) et sont devenues de plus en plus populaire. Bien que ces applications soient disponibles sur l'Internet, elles sont propriétaires et leur code source n'est pas ouvert : les détails d'implémentation ainsi que les protocoles qu'elles utilisent sont complètement inconnus. Il y a un manque total de connaissance de ces applications, aussi bien d'un point de vue architectural, que du point de vue de leurs mécanismes ou du trafic qu'elles génèrent. Dans cette thèse, afin de combler l'écart entre les propositions d'architectures et les applications commerciales, nous avons étudié les applications P2P-TV en effectuant d'importantes expériences de mesures. Nous avons mesuré passivement le trafic réseau généré par les applications P2P-TV les plus populaires. Nous présentons donc une étude détaillée du trafic P2P-TV, fournissant des résultats utiles à la fois sur les propriétés de niveau paquet et transport du trafic que sur le comportement des pairs dans le réseau. Ces expériences de mesures et analyses de trafic sont utiles pour comprendre les technologies P2P-TV utilisées, identifier ce type de trafic, évaluer son impact sur le réseau et permettre l'élaboration de modèles plus réalistes pour les simulations. Afin d'étendre la portée de notre étude, nous avons effectué une seconde campagne de mesure à plus large échelle entre le Japon et la France afin de mieux caractériser les réseaux P2P-TV mesurés. Grâce à cette nouvelle expérience, nous étudions l'organisation globale des pairs dans le réseau, la quantité de trafic échangé et le niveau de collaboration des pairs. Nous nous intéressons également à la distance entre les pairs et à la situation géographique des utilisateurs.
APA, Harvard, Vancouver, ISO, and other styles
16

Caron, André. "Recherche par le contenu adaptée à la surveillance vidéo." Mémoire, Université de Sherbrooke, 2011. http://savoirs.usherbrooke.ca/handle/11143/4911.

Full text
Abstract:
Les systèmes de surveillance vidéo sont omniprésents dans les lieux publics achalandés et leur présence dans les lieux privés s'accroît sans cesse. Si un aéroport ou une gare de trains peut se permettre d'employer une équipe de surveillance pour surveiller des flux vidéo en temps réel, il est improbable qu'un particulier effectue une telle dépense pour un système de surveillance à domicile. Qui plus est, l'utilisation de vidéos de surveillance pour l'analyse criminalistique requiert souvent une analyse a posteriori des événements observés. L'historique d'enregistrement correspond souvent à plusieurs jours, voire des semaines de vidéo. Si le moment où s'est produit un événement d'intérêt est inconnu, un outil de recherche vidéo est essentiel. Un tel outil a pour objectif d'identifier les segments de vidéo dont le contenu correspond à une description approximative de l'événement (ou de l'objet) recherché. Ce mémoire présente une structure de données pour l'indexation du contenu de longues vidéos de surveillance, ainsi qu'un algorithme de recherche par le contenu basé sur cette structure. À partir de la description d'un objet basée sur des attributs tels sa taille, sa couleur et la direction de son mouvement, le système identifie en temps réel les segments de vidéo contenant des objets correspondant à cette description. Nous avons démontré empiriquement que notre système fonctionne dans plusieurs cas d'utilisation tels le comptage d'objets en mouvement, la reconnaissance de trajectoires, la détection d'objets abandonnés et la détection de véhicules stationnés. Ce mémoire comporte également une section sur l'attestation de qualité d'images. La méthode présentée permet de déterminer qualitativement le type et la quantité de distortion appliquée à l'image par un système d'acquisition. Cette technique peut être utilisée pour estimer les paramètres du système d'acquisition afin de corriger les images, ou encore pour aider au développement de nouveaux systèmes d'acquisition.
APA, Harvard, Vancouver, ISO, and other styles
17

Marechal, Nicolas. "Génération de contenu graphique." Phd thesis, Université Claude Bernard - Lyon I, 2010. http://tel.archives-ouvertes.fr/tel-00843000.

Full text
Abstract:
L'objectif de cette thèse est la recherche de nouvelles techniques de génération de contenu numérique pour des applications de jeu vidéo. Le manque de variété de terrains, d'objets et de détails affecte fortement le réalisme des paysages de synthèse.Dans ce contexte, un des principaux goulots d'étranglements est la modélisation des ressources graphiques permettant de créer les scènes. Afin de simplifier et d'accélérer cette tâche, nous présentons des méthodes permettant de générer automatiquement du contenu graphique pour créer de grands paysages à la fois complexes et originaux.Notre première approche permet de créer et d'éditer rapidement des variétés d'objets à partir d'un modèle initial fourni par un graphiste, sous la contrainte d'une représentation avec très peu de triangles. Nous présentons également une méthode de génération procédurale des variétés d'objets. Ensemble, ces méthodes permettent de créer aussi bien des variétés de formes naturelles que des ouvrages d'arts tels que des routes, des ponts et des tunnels capables de s'adapter automatiquement au relief d'un paysage.Nous proposons une autre méthode, s'appuyant sur une simulation physique et thermique, pour créer des paysages hivernaux évoluant au cours du temps en fonction des conditions climatiques. Cette approche permet de suivre l'évolution du manteau neigeux ainsi que l'épaisseur de la glace qui se forme en surface d'un lac.
APA, Harvard, Vancouver, ISO, and other styles
18

Garboan, Adriana. "Traçage de contenu vidéo : une méthode robuste à l'enregistrement en salle de cinéma." Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00871762.

Full text
Abstract:
Composantes sine qua non des contenus multimédias distribués et/ou partagés via un réseau, les techniques de fingerprinting permettent d'identifier tout contenu numérique à l'aide d'une signature (empreinte) de taille réduite, calculée à partir des données d'origine. Cette signature doit être invariante aux transformations du contenu. Pour des vidéos, cela renvoie aussi bien à du filtrage, de la compression, des opérations géométriques (rotation, sélection de sous-région... ) qu'à du sous-échantillonnage spatio-temporel. Dans la pratique, c'est l'enregistrement par caméscope directement dans une salle de projection qui combine de façon non linéaire toutes les transformations pré-citées.Par rapport à l'état de l'art, sous contrainte de robustesse à l'enregistrement en salle de cinéma, trois verrous scientifiques restent à lever : (1) unicité des signatures, (2) appariement mathématique des signatures, (3) scalabilité de la recherche au regard de la dimension de la base de données.La principale contribution de cette thèse est de spécifier, concevoir, implanter et valider TrackART, une nouvelle méthode de traçage des contenus vidéo relevant ces trois défis dans un contexte de traçage de contenus cinématographiques.L'unicité de la signature est obtenue par sélection d'un sous-ensemble de coefficients d'ondelettes, selon un critère statistique de leurs propriétés. La robustesse des signatures aux distorsions lors de l'appariement est garantie par l'introduction d'un test statistique Rho de corrélation. Enfin, la méthode développée est scalable : l'algorithme de localisation met en œuvre une représentation auto-adaptative par sac de mots visuels. TrackART comporte également un mécanisme de synchronisation supplémentaire, capable de corriger automatiquement le jitter introduit par les attaques de désynchronisation variables en temps.La méthode TrackART a été validée dans le cadre d'un partenariat industriel, avec les principaux professionnels de l'industrie cinématographique et avec le concours de la Commission Technique Supérieure de l'Image et du Son. La base de données de référence est constituée de 14 heures de contenu vidéo. La base de données requête correspond à 25 heures de contenu vidéo attaqué, obtenues en appliquant neuf types de distorsion sur le tiers des vidéo de la base de référence.Les performances de la méthode TrackART ont été mesurées objectivement dans un contexte d'enregistrement en salle : la probabilité de fausse alarme est inférieure à 16*10^-6, la probabilité de perte inférieure à 0,041, la précision et le rappel sont égal à 93%. Ces valeurs représentent une avancée par rapport à l'état de l'art qui n'exhibe aucune méthode de traçage robuste à l'enregistrement en salle et valident une première preuve de concept de la méthodologie statistique développée.
APA, Harvard, Vancouver, ISO, and other styles
19

Garboan, Adriana. "Traçage de contenu vidéo : une méthode robuste à l’enregistrement en salle de cinéma." Thesis, Paris, ENMP, 2012. http://www.theses.fr/2012ENMP0097/document.

Full text
Abstract:
Composantes sine qua non des contenus multimédias distribués et/ou partagés via un réseau, les techniques de fingerprinting permettent d'identifier tout contenu numérique à l'aide d'une signature (empreinte) de taille réduite, calculée à partir des données d'origine. Cette signature doit être invariante aux transformations du contenu. Pour des vidéos, cela renvoie aussi bien à du filtrage, de la compression, des opérations géométriques (rotation, sélection de sous-région… ) qu'à du sous-échantillonnage spatio-temporel. Dans la pratique, c'est l'enregistrement par caméscope directement dans une salle de projection qui combine de façon non linéaire toutes les transformations pré-citées.Par rapport à l'état de l'art, sous contrainte de robustesse à l'enregistrement en salle de cinéma, trois verrous scientifiques restent à lever : (1) unicité des signatures, (2) appariement mathématique des signatures, (3) scalabilité de la recherche au regard de la dimension de la base de données.La principale contribution de cette thèse est de spécifier, concevoir, implanter et valider TrackART, une nouvelle méthode de traçage des contenus vidéo relevant ces trois défis dans un contexte de traçage de contenus cinématographiques.L'unicité de la signature est obtenue par sélection d'un sous-ensemble de coefficients d'ondelettes, selon un critère statistique de leurs propriétés. La robustesse des signatures aux distorsions lors de l'appariement est garantie par l'introduction d'un test statistique Rho de corrélation. Enfin, la méthode développée est scalable : l'algorithme de localisation met en œuvre une représentation auto-adaptative par sac de mots visuels. TrackART comporte également un mécanisme de synchronisation supplémentaire, capable de corriger automatiquement le jitter introduit par les attaques de désynchronisation variables en temps.La méthode TrackART a été validée dans le cadre d'un partenariat industriel, avec les principaux professionnels de l'industrie cinématographique et avec le concours de la Commission Technique Supérieure de l'Image et du Son. La base de données de référence est constituée de 14 heures de contenu vidéo. La base de données requête correspond à 25 heures de contenu vidéo attaqué, obtenues en appliquant neuf types de distorsion sur le tiers des vidéo de la base de référence.Les performances de la méthode TrackART ont été mesurées objectivement dans un contexte d'enregistrement en salle : la probabilité de fausse alarme est inférieure à 16*10^-6, la probabilité de perte inférieure à 0,041, la précision et le rappel sont égal à 93%. Ces valeurs représentent une avancée par rapport à l'état de l'art qui n'exhibe aucune méthode de traçage robuste à l'enregistrement en salle et valident une première preuve de concept de la méthodologie statistique développée
Sine qua non component of multimedia content distribution on the Internet, video fingerprinting techniques allow the identification of content based on digital signatures(fingerprints) computed from the content itself. The signatures have to be invariant to content transformations like filtering, compression, geometric modifications, and spatial-temporal sub-sampling/cropping. In practice, all these transformations are non-linearly combined by the live camcorder recording use case.The state-of-the-art limitations for video fingerprinting can be identified at three levels: (1) the uniqueness of the fingerprint is solely dealt with by heuristic procedures; (2) the fingerprinting matching is not constructed on a mathematical ground, thus resulting in lack of robustness to live camcorder recording distortions; (3) very few, if any, full scalable mono-modal methods exist.The main contribution of the present thesis is to specify, design, implement and validate a new video fingerprinting method, TrackART, able to overcome these limitations. In order to ensure a unique and mathematical representation of the video content, the fingerprint is represented by a set of wavelet coefficients. In order to grant the fingerprints robustness to the mundane or malicious distortions which appear practical use-cases, the fingerprint matching is based on a repeated Rho test on correlation. In order to make the method efficient in the case of large scale databases, a localization algorithm based on a bag of visual words representation (Sivic and Zisserman, 2003) is employed. An additional synchronization mechanism able to address the time-variants distortions induced by live camcorder recording was also designed.The TrackART method was validated in industrial partnership with professional players in cinematography special effects (Mikros Image) and with the French Cinematography Authority (CST - Commision Supérieure Technique de l'Image et du Son). The reference video database consists of 14 hours of video content. The query dataset consists in 25 hours of replica content obtained by applying nine types of distortions on a third of the reference video content. The performances of the TrackART method have been objectively assessed in the context of live camcorder recording: the probability of false alarm lower than 16 10-6, the probability of missed detection lower than 0.041, precision and recall equal to 0.93. These results represent an advancement compared to the state of the art which does not exhibit any video fingerprinting method robust to live camcorder recording and validate a first proof of concept for the developed statistical methodology
APA, Harvard, Vancouver, ISO, and other styles
20

Cámara, Chávez Guillermo Philipp-Foliguet Sylvie. "Analyse du contenu vidéo par apprentissage actif." [s.l.] : [s.n.], 2009. http://biblioweb.u-cergy.fr/theses/07CERG0380.pdf.

Full text
Abstract:
Reproduction de : Thèse doctorat : Traitement de l'image et du signal : Université de Cergy-Pontoise : 2007. Reproduction de : Thèse doctorat : Traitement de l'image et du signal : Universidade Federal de Minas Gerais (Brésil) : 2007.
Thèse soutenue en co-tutelle. Titre provenant de l'écran titre. Bibliogr. p. 157-174.
APA, Harvard, Vancouver, ISO, and other styles
21

Truong, Arthur. "Analyse du contenu expressif des gestes corporels." Thesis, Evry, Institut national des télécommunications, 2016. http://www.theses.fr/2016TELE0015/document.

Full text
Abstract:
Aujourd’hui, les recherches portant sur le geste manquent de modèles génériques. Les spécialistes du geste doivent osciller entre une formalisation excessivement conceptuelle et une description purement visuelle du mouvement. Nous reprenons les concepts développés par le chorégraphe Rudolf Laban pour l’analyse de la danse classique contemporaine, et proposons leur extension afin d’élaborer un modèle générique du geste basé sur ses éléments expressifs. Nous présentons également deux corpus de gestes 3D que nous avons constitués. Le premier, ORCHESTRE-3D, se compose de gestes pré-segmentés de chefs d’orchestre enregistrés en répétition. Son annotation à l’aide d’émotions musicales est destinée à l’étude du contenu émotionnel de la direction musicale. Le deuxième corpus, HTI 2014-2015, propose des séquences d’actions variées de la vie quotidienne. Dans une première approche de reconnaissance dite « globale », nous définissons un descripteur qui se rapporte à l’entièreté du geste. Ce type de caractérisation nous permet de discriminer diverses actions, ainsi que de reconnaître les différentes émotions musicales que portent les gestes des chefs d’orchestre de notre base ORCHESTRE-3D. Dans une seconde approche dite « dynamique », nous définissons un descripteur de trame gestuelle (e.g. défini pour tout instant du geste). Les descripteurs de trame sont utilisés des poses-clés du mouvement, de sorte à en obtenir à tout instant une représentation simplifiée et utilisable pour reconnaître des actions à la volée. Nous testons notre approche sur plusieurs bases de geste, dont notre propre corpus HTI 2014-2015
Nowadays, researches dealing with gesture analysis suffer from a lack of unified mathematical models. On the one hand, gesture formalizations by human sciences remain purely theoretical and are not inclined to any quantification. On the other hand, the commonly used motion descriptors are generally purely intuitive, and limited to the visual aspects of the gesture. In the present work, we retain Laban Movement Analysis (LMA – originally designed for the study of dance movements) as a framework for building our own gesture descriptors, based on expressivity. Two datasets are introduced: the first one is called ORCHESTRE-3D, and is composed of pre-segmented orchestra conductors’ gestures, which have been annotated with the help of lexicon of musical emotions. The second one, HTI 2014-2015, comprises sequences of multiple daily actions. In a first experiment, we define a global feature vector based upon the expressive indices of our model and dedicated to the characterization of the whole gesture. This descriptor is used for action recognition purpose and to discriminate the different emotions of our orchestra conductors’ dataset. In a second approach, the different elements of our expressive model are used as a frame descriptor (e.g., describing the gesture at a given time). The feature space provided by such local characteristics is used to extract key poses of the motion. With the help of such poses, we obtain a per-frame sub-representation of body motions which is available for real-time action recognition purpose
APA, Harvard, Vancouver, ISO, and other styles
22

Zhao, Shuji. "Catégorisation par le contenu sémantique d'objets vidéo : recherche et reconnaissance d'acteurs dans les films." Thesis, Cergy-Pontoise, 2011. http://www.theses.fr/2011CERG0511/document.

Full text
Abstract:
Dans cette thèse, nous proposons un nouveau système de recherche par le contenu de catégories sémantiques d'objets vidéo.A partir des séquences vidéo, nous détectons et extrayons les régions contenant le même objet (visage d'une personne, un modèle de voiture, etc.) au cours d'un plan-séquence. A partir de ce volume, appelé Track, nous extrayons un ensemble de caractéristiques visuelles spatio-temporellement cohérentes qui forme ainsi un Tube Spatio-Temporel représentant l'objet.Pour évaluer la similarité entre Tubes Spatio-Temporels, nous concevons des fonctions noyaux dédiées. À partir de ces noyaux, nous proposons des stratégies d'apprentissage supervisé et interactif, intégrées dans un cadre Machine à Vecteurs de Supports.Notre approche est évaluée sur des bases de données de films réels. Elle surpasse les méthodes de l'état de l'art pour la reconnaissance d'acteurs multi-classes. Notre méthode est également testée pour la recherche interactive d'un acteur dans une base de vidéo et sur une base de données de voitures, illustrant ainsi la généricité de la méthode et ses possibles extensions à tout type d'objets vidéo
In this thesis, we propose a new video object retrieval and recognition system based on visual content.From video sequences, we detect, then extract video objects such as face and car, and define the continuous content made of regions containing this object in successive frames. From this volume, called Track, we extract spatio-temporally consistent visual features to define the video object representation: Spatio-Temporal Tube.To evaluate the similarity between complex tube objects, we design a Spatio-Temporal Tube Kernel (STTK) function. Based on this kernel similarity we present both supervised and active learning strategies embedded in Support Vector Machine framework. Additionally, we propose a multi-class classification framework dealing with highly unbalanced datasets.Our approach is successfully evaluated on real movie databases. Our machine learning approach outperforms the state of the art methods for multi-class actor recognition. Our method is also evaluated for actor retrieval task and on a car database showing hence promising results for car identification task and the potential of extension to any category of video objects
APA, Harvard, Vancouver, ISO, and other styles
23

Ben, Abdelali Abdessalem. "Etude de la conception d’architectures matérielles dédiées pour les traitements multimédia : indexation de la vidéo par le contenu." Dijon, 2007. http://www.theses.fr/2007DIJOS075.

Full text
Abstract:
Cette thèse constitue une contribution à l’étude de l’indexation automatique de la vidéo par le contenu en vue de la conception d’architectures matérielles dédiées à ce type d’application multimédia. L’indexation de la vidéo par le contenu présente un domaine de grande importance et qui est sans cesse en développement pour différents types d’applications telles que l’Internet, la TV interactive, les supports vidéo portables (PVR) et les applications de sécurité. L’étude proposée est effectuée à travers des exemples concrets de techniques d’analyse du contenu AV pour l’indexation de la vidéo et selon différents aspects applicatifs, technologiques et méthodologiques. Elle s’inscrit dans le cadre de la conception d’architectures matérielles dédiées et de l’exploitation des nouvelles technologies de systèmes embarqués pour les applications multimédia récentes. Un intérêt particulier est consacré à la technologie reconfigurable et aux nouvelles possibilités et moyens d’utilisation des circuits FPGA. La première phase de cette thèse a été consacrée à l’étude du domaine de l’indexation automatique de la vidéo par le contenu. Il s’agit de l’étude des caractéristiques et des nouveaux besoins des systèmes d’indexation au travers des approches et des techniques actuellement utilisées ainsi que les champs d’application des nouvelles générations de ces systèmes. Ceci afin de montrer l’intérêt d’avoir recours à de nouvelles architectures et à de nouvelles solutions technologiques permettant de supporter les exigences de ce domaine. La deuxième phase de ce travail a été réservée à la validation et à l’optimisation d’un ensemble de descripteurs visuels de la norme MPEG-7 pour la segmentation temporelle de la vidéo. Ceci constitue une étude de cas par l’étude d’un exemple important de techniques d’analyse du contenu AV utilisées dans une grande diversité d’applications. L’étude proposée constitue également une étape de préparation à l’implémentation matérielle de ces techniques dans le contexte de conception d’accélérateurs matériels pour l’indexation automatique de la vidéo par le contenu en temps réel. Dans ce cadre différentes transformations algorithmiques ont été proposées dans le but d’assurer une meilleure Adéquation Algorithme Architecture (AAA) et d’améliorer les performances des algorithmes étudiés. La troisième phase de ce travail a été consacrée à l’étude de la conception d’opérateurs matériels dédiés pour les techniques d’analyse du contenu AV ainsi qu’à l’étude de l’exploitation des nouvelles technologies des systèmes reconfigurables pour la mise en œuvre de SORC pour l’indexation automatique de la vidéo. Plusieurs architectures matérielles ont été proposées pour les descripteurs étudiés et différents concepts liés à l’exploitation de la technologie reconfigurable et les SORC ont été explorés (méthodologies et outils associés pour la conception de tels systèmes sur puce, technologie et méthodes pour la reconfiguration dynamique et partielle, plateformes matérielles à base d’FPGA, structure d’un SORC pour l’indexation de la vidéo par le contenu, etc. )
This thesis constitutes a contribution to the study of content based automatic video indexing aiming at designing hardware architectures dedicated to this type of multimedia application. The content based video indexing represents an important domain that is in constant development for different types of applications such as the Internet, the interactive TV, the personal video recorders (PVR) and the security applications. The proposed study is done through concrete AV analysis techniques for video indexing and it is carried out according to different aspects related to application, technology and methodology. It is included in the context of dedicated hardware architectures design and exploitation of the new embedded systems technologies for the recent multimedia applications. Much more interest is given to the reconfigurable technology and to the new possibilities and means of the FPGA devices utilization. The first stage of this thesis is devoted to the study of the automatic content based video indexing domain. It is about the study of features and the new needs of indexing systems through the approaches and techniques currently used as well as the application fields of the new generations of these systems. This is in order to show the interest of using new architectures and technological solutions permitting to support the new requirements of this domain. The second stage is dedicated to the validation and the optimization of some visual descriptors of the MPEG-7 standard for the video temporal segmentation. This constitutes a case study through an important example of AV content analysis techniques. The proposed study constitutes also a stage of preparation for the hardware implementation of these techniques in the context of hardware accelerators design for real time automatic video indexing. Different Algorithm Architecture Adequacy aspects have been studied through the proposition of various algorithmic transformations that can be applied for the considered algorithms. The third stage of this thesis is devoted to study the design of dedicated hardware operators for video content analysis techniques as well as the exploitation of the new reconfigurable systems technologies for designing SORC dedicated to the automatic video indexing. Several hardware architectures have been proposed for the MPEG-7 descriptors and different concepts related to the exploitation of reconfigurable technology and SORC have been studied as well (methodologies and tools for designing such systems on chip, technology and methods for the dynamic and partial reconfiguration, FPGA based hardware platforms, SORC structure for video indexing, etc. )
APA, Harvard, Vancouver, ISO, and other styles
24

Fagette, Antoine. "Détection de foule et analyse de comportement par analyse vidéo." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066709.

Full text
Abstract:
Cette thèse porte sur la similitude entre un fluide et une foule et sur l'adaptation de l’algorithme de Particle Video pour le suivi et l'analyse de foule, ce qui aboutit à la conception d'un système complet pour l'analyse de la foule. Cette thèse en étudie trois aspects : la détection de la foule, l'estimation de sa densité et le tracking des flux afin d'obtenir des caractéristiques de comportement.L’algorithme de détection de la foule est une méthode totalement non supervisée pour la détection et la localisation des foules denses dans des images non-contextualisées. Après avoir calculé des vecteurs de features multi-échelles, une classification binaire est effectuée afin d'identifier la foule et l'arrière-plan.L'algorithme d'estimation de densité s'attaque au problème de l'apprentissage de modèles de régression dans le cas de larges foules denses. L'apprentissage est alors impossible sur données réelles car la vérité terrain est indisponible. Notre méthode repose donc sur l'utilisation de données synthétiques pour la phase d'apprentissage et prouve que le modèle de régression obtenu est valable sur données réelles.Pour notre adaptation de l’algorithme de Particle Video nous considérons le nuage de particules comme statistiquement représentatif de la foule. De ce fait, chaque particule possède des propriétés physiques qui nous permettent d'évaluer la validité de son comportement en fonction de celui attendu d'un piéton et d’optimiser son mouvement guidé par le flot optique. Trois applications en découlent : détection des zones d’entrée-sortie de la foule, détection des occlusions dynamiques et mise en relation des zones d'entrée et de sortie selon les flux de piétons
This thesis focuses on the similarity between a fluid and a crowd and on the adaptation of the particle video algorithm for crowd tracking and analysis. This interrogation ended up with the design of a complete system for crowd analysis out of which, this thesis has addressed three main problems: the detection of the crowd, the estimation of its density and the tracking of the flow in order to derive some behavior features.The contribution to crowd detection introduces a totally unsupervised method for the detection and location of dense crowds in images without context-awareness. After retrieving multi-scale texture-related feature vectors from the image, a binary classification is conducted to identify the crowd and the background.The density estimation algorithm is tackling the problem of learning regression models when it comes to large dense crowds. In such cases, the learning is impossible on real data as the ground truth is not available. Our method relies on the use of synthetic data for the learning phase and proves that the regression model obtained is valid for a use on real data.Our adaptation of the particle video algorithm leads us to consider the cloud of particles as statistically representative of the crowd. Therefore, each particle has physical properties that enable us to assess the validity of its behavior according to the one expected from a pedestrian, and to optimize its motion guided by the optical flow. This leads us to three applications: the detection of the entry and exit areas of the crowd in the image, the detection of dynamic occlusions and the possibility to link entry areas with exit ones, according to the flow of the pedestrians
APA, Harvard, Vancouver, ISO, and other styles
25

Sarda, Elisa. "Les effets des jeux vidéo à contenu sexiste sur l'objectivation de la femme et sur les stéréotypes de genre." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAH026/document.

Full text
Abstract:
Dans notre société les femmes sont souvent réduites à leur apparence physique (i.e. elles sont objectivées) et sont la cible de différentes conduites sexistes. Le sexisme et l’objectivation de la femme sont fortement véhiculés par les médias et plus particulièrement par les jeux vidéo. Nous savons que les jeux vidéo peuvent influencer les conduites des joueurs, mais l’influence des jeux vidéo sur la vision négative de la femme est assez mal connue. Dans cette thèse nous étudions une possible relation entre l’utilisation des jeux vidéo sexistes et la vision négative de la femme, et nous nous intéressons aux processus psychologiques impliqués dans cette relation. Notre hypothèse est que les jeux vidéo sexistes puissent avoir la fonction d’amorce et rendre accessible en mémoire du joueur des représentations liées au soi, ou à la femme, qui peuvent par la suite influencer ses conduites. Nous proposons également que les hommes, ou les personnes qui s’identifient davantage avec le personnage principal du jeu soient les plus influencés par le contenu sexiste des jeux vidéo. Dans trois études, nous montrons qu’une utilisation habituelle des jeux vidéo est associée à une vision stéréotypique, ou moins humaine de la femme, cependant nous ne montrons pas que les hommes soient plus influencés que les femmes. Ainsi, dans les études qui suivent nous testons le rôle modérateur de l’identification avec le personnage principal. Nous montrons que les joueurs qui s’identifient le plus avec le personnage principal associent davantage leur concept de soi à la masculinité et donnent une plus grande importance à l’apparence de la femme plutôt qu’à ses compétences. Nous mettons en évidence que jouer avec un extrait du jeu vidéo sexiste amène les joueurs à plus associer le concept de la femme à celui d’objet (et cela d’autant plus qu’ils s’identifient au personnage principal), cependant lors de la dernière étude nous ne parvenons pas à répliquer ces résultats. Dans leur ensemble, ces travaux montrent qu’une utilisation habituelle des jeux vidéo influence négativement la vision de la femme. Ces études nous montrent également l’importance de s’intéresser à l’identification au personnage principal comme variable modératrice et nous encouragent à considérer le contenu des jeux vidéo sexistes comme une amorce qui rend accessibles des représentations mentales liées au soi ou à la femme
In our society, women are sexually objectified and are the target of sexist behaviors. Media and video games are a main channel of sexism and objectification of women. Several studies show that video game can impact players’ behavior. However the influence of sexist video games on negative perception of women is rather indefinite. In this thesis, we study the possible relationship between video games and the negative perception of women, to focus on its psychological mechanism. We argue that video games can work as a prime, activating in players’ memory some association between women and object, or some association between self-concept and masculinity, which in turn can increase negative perception of women. We also hypothesize that men, or players who highly identified with sexist game characters, are most impacted by sexist content of video games.In three studies we showed that there is an association between playing sexist video games and sexist attitudes, or women objectification. However we do not find that men are most impacted than women. Thus in other studies we test the moderating role of identification with sexist game character. In one study we show that players who highly identified with sexist game character associated more their self-concept with masculinity and gave more importance to women appearance rather than to her competence. In two other studies, we show that playing with sexist video game increases implicit associations of women with objects (especially for participants who highly identified with sexist game characters); however in the last study we do not replicate this result. Taken together, these studies show that regular video game playing is related to negative perception of women. Our results also suggest that identification plays a role in the impact of sexist video games and they encourage us to consider sexist content of video games as a prime that can make accessible some mental representations about one self or about women
APA, Harvard, Vancouver, ISO, and other styles
26

Ruiloba, Rosario I. "Analyse et description du montage vidéo numérique." Paris 6, 2001. http://www.theses.fr/2001PA066528.

Full text
APA, Harvard, Vancouver, ISO, and other styles
27

Veneau, Emmanuel. "Macro-segmentation multi-critère et classification de séquences par le contenu dynamique pour l'indexation vidéo." Rennes 1, 2002. http://www.theses.fr/2002REN10013.

Full text
APA, Harvard, Vancouver, ISO, and other styles
28

Péretié, Guilhem. "Segmentation spatio-temporelle temps-réel de flux vidéo pour un encodage dépendant de son contenu." Bordeaux 1, 2007. http://www.theses.fr/2007BOR13355.

Full text
Abstract:
Les travaux présentés dans ce document ont été accomplis dans le cadre d'une bourse CIFRE, c'est à dire d'un partenariat entre l'université, un « thèsard» et une entreprise. Ils correspondent à deux projets s'intégrant dans un environnement commun : l'extraction du contenu de vidéos, naturelles ou encodées, pour leur caractérisation. Développés en milieu entreprise, ils proposent des solutions concrètes et innovantes face aux enjeux technologiques et économiques auxquels celle-ci est confrontée. Ils se présentent en deux parties. La première s'intéressera à la caractérisation « niveau-pixel » des images en fonction de l'attention visuelle d'un observateur, en vue d'une réduction sélective de l'information en préparation à l'encodage. La seconde partie décrira une méthode d'adaptation du flux vidéo ( transrating) en temps réel, par la mise en place d'une modification du débit « à la volée » de vidéos pré-encodées
The work presented in this document was accomplished within the framework of a purse CIFRE, i. E. A partnership between the university, a PhD Student and a company. They correspond to two projects being integrated in a common environment: The extraction of the content natural or encoded videos for their characterization. Developed in an enterprise environment, they are meant to offer concrete and innovating solutions vis-a-vis the technological and economical challenges with which the enterprise is confronted. They are presented in two parts. The first one will be dealing with the pixel-based characterization of the images according to the visual attention of an observer, for a selective reduction of information in preparation to the encoding phase. The second part will describe a method of adaptation of a video flow (transrating) in real time, by putting a modification of the flow «done on the flight » of pre-encoded videos
APA, Harvard, Vancouver, ISO, and other styles
29

Grandin, Pascal. "Analyse du contenu informationnel d'un consensus de marché." Paris 9, 1992. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1992PA090021.

Full text
Abstract:
Le consensus de marché est une moyenne des prévisions de plusieurs sources indépendantes concernant les bénéfices par action et leur taux de croissance à moyen terme. Après avoir décrit le comportement de révision des analystes financiers, l'étude met en évidence le fait que l'agrégation permet en moyenne une prévision plus précise d'un paramètre grâce à la diversification du risque idiosyncratique de chaque prévision. Il est aussi montré que l'utilisation de ces données est utile à des fins de gestion de portefeuille, même si une partie de l'information est intégrée dans les cours des titres. Enfin la dispersion est un substitut aux mesures traditionnelles du risque boursier
The market consensus is an average of forecastsof earnings per share and their growth rate in mid-term by several independant sources. First, the way financial analysts revise their forecasts is described. Then it is shown that aggregating several forecasts yields a forecast which is better on average. This comes from the diversification of idiosyncratic risks in an aggregate of individual forecasts. It is also shown that consensus forecasts are useful for portfolio management, even though some of the information conveyed by these forecasts is already incorporated in stodk prices. Last, the dispersion in individual forecasts is a good measure of risk in the stock market
APA, Harvard, Vancouver, ISO, and other styles
30

Steinmetz, Nadine. "Context-aware semantic analysis of video metadata." Phd thesis, Universität Potsdam, 2013. http://opus.kobv.de/ubp/volltexte/2014/7055/.

Full text
Abstract:
Im Vergleich zu einer stichwortbasierten Suche ermöglicht die semantische Suche ein präziseres und anspruchsvolleres Durchsuchen von (Web)-Dokumenten, weil durch die explizite Semantik Mehrdeutigkeiten von natürlicher Sprache vermieden und semantische Beziehungen in das Suchergebnis einbezogen werden können. Eine semantische, Entitäten-basierte Suche geht von einer Anfrage mit festgelegter Bedeutung aus und liefert nur Dokumente, die mit dieser Entität annotiert sind als Suchergebnis. Die wichtigste Voraussetzung für eine Entitäten-zentrierte Suche stellt die Annotation der Dokumente im Archiv mit Entitäten und Kategorien dar. Textuelle Informationen werden analysiert und mit den entsprechenden Entitäten und Kategorien versehen, um den Inhalt semantisch erschließen zu können. Eine manuelle Annotation erfordert Domänenwissen und ist sehr zeitaufwendig. Die semantische Annotation von Videodokumenten erfordert besondere Aufmerksamkeit, da inhaltsbasierte Metadaten von Videos aus verschiedenen Quellen stammen, verschiedene Eigenschaften und Zuverlässigkeiten besitzen und daher nicht wie Fließtext behandelt werden können. Die vorliegende Arbeit stellt einen semantischen Analyseprozess für Video-Metadaten vor. Die Eigenschaften der verschiedenen Metadatentypen werden analysiert und ein Konfidenzwert ermittelt. Dieser Wert spiegelt die Korrektheit und die wahrscheinliche Mehrdeutigkeit eines Metadatums wieder. Beginnend mit dem Metadatum mit dem höchsten Konfidenzwert wird der Analyseprozess innerhalb eines Kontexts in absteigender Reihenfolge des Konfidenzwerts durchgeführt. Die bereits analysierten Metadaten dienen als Referenzpunkt für die weiteren Analysen. So kann eine möglichst korrekte Analyse der heterogen strukturierten Daten eines Kontexts sichergestellt werden. Am Ende der Analyse eines Metadatums wird die für den Kontext relevanteste Entität aus einer Liste von Kandidaten identifiziert - das Metadatum wird disambiguiert. Hierfür wurden verschiedene Disambiguierungsalgorithmen entwickelt, die Beschreibungstexte und semantische Beziehungen der Entitätenkandidaten zum gegebenen Kontext in Betracht ziehen. Der Kontext für die Disambiguierung wird für jedes Metadatum anhand der Eigenschaften und Konfidenzwerte zusammengestellt. Der vorgestellte Analyseprozess ist an zwei Hypothesen angelehnt: Um die Analyseergebnisse verbessern zu können, sollten die Metadaten eines Kontexts in absteigender Reihenfolge ihres Konfidenzwertes verarbeitet werden und die Kontextgrenzen von Videometadaten sollten durch Segmentgrenzen definiert werden, um möglichst Kontexte mit kohärentem Inhalt zu erhalten. Durch ausführliche Evaluationen konnten die gestellten Hypothesen bestätigt werden. Der Analyseprozess wurden gegen mehrere State-of-the-Art Methoden verglichen und erzielt verbesserte Ergebnisse in Bezug auf Recall und Precision, besonders für Metadaten, die aus weniger zuverlässigen Quellen stammen. Der Analyseprozess ist Teil eines Videoanalyse-Frameworks und wurde bereits erfolgreich in verschiedenen Projekten eingesetzt.
The Semantic Web provides information contained in the World Wide Web as machine-readable facts. In comparison to a keyword-based inquiry, semantic search enables a more sophisticated exploration of web documents. By clarifying the meaning behind entities, search results are more precise and the semantics simultaneously enable an exploration of semantic relationships. However, unlike keyword searches, a semantic entity-focused search requires that web documents are annotated with semantic representations of common words and named entities. Manual semantic annotation of (web) documents is time-consuming; in response, automatic annotation services have emerged in recent years. These annotation services take continuous text as input, detect important key terms and named entities and annotate them with semantic entities contained in widely used semantic knowledge bases, such as Freebase or DBpedia. Metadata of video documents require special attention. Semantic analysis approaches for continuous text cannot be applied, because information of a context in video documents originates from multiple sources possessing different reliabilities and characteristics. This thesis presents a semantic analysis approach consisting of a context model and a disambiguation algorithm for video metadata. The context model takes into account the characteristics of video metadata and derives a confidence value for each metadata item. The confidence value represents the level of correctness and ambiguity of the textual information of the metadata item. The lower the ambiguity and the higher the prospective correctness, the higher the confidence value. The metadata items derived from the video metadata are analyzed in a specific order from high to low confidence level. Previously analyzed metadata are used as reference points in the context for subsequent disambiguation. The contextually most relevant entity is identified by means of descriptive texts and semantic relationships to the context. The context is created dynamically for each metadata item, taking into account the confidence value and other characteristics. The proposed semantic analysis follows two hypotheses: metadata items of a context should be processed in descendent order of their confidence value, and the metadata that pertains to a context should be limited by content-based segmentation boundaries. The evaluation results support the proposed hypotheses and show increased recall and precision for annotated entities, especially for metadata that originates from sources with low reliability. The algorithms have been evaluated against several state-of-the-art annotation approaches. The presented semantic analysis process is integrated into a video analysis framework and has been successfully applied in several projects for the purpose of semantic video exploration of videos.
APA, Harvard, Vancouver, ISO, and other styles
31

Spengler, Alexander A. "Analyse probabiliste du contenu de pages web : représentation des sémantiques de contenu dans le paradigme bayésien." Paris 6, 2011. http://www.theses.fr/2011PA066590.

Full text
Abstract:
Une identification automatique des contenus pertinents de pages Web facilite une large variété d'applications réelles. Finalement, elle nécessite une segmentation du contenu ainsi qu'une classification des segments résultants. Nous proposons donc d'aborder l'analyse du contenu de pages Web dans un cadre de classification interdépendante, établissant la cohérence sémantique à travers des fonctions caractéristiques d'interaction qui décrivent la configuration de plusieurs régions de contenu sémantiquement indivisible. Dans cette thèse, nous proposons de traiter les incertitudes avec un cadre probabiliste cohérent : le paradigme Bayésien. Nous tentons d'éclairer les conditions pour lesquelles un modèle probabiliste peut être justifié en déduisant sa forme de représentation à partir d'hypothèses sur des quantités observables. En particulier, nous examinons différentes dépendances Markoviennes entre des catégories de contenu d'une même page Web. Nous présentons également une analyse informelle des caractéristiques, élucidant l'information disponible dans le contenu, la structure et le style d'une page Web. Une telle analyse est essentielle à la fois pour une modélisation probabiliste formelle et pour une bonne performance prédictive. En outre, nous introduisons une nouvelle base de données publique, appelée News600. Elle contient 604 pages Web réelles de 206 sites, avec plus de 30 catégories sémantiques annotées de manière précise. Enfin, nous menons une série d'expériences sur ce corpus qui démontre que même des modèles relativement simples atteignent des résultats significativement meilleurs que l'état de l'art actuel.
APA, Harvard, Vancouver, ISO, and other styles
32

Ciancaglini, Vincenzo. "Du routage par clé au routage par contenu : interconnexion des systèmes et applications de diffusion vidéo." Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00875653.

Full text
Abstract:
Le routage par clé et par contenu sont des systèmes de routage ou la destination d'un message suit un parcours entre les nœuds du réseau qui dépend seulement du contenu du message même. On peut les trouver utilisés soit dans des systèmes pair-à-pair connus comme Réseaux Overlay Structurés (Structured Overlay Networks, SON), soit dans les architecture internet de nouvelle génération, les Réseaux Centrés sur les Contenus (Content-Centric Networks, CCN). Le but de cette thèse est double. D'un côté, on explore le sujet de l'interconnexion et de la coopération des réseaux d'overlay, et on propose une architecture capable de permettre à plusieurs réseaux d'overlay hétérogènes, avec différentes topologies et différents mécanismes de routage, d'interagir, grâce à une infrastructure basée sur des nœuds passerelles. On montre, par des moyennes de simulation et déploiement dans un réseaux réel, que la solution est scalable et permet un routage quasi-exhaustif avec un nombre relativement bas des nœuds passerelle bien connectés. De plus, on présente deux exemples d'applications qui pourront bénéficier de cette architecture. Dans une deuxième partie, on rentre plutôt dans les possibilités offertes par le routage basé sur les contenus hors sa "zone de confort": d'abord, on analyse les améliorations qu'un réseau d'overlay structuré peut porter à un système de diffusion vidéo pair-à-pair, en termes de qualité du vidéo et de perte des paquets pendant la transmission. Après, on examine un système entièrement centré sur le routage basé sur les contenus, en développant une solution de diffusion vidéo en temps réel dans un réseau CCN.
APA, Harvard, Vancouver, ISO, and other styles
33

de, Cuetos Philippe. "Streaming de Vidéos Encodées en Couches sur Internet avec Adaptation au Réseau et au Contenu." Phd thesis, Télécom ParisTech, 2003. http://pastel.archives-ouvertes.fr/pastel-00000489.

Full text
Abstract:
Dans cette thèse nous proposons de nouvelles techniques et de nouveaux algorithmes pour améliorer la qualité des applications de streaming vidéo sur Internet. Nous formulons des problèmes d'optimisation et obtenons des politiques de contrôle pour la transmission sur le réseau Internet actuel sans qualité de service. Cette thèse étudie des techniques qui adaptent la transmission à la fois aux conditions variables du réseau (adaptation au réseau) et aux caractéristiques des vidéos transmises (adaptation au contenu). Ces techniques sont associées au codage en couche de la vidéo et au stockage temporaire de la vidéo au client. Nous évaluons leurs performances à partir de simulations avec des traces réseau (connexions TCP) et à partir de vidéos encodées en MPEG-4 FGS. Nous considérons tout d'abord des vidéos stockées sur un serveur et transmises sur une connexion TCP-compatible sans perte. Nous comparons les mécanismes d'ajout/retranchement de couches et de changement de versions; nous montrons que la flexibilité du codage en couches ne peut pas compenser, en général, le surcoût en bande passante par rapport au codage vidéo conventionnel. Deuxièmement, nous nous concentrons sur une nouvelle technique de codage en couches, la scalabilité à granularité fine (dite FGS), qui a été conçue spécifiquement pour le streaming vidéo. Nous proposons un nouveau cadre d'étude pour le streaming de vidéos FGS et nous résolvons un problème d'optimisation pour un critère qui implique la qualité des images et les variations de qualité durant l'affichage. Notre problème d'optimisation suggère une heuristique en temps réel dont les performances sont évaluées sur des protocoles TCP-compatibles différents. Nous montrons que la transmission sur une connexion TCP-compatible très variable, telle que TCP, résulte en une qualité comparable à une transmission sur des connexions TCP-compatibles moins variables. Nous présentons l'implémentation de notre heuristique d'adaptation dans un système de streaming de vidéos MPEG-4. Troisièmement, nous considérons le cadre d'étude général du streaming optimisé suivant les caractéristiques débit-distorsion de la vidéo. Nous analysons des traces débit-distorsion de vidéos de longue durée encodées en MPEG-4 FGS, et nous observons que le contenu sémantique a un impact important sur les propriétés des vidéos encodées. A partir de nos traces, nous examinons le streaming optimal à différents niveaux d'agrégation (images, groupes d'images, scènes); nous préconisons l'adaptation optimale scène par scène, qui donne une bonne qualité pour une faible complexité de calcul. Finalement, nous proposons un cadre d'optimisation unifié pour la transmission de vidéos encodées en couches sur des canaux à pertes. Le cadre d'étude proposé combine l'ordonnancement, la protection contre les erreurs par les FEC et la dissimulation d'erreur au décodeur. Nous utilisons des résultats sur les Processus de Décision de Markov (MDPs) à horizon infini et gain moyen, pour trouver des politiques de transmission optimales avec une faible complexité et pour un large éventail de mesures de qualité. Nous montrons qu'il est crucial de considérer la dissimulation d'erreur au décodeur dans la procédure d'optimisation de l'ordonnancement et de la protection contre les erreurs afin d'obtenir une transmission optimale.
APA, Harvard, Vancouver, ISO, and other styles
34

Allaert, Benjamin. "Analyse des expressions faciales dans un flux vidéo." Thesis, Lille 1, 2018. http://www.theses.fr/2018LIL1I021/document.

Full text
Abstract:
De nos jours, dans des domaines tels que la sécurité et la santé, une forte demande consiste à pouvoir analyser le comportement des personnes en s'appuyant notamment sur l'analyse faciale. Dans cette thèse, nous explorons de nouvelles approches à destination de systèmes d’acquisition peu contraints. Plus spécifiquement, nous nous intéressons à l'analyse des expressions faciales en présence de variation d'intensité et de variations de pose du visage. Notre première contribution s'intéresse à la caractérisation précise des variations d'intensité des expressions faciales. Nous proposons un descripteur innovant appelé LMP qui s'appuie sur les propriétés physiques déformables du visage afin de conserver uniquement les directions principales du mouvement facial induit par les expressions. La particularité principale de notre travail est de pouvoir caractériser à la fois les micro et les macro expressions, en utilisant le même système d'analyse. Notre deuxième contribution concerne la prise en compte des variations de pose. Souvent, une étape de normalisation est employée afin d'obtenir une invariance aux transformations géométriques. Cependant, ces méthodes sont utilisées sans connaître leur impact sur les expressions faciales. Pour cela, nous proposons un système d'acquisition innovant appelé SNaP-2DFe. Ce système permet de capturer simultanément un visage dans un plan fixe et dans un plan mobile. Grâce à cela, nous fournissons une connaissance du visage à reconstruire malgré les occultations induites par les rotations de la tête. Nous montrons que les récentes méthodes de normalisation ne sont pas parfaitement adaptées pour l'analyse des expressions faciales
Facial expression recognition has attracted great interest over the past decade in wide application areas, such as human behavior analysis, e-health and marketing. In this thesis we explore a new approach to step forward towards in-the-wild expression recognition. Special attention has been paid to encode respectively small/large facial expression amplitudes, and to analyze facial expressions in presence of varying head pose. The first challenge addressed concerns varying facial expression amplitudes. We propose an innovative motion descriptor called LMP. This descriptor takes into account mechanical facial skin deformation properties. When extracting motion information from the face, the unified approach deals with inconsistencies and noise, caused by face characteristics. The main originality of our approach is a unified approach for both micro and macro expression recognition, with the same facial recognition framework. The second challenge addressed concerns important head pose variations. In facial expression analysis, the face registration step must ensure that minimal deformation appears. Registration techniques must be used with care in presence of unconstrained head pose as facial texture transformations apply. Hence, it is valuable to estimate the impact of alignment-related induced noise on the global recognition performance. For this, we propose a new database, called SNaP-2DFe, allowing to study the impact of head pose and intra-facial occlusions on expression recognition approaches. We prove that the usage of face registration approach does not seem adequate for preserving the features encoding facial expression deformations
APA, Harvard, Vancouver, ISO, and other styles
35

Etievent, Emmanuel. "Assistance à l'indexation vidéo par analyse du mouvement." Lyon, INSA, 2002. http://theses.insa-lyon.fr/publication/2002ISAL0015/these.pdf.

Full text
Abstract:
Cette étude s'inscrit dans un projet multidisciplinaire sur le thème de l'indexation de séquences audiovisuelles, en particulier dans le cadre des archives de télévision. L'objectif était de permettre des recherches dans les bases de documents audiovisuels, comme les archives de télévision, en se fondant sur le contenu sémantique et visuel des vidéos. Dans ce cadre, nous proposons des outils semi-automatiques d'analyse d'image en vue d'assister la tâche du documentaliste chargé de l'indexation. Ainsi, nous avons expérimenté une méthode d'analyse du mouvement dans le but de simplifier la tâche d'indexation des objets présents dans la vidéo. Notre approche se fonde sur le suivi de primitives appelées points d'intérêt, à l'aide d'une méthode de type multi-hypothèses. Nous avons tout d'abord donné un aperçu de l'importance actuelle des bases audiovisuelles. Nous avons ensuite considéré le rôle que l'analyse d'image peut jouer dans le domaine de l'indexation selon le double aspect du contenu des vidéos, visuel et sémantique. Dans ce cadre, nous avons identifié quelles étaient les diverses applications de l'analyse du mouvement. Concernant notre approche, une expérimentation préalable nous a permis de vérifier la stabilité des points d'intérêt dans des vidéos compressées. L'expérimentation principale a porté simultanément sur le suivi et la détection des points d'intérêt. Nous avons évalué notre approche dans la perspective de l'assistance à l'indexation des objets, en utilisant des séquences réelles issues d'archives de télévision. Nous nous sommes intéressés d'une part à la question du paramétrage de l'algorithme de suivi, pour déterminer s'il pouvait être utilisé par des non spécialistes, et d'autre part à la répartition des points d'intérêt dans l'image, qui est apparue très importante pour pouvoir détecter les principaux objets présents. Enfin, nous avons considéré l'intégration des outils d'analyse d'image dans un système d'indexation complet, en particulier du point de vue de l'interaction avec le documentaliste.
APA, Harvard, Vancouver, ISO, and other styles
36

Salman, Zahida. "La Presse féminine irakienne analyse de contenu et enquête /." Lille 3 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37601027n.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Salman, Zahida. "La presse féminine irakienne : analyse de contenu et enquête." Paris 4, 1986. http://www.theses.fr/1986PA040015.

Full text
Abstract:
A son début, la presse féminine irakienne a été étroitement liée aux mouvements féministes arabes, irakiens et égyptiens notamment. Les différentes revues féminines publiées successivement en Irak durant la première moitié de ce siècle ont eu une durée limitée et une faible diffusion. L'unique revue féminine paraissant actuellement est "al mar'a" (la femme), revue bimensuelle, d'une cinquantaine de pages, dirigée par l'Union générale des femmes irakiennes (UGFI), tirée a environ 30. 000 exemplaires et contient une vingtaine de rubriques. L'analyse quantitative de son contenu montre la prépondérance du texte par rapport aux illustrations notamment, l'importance des fonctions culturelles et de condition féminine surtout, et la part quasi-négligeable de la publicité. Une enquête par questionnaire auprès de 414 personnes des deux sexes révèle que ces lecteurs sont en général jeunes (16 à 30 ans), appartiennent à un public varié socialement et que la revue est l'objet d'un intérêt familial indéniable. L'analyse du contenu du courrier des lecteurs publie confirme l'importance de l'audience masculine de la revue, souligne la fréquence des thèmes portant sur le mariage ou sur les problèmes du couple entre les deux partenaires ou avec l'entourage familial et montre que le courrier des lecteurs comporte plusieurs fonctions, psychothérapique, socio-culturelle, récréative et éducative. Les valeurs prônées par la revue soutiennent que la promotion du statut de la femme passe par sa participation effective dans les divers secteurs éducatif, économique et politique tout en conservant son rôle familial classique
When it first appeared, the Iraqi feminine press had a strong link with the Arabic feminist movements, especially with the Iraqi and the Egyptian ones. The various feminine magazines that appears one after the other in Iraq during the first half of this century never lasted long and were not very largely spread. "al mar'a" (the woman), the only feminine magazine now published in Iraq is edited twice a month with a circulation of about 30,000 copies. It is directed by the general union of Iraqi women. It treats of about 20 different items. Looking closer to the content of this magazine, one can notice that there is much more texts than pictures and nearly advertisings. The more important headings deal about cultural matters and the feminine condition. A poll made on 414 readers of both sexes show that they are generally young (16 to 30 years old), they have varied social ori0 gins, and the magazine has a great importance in the family life. Through the readers'letters, the concern of men towards this magazine is even more stressed, as well as the importance of the items about marriage, problems between husband and wife or with the family. The readers' mail shows several purposes: psychotherapical, social and cultural, entertaining and educational. The magazine emphasizes on the fact that the woman's promotion goes together with the true participation in the areas of education, economics and politics, without forgetting her classic family duty
APA, Harvard, Vancouver, ISO, and other styles
38

Reguig, Miloud. "Analyse des "Lâfitât" de Aḥmad Maṭar (contenu et formé)." Aix-Marseille 1, 1998. http://www.theses.fr/1998AIX10062.

Full text
Abstract:
Depuis l'apparition de son premier recueil en 1984, ahmad matar a commence a susciter l'interet des lecteurs a travers le monde arabe. En revanche, ses poemes n'ont pas suscite le meme interet chez les critiques. Cette absence d'etudes sur l'oeuvre de matar nous a encourage a prendre l'initiative d'analyser le contenu de ses quatre premiers recueils en mettant l'accent surtout sur les trois phenomenes les plus repandus dans les poemes: 1-la relation entre les acteurs mis en scene dans les poemes. 2-l'abondance des versets coraniques dans les poemes. 3-le role de l'ironie dans les poemes de matar. En outre, nous avons analyse les metres et les rimes ainsi que les divers styles utilises par le poete.
APA, Harvard, Vancouver, ISO, and other styles
39

Poullot, Sébastien. "Scalable Content-Based Video Copy Detection for Stream Monitoring and Video Mining." Paris, CNAM, 2009. http://www.theses.fr/2009CNAM0627.

Full text
Abstract:
This thesis essentially adresses the scability of the indexong methods of vectorial databases. The applications concern the similarity-based search of video descriptors in large volumes in order to perform content-based copy detection. On one hand we want to perform an online monitoring of a video stream on a reference database, containing here 280000 hours of video, which means 17 billions of descriptors. The proposed solution is based on a new indexing and probalistic searching method based on a Zgrid, but also on a distorsion of the video descriptors and on a local density model. The goal is to perform a more selective and so faster similarity search. Here we can handle the monitoring of one video stream on the 280000 hours database in a differed real time with a single standard PC. On the other hand we want to detect the occurences of the videos in a such a large database. The problem become quadratic, here a similarity self join of the descriptor database must be performed. Here we propose a new global description of the frames based on a local descriptions to reduce complexity while conserving a good tobustness. We also propose an indexing scheme apated to this task which presents moreover an easily parrallel scheme in order to mine the previously announced volumes. Our tests have been performed on dtabases containing up to 10000 hours of video in 80 hours with a single standard PC
Le paysage vidéo a récemment été profondément bouleversé par de nombreuses innovations technologiques. Les méthodes et acteurs de la distribution et de la production vidéo ont notamment fortement évolués. Le nombre de canaux de diffusion télévisuels augmente continuellement et parallèlement Internet supporte de nombreux sites communautaires et blogs comportant de la vidéo. Les utilisateurs finaux sont devenus eux-mêmes auteurs et créateurs, le volume qu'ils génèrent concurrence largement celui produit par les professionnels. On peut aussi noter que les logiciels d'édition vidéo sont aujourd'hui grand public et que la personnalisation de contenus est simple et très en vogue. Les professionnels aussi réutilisent largement de vieux contenus pour faire du neuf. Une conséquence directe est l'augmentation croissante du nombre de copies diffusées et hébergées sur les réseaux. L'existence de ces copies soulèvent le problème de la protection des droits. Un ayant droit peut exprimer légitimement le besoin d'être rémunéré si un oeuvre lui appartenant est diffusé sur une chaîne. L'INA est chargé d'accomplir cette tâche en France et donc de surveiller les différents canaux pour noter ces rediffusions. Le challenge tient aux volumes à protéger et à surveiller. Le nombre d'heures numérisées est de l'ordre du demi million et le nombre de canaux de la centaine. Les documentalistes ne peuvent gérer une telle connaissance ni un tel afflux. Un pré travail automatique par ordinateur est obligatoire: un système de surveillance vidéo par le contenu. Celui-ci est chargé de lire les flux vidéos diffusés et de décider si dans ces flux apparaissent des vidéos issues de la base référence à protéger. La détection par le contenu signifie l'utilisation du signal vidéo pour faire cette reconnaissance. Les vidéos représentent de gros volumes de données, et l'exploitation du signal complet n'est pas envisageable. Par conséquent on résume les vidéos par des descripteurs, sorte de quantificateurs du signal. Le problème de la surveillance repose alors sur la recherche de descripteurs dans une base de descripteurs de référence. Ces bases contiennent des milliards de descripteurs qui sont des vecteurs de moyenne ou grande dimension (20 à quelques centaines). Un tel système pour être viable demande alors un système d'indexation des descripteurs pour effectuer des recherches rapides. Après cette recherche un processus prend la décision en utilisant les descripteurs issus de la recherche. Dans cette thèse nous présentons un nouveau schéma d'indexation, appelé Zgrid, pour faire la recherche rapide. Ce schéma permet de faire une recherche approximative. Nous l'avons amélioré par des analyses de distribution des données dans l'espace de description. Par ailleurs nous proposons un nouveau modèle des distortions subies par les descripteurs lors des processus de copies et un modèle de densité locale pour corriger la recherche, celle-ci est alors plus sélective et moins consommatrice de temps. L'utilisation croisée de ces différentes propositions permet de suivre en temps réel différé un flux vidéo et de le comparer à une base de référence de 280,000 heures de vidéo avec un simple PC. L'existence de nombreuses copies peut aussi présenter des avantages. La détection des différentes occurrences d'un même contenu peut permettre par exemple de mutualiser des annotations ou d'aider à la navigation dans les bases vidéos. Le problème prend alors une autre dimension avec une complexité quadratique: on doit rechercher l'ensemble des descripteurs d'une base sur cette même base, ce qu'on appelle communément une auto jointure par similarité. Pour réduire la complexité de cette tâche nous proposons ici un nouveau descripteur dit Glocal qui utilise des descripteurs locaux pour construire un descripteur global au niveau de l'image. Ce changement de niveau permet par ailleurs de réduire aussi la complexité du processus de décision finale. Nous proposons aussi un nouveau système d'indexation adapté à l'auto jointure par similarité et à ce descripteur. La réduction globale des temps de calculs permet de trouver les occurrences dans une base de 10,000 heures avec un simple PC mais aussi de trouver ces occurrences dans une petite base (moins de 100 heures) en 30 secondes. On peut ainsi envisager des applications « off-line » pour les administrateurs de site vidéos et « online » pour les utilisateurs
APA, Harvard, Vancouver, ISO, and other styles
40

Benchaita, Walid. "Stabilisation et optimisation des réseaux de diffusion de contenu." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066593.

Full text
Abstract:
Un content delivery network (CDN), ou réseau de diffusion de contenu, Sont considérés comme la solution potentielle pour délivrer le volume de contenu croissant. Bien que les solutions CDN soient progressivement intégrées à l'infrastructure réseau, elles montrent toujours des limites technologiques pour faire face au nombre croissant d'applications exigeantes et gourmande en bande passante. Dans cette thèse, la principale cible de nos contributions est le routage des requêtes, qui est un mécanisme de livraison de contenu qui a un impact clé sur l'échelle et la performance du CDN, ainsi que sur la qualité de l'expérience perçue par l'utilisateur.Nous présentons tout d'abord un schéma flexible et un algorithme d'optimisation, basé sur la théorie de Lyapunov, pour le routage des requêtes dans les CDN. Notre approche en ligne fournit une qualité de service stable aux clients, tout en améliorant les délais de livraison de contenu. Elle réduit également les coûts de transport des données pour les opérateurs et surpasse les techniques existantes en termes de gestion du trafic de pointe.Deuxièmement, pour surmonter les limites du mécanisme de redirection utilisé dans les solutions de routage de demandes, nous introduisons une nouvelle approche de diffusion de contenu intégrant des principes de réseau centré sur l'information ou Information-centric networking (ICN) sans nécessiter de changement dans le réseau sous-jacent. Cette solution améliore les performances de diffusion de contenu et permet la mise en œuvre de stratégies de routage de demandes rentables
Today, many devices are capable to capture full HD videos and use their network connections to access the Internet. The popularization of these devices and continuous efforts to increase network quality has brought a proper environment for the rise of live streaming. Associated with the large scale of Users Generated Content (UGC), live streaming presents new challenges. Content Delivery Networks (CDN)are considered as the potential solution to deliver this rising content volume. Although CDN solutions are progressively integrated with the network infrastructure, they still show technological limitations in dealing with the increasing amount of bandwidth-hungry and demanding applications. In this thesis, the main target of our contributions is request routing, which is a content delivery mechanism that has a key impact on scale and performance of the CDN, as well as on the perceived Quality of Experience (QoE). First, we present a flexible scheme and an optimization algorithm, based on Lyapunov theory, for request routing in CDNs. Our online approach provides a stable quality of service to clients, while improving content delivery delays. It also reduces data transport costs for operators and outperforms existing techniques in terms of peak traffic management.Second, to overcome the limitations of the redirection mechanism used in current request routing solutions, we introduce a new approach to content delivery incorporating Information-Centric Networking (ICN) principles without requiring any change in the underlying network. This solution improves content delivery performance and enables the implementation of cost efficient request routing strategies
APA, Harvard, Vancouver, ISO, and other styles
41

Käs, Christian. "Analyse et indexation des flux vidéos dans le domaine compressé H. 264." Thesis, Bordeaux 1, 2010. http://www.theses.fr/2010BOR14012/document.

Full text
Abstract:
Dans cet étude, nous nous concentrons sur l'analyse et l'indexation automatique des séquences vidéo. Cela permet une récupération et un accès efficace aux données. Les vidéos étant généralement stockées et transmises sous forme encodées, notre approche se base sur l'analyse dans le domaine compressé. Ce domaine présente un compromis raisonnable entre cout de calcul et qualité des résultats. Les informations les plus pertinentes encodées dans le flux H.264 sont les vecteurs de mouvement (VM). Ces vecteurs sont associés aux macroblocs dans les images prédites (de type B et P). Nous présentons diverses techniques non-supervisés pour déterminer le mouvement de la caméra, détecter et suivre les objets en mouvement dans les vidéos. Ces analyses sont basées sur les champs de VM. Nous démontrons le potentiel de l'analyse dans le domaine compressé avec plusieurs exemples d'applications, notamment la surveillance de trafic routier et la détection de copies
The amount of generated audiovisual content continues to increase. In this work, we concentrate on the challenge of automatic video analysis and indexing, which builds the basis for efficient information access and retrieval. Taking advantage of the fact that video in most cases is stored and transmitted in encoded form, we pursue the approach of compressed domain processing, which represents a reasonable trade-off between computational complexity and quality of analysis results. The most valuable information encoded in H.264 streams is the motion vectors (MVs) that are associated with macroblocks in temporally predicted frames of type B and P. We present a number of completely unsupervised techniques to determine the camera motion and to detect and track moving objects from the extracted MV fields. We furthermore present the potential of compressed domain processing through several example applications, including traffic surveillance and video copy detection
APA, Harvard, Vancouver, ISO, and other styles
42

Aguirre, Francisco. "Trajectographie sous-marine par analyse de séquences d'images vidéo." Brest, 1990. http://www.theses.fr/1990BRES2009.

Full text
Abstract:
Cette these decrit une methode pour calculer la trajectoire d'un sous-marin a partir d'images du fond marin fournies par une camera video. Notre approche pour identifier le mouvement dans la sequence est d'etablir des correspondances entre un ensemble de points, appeles traceurs, deux images successives grace a une transformee de hough generalisee. La detection des traceurs est faite avec un detecteur de contour par sobel. L'extraction des traceurs est accomplie en utilisant un seuil variable de binarisation, cette procedure retient 10% des points appartenant aux elements du contour. Cinq traceurs sont selectionnes. La transformee de hough generalisee thg est ensuite appliquee pour etablir la correspondance entre points de deux traceurs successifs. Le deplacement en translation est obtenu pour chaque traceur en detectant le pic de chaque matrice d'accumulation. De plus un facteur de confiance pour l'estimation est calcule qui depend de l'amplitude du pic et du nombre de points de contours utilise dans la thg et qui permet de ponderer l'estimation afin de la rendre plus robuste. Le filtre de kalman utilise permet de connaitre la trajectoire quand aucun traceur ne peut etre trouve dans l'image et de predire les parametres du mouvement ce qui peut etre utilise a la thg. Des simulations ont ete faites sur des sequences d'images reelles fournies par ifremer. La premiere est une sequence d'epave (250 images). La seconde est une sequence de sable et de roches (100 images). Dans les deux sequences la trajectoire a pu etre obtenue avec suffisamment de precision
APA, Harvard, Vancouver, ISO, and other styles
43

Hurtut, Thomas. "Analyse et recherche d'oeuvres d'art 2D selon le contenu pictural." Phd thesis, Télécom ParisTech, 2008. http://tel.archives-ouvertes.fr/tel-00426645.

Full text
Abstract:
Les institutions culturelles mènent depuis une vingtaine année une politique de sauvegarde numérique exhaustive de leurs collections conduisant à la création de bases d'images de plus en plus grandes. Les oeuvres d'art se différencient des images naturelles car elles sont souvent stylisées. Cette caractéristique influence notre interprétation de l'image et l'impression visuelle qui nous est transmise. Nous proposons dans cette thèse des descripteurs et mesures de similarité spécifiques au contenu pictural et les testons dans le cadre de la recherche par le contenu d'images similaires. Le premier aspect du contenu pictural auquel nous nous sommes intéressés concerne l'organisation spatiale globale des couleurs. Nous modélisons le problème de la comparaison entre deux organisations spatiales des couleurs par un problème de transport optimal appliqué à des imagettes. Dans le cadre de la recherche d'images dans une base, nous proposons également un seuil adaptatif sur cette distance de transport fondé sur une approche "a contrario". Le deuxième aspect du contenu pictural que nous étudions concerne les caractéristiques du contenu géométrique lié aux lignes dans les dessins au trait. Pour cette approche nous développons un détecteur de contours de trait sans paramètre reposant sur un filtrage topologique de l'arbre des lignes de niveau significatives de Desolneux et al., ainsi qu'un ensemble de méthodes d'extraction de caractéristiques visuelles incluant les extrémités de trait, les jonctions et les coins. Nous évaluons ces deux approches en utilisant sept bases différentes totalisant environ 65000 images.
APA, Harvard, Vancouver, ISO, and other styles
44

Aubin, Isabelle. "Pornographisation de la culture populaire : analyse de contenu des vidéoclips." Thèse, Université d'Ottawa / University of Ottawa, 2011. http://hdl.handle.net/10393/19976.

Full text
Abstract:
La recherche qui suit consiste en une analyse des vidéoclips de musique, mais plus précisément l’influence pornographique dans les vidéoclips de musique. L’arrivée des médias de masse a permis à la pornographie à s’introduire dans des éléments qui ne lui étaient pas auparavant accessibles. Nous retrouvons maintenant les codes pornographiques et techniques de caméra utilisé dans les films pornographiques au sein des vidéoclips. Cette étude a deux composantes, premièrement une analyse des liens entre l’industrie pornographique et l’industrie de la musique et, deuxièmement, deux différentes analyses de contenu des vidéoclips diffusés par la chaîne de télévision Much Music. La première analyse concerne une émission spécialisée diffusée l’hiver 2007 intitulée « The top 50 sexiest music videos » et la deuxième couvre les vidéoclips diffusés du top trente de la période de janvier 2009 à avril 2009. En comparant nos trouvailles à ceux des autres chercheurs, il est possible de postuler qu’il y a aujourd’hui une importante augmentation de la représentation sexuelle implicite et explicite dans les vidéoclips. Les liens établis entre l’industrie pornographique et l’industrie de la musique sont désormais directs.
APA, Harvard, Vancouver, ISO, and other styles
45

Harb, Hadi. "Classification du signal sonore en vue d'une indexation par le contenu des documents multimédia." Ecully, Ecole centrale de Lyon, 2003. http://bibli.ec-lyon.fr/exl-doc/hharb.pdf.

Full text
Abstract:
Les humains ont une aptitude remarquable de classifier les signaux sonores en des classes : musique, parole, applaudissement, explosion, etc. . . Face à une profusion de documents multimédias, nous proposons dans cette thèse de développer des machines de perception auditive automatiques dotées des capacités de classification sonore similaires à celles des humains. Nous suivons une approche inspirée par quelques études sur la perception humaine des classes sémantiques sonores du contexte de multimédia et nous proposons ainsi un modèle de mémoire sonore qui est à la base d'un espace de représentation du signal, nommé espace MGI (Modélisation Gaussienne Incrémentale). Un comité de réseaux de neurones est couplé à l'espace MGI afin de constituer un système de classification du signal sonore. Ce système a permis efficacement la classification en musique/parole, homme/femme, action/non-action, genre de musique, ainsi qu'une structuration des vidéos en des "scène sonores"
Humans have a remarkable ability to categorise audio signals into classes, such as speech, music, explosion, etc. . . The thesis studies the capacity of developing audio classification algorithms inspired by the human perception of the audio semantic classes in the multimedia context. A model of short therm auditory memory is proposed in order to explain some psychoacoustic effects. The memory model is then simplified to constitute the basis of the Piecewise Gaussian Modelling (PGM) features. The PGM features are coupled to a mixture of neural networks to form a general audio signal classifier. The classifier was successfully applied to speech/music classification, gender identification, action detection and musical genre recognition. A synthesis of the classification effort was used in order to structure a video into "audio scenes" and "audio chapters". This work has permitted the development of an autoamtic audio indexer prototype, CYNDI
APA, Harvard, Vancouver, ISO, and other styles
46

Law-To, Julien. "From genericity to distinctiveness of video content description : application to video copy detection." Versailles-St Quentin en Yvelines, 2007. http://www.theses.fr/2007VERS0025.

Full text
Abstract:
My PhD thesis presents a new approach for indexing large sets of videos by their content. The proposed concept is based on the extraction and the local description of different natures of points of interest and further on the estimation of their trajectories along the video sequence. Analyzing the low-level description obtained allows highlighting semantic labels of behaviors. Searching for copies in large video databases is a new critical issue. ViCopT is a system dedicated to video copy detection based on our video description. A complete evaluation on a large video database (1,000 hours) demonstrates the robustness and the discriminability of ViCopT and the relevance of our strategy. Comparative evaluations in European and international contexts present the high performances of our system facing other academic and industrial systems
Mes travaux de thèse portent sur l’indexation et la recherche dans de grandes bases de vidéos. Partant d’une description visuelle de l’image basée sur plusieurs natures de points d’intérêt, notre approche aboutit à une représentation de plus haut niveau, associant descripteurs visuels locaux, leurs trajectoires ainsi qu’une interprétation en termes de comportement de ces descripteurs locaux au sein de la vidéo. Cette méthode permet une description fine de la vidéo tout en réduisant la redondance temporelle qui lui est intrinsèquement liée. Une application cruciale dans la gestion de patrimoines numériques est la traçabilité du catalogue vidéo. Dans ce contexte, nous proposons ViCopT, un système de détection de copie par le contenu. Une validationde sa robustesse et de sa discriminance a été réalisée sur une base de 1000h et a montrée la pertinence de nos choix. Les hautes performances de ViCopT ont été mesurées dans des évaluations comparatives tant au niveau européen qu'international
APA, Harvard, Vancouver, ISO, and other styles
47

Hervieu, Alexandre. "Analyse de trajectoires vidéos à l'aide de modélisations markoviennes pour l'interprétation de contenus." Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/hervieu.pdf.

Full text
Abstract:
Cette thèse traite de l'utilisation de trajectoires issues de vidéos. La méthode est invariante aux translations, aux rotations ainsi qu'aux facteurs d'échelle tout en prenant en compte des informations de dynamiques et de formes. Un Modèle de Markov caché (MMC) est proposé afin de supporter le manque d'observations, toutes les sélections de paramètres étant considérées. Une mesure de similarité entre MMC est utilisée pour des tâches de reconnaissance de contenu vidéo: la classification, le clustering de plans vidéo et la détection d'évènements rares. Des chaînes semi-markoviennes sont ensuite développées afin de traiter les interactions entre trajectoires. Celles-ci sont utilisées afin de reconnaître les phase d'activités observées. La méthode a été utilisée sur des vidéos de squash et de handball. Ces modèles ont été étendus à la reconnaissance de gestes et d'actions 3D. Les résultats montrent l'intérêt de la prise en compte des interactions pour de telles applications
This thesis deals with the use of trajectories extracted from videos. The approach is invariant to translation, to rotation and to scaling and takes into account both shape and dynamics-related information on the trajectories. A hidden Markov model (HMM) is proposed to handle lack of observations and parameters are properly estimated. A similarity measure between HMM is used to tackle three dynamic video content understanding tasks: recognition, clustering and detection of unexpected events. Hierarchical semi-Markov chains are developed to process interacting trajectories. The interactions between trajectories are taken into used to recognize activity phases. Our method has been evaluated on sets of trajectories extracted from squash and handball video. Applications of such interaction-based models have also been extended to 3D gesture and action recognition and clustering. The results show that taking into account the interactions may be of great interest for such applications
APA, Harvard, Vancouver, ISO, and other styles
48

Tano, Richard. "Determining multimediastreaming content." Thesis, Umeå universitet, Institutionen för fysik, 2011. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-50376.

Full text
Abstract:
This Master Thesis report was written by Umeå University Engineering Physics student Richard Tano during his thesis work at Ericsson Luleå. Monitoring network quality is of utmost importance to network providers. This can be done with models evaluating QoS (Quality of Service) and conforming to ITU-T Recommendations. When determining video stream quality there is of more importance to evaluatethe QoE (Quality of Experience) to understand how the user perceives the quality. This isranked in MOS (Mean opinion scores) values. An important aspect of determining the QoEis the video content type, which is correlated to the coding complexity and MOS values ofthe video. In this work the possibilities to improve quality estimation models complying to ITU-T study group 12 (q.14) was investigated. Methods were evaluated and an algorithm was developed that applies time series analysis of packet statistics for determination of videostreams MOS scores. Methods used in the algorithm includes a novel assembling of frequentpattern analysis and regression analysis. A model which incorporates the algorithm for usage from low to high bitrates was dened. The new model resulted in around 20% improvedprecision in MOS score estimation compared to the existing reference model. Furthermore an algorithm using only regression statistics and modeling of related statistical parameters was developed. Improvements in coding estimation was comparable with earlier algorithm but efficiency increased considerably.
Detta examensarbete skrevs av Richard Tano student på Umeå universitet åt Ericsson Luleå. Övervakning av nätets prestanda är av yttersta vikt för nätverksleverantörer. Detta görs med modeller för att utvärdera QoS (Quality of Service) som överensstämmer med ITU-T rekommendationer. Vid bestämning av kvaliten på videoströmmar är det mer meningsfullt att utvärdera QoE (Quality of Experience) för att få insikt i hur användaren uppfattar kvaliten. Detta graderas i värden av MOS (Mean opinion score). En viktig aspekt för att bestämma QoE är typen av videoinnehåll, vilket är korrelerat till videons kodningskomplexitet och MOS värden. I detta arbete undersöktes möjligheterna att förbättra kvalitetsuppskattningsmodellerna under uppfyllande av ITU-T studygroup 12 (q.14). Metoder undersöktes och en algoritm utvecklades som använder tidsserieanalys av paketstatistik för uppskattning av videoströmmars MOS-värden. Metoder som ingår i algoritmen är en nyutvecklad frekventa mönster metod tillsammans med regressions analys. En modell som använder algoritmen från låg till hög bithastighet definierades. Den nya modellen gav omkring 20% förbättrad precision i uppskattning av MOS-värden jämfört med existerande referensmodell. Även en algoritm som enbart använder regressionsstatistik och modellerande av statistiska parametrar utvecklades. Denna algoritm levererade jämförbara resultat med föregående algoritm men gav även kraftigt förbättrad effektivitet.
APA, Harvard, Vancouver, ISO, and other styles
49

Horn, Johanna, and Daniel Severus. "Exploring the Trust Generating Factors of Video Tutorials." Thesis, Högskolan i Gävle, Företagsekonomi, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:hig:diva-23651.

Full text
Abstract:
New technologies have increased the possible ways in which humans interact and as a result require new as well as old ways to establish trust. The findings of this paper suggest that trust should be divided into three main categories of trust drivers, exchange factors, design factors and motivational factors. The results indicate that tutorials can, and should, include drivers that build these categories. While we found varying degrees on how well implemented these were, we found that design factors were generally more prominent and found opportunities for tutorials to improve on the exchange side.
APA, Harvard, Vancouver, ISO, and other styles
50

Cammas, Nathalie. "Codage vidéo scalable par maillages et ondelettes t+2D." Rennes 1, 2004. https://hal.archives-ouvertes.fr/tel-01131881.

Full text
Abstract:
Cette thèse s'incrit dans le cadre de la transmission de données vidéo sur réseaux. L'objectif de notre étude est d'étudier des technologies innovantes permettant d'offrir un codage vidéo hautement scalable et compétitif en terme de compression avec les standards de codage vidéo actuels non scalables. Pour cela, nous utilisons un schéma de codage vidéo basé sur une approche analyse-synthèse qui utilise une représentation du mouvement par maillages et un codage par ondelettes t+2D. La première partie de notre étude s'intéresse à l'exploitation du mouvement dans la transformée en ondelettes temporelles et à la définition des trajectoires de mouvement le long desquelles est appliquée la transformation temporelle. La deuxième partie de notre étude propose une amélioration de ce schéma en gérant le problème des occlusions engendrés par les discontinuités du mouvement.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography