To see the other types of publications on this topic, follow the link: Modèle graphique probabiliste.

Dissertations / Theses on the topic 'Modèle graphique probabiliste'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 35 dissertations / theses for your research on the topic 'Modèle graphique probabiliste.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Shahin, Kamrul. "Modèle graphique probabiliste appliqué au diagnostic de l'état de santé des systèmes, au pronostic et à l'estimation de la durée de vie résiduelle." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0129.

Full text
Abstract:
Cette thèse contribue au développement des recherches dans le domaine du Pronostic et Health Management : gestion de l’état de santé des systèmes complexes. Dans un contexte de management opérationnel et de sûreté de fonctionnement des systèmes, nous proposons d’étudier comment la modélisation par un Modèle Graphique Probabiliste Dynamique (MGPD) permet le diagnostic de l’état de santé courant d’un système, le pronostic de cet état et de l’évolution des dégradations, ainsi que l’estimation de sa durée de vie résiduelle en fonction de ses conditions opérationnelles. La dégradation des composants est en général inconnue et nécessite un arrêt du système pour être observée. Cependant, cela est difficile, voire impossible, durant l’exploitation du système. Néanmoins, un ensemble de grandeurs observables sur le système ou le composant peut caractériser le niveau de dégradation et faciliter l’estimation de la durée de vie résiduelle du composant et du système. Les MGPD offrent une approche adaptée à la modélisation de l’évolution de l’état de santé des systèmes et des composants. Nous étendons la modélisation classique des modèles de la famille des HMM vers les IOHMM pour permettre une propagation temporelle de l’incertitude afin de résoudre le problème de pronostic de l’état de santé et de l’estimation de la durée de vie résiduelle. Cette recherche comprend l’extension des algorithmes d’apprentissage et d’inférence appliqués aussi bien dans le cas d’un composant que pour un système structuré. Cette thèse a pour but de contribuer à lever les verrous scientifiques suivants : - Considérer l'état de santé du système par un modèle stochastique et apprendre les paramètres du modèle à partir des mesures disponibles sur le système. - Établir un diagnostic de l’état de santé du système et le pronostic de son évolution en intégrant plusieurs conditions opérationnelles. - Estimer la durée de vie résiduelle des composants et des systèmes structurés (série, parallèle) à partir de ses composants. L’enjeu est majeur, car le pronostic de la dégradation des composants du système permet de définir des stratégies soit de pilotage soit de maintenance par rapport à la durée de vie résiduelle du système. Cela permet la réduction de la probabilité d’occurrence d’un arrêt pour cause de dysfonctionnement du système, soit en ajustant la vitesse de dégradation pour s’accorder à un plan de maintenance préventif, soit en planifiant les interventions de maintenance de manière proactive<br>This thesis contributes to prognosis and health management for assessing health condition of complex systems. In the context of operational management and operational safety of systems, we propose to investigate how Dynamic Probabilistic Graphical Modelling (DPGM) can be used to diagnose the current health state of systems, prognostic the future health state, and the evolution of degradation, as well as estimate its remaining useful life based on its operating conditions. System degradation is generally unknown and requires shutting down the system to be observed. However, this is difficult or even impossible during system operation. Though, a set of observable quantities on a system or component can characterise the level of degradation and help to estimate the remaining useful life of components and systems. The DPGM provides an approach suitable for modelling the evolution of the health state of systems and components. The aim of this thesis is to transpose and capitalize on the experience of these previous works in a prognostic context on the basis of a more efficient DPGM taking into account the available knowledge on the system. We extend the classical HMM family models to the IOHMM to allow the time propagation of uncertainty to address prognostic problems. This research includes the extension of learning and inference algorithms. Variants of the HMM model are proposed to incorporate the operating environment into the prognosis. The aim of this thesis is to contribute to solving the following scientific locks: - Considering the state of health whatever the complexity of the system by a stochastic model and learning the model parameters from the available measurements on the system. - Establish a diagnosis of the state of health of the system and the prognosis of its evolution by integrating several operational conditions. - Estimate the remaining useful life of components and structured systems with series and parallel components. This is a major challenge because the prognosis of the degradation of system components makes it possible to define strategies for either control or maintenance in relation to the residual life of the system. This allows the reduction of the probability of occurrence of a shutdown due to a system malfunction either by adjusting the degradation speed to fit in with a preventive maintenance plan or by proactively planning maintenance interventions
APA, Harvard, Vancouver, ISO, and other styles
2

Petiet, Florence. "Réseau bayésien dynamique hybride : application à la modélisation de la fiabilité de systèmes à espaces d'états discrets." Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC2014/document.

Full text
Abstract:
L'analyse de fiabilité fait partie intégrante de la conception et du fonctionnement du système, en particulier pour les systèmes exécutant des applications critiques. Des travaux récents ont montré l'intérêt d'utiliser les réseaux bayésiens dans le domaine de la fiabilité, pour modélisation la dégradation d'un système. Les modèles graphiques de durée sont un cas particulier des réseaux bayésiens, qui permettent de s'affranchir de la propriété markovienne des réseaux bayésiens dynamiques. Ils s'adaptent aux systèmes dont le temps de séjour dans chaque état n'est pas nécessairement distribué exponentiellement, comme c'est le cas dans la plupart des applications industrielles. Des travaux antérieurs ont toutefois montré des limitations à ces modèles en terme de capacité de stockage et de temps de calcul, en raison du caractère discret de la variable temps de séjour. Une solution pourrait consister à considérer une variable de durée continue. Selon les avis d'experts, les variables de temps de séjour suivent une distribution de Weibull dans de nombreux systèmes. L'objectif de la thèse est d'intégrer des variables de temps de séjour suivant une distribution de Weibull dans un modèle de durée graphique en proposant une nouvelle approche. Après une présentation des réseaux bayésiens, et plus particulièrement des modèles graphiques de durée et leur limitation, ce rapport s'attache à présenter le nouveau modèle permettant la modélisation du processus de dégradation. Ce nouveau modèle est appelé modèle graphique de durée hybride Weibull. Un algorithme original permettant l'inférence dans un tel réseau a été mis en place. L'étape suivante a été la validation de l'approche. Ne disposant pas de données, il a été nécessaire de simuler des séquences d'états du système. Différentes bases de données ainsi construites ont permis d'apprendre d'un part un modèle graphique de durée, et d'autre part un modèle graphique de durée hybride-Weibull, afin de les comparer, que ce soit en terme de qualité d’apprentissage, de qualité d’inférence, de temps de calcul, et de capacité de stockage<br>Reliability analysis is an integral part of system design and operation, especially for systems running critical applications. Recent works have shown the interest of using Bayesian Networks in the field of reliability, for modeling the degradation of a system. The Graphical Duration Models are a specific case of Bayesian Networks, which make it possible to overcome the Markovian property of dynamic Bayesian Networks. They adapt to systems whose sojourn-time in each state is not necessarily exponentially distributed, which is the case for most industrial applications. Previous works, however, have shown limitations in these models in terms of storage capacity and computing time, due to the discrete nature of the sojourn time variable. A solution might be to allow the sojourn time variable to be continuous. According to expert opinion, sojourn time variables follow a Weibull distribution in many systems. The goal of this thesis is to integrate sojour time variables following a Weibull distribution in a Graphical Duration Model by proposing a new approach. After a presentation of the Bayesian networks, and more particularly graphical duration models, and their limitations, this report focus on presenting the new model allowing the modeling of the degradation process. This new model is called Weibull Hybrid Graphical Duration Model. An original algorithm allowing inference in such a network has been deployed. Various so built databases allowed to learn on one hand a Graphical Duration Model, and on an other hand a Graphical Duration Model Hybrid - Weibull, in order to compare them, in term of learning quality, of inference quality, of compute time, and of storage space
APA, Harvard, Vancouver, ISO, and other styles
3

Ben, Mrad Ali. "Observations probabilistes dans les réseaux bayésiens." Thesis, Valenciennes, 2015. http://www.theses.fr/2015VALE0018/document.

Full text
Abstract:
Dans un réseau bayésien, une observation sur une variable signifie en général que cette variable est instanciée. Ceci signifie que l’observateur peut affirmer avec certitude que la variable est dans l’état signalé. Cette thèse porte sur d’autres types d’observations, souvent appelées observations incertaines, qui ne peuvent pas être représentées par la simple affectation de la variable. Cette thèse clarifie et étudie les différents concepts d’observations incertaines et propose différentes applications des observations incertaines dans les réseaux bayésiens.Nous commençons par dresser un état des lieux sur les observations incertaines dans les réseaux bayésiens dans la littérature et dans les logiciels, en termes de terminologie, de définition, de spécification et de propagation. Il en ressort que le vocabulaire n'est pas clairement établi et que les définitions proposées couvrent parfois des notions différentes.Nous identifions trois types d’observations incertaines dans les réseaux bayésiens et nous proposons la terminologie suivante : observation de vraisemblance, observation probabiliste fixe et observation probabiliste non-fixe. Nous exposons ensuite la façon dont ces observations peuvent être traitées et propagées.Enfin, nous donnons plusieurs exemples d’utilisation des observations probabilistes fixes dans les réseaux bayésiens. Le premier exemple concerne la propagation d'observations sur une sous-population, appliquée aux systèmes d'information géographique. Le second exemple concerne une organisation de plusieurs agents équipés d'un réseau bayésien local et qui doivent collaborer pour résoudre un problème. Le troisième exemple concerne la prise en compte d'observations sur des variables continues dans un RB discret. Pour cela, l'algorithme BN-IPFP-1 a été implémenté et utilisé sur des données médicales de l'hôpital Bourguiba de Sfax<br>In a Bayesian network, evidence on a variable usually signifies that this variable is instantiated, meaning that the observer can affirm with certainty that the variable is in the signaled state. This thesis focuses on other types of evidence, often called uncertain evidence, which cannot be represented by the simple assignment of the variables. This thesis clarifies and studies different concepts of uncertain evidence in a Bayesian network and offers various applications of uncertain evidence in Bayesian networks.Firstly, we present a review of uncertain evidence in Bayesian networks in terms of terminology, definition, specification and propagation. It shows that the vocabulary is not clear and that some terms are used to represent different concepts.We identify three types of uncertain evidence in Bayesian networks and we propose the followingterminology: likelihood evidence, fixed probabilistic evidence and not-fixed probabilistic evidence. We define them and describe updating algorithms for the propagation of uncertain evidence. Finally, we propose several examples of the use of fixed probabilistic evidence in Bayesian networks. The first example concerns evidence on a subpopulation applied in the context of a geographical information system. The second example is an organization of agent encapsulated Bayesian networks that have to collaborate together to solve a problem. The third example concerns the transformation of evidence on continuous variables into fixed probabilistic evidence. The algorithm BN-IPFP-1 has been implemented and used on medical data from CHU Habib Bourguiba in Sfax
APA, Harvard, Vancouver, ISO, and other styles
4

Morlot, Jean-Baptiste. "Annotation of the human genome through the unsupervised analysis of high-dimensional genomic data." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066641/document.

Full text
Abstract:
Le corps humain compte plus de 200 types cellulaires différents possédant une copie identique du génome mais exprimant un ensemble différent de gènes. Le contrôle de l'expression des gènes est assuré par un ensemble de mécanismes de régulation agissant à différentes échelles de temps et d'espace. Plusieurs maladies ont pour cause un dérèglement de ce système, notablement les certains cancers, et de nombreuses applications thérapeutiques, comme la médecine régénérative, reposent sur la compréhension des mécanismes de la régulation géniques. Ce travail de thèse propose, dans une première partie, un algorithme d'annotation (GABI) pour identifier les motifs récurrents dans les données de séquençage haut-débit. La particularité de cet algorithme est de prendre en compte la variabilité observée dans les réplicats des expériences en optimisant le taux de faux positif et de faux négatif, augmentant significativement la fiabilité de l'annotation par rapport à l'état de l'art. L'annotation fournit une information simplifiée et robuste à partir d'un grand ensemble de données. Appliquée à une base de données sur l'activité des régulateurs dans l'hématopoieïse, nous proposons des résultats originaux, en accord avec de précédentes études. La deuxième partie de ce travail s'intéresse à l'organisation 3D du génome, intimement lié à l'expression génique. Elle est accessible grâce à des algorithmes de reconstruction 3D à partir de données de contact entre chromosomes. Nous proposons des améliorations à l'algorithme le plus performant du domaine actuellement, ShRec3D, en permettant d'ajuster la reconstruction en fonction des besoins de l'utilisateur<br>The human body has more than 200 different cell types each containing an identical copy of the genome but expressing a different set of genes. The control of gene expression is ensured by a set of regulatory mechanisms acting at different scales of time and space. Several diseases are caused by a disturbance of this system, notably some cancers, and many therapeutic applications, such as regenerative medicine, rely on understanding the mechanisms of gene regulation. This thesis proposes, in a first part, an annotation algorithm (GABI) to identify recurrent patterns in the high-throughput sequencing data. The particularity of this algorithm is to take into account the variability observed in experimental replicates by optimizing the rate of false positive and false negative, increasing significantly the annotation reliability compared to the state of the art. The annotation provides simplified and robust information from a large dataset. Applied to a database of regulators activity in hematopoiesis, we propose original results, in agreement with previous studies. The second part of this work focuses on the 3D organization of the genome, intimately linked to gene expression. This structure is now accessible thanks to 3D reconstruction algorithm from contact data between chromosomes. We offer improvements to the currently most efficient algorithm of the domain, ShRec3D, allowing to adjust the reconstruction according to the user needs
APA, Harvard, Vancouver, ISO, and other styles
5

Sayadi, Karim. "Classification du texte numérique et numérisé. Approche fondée sur les algorithmes d'apprentissage automatique." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066079/document.

Full text
Abstract:
Différentes disciplines des sciences humaines telles la philologie ou la paléographie font face à des tâches complexes et fastidieuses pour l'examen des sources de données. La proposition d'approches computationnelles en humanités permet d'adresser les problématiques rencontrées telles que la lecture, l'analyse et l'archivage de façon systématique. Les modèles conceptuels élaborés reposent sur des algorithmes et ces derniers donnent lieu à des implémentations informatiques qui automatisent ces tâches fastidieuses. La première partie de la thèse vise, d'une part, à établir la structuration thématique d'un corpus, en construisant des espaces sémantiques de grande dimension. D'autre part, elle vise au suivi dynamique des thématiques qui constitue un réel défi scientifique, notamment en raison du passage à l'échelle. La seconde partie de la thèse traite de manière holistique la page d'un document numérisé sans aucune intervention préalable. Le but est d'apprendre automatiquement des représentations du trait de l'écriture ou du tracé d'un certain script par rapport au tracé d'un autre script. Il faut dans ce cadre tenir compte de l'environnement où se trouve le tracé : image, artefact, bruits dus à la détérioration de la qualité du papier, etc. Notre approche propose un empilement de réseaux de neurones auto-encodeurs afin de fournir une représentation alternative des données reçues en entrée<br>Different disciplines in the humanities, such as philology or palaeography, face complex and time-consuming tasks whenever it comes to examining the data sources. The introduction of computational approaches in humanities makes it possible to address issues such as semantic analysis and systematic archiving. The conceptual models developed are based on algorithms that are later hard coded in order to automate these tedious tasks. In the first part of the thesis we propose a novel method to build a semantic space based on topics modeling. In the second part and in order to classify historical documents according to their script. We propose a novel representation learning method based on stacking convolutional auto-encoder. The goal is to automatically learn plot representations of the script or the written language
APA, Harvard, Vancouver, ISO, and other styles
6

Ayadi, Inès. "Optimisation des politiques de maintenance préventive dans un cadre de modélisation par modèles graphiques probabilistes." Thesis, Paris Est, 2013. http://www.theses.fr/2013PEST1072/document.

Full text
Abstract:
Actuellement, les équipements employés dans les milieux industriels sont de plus en plus complexes. Ils exigent une maintenance accrue afin de garantir un niveau de service optimal en termes de fiabilité et de disponibilité. Par ailleurs, souvent cette garantie d'optimalité a un coût très élevé, ce qui est contraignant. Face à ces exigences la gestion de la maintenance des équipements est désormais un enjeu de taille : rechercher une politique de maintenance réalisant un compromis acceptable entre la disponibilité et les coûts associés à l'entretien du système. Les travaux de cette thèse partent par ailleurs du constat que dans plusieurs applications de l'industrie, le besoin de stratégies de maintenance assurant à la fois une sécurité optimale et une rentabilité maximale demeure de plus en plus croissant conduisant à se référer non seulement à l'expérience des experts, mais aussi aux résultats numériques obtenus via la résolution des problèmes d'optimisation. La résolution de cette problématique nécessite au préalable la modélisation de l'évolution des comportements des états des composants constituant le système, i.e, connaître les mécanismes de dégradation des composants. Disposant d'un tel modèle, une stratégie de maintenance est appliquée au système. Néanmoins, l'élaboration d'une telle stratégie réalisant un compromis entre toutes ces exigences représente un verrou scientifique et technique majeur. Dans ce contexte, l'optimisation de la maintenance s'impose pour atteindre les objectifs prescrits avec des coûts optimaux. Dans les applications industrielles réelles, les problèmes d'optimisation sont souvent de grande dimension faisant intervenir plusieurs paramètres. Par conséquent, les métaheuristiques s’avèrent une approche intéressante dans la mesure où d'une part, elles sacrifient la complétude de la résolution au profit de l'efficacité et du temps de calcul et d'autre part elles s'appliquent à un très large panel de problèmes.Dans son objectif de proposer une démarche de résolution d'un problème d'optimisation de la maintenance préventive, cette thèse fournit une méthodologie de résolution du problème d'optimisation des politiques de maintenance préventive systématique appliquée dans le domaine ferroviaire à la prévention des ruptures de rails. Le raisonnement de cette méthodologie s'organise autour de trois étapes principales : 1. Modélisation de l'évolution des comportements des états des composants constituant le système, i.e, connaître les mécanismes de dégradation des composants et formalisation des opérations de maintenance. 2. Formalisation d'un modèle d'évaluation de politiques de maintenance tenant compte aussi bien du facteur sûreté de fonctionnement du système que du facteur économique conséquent aux procédures de gestion de la maintenance (coûts de réparation, de diagnostic, d'indisponibilité). 3. Optimisation des paramètres de configuration des politiques de maintenance préventive systématique afin d'optimiser un ou plusieurs critères. Ces critères sont définis sur la base du modèle d'évaluation des politiques de maintenance proposé dans l'étape précédente<br>At present, equipments used on the industrial circles are more and more complex. They require a maintenance increased to guarantee a level of optimal service in terms of reliability and availability. Besides, often this guarantee of optimalité has a very high cost, what is binding. In the face of these requirements the management of the maintenance of equipments is from now on a stake in size: look for a politics of maintenance realizing an acceptable compromise between the availability and the costs associated to the maintenance of the system. The works of this thesis leave besides the report that in several applications of the industry, the need for strategies of maintenance assuring(insuring) at the same time an optimal safety and a maximal profitability lives furthermore there
APA, Harvard, Vancouver, ISO, and other styles
7

Barrat, Sabine. "Modèles graphiques probabilistes pour la reconnaissance de formes." Phd thesis, Université Nancy II, 2009. http://tel.archives-ouvertes.fr/tel-00530755.

Full text
Abstract:
La croissance rapide d'Internet et de l'information multimédia a suscité un besoin en développement de techniques de recherche d'information multimédia, et en particulier de recherche d'images. On peut distinguer deux tendances. La première, appelée recherche d'images à base de texte, consiste à appliquer des techniques de recherche d'information textuelle à partir d'images annotées. Le texte constitue une caractéristique de haut-niveau, mais cette technique présente plusieurs inconvénients : elle nécessite un travail d'annotation fastidieux. De plus, les annotations peuvent être ambiguës car deux utilisateurs peuvent utiliser deux mots-clés différents pour décrire la même image. Par conséquent, plusieurs approches ont proposé d'utiliser l'ontologie Wordnet, afin de réduire ces ambiguïtés potentielles. La seconde approche, appelée recherche d'images par le contenu, est plus récente. Ces techniques de recherche d'images par le contenu sont basées sur des caractéristiques visuelles (couleur, texture ou forme), calculées automatiquement, et utilisent une mesure de similarité afin de retrouver des images. Cependant, les performances obtenues ne sont pas vraiment acceptables, excepté dans le cas de corpus spécialisés. De façon à améliorer la reconnaissance, une solution consiste à combiner différentes sources d'information : par exemple, différentes caractéristiques visuelles et/ou de l'information sémantique. Or, dans de nombreux problèmes de vision, on dispose rarement d'échantillons d'apprentissage entièrement annotés. Par contre, il est plus facile d'obtenir seulement un sous-ensemble de données annotées, car l'annotation d'un sous-ensemble est moins contraignante pour l'utilisateur. Dans cette direction, cette thèse traite des problèmes de modélisation, classification et annotation d'images. Nous présentons une méthode pour l'optimisation de la classification d'images naturelles, en utilisant une approche de classification d'images basée à la fois sur le contenu des images et le texte associé aux images, et en annotant automatiquement les images non annotées. De plus, nous proposons une méthode de reconnaissance de symboles, en combinant différentes caractéristiques visuelles. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification d'images naturelles partiellement annotées, et d'annotation. Nous considérons une image comme partiellement annotée si son nombre de mots-clés est inférieur au maximum de mots-clés observés dans la vérité-terrain. Grâce à leur capacité à gérer les données manquantes et à représenter d'éventuelles relations entre mots-clés, les modèles graphiques probabilistes ont été proposés pour représenter des images partiellement annotées. Par conséquent, le modèle que nous proposons ne requiert pas que toutes les images soient annotées : quand une image est partiellement annotée, les mots-clés manquants sont considérés comme des données manquantes. De plus, notre modèle peut étendre automatiquement des annotations existantes à d'autres images partiellement annotées, sans intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est représentée par une distribution de probabilité jointe sur le vocabulaire des mots-clés et les caractéristiques visuelles extraites de nos bases d'images. Notre modèle est aussi utilisé pour reconnaître des symboles en combinant différents types de caractéristiques visuelles (caractéristiques discrètes et continues). De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Enfin, nous avons proposé un modèle de recherche d'images permettant à l'utilisateur de formuler des requêtes sous forme de mots-clés et/ou d'images. Ce modèle intègre un processus de retour de pertinence. Les résultats expérimentaux, obtenus sur de grandes bases d'images complexes, généralistes ou spécialisées, montrent l'intérêt de notre approche. Enfin, notre méthode s'est montrée compétitive avec des modèles de l'état de l'art.
APA, Harvard, Vancouver, ISO, and other styles
8

Kenaza, Tayeb. "Modèles graphiques probabilistes pour la corrélation d'alertes en détection d'intrusions." Thesis, Artois, 2011. http://www.theses.fr/2011ARTO0401/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à la modélisation du problème de la corrélation d'alertes à base de modèles graphiques probabilistes. Nous avons constaté que les approches existantes de corrélation d'alertes, soit se basent sur des connaissances explicites d'experts, soit utilisent des mesures de similarité simples qui ne permettent pas de détecter des scénarios d'attaque. Pour cela, nous avons d'abord proposé une nouvelle modélisation de la corrélation d'alertes, basée sur les classifieurs Bayésiens naïfs, qui permet d'apprendre les coordinations entre les attaques élémentaires qui contribuent à la réalisation d'un scénario d'attaque. Notre modélisation nécessite seulement une légère contribution des connaissances d'experts. Elle tire profit des données disponibles et fournit des algorithmes efficaces pour la détection et la prédiction des scénarios d'attaque. Ensuite, nous avons montré comment notre approche de corrélation d'alertes peut être améliorée en prenant en considération les informations contextuelles codées en logiques de description, notamment dans le contexte d'une détection coopérative d'intrusions. Enfin, nous avons proposé plusieurs mesures d'évaluation pour un multi-classifieurs Bayésiens naïfs. Ceci est très important pour l'évaluation de notre approche de corrélation d'alertes car elle utilise un ensemble de classifieurs Bayésiens naïfs pour surveiller plusieurs objectifs d'intrusion en même temps<br>In this thesis, we focus on modeling the problem of alert correlation based on probabilistic graphical models. Existing approaches either require a large amount of expert knowledge or use simple similarity measures which are not enough to detect coordinated attacks. We first proposed a new modeling for the alert correlation problem, based on naive Bayesian classifiers, which can learn the coordination between elementary attacks that contribute to the achievement of an attack scenario. Our model requires only a slight contribution of expert knowledge. It takes advantage of available data and provides efficient algorithms for detecting and predicting attacks scenario. Then we show how our alert correlation approach can be improved by taking into account contextual information encoded in description logics, particularly in the context of a cooperative intrusion detection. Finally, we proposed several evaluation measures for a naive Bayesian multi-classifiers. This is very important for evaluating our alert correlation approach because it uses a set of naive Bayesian classifiers to monitor multiple intrusion objectives simultaneously
APA, Harvard, Vancouver, ISO, and other styles
9

Meng, Zide. "Analyse temporelle et sémantique des réseaux sociaux typés à partir du contenu de sites généré par des utilisateurs sur le Web." Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR4090/document.

Full text
Abstract:
Nous proposons une approche pour détecter les sujets, les communautés d'intérêt non disjointes,l'expertise, les tendances et les activités dans des sites où le contenu est généré par les utilisateurs et enparticulier dans des forums de questions-réponses tels que StackOverFlow. Nous décrivons d'abordQASM (Questions &amp; Réponses dans des médias sociaux), un système basé sur l'analyse de réseauxsociaux pour gérer les deux principales ressources d’un site de questions-réponses: les utilisateurs et lecontenu. Nous présentons également le vocabulaire QASM utilisé pour formaliser à la fois le niveaud'intérêt et l'expertise des utilisateurs. Nous proposons ensuite une approche efficace pour détecter lescommunautés d'intérêts. Elle repose sur une autre méthode pour enrichir les questions avec un tag plusgénéral en cas de besoin. Nous comparons trois méthodes de détection sur un jeu de données extrait dusite populaire StackOverflow. Notre méthode basée sur le se révèle être beaucoup plus simple et plusrapide, tout en préservant la qualité de la détection. Nous proposons en complément une méthode pourgénérer automatiquement un label pour un sujet détecté en analysant le sens et les liens de ses mots-clefs.Nous menons alors une étude pour comparer différents algorithmes pour générer ce label. Enfin, nousétendons notre modèle de graphes probabilistes pour modéliser conjointement les sujets, l'expertise, lesactivités et les tendances. Nous le validons sur des données du monde réel pour confirmer l'efficacité denotre modèle intégrant les comportements des utilisateurs et la dynamique des sujets<br>We propose an approach to detect topics, overlapping communities of interest, expertise, trends andactivities in user-generated content sites and in particular in question-answering forums such asStackOverFlow. We first describe QASM (Question &amp; Answer Social Media), a system based on socialnetwork analysis to manage the two main resources in question-answering sites: users and contents. Wealso introduce the QASM vocabulary used to formalize both the level of interest and the expertise ofusers on topics. We then propose an efficient approach to detect communities of interest. It relies onanother method to enrich questions with a more general tag when needed. We compared threedetection methods on a dataset extracted from the popular Q&amp;A site StackOverflow. Our method basedon topic modeling and user membership assignment is shown to be much simpler and faster whilepreserving the quality of the detection. We then propose an additional method to automatically generatea label for a detected topic by analyzing the meaning and links of its bag of words. We conduct a userstudy to compare different algorithms to choose the label. Finally we extend our probabilistic graphicalmodel to jointly model topics, expertise, activities and trends. We performed experiments with realworlddata to confirm the effectiveness of our joint model, studying the users’ behaviors and topicsdynamics
APA, Harvard, Vancouver, ISO, and other styles
10

Cortijo, Aragon Santiago José. "Sécurité pour des infrastructures critiques SCADA fondée sur des modèles graphiques probabilistes." Electronic Thesis or Diss., Sorbonne université, 2018. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2018SORUS502.pdf.

Full text
Abstract:
Dans la présente thèse, deux nouveaux modèles basés sur les Réseaux Bayésiens (BN) sont proposés: les BN à densités conditionnelles tronquées (ctdBN) et les BN à densités conditionnelles (cdBN). Ceux-ci permettent la modélisation de probabilités jointes pour des systèmes avec des variables aléatoires discrètes et continues. Nous analysons la complexité algorithmique pour l'inférence exacte dans les modèles proposés et montrons qu'elles sont du même ordre que celle des BNs classiques. Nous étudions également le problème d’apprentissage des cdBNs: nous proposons une fonction de score basée sur le score BD, ainsi qu’un algorithme d'apprentissage basé sur l'algorithme EM structural, tout en supposant l'existence de variables latentes discrètes correspondantes à chaque variable continue. En outre, nous prouvons théoriquement que les modèles cdBN et ctdBN peuvent approcher n'importe quelle distribution de probabilité jointe Lipschitzienne, montrant ainsi l'expressivité de ces modèles. Dans le cadre du projet Européen SCISSOR, dont le but est la cyber-securité, nous utilisons le modèle cdBN pour décrire la dynamique d'un système SCADA et diagnostiquer des anomalies dans des observations prises en temps réel, tout en interprétant une anomalie comme une menace potentielle à l'intégrité du système<br>In this thesis two new Bayesian-Network-based models are proposed: conditional truncated densities Bayesian networks (ctdBN) and conditional densities Bayesian networks (cdBN). They model joint probability distributions of systems combining discrete and continuous random variables. We analyze the complexity of exact inference for the proposed models, concluding that they are in the same order of the one for the classical Bayesian Network model. We also analyze the challenge of learning cdBNs, proposing a score function based in the BD score as well as a whole learning algorithm based on the structural EM algorithm, assuming the existence of discrete latent variables corresponding to each continuous variable. In addition, we proof theoretically that the cdBN and ctdBN models can approximate well any Lipschitz joint probability distribution, which shows the expressiveness of these models. Within the framework of the European project SCISSOR, whose goal is cyber-security, we use the cdBN model to describe the dynamics of a SCADA system and to diagnose anomalies in observations taken in real time, interpreting an anomaly as a potential threat to the integrity of the system
APA, Harvard, Vancouver, ISO, and other styles
11

Gasse, Maxime. "Apprentissage de Structure de Modèles Graphiques Probabilistes : application à la Classification Multi-Label." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE1003/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons au problème spécifique de l'apprentissage de structure de modèles graphiques probabilistes, c'est-à-dire trouver la structure la plus efficace pour représenter une distribution, à partir seulement d'un ensemble d'échantillons D ∼ p(v). Dans une première partie, nous passons en revue les principaux modèles graphiques probabilistes de la littérature, des plus classiques (modèles dirigés, non-dirigés) aux plus avancés (modèles mixtes, cycliques etc.). Puis nous étudions particulièrement le problème d'apprentissage de structure de modèles dirigés (réseaux Bayésiens), et proposons une nouvelle méthode hybride pour l'apprentissage de structure, H2PC (Hybrid Hybrid Parents and Children), mêlant une approche à base de contraintes (tests statistiques d'indépendance) et une approche à base de score (probabilité postérieure de la structure). Dans un second temps, nous étudions le problème de la classification multi-label, visant à prédire un ensemble de catégories (vecteur binaire y P (0, 1)m) pour un objet (vecteur x P Rd). Dans ce contexte, l'utilisation de modèles graphiques probabilistes pour représenter la distribution conditionnelle des catégories prend tout son sens, particulièrement dans le but minimiser une fonction coût complexe. Nous passons en revue les principales approches utilisant un modèle graphique probabiliste pour la classification multi-label (Probabilistic Classifier Chain, Conditional Dependency Network, Bayesian Network Classifier, Conditional Random Field, Sum-Product Network), puis nous proposons une approche générique visant à identifier une factorisation de p(y|x) en distributions marginales disjointes, en s'inspirant des méthodes d'apprentissage de structure à base de contraintes. Nous démontrons plusieurs résultats théoriques, notamment l'unicité d'une décomposition minimale, ainsi que trois procédures quadratiques sous diverses hypothèses à propos de la distribution jointe p(x, y). Enfin, nous mettons en pratique ces résultats afin d'améliorer la classification multi-label avec les fonctions coût F-loss et zero-one loss<br>In this thesis, we address the specific problem of probabilistic graphical model structure learning, that is, finding the most efficient structure to represent a probability distribution, given only a sample set D ∼ p(v). In the first part, we review the main families of probabilistic graphical models from the literature, from the most common (directed, undirected) to the most advanced ones (chained, mixed etc.). Then we study particularly the problem of learning the structure of directed graphs (Bayesian networks), and we propose a new hybrid structure learning method, H2PC (Hybrid Hybrid Parents and Children), which combines a constraint-based approach (statistical independence tests) with a score-based approach (posterior probability of the structure). In the second part, we address the multi-label classification problem, which aims at assigning a set of categories (binary vector y P (0, 1)m) to a given object (vector x P Rd). In this context, probabilistic graphical models provide convenient means of encoding p(y|x), particularly for the purpose of minimizing general loss functions. We review the main approaches based on PGMs for multi-label classification (Probabilistic Classifier Chain, Conditional Dependency Network, Bayesian Network Classifier, Conditional Random Field, Sum-Product Network), and propose a generic approach inspired from constraint-based structure learning methods to identify the unique partition of the label set into irreducible label factors (ILFs), that is, the irreducible factorization of p(y|x) into disjoint marginal distributions. We establish several theoretical results to characterize the ILFs based on the compositional graphoid axioms, and obtain three generic procedures under various assumptions about the conditional independence properties of the joint distribution p(x, y). Our conclusions are supported by carefully designed multi-label classification experiments, under the F-loss and the zero-one loss functions
APA, Harvard, Vancouver, ISO, and other styles
12

Ziani, Ahmed. "Interprétation en temps réel de séquence vidéo par exploitation des modèles graphiques probabilistes." Littoral, 2010. http://www.theses.fr/2010DUNK0271.

Full text
Abstract:
Le travail de recherche concerne l'étude et la mise en oeuvre de systèmes de reconnaissance de scénarios dans des séquences d'images de vidéosurveillance. Les couches hautes du système de reconnaissance exploitent principalement les approches graphiques probabilistes (réseaux bayésiens et les modèles de Markov Cachés et leurs extensions) qui permettent de gérer de manière efficace les incertitudes au sein du système d'interprétation. Un premier algorithme de reconnaissance de séquences d'événements, combinant deux extensions de modèles de Markov cachés (hiérarchique et semi-markovien) a été proposé. Il permet de modéliser des scénarios complexes basés sur une structure hiérarchisée intégrant des contraintes temporelles sur la durée de chaque événement. Ensuite, nous avons étudié une approche de reconnaissance de trajectoire d'objets en utilisant les modèles de Markov cachés semi-continus. Nous avons adapté une méthode de quantification permettant d'obtenir automatiquement les états du modèle. Dans le but d'accélérer le comportement du système de reconnaissance, nous avons proposé une technique de prédiction basée sur la reconnaissance des débuts de trajectoires et qui permet rapidement d'écarter les modèles ne pouvant être compatibles avec les observations. La dernière partie du travail a été le développement d'une structure globale et modulaire d'un système de reconnaissance de scénarios. L'intérêt principal de cette architecture est de pouvoir exploiter des techniques probabilistes tout en intégrant des capacités de raisonnement temporel. L'architecture logique du système exploite une approche multi agents organisée selon trois couches. Afin de gérer les contraintes temps réel de l'application, la stratégie de contrôle du système de reconnaissance active un nombre minimal 'agents en fonction de ses décisions internes. Les agents de la première couche ont pour rôle de mettre en évidence les événements élémentaires et sont construits principalement à base de réseaux bayésiens ou de modèles de Markov cachés. Les agents temporels de la deuxième couche sont construits également à partir d'une structure spécifique de type réseau bayésien. Ils ont pour rôle de modéliser de manière explicite les relations temporelles entre événements mis en évidence à partir de la première couche. Les agents du troisième niveau interviennent dans l'étape finale de décision en exploitant l'ensemble des décisions des agents intermédiaires. Les différentes approches de reconnaissance de scénarios ont été testées sur divers séquences réelles en environnement extérieur et intérieur<br>The research covers the design and implementation of systems for recognition of scenarios in video image sequences. The upper layers of the recognition system operating primarily graphical probabilistic approaches (Bayesian networks and Hidden Markov models and their extensions) that can effectively handle uncertainties in the interpretation system. A first algorithm for recognition of sequences of events, combining two extensions of HMM (hierarchical and semi-Markov) was proposed. It allows to model complex scenarios based on a hierarchical structure integrating temporal constraints on the duration of each event. Then, we proposed a prediction technique based on the recognition of early tracks and allows quick to dismiss the models may be consistent with the observations. The last part of the work was the development of a global structure and a modular recognition system scenarios. The main advantage of this architecture is to use probabilistic techniques while integrating temporal reasoning capabilities. The logical architecture of the system uses a multi agents. In order to manage real-time constraints of the application, the control strategy of the recognition systems enables a minimum number of agents according to its internal decisions. The agents of the first layer has a role to highlight the basic events and are constructed mainly of Bayesian networks or hidden Markov models. The agents of the second temporal layer are also built from a specific structure type Bayesian network. Their role is to model explicitly the temporal relationships between events highlighted from the first layer. The third level officials involved in the final stage of decision using all of the decisions of intermediate agents. Different approaches to recognition of scenarios were tested on various real images in external and internal environment
APA, Harvard, Vancouver, ISO, and other styles
13

Rochd, El Mehdi. "Modèles probabilistes de consommateurs en ligne : personnalisation et recommandation." Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4086.

Full text
Abstract:
Les systèmes de recherche ont facilité l’accès à l’information disponible sur le web à l’aide de mécanismes de collecte, d’indexation et de stockage de contenus hétérogènes.Ils génèrent des traces résultant de l’activité des internautes. Il s’agit ensuite d’analyser ces données à l’aide d’outils de data mining afin d’améliorer la qualité de réponse de ces systèmes ou de la personnaliser en fonction des profils des utilisateurs. Certains acteurs, comme la société Marketshot, se positionnent comme intermédiaires entre les consommateurs et les professionnels. Ils mettent en relation les acheteurs potentiels avec les grandes marques et leurs réseaux de distribution à travers leurs sites Internet d’aide à l’achat. Pour cela, ces intermédiaires ont développé des portails efficaces et stockent de gros volumes de données liées à l’activité des internautes sur leurs sites. Ces gisements de données sont exploités pour répondre favorablement aux besoins des internautes, ainsi qu’à ceux des professionnels qui cherchent à comprendre le comportement de leurs clients et anticiper leurs actes d’achats. C’est dans ce contexte, où on cherche à fouiller les données collectées du web, que se placent mes travaux de recherche. L’idée est de construire des modèles qui permettent d’expliciter une corrélation entre les activités des internautes sur les sites d’aide à l’achat et les tendances de ventes de produits dans la « vraie vie ». En effet, ma thèse se place dans le cadre de l’apprentissage probabiliste et plus particulièrement des modèles graphiques « Topic Models ». Elle consiste à modéliser les comportements des internautes à partir des données d’usages de sites web<br>Research systems have facilitated access to information available on the web using mechanisms for collecting, indexing and storage of heterogeneous content. They generate data resulting from the activity of users on Internet (queries, logfile). The next step is to analyze the data using data mining tools in order to improve the response’s quality of these systems, or to customize the response based on users’ profiles. Some actors, such as the company Marketshot, are positioned as intermediaries between consumers and professionals. Indeed, they link potential buyers with the leading brands and distribution networks through their websites. For such purposes, these intermediaries have developed effective portals, and have stored large volumes of data related to the activity of users on their websites. These data repositories are exploited to respond positively to the needs of users as well as those of professionals who seek to understand the behavior of their customers and anticipate their purchasing actions. My thesis comes within the framework of searching through the data collected from the web. The idea is to build models that explain the correlation between the activities of users on websites of aid for the purchase, and sales trends of products in « real life ». In fact, my research concerns probabilistic learning, in particular Topic Models. It involves modeling the users’ behavior from uses of trader websites
APA, Harvard, Vancouver, ISO, and other styles
14

Vidal, Vincent. "Développement de modèles graphiques probabilistes pour analyser et remailler les maillages triangulaires 2-variétés." Phd thesis, INSA de Lyon, 2011. http://tel.archives-ouvertes.fr/tel-00708530.

Full text
Abstract:
Ce travail de thèse concerne l'analyse structurelle des maillages triangulaires surfaciques, ainsi que leur traitement en vue de l'amélioration de leur qualité (remaillage) ou de leur simplification. Dans la littérature, le repositionnement des sommets d'un maillage est soit traité de manière locale, soit de manière globale mais sans un contrôle local de l'erreur géométrique introduite, i.e. les solutions actuelles ne sont pas globales ou introduisent de l'erreur géométrique non-contrôlée. Les techniques d'approximation de maillage les plus prometteuses se basent sur une décomposition en primitives géométriques simples (plans, cylindres, sphères etc.), mais elles n'arrivent généralement pas à trouver la décomposition optimale, celle qui optimise à la fois l'erreur géométrique de l'approximation par les primitives choisies, et le nombre et le type de ces primitives simples. Pour traiter les défauts des approches de remaillage existantes, nous proposons une méthode basée sur un modèle global, à savoir une modélisation graphique probabiliste, intégrant des contraintes souples basées sur la géométrie (l'erreur de l'approximation), la qualité du maillage et le nombre de sommets du maillage. De même, pour améliorer la décomposition en primitives simples, une modélisation graphique probabiliste a été choisie. Les modèles graphiques de cette thèse sont des champs aléatoires de Markov, ces derniers permettant de trouver une configuration optimale à l'aide de la minimisation globale d'une fonction objectif. Nous avons proposé trois contributions dans cette thèse autour des maillages triangulaires 2-variétés : (i) une méthode d'extraction statistiquement robuste des arêtes caractéristiques applicable aux objets mécaniques, (ii) un algorithme de segmentation en régions approximables par des primitives géométriques simples qui est robuste à la présence de données aberrantes et au bruit dans la position des sommets, (iii) et finalement un algorithme d'optimisation de maillages qui cherche le meilleur compromis entre l'amélioration de la qualité des triangles, la qualité de la valence des sommets, le nombre de sommets et la fidélité géométrique à la surface initiale.
APA, Harvard, Vancouver, ISO, and other styles
15

Favier, Aurélie. "Décompositions fonctionnelles et structurelles dans les modèles graphiques probabilistes appliquées à la reconstruction d'haplotypes." Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1527/.

Full text
Abstract:
Cette thèse s'articule autour de deux thèmes : la décomposition dans les modèles graphiques que sont, entre autres, les réseaux bayésiens et les réseaux de fonctions de coûts (WCSP) et la reconstruction d'haplotypes dans les pedigrees. Nous appliquons les techniques des WCSP pour traiter les réseaux bayésiens, en exploitant les propriétés structurelles et fonctionnelles, de manière exacte et approchée, des instances dans le cadre de l'inférence (ou d'un problème proche, celui de compter le nombre de solutions) et de l'optimisation. Nous définissons en particulier une décomposition de fonctions qui produit des fonctions portant sur un plus petit nombre de variables. Un exemple d'application en optimisation est la reconstruction d'haplotypes. Elle est essentielle pour une meilleure prédiction de la gravité de maladie ou pour comprendre des caractères physiques particuliers. La reconstruction d'haplotypes se modélise sous forme d'un réseau bayésien. La décomposition fonctionnelle permet de réduire ce réseau bayésien en un problème d'optimisation WCSP (Max-2SAT)<br>This thesis is based on two topics : the decomposition in graphical models which are, among others, Bayesian networks and cost function networks (WCSP) and the haplotype reconstruction in pedigrees. We apply techniques of WCSP to treat Bayesian network. We exploit stuctural and fonctional properties, in an exact and approached methods. Particulary, we define a decomposition of function which produces functions with a smaller variable number. An application example in optimization is the haplotype reconstruction. It is essential for a best prediction of seriousness of disease or to understand particular physical characters. Haplotype reconstruction is represented with a Bayesian network. The functionnal decomposition allows to reduce this Bayesian network in an optimization problem WCSP (Max-2SAT)
APA, Harvard, Vancouver, ISO, and other styles
16

Jousse, Florent. "Transformations d'Arbres XML avec des Modèles Probabilistes pour l'Annotation." Phd thesis, Université Charles de Gaulle - Lille III, 2007. http://tel.archives-ouvertes.fr/tel-00342649.

Full text
Abstract:
Cette thèse traite de l'apprentissage supervisé de transformations d'arbres XML. Le langage XML permet de décrire des données sous forme d'arbres dont la structure est définie par un schéma. Il est par conséquent devenu le standard en termes d'échanges de données, que ce soit sur le Web ou entre plusieurs applications. Toutefois, les documents XML peuvent avoir des structures très variables. La grande variété de ces structures nécessite alors d'être capable de transformer de tels arbres. Nous proposons d'effectuer de telles transformations d'arbres XML en annotant les arbres d'entrée, c'est-à-dire en associant un label à chacun de ses noeuds, la sémantique associée aux labels permettant de transformer l'arbre.<br />Afin d'apprendre à effectuer ces transformations, nous adaptons donc dans un premier temps au cas des arbres XML le modèle des champs aléatoires conditionnels ou Conditional Random Fields (CRF). Les CRFs sont un modèle graphique non dirigé conditionnel pour l'annotation : ils modélisent la probabilité conditionnelle d'une annotation sachant une observation. Ils ont, jusqu'à présent, été essentiellement utilisés dans le cadre de tâches d'annotation de séquences, à la fois dans le domaine de l'extraction d'informations ou en traitement automatiques des langues naturelles. Notre adaptation des CRFs au cas de l'annotation d'arbres XML porte à la fois sur le modèle de dépendances et sur les algorithmes d'inférence exacte (recherche de la meilleure annotation) et d'apprentissage.<br />De plus, nous proposons deux méthodes d'amélioration de la complexité de ces algorithmes afin de permettre l'utilisation des champs aléatoires conditionnels dans le cadre d'applications à grande échelle. Ces méthodes s'appuient toutes deux sur l'utilisation des connaissances du domaine. La première consiste en l'intégration de contraintes sur l'annotation. Celles-ci viennent restreindre l'espace des annotations possibles d'un arbre en interdisant des configurations de labels. La seconde technique d'amélioration de la complexité que nous proposons consiste en l'approximation d'un CRF par la composition de plusieurs CRFs de complexité moindre, définis sur des sous-parties de l'alphabet des labels.<br />Ces travaux ont été validés par diverses expériences sur des données artificielles et réelles, montrant ainsi non seulement la qualité des transformations effectuées à l'aide de nos méthodes, mais aussi leur intérêt dans des tâches réelles. Ces bons résultats nous ont conduit à réaliser une application de génération automatique de flux RSS à partir de pages Web. Celle-ci permet à son utilisateur d'apprendre un générateur de flux RSS en annotant une ou plusieurs pages d'un site Web. Ce générateur consiste en un CRF qui annote les pages Web de ce site de façon à transformer l'arbre XHTML en un arbre XML au format RSS. Il permet alors de créer automatiquement des flux RSS pour toute autre page du même site. Cette application est disponible à l'adresse suivante : http://r2s2.futurs.inria.fr/
APA, Harvard, Vancouver, ISO, and other styles
17

Paiva, mendes Ellon. "Study on the Use of Vision and Laser Range Sensors with Graphical Models for the SLAM Problem." Thesis, Toulouse, INSA, 2017. http://www.theses.fr/2017ISAT0016/document.

Full text
Abstract:
La capacité des robots mobiles à se localiser précisément par rapport à leur environnement est indispensable à leur autonomie. Pour ce faire, les robots exploitent les données acquises par des capteurs qui observent leur état interne, tels que centrales inertielles ou l’odométrie, et les données acquises par des capteurs qui observent l’environnement, telles que les caméras et les Lidars. L’exploitation de ces derniers capteurs a suscité le développement de solutions qui estiment conjointement la position du robot et la position des éléments dans l'environnement, appelées SLAM (Simultaneous Localization and Mapping). Pour gérer le bruit des données provenant des capteurs, les solutions pour le SLAM sont mises en œuvre dans un contexte probabiliste. Les premiers développements étaient basés sur le filtre de Kalman étendu, mais des développements plus récents utilisent des modèles graphiques probabilistes pour modéliser le problème d’estimation et de le résoudre grâce à techniques d’optimisation. Cette thèse exploite cette dernière approche et propose deux techniques distinctes pour les véhicules terrestres autonomes: une utilisant la vision monoculaire, l’autre un Lidar. L’absence d’information de profondeur dans les images obtenues par une caméra a mené à l’utilisation de paramétrisations spécifiques pour les points de repères qui isolent la profondeur inconnue dans une variable, concentrant la grande incertitude sur la profondeur dans un seul paramètre. Une de ces paramétrisations, nommé paramétrisation pour l’angle de parallaxe (ou PAP, Parallax Angle Parametrization), a été introduite dans le contexte du problème d’ajustement de faisceaux, qui traite l’ensemble des données en une seule étape d’optimisation globale. Nous présentons comment exploiter cette paramétrisation dans une approche incrémentale de SLAM à base de modèles graphiques, qui intègre également les mesures de mouvement du robot. Les Lidars peuvent être utilisés pour construire des solutions d’odométrie grâce à un recalage séquentiel des nuages de points acquis le long de la trajectoire. Nous définissons une couche basée sur les modèles graphiques au dessus d’une telle couche d’odométrie, qui utilise l’algorithme ICP (Iterative Closest Points). Des repères clefs (keyframes) sont définis le long de la trajectoire du robot, et les résultats de l’algorithme ICP sont utilisés pour construire un graphe de poses, exploité pour résoudre un problème d’optimisation qui permet la correction de l’ensemble de la trajectoire du robot et de la carte de l’environnement à suite des fermetures de boucle.Après une introduction à la théorie des modèles graphiques appliquée au problème de SLAM, le manuscrit présente ces deux approches. Des résultats simulés et expérimentaux illustrent les développements tout au long du manuscrit, en utilisant des jeux des données classiques et obtenus au laboratoire<br>A strong requirement to deploy autonomous mobile robots is their capacity to localize themselves with a certain precision in relation to their environment. Localization exploits data gathered by sensors that either observe the inner states of the robot, like acceleration and speed, or the environment, like cameras and Light Detection And Ranging (LIDAR) sensors. The use of environment sensors has triggered the development of localization solutions that jointly estimate the robot position and the position of elements in the environment, referred to as Simultaneous Localization and Mapping (SLAM) approaches. To handle the noise inherent of the data coming from the sensors, SLAM solutions are implemented in a probabilistic framework. First developments were based on Extended Kalman Filters, while a more recent developments use probabilistic graphical models to model the estimation problem and solve it through optimization. This thesis exploits the latter approach to develop two distinct techniques for autonomous ground vehicles: oneusing monocular vision, the other one using LIDAR. The lack of depth information in camera images has fostered the use of specific landmark parametrizations that isolate the unknown depth in one variable, concentrating its large uncertainty into a single parameter. One of these parametrizations, named Parallax Angle Parametrization, was originally introduced in the context of the Bundle Adjustment problem, that processes all the gathered data in a single global optimization step. We present how to exploit this parametrization in an incremental graph-based SLAM approach in which robot motion measures are also incorporated. LIDAR sensors can be used to build odometry-like solutions for localization by sequentially registering the point clouds acquired along a robot trajectory. We define a graphical model layer on top of a LIDAR odometry layer, that uses the Iterative Closest Points (ICP) algorithm as registration technique. Reference frames are defined along the robot trajectory, and ICP results are used to build a pose graph, used to solve an optimization problem that enables the correction of the robot trajectory and the environment map upon loop closures. After an introduction to the theory of graphical models applied to SLAM problem, the manuscript depicts these two approaches. Simulated and experimental results illustrate the developments throughout the manuscript, using classic and in-house datasets
APA, Harvard, Vancouver, ISO, and other styles
18

Foulliaron, Josquin. "Utilisation des modèles graphiques probabilistes pour la mise en place d'une politique de maintenance à base de pronostic." Thesis, Paris Est, 2015. http://www.theses.fr/2015PESC1205/document.

Full text
Abstract:
Une des conséquences les plus marquantes de l'évolution actuelle de l’industrie ferroviaire est l'augmentation des contraintes exercées aussi bien sur les voies que sur les matériels roulants ; tant en termes de sollicitations, de charges, de fréquences, qu'en termes d'exigences de disponibilité et de sécurité. De ce fait, la recherche de politiques de maintenance optimales répondant aux objectifs de disponibilité, de coûts, de sécurité est devenue un sujet particulièrement d'actualité. Pour répondre à cette demande d’ajustement des stratégies de maintenance, le formalisme des réseaux bayésiens est une approche de plus en plus utilisée pour développer des outils d'aide à la décision. Afin de s’affranchir de l’hypothèse markovienne restrictive imposée par l’utilisation « standard » des réseaux bayésiens, une structure originale a été proposée pour modéliser finement un processus de dégradation dans le cadre discret à partir de distributions de temps de séjour quelconques. Cette approche, dénommée Modèles Graphiques de Durée, autorise une finesse de modélisation du processus de dégradation qui permet de reproduire le comportement de systèmes multi-composants et multi-états, tout en tenant compte de variables exogènes. Cette modélisation semi-markovienne de la dégradation a, jusqu'à présent, été utilisée surtout pour évaluer ou comparer des stratégies de maintenance pouvant mêler des approches correctives, systématiques ou conditionnelles. Cette thèse vise à étendre les travaux précédents aux actions de maintenance prévisionnelle. Cette approche, qualifiée également de pronostic, offre en effet l’avantage d’une prédiction de l’instant optimal d’intervention maximisant la durée de fonctionnement du système avant intervention, tout en satisfaisant les contraintes d’exploitation et d’entretien. Les systèmes considérés sont à espaces d’états discrets et finis, périodiquement observables, situation fréquente pour de nombreuses applications industrielles, notamment dans le domaine des transports. Ces travaux de thèse proposent, à partir du formalisme des réseaux bayésiens dynamiques et des modèles graphiques de durée, des outils de pronostic dans le but de permettre la modélisation de politiques de maintenance préventives prévisionnelle. Pour répondre à cet objectif, un algorithme de pronostic basé sur des distributions de temps de séjour a tout d’abord été introduit, dans le but de calculer une estimation de la durée de vie résiduelle (RUL) d'un système et de la mettre à jour à chaque fois qu’un nouveau diagnostic est disponible. Pour améliorer la précision des calculs de pronostic, un nouveau modèle de dégradation a ensuite été proposé pour tenir compte de l'existence éventuelle de plusieurs dynamiques de dégradation coexistantes. Son principe consiste à identifier à chaque instant un mode de dégradation actif, puis à répercuter cette information sur les temps de séjour considérés dans les états suivants par l'utilisation de lois de temps de séjour conditionnelles. Enfin, des solutions pour diminuer la complexité des calculs d'inférence exacte sont proposées<br>One of the most important consequences due to current developments in the rail industry is the increase of stresses on tracks and rolling stock; in terms of loads, frequencies, and both in terms of availability and security requirements. Therefore, looking for optimal maintenance policies to meet the availability, cost and security objectives has become a particularly topical subject. To address this need of maintenance strategy adjustment, approaches using bayesian networks have increasingly been used for the development of decision support tools. To overcome the restrictive Markovian assumption induced by the use of standard bayesian networks, a specific structure has been proposed to accurately model a degradation process in discrete case using any kind of sojourn time distributions. This approach called "Graphical duration model" make possible to describe multicomponent and multi state system behaviours by taking into account many exogenous variables. This semi-markovian modelling of the degradation has mainly been used to evaluate and compare different maintenance strategies based on corrective, systematic and conditional approaches. This PhD thesis aims to extend previous works to predictive maintenance policies. This approach, based on prognosis computations, has the advantage to predict the optimal intervention time maximizing the remaining useful life of the system and both satisfying operating and maintaining constraints. Considered systems have finite discrete state spaces and are periodically observable as many existing ones in the industry and particularly in the field of transport systems. The presented works, based on the dynamic bayesian network formalism and the graphical duration model, propose prognostic tools in order to model the set of predictive maintenance policies. A prognosis algorithm is first introduced to compute the remaining useful life (RUL) of the system and update this estimation each time a new diagnosis is available. To improve the prognosis estimation accuracy, a new degradation model is proposed to take into account the possible existence of many coexisting degradation modes. The principle is to identify at each time the active degradation mode and then to use this information to choose sojourn times considered in next states using conditional sojourn times distributions. At last, some solutions to reduce the complexity of inference computations are proposed
APA, Harvard, Vancouver, ISO, and other styles
19

Fkihi, Sanaa El. "Modèles probabilistes indexés par les arbres : application à la détection de la peau dans les images couleur." Thesis, Lille 1, 2008. http://www.theses.fr/2008LIL10079/document.

Full text
Abstract:
La détection de la peau constitue une phase primordiale de prétraitement dans plusieurs applications telles que la vidéo surveillance et le filtrage d'Internet. Toutefois, c'est une tâche difficile à accomplir étant donné la diversité des couleurs de la peau et la variété des conditions de prise de vue. Dans l'objectif de surmonter ces dernières contraintes, nos travaux de thèse consistent à définir un modèle robuste de la distribution de la peau capable de différencier les pixels de peau de ceux de non-peau dans des images variées. Notre modélisation est fondée sur le concept des modèles graphiques probabilistes connus par leur intuitivité et efficacité pour la représentation d'une distribution jointe de probabilités sur un ensemble de variables aléatoires, plus particulièrement les arbres indexant des probabilités. En vue de définir le modèle de l'arbre idéal indexant la distribution de la peau, nous avons proposé trois approches différentes : le modèle d'arbre de dépendances à b probabilité peau et non peau, le modèle de mélange des arbres et celui de leur combinaison. Le modèle d'arbre de dépendances à bi-probabilité peau et non peau proposé, exploite les propriétés d'interclasse et d'intra classe entre les deux classes peau et non peau ainsi que les interactions entre un pixel et ses voisins que nous traduisons par un arbre de dépendance optimal. L'arbre élaboré est un arbre idéal unique indexant conjointement les distributions de probabilités peau et non peau. Le modèle de mélange des arbres est proposé pour remédier à la multiplicité des arbres de dépendances optimaux possibles sur un graphe. L'entité du mélange proposée concerne aussi bien les structures des arbres considérés que les probabilités portées par ces dernières. Ainsi, l'arbre idéal indexant probabilité peau est l'arbre résultant du mélange portant la probabilité du mélange. Quant au modèle de combinaison des arbres élaboré, il constitue une approche alternative au mélange proposé visant l'exploitation des différent informations emmagasinées dans les différents arbres de dépendances optimaux possibles. Un fondement théorique est présenté dans cette thèse pour déterminer la meilleure approche à adopter, le mélange des arbres ou la combinaison des arbres, et ce en fonction des arbres de dépendances optimaL considérés. Les expérimentations réalisées sur la base Compaq montrent l'efficacité et la faisabilité de nos approches. En outre, des études comparatives entre n&lt; modèles de peau et l'existant prouvent qu'en termes de qualité et de quantité des résultats obtenus, les modèles proposés permettent de discriminer les pixels de peau et ceux de non peau dans des images couleurs variées<br>Skin detection or segmentation is considered as an important preliminary process in a number of existing systems ranging over face detection, filtering Internet images, and diverse human interaction areas. Nevertheless, there are two skin segmentation challenges: the pattern variability and the scene complexity. This thesis is devoted to define a new approach for modeling the skin probability distribution. ln the aim of dealing with the skin detection problem, we investigate the models of probability trees to approximate skin and non-skin probabilities. These models can represent a joint distribution in an intuitive and efficient way. Hence, we have proposed three main approaches to seek a perfect tree model estimating the skin probability distribution: (1) the model of dependency tree that approximates the skin and the non skin probability distribution together, (2) the mixture of trees' model, and (3) the combination of trees' model. The first proposed model is based on the optimal spanning tree principle combined to an appropriate relevant criterion that we have defined. The contribution takes into account both the interclass and the intra class between skin and non skin classes, and the interactions between a given pixel and its neighbors. The rationale behind proposing the second model is that in sorne cases the approximation of true class probability given by an optimal spanning tree (OST) is not unique and might be chosen randomly, while this model will take the advantages of the useful information represented on each OST. The mixture of trees' model consists in mixing the structures of the OSTs and their probabilities with the aim of seeking a perfect spanning tree. This latter emphasizes the dependencies' degrees of data, and approximates effectively the true probability distribution. Finally, the third model is defined to deal with a particular kind of multiple OSTs. This model is a parallel combination of different classifiers based on the OSTs. A mathematical theory, proving and specifying the appropriate approach to be used (mixture of trees or combination of trees) depending on the considered OSTs' kind, is presented in this thesis. In addition to experimental results, on the Compaq database, showing the effectiveness and the high reliability of our three approaches
APA, Harvard, Vancouver, ISO, and other styles
20

Ammar, Kessentini Sourour. "Modèles graphiques probabilistes pour l'estimation de densité en grande dimensionbTexte imprimé : applications du principe Perturb & Combine pour les mélanges d'arbres." Nantes, 2010. http://www.theses.fr/2010NANT2082.

Full text
Abstract:
Dans les applications actuelles, le nombre de variables continue d'augmenter, ce qui rend difficile l'estimation de densité. En effet, le nombre de paramètres nécessaire pour l'estimation croit exponentiellement par rapport à la dimension du problème. Les modèles graphiques probabilistes fournissent une aide non négligeable pour lutter contre ce problème en fournissant une factorisation de la loi jointe mais souffrent d'un problème de passage à l'échelle. Le problème de grande dimension s'accentue du fait que le nombre d'observations avec lequel on effectue l'estimation de densité n'augmente pas dans les mêmes proportions, et reste même extrêmement faible dans certains domaines d'applications. La factorisation de la loi jointe s'avère non suffisante pour effectuer une estimation de densité de qualité lorsqu'il y a très peu de données. Le principe du Perturb &amp; Combine, initialement appliqué en classification, permet de lutter contre ce genre de problèmes. Dans le cadre de cette thèse, nous proposons un algorithme générique d'estimation de densité en appliquant le principe du Perturb et Combine à une famille de modèles graphiques probabilistes "simples" , les structures arborescentes "manipulables" avec une complexité au pire quadratique. Plusieurs variantes de cet algorithme sont proposées en exploitant à deux niveaux le principe de perturbation : perturbation de la génération des modèles simples et perturbation des données d'apprentissage. Les expérimentations effectuées lors de ce travail montrent que nos premières approches sont concluantes en ce qui concerne la qualité d'approximation, pour une complexité algorithmique quadratique encore insuffisante en grande dimension. Notre seconde contribution concerne donc une nouvelle application du principe de perturbation, permettant d'arriver à une complexité algorithmique proche du quasi-linéaire pour une même qualité d'approximation<br>The dimensionality of current applications increases which makes the density estimation a difficult task. Indeed, the needed number of parameters to make estimation grows exponentially with respect to the dimension of the problem. Probabilistic graphical models can be used to solve this problem by providing a factorization of the joint distribution, but they suffer from a problem of scalability. The problem of high dimensional spaces is accentuated by the number of observations used to perform density estimation witch is not increased in the same proportions, and even remains extremely law in some applications. Factorization of the joint distribution is not sufficient to perform good density estimation with sparse data. The Perturb and Combine framework, first explored in classification, provide solutions for such problems. In this work, we explore and propose a generic algorithm for density estimation by applying the Perturb and Combine principle to a reduced family of simple probabilistic graphical models. These tree structures we proposed to use can be "manipulated" with at worst a quadratic complexity. Several variants of this algorithm are proposed by exploiting the Perturb and Combine principle according to two levels : perturbation of the tree generating procedure and perturbation of the learning dataset. Our initial approaches are conclusive regarding the quality of approximation, with a quadratic computational complexity, still insufficient in high dimensional spaces. Our second contribution concerns therefore a new application of the Perturb and Combine principle, which allows attending almost quasi-linear computational complexity, for the same quality of approximation
APA, Harvard, Vancouver, ISO, and other styles
21

Ammar, Sourour. "Modèles Graphiques Probabilistes pour l'Estimation de Densité en grande dimension : applications du principe Perturb & Combine pour les mélanges d'arbres." Phd thesis, Université de Nantes, 2010. http://tel.archives-ouvertes.fr/tel-00568136.

Full text
Abstract:
Dans les applications actuelles, le nombre de variables continue d'augmenter, ce qui rend difficile l'estimation de densité. En effet, le nombre de paramètres nécessaire pour l'estimation croit exponentiellement par rapport à la dimension du problème. Les modèles graphiques probabilistes fournissent une aide non négligeable pour lutter contre ce problème en fournissant une factorisation de la loi jointe mais souffrent d'un problème de passage à l'échelle. Le problème de grande dimension s'accentue du fait que le nombre d'observations avec lequel on effectue l'estimation de densité n'augmente pas dans les mêmes proportions, et reste même extrêmement faible dans certains domaines d'applications. La factorisation de la loi jointe s'avère non suffisante pour effectuer une estimation de densité de qualité lorsqu'il y a très peu de données. Le principe du Perturb & Combine, initialement appliqué en classification, permet de lutter contre ce genre de problèmes. Dans le cadre de cette thèse, nous proposons un algorithme générique d'estimation de densité en appliquant le principe du Perturb et Combine à une famille de modèles graphiques probabilistes "simples" , les structures arborescentes "manipulables" avec une complexité au pire quadratique. Plusieurs variantes de cet algorithme sont proposées en exploitant à deux niveaux le principe de perturbation: perturbation de la génération des modèles simples et perturbation des données d'apprentissage. Les expérimentations effectuées lors de ce travail montrent que nos premières approches sont concluantes en ce qui concerne la qualité d'approximation, pour une complexité algorithmique quadratique encore insuffisante en grande dimension. Notre seconde contribution concerne donc une nouvelle application du principe de perturbation, permettant d'arriver à une complexité algorithmique proche du quasi-linéaire pour une même qualité d'approximation.
APA, Harvard, Vancouver, ISO, and other styles
22

Donat, Roland. "Modélisation de la fiabilité et de la maintenance par modèles graphiques probabilistes : application à la prévention des ruptures de rail." Phd thesis, INSA de Rouen, 2009. http://tel.archives-ouvertes.fr/tel-00474389.

Full text
Abstract:
Les réseaux ferroviaires sont sujets à des dégradations de leur voie qui impactent directement le service offert aux voyageurs. Des politiques de maintenance sont donc déployées pour en limiter les effets sur la qualité et la disponibilité du réseau. Ce mémoire propose une modélisation générique de ces politiques reposant sur la fiabilité, et ce à partir du seul formalisme des réseaux bayésiens (RB). La fiabilité du système est caractérisée par un RB dynamique particulier tenant compte des temps de séjour dans chacun de ses états (hypothèse semi-markovienne). Les outils de diagnostics et les actions et les actions de maintenance sont également modélisés, autorisant la description fine de stratégies complexes. La prise en compte de l'utilité de chaque attribut du modèle (disponibilité/sécurité/coût) permet l'évaluation des politiques de maintenance innovantes en particulier prévisionnelles. La méthodologie est appliquée au cas précis du réseau RER de la RATP relativement au problème du rail cassé.
APA, Harvard, Vancouver, ISO, and other styles
23

El, Fkihi Sanaa. "Modèles probabilistes indexés par les arbres : application à la détection de la peau dans les images couleur." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2008. http://tel.archives-ouvertes.fr/tel-00838214.

Full text
Abstract:
La détection de la peau constitue une phase primordiale de prétraitement dans plusieurs applications telles que la vidéo surveillance et le filtrage d'Internet. Toutefois, c'est une tâche difficile à accomplir étant donné la diversité des couleurs de la peau et la variété des conditions de prise de vue. Dans l'objectif de surmonter ces dernières contraintes, nos travaux de thèse consistent à définir un modèle robuste de la distribution de la peau capable de différencier les pixels de peau de ceux de non-peau dans des images variées. Notre modélisation est fondée sur le concept des modèles graphiques probabilistes connus par leur intuitivité et efficacité pour la représentation d'une distribution jointe de probabilités sur un ensemble de variables aléatoires, plus particulièrement les arbres indexant des probabilités. En vue de définir le modèle de l'arbre idéal indexant la distribution de la peau, nous avons proposé trois approches différentes : le modèle d'arbre de dépendances à b probabilité peau et non peau, le modèle de mélange des arbres et celui de leur combinaison. Le modèle d'arbre de dépendances à bi-probabilité peau et non peau proposé, exploite les propriétés d'interclasse et d'intra classe entre les deux classes peau et non peau ainsi que les interactions entre un pixel et ses voisins que nous traduisons par un arbre de dépendance optimal. L'arbre élaboré est un arbre idéal unique indexant conjointement les distributions de probabilités peau et non peau. Le modèle de mélange des arbres est proposé pour remédier à la multiplicité des arbres de dépendances optimaux possibles sur un graphe. L'entité du mélange proposée concerne aussi bien les structures des arbres considérés que les probabilités portées par ces dernières. Ainsi, l'arbre idéal indexant probabilité peau est l'arbre résultant du mélange portant la probabilité du mélange. Quant au modèle de combinaison des arbres élaboré, il constitue une approche alternative au mélange proposé visant l'exploitation des différent informations emmagasinées dans les différents arbres de dépendances optimaux possibles. Un fondement théorique est présenté dans cette thèse pour déterminer la meilleure approche à adopter, le mélange des arbres ou la combinaison des arbres, et ce en fonction des arbres de dépendances optimaL considérés. Les expérimentations réalisées sur la base Compaq montrent l'efficacité et la faisabilité de nos approches. En outre, des études comparatives entre n< modèles de peau et l'existant prouvent qu'en termes de qualité et de quantité des résultats obtenus, les modèles proposés permettent de discriminer les pixels de peau et ceux de non peau dans des images couleurs variées.
APA, Harvard, Vancouver, ISO, and other styles
24

Balikas, Georgios. "Explorer et apprendre à partir de collections de textes multilingues à l'aide des modèles probabilistes latents et des réseaux profonds." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM054/document.

Full text
Abstract:
Le texte est l'une des sources d'informations les plus répandues et les plus persistantes. L'analyse de contenu du texte se réfère à des méthodes d'étude et de récupération d'informations à partir de documents. Aujourd'hui, avec une quantité de texte disponible en ligne toujours croissante l'analyse de contenu du texte revêt une grande importance parce qu' elle permet une variété d'applications. À cette fin, les méthodes d'apprentissage de la représentation sans supervision telles que les modèles thématiques et les word embeddings constituent des outils importants.L'objectif de cette dissertation est d'étudier et de relever des défis dans ce domaine.Dans la première partie de la thèse, nous nous concentrons sur les modèles thématiques et plus précisément sur la manière d'incorporer des informations antérieures sur la structure du texte à ces modèles.Les modèles de sujets sont basés sur le principe du sac-de-mots et, par conséquent, les mots sont échangeables. Bien que cette hypothèse profite les calculs des probabilités conditionnelles, cela entraîne une perte d'information.Pour éviter cette limitation, nous proposons deux mécanismes qui étendent les modèles de sujets en intégrant leur connaissance de la structure du texte. Nous supposons que les documents sont répartis dans des segments de texte cohérents. Le premier mécanisme attribue le même sujet aux mots d'un segment. La seconde, capitalise sur les propriétés de copulas, un outil principalement utilisé dans les domaines de l'économie et de la gestion des risques, qui sert à modéliser les distributions communes de densité de probabilité des variables aléatoires tout en n'accédant qu'à leurs marginaux.La deuxième partie de la thèse explore les modèles de sujets bilingues pour les collections comparables avec des alignements de documents explicites. En règle générale, une collection de documents pour ces modèles se présente sous la forme de paires de documents comparables. Les documents d'une paire sont écrits dans différentes langues et sont thématiquement similaires. À moins de traductions, les documents d'une paire sont semblables dans une certaine mesure seulement. Pendant ce temps, les modèles de sujets représentatifs supposent que les documents ont des distributions thématiques identiques, ce qui constitue une hypothèse forte et limitante. Pour le surmonter, nous proposons de nouveaux modèles thématiques bilingues qui intègrent la notion de similitude interlingue des documents qui constituent les paires dans leurs processus générateurs et d'inférence.La dernière partie de la thèse porte sur l'utilisation d'embeddings de mots et de réseaux de neurones pour trois applications d'exploration de texte. Tout d'abord, nous abordons la classification du document polylinguistique où nous soutenons que les traductions d'un document peuvent être utilisées pour enrichir sa représentation. À l'aide d'un codeur automatique pour obtenir ces représentations de documents robustes, nous démontrons des améliorations dans la tâche de classification de documents multi-classes. Deuxièmement, nous explorons la classification des tweets à plusieurs tâches en soutenant que, en formant conjointement des systèmes de classification utilisant des tâches corrélées, on peut améliorer la performance obtenue. À cette fin, nous montrons comment réaliser des performances de pointe sur une tâche de classification du sentiment en utilisant des réseaux neuronaux récurrents. La troisième application que nous explorons est la récupération d'informations entre langues. Compte tenu d'un document écrit dans une langue, la tâche consiste à récupérer les documents les plus similaires à partir d'un ensemble de documents écrits dans une autre langue. Dans cette ligne de recherche, nous montrons qu'en adaptant le problème du transport pour la tâche d'estimation des distances documentaires, on peut obtenir des améliorations importantes<br>Text is one of the most pervasive and persistent sources of information. Content analysis of text in its broad sense refers to methods for studying and retrieving information from documents. Nowadays, with the ever increasing amounts of text becoming available online is several languages and different styles, content analysis of text is of tremendous importance as it enables a variety of applications. To this end, unsupervised representation learning methods such as topic models and word embeddings constitute prominent tools.The goal of this dissertation is to study and address challengingproblems in this area, focusing on both the design of novel text miningalgorithms and tools, as well as on studying how these tools can be applied to text collections written in a single or several languages.In the first part of the thesis we focus on topic models and more precisely on how to incorporate prior information of text structure to such models.Topic models are built on the premise of bag-of-words, and therefore words are exchangeable. While this assumption benefits the calculations of the conditional probabilities it results in loss of information.To overcome this limitation we propose two mechanisms that extend topic models by integrating knowledge of text structure to them. We assume that the documents are partitioned in thematically coherent text segments. The first mechanism assigns the same topic to the words of a segment. The second, capitalizes on the properties of copulas, a tool mainly used in the fields of economics and risk management that is used to model the joint probability density distributions of random variables while having access only to their marginals.The second part of the thesis explores bilingual topic models for comparable corpora with explicit document alignments. Typically, a document collection for such models is in the form of comparable document pairs. The documents of a pair are written in different languages and are thematically similar. Unless translations, the documents of a pair are similar to some extent only. Meanwhile, representative topic models assume that the documents have identical topic distributions, which is a strong and limiting assumption. To overcome it we propose novel bilingual topic models that incorporate the notion of cross-lingual similarity of the documents that constitute the pairs in their generative and inference processes. Calculating this cross-lingual document similarity is a task on itself, which we propose to address using cross-lingual word embeddings.The last part of the thesis concerns the use of word embeddings and neural networks for three text mining applications. First, we discuss polylingual document classification where we argue that translations of a document can be used to enrich its representation. Using an auto-encoder to obtain these robust document representations we demonstrate improvements in the task of multi-class document classification. Second, we explore multi-task sentiment classification of tweets arguing that by jointly training classification systems using correlated tasks can improve the obtained performance. To this end we show how can achieve state-of-the-art performance on a sentiment classification task using recurrent neural networks. The third application we explore is cross-lingual information retrieval. Given a document written in one language, the task consists in retrieving the most similar documents from a pool of documents written in another language. In this line of research, we show that by adapting the transportation problem for the task of estimating document distances one can achieve important improvements
APA, Harvard, Vancouver, ISO, and other styles
25

Karri, Senanayak Sesh Kumar. "On the Links between Probabilistic Graphical Models and Submodular Optimisation." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLEE047/document.

Full text
Abstract:
L’entropie d’une distribution sur un ensemble de variables aléatoires discrètes est toujours bornée par l’entropie de la distribution factorisée correspondante. Cette propriété est due à la sous-modularité de l’entropie. Par ailleurs, les fonctions sous-modulaires sont une généralisation des fonctions de rang des matroïdes ; ainsi, les fonctions linéaires sur les polytopes associés peuvent être minimisées exactement par un algorithme glouton. Dans ce manuscrit, nous exploitons ces liens entre les structures des modèles graphiques et les fonctions sous-modulaires. Nous utilisons des algorithmes gloutons pour optimiser des fonctions linéaires sur des polytopes liés aux matroïdes graphiques et hypergraphiques pour apprendre la structure de modèles graphiques, tandis que nous utilisons des algorithmes d’inférence sur les graphes pour optimiser des fonctions sous-modulaires. La première contribution de cette thèse consiste à approcher par maximum de vraisemblance une distribution de probabilité par une distribution factorisable et de complexité algorithmique contrôlée. Comme cette complexité est exponentielle dans la largeur arborescente du graphe, notre but est d’apprendre un graphe décomposable avec une largeur arborescente bornée, ce qui est connu pour être NP-difficile. Nous posons ce problème comme un problème d’optimisation combinatoire et nous proposons une relaxation convexe basée sur les matroïdes graphiques et hypergraphiques. Ceci donne lieu à une solution approchée avec une bonne performance pratique. Pour la seconde contribution principale, nous utilisons le fait que l’entropie d’une distribution est toujours bornée par l’entropie de sa distribution factorisée associée, comme conséquence principale de la sous-modularité, permettant une généralisation à toutes les fonctions sous-modulaires de bornes basées sur les concepts de modèles graphiques. Un algorithme est développé pour maximiser les fonctions sous-modulaires, un autre problème NP-difficile, en maximisant ces bornes en utilisant des algorithmes d’inférence vibrationnels sur les graphes. En troisième contribution, nous proposons et analysons des algorithmes visant à minimiser des fonctions sous-modulaires pouvant s’écrire comme somme de fonctions plus simples. Nos algorithmes n’utilisent que des oracles de ces fonctions simple basés sur minimisation sous-modulaires et de variation totale de telle fonctions<br>The entropy of a probability distribution on a set of discrete random variables is always bounded by the entropy of its factorisable counterpart. This is due to the submodularity of entropy on the set of discrete random variables. Submodular functions are also generalisation of matroid rank function; therefore, linear functions may be optimised on the associated polytopes exactly using a greedy algorithm. In this manuscript, we exploit these links between the structures of graphical models and submodular functions: we use greedy algorithms to optimise linear functions on the polytopes related to graphic and hypergraphic matroids for learning the structures of graphical models, while we use inference algorithms on graphs to optimise submodular functions.The first main contribution of the thesis aims at approximating a probabilistic distribution with a factorisable tractable distribution under the maximum likelihood framework. Since the tractability of exact inference is exponential in the treewidth of the decomposable graph, our goal is to learn bounded treewidth decomposable graphs, which is known to be NP-hard. We pose this as a combinatorial optimisation problem and provide convex relaxations based on graphic and hypergraphic matroids. This leads to an approximate solution with good empirical performance. In the second main contribution, we use the fact that the entropy of a probability distribution is always bounded by the entropy of its factorisable counterpart mainly as a consequence of submodularity. This property of entropy is generalised to all submodular functions and bounds based on graphical models are proposed. We refer to them as graph-based bounds. An algorithm is developped to maximise submodular functions, which is NPhard, by maximising the graph-based bound using variational inference algorithms on graphs. As third contribution, we propose and analyse algorithms aiming at minimizing submodular functions that can be written as sum of simple functions. Our algorithms only make use of submodular function minimisation and total variation oracles of simple functions
APA, Harvard, Vancouver, ISO, and other styles
26

Chen, Yang. "Improving student model for individualized learning." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066655/document.

Full text
Abstract:
Les Environnements Informatiques pour l'Apprentissage Humain ont été utilisés pour améliorer l'apprentissage humain. Ils visent à accroître la performance des élèves en fournissant un enseignement individualisé. Il a été reconnu que l'apprentissage individualisé est plus efficace que l'apprentissage classique. L'utilisation de modèles d'étudiants pour capturer les connaissances des élèves sous-tend l'apprentissage individualisé. Différents modèles d'étudiants ont été proposés. Toutefois, une partie des informations de diagnostic issues du comportement des élèves est généralement ignorée par ces modèles. En outre, pour individualiser les parcours d'apprentissage des élèves, les modèles d'étudiants devraient capturer les structures préalables de compétences. Toutefois, l'acquisition de structures de compétences nécessite beaucoup d'efforts d'ingénierie de la connaissance. Nous améliorons les modèles d'étudiants pour l'apprentissage individualisé selon deux aspects. D'une part, afin d'améliorer la capacité de diagnostic d'un modèle de l'élève, nous introduisons les motifs d'erreur d'étudiants. Pour traiter le bruit dans les données de performance des élèves, nous étendons un modèle probabiliste en y intégrant les réponses erronées. Les résultats montrent que la fonction de diagnostic permet d'améliorer la précision de la prédiction des modèles d'étudiant. D'autre part, nous cherchons à découvrir des structures de compétences préalables à partir des données de performance de l'élève. C'est une tâche difficile, car les connaissances des élèves constituent une variable latente. Nous proposons une méthode en deux phases. Notre procédé est validé en l'appliquant à des données<br>Computer-based educational environments, like Intelligent Tutoring Systems (ITSs), have been used to enhance human learning. These environments aim at increasing student achievement by providing individualized instructions. It has been recognized that individualized learning is more effective than the conventional learning. Student models which are used to capture student knowledge underlie the individualized learning. In recent decades, various competing student models have been proposed. However, some diagnostic information in student behaviors is usually ignored by these models. Furthermore, to individualize learning paths, student models should capture prerequisite structures of fine-grained skills. However, acquiring skill structures requires much knowledge engineering effort. We improve student models for individualized learning with respect to the two aspects. On one hand, in order to improve the diagnostic ability of a student model, we introduce the diagnostic feature—student error patterns. To deal with the noise in student performance data, we extend a sound probabilistic model to incorporate erroneous responses. The results show that the diagnostic feature improves the prediction accuracy of student models. On the other hand, we target on discovering prerequisite structures of skills from student performance data. It is a challenging task, since student knowledge of a skill is a latent variable. We propose a two-phase method to discover skill structure from noisy observations. Our method is validated on simulated data and real data. In addition, we verify that prerequisite structures of skills can improve the accuracy of a student model
APA, Harvard, Vancouver, ISO, and other styles
27

Vignes, Matthieu. "Modèles markoviens graphiques pour la fusion de données individuelles et d'intéractions : application à la classification de gènes." Grenoble 1, 2007. http://www.theses.fr/2007GRE10208.

Full text
Abstract:
Les recherches que nous présentons dans ce mémoire s'inscrivent dans le cadre de l'intégration statistique de données post-génomiques hétérogènes. La classification non supervisée de gènes vise à regrouper en ensembles significatifs les gènes d'un organisme, vu comme un système complexe, conformément aux données expérimentales afin de dégager des actions concertées de ces gènes dans les mécanismes biologiques mis en jeu. Nous basons notre approche sur des modèles probabilistes graphiques. Plus spécifiquement, nous utilisons l'outil de champs de Markov cachés qui permet la prise en compte simultanée de données propres à chacun des gènes grâce a des distributions de probabilités et de données traduisant un réseau d'interaction au sein de l'organisme a l'aide d'un graphe non-orienté entre les gènes. Apres avoir présenté la problématique et le contexte biologique, nous décrivons le modèle utilise ainsi que les stratégies algorithmiques d'estimation des paramètres (Le. Approximations de type champ moyen). Puis nous nous intéresserons à deux particularités des données auxquelles nous avons été confrontés et qui amènent des développements du modèle utilise, notamment la prise en compte de l'absence de certaines observations et la haute dimensionnalité de celles-ci. Enfin nous présenterons des expériences sur données simulées ainsi que sur données réelles sur la levure qui évaluent le gain apporté par notre travail. Notamment nous avons voulu mettre l'accent sur des interprétations plausibles des résultats obtenus<br>The research work presented in this dissertation is on keeping with the statistical integration of post -genomics data of heterogeneous kinds. Gene clustering aims at gathering the genes of a living organism -modeled as a complex system- in meaningful groups according to experimental data to decipher the roi es of the genes acting within biological mechanisms under study. We based our approach on probabilistic graphical models. More specifically, we used Hidden Markov Random Fields (HMRF) that allow us to simultaneously account for gene-individual features thanks to probability distributions and network data that translate our knowledge on existing interactions between these genes through a non-oriented graph. Once the biological issues tackled are set, we describe the model we used as weil as algorithmic strategies to deal with parameter estimation (namely mean field-like approximations). Then we examine two specificities of the data we were faced to: the missing observation problem and the high dimensionality ofthis data. They lead to refinements ofthe model under consideration. Lastly, we present our experiments both on simulated and real Yeast data to assess the gain in using our method. Ln particular, our goal was to stress biologically plausible interpretations of our results
APA, Harvard, Vancouver, ISO, and other styles
28

Boudjelida, Abdelhamid. "Développement de modèles graphiques et logiques non classiques pour le traitement des alertes et la gestion des préférences." Thesis, Artois, 2013. http://www.theses.fr/2013ARTO0404.

Full text
Abstract:
Face aux problèmes quotidiens, on se retrouve souvent confrontés à des situations où la prise de décision est nécessaire. Prendre une décision c'est agir en fonction des choix, préférences et connaissances des agents sur le monde. L'intelligence artificielle a donné naissance à de nombreux outils de représentation permettant d'exprimer les préférences et les connaissances des agents. Malheureusement, les approches existantes ne sont pas totalement satisfaisantes. Ainsi le but de la première partie de cette thèse est de proposer une approche permettant l'intégration des connaissances des experts aux modèles graphiques probabilistes utilisées pour des tâches de classification tels que les réseaux Bayésiens. Les performances des modèles développés sont évaluées concrètement sur des problèmes de détection d'intrusions et de corrélation d'alertes dans le domaine de la sécurité informatique. La deuxième partie concerne la gestion des préférences complexes en présence des contraintes fonctionnelles dans des environnements incertains et la proposition d'une nouvelle logique non classique pour la représentation et le raisonnement sur les préférences en présence des contraintes dans de tels environnements. Les travaux menés dans cette deuxième partie sont testés sur un système de réservation électronique utilisé par le CNRS<br>In real life, we often find our self confronted to situations where decision making is necessary. Make a decision is to act according to the choices and preferences of agents as well as their knowledge on the world. Artificial Intelligence gave rise to many tools of representation and expression of agents' preferences and knowledge. Unfortunately, existing approaches are not completely satisfactory. Thus, the goal of the first part of this thesis is to propose an approach allowing the integration of experts' knowledge to the probabilistic graphical models used for classification tasks such as Bayesian networks. The performances of the developed models are concretely evaluated on problems of intrusions detection and alerts correlation in the field of computer security. The second part of this thesis relates to complex preferences handling in presence of functional constraints in uncertain environments and proposes a new non-classical logic for representing and reasoning with preferences in such environments. The works leaded in this second part, are tested on an electronic travel-agency system used by CNRS
APA, Harvard, Vancouver, ISO, and other styles
29

Rozas, Rony. "Intégration du retour d'expérience pour une stratégie de maintenance dynamique." Thesis, Paris Est, 2014. http://www.theses.fr/2014PEST1112/document.

Full text
Abstract:
L'optimisation de stratégies de maintenance est un sujet primordial pour un grand nombre d'industriels. Il s'agit d'établir un plan de maintenance qui garantisse des niveaux de sécurité, de sûreté et de fiabilité élevé avec un coût minimum et respectant d'éventuelles contraintes. Le nombre de travaux grandissant sur l'optimisation de paramètres de maintenance et notamment sur la planification d'actions préventives de maintenance souligne l'intérêt de ce problème. Un grand nombre d'études sur la maintenance repose sur une modélisation du processus de dégradation du système étudié. Les Modèles Graphiques Probabilistes (MGP) et particulièrement les MGP Markoviens (MGPM) fournissent un cadre de travail pour la modélisation de processus stochastiques complexes. Le problème de ce type d'approche est que la qualité des résultats est dépendante de celle du modèle. De plus, les paramètres du système considéré peuvent évoluer au cours du temps. Cette évolution est généralement la conséquence d'un changement de fournisseur pour les pièces de remplacement ou d'un changement de paramètres d'exploitation. Cette thèse aborde le problème d'adaptation dynamique d'une stratégie de maintenance face à un système dont les paramètres changent. La méthodologie proposée repose sur des algorithmes de détection de changement dans un flux de données séquentielles et sur une nouvelle méthode d'inférence probabiliste spécifique aux réseaux bayésiens dynamiques. D'autre part, les algorithmes proposés dans cette thèse sont mis en place dans le cadre d'un projet d'étude avec Bombardier Transport. L'étude porte sur la maintenance du système d'accès voyageurs d'une nouvelle automotrice destiné à une exploitation sur le réseau ferré d'Ile-de-France. L'objectif général est de garantir des niveaux de sécurité et de fiabilité importants au cours de l'exploitation du train<br>The optimization of maintenance strategies is a major issue for many industrial applications. It involves establishing a maintenance plan that ensures security levels, security and high reliability with minimal cost and respecting any constraints. The increasing number of works on optimization of maintenance parameters in particular in scheduling preventive maintenance action underlines the importance of this issue. A large number of studies on maintenance are based on a modeling of the degradation of the system studied. Probabilistic Models Graphics (PGM) and especially Markovian PGM (M-PGM) provide a framework for modeling complex stochastic processes. The issue with this approach is that the quality of the results is dependent on the model. More system parameters considered may change over time. This change is usually the result of a change of supplier for replacement parts or a change in operating parameters. This thesis deals with the issue of dynamic adaptation of a maintenance strategy, with a system whose parameters change. The proposed methodology is based on change detection algorithms in a stream of sequential data and a new method for probabilistic inference specific to the dynamic Bayesian networks. Furthermore, the algorithms proposed in this thesis are implemented in the framework of a research project with Bombardier Transportation. The study focuses on the maintenance of the access system of a new automotive designed to operate on the rail network in Ile-de-France. The overall objective is to ensure a high level of safety and reliability during train operation
APA, Harvard, Vancouver, ISO, and other styles
30

Hu, Xu. "Towards efficient learning of graphical models and neural networks with variational techniques." Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC1037.

Full text
Abstract:
Dans cette thèse, je me concentrerai principalement sur l’inférence variationnelle et les modèles probabilistes. En particulier, je couvrirai plusieurs projets sur lesquels j'ai travaillé pendant ma thèse sur l'amélioration de l'efficacité des systèmes AI / ML avec des techniques variationnelles. La thèse comprend deux parties. Dans la première partie, l’efficacité des modèles probabilistes graphiques est étudiée. Dans la deuxième partie, plusieurs problèmes d’apprentissage des réseaux de neurones profonds sont examinés, qui sont liés à l’efficacité énergétique ou à l’efficacité des échantillons<br>In this thesis, I will mainly focus on variational inference and probabilistic models. In particular, I will cover several projects I have been working on during my PhD about improving the efficiency of AI/ML systems with variational techniques. The thesis consists of two parts. In the first part, the computational efficiency of probabilistic graphical models is studied. In the second part, several problems of learning deep neural networks are investigated, which are related to either energy efficiency or sample efficiency
APA, Harvard, Vancouver, ISO, and other styles
31

Forbes, Florence. "Modèles et inférence pour des systèmes stochastiques structurés." Habilitation à diriger des recherches, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00578938.

Full text
Abstract:
Le contexte de mon travail est la mise au point d'outils statistiques pour le dévelopement et l'analyse de modèles stochastiques structurés. L'idée sous-jacente à la notion de structure est qu'il est souvent possible à l'aide d'hypothèses locales simples combinées de manière cohérente de rendre compte de phénomènes globaux potentiellement complexes. Cette idée de construction du local vers le global guide ainsi la modélisation, l'estimation et l'interprétation. Cette approche se révèle utile dans des domaines variés tels que le traitement du signal et de l'image, les neurosciences, la génomique, l'épidémiologie, etc. Inversement les besoins de ces domaines ont pu susciter en retour des développements théoriques importants. Par ailleurs, beaucoup de techniques statistiques sont encore limitées par des d'hypothèses restrictives pouvant conduire à des analyses imprécises voire erronées. Différentes sources de complexité peuvent mettre en défaut les approches classiques. Souvent les données exhibent une structure de dépendance non triviale, due par exemple à des répétitions, des groupements, des méthodes d'échantillonnage particulières, des associations dans l'espace ou le temps. Une seconde source de complexité est liée au processus de mesure qui peut impliquer l'utilisation d'instruments physiquement très différents, qui produisent des données hétérogènes, en grandes dimensions et potentiellement de manière défaillante de sorte qu'une partie des données peut être manquante. La plupart de mes objectifs de recherche sont centrés sur la mise au point de modèles et d'outils d'inférence pouvant faire face à ce genre de complications fréquentes dans les données modernes et contribuer ainsi au développement de nouvelles méthodes statistiques. En ce qui concerne la notion de dépendance et de localité, un concept central est celui d'indépendance conditionnelle. Les propriétés de Markov et les modèles markoviens permettent d'énoncer de telles indépendances conditionnelles et ce thème est central dans ma recherche. Pour ce qui est des données manquantes ou incomplètes, les modèles de mélanges sont une approche classique. Ces modèles conduisent plus généralement à la notion de modèles à structure manquantes. Ces derniers sont également utiles pour rendre compte d'hétérogénéités dans les données. Ils trouvent de nombreux échos en statistique: modèles de mélanges finis, modèles de Markov cachés, modèles à effet aléatoire, etc. La présence de données incomplètes induit cependant généralement des difficultés pour ce qui est de l'estimation des paramètres et de l'évaluation des performances. Modèles markoviens et modèles de mélanges sont mes deux principaux thèmes de recherche avec cette idée unificatrice de structure dans les modèles mais aussi dans les données. J'ai pu montrer que ces deux thèmes pouvaient être reliés utilement en traitant des problèmes difficiles dans diverses applications. Plus précisément, j'ai developpé des modèles à structure cachée essentiellement dans le but de résoudre des problèmes de classifications inhérents à certaines questions. J'ai souvent abordé le problème de l'estimation de ces modèles à partir de l'algorithme EM et développé des variantes permettant d'apporter des solutions satisfaisantes lorsque les outils classiques faisaient défaut. J'ai tenté également d'apporter des résultats sur les propriétés théoriques, e.g. convergence et vitesse, de ces algorithmes. Enfin, j'ai abordé la question de la sélection de modèles essentiellement en cherchant à proposer des critères de sélection dans les cas où les critères classiques n'étaient pas calculables.
APA, Harvard, Vancouver, ISO, and other styles
32

Mihoub, Alaeddine. "Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAT079/document.

Full text
Abstract:
L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux<br>Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events
APA, Harvard, Vancouver, ISO, and other styles
33

Boisvert, Maryse. "Réduction de dimension pour modèles graphiques probabilistes appliqués à la désambiguïsation sémantique." Thèse, 2004. http://hdl.handle.net/1866/16639.

Full text
APA, Harvard, Vancouver, ISO, and other styles
34

Vicente, Sergio. "Apprentissage statistique avec le processus ponctuel déterminantal." Thesis, 2021. http://hdl.handle.net/1866/25249.

Full text
Abstract:
Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires et donc moins susceptibles de figurer dans un même sous-ensemble. Contrairement à la sélection aléatoire uniforme, ce processus ponctuel privilégie les sous-ensembles qui contiennent des points diversifiés et hétérogènes. La notion de diversité acquiert une importante grandissante au sein de sciences comme la médecine, la sociologie, les sciences forensiques et les sciences comportementales. Le processus ponctuel déterminantal offre donc une alternative aux traditionnelles méthodes d’échantillonnage en tenant compte de la diversité des éléments choisis. Actuellement, il est déjà très utilisé en apprentissage automatique comme modèle de sélection de sous-ensembles. Son application en statistique est illustrée par trois articles. Le premier article aborde le partitionnement de données effectué par un algorithme répété un grand nombre de fois sur les mêmes données, le partitionnement par consensus. On montre qu’en utilisant le processus ponctuel déterminantal pour sélectionner les points initiaux de l’algorithme, la partition de données finale a une qualité supérieure à celle que l’on obtient en sélectionnant les points de façon uniforme. Le deuxième article étend la méthodologie du premier article aux données ayant un grand nombre d’observations. Ce cas impose un effort computationnel additionnel, étant donné que la sélection de points par le processus ponctuel déterminantal passe par la décomposition spectrale de la matrice de similarité qui, dans ce cas-ci, est de grande taille. On présente deux approches différentes pour résoudre ce problème. On montre que les résultats obtenus par ces deux approches sont meilleurs que ceux obtenus avec un partitionnement de données basé sur une sélection uniforme de points. Le troisième article présente le problème de sélection de variables en régression linéaire et logistique face à un nombre élevé de covariables par une approche bayésienne. La sélection de variables est faite en recourant aux méthodes de Monte Carlo par chaînes de Markov, en utilisant l’algorithme de Metropolis-Hastings. On montre qu’en choisissant le processus ponctuel déterminantal comme loi a priori de l’espace des modèles, le sous-ensemble final de variables est meilleur que celui que l’on obtient avec une loi a priori uniforme.<br>This thesis presents the determinantal point process, a probabilistic model that captures repulsion between points of a certain space. This repulsion is encompassed by a similarity matrix, the kernel matrix, which selects which points are more similar and then less likely to appear in the same subset. This point process gives more weight to subsets characterized by a larger diversity of its elements, which is not the case with the traditional uniform random sampling. Diversity has become a key concept in domains such as medicine, sociology, forensic sciences and behavioral sciences. The determinantal point process is considered a promising alternative to traditional sampling methods, since it takes into account the diversity of selected elements. It is already actively used in machine learning as a subset selection method. Its application in statistics is illustrated with three papers. The first paper presents the consensus clustering, which consists in running a clustering algorithm on the same data, a large number of times. To sample the initials points of the algorithm, we propose the determinantal point process as a sampling method instead of a uniform random sampling and show that the former option produces better clustering results. The second paper extends the methodology developed in the first paper to large-data. Such datasets impose a computational burden since sampling with the determinantal point process is based on the spectral decomposition of the large kernel matrix. We introduce two methods to deal with this issue. These methods also produce better clustering results than consensus clustering based on a uniform sampling of initial points. The third paper addresses the problem of variable selection for the linear model and the logistic regression, when the number of predictors is large. A Bayesian approach is adopted, using Markov Chain Monte Carlo methods with Metropolis-Hasting algorithm. We show that setting the determinantal point process as the prior distribution for the model space selects a better final model than the model selected by a uniform prior on the model space.
APA, Harvard, Vancouver, ISO, and other styles
35

Vignes, Matthieu. "Modèles markoviens graphiques pour la fusion de données individuelles et d'interactions : application à la classification de gènes." Phd thesis, 2007. http://tel.archives-ouvertes.fr/tel-00178348.

Full text
Abstract:
Les recherches que nous présentons dans ce mémoire s'inscrivent dans le cadre de l'intégration statistique de données post-génomiques hétérogènes. La classification non supervisée de gènes vise à regrouper en ensembles significatifs les gènes d'un organisme, vu comme un système complexe, conformément aux données expérimentales afin de dégager des actions concertées de ces gènes dans les mécanismes biologiques mis en jeu. <br /><br />Nous basons notre approche sur des modèles probabilistes graphiques. Plus spécifiquement, nous utilisons l'outil de champs de Markov cachés qui permet la prise en compte simultanée de données propres à chacun des gènes grâce a des distributions de probabilités et de données traduisant un réseau d'interaction au sein de l'organisme à l'aide d'un graphe non-orienté entre les gènes. <br /><br />Apres avoir présenté la problématique et le contexte biologique, nous décrivons le modèle utilisé ainsi que les stratégies algorithmiques d'estimation des paramètres (i.e. approximations de type champ moyen). Puis nous nous intéresserons à deux particularités des données auxquelles nous avons été confrontés et qui amènent des développements du modèle utilisé, notamment la prise en compte de l'absence de certaines observations et la haute dimensionnalité de celles-ci. Enfin nous présenterons des expériences sur données simulées ainsi que sur données réelles sur la levure qui évaluent le gain apporté par notre travail. Notamment, nous avons voulu mettre l'accent sur des interprétations biologiques plausibles des résultats obtenus.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography