Дисертації: "Modèle hiérarchique bayésien"

1

Sodjo, Jessica. "Modèle bayésien non paramétrique pour la segmentation jointe d'un ensemble d'images avec des classes partagées." Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0152/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce travail porte sur la segmentation jointe d’un ensemble d’images dans un cadre bayésien.Le modèle proposé combine le processus de Dirichlet hiérarchique (HDP) et le champ de Potts.Ainsi, pour un groupe d’images, chacune est divisée en régions homogènes et les régions similaires entre images sont regroupées en classes. D’une part, grâce au HDP, il n’est pas nécessaire de définir a priori le nombre de régions par image et le nombre de classes, communes ou non.D’autre part, le champ de Potts assure une homogénéité spatiale. Les lois a priori et a posteriori en découlant sont complexes rendant impossible le calcul analytique d’estimateurs. Un algorithme de Gibbs est alors proposé pour générer des échantillons de la loi a posteriori. De plus,un algorithme de Swendsen-Wang généralisé est développé pour une meilleure exploration dela loi a posteriori. Enfin, un algorithme de Monte Carlo séquentiel a été défini pour l’estimation des hyperparamètres du modèle.Ces méthodes ont été évaluées sur des images-test et sur des images naturelles. Le choix de la meilleure partition se fait par minimisation d’un critère indépendant de la numérotation. Les performances de l’algorithme sont évaluées via des métriques connues en statistiques mais peu utilisées en segmentation d’image
This work concerns the joint segmentation of a set images in a Bayesian framework. The proposed model combines the hierarchical Dirichlet process (HDP) and the Potts random field. Hence, for a set of images, each is divided into homogeneous regions and similar regions between images are grouped into classes. On the one hand, thanks to the HDP, it is not necessary to define a priori the number of regions per image and the number of classes, common or not.On the other hand, the Potts field ensures a spatial consistency. The arising a priori and a posteriori distributions are complex and makes it impossible to compute analytically estimators. A Gibbs algorithm is then proposed to generate samples of the distribution a posteriori. Moreover,a generalized Swendsen-Wang algorithm is developed for a better exploration of the a posteriori distribution. Finally, a sequential Monte Carlo sampler is defined for the estimation of the hyperparameters of the model.These methods have been evaluated on toy examples and natural images. The choice of the best partition is done by minimization of a numbering free criterion. The performance are assessed by metrics well-known in statistics but unused in image segmentation

2

Minois, Nathan. "Etude de consistance et applications du modèle Poisson-gamma : modélisation d'une dynamique de recrutement multicentrique." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30396/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Un essai clinique est une recherche biomédicale pratiquée sur l'Homme dont l'objectif est la consolidation et le perfectionnement des connaissances biologiques ou médicales. Le nombre de sujets nécessaire (NSN) est le nombre minimal de patients à inclure dans l'essai afin d'assurer au test statistique une puissance donnée pour observer un effet donné. Pour ce faire plusieurs centres investigateurs sont sollicités. La période entre l'ouverture du premier centre investigateur et le recrutement du dernier patient est appelée période de recrutement que l'on souhaite modéliser. Les premières modélisations remontent à presque 50 ans avec les travaux de Lee, Williford et al. et Morgan avec l'idée déjà d'une modélisation de la dynamique de recrutement par des processus de Poisson. Un problème émerge lors de recrutement multicentriques du fait du manque de caractérisation de l'ensemble des sources de variabilité agissant sur les différentes dynamiques de recrutement. Le modèle dit Poisson-gamma basé sur un processus de Poisson dont les intensités par centre sont considérées comme un échantillon de loi gamma permet l'étude de variabilité. Ce modèle est au coeur de notre projet. Différents objectifs ont motivés la réalisation de cette thèse. Le premier questionnement porte sur la validité de ces modèles. Elle est établie de façon asymptotique et une étude par simulation permet de donner des informations précises sur la validité du modèle. Par la suite l'analyse de bases de données réelles a permis de constater que lors de certaines phases de recrutement, des pauses dans le recrutement sont observables. Une question se pose alors naturellement : comment et faut-il prendre en compte ces informations dans le modèle de dynamique de recrutement ? Il résulte d'études par simulation que la prise en compte de ces données n'améliore pas les performances prédictives du modèle lorsque les sources d'interruptions sont aléatoires mais dont la loi est inchangée au cours du temps. Une autre problématique observable sur les données et inhérente au problème de recrutement de patients est celle des dites sorties d'étude. Une technique Bayésienne empirique analogue à celle du processus de recrutement peut être introduite pour modéliser les sorties d'étude. Ces deux modélisations se couplent très bien et permettent d'estimer la durée de recrutement ainsi que la probabilité de sorties d'étude en se basant sur les données de recrutement d'une étude intermédiaire, donnant des prédictions concernant le processus de randomisation. La dynamique de recrutement possède de multiples facteurs autre que le temps de recrutement. Ces aspects fondamentaux couplés au modèle Poisson-gamma fournissent des indicateurs pertinents pour le suivi des essais. Ainsi est-il possible d'ajuster le nombre de centres au cours de l'essai en fonction d'objectifs prédéfinis, de modéliser et prévoir la chaîne d'approvisionnement nécessaire lors de l'essai et de prévoir l'effet de la randomisation des patients par région sur la puissance du test de l'essai. Il permet également d'avoir un suivi des patients après randomisation permettant ainsi de prévoir un ajustement du nombre de patients en cas de pertes significative d'effectif, ou d'abandonner un essai si les résultats préliminaires sont trop faibles par rapport aux risques connus et observés. La problématique de la dynamique de recrutement peut être couplée avec la dynamique de l'étude en elle-même quand celle-ci est longitudinale. L'indépendance des deux processus permet une estimation facile des différents paramètres. Le résultat est un modèle global du parcours du patient dans l'essai. Deux exemples clés de telles situations sont les données de survie - la modélisation permet alors d'estimer la durée d'un essai quand le critère d'arrêt est le nombre d'événements observés et les modèles de Markov - la modélisation permet alors d'estimer le nombre de patients dans un certain état au bout d'un certain temps
A clinical trial is a biomedical research which aims to consolidate and improve the biological and medical knowledges. The number of patients required il the minimal number of patients to include in the trial in order to insure a given statistical power of a predefined test. The constitution of this patients' database is one of the fundamental issues of a clinical trial. To do so several investigation centres are opened. The duration between the first opening of a centre and the last recruitment of the needed number of patients is called the recruitemtn duration that we aim to model. The fisrt model goes back 50 years ago with the work of Lee, Williford et al. and Morgan with the idea to model the recruitment dynamic using Poisson processes. One problem emerge, that is the lack of caracterisation of the variabliity of recruitment between centers that is mixed with the mean of the recruitment rates. The most effective model is called the Poisson-gamma model which is based on Poisson processes with random rates (Cox process) with gamma distribution. This model is at the very heart of this project. Different objectives have motivated the realisation of this thesis. First of all the validity of the Poisson-gamma model is established asymptotically. A simulation study that we made permits to give precise informations on the model validity in specific cases (function of the number of centers, the recruitement duration and the mean rates). By studying database, one can observe that there can be breaks during the recruitment dynamic. A question that arise is : How and must we take into account this phenomenon for the prediction of the recruitment duration. The study made tends to show that it is not necessary to take them into account when they are random but their law is stable in time. It also veered around to measure the impact of these breaks on the estimations of the model, that do not impact its validity under some stability hypothesis. An other issue inherent to a patient recruitment dynamic is the phenomenon of screening failure. An empirical Bayesian technique analogue to the one of the recruitment process is used to model the screening failure issue. This hierarchical Bayesian model permit to estimate the duartion of recruitment with screening failure consideration as weel as the probability to drop out from the study using the data at some interim time of analysis, giving predictions on the randomisation dynamic. The recruitment dynamic can be studied in many different ways than just the duration of recruitment. These fundamental aspects coupled with the Poisson-gamma model give relevant indicators for the study follow-up. Multiples applications in this sense are computed. It is therefore possible to adjust the number of centers according to predefined objectives, to model the drug's supply chain per region or center and to predict the effect of the randomisation on the power of the test's study. It also allows to model the folow-up period of the patients by means of transversal or longitudinal methods, that can serve to adjust the number of patients if too many quit during the foloww-up period, or to stop the study if dangerous side effects or no effects are observed on interim data. The problematic of the recruitment dynamic can also be coupled with the dynamic of the study itself when it is longitudinal. The independance between these two processes allows easy estimations of the different parameters. The result is a global model of the patient pathway in the trail. Two key examples of such situations are survival data - the model permit to estimate the duration of the trail when the stopping criterion is the number of events observed, and the Markov model - the model permit to estimate the number of patients in a certain state for a given duartion of analysis

3

Clertant, Matthieu. "Semi-parametric bayesian model, applications in dose finding studies." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066230/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les Phases I sont un domaine des essais cliniques dans lequel les statisticiens ont encore beaucoup à apporter. Depuis trente ans, ce secteur bénéficie d'un intérêt croissant et de nombreuses méthodes ont été proposées pour gérer l'allocation séquentielle des doses aux patients intégrés à l'étude. Durant cette Phase, il s'agit d'évaluer la toxicité, et s'adressant à des patients gravement atteints, il s'agit de maximiser les effets curatifs du traitement dont les retours toxiques sont une conséquence. Parmi une gamme de doses, on cherche à déterminer celle dont la probabilité de toxicité est la plus proche d'un seuil souhaité et fixé par les praticiens cliniques. Cette dose est appelée la MTD (maximum tolerated dose). La situation canonique dans laquelle sont introduites la plupart des méthodes consiste en une gamme de doses finie et ordonnée par probabilité de toxicité croissante. Dans cette thèse, on introduit une modélisation très générale du problème, la SPM (semi-parametric methods), qui recouvre une large classe de méthodes. Cela permet d'aborder des questions transversales aux Phases I. Quels sont les différents comportements asymptotiques souhaitables? La MTD peut-elle être localisée? Comment et dans quelles circonstances? Différentes paramétrisations de la SPM sont proposées et testées par simulations. Les performances obtenues sont comparables, voir supérieures à celles des méthodes les plus éprouvées. Les résultats théoriques sont étendus au cas spécifique de l'ordre partiel. La modélisation de la SPM repose sur un traitement hiérarchique inférentiel de modèles satisfaisant des contraintes linéaires de paramètres inconnus. Les aspects théoriques de cette structure sont décrits dans le cas de lois à supports discrets. Dans cette circonstance, de vastes ensembles de lois peuvent aisément être considérés, cela permettant d'éviter les cas de mauvaises spécifications
Phase I clinical trials is an area in which statisticians have much to contribute. For over 30 years, this field has benefited from increasing interest on the part of statisticians and clinicians alike and several methods have been proposed to manage the sequential inclusion of patients to a study. The main purpose is to evaluate the occurrence of dose limiting toxicities for a selected group of patients with, typically, life threatening disease. The goal is to maximize the potential for therapeutic success in a situation where toxic side effects are inevitable and increase with increasing dose. From a range of given doses, we aim to determine the dose with a rate of toxicity as close as possible to some threshold chosen by the investigators. This dose is called the MTD (maximum tolerated dose). The standard situation is where we have a finite range of doses ordered with respect to the probability of toxicity at each dose. In this thesis we introduce a very general approach to modeling the problem - SPM (semi-parametric methods) - and these include a large class of methods. The viewpoint of SPM allows us to see things in, arguably, more relevant terms and to provide answers to questions such as asymptotic behavior. What kind of behavior should we be aiming for? For instance, can we consistently estimate the MTD? How, and under which conditions? Different parametrizations of SPM are considered and studied theoretically and via simulations. The obtained performances are comparable, and often better, to those of currently established methods. We extend the findings to the case of partial ordering in which more than one drug is under study and we do not necessarily know how all drug pairs are ordered. The SPM model structure leans on a hierarchical set-up whereby certain parameters are linearly constrained. The theoretical aspects of this structure are outlined for the case of distributions with discrete support. In this setting the great majority of laws can be easily considered and this enables us to avoid over restrictive specifications than can results in poor behavior

4

Li, Shuxian. "Modélisation spatio-temporelle pour l'esca de la vigne à l'échelle de la parcelle." Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0313/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'esca de la vigne fait partie des maladies de dépérissement incurables dont l'étiologie n'est pas complément élucidée. Elle représente un des problèmes majeurs en viticulture. L'objectif général de cette thèse est d'améliorer la compréhension des processus épidémiques et des facteurs de risque. Pour ce faire, nous avons mené une étude quantitative du développement spatio-temporel de l'esca à l'échelle de la parcelle. Dans un premier temps, pour détecter d'éventuelles corrélations spatiales entre les cas de maladie, des tests statistiques non paramétriques sont appliqués aux données spatio-temporelles d'expression foliaires de l'esca pour 15 parcelles du bordelais. Une diversité de profils spatiaux, allant d'une distribution aléatoire à fortement structurée est trouvée. Dans le cas de structures très agrégées, les tests n'ont pas montré d'augmentation significative de la taille des foyers, ni de propagation secondaire locale à partir de ceps symptomatiques, suggérant un effet de l'environnement dans l'explication de cette agrégation. Dans le but de modéliser l'occurrence des symptômes foliaires, nous avons développé des modèles logistiques hiérarchiques intégrant à la fois des covariables exogènes liées à l'environnement et des covariables de voisinage de ceps déjà malades mais aussi un processus latent pour l'auto-corrélation spatio-temporelle. Les inférences bayésiennes sont réalisées en utilisant la méthode INLA (Inverse Nested Laplace Approximation). Les résultats permettent de conforter l'hypothèse du rôle significatif des facteurs environnementaux dans l'augmentation du risque d'occurrence des symptômes. L'effet de propagation de l'esca à petite échelle à partir de ceps déjà atteints situés sur le rang ou hors rang n'est pas montré. Un modèle autologistique de régression, deux fois centré, qui prend en compte de façon plus explicite la structure spatio-temporelle de voisinage, est également développé. Enfin, une méthode géostatistique d'interpolation de données de nature anisotropique atypique est proposée. Elle permet d'interpoler la variable auxiliaire de résistivité électrique du sol pour estimer à l'échelle de chaque plante de la parcelle, la réserve en eau du sol disponible pour la vigne. Les méthodes géostatistique et spatio-temporelles développées dans cette thèse ouvrent des perspectives pour identifier les facteurs de risques et prédire le développement de l'esca de la vigne dans des contextes agronomiques variés
Esca grapevine disease is one of the incurable dieback disease with the etiology not completely elucidated. It represents one of the major threats for viticulture around the world. To better understand the underlying process of esca spread and the risk factors of this disease, we carried out quantitative analyses of the spatio-temporal development of esca at vineyard scale. In order to detect the spatial correlation among the diseased vines, the non-parametric statistical tests were applied to the spatio-temporal data of esca foliar symptom expression for 15 vineyards in Bordeaux region. Among vineyards, a large range of spatial patterns, from random to strongly structured, were found. In the vineyards with strongly aggregated patterns, no significant increase in the size of cluster and local spread from symptomatic vines was shown, suggesting an effect of the environment in the explanation of this aggregation. To model the foliar symptom occurrence, we developed hierarchical logistic regression models by integrating exogenous covariates, covariates of neighboring symptomatic vines already diseased, and also a latent process with spatio-temporal auto-correlation. The Bayesian inferences of these models were performed by INLA (Inverse Nested Laplace Approximation) approach. The results confirmed the effect of environmental factors on the occurrence risk of esca symptom. The secondary locally spread of esca from symptomatic vines located on the same row or out of row was not shown. A two-step centered auto-logistic regression model, which explicitly integrated the spatio-temporal neighboring structure, was also developed. At last, a geostatistical method was proposed to interpolate data with a particular anisotropic structure. It allowed interpolating the ancillary variable, electrical resistivity of soil, which were used to estimate the available soil water content at vine-scale. These geostatistical methods and spatio-temporal statistical methods developed in this thesis offered outlook to identify risk factors, and thereafter to predict the development of esca grapevine disease in different agronomical contexts

5

Papoutsis, Panayotis. "Potentiel et prévision des temps d'attente pour le covoiturage sur un territoire." Thesis, Ecole centrale de Nantes, 2021. http://www.theses.fr/2021ECDN0059.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s’intéresse au potentiel et à la prévision des temps d’attente concernant le covoiturage sur un territoire en utilisant des méthodes d’apprentissage statistique. Cinq thèmes principaux sont abordés dans le présent manuscrit. Le premier présente des techniques de régression quantile afin de prédire des temps d’attente. Le deuxième détaille la construction d’un processus de travail empruntant des outils des Systèmes d’Information Géographique (SIG) afin d’exploiter pleinement les données issues du covoiturage. Dans un troisième temps nous construisons un modèle hiérarchique bayésien en vue de prédire des flux de trafic et des temps d’attente. En quatrième partie nous proposons une méthode de construction d’une loi a priori informative par transfert bayésien dans le but d’améliorer les prédictions des temps d’attente pour une situation de jeu de données court. Enfin, le dernier thème se concentre sur la mise en production et l’exploitation industrielle du modèle hiérarchique bayésien
This thesis focuses on the potential and prediction of carpooling waiting times in a territory using statistical learning methods. Five main themes are covered in this manuscript. The first presents quantile regression techniques to predict waiting times. The second details the construction of a workflow based on Geographic Information Systems (GIS) tools in order to fully leverage the carpooling data. In a third part we develop a hierarchical bayesian model in order to predict traffic flows and waiting times. In the fourth part, we propose a methodology for constructing an informative prior by bayesian transfer to improve the prediction of waiting times for a short dataset situation. Lastly, the final theme focuses on the production and industrial exploitation of the bayesian hierarchical model

6

Decelle, Aurélien. "Statistical physics of disordered networks - Spin Glasses on hierarchical lattices and community inference on random graphs." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00653375.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse aborde des aspects fondamentales et appliquées de la théorie des verres de spin etplus généralement des systèmes complexes. Les premiers modèles théoriques décrivant la transitionvitreuse sont apparues dans les années 1970. Ceux-ci décrivaient les verres à l'aide d'interactionsaléatoires. Il a fallu alors plusieurs années avant qu'une théorie de champs moyen pour ces systèmessoient comprises. De nos jours il existe un grand nombre de modèles tombant dans la classe de" champs moyen " et qui sont bien compris à la fois analytiquement, mais également numériquementgrâce à des outils tels que le monte-carlo ou la méthode de la cavité. Par ailleurs il est bien connu quele groupe de renormalisation a échoué jusque ici à pouvoir prédire le comportement des observablescritiques dans les verres hors champs moyen. Nous avons donc choisi d'étudier des systèmes eninteraction à longue portée dont on ignore encore si la physique est identique à celle du champmoyen. Nous avons montré dans une première partie, la facilité avec laquelle on peut décrire unetransformation du groupe de renormalisation dans les systèmes ferromagnétiques en interaction àlongue portée dé finies sur le réseau hiérarchique de Dyson. Dans un second temps, nous avons portéenotre attention sur des modèles de verre de spin sur ce même réseau. Un début d'analyse sur cestransformations dans l'espace réel est présenté ainsi qu'une comparaison de la mesure de l'exposantcritique nu par différentes méthodes. Si la transformation décrite semble prometteuse il faut cependantnoter que celle-ci doit encore être améliorée afin d'être considérée comme une méthode valide pournotre système. Nous avons continué dans cette même direction en analysant un modèle d'énergiesaléatoires toujours en utilisant la topologie du réseau hiérarchique. Nous avons étudié numériquementce système dans lequel nous avons pu observer l'existence d'une transition de phase de type " criseentropique " tout à fait similaire à celle du REM de Derrida. Toutefois, notre modèle présente desdifférences importantes avec ce dernier telles que le comportement non-analytique de l'entropie à latransition, ainsi que l'émergence de " criticalité " dont la présence serait à confirmer par d'autres études.Nous montrons également à l'aide de notre méthode numérique comment la température critique dece système peut-être estimée de trois façon différentes.Dans une dernière partie nous avons abordé des problèmes liés aux systèmes complexes. Il aété remarqué récemment que les modèles étudiés dans divers domaines, par exemple la physique, labiologie ou l'informatique, étaient très proches les uns des autres. Ceci est particulièrement vrai dansl'optimisation combinatoire qui a en partie été étudiée par des méthodes de physique statistique. Cesméthodes issues de la théories des verres de spin et des verres structuraux ont été très utilisées pourétudier les transitions de phase qui ont lieux dans ces systèmes ainsi que pour inventer de nouveauxalgorithmes pour ces modèles. Nous avons étudié le problème de l'inférence de modules dans lesréseaux à l'aide de ces même méthodes. Nous présentons une analyse sur la détection des modules topologiques dans des réseaux aléatoires et démontrons la présence d'une transition de phase entre une région où ces modules sont indétectables et une région où ils sont détectables. Par ailleurs, nous avons implémenté pour ces problèmes un algorithme utilisant Belief Propagation afin d'inférer les modules ainsi que d'apprendre leurs propriétés en ayant pour unique information la structure du réseau. Finalementnous avons appliqué cet algorithme sur des réseaux construits à partir de données réelles et discutonsles développements à apporter à notre méthode.

7

Dobigeon, Nicolas. "Modèles bayésiens hiérarchiques pour le traitement multi-capteur." Phd thesis, Institut National Polytechnique de Toulouse - INPT, 2007. http://tel.archives-ouvertes.fr/tel-00189738.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Afin de traiter la masse d'informations récoltée dans de nombreuses applications, il est nécessaire de proposer de nouvelles méthodes de traitement permettant d'exploiter le caractère « multi-capteur » des données observées. Le sujet de cette thèse consiste à étudier des algorithmes d'estimation dans un contexte multi-capteur où plusieurs signaux ou images issus d'une même application sont disponibles. Ce problème présente un grand intérêt puisqu'il permet d'améliorer les performances d'estimation par rapport à une analyse qui serait menée sur chaque signal indépendamment des autres. Nous avons développé dans ce contexte des méthodes d'inférence bayésienne hiérarchique afin de résoudre efficacement des problèmes de segmentation de signaux multiples et d'analyse d'images hyperspectrales. L'utilisation de méthodes de Monte Carlo par chaînes de Markov permet alors de surmonter les difficultés liées à la complexité calculatoire de ces méthodes d'inférence.

8

Diard, Julien. "La carte bayésienne : un modèle probabiliste hiérarchique pour la navigation en robotique mobile." Phd thesis, Grenoble INPG, 2003. http://tel.archives-ouvertes.fr/tel-00004369.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Qu'est-ce qu'une carte ? Quelle est son utilité ? Qu'est-ce-qu'un lieu, un
comportement ? Qu'est-ce-que naviguer, se localiser et prédire, pour un
robot mobile devant accomplir une tâche donnée ?

Ces questions n'ont pas de réponses uniques ou évidentes à ce jour, et
restent centrales à de nombreux domaines de recherches.

La robotique, par exemple, souhaite y répondre en vue de la synthèse de
systèmes sensori-moteurs performants. Les sciences cognitives placent ces
questions comme essentielles à la compréhension des êtres vivants, de leurs
compétences, et au-delà, de leurs intelligences.

Notre étude se situe à la croisée de ces disciplines. Nous étudions tout
d'abord les méthodes probabilistes classiques (Localisation Markovienne,
PDMPOs, MMCs, etc.), puis certaines approches dites "bio-inspirées"
(Berthoz, Franz, Kuipers). Nous analysons les avantages et inconvénients
respectifs de ces approches en les replaçant dans un cadre général de
programmation des robots basé sur l'inférence bayésienne (PBR).

Nous proposons un formalisme original de modélisation probabiliste de
l'interaction entre un robot et son environnement : la carte bayésienne.

Dans ce cadre, définir une carte revient à spécifier une distribution de
probabilités particulière. Certaines des questions évoquées ci-dessus se
ramènent alors à la résolution de problèmes d'inférence probabiliste.

Nous définissons des opérateurs d'assemblage de cartes bayésiennes,
replaçant ainsi les notions de "hiérarchie de cartes" et de développement
incrémental comme éléments centraux de notre approche, en accord avec les
données biologiques. En appuyant l'ensemble de notre travail sur le
formalisme bayésien, nous profitons d'une part d'une capacité de traitement
unifié des incertitudes, et d'autre part, de fondations mathématiques
claires et rigoureuses. Notre formalisme est illustré par des exemples
implantés sur un robot mobile Koala.

9

Belhadj, Jihane. "Modèles paramétriques pour la tomographie sismique bayésienne." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLEM073/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La tomographie des temps de première arrivée vise à retrouver un modèle de vitesse de propagation des ondes sismiques à partir des temps de première arrivée mesurés. Cette technique nécessite la résolution d’un problème inverse afin d’obtenir un modèle sismique cohérent avec les données observées. Il s'agit d'un problème mal posé pour lequel il n'y a aucune garantie quant à l'unicité de la solution. L’approche bayésienne permet d’estimer la distribution spatiale de la vitesse de propagation des ondes sismiques. Il en résulte une meilleure quantification des incertitudes associées. Cependant l’approche reste relativement coûteuse en temps de calcul, les algorithmes de Monte Carlo par chaînes de Markov (MCMC) classiquement utilisés pour échantillonner la loi a posteriori des paramètres n'étant efficaces que pour un nombre raisonnable de paramètres. Elle demande, de ce fait, une réflexion à la fois sur la paramétrisation du modèle de vitesse afin de réduire la dimension du problème et sur la définition de la loi a priori des paramètres. Le sujet de cette thèse porte essentiellement sur cette problématique.Le premier modèle que nous considérons est basé sur un modèle de mosaïque aléatoire, le modèle de Jonhson-Mehl, dérivé des mosaïques de Voronoï déjà proposées en tomographie bayésienne. Contrairement à la mosaïque de Voronoï, les cellules de Johsnon-mehl ne sont pas forcément convexes et sont bornées par des portions d’hyperboloïdes, offrant ainsi des frontières lisses entre les cellules. Le deuxième modèle est, quant à lui, décrit par une combinaison linéaire de fonctions gaussiennes, centrées sur la réalisation d'un processus ponctuel de Poisson. Pour chaque modèle, nous présentons un exemple de validation sur des champs de vitesse simulés. Nous appliquons ensuite notre méthodologie à un modèle synthétique plus complexe qui sert de benchmark dans l'industrie pétrolière. Nous proposons enfin, un modèle de vitesse basé sur la théorie du compressive sensing pour reconstruire le champ de vitesse. Ce modèle, encore imparfait, ouvre plusieurs pistes de recherches futures.Dans ce travail, nous nous intéressons également à un jeu de données réelles acquises dans le contexte de la fracturation hydraulique. Nous développons dans ce contexte une méthode d'inférence bayésienne trans-dimensionnelle et hiérarchique afin de traiter efficacement la complexité du modèle à couches
First arrival time tomography aims at inferring the seismic wave propagation velocity using experimental first arrival times. In our study, we rely on a Bayesian approach to estimate the wave velocity and the associated uncertainties. This approach incorporates the information provided by the data and the prior knowledge of the velocity model. Bayesian tomography allows for a better estimation of wave velocity as well asassociated uncertainties. However, this approach remains fairly expensive, and MCMC algorithms that are used to sample the posterior distribution are efficient only as long as the number of parameters remains within reason. Hence, their use requires a careful reflection both on the parameterization of the velocity model, in order to reduce the problem's dimension, and on the definition of the prior distribution of the parameters. In this thesis, we introduce new parsimonious parameterizations enabling to accurately reproduce the wave velocity field with the associated uncertainties.The first parametric model that we propose uses a random Johnson-Mehl tessellation, a variation of the Voronoï tessellation. The second one uses Gaussian kernels as basis functions. It is especially adapted to the detection of seismic wave velocity anomalies. Each anomaly isconsidered to be a linear combination of these basis functions localized at the realization of a Poisson point process. We first illustrate the tomography results with a synthetic velocity model, which contains two small anomalies. We then apply our methodology to a more advanced and more realistic synthetic model that serves as a benchmark in the oil industry. The tomography results reveal the ability of our algorithm to map the velocity heterogeneitieswith precision using few parameters. Finally, we propose a new parametric model based on the compressed sensing techniques. The first results are encouraging. However, the model still has some weakness related to the uncertainties estimation.In addition, we analyse real data in the context of induced microseismicity. In this context, we develop a trans-dimensional and hierarchical approach in order to deal with the full complexity of the layered model

10

Chagneau, Pierrette. "Modélisation bayésienne hiérarchique pour la prédiction multivariée de processus spatiaux non gaussiens et processus ponctuels hétérogènes d'intensité liée à une variable prédite : application à la prédiction de la régénération en forêt tropicale humide." Montpellier 2, 2009. http://www.theses.fr/2009MON20157.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Un des points faibles des modèles de dynamique forestière spatialement explicites est la modélisation de la régénération. Un inventaire détaillé du peuplement et des conditions environnementales a permis de mettre en évidence les effets de ces deux facteurs sur la densité locale de juvéniles. Mais en pratique, la collecte de telles données est coûteuse et ne peut être réalisée à grande échelle : seule une partie des juvéniles est échantillonnée et l'environnement n'est connu que partiellement. L'objectif est ici de proposer une approche pour prédire la répartition spatiale et le génotype des juvéniles sur la base d'un échantillonnage raisonnable des juvéniles, des adultes et de l'environnement. La position des juvéniles est considérée comme la réalisation d'un processus ponctuel marqué, les marques étant constituées par les génotypes. L'intensité du processus traduit les mécanismes de dispersion à l'origine de l'organisation spatiale et de la diversité génétique des juvéniles. L'intensité dépend de la survie des graines, qui dépend elle-même des conditions environnementales. Il est donc nécessaire de prédire l'environnement sur toute la zone d'étude. L'environnement, représenté par un champ aléatoire multivarié, est prédit grâce à un modèle hiérarchique spatial capable de traiter simultanément des variables de nature différente. Contrairement aux modèles existants où les variables environnementales sont considérées comme connues, le modèle de régénération proposé doit prendre en compte les erreurs liées à la prédiction de l'environnement. La méthode est appliquée à la prédiction de la régénération des juvéniles en forêt tropicale (Guyane française)
One of the weak points of forest dynamics models is the recruitment. Classically, ecologists make the assumption that recruitment mainly depends on both spatial pattern of mature trees and environment. A detailed inventory of the stand and the environmental conditions enabled them to show the effects of these two factors on the local density of seedlings. In practice, such information is not available: only a part of seedlings is sampled and the environment is partially observed. The aim of the paper is to propose an approach in order to predict the spatial distribution and the seedlings genotype on the basis of a reasonable sampling of seedling, mature trees and environmental conditions. The spatial pattern of the seedlings is assumed to be a realization of a marked point process. The intensity of the process is not only related to the seed and pollen dispersal but also to the sapling survival. The sapling survival depends on the environment; so the environment must be predicted on the whole study area. The environment is characterized through spatial variables of different nature and predictions are obtained using a spatial hierarchical model. Unlike the existing models which assume the environmental covariables as exactly known, the recruitment model we propose takes into account the error related to the prediction of the environment. The prediction of seedling recruitment in tropical rainforest in French Guiana illustrates our approach

11

Mignotte, Max. "Segmentation d'images sonar par approche markovienne hiérarchique non supervisée et classification d'ombres portées par modèles statistiques." Brest, 1998. http://www.theses.fr/1998BRES2017.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ces dernieres annees, de nombreuses ameliorations ont rendu les sonar haute resolution de plus en plus performants ; zones explorees plus vastes et visualisation des fonds marins et des objets reposant sur ceux-ci sous forme d'images etc en contre partie, la quantite d'informations a sensiblement augmentee et rend aujourd'hui necessaire d'automatiser la detection et la classification de ces objets. Celle-ci est realisee grace a une analyse de la forme de l'ombre qu'ils produisent sur les images sonar. L'automatisation de la phase de classification requiert donc une premiere etape de segmentation. A cette fin, un modele hierarchique markovien utilisant un systeme de voisinage spatial et causal en echelle ainsi qu'une strategie de minimisation multigrille ont ete definis. Le probleme de l'estimation automatique des parametres de ce modele a ete developpe dans le but de definir une segmentation non supervisee. Il comporte l'identification du melange de lois relatif au terme d'attache aux donnees et des parametres de regularisation contextuelle. Nous avons ensuite propose une methode de classification des ombres portees. L'approche adoptee utilise les modeles statistiques et repose sur une formulation bayesienne du probleme. Elle comprend la definition d'une forme prototype a laquelle est appliquees une combinaison de deformations geometriques lineaires. Dans ce cadre, le probleme de la classification d'un objet est equivalent a un probleme d'estimation bayesienne des parametres de deformation du modele. Cette estimation conduit a la minimisation d'une fonction d'energie, realisee par une procedure d'optimisation genetique. Afin d'ameliorer cette classification, un modele statistique pour la classification des fonds en imagerie sonar, utilisant une analyse des formes d'ombres que produit chaque type de fond et un module decision floue, a ete parallelement propose. Des validations importantes sur images sonar synthetiques et reelles sont enfin presentees.

12

Faires, Hafedh. "Modèles hiérarchiques de Dirichlet à temps continu." Phd thesis, Université d'Orléans, 2008. http://tel.archives-ouvertes.fr/tel-00466503.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous étudions les processus de Dirichlet dont le paramètre est une mesure proportionnelle à la loi d'un processus temporel, par exemple un mouvement Brownien ou un processus de saut Markovien. Nous les utilisons pour proposer des modèles hiérarchiques bayésiens basés sur des équations différentielles stochastiques en milieu aléatoire. Nous proposons une méthode pour estimer les paramètres de tels modèles et nous l'illustrons sur l'équation de Black-Scholes en milieu aléatoire.

13

Ancelet, Sophie. "Exploiter l'approche hiérarchique bayésienne pour la modélisation statistique de structures spatiales: application en écologie des populations." Phd thesis, AgroParisTech, 2008. http://pastel.archives-ouvertes.fr/pastel-00004396.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans la plupart des questions écologiques, les phénomènes aléatoires d'intérêt sont spatialement structurés et issus de l'effet combiné de multiples variables aléatoires, observées ou non, et inter-agissant à diverses échelles. En pratique, dès lors que les données de terrain ne peuvent être directement traitées avec des structures spatiales standards, les observations sont généralement considérées indépendantes. Par ailleurs, les modèles utilisés sont souvent basés sur des hypothèses simplificatrices trop fortes par rapport à la complexité des phénomènes étudiés. Dans ce travail, la démarche de modélisation hiérarchique est combinée à certains outils de la statistique spatiale afin de construire des structures aléatoires fonctionnelles "sur-mesure" permettant de représenter des phénomènes spatiaux complexes en écologie des populations. L'inférence de ces différents modèles est menée dans le cadre bayésien avec des algorithmes MCMC. Dans un premier temps, un modèle hiérarchique spatial (Geneclust) est développé pour identifier des populations génétiquement homogènes quand la diversité génétique varie continûment dans l'espace. Un champ de Markov caché, qui modélise la structure spatiale de la diversité génétique, est couplé à un modèle bivarié d'occurrence de génotypes permettant de tenir compte de l'existence d'unions consanguines chez certaines populations naturelles. Dans un deuxième temps, un processus de Poisson composé particulier,appelé loi des fuites, est présenté sous l'angle de vue hiérarchique pour décrire le processus d'échantillonnage d'organismes vivants. Il permet de traiter le délicat problème de données continues présentant une forte proportion de zéros et issues d'échantillonnages à efforts variables. Ce modèle est également couplé à différents modèles sur grille (spatiaux, régionalisés) afin d'introduire des dépendances spatiales entre unités géographiques voisines puis, à un champ géostatistique bivarié construit par convolution sur grille discrète afin de modéliser la répartition spatiale conjointe de deux espèces. Les capacités d'ajustement et de prédiction des différents modèles hiérarchiques proposés sont comparées aux modèles traditionnellement utilisés à partir de simulations et de jeux de données réelles (ours bruns de Suède, invertébrés épibenthiques du Golfe-du-Saint-Laurent (Canada)).

14

Pasanisi, Alberto. "Aide à la décision dans la gestion des parcs de compteurs d'eau potable." Phd thesis, ENGREF (AgroParisTech), 2004. http://pastel.archives-ouvertes.fr/pastel-00000935.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La métrologie des compteurs d'eau se dégrade au long de leur vie opérationnelle, entraînant, pour la plupart des compteurs actuellement utilisés en France, une sous-estimation du volume d'eau facturé. Ce phénomène est source de problèmes pour les distributeurs d'eau: il se traduit en un manque à gagner non négligeable et détermine une situation d'inégalité entre les usagers. En outre, une réglementation, de plus en plus exigeante, obligera bientôt les distributeurs à limiter la proportion d'appareils à métrologie imparfaite en dessous d'une valeur fixée. La planification des renouvellements des compteurs est, par conséquent, un problème complexe qui demande la mise en place d'une stratégie optimale. N'importe quelle méthode de planification nécessite la connaissance préliminaire de la métrologie des compteurs en conditions réelles d'exploitation. Le but de cette thèse est de fournir des éléments utiles à la mise en place des règles de gestion optimale adoptées par la Compagnie Générale des Eaux. L'étude de la dégradation de la métrologie se fait avec un modèle dynamique (markovien) à quatre états discrets à métrologie de plus en plus dégradée. Les calculs d'inférence sont réalisés dans un cadre bayésien avec des techniques MCMC (Markov Chain Monte Carlo). Cette méthode d'estimation est une alternative, plus que valide, aux procédures basées sur la recherche du maximum de la vraisemblance sous contraintes. Finalement, on montre que le modèle est capable de fournir des prévisions directement utilisables par les décideurs: l'estimation du sous-comptage et de la probabilité de non-conformité, en fonction de l'âge, de l'agressivité du site et de la consommation annuelle.

15

Daunizeau, Jean. "Localisation et dynamique des sources d'activité cérébrale par fusion d'informations multimodales EEG/IRMf." Paris 11, 2005. http://www.theses.fr/2005PA112204.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Fusionner les informations issues des données d'électroencéphalographie (EEG) et d'imagerie par résonance magnétique fonctionnelle (IRMf) permettrait une meilleure caractérisation spatio-temporelle de l'activité cérébrale. Prenant en compte l'éventuel découplage entre les activités bioélectrique et hémodynamique, nous avons développé trois modèles graphiques hiérarchiques associés à des procédures d'inférence bayésienne :-Un modèle de génération des données EEG encapsulant toute l'information physiologique disponible sur la structure attendue des sources d'activité cérébrale. Ce modèle de mélange de sources étendues recompose l'information de l'EEG et définit le profil spatial de l'activité, analogue des cartes d'activation issues de l'IRMf (fusion comparée). -Une méthode quantifiant la pertinence de tout a priori issu de l'IRMf que l'on envisage d'introduire dans la résolution du problème inverse EEG. Nous pouvons ainsi décider si les sources d'activité vues par l'IRMf auraient pu, ou pas, générer les données EEG et, ainsi, choisir entre les solutions du problème inverse contrainte et non contrainte par l'IRMf (fusion contrainte). -Un modèle de génération des données conjointes EEG/IRMf, via la définition du substrat commun des sources de l'EEG et de l'IRMf s'appuyant sur la décomposition spatio-temporelle du modèle de mélange de sources étendues. Ce modèle de réponses spatialement concordantes généralise les deux premières approches (fusion conjointe) et identifie les sources actives bioélectriquement et hémodynamiquement. Ces modèles ont été évalués sur données simulées et validés sur données réelles dans le contexte de la caractérisation du réseau épileptogène
Combining electroencephalography (EEG) and functional Magnetic Resonance Imaging (fMRI) should enable better characterization of brain activity in both space and time. To do so, the potential decoupling between haemodynamic and bioelectric must be accounted for. Therefore, we proposed three graphical and hierarchical models, associated with Bayesian inference processes:-Compared fusion: an EEG data generative model that introduces all available and physiologically plausible information about the expected structure of bioelectric activity. The extended sources mixing model provides a specific feature that can be compared with fMRI activation maps: the spatial profile of the bioelectric sources. -Constrained fusion: a method to assess the relevance of any informative fMRI-derived prior that is to be included in the resolution of the EEG inverse problem. By quantifying the adequacy between EEG data and fMRI active sources, this approach allows us to decide whether the fMRI-based informative prior should, or not, be introduced in the resolution of the EEG inverse problem. -Symmetrical fusion: a joint EEG/fMRI data generative model, which defines spatially concordant (bioelectric and haemodynamic) responses. Based on the spatio-temporal decomposition of the extended sources mixing model, this approach defines the spatial substrate common to EEG and fMRI activity sources. This extends both previous approaches, and allows us to identify the areas of strong coupling between bioelectric and haemodynamic activities. The three approaches were extensively evaluated on simulated data and validated on real patient data in the context of epileptogenic network characterization

16

Piffady, Jérémy. "Etude des réponses des assemblages de poissons aux variations de l'environnement par modélisation hiérarchique bayésienne : Application aux juvéniles de cyprinidés du Haut-Rhône." Phd thesis, AgroParisTech, 2010. http://pastel.archives-ouvertes.fr/pastel-00566444.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La compréhension des déterminismes des communautés de poissons et de leurs variations est un enjeu majeur, tant en écologie qu'en bioindication. Dans ce travail doctoral, nous avons mis en place des outils de statistiques avancées afin d'identifier les aspects des régimes thermique et hydrique, constituants essentiels de l'environnement naturel des poissons, responsables des variations des assemblages de juvéniles de cyprinidés du haut Rhône. En utilisant des chroniques de températures de l'eau, de débits et d'échantillonnages par pêche électrique sur la période 1980-2005, nous avons déterminé trois groupes d'espèces présentant des réponses synchrones aux variations d'environnement, et développé deux types de modèles hiérarchique, s'appuyant sur ces groupes, selon une perspective bayésienne :- un modèle de régression poissonienne, pour lequel nous avons utilisé une procédure de choix de modèle fondée sur le critère du Facteur de Bayes. Ce premier modèle nous a permis de sélectionner les variables d'intérêt et de quantifier leurs effets sur les variations interannuelles d'abondances des différentes espèces. - un modèle à facteur latent partagé, résumant l'influence commune d'une variable latente, l'hypersignal, sur les variations de l'environnement et des proportions relatives des groupes d'espèces. Nous avons ainsi souligné les importances relatives des variables environnementales dans la structuration des communautés. Alors que leurs effets sont généralement discutés séparément, nous avons mis en évidence l'influence conjointe des régimes thermique et hydrique sur la structuration et les variations interannuelles des assemblages de juvéniles de poissons en grandes rivières.

17

Viaud, Gautier. "Méthodes statistiques pour la différenciation génotypique des plantes à l’aide des modèles de croissance." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC020/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les modèles de croissance de plantes peuvent être utilisés afin de prédire des quantités d’intérêt ou évaluer la variabilité génotypique au sein d’une population de plantes ; ce double usage est mis en évidence au sein de ce travail. Trois modèles de plantes sont ainsi considérés (LNAS pour la betterave et le blé, GreenLab pour Arabidopsis thaliana) au sein du cadre mathématique des modèles à espace d’états généraux.Une nouvelle plate-forme de calcul générique pour la modélisation et l’inférence statistique (ADJUSTIN’) a été développée en Julia, permettant la simulation des modèles de croissance de plantes considérés ainsi que l’utilisation de techniques d’estimation de pointe telles que les méthodes de Monte Carlo par chaînes de Markov ou de Monte Carlo séquentielles.L’inférence statistique au sein des modèles de croissance de plantes étant de première importance pour des applications concrètes telles que la prédiction de rendement, les méthodes d’estimation de paramètres et d’états au sein de modèles à espaces d’états et dans un cadre bayésien furent tout d’abord étudiées, et plusieurs cas d’étude pour les plantes considérées sont analysés pour le cas d’une plante individuelle.La caractérisation de la variabilité au sein d’une population de plantes est envisagée à travers les distributions des paramètres de population au sein de modèles hiérarchiques bayésiens. Cette approche requérant l’acquisition de nombreuses données pour chaque individu, un algorithme de segmentation-suivi pour l’analyse d’images d’Arabidopsis thaliana, obtenues grâce au Phénoscope, une plate-forme de phénotypage à haut rendement de l’INRA Versailles, est proposé.Finalement, l’intérêt de l’utilisation des modèles hiérarchiques bayésiens pour la mise en évidence de la variabilité au sein d’une population de plantes est discutée. D’abord par l’étude de différents scénarios sur des données simulées, et enfin en utilisant les données expérimentales obtenues à partir de l’analyse d’images pour une population d’Arabidopsis thaliana comprenant 48 individus
Plant growth models can be used in order to predict quantities of interest or assess the genotypic variability of a population of plants; this dual use is emphasized throughout this work.Three plant growth models are therefore considered (LNAS for sugar beet and wheat, GreenLab for Arabidopsis thaliana) within the mathematical framework of general state space models.A new generic computing platform for modelling and statistical inference (ADJUSTIN’) has been developed in Julia, allowing to simulate the plant growth models considered as well as the use of state-of-the-art estimation techniques such as Markov chain Monte Carlo and sequential Monte Carlo methods.Statistical inference within plant growth models is of primary importance for concrete applications such as yield prediction, parameter and state estimation methods within general state-space models in a Bayesian framework were first studied and several case studies for the plants considered are then investigated in the case of an individual plant.The characterization of the variability of a population of plants is envisioned through the distributions of parameters using Bayesian hierarchical models. This approach requiring the acquisition of numerous data for each individual, a segmentation-tracking algorithm for the analysis of images of Arabidopsis thaliana, obtained thanks to the Phenoscope, a high-throughput phenotyping platform of INRA Versailles, is proposed.Finally, the interest of using Bayesian hierarchical models to evidence the variability of a population of plants is discussed. First through the study of different scenarios on simulated data, and then by using the experimental data acquired via image analysis for the population of Arabidopsis thaliana comprising 48 individuals

18

Eckert, Nicolas. "Couplage données historiques - modélisation numérique pour la prédétermination des avalanches : une approche bayésienne." Phd thesis, AgroParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00003404.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s'intéresse au problème de la prédétermination des avalanches par couplage entre modélisation numérique et données historiques. L'assemblage s'effectue grâce au formalisme bayésien hiérarchique. La modélisation stochastique, l'inférence du modèle et la prédiction des aléas de référence sont clairement distinguées. L'échelle d'étude est tout d'abord celle d'un site avalancheux. Trois jeux d'hypothèses correspondant à différents compromis entre disponibilité des données et description de la propagation de l'avalanche sont proposés. L'incertitude liée à la méconnaissance du phénomène est combinée avec sa variabilité intrinsèque pour obtenir la loi de probabilité prédictive de la période de retour associée à n'importe quelle distance d'arrêt. Les distributions des autres variables caractérisant l'aléa sont également étudiées. Une analyse de sensibilité aux différentes hypothèses de modélisation est proposée. La prédétermination des fréquences avalancheuses sur des sites peu documentés et en contexte non stationnaire est ensuite traitée à l'échelle communale avec un modèle spatio-temporel. Celui-ci permet de quantifier les variations des occurrences avalancheuses dans les Alpes françaises au cours des soixante dernières années. Enfin, le problème du dimensionnement d'un ouvrage de protection est abordé. Le modèle stochastique est complété par les effets sur l'écoulement avalancheux d'une digue verticale et par une fonction de coût permettant l'optimisation de la hauteur de l'ouvrage. Le risque bayésien permet de ne pas séparer inférence et décision en prenant en compte l'erreur d'estimation pour le dimensionnement.

19

Rose-Andrieux, Raphaël. "Modèle probabiliste hérarchique de la locomotion bipède." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLEE031/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les robots humanoïdes ont toujours fasciné car leur potentiel d’application est considérable. En effet, si un robot avait les mêmes caractéristiques sensori-motrices et morphologiques qu’un homme, il pourrait théoriquement réaliser les mêmes tâches. Cependant, un premier obstacle au développement de ces robots est la stabilité d’une posture bipède. Lors d’une marche bipède, la marge d’erreur est très faible et les décisions doivent être prises rapidement avec une information souvent incomplète et incertaine. L’incertitude a de multiples sources comme des capteurs imparfaits, un modèle simplifié du monde ou encore une mécanique imprécise.Dans cette thèse, nous partons d’un contrôle de la marche par gestion des points d’appuis. L’idée est d’affiner le choix des points d’appuis en intégrant dans notre modèle les incertitudes que l’on vient d’évoquer. Pour cela, nous allons utiliser un modèle probabiliste Bayésien. A l’aide d’une distribution de probabilité, on peut exprimer simultanément une estimation, et l’incertitude associée à celle-ci. Le cadre théorique des probabilités Bayésiennes permet de définir les variables, et de les intégrer de manière rigoureuse dans un modèle global.Un autre avantage de ce modèle probabiliste est que notre objectif est aussi décrit sous la forme d’une distribution de probabilité. Il est donc possible de s’en servir pour exprimer à la fois un objectif déterministe, et une tolérance autour de celui-ci. Cela va nous permettre de fusionner facilement plusieurs objectifs et de les adapter automatiquement en fonction des contraintes extérieures. De plus, la sortie du modèle étant elle aussi une distribution de probabilité, ce type de modèle s’intègre parfaitement dans un cadre hiérarchique : l’entrée du modèle vient du niveau au-dessus et sa sortie est donnée en objectif niveau en dessous.Dans ce travail, nous allons d’abord explorer une technique de maintien de l’équilibre et la comparer aux résultats d’une expérience préliminaire sur l’homme. Nous allons ensuite étendre cette technique pour créer une stratégie de marche. Autour de cette stratégie, nous allons construire un modèle probabiliste Bayésien. Ce modèle sera finalement implémenté en simulation pour pouvoir quantifier son intérêt dans les différentes situations évoquées plus haut : intégration des incertitudes, fusion d’objectifs et hiérarchie
Humanoid robots have always fascinated due to the vast possibilities they encompass.Indeed, a robot with the same sensorimotor features as a human could theoretically carry out the same tasks. However, a first obstacle in the development of these robots is the stability of a bipedal gait. Bipedal walkers are inherently unstable systems experiencing highly dynamic and uncertain situations. Uncertainty arises from many sources, including intrinsic limitations of a particular model of the world, the noise and perceptual limitations in a robot's sensor measurements, and the internal mechanical imperfection of the system.In this thesis, we focus on foot placement to control the position and velocity of the body's center of mass. We start from a deterministic strategy, and develop a probabilistic strategy around it that includes uncertainties. A probability distribution can express simultaneously an estimation of a variable, and the uncertainty associated. We use a Bayesian model to define relevant variables and integrate them in the global frame.Another benefit of this model is that our objective is also represented as a probability distribution. It can be used to express both a deterministic objective and the tolerance around it. Using this representation one can easily combine multiple objectives and adapt them to external constraints. Moreover, the output of the model is also a probabilistic distribution which fits well in a hierarchical context: the input comes from the level above and the output is given as objective to the lower level.In this work, we will review multiple ways to keep balance and compare them to the results of a preliminary experiment done with humans. We will then extend one strategy to walking using foot placement to keep balance. Finally, we will develop a probabilistic model around that strategy and test it in simulation to measure its benefits in different contexts : integrating uncertainties, fusing multiple objectives and hierarchy

20

Dumitru, Mircea. "Approche bayésienne de l'estimation des composantes périodiques des signaux en chronobiologie." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS104/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La toxicité et l’efficacité de plus de 30 agents anticancéreux présentent de très fortes variations en fonction du temps de dosage. Par conséquent, les biologistes qui étudient le rythme circadien ont besoin d’une méthode très précise pour estimer le vecteur de composantes périodiques (CP) de signaux chronobiologiques. En outre, dans les développements récents, non seulement la période dominante ou le vecteur de CP présentent un intérêt crucial, mais aussi leurs stabilités ou variabilités. Dans les expériences effectuées en traitement du cancer, les signaux enregistrés correspondant à différentes phases de traitement sont courts, de sept jours pour le segment de synchronisation jusqu’à deux ou trois jours pour le segment après traitement. Lorsqu’on étudie la stabilité de la période dominante nous devons considérer des signaux très court par rapport à la connaissance a priori de la période dominante, placée dans le domaine circadien. Les approches classiques fondées sur la transformée de Fourier (TF) sont inefficaces (i.e. manque de précision) compte tenu de la particularité des données (i.e. la courte longueur). Dans cette thèse, nous proposons une nouvelle méthode pour l’estimation du vecteur de CP des signaux biomédicaux, en utilisant les informations biologiques a priori et en considérant un modèle qui représente le bruit. Les signaux enregistrés dans le cadre d’expériences développées pour le traitement du cancer ont un nombre limité de périodes. Cette information a priori peut être traduite comme la parcimonie du vecteur de CP. La méthode proposée considère l’estimation de vecteur de CP comme un problème inverse enutilisant l’inférence bayésienne générale afin de déduire toutes les inconnues de notre modèle, à savoir le vecteur de CP mais aussi les hyperparamètres (i.e. les variances associées)
The toxicity and efficacy of more than 30 anticancer agents presents very high variations, depending on the dosing time. Therefore the biologists studying the circadian rhythm require a very precise method for estimating the Periodic Components (PC) vector of chronobiological signals. Moreover, in recent developments not only the dominant period or the PC vector present a crucial interest, but also their stability or variability. In cancer treatment experiments the recorded signals corresponding to different phases of treatment are short, from seven days for the synchronization segment to two or three days for the after treatment segment. When studying the stability of the dominant period we have to consider very short length signals relative to the prior knowledge of the dominant period, placed in the circadian domain. The classical approaches, based on Fourier Transform (FT) methods are inefficient (i.e. lack of precision) considering the particularities of the data (i.e. the short length). In this thesis we propose a new method for the estimation of the PC vector of biomedical signals, using the biological prior informations and considering a model that accounts for the noise. The experiments developed in the cancer treatment context are recording signals expressing a limited number of periods. This is a prior information that can be translated as the sparsity of the PC vector. The proposed method considers the PC vector estimation as an Inverse Problem (IP) using the general Bayesian inference in order to infer all the unknowns of our model, i.e. the PC vector but also the hyperparameters

21

Jay, Flora. "Méthodes bayésiennes en génétique des populations : relations entre structure génétique des populations et environnement." Thesis, Grenoble, 2011. http://www.theses.fr/2011GRENS026/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous présentons une nouvelle méthode pour étudier les relations entre la structure génétique des populations et l'environnement. Cette méthode repose sur des modèles hiérarchiques bayésiens qui utilisent conjointement des données génétiques multi-locus et des données spatiales, environnementales et/ou culturelles. Elle permet d'estimer la structure génétique des populations, d'évaluer ses liens avec des covariables non génétiques, et de projeter la structure génétique des populations en fonction de ces covariables. Dans un premier temps, nous avons appliqué notre approche à des données de génétique humaine pour évaluer le rôle de la géographie et des langages dans la structure génétique des populations amérindiennes. Dans un deuxième temps, nous avons étudié la structure génétique des populations pour 20 espèces de plantes alpines et nous avons projeté les modifications intra spécifiques qui pourront être causées par le réchauffement climatique
We introduce a new method to study the relationships between population genetic structure and environment. This method is based on Bayesian hierarchical models which use both multi-loci genetic data, and spatial, environmental, and/or cultural data. Our method provides the inference of population genetic structure, the evaluation of the relationships between the structure and non-genetic covariates, and the prediction of population genetic structure based on these covariates. We present two applications of our Bayesian method. First, we used human genetic data to evaluate the role of geography and languages in shaping Native American population structure. Second, we studied the population genetic structure of 20 Alpine plant species and we forecasted intra-specific changes in response to global warming. STAR

22

Valmy, Larissa. "Modèles hiérarchiques et processus ponctuels spatio-temporels - Applications en épidémiologie et en sismologie." Phd thesis, Université des Antilles-Guyane, 2012. http://tel.archives-ouvertes.fr/tel-00841146.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les processus ponctuels sont souvent utilisés comme modèles de répartitions spatiales ou spatio-temporelles d'occurrences. Dans cette thèse, nous nous intéressons tout d'abord à des processus de Cox dirigés par un processus caché associé à un processus de Dirichlet. Ce modèle correspond à des occurrences cachées influençant l'intensité stochastique des occurrences observées. Nous généralisons la notion de " Shot noise Cox process " introduite par Moller et développons le traitement bayésien par un échantillonneur de Gibbs combiné à un algorithme de Metropolis-Hastings. Nous montrons que cette méthode MCMC est à sauts réversibles. Le modèle prend en compte, en effet, un nombre aléatoire de contributions cachées influençant l'intensité du processus ponctuel observé donc a un espace paramétrique de dimension variable. Nous focalisons l'inférence statistique sur l'estimation de la valeur espérée de chaque contribution cachée, le nombre espéré de contributions cachées, le degré d'influence spatiale de ces contributions et leur degré de corrélation. Le test d'égalité des contributions et celui de leur indépendance sont ainsi développés. L'utilité en épidémiologie et en écologie est alors démontrée à partir de données de Rubus fruticosa, Ibicella lutea et de mortalité dans les cantons de Georgia, USA. En termes de données observées, deux situations sont considérées: premièrement, les positions spatiales des occurrences sont observées entre plusieurs paires de dates consécutives; deuxièmement, des comptages sont effectués, au cours d'une période fixée, dans des unités d'échantillonnage spatiales. D'autre part, nous nous intéressons aux processus ponctuels à mémoire introduits par Kagan, Ogata et Vere-Jones, précurseurs de la statistique sismologique. En effet, les processus ponctuels spatio-temporels ont une place importante dans l'étude des catalogues sismiques puisque ces derniers sont généralement constitués d'événements sismiques datés et géo-référencés. Nous avons étudié un modèle ETAS (Epidemic Type Aftershock Sequence) avec une intensité d'arrière-plan indépendante du temps et plusieurs fonctions déclenchantes permettant d'intégrer les événements antérieurs récents. Cette approche est utilisée pour étudier la sismicité de l'arc des Petites Antilles. Une étude comparative des modèles Gamma, Weibull, Log-Normal et loi d'Omori modifiée pour les fonctions déclenchantes est menée. Nous montrons que la loi d'Omori modifiée ne s'ajuste pas aux données sismiques des Petites Antilles et la fonction déclenchante la plus adaptée est le modèle de Weibull. Cela implique que le temps d'attente entre répliques dans la zone des Petites Antilles est plus faible que celui des régions à sismicité décrite par la loi d'Omori modifiée. Autrement dit, l'agrégation des répliques après un événement majeur est plus prononcée dans la zone des Petites Antilles. La possibilité d'inclure une intensité d'arrière-plan suivant un processus de Dirichlet centré sur un processus spatial log-gaussien est discutée.

23

Garreta, Vincent. "Approche bayésienne de la reconstruction des paléoclimats à partir du pollen : Vers la modélisation des mécanismes écologiques." Phd thesis, Université Paul Cézanne - Aix-Marseille III, 2010. http://tel.archives-ouvertes.fr/tel-00495890.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le pollen conservé dans les sédiments lacustres constitue un indicateur essentiel pour reconstruire l'évolution de la végétation et du climat passés sur les continents. Actuellement, les reconstructions climatiques se basent sur des modèles statistiques décrivant le lien climat-pollen. Ces modèles posent des problèmes méthodologiques car ils sont tous basés sur l'hypothèse que la relation pollen-climat est constante au cours du temps, impliquant que les paramètres non climatiques déterminant cette relation aient une influence faible. Cela est contredit par les développements récents en écologie et en écophysiologie. C'est pourquoi, dans ce travail, nous développons une approche intégrant un modèle dynamique de végétation et les processus majeurs liant la végétation au pollen capté par les lacs. Le cadre bayésien fournit une base théorique ainsi que les outils pour inférer les paramètres des modèles et le climat passé. Nous utilisons ces nouveaux modèles pour reconstruire le climat de l'Holocène en différents sites européens. Cette approche qui permettra des reconstructions spatio-temporelles requiert encore des développements autour de l'inférence de modèles semi-mécanistes.

24

Guin, Ophélie. "Méthodes bayésiennes semi-paramétriques d'extraction et de sélection de variables dans le cadre de la dendroclimatologie." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00636704.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Selon le Groupe Intergouvernemental d'experts sur l'Évolution du Climat (GIEC), il est important de connaitre le climat passé afin de replacer le changement climatique actuel dans son contexte. Ainsi, de nombreux chercheurs ont travaillé à l'établissement de procédures permettant de reconstituer les températures ou les précipitations passées à l'aide d'indicateurs climatiques indirects. Ces procédures sont généralement basées sur des méthodes statistiques mais l'estimation des incertitudes associées à ces reconstructions reste une difficulté majeure. L'objectif principal de cette thèse est donc de proposer de nouvelles méthodes statistiques permettant une estimation précise des erreurs commises, en particulier dans le cadre de reconstructions à partir de données sur les cernes d'arbres.De manière générale, les reconstructions climatiques à partir de mesures de cernes d'arbres se déroulent en deux étapes : l'estimation d'une variable cachée, commune à un ensemble de séries de mesures de cernes, et supposée climatique puis l'estimation de la relation existante entre cette variable cachée et certaines variables climatiques. Dans les deux cas, nous avons développé une nouvelle procédure basée sur des modèles bayésiens semi- paramétriques. Tout d'abord, concernant l'extraction du signal commun, nous proposons un modèle hiérarchique semi-paramétrique qui offre la possibilité de capturer les hautes et les basses fréquences contenues dans les cernes d'arbres, ce qui était difficile dans les études dendroclimatologiques passées. Ensuite, nous avons développé un modèle additif généralisé afin de modéliser le lien entre le signal extrait et certaines variables climatiques, permettant ainsi l'existence de relations non-linéaires contrairement aux méthodes classiques de la dendrochronologie. Ces nouvelles méthodes sont à chaque fois comparées aux méthodes utilisées traditionnellement par les dendrochronologues afin de comprendre ce qu'elles peuvent apporter à ces derniers.

25

Combrexelle, Sébastien. "Multifractal analysis for multivariate data with application to remote sensing." Phd thesis, Toulouse, INPT, 2016. http://oatao.univ-toulouse.fr/16477/1/Combrexelle.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Texture characterization is a central element in many image processing applications. Texture analysis can be embedded in the mathematical framework of multifractal analysis, enabling the study of the fluctuations in regularity of image intensity and providing practical tools for their assessment, the coefficients or wavelet leaders. Although successfully applied in various contexts, multi fractal analysis suffers at present from two major limitations. First, the accurate estimation of multifractal parameters for image texture remains a challenge, notably for small sample sizes. Second, multifractal analysis has so far been limited to the analysis of a single image, while the data available in applications are increasingly multivariate. The main goal of this thesis is to develop practical contributions to overcome these limitations. The first limitation is tackled by introducing a generic statistical model for the logarithm of wavelet leaders, parametrized by multifractal parameters of interest. This statistical model enables us to counterbalance the variability induced by small sample sizes and to embed the estimation in a Bayesian framework. This yields robust and accurate estimation procedures, effective both for small and large images. The multifractal analysis of multivariate images is then addressed by generalizing this Bayesian framework to hierarchical models able to account for the assumption that multifractal properties evolve smoothly in the dataset. This is achieved via the design of suitable priors relating the dynamical properties of the multifractal parameters of the different components composing the dataset. Different priors are investigated and compared in this thesis by means of numerical simulations conducted on synthetic multivariate multifractal images. This work is further completed by the investigation of the potential benefit of multifractal analysis and the proposed Bayesian methodology for remote sensing via the example of hyperspectral imaging.

26

Jay, Flora. "Méthodes bayésiennes pour la génétique des populations : relations entre structure génétique des populations et environnement." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00648601.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous présentons une nouvelle méthode pour étudier les relations entre la structure génétique des populations et l'environnement. Cette méthode repose sur des modèles hiérarchiques bayésiens qui utilisent conjointement des données génétiques multi-locus et des données spatiales, environnementales et/ou culturelles. Elle permet d'estimer la structure génétique des populations, d'évaluer ses liens avec des covariables non génétiques, et de projeter la structure génétique des populations en fonction de ces covariables. Dans un premier temps, nous avons appliqué notre approche à des données de génétique humaine pour évaluer le rôle de la géographie et des langages dans la structure génétique des populations amérindiennes. Dans un deuxième temps, nous avons étudié la structure génétique des populations pour 20 espèces de plantes alpines et nous avons projeté les modifications intra spécifiques qui pourront être causées par le réchauffement climatique.

27

Commeau, Natalie. "Modélisation de la contamination par Listeria monocytogenes pour l'amélioration de la surveillance dans les industries agro-alimentaires." Phd thesis, AgroParisTech, 2012. http://pastel.archives-ouvertes.fr/pastel-00770790.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les industriels du secteur agro-alimentaire sont responsables de la qualité des produits mis sur le marché. Un moyen de vérifier cette qualité consiste à déterminer la distribution de la contamination. Dans cette thèse, nous avons utilisé des données portant sur L. monocytogenes durant le procédé de fabrication de lardons et du saumon fumé. Nous avons ensuite élaboré des modèles hiérarchiques pour décrire la concentration en prenant ou non en compte diverses variabilités, nous avons estimé les paramètres par inférence bayésienne, puis comparé leur capacité à simuler des données proches des observations. Nous avons également comparé l'estimation de paramètres par inférence fréquentiste sur deux modèles en utilisant les données brutes issues des analyses microbiologiques et ces mêmes données converties en concentration. Par ailleurs, nous avons amélioré un modèle décrivant le devenir de L. monocytogenes au cours de la fabrication des lardons. Le plan d'échantillonnage permettant d'estimer la qualité des produits, nous avons appliqué la théorie de la décision aux couples L. monocytogenes/lardons et L. monocytogenes/saumon fumé en sortie usine pour déterminer la taille optimale de l'échantillon à prélever par lot de manière à minimiser les coûts moyens supportés par le fabricant. Enfin, nous avons comparé plusieurs plans d'échantillonnage de mesure de la température d'un plat en sauce fabriqué dans une cuisine centrale et placé dans une cellule de refroidissement rapide. L'objectif était de sélectionner le meilleur plan d'échantillonnage en fonction du risque admissible pour le gestionnaire quant à la croissance de C. perfringens.

28

Launay, Tristan. "Méthodes Bayésiennes pour la prévision de consommation d’électricité." Nantes, 2012. http://www.theses.fr/2012NANT2074.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans ce manuscrit, nous développons des outils de statistique bayésienne pour la prévision de consommation d’électricité en France. Nous prouvons tout d’abord la normalité asymptotique de la loi a posteriori (théorème de Bernstein-von Mises) pour le modèle linéaire par morceaux de part chauffage et la consistance de l’estimateur de Bayes. Nous décrivons ensuite la construction d’une loi a priori informative afin d’améliorer la qualité des prévisions d’un modèle de grande dimension en situation d’historique court. A partir de deux exemples impliquant les clients non télérelevés de EDF, nous montrons notamment que la méthode proposée permet de rendre l’évaluation du modèle plus robuste vis-à-vis du manque de données. Nous proposons enfin un nouveau modèle dynamique, non-linéaire, pour prévoir la consommation d’électricité en ligne. Nous construisons un algorithme de filtrage particulaire afin d’estimer ce modèle et comparons les prévisions obtenues aux prévisions opérationnelles utilisées au sein d’EDF
In this manuscript, we develop Bayesian statistics tools to forecast the French electricity load. We first prove the asymptotic normality of the posterior distribution (Bernstein-von Mises theorem) for the piecewise linear regression model used to describe the heating effect and the consistency of the Bayes estimator. We then build a a hierarchical informative prior to help improve the quality of the predictions for a high dimension model with a short dataset. We typically show, with two examples involving the non metered EDF customers, that the method we propose allows a more robust estimation of the model with regard to the lack of data. Finally, we study a new nonlinear dynamic model to predict the electricity load online. We develop a particle filter algorithm to estimate the model et compare the predictions obtained with operationnal predictions from EDF

29

Seiler, Christof. "Trees on Geometrical Deformations to Model the Statistical Variability of Organs in Medical Images." Phd thesis, Université de Nice Sophia-Antipolis, 2012. http://tel.archives-ouvertes.fr/tel-00844610.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans l'analyse d'images médicales, les déformations géométriques sont utilisées pour modéliser la variabilité entre les patients. Dans les applications orthopédiques, la variabilité géométrique est habituellement observable à différentes échelles. Dans le cas des os mandibulaires, par exemple, on observe des différences anatomiques entre le côté gauche et droit sur une échelle grossière, ou entre les dents sur une échelle plus fine. Chaque niveau de granularité contient des régions d'intérêt pour les applications cliniques. La difficulté est de relier les déformations géométriques avec les régions d'intérêt pour chaque type d'échelles. Dans cette thèse, nous présentons cette liaison par l'introduction du recalage difféomorphe et structuré. Le coeur de notre méthode est le paramétrage des déformations géométriques avec des arbres de transformations localement affines qui décrivent la variabilité entre les patients. En second lieu, nous modélisons statistiquement les paramètres de déformations dans une population par la formulation d'un modèle statistique génératif. Cette méthode nous permet d'intégrer des statistiques de déformations comme une probabilité a priori dans un cadre Bayésien et elle nous permet d'étendre le recalage classique d'un schéma grossier à un schéma fin avec une optimisation simultanée pour toutes les échelles. Nous validons notre approche sur plusieurs applications orthopédiques: la conception des implants pour une population, des simulations biomécaniques et la sélection d'allogreffes. L'amélioration de l'intelligibilité pour les cliniciens et de la précision obtenue fait de notre méthode un candidat prometteur pour des usages cliniques.

30

Hivert, Valentin. "Analyse de la différenciation génétique à l'ère des nouvelles technologies de séquençage." Thesis, Montpellier, SupAgro, 2018. http://www.theses.fr/2018NSAM0061.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’avancée des technologies de séquençage et de génotypage à haut-débit permet la comparaison de patrons de polymorphisme à un très grand nombre de marqueurs génétiques. L'analyse de la différenciation des populations à une échelle génomique rend ainsi possible la recherche de régions génomiques impliquées dans l’adaptation locale des organismes à leur environnement. Dans cette thèse, nous avons suivi deux approches complémentaires pour caractériser la différenciation génétique à partir de données de génotypage à haut-débit. Dans un premier temps, nous avons développé un estimateur non-biaisé du paramètre FST pour des données de génotypage d’individus en mélange (Pool-seq). La construction de cet estimateur, dans un contexte d’analyse de variance, a nécessité de bien prendre en compte les différentes étapes de l’échantillonnage : des gènes dans le mélange d'individus et des lectures de séquençage parmi les gènes. Nous montrons qu’il surpasse les estimateurs utilisés jusqu'à présent. Dans un deuxième temps, nous avons développé une méthode d'analyse de la différenciation génétique à l'échelle du génome, dans le cadre d’un modèle bayésien hiérarchique, pour distinguer l'effet de la démographie de celui de la sélection. Pour cela, nous avons implémenté plusieurs extensions au modèle SelEstim, pour exploiter l'information de déséquilibre de liaison entre les marqueurs. Une première stratégie a consisté à analyser des données multialléliques, obtenues par le regroupement local de marqueurs SNPs en blocs d'haplotypes. Une stratégie alternative a consisté à intégrer un modèle de lissage prenant en compte la dépendance spatiale entre marqueurs adjacents. Cette approche repose sur l'analyse de données bialléliques, ce qui la rend applicable à la fois à des données de génotypage individuel et à des données Pool-seq. Nous discutons, sur la base de l'analyse de jeux de données simulées, des mérites relatifs de ces différentes approches
The advent of high throughput sequencing and genotyping technologies allows the comparison of patterns of polymorphisms at a very large number of genetic markers. The analysis of genetic differentiation between populations at a whole-genome scale makes it possible to characterize genomic regions involved in the local adaptation of organisms to their environment. In this thesis, we followed two complementary approaches to characterize differentiation from high-throughput genotyping data. First, we developed an unbiased estimator of the parameter FST for individuals sequenced in pools (Pool-seq). Deriving this estimator, in an analysis-of-variance framework, required to properly account for the different sampling steps: individual genes from the pool, and sequence reads from these genes. We show that it outperforms previously proposed estimators. Second, we developed a method to analyze genetic differentiation at a whole-genome scale in a hierarchical bayesian framework, in order to untangle the effect of demography from that of selection. To this end, we implemented different extensions to the SelEstim model, aimed at leveraging the information from linkage disequilibrium between markers. A first approach consisted in analyzing multiallelic data derived from the local clustering of SNPs into haplotype blocks. An alternative strategy consisted in including a smoothing model, which accounts for the spatial dependency between neighboring markers. This strategy relies on the analysis of biallelic data, and can be used both with individual genotype data or Pool-seq data. We discuss the relative benefits of these different approaches, based on the analysis of simulated data sets

31

Chagra, Djamila. "Sélection de modèle d'imputation à partir de modèles bayésiens hiérarchiques linéaires multivariés." Thèse, 2009. http://hdl.handle.net/1866/3936.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Résumé La technique connue comme l'imputation multiple semble être la technique la plus appropriée pour résoudre le problème de non-réponse. La littérature mentionne des méthodes qui modélisent la nature et la structure des valeurs manquantes. Une des méthodes les plus populaires est l'algorithme « Pan » de (Schafer & Yucel, 2002). Les imputations rapportées par cette méthode sont basées sur un modèle linéaire multivarié à effets mixtes pour la variable réponse. La méthode « BHLC » de (Murua et al, 2005) est une extension de « Pan » dont le modèle est bayésien hiérarchique avec groupes. Le but principal de ce travail est d'étudier le problème de sélection du modèle pour l'imputation multiple en termes d'efficacité et d'exactitude des prédictions des valeurs manquantes. Nous proposons une mesure de performance liée à la prédiction des valeurs manquantes. La mesure est une erreur quadratique moyenne reflétant la variance associée aux imputations multiples et le biais de prédiction. Nous montrons que cette mesure est plus objective que la mesure de variance de Rubin. Notre mesure est calculée en augmentant par une faible proportion le nombre de valeurs manquantes dans les données. La performance du modèle d'imputation est alors évaluée par l'erreur de prédiction associée aux valeurs manquantes. Pour étudier le problème objectivement, nous avons effectué plusieurs simulations. Les données ont été produites selon des modèles explicites différents avec des hypothèses particulières sur la structure des erreurs et la distribution a priori des valeurs manquantes. Notre étude examine si la vraie structure d'erreur des données a un effet sur la performance du choix des différentes hypothèses formulées pour le modèle d'imputation. Nous avons conclu que la réponse est oui. De plus, le choix de la distribution des valeurs manquantes semble être le facteur le plus important pour l'exactitude des prédictions. En général, les choix les plus efficaces pour de bonnes imputations sont une distribution de student avec inégalité des variances dans les groupes pour la structure des erreurs et une loi a priori choisie pour les valeurs manquantes est la loi normale avec moyenne et variance empirique des données observées, ou celle régularisé avec grande variabilité. Finalement, nous avons appliqué nos idées à un cas réel traitant un problème de santé. Mots clés : valeurs manquantes, imputations multiples, modèle linéaire bayésien hiérarchique, modèle à effets mixtes.
Abstract The technique known as multiple imputation seems to be the most suitable technique for solving the problem of non-response. The literature mentions methods that models the nature and structure of missing values. One of the most popular methods is the PAN algorithm of Schafer and Yucel (2002). The imputations yielded by this method are based on a multivariate linear mixed-effects model for the response variable. A Bayesian hierarchical clustered and more flexible extension of PAN is given by the BHLC model of Murua et al. (2005). The main goal of this work is to study the problem of model selection for multiple imputation in terms of efficiency and accuracy of missing-value predictions. We propose a measure of performance linked to the prediction of missing values. The measure is a mean squared error, and hence in addition to the variance associated to the multiple imputations, it includes a measure of bias in the prediction. We show that this measure is more objective than the most common variance measure of Rubin. Our measure is computed by incrementing by a small proportion the number of missing values in the data and supposing that those values are also missing. The performance of the imputation model is then assessed through the prediction error associated to these pseudo missing values. In order to study the problem objectively, we have devised several simulations. Data were generated according to different explicit models that assumed particular error structures. Several missing-value prior distributions as well as error-term distributions are then hypothesized. Our study investigates if the true error structure of the data has an effect on the performance of the different hypothesized choices for the imputation model. We concluded that the answer is yes. Moreover, the choice of missing-value prior distribution seems to be the most important factor for accuracy of predictions. In general, the most effective choices for good imputations are a t-Student distribution with different cluster variances for the error-term, and a missing-value Normal prior with data-driven mean and variance, or a missing-value regularizing Normal prior with large variance (a ridge-regression-like prior). Finally, we have applied our ideas to a real problem dealing with health outcome observations associated to a large number of countries around the world. Keywords: Missing values, multiple imputation, Bayesian hierarchical linear model, mixed effects model.
Les logiciels utilisés sont Splus et R.

32

Faubet, Pierre. "METHODES STATISTIQUES POUR L'ETUDE DE LA STRUCTURATION SPATIALE DE LA DIVERSITE GENETIQUE." Phd thesis, 2009. http://tel.archives-ouvertes.fr/tel-00606630.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La sélection naturelle et les flux de gènes entre populations contribuent à structurer la diversité génétique dans l'espace sous l'influence de l'environnement. L'étude de ces forces évolutives et de leur interaction avec le milieu a des applications importantes dans des domaines tels que la biologie de la conservation, la génétique ou l'agronomie. Les données génétiques peuvent être reliées aux données environnementales à travers des modèles qui décrivent les processus évolutifs mis en jeu pour estimer des paramètres d'intérêt. Le développement d'une méthode d'estimation en génétique des populations consiste donc à construire un modèle selon des considérations biologiques pour l'utiliser ensuite dans des algorithmes d'estimation. L'étape suivante consiste alors à évaluer les performances de la méthode pour la valider ou l'améliorer. Ce schéma a été appliqué pour évaluer une méthode d'estimation des taux de migration qui a été étendue par la suite. Une autre méthode a été développée pour étudier l'adaptation locale sous l'influence de la migration et de la sélection naturelle.

Дисертації з теми "Modèle hiérarchique bayésien"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями