To see the other types of publications on this topic, follow the link: Pondération statistique.

Dissertations / Theses on the topic 'Pondération statistique'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 15 dissertations / theses for your research on the topic 'Pondération statistique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Mbuyi, Mukendi. "Contributions au codage en analyse multidimensionnelle : pondération, études simultanées de plusieurs groupes de variables." Paris 6, 1987. http://www.theses.fr/1987PA066093.

Full text
Abstract:
L'application des méthodes d'analyse multidimensionnelle à des tableaux de grande dimension et à des données hétérogènes pose de nouveaux problèmes d'ordre pratique qui font l'objet de notre thèse. Le 1er problème abordé concerne le traitement d'un tableau des correspondances multiples ayant de grandes dimensions. L'enquête sur les habitudes de lecture des titres de presse en France portait sur 15. 000 personnes représentant 39. 200. 000 français âgés de 15 ans. Chaque individu interrogé est caractérisé par une série de 700 réponses. Nous proposons quelques techniques de calculs : construction de sous-tableaux de Burt pondéré, croisement des partitions d'une CAH, combinaisons des modalités du signalement dans le cas d'un groupe de variables. Ces différentes techniques permettent en gardant le maximum d'informations, d'analyser d'énormes fichiers, qui à cause de la taille de l'ordinateur restaient inabordables jusqu'à présent. Le 2ème problème concerne l'analyse d'un tableau de données hétérogènes mettant en correspondance 60 types d'huiles brutes obtenues dans différents gisements du monde et 11 paramètres caractérisant chaque type d'huiles brutes. On effectue un codage disjonctif complet en découpant les paramètres en classes d'égal effectif. Nous calculons ensuite deux tableaux de Burt : le 1er pondéré par le coefficient représentant l'importance du gisement et le 2ème sans pondération. Nous montrons ensuite que cette transormation (pondération) laisse invariants les facteurs issus de l'analyse des correspondances. Nous apportons également une contribution au problème de la discrimination par affectation barycentrique
APA, Harvard, Vancouver, ISO, and other styles
2

Diop, Serigne Arona, and Serigne Arona Diop. "Comparing inverse probability of treatment weighting methods and optimal nonbipartite matching for estimating the causal effect of a multicategorical treatment." Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/34507.

Full text
Abstract:
Des débalancements des covariables entre les groupes de traitement sont souvent présents dans les études observationnelles et peuvent biaiser les comparaisons entre les traitements. Ce biais peut notamment être corrigé grâce à des méthodes de pondération ou d’appariement. Ces méthodes de correction ont rarement été comparées dans un contexte de traitement à plusieurs catégories (>2). Nous avons mené une étude de simulation pour comparer une méthode d’appariement optimal non-biparti, la pondération par probabilité inverse de traitement ainsi qu’une pondération modifiée analogue à l’appariement (matching weights). Ces comparaisons ont été effectuées dans le cadre de simulation de type Monte Carlo à travers laquelle une variable d’exposition à 3 groupes a été utilisée. Une étude de simulation utilisant des données réelles (plasmode) a été conduite et dans laquelle la variable de traitement avait 5 catégories. Parmi toutes les méthodes comparées, celle du matching weights apparaît comme étant la plus robuste selon le critère de l’erreur quadratique moyenne. Il en ressort, aussi, que les résultats de la pondération par probabilité inverse de traitement peuvent parfois être améliorés par la troncation. De plus, la performance de la pondération dépend du niveau de chevauchement entre les différents groupes de traitement. La performance de l’appariement optimal nonbiparti est, quant à elle, fortement tributaire de la distance maximale pour qu’une paire soit formée (caliper). Toutefois, le choix du caliper optimal n’est pas facile et demeure une question ouverte. De surcroît, les résultats obtenus avec la simulation plasmode étaient positifs, dans la mesure où une réduction importante du biais a été observée. Toutes les méthodes ont pu réduire significativement le biais de confusion. Avant d’utiliser la pondération de probabilité inverse de traitement, il est recommandé de vérifier la violation de l’hypothèse de positivité ou l’existence de zones de chevauchement entre les différents groupes de traitement<br>Des débalancements des covariables entre les groupes de traitement sont souvent présents dans les études observationnelles et peuvent biaiser les comparaisons entre les traitements. Ce biais peut notamment être corrigé grâce à des méthodes de pondération ou d’appariement. Ces méthodes de correction ont rarement été comparées dans un contexte de traitement à plusieurs catégories (>2). Nous avons mené une étude de simulation pour comparer une méthode d’appariement optimal non-biparti, la pondération par probabilité inverse de traitement ainsi qu’une pondération modifiée analogue à l’appariement (matching weights). Ces comparaisons ont été effectuées dans le cadre de simulation de type Monte Carlo à travers laquelle une variable d’exposition à 3 groupes a été utilisée. Une étude de simulation utilisant des données réelles (plasmode) a été conduite et dans laquelle la variable de traitement avait 5 catégories. Parmi toutes les méthodes comparées, celle du matching weights apparaît comme étant la plus robuste selon le critère de l’erreur quadratique moyenne. Il en ressort, aussi, que les résultats de la pondération par probabilité inverse de traitement peuvent parfois être améliorés par la troncation. De plus, la performance de la pondération dépend du niveau de chevauchement entre les différents groupes de traitement. La performance de l’appariement optimal nonbiparti est, quant à elle, fortement tributaire de la distance maximale pour qu’une paire soit formée (caliper). Toutefois, le choix du caliper optimal n’est pas facile et demeure une question ouverte. De surcroît, les résultats obtenus avec la simulation plasmode étaient positifs, dans la mesure où une réduction importante du biais a été observée. Toutes les méthodes ont pu réduire significativement le biais de confusion. Avant d’utiliser la pondération de probabilité inverse de traitement, il est recommandé de vérifier la violation de l’hypothèse de positivité ou l’existence de zones de chevauchement entre les différents groupes de traitement
APA, Harvard, Vancouver, ISO, and other styles
3

Bonnin, Geoffray. "Vers des systèmes de recommandation robustes pour la navigation Web : inspiration de la modélisation statistique du langage." Phd thesis, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00581331.

Full text
Abstract:
Le but de cette thèse est d'améliorer la qualité des systèmes de recommandation pour la navigation Web en utilisant la séquentialité des actions de navigation des utilisateurs. La notion de séquentialité a déjà été étudiée dans ce contexte. De telles études tentent habituellement de trouver un bon compromis entre précision, complexité en temps et en mémoire, et couverture. De plus, le Web a cela de particulier que du bruit peut être contenu au sein des navigations (erreurs de navigation, apparition de pop-ups, etc.), et que les utilisateurs peuvent effectuer des navigations parallèles. La plupart des modèles qui ont été proposés dans la littérature exploitent soit des suites contiguës de ressources et ne sont pas résistants au bruit, soit des suites discontiguës de ressources et induisent une complexité en temps et en mémoire importantes. Cette complexité peut être réduite en effectuant une sélection sur les séquences, mais cela engendre alors des problèmes de couverture. Enfin à notre connaissance, le fait que les utilisateurs puissent effectuer des navigations parallèles n'a jamais été étudié du point de vue de la recommandation. La problématique de cette thèse est donc de proposer un nouveau modèle séquentiel ayant les cinq caractéristiques suivantes : (1) une bonne précision de recommandation, (2) une bonne résistance au bruit, (3) la prise en compte des navigations parallèles, (4) une bonne couverture (5) et une faible complexité en temps et en mémoire. Afin de répondre à cette problématique, nous nous inspirons de la Modélisation Statistique du Langage (MSL), qui a des caractéristiques très proches de celles de la navigation Web. La MSL est étudiée depuis beaucoup plus longtemps que les systèmes de recommandation et a largement prouvé sa précision et son efficacité. De plus, la plupart des modèles statistiques de langage qui ont été proposés prennent en compte des séquences. Nous avons donc étudié la possibilité d'exploiter les modèles utilisés en MSL et leur adaptation aux contraintes spécifiques de la navigation Web.
APA, Harvard, Vancouver, ISO, and other styles
4

Gharbi, Zied. "Contribution à l’économétrie spatiale et l’analyse de données fonctionnelles." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1A012/document.

Full text
Abstract:
Ce mémoire de thèse touche deux champs de recherche importants en statistique inférentielle, notamment l’économétrie spatiale et l’analyse de données fonctionnelles. Plus précisément, nous nous sommes intéressés à l’analyse de données réelles spatiales ou spatio-fonctionnelles en étendant certaines méthodes inférentielles pour prendre en compte une éventuelle dépendance spatiale. Nous avons d’abord considéré l’estimation d’un modèle autorégressif spatiale (SAR) ayant une variable dépendante fonctionnelle et une variable réponse réelle à l’aide d’observations sur une unité géographique donnée. Il s’agit d’un modèle de régression avec la spécificité que chaque observation de la variable indépendante collectée dans un emplacement géographique dépend d’observations de la même variable dans des emplacements voisins. Cette relation entre voisins est généralement mesurée par une matrice carrée nommée matrice de pondération spatiale et qui mesure l’effet d’interaction entre les unités spatiales voisines. Cette matrice est supposée exogène c’est-à-dire la métrique utilisée pour la construire ne dépend pas des mesures de variables explicatives du modèle. L’apport de cette thèse sur ce modèle réside dans le fait que la variable explicative est de nature fonctionnelle, à valeurs dans un espace de dimension infinie. Notre méthodologie d’estimation est basée sur une réduction de la dimension de la variable explicative fonctionnelle, par l’analyse en composantes principales fonctionnelles suivie d’une maximisation de la vraisemblance tronquée du modèle. Des propriétés asymptotiques des estimateurs, des illustrations des performances des estimateurs via une étude de Monte Carlo et une application à des données réelles environnementales ont été considérées. Dans la deuxième contribution, nous reprenons le modèle SAR fonctionnel étudié dans la première partie en considérant une structure endogène de la matrice de pondération spatiale. Au lieu de se baser sur un critère géographique pour calculer les dépendances entre localisations voisines, nous calculons ces dernières via un processus endogène, c’est-à-dire qui dépend des variables à expliquées. Nous appliquons la même approche d’estimation à deux étapes décrite ci-dessus, nous étudions aussi les performances de l’estimateur proposé pour des échantillons à taille finie et discutons le cadre asymptotique. Dans la troisième partie de cette contribution, nous nous intéressons à l’hétéroscédasticité dans les modèles partiellement linéaires pour variables exogènes réelles et variable réponse binaire. Nous proposons un modèle Probit spatial contenant une partie non-paramétrique. La dépendance spatiale est introduite au niveau des erreurs (perturbations) du modèle considéré. L’estimation des parties paramétrique et non paramétrique du modèle est récursive et consiste à fixer d’abord les composants paramétriques et à estimer la partie non paramétrique à l’aide de la méthode de vraisemblance pondérée puis utiliser cette dernière estimation pour construire un profil de la vraisemblance pour estimer la partie paramétrique. La performance de la méthode proposée est étudiée via une étude Monte Carlo. La contribution finit par une étude empirique sur la relation entre la croissance économique et la qualité environnementale en Suède à l’aide d’outils de l’économétrie spatiale<br>This thesis covers two important fields of research in inferential statistics, namely spatial econometrics and functional data analysis. More precisely, we have focused on the analysis of real spatial or spatio-functional data by extending certain inferential methods to take into account a possible spatial dependence. We first considered the estimation of a spatial autoregressive model (SAR) with a functional dependent variable and a real response variable using observations on a given geographical unit. This is a regression model with the specificity that each observation of the independent variable collected in a geographical location depends on observations of the same variable in neighboring locations. This relationship between neighbors is generally measured by a square matrix called the spatial weighting matrix, which measures the interaction effect between neighboring spatial units. This matrix is assumed to be exogenous, i.e. the metric used to construct it does not depend on the explanatory variable. The contribution of this thesis to this model lies in the fact that the explanatory variable is of a functional nature, with values in a space of infinite dimension. Our estimation methodology is based on a dimension reduction of the functional explanatory variable through functional principal component analysis followed by maximization of the truncated likelihood of the model. Asymptotic properties of the estimators, illustrations of the performance of the estimators via a Monte Carlo study and an application to real environmental data were considered. In the second contribution, we use the functional SAR model studied in the first part by considering an endogenous structure of the spatial weighting matrix. Instead of using a geographical criterion to calculate the dependencies between neighboring locations, we calculate them via an endogenous process, i.e. one that depends on explanatory variables. We apply the same two-step estimation approach described above and study the performance of the proposed estimator for finite or infinite-tending samples. In the third part of this thesis we focus on heteroskedasticity in partially linear models for real exogenous variables and binary response variable. We propose a spatial Probit model containing a non-parametric part. Spatial dependence is introduced at the level of errors (perturbations) of the model considered. The estimation of the parametric and non-parametric parts of the model is recursive and consists of first setting the parametric parameters and estimating the non-parametric part using the weighted likelihood method and then using the latter estimate to construct a likelihood profile to estimate the parametric part. The performance of the proposed method is investigated via a Monte-Carlo study. An empirical study on the relationship between economic growth and environmental quality in Sweden using some spatial econometric tools finishes the document
APA, Harvard, Vancouver, ISO, and other styles
5

Brini, Asma Hedia. "Un modèle de recherche d'information basé sur les réseaux possibilistes." Toulouse 3, 2005. http://www.theses.fr/2005TOU30224.

Full text
Abstract:
Nous proposons une approche moins restrictive pour la modélisation de la pertinence dans le cadre de la Recherche d'Information (RI). Un réseau possibiliste décrit graphiquement le modèle : les documents, leurs termes d'indexation et la requête sont des variables binaires et les arcs sont quantifiés dans le cadre de la théorie des possibilités. Ce modèle répond à des propositions du type : il est plausible à un certain degré que le document constitue une bonne réponse à la requête; (ii) il est nécessaire, certain que le document répond à la requête. La première proposition vise à éliminer certains documents de la réponse ; la seconde se focalise sur les documents qui seraient pertinents. Nous avons aussi défini trois nouvelles mesures qui mesurent l'importance d'un terme dans la collection dans le but de pénaliser les documents ne contenant pas certains termes (importants) par exemple. Ces mesures sont adaptables à tous les modèles de RI. Les résultats obtenus sont encourageants<br>We propose an approach to Information Retrieval (IR) where relevance is flexible. The model is based on possibilistic networks where documents, index terms and query are binary variables and arcs are quantified in the theory of possibility framework. This model should provide proposition like : (i) it is plausible to a certain degree that the document is relevant ; (ii) it is necessary that the document is relevant given the query. The first kind of answer is meant to eliminate irrelevant documents (weak plausibility). The second answer focuses attention on what looks very relevant. Besides, we proposed three new discriminant factors that penalise documents not containing query important terms. These factors can be adaptable to any existing models. The results obtained show the effectiveness of our approach
APA, Harvard, Vancouver, ISO, and other styles
6

Dehoux, Frédéric. "Modélisation statistique des écoulements turbulents en convection forcée, mixte et naturelle." Thesis, Poitiers, 2012. http://www.theses.fr/2012POIT2276/document.

Full text
Abstract:
L'objectif général de la thèse est d'améliorer la modélisation numérique RANS des flux thermiques turbulents notamment en proposant un modèle fonctionnant dans les trois régimes de convection thermique (forcée, mixte et naturelle).Pour ce faire, un état des lieux, non exhaustif, des modèles des flux thermiques utilisant les approches algébriques et à équations de transport, est effectué. Puis, le modèle EB-RSM (Elliptic Blending-Reynolds Stress Model) étant utilisé pour modéliser la turbulence, le principe de la pondération elliptique est appliqué aux modèles des flux thermiques turbulents algébriques EB-GGDH (EB-General Gradient Diffusion Hypothesis), EB-AFM (EB-Algebraic Flux Model) et à équations de transport EB-DFM (EB-Differential Flux Model). Une attention particulière a été apportée aux échelles de temps et de longueur utilisées pour ces modèles. Il en résulte qu'utiliser une échelle de longueur thermique différente de l'échelle de longueur dynamique et une échelle de temps mixte dans le terme de flottabilité de l'équation de la dissipation turbulente est préférable.Pour valider les formulations retenues, nous avons effectué des tests pour des fluides usuels (nombre de Prandtl de l’ordre de 1) dans les trois régimes de convection à l'aide de l'outil de calcul Code_Saturne sur des configurations académiques, semi-académiques et industrielles.Des résultats satisfaisants ont été obtenus en associant l'EB-RSM et le GGDH en convection forcée ou mixte et l'EB-RSM aux modèles EB-DFM et AFM en convection naturelle<br>The PhD main objective is to improve the turbulent heat flux RANS modelling especially by proposing a model working in the three thermal convection regime (forced, mixed and natural).In order to achieve this, a non-exhaustive state of art of heat flux model, using algebraic approach and transport equations, is done. Then, as EB-RSM model (Elliptic Blending-Reynolds Stress Model) is used to model turbulence, elliptic blending approach is apply to algebraic turbulent heat flux model EB-GGDH (EB-General Gradient Diffusion Hypothesis), EB-AFM (EB-Algebraic Flux Model) and transport equation model EB-DFM (EB-Differential Flux Model). Special attention was paid to time and length scales used with these models. It follows that using a thermal length scale different from dynamic length scale and a mixed time scale in the buoyant term of turbulent dissipation equation is better.To validate these models, some test were done for common fluids (Prandtl number in the order of 1) in the three convection regimes with the tool Code_Saturne on academic, mid-academic and industrial cases.Good results were obtained combining EB-RSM with GGDH in forced or mixed convection and EB-RSM with EB-DFM or AFM in natural convection
APA, Harvard, Vancouver, ISO, and other styles
7

Diallo, Alpha Oumar. "Inférence statistique dans des modèles de comptage à inflation de zéro. Applications en économie de la santé." Thesis, Rennes, INSA, 2017. http://www.theses.fr/2017ISAR0027/document.

Full text
Abstract:
Les modèles de régressions à inflation de zéros constituent un outil très puissant pour l’analyse de données de comptage avec excès de zéros, émanant de divers domaines tels que l’épidémiologie, l’économie de la santé ou encore l’écologie. Cependant, l’étude théorique dans ces modèles attire encore peu d’attention. Ce manuscrit s’intéresse au problème de l’inférence dans des modèles de comptage à inflation de zéro.Dans un premier temps, nous revenons sur la question de l’estimateur du maximum de vraisemblance dans le modèle binomial à inflation de zéro. D’abord nous montrons l’existence de l’estimateur du maximum de vraisemblance des paramètres dans ce modèle. Ensuite, nous démontrons la consistance de cet estimateur, et nous établissons sa normalité asymptotique. Puis, une étude de simulation exhaustive sur des tailles finies d’échantillons est menée pour évaluer la cohérence de nos résultats. Et pour finir, une application sur des données réelles d’économie de la santé a été conduite.Dans un deuxième temps, nous proposons un nouveau modèle statistique d’analyse de la consommation de soins médicaux. Ce modèle permet, entre autres, d’identifier les causes du non-recours aux soins médicaux. Nous avons étudié rigoureusement les propriétés mathématiques du modèle. Ensuite nous avons mené une étude numérique approfondie à l’aide de simulations informatiques et enfin, nous l’avons appliqué à l’analyse d’une base de données recensant la consommation de soins de plusieurs milliers de patients aux USA.Un dernier aspect de ces travaux de thèse a été de s’intéresser au problème de l’inférence dans le modèle binomial à inflation de zéro dans un contexte de données manquantes sur les covariables. Dans ce cas nous proposons la méthode de pondération par l’inverse des probabilités de sélection pour estimer les paramètres du modèle. Ensuite, nous établissons la consistance et la normalité asymptotique de l’estimateur proposé. Enfin, une étude de simulation sur plusieurs échantillons de tailles finies est conduite pour évaluer le comportement de l’estimateur<br>The zero-inflated regression models are a very powerful tool for the analysis of counting data with excess zeros from various areas such as epidemiology, health economics or ecology. However, the theoretical study in these models attracts little attention. This manuscript is interested in the problem of inference in zero-inflated count models.At first, we return to the question of the maximum likelihood estimator in the zero-inflated binomial model. First we show the existence of the maximum likelihood estimator of the parameters in this model. Then, we demonstrate the consistency of this estimator, and let us establish its asymptotic normality. Then, a comprehensive simulation study finite sample sizes are conducted to evaluate the consistency of our results. Finally, an application on real health economics data has been conduct.In a second time, we propose a new statistical analysis model of the consumption of medical care. This model allows, among other things, to identify the causes of the non-use of medical care. We have studied rigorously the mathematical properties of the model. Then, we carried out an exhaustive numerical study using computer simulations and finally applied to the analysis of a database on health care several thousand patients in the USA.A final aspect of this work was to focus on the problem of inference in the zero inflation binomial model in the context of missing covariate data. In this case we propose the weighting method by the inverse of the selection probabilities to estimate the parameters of the model. Then, we establish the consistency and asymptotic normality of the estimator offers. Finally, a simulation study on several samples of finite sizes is conducted to evaluate the behavior of the estimator
APA, Harvard, Vancouver, ISO, and other styles
8

Chotteau, Christophe. "Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web." Phd thesis, École Nationale Supérieure des Mines de Paris, 2003. http://pastel.archives-ouvertes.fr/pastel-00001080.

Full text
Abstract:
Parmi les nombreuses méthodes d'accès à l'information présentes sur Internet, la corrélation de divers documents apparaît comme un outil complémentaire permettant aux internautes d'enrichir leurs connaissances sur un document sans avoir à formuler de question. L'objectif de nos travaux est de réaliser une méthode de corrélation sémantique dédiée à la recherche d'information juridique. La méthode que nous dégageons vise à appliquer des outils et techniques d'ingénierie linguistique sur des textes préalablement choisis. Les unités textuelles saillantes les constituant sont alors dégagées, définissant pour chaque document analysé ce que nous appelons une signature lexicale. Ces signatures lexicales servent ensuite d'éléments clefs pour interroger un moteur de recherche dont les résultats représentent l'ensemble des documents corrélés. Cette méthode de corrélation est utilisée et évaluée dans un contexte de recherche d'information sur Internet et plus spécifiquement est intégrée aux développements d'un moteur de recherche. Les principaux apports de nos travaux sont (1) un renouvellement des méthodes de recherche de documents corrélés par l'optimisation des signatures lexicales dédiées, (2) l'élaboration et l'évaluation d'un nouvel indice de pondération statistique noté Tifr, (3) une réflexion sur l'aspect sémantique de la méthode de corrélation exposée, et enfin (4) une proposition concrète de réponse à la problématique de l'accès à l'information dans un contexte juridique.
APA, Harvard, Vancouver, ISO, and other styles
9

Voiculescu, Sorin. "Fiabilité des systèmes embarqués." Phd thesis, Université d'Angers, 2009. http://tel.archives-ouvertes.fr/tel-00468219.

Full text
Abstract:
Les travaux présentés dans cette thèse abordent la problématique de l'estimation de la fiabilité des systèmes qui est devenue un enjeu majeur pour les entreprises et ce dès les premières phases de développement. En effet, plus tôt les caractéristiques d'un produit ou d'un système sont appréhendées dans son cycle de vie et moins les risques ( financiers ou liés à la sécurité des installations ), dus à la non réalisation des performances attendues sont élevés. Dans un contexte exigeant des systèmes de plus en plus fiables et sûrs, et de durées de garanties croissantes, il est impératif de vérifier le plus rapidement possible que les performances des systèmes soient conformes au cahier des charges. La démarche idéale pour identifier la fiabilité d'un produit ou d'un système avant sa fabrication en série, est de procéder à des séries d'essais sur des prototypes, quand ils existent. Cette démarche nécessite un investissement trop important en temps en nombre de prototypes, car ces derniers étant de plus en plus fiables, l'observation de défaillances est de moins en moins probable .
APA, Harvard, Vancouver, ISO, and other styles
10

Fadai-Ghotbi, Atabak. "Modélisation de la turbulence en situation instationnaire par approches URANS et hybride RANS-LES : prise en compte des effets de paroi par pondération elliptique." Phd thesis, Université de Poitiers, 2007. http://tel.archives-ouvertes.fr/tel-00163592.

Full text
Abstract:
L'objectif de ce travail est de prendre en compte les instationnarités naturelles à grande échelle dans les écoulements décollés et à un coût plus faible que la LES, tout en s'intéressant à la modélisation des effets de paroi par des modèles statistiques au second ordre. S'inspirant des approches de Durbin, le modèle à pondération elliptique EB-RSM reproduit l'effet non-local de blocage, en résolvant une équation différentielle sur le terme de pression. La limite à deux composantes de la turbulence est bien prédite en canal. Ce modèle est appliqué à la marche descendante, dans une approche URANS. Nous avons montré que les erreurs numériques peuvent être suffisantes pour exciter le mode le plus instable de la couche cisaillée, et aboutir à une solution instationnaire. La solution est stationnaire quand on raffine le maillage, rendant l'URANS peu fiable. Récemment, Schiestel \& Dejoan ont proposé le modèle hybride non-zonal PITM. Le coefficient $C_{\e_2}$ de l'équation de la dissipation devient fonction de la coupure dans le spectre, et la valeur $C_{\e_1}=3/2$ est déduite par ces auteurs. Nous avons donné une formulation plus générale où la valeur de $C_{\e_1}$ est quelconque. Pour offrir un formalisme plus cohérent aux modèles hybrides non-zonaux dans les écoulements de paroi, une approche basée sur un filtrage temporel est proposée. Enfin, l'adaptation du modèle EB-RSM dans un cadre hybride a été réalisée. Les résultats en canal sont encourageants : la transition continue d'un modèle RANS en proche paroi à une LES au centre du canal est mise en évidence. Le transfert d'énergie des échelles modélisées vers celles résolues est bien reproduit quand on raffine le maillage.
APA, Harvard, Vancouver, ISO, and other styles
11

Shah, Kashif. "Model adaptation techniques in machine translation." Phd thesis, Université du Maine, 2012. http://tel.archives-ouvertes.fr/tel-00718226.

Full text
Abstract:
Nowadays several indicators suggest that the statistical approach to machinetranslation is the most promising. It allows fast development of systems for anylanguage pair provided that sufficient training data is available.Statistical Machine Translation (SMT) systems use parallel texts ‐ also called bitexts ‐ astraining material for creation of the translation model and monolingual corpora fortarget language modeling.The performance of an SMT system heavily depends upon the quality and quantity ofavailable data. In order to train the translation model, the parallel texts is collected fromvarious sources and domains. These corpora are usually concatenated, word alignmentsare calculated and phrases are extracted.However, parallel data is quite inhomogeneous in many practical applications withrespect to several factors like data source, alignment quality, appropriateness to thetask, etc. This means that the corpora are not weighted according to their importance tothe domain of the translation task. Therefore, it is the domain of the training resourcesthat influences the translations that are selected among several choices. This is incontrast to the training of the language model for which well‐known techniques areused to weight the various sources of texts.We have proposed novel methods to automatically weight the heterogeneous data toadapt the translation model.In a first approach, this is achieved with a resampling technique. A weight to eachbitexts is assigned to select the proportion of data from that corpus. The alignmentscoming from each bitexts are resampled based on these weights. The weights of thecorpora are directly optimized on the development data using a numerical method.Moreover, an alignment score of each aligned sentence pair is used as confidencemeasurement.In an extended work, we obtain such a weighting by resampling alignments usingweights that decrease with the temporal distance of bitexts to the test set. By thesemeans, we can use all the available bitexts and still put an emphasis on the most recentone. The main idea of our approach is to use a parametric form or meta‐weights for theweighting of the different parts of the bitexts. This ensures that our approach has onlyfew parameters to optimize.In another work, we have proposed a generic framework which takes into account thecorpus and sentence level "goodness scores" during the calculation of the phrase‐tablewhich results into better distribution of probability mass of the individual phrase pairs.
APA, Harvard, Vancouver, ISO, and other styles
12

Durand, Guillermo. "Tests multiples et bornes post hoc pour des données hétérogènes." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS289/document.

Full text
Abstract:
Ce manuscrit présente mes contributions dans trois domaines des tests multiples où l'hétérogénéité des données peut être exploitée pour mieux détecter le signal tout en contrôlant les faux positifs : pondération des p-valeurs, tests discrets, et inférence post hoc. Premièrement, une nouvelle classe de procédures avec pondération données-dépendante, avec une structure de groupe et des estimateurs de la proportion de vraies nulles, est définie, et contrôle le False Discovery Rate (FDR) asymptotiquement. Cette procédure atteint aussi l'optimalité en puissance sous certaines conditions sur les estimateurs. Deuxièmement, de nouvelles procédures step-up et step-down, adaptées aux tests discrets sous indépendance, sont conçues pour contrôler le FDR pour une distribution arbitraire des marginales des p-valeurs sous l'hypothèse nulle. Finalement, de nouvelles familles de référence pour l'inférence post hoc, adaptées pour le cas où le signal est localisé, sont étudiées, et on calcule les bornes post hoc associées avec un algorithme simple<br>This manuscript presents my contributions in three areas of multiple testing where data heterogeneity can be exploited to better detect false null hypotheses or improve signal detection while controlling false positives: p-value weighting, discrete tests, and post hoc inference. First, a new class of data-driven weighting procedures, incorporating group structure and true null proportion estimators, is defined, and its False Discovery Rate (FDR) control is proven asymptotically. This procedure also achieves power optimality under some conditions on the proportion estimators. Secondly, new step-up and step-down procedures, tailored for discrete tests under independence, are designed to control the FDR for arbitrary p-value null marginals. Finally, new confidence bounds for post hoc inference (called post hoc bounds), tailored for the case where the signal is localized, are studied, and the associated optimal post hoc bounds are derived with a simple algorithm
APA, Harvard, Vancouver, ISO, and other styles
13

Gerchinovitz, Sébastien. "Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00653550.

Full text
Abstract:
Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique.
APA, Harvard, Vancouver, ISO, and other styles
14

Greliche, Nicolas. "Stratégies de recherches de phénomènes d'interactions dans les maladies multifactorielles." Phd thesis, Université Paris Sud - Paris XI, 2013. http://tel.archives-ouvertes.fr/tel-00834766.

Full text
Abstract:
Les études d'associations en génome entier ("GWAS") ont récemment permis la découverte de nombreux polymorphismes génétiques impliqués dans la susceptibilité aux maladies multifactorielles. Cependant, ces polymorphismes n'expliquent qu'une faible part de l'héritabilité génétique de ces maladies, nous poussant ainsi à explorer de nouvelles pistes de recherche. Une des hypothèses envisagées serait qu'une partie de cette héritabilité manquante fasse intervenir des phénomènes d'interactions entre polymorphismes génétiques. L'objectif de cette thèse est d'explorer cette hypothèse en adoptant une stratégie de recherche d'interactions basée sur des critères statistiques et biologiques à partir de données issues de différentes études "GWAS". Ainsi, en utilisant différentes méthodes statistiques, nous avons commencé par rechercher des interactions entre polymorphismes qui pourraient influencer le risque de thrombose veineuse. Cette recherche n'a malheureusement pas abouti à l'identification de résultats robustes vis à vis du problème des tests multiples. Dans un deuxième temps, à partir d'hypothèses "plus biologiques", nous avons tenté de mettre en évidence des interactions entre polymorphismes impliqués dans les mécanismes de régulation de l'expression génique associés aux microARNs. Nous avons pu ainsi montrer de manière robuste dans deux populations indépendantes qu'un polymorphisme au sein de la séquence du microARN hsa-mir-219-1 interagissait avec un polymorphisme du gène HLA-DPB1 pour en moduler l'expression monocytaire. Nous avons également montré que l'expression monocytaire du gène H1F0 était influencée par un phénomène d'interaction impliquant un polymorphisme du microARN hsa-mir-659. En apportant sa propre contribution à l'engouement récent que suscite la recherche d'interactions entre polymorphismes dans les maladies dites complexes, ce travail de thèse illustre clairement la difficulté d'une telle tâche et l'importance de réfléchir à de nouvelles stratégies de recherches.
APA, Harvard, Vancouver, ISO, and other styles
15

Greliche, Nicolas. "Stratégies de recherches de phénomènes d’interactions dans les maladies multifactorielles." Thesis, Paris 11, 2013. http://www.theses.fr/2013PA11T003/document.

Full text
Abstract:
Les études d'associations en génome entier ("GWAS") ont récemment permis la découverte de nombreux polymorphismes génétiques impliqués dans la susceptibilité aux maladies multifactorielles. Cependant, ces polymorphismes n'expliquent qu'une faible part de l'héritabilité génétique de ces maladies, nous poussant ainsi à explorer de nouvelles pistes de recherche. Une des hypothèses envisagées serait qu'une partie de cette héritabilité manquante fasse intervenir des phénomènes d'interactions entre polymorphismes génétiques. L'objectif de cette thèse est d'explorer cette hypothèse en adoptant une stratégie de recherche d'interactions basée sur des critères statistiques et biologiques à partir de données issues de différentes études "GWAS". Ainsi, en utilisant différentes méthodes statistiques, nous avons commencé par rechercher des interactions entre polymorphismes qui pourraient influencer le risque de thrombose veineuse. Cette recherche n'a malheureusement pas abouti à l'identification de résultats robustes vis à vis du problème des tests multiples. Dans un deuxième temps, à partir d'hypothèses "plus biologiques", nous avons tenté de mettre en évidence des interactions entre polymorphismes impliqués dans les mécanismes de régulation de l'expression génique associés aux microARNs. Nous avons pu ainsi montrer de manière robuste dans deux populations indépendantes qu'un polymorphisme au sein de la séquence du microARN hsa-mir-219-1 interagissait avec un polymorphisme du gène HLA-DPB1 pour en moduler l'expression monocytaire. Nous avons également montré que l'expression monocytaire du gène H1F0 était influencée par un phénomène d'interaction impliquant un polymorphisme du microARN hsa-mir-659. En apportant sa propre contribution à l'engouement récent que suscite la recherche d'interactions entre polymorphismes dans les maladies dites complexes, ce travail de thèse illustre clairement la difficulté d'une telle tâche et l'importance de réfléchir à de nouvelles stratégies de recherches<br>Recently, Genome-Wide Association Studies (GWAS) have led to the discovery of numerous genetic polymorphisms involved in complex human diseases. However, these polymorphisms contribute only a little to the overall genetic variability of these diseases, suggesting the need for new kind of investigations in order to disentangle the so-called "missing heritability". The purpose of my PhD project was to investigate how different research strategies relying on statistical and biological considerations could help in determining whether part of this missing heritability could reside in interaction phenomena between genetic polymorphisms. Firstly, we applied different statistical methodologies and looked for interactions between polymorphisms that could influence the risk of venous thrombosis (VT). Even though this study was based on two large GWAS datasets, we were not able to identify pairwise interactions that survive multiple testing. This work suggests that strong interactive phenomena between common SNPs are unlikely to contribute much to the risk of VT. Second, by adopting a hypothesis-driven approach relying on biological arguments, we sought for interactions between microRNA related polymorphisms that could alter genetic expression. Using two large GWAS datasets in which genome-wide monocyte expression was also available, we were able to demonstrate the existence of two pairwise interaction phenomena on monocyte expression involving miRNAs polymorphisms: 1/ the expression of HLA-DPB1 was modulated by a polymorphism in its 3'UTR region with a polymorphism in the hsa-mir-219-1 microRNA sequence; 2/ similarly, the expression of H1F0 was influenced by a polymorphism in its 3'UTR region interacting with a polymorphism in the microRNA hsa-mir-659. Altogether, this project supports for the role of gene x gene interactions in the interindividual variability of biological processes but their identifications remain a tedious task requiring large samples and the development of new research strategies and methodologies
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!