Dissertations / Theses: 'Modèles linéaires généralisés [GLM]'

1

Le, Tertre Alain. "Séries temporelles et analyse combinée des liens pollution atmosphérique et santé." Paris 6, 2005. http://www.theses.fr/2005PA066434.

Full text

APA, Harvard, Vancouver, ISO, and other styles

2

Zeghnoun, Abdelkrim. "Relation à court terme entre pollution atmosphérique et santé : quelques aspects statistiques et épidémiologiques." Paris 7, 2002. http://www.theses.fr/2002PA077199.

Full text

APA, Harvard, Vancouver, ISO, and other styles

3

Peyhardi, Jean. "Une nouvelle famille de modèles linéaires généralisés (GLMs) pour l'analyse de données catégorielles ; application à la structure et au développement des plantes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-00936845.

Full text

Abstract:

Le but de cette thèse est de proposer une nouvelle classe de GLMs pour une variable réponse catégorielle structurée hiérarchiquement, comme une variable partiellement ordonnée par exemple. Une première étape a été de mettre en évidence les différences et les point communs entre les GLMs pour variables réponses nominale et ordinale. Sur cette base nous avons introduit une nouvelle spécification des GLMs pour variable réponse catégorielle, qu'elle soit ordinale ou nominale, basée sur trois composantes : le ratio de probabilitées r, la fonction de répartition F et la matrice de design Z. Ce cadre de travail nous a permis de définir une nouvelle famille de modèles pour données nominales, comparable aux familles de modèles cumulatifs, séquentiels et adjacents pour données ordinales. Puis nous avons défini la classe des modèles linéaires généralisés partitionnés conditionnels (PCGLMs) en utilisant des arbres orientés et la specification (r,F,Z). Dans notre contexte biologique, les données sont des séquences multivariées composées d'une variable réponse catégorielle (le type de production axillaire) et de variables explicatives (longueur de l'entre-noeud par exemple). Dans les combinaisons semi-markoviennes de modèles linéaires généralisés partitionnés conditionnés (SMS-PCGLM) estimées sur la base de ces séquences, la semi-chaîne de Markov sous-jacente représente la succession et les longueurs des zones de ramification, tandis que les PCGLMs représentent, l'influence des variables explicatives de croissance sur les productions axillaires dans chaque zone de ramification. En utilisant ces modèles statistiques intégratifs, nous avons montré que la croissance de la pousse influençait des événements de ramification particuliers.

APA, Harvard, Vancouver, ISO, and other styles

4

Milhaud, Xavier. "Mélanges de GLMs et nombre de composantes : application au risque de rachat en Assurance Vie." Thesis, Lyon 1, 2012. http://www.theses.fr/2012LYO10097/document.

Full text

Abstract:

La question du rachat préoccupe les assureurs depuis longtemps notamment dans le contexte des contrats d'épargne en Assurance-Vie, pour lesquels des sommes colossales sont en jeu. L'émergence de la directive européenne Solvabilité II, qui préconise le développement de modèles internes (dont un module entier est dédié à la gestion des risques de comportement de rachat), vient renforcer la nécessité d'approfondir la connaissance et la compréhension de ce risque. C'est à ce titre que nous abordons dans cette thèse les problématiques de segmentation et de modélisation des rachats, avec pour objectif de mieux connaître et prendre en compte l'ensemble des facteurs-clefs qui jouent sur les décisions des assurés. L'hétérogénéité des comportements et leur corrélation ainsi que l'environnement auquel sont soumis les assurés sont autant de difficultés à traiter de manière spécifique afin d'effectuer des prévisions. Nous développons ainsi une méthodologie qui aboutit à des résultats très encourageants ; et qui a l'avantage d'être réplicable en l'adaptant aux spécificités de différentes lignes de produits. A travers cette modélisation, la sélection de modèle apparaît comme un point central. Nous le traitons en établissant les propriétés de convergence forte d'un nouvel estimateur, ainsi que la consistance d'un nouveau critère de sélection dans le cadre de mélanges de modèles linéaires généralisés
Insurers have been concerned about surrenders for a long time especially in Saving business, where huge sums are at stake. The emergence of the European directive Solvency II, which promotes the development of internal risk models (among which a complete unit is dedicated to surrender risk management), strengthens the necessity to deeply study and understand this risk. In this thesis we investigate the topics of segmenting and modeling surrenders in order to better know and take into account the main risk factors impacting policyholders’ decisions. We find that several complex aspects must be specifically dealt with to predict surrenders, in particular the heterogeneity of behaviours and their correlations as well as the context faced by the insured. Combining them, we develop a methodology that seems to provide good results on given business lines, and that moreover can be adapted for other products with little effort. However the model selection step suffers from a lack of parsimoniousness: we suggest to use another criteria based on a new estimator, and prove its consistant properties in the framework of mixtures of generalized linear models

APA, Harvard, Vancouver, ISO, and other styles

5

Trottier, Catherine. "Estimation dans les modèles linéaires généralisés à effets aléatoires." Phd thesis, Grenoble INPG, 1998. http://tel.archives-ouvertes.fr/tel-00004908.

Full text

Abstract:

Ce travail est consacré à l'étude et à la mise en place de méthodes d'estimation de paramètres dans les modèles linéaires généralisés à effets aléatoires (GL2M). Dans ces modèles, sous une hypothèse gaussienne de distribution des effets aléatoires $\xi$, la vraisemblance basée sur la distribution marginale du vecteur à expliquer $Y$ n'est pas en général explicitement calculable. Diverses approximations peuvent être appliquées. Nous distinguons pour cela deux approches : l'une conditionnelle et l'autre marginale. En suivant la première, nous proposons une méthode qui consiste en une maximisation de la distribution jointe de ($Y,\xi$) avant de procéder à l'estimation des paramètres. Ceci équivaut à une linéarisation conditionnelle du modèle. Dans la seconde approche, nous étudions une démarche marginale qui repose sur l'approximation des deux premiers moments marginaux de $Y$ puis sur l'utilisation de la quasi-vraisemblance. Nous étendons à d'autres lois et fonctions de lien la méthode développée par Gilmour et al. dans le cas d'un modèle binomial-lien probit. Nous comparons les différentes méthodes selon une échelle de déconditionnement. Dans un deuxième temps, nous introduisons une notion d'hétérogénéité dans les GL2M. Cette hétérogénéité traduit des comportements des effets aléatoires distincts selon les environnements. Elle est modélisée en attribuant à chaque environnement un paramètre de variance différent pour ces effets. Nous proposons alors une méthode d'estimation combinant à la fois la technique de linéarisation de la démarche conditionnelle précédente et l'utilisation de l'algorithme EM, bien adapté à cette situation d'hétérogénéité dans le cas linéaire.

APA, Harvard, Vancouver, ISO, and other styles

6

Bonneu, Michel. "Choix de modèles linéaires généralisés en vue de la prédiction." Toulouse 3, 1986. http://www.theses.fr/1986TOU30103.

Full text

Abstract:

Dans le cadre du modèle linéaire généralisé, on définit un critère de prédiction par analogie au critère d'information d'akaike, base sur l’espérance mathématique de l'information de kullback-leibler entre la vraie densité et une pseudo densité estimée. Ce critère a pour objectif de déterminer un pseudo modèle de prédiction, défini par un sous ensemble de variables explicatives le plus réduit possible et une fonction de lien au sens de Nelder. L’estimation de ce critère conduit à définir dans le cas du modèle linéaire gaussien une statistique qui a une expression analogue aux estimateurs de l'erreur quadratique moyenne de prédiction proposée par o. Bunke et b. Droge. Dans les autres cas, un estimateur simule du bootstrap ou un calcul asymptotique est proposé pour répondre à l'estimation du critère. Ces deux situations sont illustrées par deux applications: une première relative à une anova dans un plan complet déséquilibré et une seconde relative au cas de réponses dichotomiques dans le cadre binominal, qui m et en œuvre la méthode de simulation du bootstrap au moyen du logiciel Glim et qui utilise des variables construites au sens de atkinson

APA, Harvard, Vancouver, ISO, and other styles

7

Lakhal, Chaieb M'hamed Lajmi. "Utilisation des modèles linéaires généralisés pour estimer la taille d'une population animale fermée." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1999. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape10/PQDD_0005/MQ44684.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

8

Chauvet, Jocelyn. "Introducing complex dependency structures into supervised components-based models." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS008/document.

Full text

Abstract:

Une forte redondance des variables explicatives cause de gros problèmes d'identifiabilité et d'instabilité des coefficients dans les modèles de régression. Même lorsque l'estimation est possible, l'interprétation des résultats est donc extrêmement délicate. Il est alors indispensable de combiner à leur vraisemblance un critère supplémentaire qui régularise l'estimateur. Dans le sillage de la régression PLS, la stratégie de régularisation que nous considérons dans cette thèse est fondée sur l'extraction de composantes supervisées. Contraintes à l'orthogonalité entre elles, ces composantes doivent non seulement capturer l'information structurelle des variables explicatives, mais aussi prédire autant que possible les variables réponses, qui peuvent être de types divers (continues ou discrètes, quantitatives, ordinales ou nominales). La régression sur composantes supervisées a été développée pour les GLMs multivariés, mais n'a jusqu'alors concerné que des modèles à observations indépendantes.Or dans de nombreuses situations, les observations sont groupées. Nous proposons une extension de la méthode aux GLMMs multivariés, pour lesquels les corrélations intra-groupes sont modélisées au moyen d'effets aléatoires. À chaque étape de l'algorithme de Schall permettant l'estimation du GLMM, nous procédons à la régularisation du modèle par l'extraction de composantes maximisant un compromis entre qualité d'ajustement et pertinence structurelle. Comparé à la régularisation par pénalisation de type ridge ou LASSO, nous montrons sur données simulées que notre méthode non seulement permet de révéler les dimensions explicatives les plus importantes pour l'ensemble des réponses, mais fournit souvent une meilleure prédiction. La méthode est aussi évaluée sur données réelles.Nous développons enfin des méthodes de régularisation dans le contexte spécifique des données de panel (impliquant des mesures répétées sur différents individus aux mêmes dates). Deux effets aléatoires sont introduits : le premier modélise la dépendance des mesures relatives à un même individu, tandis que le second modélise un effet propre au temps (possédant donc une certaine inertie) partagé par tous les individus. Pour des réponses Gaussiennes, nous proposons d'abord un algorithme EM pour maximiser la vraisemblance du modèle pénalisée par la norme L2 des coefficients de régression. Puis nous proposons une alternative consistant à donner une prime aux directions les plus "fortes" de l'ensemble des prédicteurs. Une extension de ces approches est également proposée pour des données non-Gaussiennes, et des tests comparatifs sont effectués sur données Poissonniennes
High redundancy of explanatory variables results in identification troubles and a severe lack of stability of regression model estimates. Even when estimation is possible, a consequence is the near-impossibility to interpret the results. It is then necessary to combine its likelihood with an extra-criterion regularising the estimates. In the wake of PLS regression, the regularising strategy considered in this thesis is based on extracting supervised components. Such orthogonal components must not only capture the structural information of the explanatory variables, but also predict as well as possible the response variables, which can be of various types (continuous or discrete, quantitative, ordinal or nominal). Regression on supervised components was developed for multivariate GLMs, but so far concerned models with independent observations.However, in many situations, the observations are grouped. We propose an extension of the method to multivariate GLMMs, in which within-group correlations are modelled with random effects. At each step of Schall's algorithm for GLMM estimation, we regularise the model by extracting components that maximise a trade-off between goodness-of-fit and structural relevance. Compared to penalty-based regularisation methods such as ridge or LASSO, we show on simulated data that our method not only reveals the important explanatory dimensions for all responses, but often gives a better prediction too. The method is also assessed on real data.We finally develop regularisation methods in the specific context of panel data (involving repeated measures on several individuals at the same time-points). Two random effects are introduced: the first one models the dependence of measures related to the same individual, while the second one models a time-specific effect (thus having a certain inertia) shared by all the individuals. For Gaussian responses, we first propose an EM algorithm to maximise the likelihood penalised by the L2-norm of the regression coefficients. Then, we propose an alternative which rather gives a bonus to the "strongest" directions in the explanatory subspace. An extension of these approaches is also proposed for non-Gaussian data, and comparative tests are carried out on Poisson data

APA, Harvard, Vancouver, ISO, and other styles

9

Veilleux, Lucie. "Modélisation de la trajectoire criminelle de jeunes contrevenants à l'aide de modèles linéaires généralisés mixtes." Thesis, Université Laval, 2005. http://www.theses.ulaval.ca/2005/23128/23128.pdf.

Full text

Abstract:

La régression linéaire est souvent utilisée en pratique afin de trouver une relation entre une variable réponse et une ou plusieurs variable(s) explicative(s). Une lacune de cette méthode est qu’elle est inappropriée si la variable réponse en est une de dénombrement. Dans un tel cas, la régression de Poisson doit être utilisée. Ce mémoire décrira de façon détaillée la régression de Poisson. Les propriétés de la loi de Poisson seront énoncées dans le but d’expliquer la régression de Poisson. Les équations d’estimation généralisées (GEE) seront ensuite introduites dans un éventuel but d’élargir la régression de Poisson dans les situations où les données sont corrélées (par exemple, les données longitudinales). Les modèles linéaires généralisés mixtes seront aussi considérés. Les modèles additifs généralisés seront ensuite brièvement expliqués et nous présenterons finalement une étude détaillée d’une base de données sur les trajectoires criminelles de jeunes contrevenants.

APA, Harvard, Vancouver, ISO, and other styles

10

Martinez, Marie-José. "Modèles linéaires généralisés à effets aléatoires : contributions au choix de modèle et au modèle de mélange." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2006. http://tel.archives-ouvertes.fr/tel-00388820.

Full text

Abstract:

Ce travail est consacré à l'étude des modèles linéaires généralisés à effets aléatoires (GL2M). Dans ces modèles, sous une hypothèse de distribution normale des effets aléatoires, la vraisemblance basée sur la distribution marginale du vecteur à expliquer n'est pas, en général, calculable de façon formelle. Dans la première partie de notre travail, nous revisitons différentes méthodes d'estimation non exactes par le biais d'approximations réalisées à différents niveaux selon les raisonnements. La deuxième partie est consacrée à la mise en place de critères de sélection de modèles au sein des GL2M. Nous revenons sur deux méthodes d'estimation nécessitant la construction de modèles linéarisés et nous proposons des critères basés sur la vraisemblance marginale calculée dans le modèle linéarisé obtenu à la convergence de la procédure d'estimation. La troisième et dernière partie s'inscrit dans le cadre des modèles de mélanges de GL2M. Les composants du mélange sont définis par des GL2M et traduisent différents états possibles des individus. Dans le cadre de la loi exponentielle, nous proposons une méthode d'estimation des paramètres du mélange basée sur une linéarisation spécifique à cette loi. Nous proposons ensuite une méthode plus générale puisque s'appliquant à un mélange de GL2M quelconques. Cette méthode s'appuie sur une étape de Metropolis-Hastings pour construire un algorithme de type MCEM. Les différentes méthodes développées sont testées par simulations.

APA, Harvard, Vancouver, ISO, and other styles

11

Loum, Mor Absa. "Modèle de mélange et modèles linéaires généralisés, application aux données de co-infection (arbovirus & paludisme)." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS299/document.

Full text

Abstract:

Nous nous intéressons, dans cette thèse, à l'étude des modèles de mélange et des modèles linéaires généralisés, avec une application aux données de co-infection entre les arbovirus et les parasites du paludisme. Après une première partie consacrée à l'étude de la co-infection par un modèle logistique multinomial, nous proposons dans une deuxième partie l'étude des mélanges de modèles linéaires généralisés. La méthode proposée pour estimer les paramètres du mélange est une combinaison d'une méthode des moments et d'une méthode spectrale. Nous proposons à la fin une dernière partie consacrée aux mélanges de valeurs extrêmes en présence de censure. La méthode d'estimation proposée dans cette partie se fait en deux étapes basées sur la maximisation d'une vraisemblance
We are interested, in this thesis, to the study of mixture models and generalized linear models, with an application to co-infection data between arboviruses and malaria parasites. After a first part dedicated to the study of co-infection using a multinomial logistic model, we propose in a second part to study the mixtures of generalized linear models. The proposed method to estimate the parameters of the mixture is a combination of a moment method and a spectral method. Finally, we propose a final section for studing extreme value mixtures under random censoring. The estimation method proposed in this section is done in two steps based on the maximization of a likelihood

APA, Harvard, Vancouver, ISO, and other styles

12

Semenou, Michel. "Construction de plans expérimentaux et propriétés de modèles linéaires généralisés mal spécifiés : application à une étude de fiabilité." Toulouse 3, 1994. http://www.theses.fr/1994TOU30006.

Full text

Abstract:

On s'interesse a des courbes de type dose-reponse et plus particulierement a l'estimation d'un quantile correspondant a une probabilite de reponse donnee. On se place pour cela dans le cadre du modele lineaire generalise. Dans un premier temps, on presente une methode de construction sequentielle d'un plan experimental en vue de l'estimation de ce parametre d'interet et ce, en envisageant plusieurs modeles pour la courbe de reponse. Les resultats obtenus sont compares a ceux issus de methodes proposees dans la litterature. Dans un deuxieme temps, on etudie les proprietes asymptotiques de l'estimateur du maximum de vraisemblance de ce quantile dans le cas ou le modele considere pour la description de la courbe dose-reponse est mal specifie. On determine alors a partir de quelle taille d'echantillon il est preferable de retenir un modele comportant plus de parametres conduisant a une meilleure estimation du quantile d'interet au sens de l'erreur quadratique moyenne

APA, Harvard, Vancouver, ISO, and other styles

13

Kide, Saïkou Oumar. "Analyse de la diversité et de la structuration spatio-temporelle des assemblages démersaux dans la zone économique exclusive mauritanienne." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0085/document.

Full text

Abstract:

La zone économique exclusive Mauritanienne est le siège d’upwelling et constitue une zone de transition où cohabitent des espèces d’affinités tempérée et tropicale. Pour comprendre le comportement spatio-temporel des assemblages démersaux du point de vue de leur composition, structuration, distribution de probabilité et diversité face aux préoccupations écologiques. Les facteurs abiotiques contribuent à la structuration des assemblages démersaux persistants au cours du temps. Les effets de la pêche étaient relativement faibles. Les trajectoires temporelles entre les assemblages et les conditions environnementales ont été mises en évidence pour certaines années et des zones. Dans les types d’habitats, un groupe minoritaire d’espèces très agrégatives obéissant au modèle de distribution en log-séries de Fisher et un autre majoritaire peu ou pas du tout agrégatives obéissant au modèle de distribution binomiale négative tronquée ont été identifiés. La diversité spécifique peut être divisé en deux groupes distincts et complémentaires : la richesse spécifique et l'autre associé à l’équitabilité. Un seul composant de la diversité ne peut donc pas représenter la diversité des poissons démersaux de la zone étudiée. Les GLM des indices complémentaires ont montré essentiellement un effet temporel et l’interaction Année-Strates bathymétriques. Aucun effet de l’effort de pêche n’a été observé sur la richesse spécifique, ni de la concentration en chlorophylle sur l’équitabilité. Ce travail pourrait fournir aux gestionnaires et aux scientifiques des connaissances complémentaires sur la dynamique spatio-temporelle des assemblages démersaux exploités dans des écosystèmes d’upwelling
The Mauritanian exclusive economic zone is the seat of an upwelling phenomenon and constitutes a transition zone where species of temperate and tropical affinities coexist. To understand the spatio-temporal behavior of demersal assemblages from the point of view of their composition, structure, distribution of probability and diversity faced to ecological concerns. Abiotic factors contribute in the structuring of persistent groundfish assemblages over time. The fishing effects were relatively low, although significant in some years and in some specific geographic areas. Temporal trajectories between groundfish assemblages and environmental conditions have been highlighted for some years and in some specific areas. In each type habitats, two species groups were identified: a minority group of species very aggregative well fitted by Fisher’s log-series distribution and another majority of species little or not aggregative well fitted by the truncated negative binomial distribution. Diversity indices analyzed reveal that this set can be split into two distinct and complementary groups: a group associated with the species richness and another group associated with evenness. One component of diversity may not represent the diversity of the groundfish in the study area. GLMs of complementary indices showed essentially a temporal effect and Bathymetric strata-Year interaction. No effect of fishing effort was observed on the species richness and neither was the concentration of chlorophyll a on the evenness. This work could provide managers and scientists to further knowledge on the spatio-temporal dynamics of groundfish species assemblages exploited in upwelling ecosystems

APA, Harvard, Vancouver, ISO, and other styles

14

Godeau, Ugoline. "Améliorer la pertinence et l’efficacité des modèles statistiques en écologie : extension des fonctions sigmoïdes dans le cadre de l’étude de la distribution de la biodiversité." Thesis, Orléans, 2020. http://www.theses.fr/2020ORLE3049.

Full text

Abstract:

La modélisation est un outil majeur en écologie pour décrire et comprendre les écosystèmes ou prédire leur réponse. Nous nous sommes intéressés aux modèles non-linéaires de forme sigmoïdale en macro-écologie avec pour objectif de mieux les définir, d’en comprendre les limites et de proposer des améliorations. Nous les avons d’abord étudiés dans des modèles de biodiversité hiérarchiques Bayésiens.Nous avons démontré que la prise en compte de variations aléatoires de différents paramètres de fonctions sigmoïdales avait un impact sur l’estimation des effets. Nous nous sommes ensuite intéressés aux modèles linéaires généralisés binomiaux binaires pour lesquels nous avons comparé la fonction classique logistique à d’autres fonctions sigmoïdales dont les asymptotes étaient estimées. Cela a permis de mettre en évidence les erreurs d’estimation induites par l’utilisation de la fonction logistique classique si les données ne sont pas cohérentes avec ce modèle. Enfin, nous avons appliqué ces fonctions logistiques avec asymptotes estimées dans le cadre de modèles d’occurrence hiérarchiques multi-espèces, grâce auxquels nous avons pu établir un intérêt probable de l’estimation des asymptotes. Les résultats instables ne nous ont pas permis de développer des conclusions écologiques. Lors de ces différents travaux, nous avons utilisé différents outils d’évaluation et interprétation des modèles, et prôné leur utilisation conjointe. En conclusion, nous avons développé de nouveaux modèles statistiques non-linéaires sigmoïdaux, qui sont de nouveaux outils pour l’écologue permettant d’enrichir sa palette pour mieux estimer les relations entre des variables et des données de biodiversité
Modeling is a major tool in ecology to describe and understand ecosystems or predict their response. We here focused our attention on non-linear sigmoidal models in macroecology, in order to better define them, understand their limitations and suggest improvements. We first studied them in hierarchical Bayesian biodiversity models. We found that taking into account random variations of different parameters of sigmoidal functions has an impact on the estimation of the effects. We then turned our attention to binary binomial generalized linear models for which we compared the classical logistic function to other sigmoidal functions whose asymptotes were estimated. We found strong estimation errors induced by the use of the classical logistic function if the data are not consistent with this model. Finally, we applied these logistic functions with estimated asymptotes in the context of hierarchical joint species occurrence models, thanks to which we were able to demonstrate the usefulness of considering the estimation of asymptotes. However,the unstable results did not allow us to develop ecological conclusions. Throughout, we have used varioustools to better apprehend model evaluation and proposed that they should be used jointly. In conclusion, we have developed new forms of non-linear sigmoidal statistical models, which are new tools for the ecologist allowing to enrich his/her toolbox to better estimate the relationships between ecological variables andbiodiversity data

APA, Harvard, Vancouver, ISO, and other styles

15

Bérubé, Valérie. "Modèles avancés en régression appliqués à la tarification IARD." Thesis, Université Laval, 2007. http://www.theses.ulaval.ca/2007/24329/24329.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

16

Blazere, Melanie. "Inférence statistique en grande dimension pour des modèles structurels. Modèles linéaires généralisés parcimonieux, méthode PLS et polynômes orthogonaux et détection de communautés dans des graphes." Thesis, Toulouse, INSA, 2015. http://www.theses.fr/2015ISAT0018/document.

Full text

Abstract:

Cette thèse s'inscrit dans le cadre de l'analyse statistique de données en grande dimension. Nous avons en effet aujourd'hui accès à un nombre toujours plus important d'information. L'enjeu majeur repose alors sur notre capacité à explorer de vastes quantités de données et à en inférer notamment les structures de dépendance. L'objet de cette thèse est d'étudier et d'apporter des garanties théoriques à certaines méthodes d'estimation de structures de dépendance de données en grande dimension.La première partie de la thèse est consacrée à l'étude de modèles parcimonieux et aux méthodes de type Lasso. Après avoir présenté les résultats importants sur ce sujet dans le chapitre 1, nous généralisons le cas gaussien à des modèles exponentiels généraux. La contribution majeure à cette partie est présentée dans le chapitre 2 et consiste en l'établissement d'inégalités oracles pour une procédure Group Lasso appliquée aux modèles linéaires généralisés. Ces résultats montrent les bonnes performances de cet estimateur sous certaines conditions sur le modèle et sont illustrés dans le cas du modèle Poissonien. Dans la deuxième partie de la thèse, nous revenons au modèle de régression linéaire, toujours en grande dimension mais l'hypothèse de parcimonie est cette fois remplacée par l'existence d'une structure de faible dimension sous-jacente aux données. Nous nous penchons dans cette partie plus particulièrement sur la méthode PLS qui cherche à trouver une décomposition optimale des prédicteurs étant donné un vecteur réponse. Nous rappelons les fondements de la méthode dans le chapitre 3. La contribution majeure à cette partie consiste en l'établissement pour la PLS d'une expression analytique explicite de la structure de dépendance liant les prédicteurs à la réponse. Les deux chapitres suivants illustrent la puissance de cette formule aux travers de nouveaux résultats théoriques sur la PLS . Dans une troisième et dernière partie, nous nous intéressons à la modélisation de structures au travers de graphes et plus particulièrement à la détection de communautés. Après avoir dressé un état de l'art du sujet, nous portons notre attention sur une méthode en particulier connue sous le nom de spectral clustering et qui permet de partitionner les noeuds d'un graphe en se basant sur une matrice de similarité. Nous proposons dans cette thèse une adaptation de cette méthode basée sur l'utilisation d'une pénalité de type l1. Nous illustrons notre méthode sur des simulations
This thesis falls within the context of high-dimensional data analysis. Nowadays we have access to an increasing amount of information. The major challenge relies on our ability to explore a huge amount of data and to infer their dependency structures.The purpose of this thesis is to study and provide theoretical guarantees to some specific methods that aim at estimating dependency structures for high-dimensional data. The first part of the thesis is devoted to the study of sparse models through Lasso-type methods. In Chapter 1, we present the main results on this topic and then we generalize the Gaussian case to any distribution from the exponential family. The major contribution to this field is presented in Chapter 2 and consists in oracle inequalities for a Group Lasso procedure applied to generalized linear models. These results show that this estimator achieves good performances under some specific conditions on the model. We illustrate this part by considering the case of the Poisson model. The second part concerns linear regression in high dimension but the sparsity assumptions is replaced by a low dimensional structure underlying the data. We focus in particular on the PLS method that attempts to find an optimal decomposition of the predictors given a response. We recall the main idea in Chapter 3. The major contribution to this part consists in a new explicit analytical expression of the dependency structure that links the predictors to the response. The next two chapters illustrate the power of this formula by emphasising new theoretical results for PLS. The third and last part is dedicated to graphs modelling and especially to community detection. After presenting the main trends on this topic, we draw our attention to Spectral Clustering that allows to cluster nodes of a graph with respect to a similarity matrix. In this thesis, we suggest an alternative to this method by considering a $l_1$ penalty. We illustrate this method through simulations

APA, Harvard, Vancouver, ISO, and other styles

17

Schülke, Christophe. "Statistical physics of linear and bilinear inference problems." Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCC058.

Full text

Abstract:

Le développement récent de l'acquisition comprimée a permis de spectaculaires avancées dans la compréhension des problèmes d'estimation linéaire parcimonieuse. Ce développement a suscité un intérêt renouvelé pour les problèmes d'inférence linéaire et bilinéaire généralisée. Ces problèmes combinent une étape linéaire avec une étape non lineaire et probabiliste, à l'issue de laquelle des mesures sont effectuées. Ce type de situations se présente notamment en imagerie médicale et en astronomie. Cette thèse s'intéresse à des algorithmes pour la résolution de ces problèmes et à leur analyse théorique. Pour cela, nous utilisons des algorithmes de passage de message, qui permettent d'échantillonner des distributions de haute dimension. Ces algorithmes connaissent des changements de phase, qui se laissent analyser à l'aide de la méthode des répliques, initialement développée dans le cadre de la physique statistique des milieux désordonnés. L'analyse des phases révèle qu'elles correspondent à des domaines dans lesquels l'inférence est facile, difficile ou impossible. Les principales contributions de cette thèse sont de trois types. D'abord, l'application d'algorithmes connus à des problèmes concrets : détection de communautés, codes correcteurs d'erreurs ainsi qu'un système d'imagerie innovant. Ensuite, un nouvel algorithme traitant le problème de calibration aveugle de capteurs, potentiellement applicable à de nombreux systèmes de mesure. Enfin, une analyse théorique du problème de reconstruction de matrices à petit rang à partir de projections linéaires, ainsi qu'une analyse d'une instabilité présente dans les algorithmes d'inférence bilinéaire
The recent development of compressed sensing has led to spectacular advances in the under standing of sparse linear estimation problems as well as in algorithms to solve them. It has also triggered anew wave of developments in the related fields of generalized linear and bilinear inference problems. These problems have in common that they combine a linear mixing step and a nonlinear, probabilistic sensing step, producing indirect measurements of a signal of interest. Such a setting arises in problems such as medical or astronomical Imaging. The aim of this thesis is to propose efficient algorithms for this class of problems and to perform their theoretical analysis. To this end, it uses belief propagation, thanks to which high-dimensional distributions can be sampled efficiently, thus making a bayesian approach to inference tractable. The resulting algorithms undergo phase transitions that can be analyzed using the replica method, initially developed in statistical physics of disordered systems. The analysis reveals phases in which inference is easy, hard or impossible, corresponding to different energy landscapes of the problem. The main contributions of this thesis can be divided into three categories. First, the application of known algorithms to concrete problems : community detection, superposition codes and an innovative imaging system. Second, a new, efficient message-passing algorithm for blind sensor calibration, that could be used in signal processing for a large class of measurement systems. Third, a theoretical analysis of achievable performances in matrix compressed sensing and of instabilities in bayesian bilinear inference algorithms

APA, Harvard, Vancouver, ISO, and other styles

18

Rekik, Donia. "Vers une approche dynamique du processus de la notation souveraine." Thesis, Paris 8, 2018. http://www.theses.fr/2018PA080062.

Full text

Abstract:

L’objet de cette thèse consiste à élaborer un cadre conceptuel et statistique destiné à une meilleure compréhension du processus de la notation souveraine. La thèse propose une démarche à plusieurs niveaux dans la perspective (i) de dévoiler les limites de l’expertise des agences de rating à travers les divergences et les erreurs de notation (ii) de conduire une reconstitution classique des notations souveraines et (iii) de revisiter le processus de notation à travers une reconstitution dynamique des notes. Les résultats de la reconstitution classique révèlent que les notations des PED reflètent leurs conjonctures socioéconomiques et financières, alors que celles des PD sont considérablement influencées par l’intervention subjective des analystes. Les études menées dans une perspective dynamique reposent sur la construction et la modélisation des parcours de notation. Une première étude conduite par la méthode MDS, a permis de dégager la typologie des parcours de notation, en distinguant les pays les plus stables des pays les plus vulnérables face aux récentes crises. Une deuxième étude consiste à modéliser les parcours de notation dans le cadre des processus de points marqués (modèle ACD et Probit ordonné). Les résultats mettent en avant une accélération des épisodes d’abaissement des notes en période de crises. L’introduction du facteur de l’hétérogénéité non observable dans le modèle a permis de rendre compte des contextes socioéconomiques de notation et de confectionner un indice composite avancé. Les parcours de notation reflètent l’évolution à long terme des pays, ils transmettent ainsi un contenu informationnel plus large et plus important que celui d’une notation
The object of this study is to propose a conceptual and statistical framework to better understand the sovereign rating process. This thesis suggests a multi-levels-approach in the perspective (i) of unveiling the limits of expertise of the credit rating agencies due to the noticed differences and to the rating errors. It will also (ii) conduct a classic reconstitution of the sovereign ratings and (iii) will revisit the rating process according to a dynamic reconstitution of the scores. The results of the classic reconstitution revealed that the ratings of the developing countries showed their economic and financial situation whereas it showed the subjective intervention of the experts when it came to developed countries. Studies conducted in a dynamic perspective are based on the construction and the modeling of the rating migration. A first study driven by the MDS method, has allowed to discover the type of ratings used. The four types of identified systems allow distinguishing the most stable countries from the most vulnerable. A second study has consisted on modeling the rating systems in a context of the scores made through ACD model and an ordered Probit model. The results highlight an acceleration of the lowering score for the episodes especially in times of crisis. The lack of heterogeneity in the model raised awareness regarding the ratings of socioeconomic situations and created an advanced composite index. The rating migration reflect the long-term evolution of a country, they also transmit a more important and a larger informational content than a simple rating

APA, Harvard, Vancouver, ISO, and other styles

19

Peyre, Julie. "Analyse statistique des données issues des biopuces à ADN." Phd thesis, Université Joseph Fourier (Grenoble), 2005. http://tel.archives-ouvertes.fr/tel-00012041.

Full text

Abstract:

Cette thèse est consacrée à l'analyse statistique des données issues des biopuces à ADN. Nous nous intéressons ici à trois problématiques liées aux données du transcriptôme.

Dans un premier chapitre, nous étudions le problème de la normalisation des données dont l'objectif est d'éliminer les variations parasites entre les échantillons des populations pour ne conserver que les variations expliquées par les phénomènes biologiques. Nous présentons plusieurs méthodes existantes pour lesquelles nous proposons des améliorations. Pour guider le choix d'une méthode de normalisation, une méthode de simulation de données de biopuces est mise au point.

Dans un deuxième chapitre, nous abordons le problème de la détection de gènes différentiellement exprimés entre deux séries d'expériences. On se ramène ici à un problème de test d'hypothèses multiples. Plusieurs approches sont envisagées : sélection de modèles et pénalisation, méthode FDR basée sur une décomposition en ondelettes des statistiques de test ou encore seuillage bayésien.

Dans le dernier chapitre, nous considérons les problèmes de classification supervisée pour les données de biopuces. Pour remédier au problème du "fléau de la dimension", nous avons développé une méthode semi-paramétrique de réduction de dimension, basée sur la maximisation d'un critère de vraisemblance locale dans les modèles linéaires généralisés en indice simple. L'étape de réduction de dimension est alors suivie d'une étape de régression par polynômes locaux pour effectuer la classification supervisée des individus considérés.

APA, Harvard, Vancouver, ISO, and other styles

20

Jiang, Wei. "Statistical inference with incomplete and high-dimensional data - modeling polytraumatized patients." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM013.

Full text

Abstract:

Le problème des données manquantes existe depuis les débuts de l'analyse des données, car les valeurs manquantes sont liées au processus d'obtention et de préparation des données. Dans les applications des statistiques modernes et de l'apprentissage machine, où la collecte de données devient de plus en plus complexe et où de multiples sources d'information sont combinées, les grandes bases de données présentent souvent un nombre extraordinairement élevé de valeurs manquantes. Ces données présentent donc d'importants défis méthodologiques et techniques pour l'analyse : de la visualisation à la modélisation, en passant par l'estimation, la sélection des variables, les capacités de prédiction et la mise en oeuvre par des implémentations. De plus, bien que les données en grande dimension avec des valeurs manquantes soient considérées comme des difficultés courantes dans l'analyse statistique aujourd'hui, seules quelques solutions sont disponibles.L'objectif de cette thèse est de développer de nouvelles méthodologies pour effectuer des inférences statistiques avec des données manquantes et en particulier pour des données en grande dimension. La contribution la plus importante est de proposer un cadre complet pour traiter les valeurs manquantes, de l'estimation à la sélection d'un modèle, en se basant sur des approches de vraisemblance. La méthode proposée ne repose pas sur un dispositif spécifique du manque, et permet un bon équilibre entre qualité de l'inférence et implémentations efficaces.Les contributions de la thèse se composent en trois parties. Dans le chapitre 2, nous nous concentrons sur la régression logistique avec des valeurs manquantes dans un cadre de modélisation jointe, en utilisant une approximation stochastique de l'algorithme EM. Nous étudions l'estimation des paramètres, la sélection des variables et la prédiction pour de nouvelles observations incomplètes. Grâce à des simulations complètes, nous montrons que les estimateurs sont non biaisés et ont de bonnes propriétés en termes de couverture des intervalles de confiance, ce qui surpasse l'approche populaire basée sur l'imputation. La méthode est ensuite appliquée à des données pré-hospitalières pour prédire le risque de choc hémorragique, en collaboration avec des partenaires médicaux - le groupe Traumabase des hôpitaux de Paris. En effet, le modèle proposé améliore la prédiction du risque de saignement par rapport à la prédiction faite par les médecins.Dans les chapitres 3 et 4, nous nous concentrons sur des questions de sélection de modèles pour les données incomplètes en grande dimension, qui visent en particulier à contrôler les fausses découvertes. Pour les modèles linéaires, la version bayésienne adaptative de SLOPE (ABSLOPE) que nous proposons dans le chapitre 3 aborde ces problématiques en intégrant la régularisation triée l1 dans un cadre bayésien 'spike and slab'. Dans le chapitre 4, qui vise des modèles plus généraux que celui de la régression linéaire, nous considérons ces questions dans un cadre dit de “model-X”, où la distribution conditionnelle de la réponse en fonction des covariables n'est pas spécifiée. Pour ce faire, nous combinons une méthodologie “knockoff” et des imputations multiples. Grâce à une étude complète par simulations, nous démontrons des performances satisfaisantes en termes de puissance, de FDR et de biais d'estimation pour un large éventail de scénarios. Dans l'application de l'ensemble des données médicales, nous construisons un modèle pour prédire les niveaux de plaquettes des patients à partir des données pré-hospitalières et hospitalières.Enfin, nous fournissons deux logiciels libres avec des tutoriels, afin d'aider la prise de décision dans le domaine médical et les utilisateurs confrontés à des valeurs manquantes
The problem of missing data has existed since the beginning of data analysis, as missing values are related to the process of obtaining and preparing data. In applications of modern statistics and machine learning, where the collection of data is becoming increasingly complex and where multiple sources of information are combined, large databases often have an extraordinarily high number of missing values. These data therefore present important methodological and technical challenges for analysis: from visualization to modeling including estimation, variable selection, predictive capabilities, and implementation through implementations. Moreover, although high-dimensional data with missing values are considered common difficulties in statistical analysis today, only a few solutions are available.The objective of this thesis is to provide new methodologies for performing statistical inferences with missing data and in particular for high-dimensional data. The most important contribution is to provide a comprehensive framework for dealing with missing values from estimation to model selection based on likelihood approaches. The proposed method doesn't rely on a specific pattern of missingness, and allows a good balance between quality of inference and computational efficiency.The contribution of the thesis consists of three parts. In Chapter 2, we focus on performing a logistic regression with missing values in a joint modeling framework, using a stochastic approximation of the EM algorithm. We discuss parameter estimation, variable selection, and prediction for incomplete new observations. Through extensive simulations, we show that the estimators are unbiased and have good confidence interval coverage properties, which outperforms the popular imputation-based approach. The method is then applied to pre-hospital data to predict the risk of hemorrhagic shock, in collaboration with medical partners - the Traumabase group of Paris hospitals. Indeed, the proposed model improves the prediction of bleeding risk compared to the prediction made by physicians.In chapters 3 and 4, we focus on model selection issues for high-dimensional incomplete data, which are particularly aimed at controlling for false discoveries. For linear models, the adaptive Bayesian version of SLOPE (ABSLOPE) we propose in Chapter 3 addresses these issues by embedding the sorted l1 regularization within a Bayesian spike-and-slab framework. Alternatively, in Chapter 4, aiming at more general models beyond linear regression, we consider these questions in a model-X framework, where the conditional distribution of the response as a function of the covariates is not specified. To do so, we combine knockoff methodology and multiple imputations. Through extensive simulations, we demonstrate satisfactory performance in terms of power, FDR and estimation bias for a wide range of scenarios. In the application of the medical data set, we build a model to predict patient platelet levels from pre-hospital and hospital data.Finally, we provide two open-source software packages with tutorials, in order to help decision making in medical field and users facing missing values

APA, Harvard, Vancouver, ISO, and other styles

21

Plichard, Laura. "Modélisation multi-échelles de la sélection de l’habitat hydraulique des poissons de rivière." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE1284/document.

Full text

Abstract:

Le concept d’habitat, qui définit le lieu de vie des organismes par des conditions abiotiques et biotiques, est déterminant pour étudier les relations entre les organismes et leur environnement. La sélection d’habitat est le processus à travers lequel l’organisme va choisir l’habitat où il se trouve en fonction des différents habitats disponibles autour de lui. Cette sélection va dépendre d’un choix individuel, qui est propre à l’organisme (ex. son comportement), et d’un choix commun, qui est observable chez des organismes qui partagent des traits communs (ex. les individus d’une même espèce). Les modèles spécifiques de sélection d’habitat cherchent à expliquer et prédire ce choix commun, et sont notamment utilisés pour les cours d’eau dans les outils d'aide à la définition de débits écologiques. Pour les poissons de rivière, la plupart des modèles spécifiques à l’échelle du microhabitat sont peu transférables à d’autres rivières. En effet, ils sont construits à partir de données d’abondance échantillonnées dans le même site pendant quelques campagnes. Afin d’améliorer la qualité prédictive de ces modèles, j’ai développé une approche prometteuse de modélisation multi-sites et multi-campagnes permettant à la fois de considérer la réponse non linéaire de la sélection et la surdispersion des données d’abondance. A partir de suivis individuels par télémétrie, j’ai montré la pertinence des modèles de sélection spécifiques malgré la forte variabilité individuelle observée. Finalement, la sélection d’habitat étant dépendante de processus structurant les communautés et agissant à l’échelle du paysage, telle que la dispersion des individus, j’ai mis en évidence l’intérêt d’utiliser des techniques légères d’échantillonnage comme les observations par plongée pour caractériser les structures des communautés et leurs répartitions spatiales. Ces techniques permettront alors d’étudier l’influence des processus du paysage sur les modèles de sélection d’habitat
The habitat concept, which defines the place where organisms live, is composed by abiotic and biotic conditions and differs for examples between species or activities. The habitat selection is the process where organisms choose the habitat to live in function of all habitats available around them. This habitat selection depends on an individual choice related to the organism, for example its behavior and a common choice related to organisms sharing common traits as individuals from the same species. Specific habitat selection models are developed to understand and represent this common choice and used to build ecological flow tools. For freshwater fish, most of specific habitat selection models have low transferability between reaches and rivers. Indeed, they are built from abundance data and sampled in the same study reach during few numbers of surveys. In order to improve predictive quality of models, I developed an attractive modelling approach, both multi-reach and multi-survey, involving the non-linear response of habitat selection and abundance data overdispersion. Then, despite the high individual variability of habitat selection, I showed, from telemetry data, the relevance of developing specific habitat selection models. Finally, as the habitat selection is also depending on processes which influence community structures at the landscape scale (e.g. dispersal), I demonstrate the benefits of sampling methods such as snorkeling to characterize community structures and their longitudinal distributions at a large spatial scale. These techniques will allow studying the influence of landscape processes on habitat selection models

APA, Harvard, Vancouver, ISO, and other styles

22

Varnet, Léo. "Identification des indices acoustiques utilisés lors de la compréhension de la parole dégradée." Thesis, Lyon 1, 2015. http://www.theses.fr/2015LYO10221/document.

Full text

Abstract:

Bien qu’il existe un large consensus de la communauté scientifique quant au rôle des indices acoustiques dans la compréhension de la parole, les mécanismes exacts permettant la transformation d’un flux acoustique continu en unités linguistiques élémentaires demeurent aujourd’hui largement méconnus. Ceci est en partie dû à l’absence d’une méthodologie efficace pour l’identification et la caractérisation des primitives auditives de la parole. Depuis les premières études de l’interface acoustico-phonétique par les Haskins Laboratories dans les années 50, différentes approches ont été proposées ; cependant, toutes sont fondamentalement limitées par l’artificialité des stimuli utilisés, les contraintes du protocole expérimental et le poids des connaissances a priori nécessaires. Le présent travail de thèse s’est intéressé { la mise en oeuvre d’une nouvelle méthode tirant parti de la situation de compréhension de parole dégradée pour mettre en évidence les indices acoustiques utilisés par l’auditeur.Dans un premier temps, nous nous sommes appuyés sur la littérature dans le domaine visuel en adaptant la méthode des Images de Classification à une tâche auditive de catégorisation de phonèmes dans le bruit. En reliant la réponse de l’auditeur { chaque essai à la configuration précise du bruit lors de cet essai, au moyen d’un Modèle Linéaire Généralisé, il est possible d’estimer le poids des différentes régions temps-fréquence dans la décision. Nous avons illustré l’efficacité de notre méthode, appelée Image de Classification Auditive, à travers deux exemples : une catégorisation /aba/-/ada/, et une catégorisation /da/-/ga/ en contexte /al/ ou /aʁ/. Notre analyse a confirmé l’implication des attaques des formants F2 et F3, déjà suggérée par de précédentes études, mais a également permis de révéler des indices inattendus. Dans un second temps, nous avons employé cette technique pour comparer les résultats de participants musiciens experts (N=19) ou dyslexiques (N=18) avec ceux de participants contrôles. Ceci nous a permis d’étudier les spécificités des stratégies d’écoute de ces différents groupes.L’ensemble des résultats suggèrent que les Images de Classification Auditives pourraient constituer une nouvelle approche, plus précise et plus naturelle, pour explorer et décrire les mécanismes { l’oeuvre au niveau de l’interface acoustico-phonétique
There is today a broad consensus in the scientific community regarding the involvement of acoustic cues in speech perception. Up to now, however, the precise mechanisms underlying the transformation from continuous acoustic stream into discrete linguistic units remain largely undetermined. This is partly due to the lack of an effective method for identifying and characterizing the auditory primitives of speech. Since the earliest studies on the acoustic–phonetic interface by the Haskins Laboratories in the 50’s, a number of approaches have been proposed; they are nevertheless inherently limited by the non-naturalness of the stimuli used, the constraints of the experimental apparatus, and the a priori knowledge needed. The present thesis aimed at introducing a new method capitalizing on the speech-in-noise situation for revealing the acoustic cues used by the listeners.As a first step, we adapted the Classification Image technique, developed in the visual domain, to a phoneme categorization task in noise. The technique relies on a Generalized Linear Model to link each participant’s response to the specific configuration of noise, on a trial-by-trail basis, thereby estimating the perceptual weighting of the different time-frequency regions for the decision. We illustrated the effectiveness of our Auditory Classification Image method through 2 examples: a /aba/-/ada/ categorization and a /da/-/ga/ categorization in context /al/ or /aʁ/. Our analysis confirmed that the F2 and F3 onsets were crucial for the tasks, as suggested in previous studies, but also revealed unexpected cues. In a second step, we relied on this new method to compare the results of musical experts (N=19) or dyslexics participants (N=18) to those of controls. This enabled us to explore the specificities of each group’s listening strategies.All the results taken together show that the Auditory Classification Image method may be a more precise and more straightforward approach to investigate the mechanisms at work at the acoustic-phonetic interface

APA, Harvard, Vancouver, ISO, and other styles

23

Jin, Qianying. "Ordinal classification with non-parametric frontier methods : overview and new proposals." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1A007.

Full text

Abstract:

Suivant l'idée de séparer deux groupes par une hypersurface, la frontière convexe (C) générée par la méthode d'analyse de l'enveloppe des données (DEA) est utilisée pour la séparation dans la classification. Aucune hypothèse sur la forme de l'hypersurface n'est nécessaire si l'on utilise une frontière DEA. De plus, son raisonnement sur l'appartenance est très clair en se référant à une observation de référence. Malgré ces points forts, le classificateur basé sur la frontière DEA n'est pas toujours performant dans la classification. Par conséquent, cette thèse vise à modifier les classificateurs frontaliers existants et à proposer de nouveaux classificateurs frontaliers pour le problème de la classification ordinale. Dans la littérature, tous les axiomes utilisés pour construire la frontière C de la DEA sont conservés pour générer une frontière de séparation, sans argumenter leur correspondance avec les informations de base correspondantes. C'est ce qui motive notre travail au chapitre 2, où les liens entre les axiomes et les informations de base sont examinés. Tout d'abord, en réfléchissant à la relation monotone, les variables caractéristiques du type d'entrée et du type de sortie sont incorporées. En outre, le modèle de la somme minimale des écarts est proposé pour détecter la relation monotone sous-jacente si cette relation n'est pas donnée a priori. Deuxièmement, un classificateur de frontière nonconvexe (NC) est construit en assouplissant l'hypothèse de convexité. Troisièmement, la mesure de la fonction de distance directionnelle (DDF) est introduite pour fournir des implications managériales, bien qu'elle ne modifie pas les résultats de la classification par rapport à la mesure radiale. Les résultats empiriques montrent que le classificateur à frontière NC a la plus grande précision de classification. Une comparaison avec six classificateurs classiques révèle également la supériorité de l'application du classificateur à frontière NC. Alors que la relation des variables caractéristiques suggère souvent la prise en compte d'une relation monotone, le problème parallèle de la prise en compte d'une relation non monotone est rarement pris en compte. Au chapitre 3, une hypothèse d'élimination généralisée qui limite l'élimination dans une fourchette de valeurs est développée pour caractériser la relation non monotone. Au lieu d'avoir une seule frontière de séparation, une coque de séparation NC qui se compose de plusieurs frontières est construite. En ajoutant l'hypothèse de convexité, une coque séparatrice C est alors construite. Un exemple illustratif montrent que le classificateur de coques NC surpasse le classificateur C. En outre, une comparaison avec certains classificateurs frontaliers existants révèle également la supériorité de l'application du classificateur de coque NC. Le chapitre 4 propose de nouveaux classificateurs frontaliers permettant de prendre en compte différentes combinaisons d'informations de classification. En réfléchissant à la relation monotone, un classificateur NC est construit. Si la relation de substitution existe, alors un classificateur C est généré. Les classificateurs NC et C génèrent tous deux deux des frontières où chacun enveloppe un groupe. L'intersection de deux frontières est connue sous le nom de chevauchement, ce qui peut entraîner des classifications erronées. Le chevauchement est réduit en permettant aux deux frontières de se déplacer vers l'intérieur dans la mesure où le coût total de la classification erronée est minimisé. Les frontières déplacées sensibles aux coûts sont alors utilisées pour séparer les groupes. Les règles discriminantes sont également conçues pour intégrer les informations sur les coûts. Les résultats empiriques montrent que le classificateur NC assure une meilleure séparation que le classificateur C. En outre, la mesure de la DDF proposée surpasse la mesure radiale couramment utilisée en fournissant une séparation raisonnable
Following the idea of separating two groups with a hypersurface, the convex (C) frontier generated from the data envelopment analysis (DEA) method is employed as a separating hypersurface in classification. No assumption on the shape of the separating hypersurface is required while using a DEA frontier. Moreover, its reasoning of the membership is quite clear by referring to a benchmark observation. Despite these strengths, the DEA frontier-based classifier does not always perform well in classification. Therefore, this thesis focuses on modifying the existing frontier-based classifiers and proposing novel frontier-based classifiers for the ordinal classification problem. In the classification literature, all axioms used to construct the C DEA frontier are kept in generating a separating frontier, without arguing their correspondence with the related background information. This motivates our work in Chapter 2 where the connections between the axioms and the background information are explored. First, by reflecting on the monotonic relation, both input-type and output-type characteristic variables are incorporated. Moreover, the minimize sum of deviations model is proposed to detect the underlying monotonic relation if this relation is not priori given. Second, a nonconvex (NC) frontier classifier is constructed by relaxing the commonly used convexity assumption. Third, the directional distance function (DDF) measure is introduced for providing further managerial implications, although it does not change the classification results comparing to the radial measure. The empirical results show that the NC frontier classifier has the highest classification accuracy. A comparison with six classic classifiers also reveals the superiority of applying the NC frontier classifier. While the relation of the characteristic variables often suggests consideration of a monotonic relation, its parallel problem of considering a non-monotonic relation is rarely considered. In Chapter 3, a generalized disposal assumption which limits the disposability within a value range is developed for characterizing the non-monotonic relation. Instead of having a single separating frontier, a NC separating hull which consists of several frontiers is constructed to separate the groups. By adding the convexity assumption, a C separating hull is then constructed. An illustrative example is used to test the performance. The NC hull classifier outperforms the C hull classifier. Moreover, a comparison with some existing frontier classifiers also reveals the superiority of applying the proposed NC hull classifier. Chapter 4 proposes novel frontier classifiers for accommodating different mixes of classification information. To be specific, by reflecting on the monotonic relation, a NC classifier is constructed. If there is a priori information of the substitution relation, then a C classifier is generated. Both the NC and C classifiers generate two frontiers where each envelops one group of observations. The intersection of two frontiers is known as the overlap which may lead to misclassifications. The overlap is reduced by allowing the two frontiers to shift inwards to the extent that the total misclassification cost is minimized. The shifted cost-sensitive frontiers are then used to separate the groups. The discriminant rules are also designed to incorporate the cost information. The empirical results show that the NC classifier provides a better separation than the C one does. Moreover, the proposed DDF measure outperforms the commonly used radial measure in providing a reasonable separation

APA, Harvard, Vancouver, ISO, and other styles

24

Nicolas, Delphine. "Des poissons sous influence ? : une analyse à large échelle des relations entre les gradients abiotiques et l’ichtyofaune des estuaires tidaux européens." Thesis, Bordeaux 1, 2010. http://www.theses.fr/2010BOR14045/document.

Full text

Abstract:

Cette thèse cherche à déterminer l’influence de l’environnement abiotique sur la structure des assemblages de poissons dans les estuaires européens tidaux à partir d’une approche macroécologique. L’environnement abiotique de 135 estuaires, du Portugal à l’Ecosse, est caractérisé par une quinzaine de descripteurs en utilisant une approche écohydrologique. Les assemblages de poissons d’une centaine d’estuaires sont caractérisés par les données de pêche acquises au cours de campagnes scientifiques conduites dans le cadre de la Directive-Cadre européenne sur l’Eau (DCE). Néanmoins, ces données sont souvent hétérogènes du fait des différences entre les protocoles d’échantillonnage utilisés. Afin de limiter cette hétérogénéité, une sélection rigoureuse et une procédure de standardisation des données ont été effectuées. Les assemblages de poissons sont décrits à l’aide d’indices globaux ou fonctionnels relatifs à la richesse spécifique et à l’abondance. A l’aide de modèles linéaires généralisés, des relations sont établies entre des attributs de l’ichtyofaune et des gradients abiotiques à large échelle et au sein de l’estuaire. La richesse spécifique totale, et en particulier celle des espèces marines et migratrices amphihalines, augmente avec la taille de l’estuaire. De plus, elle apparaît plus élevée dans les estuaires associés à un large plateau continental. Les plus fortes densités totales et, en particulier, celles des espèces résidentes et marines, sont associées aux estuaires présentant une grande proportion en zones intertidales. Les assemblages de poissons estuariens apparaissent fortement structurés par le gradient de salinité à la fois en termes de richesse spécifique et de densité. En parallèle, cette thèse apporte des éléments témoignant d’un décalage vers le Nord de plusieurs espèces de poissons estuariens dans le contexte du réchauffement climatique global. Les résultats de cette thèse contribueront à l’amélioration des indicateurs biotiques basés sur l’ichtyofaune qui sont actuellement développés dans le contexte de la DCE
Based on a macroecological approach, this thesis aims at determining the influence of the abiotic environment on the structure of fish assemblages among European tidal estuaries. The abiotic environment of 135 North-Eastern Atlantic estuaries from Portugal to Scotland was characterised by fifteen descriptors using an ecohydrological approach. The fish assemblages of about a hundred estuaries were characterised by fish data collected during scientific surveys conducted in the context of the European Water Framework Directive (WFD). Nonetheless, differences among sampling protocols resulted in highly heterogeneous datasets. To limit this heterogeneity, a rigorous selections and standardisation processes were carried out. Fish assemblages were described by total or functional indices related to species richness or abundance. Relationships were identified between large-scale and intra-estuarine abiotic gradients and fish attributes by fitting generalised linear models. Results showed that the total number of species, and more especially of marine and diadromous species, increased with the estuary size. Moreover, the total species richness appeared higher in estuaries associated to a wide continental shelf. The greatest total densities, and more particularly total densities of resident and marine species, were associated to estuaries with a great proportion of intertidal areas. Fish assemblages appeared also strongly structured by the salinity gradient in terms of both species richness and density. Furthermore, this thesis brought some evidence of northward migration of estuarine fish species in the context of the global warming. The results of this thesis will contribute to improve the fish indicators that are currently developed in the context of the European WFD

APA, Harvard, Vancouver, ISO, and other styles

25

Sattar, Abdul. "Évitement fiscal des entreprises : déterminants et conséquences pour les pays de l'Union européenne." Thesis, Lille, 2020. http://www.theses.fr/2020LILUA020.

Full text

Abstract:

Les entreprises multinationales (EMN) étendent leurs activités sur le sol étranger pour répondre à leurs besoins d'expansion stratégique. Elles entreprennent des investissements directs étrangers (IDE) dans des pays où elles trouvent des conditions commerciales favorables. Du point de vue du pays, l'IDE est l'un des facteurs importants pour atteindre les objectifs de développement. Cependant, depuis quelques années, les EMN sont critiquées en raison de l'évitement fiscal. Les multinationales acheminent les IDE via des centres financiers offshore (CFO) qui n'impliquent aucune activité économique réelle. Le flux d'IDE vers les CFO a été anormal, ce qui est difficile à expliquer par les théories orthodoxes des multinationales car elles se concentrent uniquement sur les déterminants conventionnels de l'IDE sans analyser à peine le rôle des paradis fiscaux. Les EMN exploitent la compétitivité des paradis fiscaux et mettent en place un réseau de filiales. En raison de ces activités, les pays qui ne sont pas des paradis fiscaux subissent chaque année des milliards de dollars de pertes de revenus des entreprises. L'Union européenne (UE) occupe une position particulière dans le débat sur l'évitement fiscal car certains de ses pays comme le Luxembourg et les Pays-Bas sont la plaque tournante des IDE irréels. Avec son marché unique, l'UE est devenue l'un des foyers d'évitement fiscal pour les multinationales. En outre, l'UE est un acteur actif contre l'évitement fiscal non seulement au niveau régional, mais elle occupe également une position forte au sein de la communauté internationale. Dans ce contexte, cette thèse analyse les déterminants de l'évitement fiscal, ses conséquences et la réponse politique de l'UE. Grâce à une enquête bibliographique, nous construisons un cadre analytique pour mieux comprendre les facteurs du comportement d'évasion fiscale des multinationales basées dans l'UE. Nous émettons l'hypothèse que l'évasion fiscale des entreprises (IDE motivé par l'évitement fiscal) est déterminée par l'interface des avantages propres à l'entreprise et de la caractéristique concurrentielle des paradis fiscaux par pays. Des données de panel d'entreprises et des informations sur la propriété ont été utilisées pour tester l'hypothèse au moyen d'un modèle de régression hybride (modèle mixte linéaire généralisé). Nous montrons que la force des avantages propres à l'entreprise et des affiliés aux paradis fiscaux détermine le niveau d'évitement fiscal. Les entreprises de haute technologie ou de moyenne technologie ayant un certain nombre de filiales dans des paradis fiscaux évitent davantage d'impôts. Les actifs incorporels jouent également un rôle crucial. Pour déterminer l'impact de l'évitement fiscal sur les ressources fiscales des pays de l'UE paradis non fiscaux, nous utilisons les données de rendement des IDE entrants et des revenus d'IDE. En utilisant des modèles de régression linéaire à effets fixes par pays et par année, nous constatons que l'augmentation de la part des IDE entrants des CFO dégonfle le taux de rendement des revenus d'IDE. La relation négative entre ces deux éléments est due aux activités d'évitement fiscal des multinationales. En termes absolus, les grandes économies souffrent davantage. Cependant, en termes relatifs de produit intérieur brut, les petites économies enregistrent des pertes importantes. Pour lutter contre l'évitement fiscal, l'UE a lancé plusieurs mesures politiques mais n'a eu qu'un succès limité. Nous développons les raisons du succès limité en utilisant Multiple Streams Framework (MSF). Nous montrons qu'au début, l'accent était mis sur l'harmonisation fiscale. Plusieurs directives ont été adoptées pour éliminer les distorsions dans le marché unique. L'évitement fiscal a retenu l'attention après la crise financière. Nous concluons que les contraintes structurelles gravées dans le processus de prise de décision empêchent le succès des résultats des politiques contre l'évitement fiscal
Multinational corporations (MNCs) seek the opportunity to expand their operations on foreign soil to accomplish their strategic expansion needs. In this regard, they undertake foreign direct investment (FDI) in the countries where they find conducive business conditions. From the perspective of countries, FDI is one of the important factors for achieving development objectives.However, for the past few years, the MNCs are being criticised due to tax avoidance. The MNCs channel FDI through offshore financial centres (OFCs) which involve no real economic activities. The flow of FDI towards OFCs has been abnormal, which is hard to explain through orthodox MNC theories because they only focus on the conventional determinants of FDI with hardly analysing the role of tax havens. Multinational firms exploit the competitiveness of tax havens and establish a network of subsidiaries. Because of such activities, the non-tax haven countries suffer billions of dollars of corporate revenue losses every year. The European Union (EU) holds a distinctive position in the debate on tax avoidance as some of its member countries like Luxembourg and the Netherlands are the hub of unreal FDI. With her unique single market, the EU has become one of the hotspots for tax avoidance for the MNCs. Besides, the EU is an active player against tax avoidance not only at the regional level, but she also has a strong position in the international community. Against this background, this thesis analyses the determinants of tax avoidance, its consequences, and the policy response of the EU. With literature survey, we build an analytical framework to understand better the drivers of tax avoidance behaviour of EU-based MNCs. We hypothesise that corporate tax avoidance (tax-avoidance motivated FDI) is determined by the interface of firm-specific advantages and country-competitive characteristic of tax havens. Panel data of firms and ownership information was used to test the hypothesis through hybrid regression model (generalised linear mixed model). We show that the strength of firm-specific advantages and tax haven affiliates determine the level of tax avoidance. The high-tech or medium-tech firms with a number of subsidiaries in tax havens avoid more taxes. The intangible assets play also a crucial role. Addressing the issue of the impact of tax avoidance activities on fiscal resources of the non-haven EU countries, we use unique inward FDI from OFCs and FDI income return data to scale the corporate revenue losses. Using country and year fixed-effects linear regression models, we find that increase in the share of inward FDI from OFCs deflates the rate of return on FDI income. The negative relationship between these two is due to the tax avoidance activities of MNCs. In absolute terms, the large economies suffer more. However, in relative terms of gross domestic product, the smaller economies mark significant fiscal revenue losses. To fight against tax avoidance, the EU initiated several policy measures but had limited success. We elaborate on the reasons by using Multiple Streams Framework (MSF). We show, at the beginning, the primary focus was on the tax harmonisation. Several directives were adopted to eliminate the distortions in the single market. Tax avoidance received attention after the financial crisis. We conclude that the engraved structural constraints in the decision-making process preclude the success of policy outputs against tax avoidance

APA, Harvard, Vancouver, ISO, and other styles

26

Davranche, Aurélie. "Suivi de la gestion des zones humides camarguaises par télédétection en référence à leur intérêt avifaunistique." Phd thesis, Université de Provence - Aix-Marseille I, 2008. http://tel.archives-ouvertes.fr/tel-00292694.

Full text

Abstract:

Au rang des milieux naturels les plus menacés, les zones humides remplissent pourtant un grand nombre de fonctions utiles à l'homme. Les milieux naturels de Camargue n'échappent pas aux impacts des changements globaux et subissent une artificialisation croissante de leur gestion, motivée par l'intensification des pratiques agricoles et des usages socio-économiques. La télédétection a été présentée comme un outil complémentaire prometteur pour le monitoring des zones humides. Nous montrons dans cette étude qu'elle permet, aujourd'hui, grâce au mode multitemporel et multispectral des satellites de dernière génération, de s'affranchir d'un ré-échantillonnage jusque là nécessaire à la reproductibilité des méthodes traditionnelles. Pour deux habitats naturels dominants de Camargue abritant des populations d'oiseaux vulnérables ou à fort intérêt cynégétique, nous avons élaboré des formules fiables et reproductibles permettant de caractériser l'évolution de communautés végétales et d'obtenir une vision mensuelle des zones inondées sur l'ensemble du delta. La méthodologie employée se base sur deux types de méthodes statistiques. La première, qualitative, détermine la présence de groupements végétaux, puis de l'eau à travers une végétation plus ou moins dense. La seconde, quantitative, permet de suivre des paramètres déterminant la qualité et l'intérêt avifaunistique des roselières de Camargue. Les modèles élaborés dans cette étude seront d'une grande valeur pour proposer des modes de gestion adaptés aux objectifs de préservation et de développement durable des zones humides méditerranéennes.

APA, Harvard, Vancouver, ISO, and other styles

27

Karimi, Maryam. "Modélisation conjointe de trajectoire socioprofessionnelle individuelle et de la survie globale ou spécifique." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS120/document.

Full text

Abstract:

Appartenir à une catégorie socio-économique moins élevée est généralement associé à une mortalité plus élevée pour de nombreuses causes de décès. De précédentes études ont déjà montré l’importance de la prise en compte des différentes dimensions des trajectoires socio-économiques au cours de la vie. L’analyse des trajectoires professionnelles constitue une étape importante pour mieux comprendre ces phénomènes. L’enjeu pour mesurer l’association entre les parcours de vie des trajectoires socio-économiques et la mortalité est de décomposer la part respective de ces facteurs dans l’explication du niveau de survie des individus. La complexité de l’interprétation de cette association réside dans la causalité bidirectionnelle qui la sous-tend: Les différentiels de mortalité sont-ils dus à des différentielsd’état de santé initial influençant conjointement la situation professionnelle et la mortalité, ou l’évolution professionnelle influence-t-elle directement l’état de santé puis la mortalité?Les méthodes usuelles ne tiennent pas compte de l’interdépendance des changements de situation professionnelle et de la bidirectionnalité de la causalité qui conduit à un biais important dans l’estimation du lien causale entre situation professionnelle et mortalité. Par conséquent, il est nécessaire de proposer des méthodes statistiques qui prennent en compte des mesures répétées (les professions) simultanément avec les variables de survie. Cette étude est motivée par la base de données Cosmop-DADS qui est un échantillon de la population salariée française.Le premier objectif de cette thèse était d’examiner l’ensemble des trajectoires professionnelles avec une classification professionnelle précise, au lieu d’utiliser un nombre limité d’états dans un parcours professionnel qui a été considéré précédemment. A cet effet, nous avons défini des variables dépendantes du temps afinde prendre en compte différentes dimensions des trajectoires professionnelles, à travers des modèles dits de "life-course", à savoir critical period, accumulation model et social mobility model, et nous avons mis en évidence l’association entre les trajectoires professionnelles et la mortalité par cause en utilisant ces variables dans un modèle de Cox.Le deuxième objectif a consisté à intégrer les épisodes professionnel comme un sous-modèle longitudinal dans le cadre des modèles conjoints pour réduire le biais issude l’inclusion des covariables dépendantes du temps endogènes dans le modèle de Cox. Nous avons proposé un modèle conjoint pour les données longitudinales nominaleset des données de risques concurrents dans une approche basée sur la vraisemblance. En outre, nous avons proposé une approche de type méta-analyse pour résoudre les problèmes liés au temps des calculs dans les modèles conjoints appliqués à l’analyse des grandes bases de données. Cette approche consiste à combiner les résultats issus d’analyses effectuées sur les échantillons stratifiés indépendants. Dans la même perspective de l’utilisation du modèle conjoint sur les grandes bases de données, nous avons proposé une procédure basée sur l’avantage computationnel de la régression de Poisson.Cette approche consiste à trouver les trajectoires typesà travers les méthodes de la classification, et d’appliquerle modèle conjoint sur ces trajectoires types
Being in low socioeconomic position is associated with increased mortality risk from various causes of death. Previous studies have already shown the importance of considering different dimensions of socioeconomic trajectories across the life-course. Analyses of professional trajectories constitute a crucial step in order to better understand the association between socio-economic position and mortality. The main challenge in measuring this association is then to decompose the respectiveshare of these factors in explaining the survival level of individuals. The complexity lies in the bidirectional causality underlying the observed associations:Are mortality differentials due to differences in the initial health conditions that are jointly influencing employment status and mortality, or the professional trajectory influences directly health conditions and then mortality?Standard methods do not consider the interdependence of changes in occupational status and the bidirectional causal effect underlying the observed association and that leads to substantial bias in estimating the causal link between professional trajectory and mortality. Therefore, it is necessary to propose statistical methods that consider simultaneously repeated measurements (careers) and survivalvariables. This study was motivated by the Cosmop-DADS database, which is a sample of the French salaried population.The first aim of this dissertation was to consider the whole professional trajectories and an accurate occupational classification, instead of using limitednumber of stages during life course and a simple occupational classification that has been considered previously. For this purpose, we defined time-dependent variables to capture different life course dimensions, namely critical period, accumulation model and social mobility model, and we highlighted the association between professional trajectories and cause-specific mortality using the definedvariables in a Cox proportional hazards model.The second aim was to incorporate the employment episodes in a longitudinal sub-model within the joint model framework to reduce the bias resulting from the inclusion of internal time-dependent covariates in the Cox model. We proposed a joint model for longitudinal nominal outcomes and competing risks data in a likelihood-based approach. In addition, we proposed an approach mimicking meta-analysis to address the calculation problems in joint models and large datasets, by extracting independent stratified samples from the large dataset, applying the joint model on each sample and then combining the results. In the same objective, that is fitting joint model on large-scale data, we propose a procedure based on the appeal of the Poisson regression model. This approach consist of finding representativetrajectories by means of clustering methods and then applying the joint model on these representative trajectories

APA, Harvard, Vancouver, ISO, and other styles

28

Loingeville, Florence. "Modèle linéaire généralisé hiérarchique Gamma-Poisson pour le contrôle de qualité en microbiologie." Thesis, Lille 1, 2016. http://www.theses.fr/2016LIL10005/document.

Full text

Abstract:

Dans cette thèse, nous proposons une méthode d'analyse de variance pour des données discrètes issues du contrôle de qualité en microbiologie. Nous étudions tout d'abord la méthode d'analyse de variance actuellement utilisée, ses avantages, inconvénients, et limites. Nous proposons une première modélisation du problème par un modèle linéaire à deux facteurs fixes imbriqués. Nous utilisons la méthode d'analyse de déviance pour développer des tests de significativité des facteurs, qui s'avèrent efficaces sur des données d'essais interlaboratoires en microbiologie. Nous présentons ensuite une modélisation à facteurs aléatoires. Le caractère aléatoire des facteurs permet de caractériser la surdispersion des résultats de dénombrement en microbiologie, ce qui constitue l'un des objectifs principaux de ce travail. Le modèle développé correspond à un Modèle Linéaire Généralisé Hiérarchique Gamma-Poisson à trois facteurs aléatoires. Nous proposons alors une méthode d'estimation des effets fixes et aléatoires, ainsi que des paramètres de dispersion associés aux facteurs. Nous présentons des applications pratiques de cette méthode à des données d'essais interlaboratoires en microbiologie, qui prouvent l’ajustement du modèle aux données réelles. Nous proposons également une méthode de test de la significativité des facteurs, ainsi qu'une nouvelle méthode d'évaluation de la performance analytique des laboratoires participants à un essai. Nous présentons enfin une distribution presque-exacte du produit de variables aléatoires indépendantes de loi Gamma Généralisées, permettant d’effectuer des tests de détection de résultats de dénombrement aberrants
In this thesis, we propose an analysis of variance method for discrete data from quality control in microbiology. To identify the issues of this work, we start by studying the analysis of variance method currently used in microbiology, its benefits, drawbacks, and limits. We propose a first model to respond the problem, corresponding to a linear model with two nested fixed factors. We use the analyse of deviance method to develop significance tests, that proved to be efficient on data sets of proficiency testings in microbiology. We then introduce a new model involving random factors. The randomness of the factors allow to assess and to caracterize the overdispersion observed in results of counts from proficiency testings in microbiology, that is one of the main objectives of this work. The new model corresponds to a Gamma-Poisson Hierarchical Generalized Linear Model with three random factors. We propose a method based on this model to estimate dispersion parameters, fixed, and random effects. We show practical applications of this method to data sets of proficiency testings in microbiology, that prove the goodness of fit of the model to real data. We also develop significance tests of the random factors from this new model, and a new method to assess the performance of the laboratories taking part in a proficiency testing. We finally introduce a near-exact distribution for the product of independent generalized Gamma random variables, in order to characterize the intensity of the Poisson distribution of the model. This approximation, developped from a factorization of the characteristic function, is very precise and can be used to detect outliers

APA, Harvard, Vancouver, ISO, and other styles

29

Perthame, Emeline. "Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension." Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S122/document.

Full text

Abstract:

Les données à haut-débit, par leur grande dimension et leur hétérogénéité, ont motivé le développement de méthodes statistiques pour la sélection de variables. En effet, le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches de sélection habituelles, construites sous l'hypothèse d'indépendance des variables, sont alors remises en question car elles peuvent conduire à des décisions erronées. L'objectif de cette thèse est de contribuer à l'amélioration des méthodes de sélection de variables pour la régression et la classification supervisée, par une meilleure prise en compte de la dépendance entre les statistiques de sélection. L'ensemble des méthodes proposées s'appuie sur la description de la dépendance entre covariables par un petit nombre de variables latentes. Ce modèle à facteurs suppose que les covariables sont indépendantes conditionnellement à un vecteur de facteurs latents. Une partie de ce travail de thèse porte sur l'analyse de données de potentiels évoqués (ERP). Les ERP sont utilisés pour décrire par électro-encéphalographie l'évolution temporelle de l'activité cérébrale. Sur les courts intervalles de temps durant lesquels les variations d'ERPs peuvent être liées à des conditions expérimentales, le signal psychologique est faible, au regard de la forte variabilité inter-individuelle des courbes ERP. En effet, ces données sont caractérisées par une structure de dépendance temporelle forte et complexe. L'analyse statistique de ces données revient à tester pour chaque instant un lien entre l'activité cérébrale et des conditions expérimentales. Une méthode de décorrélation des statistiques de test est proposée, basée sur la modélisation jointe du signal et de la dépendance à partir d'une connaissance préalable d'instants où le signal est nul. Ensuite, l'apport du modèle à facteurs dans le cadre général de l'Analyse Discriminante Linéaire est étudié. On démontre que la règle linéaire de classification optimale conditionnelle aux facteurs latents est plus performante que la règle non-conditionnelle. Un algorithme de type EM pour l'estimation des paramètres du modèle est proposé. La méthode de décorrélation des données ainsi définie est compatible avec un objectif de prédiction. Enfin, on aborde de manière plus formelle les problématiques de détection et d'identification de signal en situation de dépendance. On s'intéresse plus particulièrement au Higher Criticism (HC), défini sous l'hypothèse d'un signal rare de faible amplitude et sous l'indépendance. Il est montré dans la littérature que cette méthode atteint des bornes théoriques de détection. Les propriétés du HC en situation de dépendance sont étudiées et les bornes de détectabilité et d'estimabilité sont étendues à des situations arbitrairement complexes de dépendance. Dans le cadre de l'identification de signal, une adaptation de la méthode Higher Criticism Thresholding par décorrélation par les innovations est proposée
The analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables. The goal of this thesis is to contribute to the improvement of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. All the methods proposed in this thesis are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables. A part of this thesis focuses on the analysis of event-related potentials data (ERP). ERPs are now widely collected in psychological research to determine the time courses of mental events. In the significant analysis of the relationships between event-related potentials and experimental covariates, the psychological signal is often both rare, since it only occurs on short intervals and weak, regarding the huge between-subject variability of ERP curves. Indeed, this data is characterized by a temporal dependence pattern both strong and complex. Moreover, studying the effect of experimental condition on brain activity for each instant is a multiple testing issue. We propose to decorrelate the test statistics by a joint modeling of the signal and time-dependence among test statistics from a prior knowledge of time points during which the signal is null. Second, an extension of decorrelation methods is proposed in order to handle a variable selection issue in the linear supervised classification models framework. The contribution of factor model assumption in the general framework of Linear Discriminant Analysis is studied. It is shown that the optimal linear classification rule conditionally to these factors is more efficient than the non-conditional rule. Next, an Expectation-Maximization algorithm for the estimation of the model parameters is proposed. This method of data decorrelation is compatible with a prediction purpose. At last, the issues of detection and identification of a signal when features are dependent are addressed more analytically. We focus on the Higher Criticism (HC) procedure, defined under the assumptions of a sparse signal of low amplitude and independence among tests. It is shown in the literature that this method reaches theoretical bounds of detection. Properties of HC under dependence are studied and the bounds of detectability and estimability are extended to arbitrarily complex situations of dependence. Finally, in the context of signal identification, an extension of Higher Criticism Thresholding based on innovations is proposed

APA, Harvard, Vancouver, ISO, and other styles

30

Le, Rest Kévin. "Méthodes statistiques pour la modélisation des facteurs influençant la distribution et l’abondance de populations : application aux rapaces diurnes nichant en France." Thesis, Poitiers, 2013. http://www.theses.fr/2013POIT2330/document.

Full text

Abstract:

Face au déclin global de la biodiversité, de nombreux suivis de populations animales et végétales sont réalisés sur de grandes zones géographiques et durant une longue période afin de comprendre les facteurs déterminant la distribution, l’abondance et les tendances des populations. Ces suivis à larges échelles permettent de statuer quantitativement sur l’état des populations et de mettre en place des plans de gestion appropriés en accord avec les échelles biologiques. L’analyse statistique de ce type de données n’est cependant pas sans poser un certain nombre de problèmes. Classiquement, on utilise des modèles linéaires généralisés (GLM), formalisant les liens entre des variables supposées influentes (par exemple caractérisant l’environnement) et la variable d’intérêt (souvent la présence / absence de l’espèce ou des comptages). Il se pose alors un problème majeur qui concerne la manière de sélectionner ces variables influentes dans un contexte de données spatialisées. Cette thèse explore différentes solutions et propose une méthode facilement applicable, basée sur une validation croisée tenant compte des dépendances spatiales. La robustesse de la méthode est évaluée par des simulations et différents cas d’études dont des données de comptages présentant une variabilité plus forte qu’attendue (surdispersion). Un intérêt particulier est aussi porté aux méthodes de modélisation pour les données ayant un nombre de zéros plus important qu’attendu (inflation en zéro). La dernière partie de la thèse utilise ces enseignements méthodologiques pour modéliser la distribution, l’abondance et les tendances des rapaces diurnes en France
In the context of global biodiversity loss, more and more surveys are done at a broad spatial extent and during a long time period, which is done in order to understand processes driving the distribution, the abundance and the trends of populations at the relevant biological scales. These studies allow then defining more precise conservation status for species and establish pertinent conservation measures. However, the statistical analysis of such datasets leads some concerns. Usually, generalized linear models (GLM) are used, trying to link the variable of interest (e.g. presence/absence or abundance) with some external variables suspected to influence it (e.g. climatic and habitat variables). The main unresolved concern is about the selection of these external variables from a spatial dataset. This thesis details several possibilities and proposes a widely usable method based on a cross-validation procedure accounting for spatial dependencies. The method is evaluated through simulations and applied on several case studies, including datasets with higher than expected variability (overdispersion). A focus is also done for methods accounting for an excess of zeros (zero-inflation). The last part of this manuscript applies these methodological developments for modelling the distribution, abundance and trend of raptors breeding in France

APA, Harvard, Vancouver, ISO, and other styles

31

Kristensen, Emmanuelle. "Méthodologie de traitement conjoint des signaux EEG et oculométriques : applications aux tâches d'exploration visuelle libre." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS020/document.

Full text

Abstract:

Nos travaux se sont articulés autour du problème de recouvrement temporel rencontré lors de l'estimation des potentiels évoqués. Il constitue, plus particulièrement, une limitation majeure pour l'estimation des potentiels évoqués par les fixations ou saccades oculaires lors d'une expérience en enregistrement conjoint EEG et oculométrie. En effet, la méthode habituellement utilisée pour estimer ces potentiels évoqués, la méthode par simple moyennage du signal synchronisé sur l'évènement d'intérêt, suppose qu'il y a un seul potentiel évoqué par essai. Or selon les intervalles inter-stimuli, cette hypothèse n'est pas toujours vérifiée. Ceci est d'autant plus vrai dans le contexte des potentiels évoqués par fixations ou saccades oculaires, les intervalles entre ceux-ci n'étant pas contrôlés par l'expérimentateur et pouvant être plus courts que les latences des potentiels d'intérêt. Le fait que cette hypothèse ne soit pas vérifiée donne une estimation biaisée du potentiel évoqué du fait des recouvrements entre les potentiels évoqués.Nous avons donc utilisé le Modèle Linéaire Général (GLM), méthode de régression linéaire bien connue, pour estimer les potentiels évoqués par les mouvements oculaires afin de répondre à ce problème de recouvrement. Tout d'abord, nous avons introduit, dans ce modèle, un terme de régularisation au sens de Tikhonov dans l'optique d'améliorer le rapport signal sur bruit de l'estimation pour un faible nombre d'essais. Nous avons ensuite comparé le GLM à l'algorithme ADJAR dans un contexte d'enregistrement conjoint EEG et oculométrie lors d'une tâche d'exploration visuelle de scènes naturelles. L'algorithme ADJAR ("ADJAcent Response") est un algorithme classique d'estimation itérative des recouvrements temporels développé en 1993 par M. Woldorff. Les résultats ont montré que le GLM était un modèle plus flexible et robuste que l'algorithme ADJAR pour l'estimation des potentiels évoqués par les fixations oculaires. Puis, deux configurations du GLM ont été comparées pour l'estimation du potentiel évoqué à l'apparition du stimulus et du potentiel évoqué par les fixations au début de l'exploration. Toutes deux prenaient en compte les recouvrements entre potentiels évoqués mais l'une distinguait également le potentiel évoqué par la première fixation de l'exploration du potentiel évoqué par les fixations suivantes. Il est apparu que le choix de la configuration du GLM était un compromis entre la qualité de l'estimation des potentiels et les hypothèses émises sur les processus cognitifs sous-jacents.Enfin, nous avons conduit de bout en bout une expérience d'envergure en enregistrement conjoint EEG et oculométrie portant sur l'exploration des expressions faciales émotionnelles naturelles statiques et dynamiques. Nous avons présenté les premiers résultats pour la modalité statique. Après avoir discuté de la méthode d'estimation des potentiels évoqués selon l'impact des mouvements oculaires sur leur fenêtre de latence, nous avons étudié l'effet du type d'émotion. Nous avons trouvé des modulations du potentiel différentiel EPN (Early Posterior Negativity), entre 230 et 350 ms après l'apparition du stimulus et du potentiel LPP (Late Positivity Potential), entre 400 et 600 ms après l'apparition du stimulus. Nous avons également observé des variations du potentiel évoqué par les fixations oculaires. Pour le potentiel LPP, qui est un marqueur de la reconnaissance consciente de l'émotion, nous avons montré qu'il était important de dissocier l'information qui est immédiatement encodée à l'apparition du stimulus émotionnel, de celle qui est apportée à l'issue de la première fixation. Cela met en évidence un motif d'activation différencié pour les stimuli émotionnels à valence négative ou à valence positive. Cette différenciation est en accord avec l'hypothèse d'un traitement plus rapide des stimuli émotionnels à valence négative que des stimuli émotionnels à valence positive
Our research focuses on the issue of overlapping for evoked potential estimation. More specifically, this issue is a significant limitation for Eye-Fixation Related Potentials and Eye-Saccade Related Potentials estimations during a joint EEG and eye-tracking recording. Indeed, the usual estimation, by averaging the signal time-locked to the event of interest, is based on the assumption that a single evoked potential occurs during a trial. However, depending on the inter-stimulus intervals, this assumption is not always verified. This is especially the case in the context of Eye-Fixation Related Potentials and Eye-Saccade Related Potentials, given the fact that the intervals between fixations (or saccades) are not controlled by the experimenter and can be shorter than the latencies of the potentials of interest.The fact that this assumption is not verified gives a distorted estimate of the evoked potential due to overlaps between the evoked potentials.We have therefore used the Linear Model (GLM), a well-known linear regression method, to estimate the potentials evoked by ocular movements in order to take into account overlaps. First, we decided to introduce a term of Tikhonov regularization into this model in order to improve the signal-to-noise ratio of the estimate for a small number of trials. Then, we compared the GLM to the ADJAR algorithm in a context of joint EEG and eye-tracking recording during a task of visual exploration of natural scenes. The ADJAR ("ADJAcent Response") algorithm is an algorithm for iterative estimation of temporal overlaps developed in 1993 by M. Woldorff. The results showed that the GLM model was more flexible and robust than the ADJAR algorithm in estimating Eye-Fixation Related Potentials. Further, two GLM configurations were compared in their estimation of evoked potential at the onset of the stimulus and the eye-fixation related potential at the beginning of the testing. Both configurations took into account the overlaps between evoked potentials, but one additionally distinguished the potential evoked by the first fixation of the exploration from the potential evoked by the following fixations. It became clear that the choice of the GLM configuration was a compromise between the estimation quality of the potentials and the assumptions about the underlying cognitive processes.Finally, we conducted an extensive joint EEG and eye-tracking experiment on the exploration of static and dynamic natural emotional facial expressions. We presented the first results for the static modality. After discussing the estimation method of the evoked potentials according to the impact of the ocular movements on their latency window, we studied the influence of the type of emotion. We found modulations of the differential EPN (Early Posterior Negativity) potential, between 230 and 350 ms after the stimulus onset and the Late Positivity Potential (LPP) , between 400 and 600 ms after the stimulus onset. We also observed variations for the Eye-Fixation Related Potentials. Regarding the LPP component, a marker of conscious recognition of emotion, we have shown that it is important to dissociate information that is immediately encoded at the onset of the emotional stimulus from information encoded at the first fixations. This shows a differentiated pattern of activation according to the emotional stimulus valence. This differentiation is in agreement with the hypothesis of a faster treatment of negative emotional stimuli than of positive emotional stimuli

APA, Harvard, Vancouver, ISO, and other styles

32

Maumet, Camille. "From group to patient-specific analysis of brain function in arterial spin labelling and BOLD functional MRI." Phd thesis, Université Rennes 1, 2013. http://tel.archives-ouvertes.fr/tel-00863908.

Full text

Abstract:

This thesis deals with the analysis of brain function in Magnetic Resonance Imaging (MRI) using two sequences: BOLD functional MRI (fMRI) and Arterial Spin Labelling (ASL). In this context, group statistical analyses are of great importance in order to understand the general mechanisms underlying a pathology, but there is also an increasing interest towards patient-specific analyses that draw conclusions at the patient level. Both group and patient-specific analyses are studied in this thesis. We first introduce a group analysis in BOLD fMRI for the study of specific language impairment, a pathology that was very little investigated in neuroimaging. We outline atypical patterns of functional activity and lateralisation in language regions. Then, we move forward to patient-specific analysis. We propose the use of robust estimators to compute cerebral blood flow maps in ASL. Then, we analyse the validity of the assumptions underlying standard statistical analyses in the context of ASL. Finally, we propose a new locally multivariate statistical method based on an a contrario approach and apply it to the detection of atypical patterns of perfusion in ASL and to activation detection in BOLD functional MRI.

APA, Harvard, Vancouver, ISO, and other styles

33

Ouellette, Marie-Hélène. "L’arbre de régression multivariable et les modèles linéaires généralisés revisités : applications à l’étude de la diversité bêta et à l’estimation de la biomasse d’arbres tropicaux." Thèse, 2011. http://hdl.handle.net/1866/5906.

Full text

Abstract:

En écologie, dans le cadre par exemple d’études des services fournis par les écosystèmes, les modélisations descriptive, explicative et prédictive ont toutes trois leur place distincte. Certaines situations bien précises requièrent soit l’un soit l’autre de ces types de modélisation ; le bon choix s’impose afin de pouvoir faire du modèle un usage conforme aux objectifs de l’étude. Dans le cadre de ce travail, nous explorons dans un premier temps le pouvoir explicatif de l’arbre de régression multivariable (ARM). Cette méthode de modélisation est basée sur un algorithme récursif de bipartition et une méthode de rééchantillonage permettant l’élagage du modèle final, qui est un arbre, afin d’obtenir le modèle produisant les meilleures prédictions. Cette analyse asymétrique à deux tableaux permet l’obtention de groupes homogènes d’objets du tableau réponse, les divisions entre les groupes correspondant à des points de coupure des variables du tableau explicatif marquant les changements les plus abrupts de la réponse. Nous démontrons qu’afin de calculer le pouvoir explicatif de l’ARM, on doit définir un coefficient de détermination ajusté dans lequel les degrés de liberté du modèle sont estimés à l’aide d’un algorithme. Cette estimation du coefficient de détermination de la population est pratiquement non biaisée. Puisque l’ARM sous-tend des prémisses de discontinuité alors que l’analyse canonique de redondance (ACR) modélise des gradients linéaires continus, la comparaison de leur pouvoir explicatif respectif permet entre autres de distinguer quel type de patron la réponse suit en fonction des variables explicatives. La comparaison du pouvoir explicatif entre l’ACR et l’ARM a été motivée par l’utilisation extensive de l’ACR afin d’étudier la diversité bêta. Toujours dans une optique explicative, nous définissons une nouvelle procédure appelée l’arbre de régression multivariable en cascade (ARMC) qui permet de construire un modèle tout en imposant un ordre hiérarchique aux hypothèses à l’étude. Cette nouvelle procédure permet d’entreprendre l’étude de l’effet hiérarchisé de deux jeux de variables explicatives, principal et subordonné, puis de calculer leur pouvoir explicatif. L’interprétation du modèle final se fait comme dans une MANOVA hiérarchique. On peut trouver dans les résultats de cette analyse des informations supplémentaires quant aux liens qui existent entre la réponse et les variables explicatives, par exemple des interactions entres les deux jeux explicatifs qui n’étaient pas mises en évidence par l’analyse ARM usuelle. D’autre part, on étudie le pouvoir prédictif des modèles linéaires généralisés en modélisant la biomasse de différentes espèces d’arbre tropicaux en fonction de certaines de leurs mesures allométriques. Plus particulièrement, nous examinons la capacité des structures d’erreur gaussienne et gamma à fournir les prédictions les plus précises. Nous montrons que pour une espèce en particulier, le pouvoir prédictif d’un modèle faisant usage de la structure d’erreur gamma est supérieur. Cette étude s’insère dans un cadre pratique et se veut un exemple pour les gestionnaires voulant estimer précisément la capture du carbone par des plantations d’arbres tropicaux. Nos conclusions pourraient faire partie intégrante d’un programme de réduction des émissions de carbone par les changements d’utilisation des terres.
In ecology, in ecosystem services studies for example, descriptive, explanatory and predictive modelling all have relevance in different situations. Precise circumstances may require one or the other type of modelling; it is important to choose the method properly to insure that the final model fits the study’s goal. In this thesis, we first explore the explanatory power of the multivariate regression tree (MRT). This modelling technique is based on a recursive bipartitionning algorithm. The tree is fully grown by successive bipartitions and then it is pruned by resampling in order to reveal the tree providing the best predictions. This asymmetric analysis of two tables produces homogeneous groups in terms of the response that are constrained by splitting levels in the values of some of the most important explanatory variables. We show that to calculate the explanatory power of an MRT, an appropriate adjusted coefficient of determination must include an estimation of the degrees of freedom of the MRT model through an algorithm. This estimation of the population coefficient of determination is practically unbiased. Since MRT is based upon discontinuity premises whereas canonical redundancy analysis (RDA) models continuous linear gradients, the comparison of their explanatory powers enables one to distinguish between those two patterns of species distributions along the explanatory variables. The extensive use of RDA for the study of beta diversity motivated the comparison between its explanatory power and that of MRT. In an explanatory perspective again, we define a new procedure called a cascade of multivariate regression trees (CMRT). This procedure provides the possibility of computing an MRT model where an order is imposed to nested explanatory hypotheses. CMRT provides a framework to study the exclusive effect of a main and a subordinate set of explanatory variables by calculating their explanatory powers. The interpretation of the final model is done as in nested MANOVA. New information may arise from this analysis about the relationship between the response and the explanatory variables, for example interaction effects between the two explanatory data sets that were not evidenced by the usual MRT model. On the other hand, we study the predictive power of generalized linear models (GLM) to predict individual tropical tree biomass as a function of allometric shape variables. Particularly, we examine the capacity of gaussian and gamma error structures to provide the most precise predictions. We show that for a particular species, gamma error structure is superior in terms of predictive power. This study is part of a practical framework; it is meant to be used as a tool for managers who need to precisely estimate the amount of carbon recaptured by tropical tree plantations. Our conclusions could be integrated within a program of carbon emission reduction by land use changes.

APA, Harvard, Vancouver, ISO, and other styles

34

Tomas, Julien. "Mesure des risques biometriques liés à l'assurance vie avec des méthodes non-paramétriques." Phd thesis, 2013. http://tel.archives-ouvertes.fr/tel-00778755.

Full text

Abstract:

Les tables de mortalité sont utilisées pour décrire la probabilité annuelle de décès d'une population en fonction de l'âge atteint et de l'année calendaire. Ces probabilités jouent un rôle important dans la détermination des primes et réserves en assurance vie. Les estimations brutes, sur lesquelles se basent les tables de mortalité, peuvent être considérées comme un échantillon provenant d'une population plus importante et sont, par conséquent, soumises à des fluctuations aléatoires. Toutefois, l'actuaire souhaite la plupart du temps lisser ces quantités afin de faire ressortir les caractéristiques de la mortalité du groupe considéré qu'il pense être relativement régulières. Cette dissertation fournit une description détaillée des méthodes de graduation non-paramétrique de données d'expérience issues de l'assurance vie. Le terme non-paramétrique renvoie à une forme fonctionnelle de la courbe de régression. Comme les méthodes paramétriques, elles sont toutes aussi susceptibles de donner des estimations biaisées, mais de telle sorte qu'il est possible de compenser une augmentation du biais avec une diminution de la variation de l'échantillonnage. Dans la littérature actuarielle, le processus de lisser une table de mortalité est appelé graduation. Les collines et vallées des données brutes sont lissées de façon similaire á la construction d'une route sur un terrain accidenté. Le lissage seul, cependant, n'est pas la graduation. Les taux gradués doivent être représentatifs des données sous-jacentes et la graduation se révélera souvent comme un compromis entre ajustement et lissage optimal. Les régressions polynomiales locales et méthodes de vraisemblance locale sont examinées en détail. Les questions importantes concernant le choix des paramètres de lissage, les propriétés statistiques des estimateurs, les critères utilisés pour la sélection des modèles, la construction des intervalles de confiance ainsi que les comparaisons entre les modèles sont ouvertes avec des illustrations numériques et graphiques. Les techniques non-paramétriques locales combinent d'excellentes propriétés théoriques avec une simplicité et une flexibilité conceptuelle pour trouver une structure dans de nombreuses bases de données. Une attention particulère est consacrée à l'influence des bordures sur le choix des paramètres de lissage. Ces considérations illustrent le besoin d'avoir à disposition des approches plus flexibles. Des méthodes adaptatives de vraisemblance locale sont alors introduites. Le montant de lissage varie en fonction de l'emplacement et ces approches permettent des ajustements de la fenêtre d'observation en fonction de la fiabilité des données. Ces méthodes s'adaptent parfaitement à la complexité de la surface de mortalité en raison du choix adaptatif approprié des paramètres de lissage. Enfin, ce manuscrit traite de sujets importants pour les praticiens. Ceux-ci concernent la construction et la validation de tables de mortalité prospectives pour des portefeuilles d'assurance, l'évaluation du risque de modèle, et dans une moindre mesure, du risque d'opinion d'experts lié au choix de la table de référence externe utilisée.

APA, Harvard, Vancouver, ISO, and other styles

35

Sautié, Castellanos Miguel. "Assessing the robustness of genetic codes and genomes." Thesis, 2020. http://hdl.handle.net/1866/24333.

Full text

Abstract:

Deux approches principales existent pour évaluer la robustesse des codes génétiques et des séquences de codage. L'approche statistique est basée sur des estimations empiriques de probabilité calculées à partir d'échantillons aléatoires de permutations représentant les affectations d'acides aminés aux codons, alors que l'approche basée sur l'optimisation repose sur le pourcentage d’optimisation, généralement calculé en utilisant des métaheuristiques. Nous proposons une méthode basée sur les deux premiers moments de la distribution des valeurs de robustesse pour tous les codes génétiques possibles. En se basant sur une instance polynomiale du Problème d'Affectation Quadratique, nous proposons un algorithme vorace exact pour trouver la valeur minimale de la robustesse génomique. Pour réduire le nombre d'opérations de calcul des scores et de la borne supérieure de Cantelli, nous avons développé des méthodes basées sur la structure de voisinage du code génétique et sur la comparaison par paires des codes génétiques, entre autres. Pour calculer la robustesse des codes génétiques naturels et des génomes procaryotes, nous avons choisi 23 codes génétiques naturels, 235 propriétés d'acides aminés, ainsi que 324 procaryotes thermophiles et 418 procaryotes non thermophiles. Parmi nos résultats, nous avons constaté que bien que le code génétique standard soit plus robuste que la plupart des codes génétiques, certains codes génétiques mitochondriaux et nucléaires sont plus robustes que le code standard aux troisièmes et premières positions des codons, respectivement. Nous avons observé que l'utilisation des codons synonymes tend à être fortement optimisée pour amortir l'impact des changements d'une seule base, principalement chez les procaryotes thermophiles.
There are two main approaches to assess the robustness of genetic codes and coding sequences. The statistical approach is based on empirical estimates of probabilities computed from random samples of permutations representing assignments of amino acids to codons, whereas, the optimization-based approach relies on the optimization percentage frequently computed by using metaheuristics. We propose a method based on the first two moments of the distribution of robustness values for all possible genetic codes. Based on a polynomially solvable instance of the Quadratic Assignment Problem, we propose also an exact greedy algorithm to find the minimum value of the genome robustness. To reduce the number of operations for computing the scores and Cantelli’s upper bound, we developed methods based on the genetic code neighborhood structure and pairwise comparisons between genetic codes, among others. For assessing the robustness of natural genetic codes and genomes, we have chosen 23 natural genetic codes, 235 amino acid properties, as well as 324 thermophilic and 418 non-thermophilic prokaryotes. Among our results, we found that although the standard genetic code is more robust than most genetic codes, some mitochondrial and nuclear genetic codes are more robust than the standard code at the third and first codon positions, respectively. We also observed that the synonymous codon usage tends to be highly optimized to buffer the impact of single-base changes, mainly, in thermophilic prokaryotes.

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Modèles linéaires généralisés [GLM]'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles