To see the other types of publications on this topic, follow the link: Rang et sélection (statistique).

Dissertations / Theses on the topic 'Rang et sélection (statistique)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Rang et sélection (statistique).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Meunier, Hervé. "Algorithmes évolutionnaires parallèles pour l'optimisation multi-objectif de réseaux de télécommunications mobiles." Lille 1, 2002. https://pepite-depot.univ-lille.fr/RESTREINT/Th_Num/2002/50376-2002-93.pdf.

Full text
Abstract:
Ce travail de thèse porte sur l'optimisation de problèmes multi-objectifs de grande taille. Une classification des métaheuristiques pour la résolution de problèmes multi-objectifs proposée dans ce travail montre les limites des méthodes basées sur la transformation d'un problème multi-objectif en un problème mono-objectif. Nous pensons que les métaheuristiques à base de populations, tels les algorithmes évolutionnaires, sont bien adaptées pour la résolution de ces problèmes. En effet, l'optimisation multi-objectif a pour caractéristique principale de fournir un ensemble de solutions qui représente le front Pareto des solutions compromis. Nous avons adopté une approche progressive dans la présentation des concepts introduits dans l'algorithme, qui reflète l'évolution dans la conception de l'algorithme. Les mécanismes proposés ont été validés par la résolution d'un problème réel complexe issu des télécommunications : le problème du design de réseaux cellulaires. Nous avons introduit de nouveaux indicateurs de performance permettant d'évaluer la qualité de fronts Pareto : la contribution et l'entropie. Nous avons aussi noté que peu de travaux ont été réalisés autour des algorithmes parallèle pour l'optimisation multi-objectif. Trois modèles parallèles ont été proposés. Les approches basées sur le partitionnement de l'espace opérationnel et sur la distribution de la phase d'évaluation permettent d'accélérer les temps de recherche des algorithmes proposés et résoudre des problèmes de grande taille. L'approche parallèle insulaire basée sur la coopération de sous-populations par migration d'archives permet d'améliorer la qualité des fronts obtenus et une meilleure robustesse des algorithmes. La complémentarité de ces trois approches fait qu'une approche hiérarchique à trois niveaux, bénéficiant des avantages de chaque modèle, a été développée, et évaluée, ce qui a permis de proposer des solutions pour améliorer [. . . ].
APA, Harvard, Vancouver, ISO, and other styles
2

Chambaz, Antoine. "Segmentation spatiale et sélection de modèle : théorie et applications statistiques." Paris 11, 2003. http://www.theses.fr/2003PA112012.

Full text
Abstract:
Cette thèse trouve sa dynamique dans l'élaboration d'une méthode originale de raffinement de localisation du trafic de téléphonie mobile en zone urbaine pour France Télécom R&D, ainsi que dans l'étude de thèmes théoriques soulevés lors de notre exploration. Notre approche est de nature statistique. Il apparaît que les thèmes centraux de cette thèse sont la segmentation spatiale et la sélection de modèle. Nous introduisons dans un premier temps les données sur lesquelles nous avons fondé notre approche du problème, que nous expliquons à leur lumière. Nous motivons le choix d'un modèle de régression hétéroscédastique. Nous présentons ensuite une démarche non paramétrique par arbres de régression de type CART et ses extensions par ré-échantillonnage Bagging et Boosting dans un cadre de régression homoscédastique. Nous proposons une adaptation de ces techniques au cas hétéroscédastique. Une analyse originale de l'importance des variables y est as~ociée. L'application commentée de notre méthode à divers jeux de données de trafic constitue notre réponse finale au problème initial. Le travail appliqué évoqué plus tôt motive l'étude de la consistance d'une famille d'estimateurs de l'ordre et de la segmentation d'un modèle segmenté. Nous nous consacrons aussi, dans un cadre général de sélection de modèle dans un emboîtement, à l'estimation de l'ordre d'un modèle et aux propriétés de consistance, ainsi qu'aux vitesses de sur- ou sous-estimation. Une approche fonctionnelle, i. E. Une approche pour laquelle les événements d'intérêt sont exprimés en termes d'événements sur la mesure empirique, permet d'unifier et de généraliser une large gamme de résultats antérieurs. Les preuves font appel à une variété de techniques: arguments classiques de minimisation de contraste, concentration, inégalités maximales pour des variables dépendantes, lemme de Stein, pénalisation, Prin- cipes de Grandes et Moyennes Déviations pour la mesure empirique, tour à la Hu ber
We tacke in this thesis the elaboration of an original method that provides refinement of the localization of the mobIle telecommunication traffic in urban area for France Télécom R&D. This work involves both practical and theoretical developments. Our point of view is of statistical nature. The major themes are spatial segmentation and model selection. We first introduce the various datasets from which our approach stems. They cast some light on the original problem. We motivate the choice of an heteroscedastic regression model. We then present a practical nonparametric regression method based on CART regression trees and its Bagging and Boosting extensions by resampling. The latter classical methods are designed for ho- moscedastic models. We propose an adaptation to heteroscedastic ODes, including an original analysis of variable importance. We apply the method to various traffic datasets. The final results are commented. The above practical work motivates the theoretical study of the consistency of a family of estimators of the order of a segmented model and its associated segmentation. We also cope, in a general framework of model select ion in a nested family of models, with the estimation of the order of a model. We are particularly concerned with consistency properties and rates of und er- or overestimation. We tackle the problem at stake with a linear functional approach, i. E. An approach where the events of interest are described as events concerning the empirical measute. This allows to derive general results that gather and enhance earlier ODes. A large range of techniques are involved : classical arguments of M -estimation, concentration, max- imal inequalities for dependent variables, Stein's lemma, penalization, Large and Moderate Deviations Principles for the empirical measure, à la Huber trick
APA, Harvard, Vancouver, ISO, and other styles
3

Bi, Duyan. "Segmentation d'images basée sur les statistiques de rangs des niveaux de gris." Tours, 1997. http://www.theses.fr/1997TOUR4005.

Full text
Abstract:
Dans ce mémoire, nous présentons de nouvelles méthodes de segmentation d'images basées sur les statistiques de rangs des niveaux de gris. A travers cette étude, nous avons mis en évidence l'efficacité de la caractérisation des régions à l'aide des statistiques de rangs des niveaux de gris tant pour les régions que pour la discrimination de textures. Dans un premier temps, nous utilisons celles-ci pour la détection de contours. En considérant les contours comme des transitions fortes de niveaux de gris entre régions, on base la détection sur une modélisation du changement des niveaux de gris par rapport à leurs rangs dans une fenêtre. Les contours sont finalement positionnés grâce à une nouvelle méthode de localisation s'appuyant sur une modélisation géométrique locale d'un contour dans une fenêtre de 3 x 3 pixels. Les résultats de la détection sur des images réelles ont montré l'efficacité de notre approche. Dans un deuxième temps, nous avons pris en compte la relation qui lie les positions spatiales et les rangs des niveaux de gris des pixels dans un voisinage. Cela permet de faire ressortir la structure locale de la distribution de niveaux de gris dans l'image. Nous décrivons ensuite la texture en calculant les fréquences d'apparition de ces structures de base dans une région. Cette nouvelle description de texture, permet la mise en oeuvre de la discrimination et la segmentation de textures. La comparaison de cette méthode avec celles des matrices d'occurrences, de l'énergie de texture, et de la transformation de Gabor a montré la supériorité de la méthode proposée.
APA, Harvard, Vancouver, ISO, and other styles
4

Savalle, Pierre-André. "Interactions entre rang et parcimonie en estimation pénalisée, et détection d'objets structurés." Thesis, Châtenay-Malabry, Ecole centrale de Paris, 2014. http://www.theses.fr/2014ECAP0051/document.

Full text
Abstract:
Cette thèse est organisée en deux parties indépendantes. La première partie s'intéresse à l'estimation convexe de matrice en prenant en compte à la fois la parcimonie et le rang. Dans le contexte de graphes avec une structure de communautés, on suppose souvent que la matrice d'adjacence sous-jacente est diagonale par blocs dans une base appropriée. Cependant, de tels graphes possèdent généralement une matrice d'adjacente qui est aussi parcimonieuse, ce qui suggère que combiner parcimonie et range puisse permettre de modéliser ce type d'objet de manière plus fine. Nous proposons et étudions ainsi une pénalité convexe pour promouvoir parcimonie et rang faible simultanément. Même si l'hypothèse de rang faible permet de diminuer le sur-apprentissage en diminuant la capacité d'un modèle matriciel, il peut être souhaitable lorsque suffisamment de données sont disponible de ne pas introduire une telle hypothèse. Nous étudions un exemple dans le contexte multiple kernel learning localisé, où nous proposons une famille de méthodes a vaste-marge convexes et accompagnées d'une analyse théorique. La deuxième partie de cette thèse s'intéresse à des problèmes de détection d'objets ou de signaux structurés. Dans un premier temps, nous considérons un problème de test statistique, pour des modèles où l'alternative correspond à des capteurs émettant des signaux corrélés. Contrairement à la littérature traditionnelle, nous considérons des procédures de test séquentielles, et nous établissons que de telles procédures permettent de détecter des corrélations significativement plus faible que les méthodes traditionnelles. Dans un second temps, nous considérons le problème de localiser des objets dans des images. En s'appuyant sur de récents résultats en apprentissage de représentation pour des problèmes similaires, nous intégrons des features de grande dimension issues de réseaux de neurones convolutionnels dans les modèles déformables traditionnellement utilisés pour ce type de problème. Nous démontrons expérimentalement que ce type d'approche permet de diminuer significativement le taux d'erreur de ces modèles
This thesis is organized in two independent parts. The first part focused on convex matrix estimation problems, where both rank and sparsity are taken into account simultaneously. In the context of graphs with community structures, a common assumption is that the underlying adjacency matrices are block-diagonal in an appropriate basis. However, these types of graphs are usually far from complete, and their adjacency representations are thus also inherently sparse. This suggests that combining the sparse hypothesis and the low rank hypothesis may allow to more accurately model such objects. To this end, we propose and analyze a convex penalty to promote both low rank and high sparsity at the same time. Although the low rank hypothesis allows to reduce over-fitting by decreasing the modeling capacity of a matrix model, the opposite may be desirable when enough data is available. We study such an example in the context of localized multiple kernel learning, which extends multiple kernel learning by allowing each of the kernels to select different support vectors. In this framework, multiple kernel learning corresponds to a rank one estimator, while higher-rank estimators have been observed to increase generalization performance. We propose a novel family of large-margin methods for this problem that, unlike previous methods, are both convex and theoretically grounded. The second part of the thesis is about detection of objects or signals which exhibit combinatorial structures, and we present two such problems. First, we consider detection in the statistical hypothesis testing sense, in models where anomalous signals correspond to correlated values at different sensors. In most existing work, detection procedures are provided with a full sample of all the sensors. However, the experimenter may have the capacity to make targeted measurements in an on-line and adaptive manner, and we investigate such adaptive sensing procedures. Finally, we consider the task of identifying and localizing objects in images. This is an important problem in computer vision, where hand-crafted features are usually used. Following recent successes in learning ad-hoc representations for similar problems, we integrate the method of deformable part models with high-dimensional features from convolutional neural networks, and shows that this significantly decreases the error rates of existing part-based models
APA, Harvard, Vancouver, ISO, and other styles
5

Challita, Nicole. "Contributions à la sélection des attributs de signaux non stationnaires pour la classification." Thesis, Troyes, 2018. http://www.theses.fr/2018TROY0012.

Full text
Abstract:
Pour surveiller le fonctionnement d’un système, le nombre de mesures et d’attributs peut désormais être très grand. Mais il est souhaitable de réduire la dimension du problème en ne conservant que les attributs discriminants pour l’apprentissage de la règle de surveillance et pour réduire le volume de traitement. Il s’agit donc de choisir un sous-ensemble d'attributs pour obtenir les meilleures performances de classification possible. Ce manuscrit présente différentes méthodes de sélection d'attributs existantes et en propose deux nouvelles. La première nommée "EN-ReliefF" est une combinaison d’une méthode séquentielle sous-optimale ReliefF et d’une approche basée sur une régression pondérée : Elastic Net. La seconde s’inspire des réseaux de neurones. Elle est formulée comme un problème d’optimisation permettant de définir simultanément une régression non linéaire qui s’adapte aux données d’apprentissage et une pondération parcimonieuse des attributs. Les poids sont ensuite utilisés pour sélectionner les attributs pertinents. Les deux méthodes sont testées sur des données de synthèse et sur des données issues de machines tournantes. Les résultats expérimentaux montrent l’efficacité des deux méthodes. Les caractéristiques remarquables sont la stabilité de la sélection et la capacité à gérer des attributs linéairement corrélés pour "EN-ReliefF" et la sensibilité et la capacité à gérer des dépendances non linéaires pour la seconde
To monitor the functioning of a system, the number of measurements and attributes can now be very large. But it is desirable to reduce the size of the problem by keeping only the discriminating features to learn the monitoring rule and to reduce the processing demand. The problem is therefore to select a subset of attributes to obtain the best possible classification performance. This thesis dissertation presents different existing methods for feature selection and proposes two new ones. The first one, named "EN-ReliefF", is a combination of a sequential ReliefF method and a weighted regression approach: Elastic Net. The second one is inspired by neural networks. It is formulated as an optimization problem allowing defining at the same time a non-linear regression that adapts to the learning data and a parsimonious weighting of the features. The weights are then used to select the relevant features. Both methods are tested on synthesis data and data from rotating machines. Experimental results show the effectiveness of both methods. Remarkable characteristics are the stability of selection and ability to manage linearly correlated attributes for "EN-ReliefF" and the sensitivity and ability to manage non-linear dependencies for the second method
APA, Harvard, Vancouver, ISO, and other styles
6

Boisbunon, Aurélie. "Sélection de modèle : une approche décisionnelle." Phd thesis, Université de Rouen, 2013. http://tel.archives-ouvertes.fr/tel-00793898.

Full text
Abstract:
Cette thèse s'articule autour de la problématique de la sélection de modèle, étudiée dans le contexte de la régression linéaire. L'objectif est de déterminer le meilleur modèle de prédiction à partir de données mesurées, c'est-à-dire le modèle réalisant le meilleur compromis entre attache aux données et complexité du modèle. La contribution principale consiste en la dérivation de critères d'évaluation de modèles basés sur des techniques de théorie de la décision, plus précisément l'estimation de coût. Ces critères reposent sur une hypothèse distributionnelle plus large que l'hypothèse classique gaussienne avec indépendance entre les observations : la famille des lois à symétrie sphérique. Cette famille nous permet à la fois de nous affranchir de l'hypothèse d'indépendance et d'ajouter une plus grande robustesse puisque nos critères ne dépendent pas de la forme spécifique de la distribution. Nous proposons également une méthode de comparaison des critères dérivés au travers d'une mesure de type Erreur quadratique (MSE), qui permet de déterminer si un critère d'évaluation de modèle est meilleur qu'un autre. La seconde contribution attaque le problème de la construction des différents modèles comparés. Les collections de modèles considérées sont celles issues des méthodes de régularisation parcimonieuses, de type Lasso. En particulier, nous nous sommes intéressés à la Pénalité Concave Minimax (MCP), qui garde la sélection du Lasso tout en corrigeant son biais d'estimation. Cette pénalité correspond cependant à un problème non différentiable et non convexe. La généralisation des outils habituels de sous-différentielles grâce aux différentielles de Clarke a permis de déterminer les conditions d'optimalité et de développer un algorithme de chemin de régularisation pour le MCP. Enfin, nous comparons nos propositions avec celles de la littérature au travers d'une étude numérique, dans laquelle nous vérifions la qualité de la sélection. Les résultats montrent notamment que nos critères obtiennent des performances comparables à ceux de la littérature, et que les critères les plus couramment utilisés en pratique (validation croisée) ne sont pas toujours parmi les plus performants.
APA, Harvard, Vancouver, ISO, and other styles
7

Estampes, Ludovic d'. "Traitement statistique des processus alpha-stables : mesures de dépendance et identification des AR stables : tests séquentiels tronqués." Toulouse, INPT, 2003. http://www.theses.fr/2003INPT031H.

Full text
Abstract:
Dans le premier chapitre, nous rappelons les différentes propriétés des lois alpha-stables univariées. Nous introduisons ensuite les lois symétriques alpha-stables multivariées. Dans le deuxième chapitre, nous nous concentrons sur les mesures de dépendance. Constatant que le coefficient de covariation admet certaines limites, nous construisons une nouvelle mesure de dépendance, le coefficient de covariation symétrique. Après avoir conclu le chapitre par l'étude de la loi asymptotique de l'estimateur du coefficient de covariation, nous présentons les différentes méthodes d'identification de l'ordre d'un processus AR: autocorrélation partielle et statistiques quadratiques asymptotiquement invariantes basées sur les rangs. De nombreuses simulations nous permettent de comparer ces méthodes et de constater l'importance des statistiques de rang dans ce domaine. Enfin, un problème de test séquentiel nous permet d'introduire la notion de niveau de confiance après décision.
APA, Harvard, Vancouver, ISO, and other styles
8

Kalakech, Mariam. "Sélection semi-supervisée d'attributs : application à la classification de textures couleur." Thesis, Lille 1, 2011. http://www.theses.fr/2011LIL10018/document.

Full text
Abstract:
Dans le cadre de cette thèse, nous nous intéressons à la sélection des attributs en s'appuyant sur la théorie des graphes dans les différents contextes d'apprentissage non supervisé, semi-supervisé et supervisé. En particulier, nous nous intéressons aux scores de classement d'attributs basés sur des contraintes must-link et cannot-link. En effet, ces contraintes sont faciles à obtenir dans le cadre des applications réelles. Elles nécessitent juste de formuler pour deux données si elles se ressemblent et donc doivent être regroupées ensemble ou non, sans requérir d'informations détaillées sur les classes à retrouver. Les scores de contraintes ont montré de bonnes performances pour la sélection semi-supervisée des attributs. Cependant, ils sont fortement dépendants du sous-ensemble de contraintes disponibles. Nous proposons alors un score qui utilise à la fois l'ensemble des contraintes disponibles et les propriétés locales des données non contraintes. Des expériences réalisées sur des bases de données artificielles et réelles montrent que ce nouveau score est moins dépendant de l'ensemble de contraintes disponibles que les scores existants tout en atteignant des performances de classification similaires. La sélection semi-supervisée d'attributs a également été appliquée avec succès à la classification de textures couleur. En effet, parmi les nombreux attributs de texture pouvant être extraits des images couleur, il est nécessaire de sélectionner les plus pertinents afin d'améliorer la qualité de classification
Within the framework of this thesis, we are interested in feature selection methods based on graph theory in different unsupervised, semi-supervised and supervised learning contexts. We are particularly interested in the feature ranking scores based on must-link et cannot-link constraints. Indeed, these constraints are easy to be obtained on real applications. They just require to formalize for two data samples if they are similar and then must be grouped together or not, without detailed information on the classes to be found. Constraint scores have shown good performances for semi-supervised feature selection. However, these scores strongly depend on the given must-link and cannot-link subsets built by the user. We propose then a new semi-supervised constraint scores that uses both pairwise constraints and local properties of the unconstrained data. Experiments on artificial and real databases show that this new score is less sensitive to the given constraints than the previous scores while providing similar performances. Semi supervised feature selection was also successfully applied to the color texture classification. Indeed, among many texture features which can be extracted from the color images, it is necessary to select the most relevant ones to improve the quality of classification
APA, Harvard, Vancouver, ISO, and other styles
9

Olteanu, Madalina. "Modèles à changements de régime : applications aux données financières." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2006. http://tel.archives-ouvertes.fr/tel-00133132.

Full text
Abstract:
Cette thèse s'organise autour du but suivant : comment trouver un bon modèle pour les séries temporelles qui subissent des changements de comportement? L'application qui a motivé cette question est la caractérisation des crises financières à l'aide d'un indice des chocs de marché inspiré de la géophysique et de modèles hybrides à changements de régime intégrant des perceptrons multi-couches. Les résultats obtenus sur les données fournissent une séparation intéressante entre deux états relatifsà deux comportements différents du marché, mais des questions sur la sélection de modèles et le choix du nombre de régimes se posent alors naturellement.
On propose d'étudier ces questions à travers deux approches. Dans la première, il s'agit de montrer la consistance faible d'un estimateur de maximum de vraisemblance pénalisée sous des conditions de stationnarité et dépendance faible. Les hypothèses introduites sur l'entropie à crochets de la classe des fonctions scores généralisés sont ensuite vérifiées dans un cadre linéaire et gaussien. La deuxième approche, plutôt empirique, est issue des méthodes de classification non-supervisée et combine les cartes de Kohonen avec une classification hiérarchique pour laquelle une nouvelle dispersion basée sur la somme des carrés résiduelle est introduite.
APA, Harvard, Vancouver, ISO, and other styles
10

Reynaud-Bouret, Patricia. "Estimation adaptative de l'intensité de certains processus ponctuels par sélection de modèle." Phd thesis, Paris 11, 2002. http://tel.archives-ouvertes.fr/tel-00081412.

Full text
Abstract:
L'objet de cette thèse est d'adapter des techniques
de sélection de modèle au cadre particulier de l'estimation d'intensité de
processus ponctuels. Plus précisément, nous voulons montrer que les
estimateurs par projection pénalisés de l'intensité sont adaptatifs soit dans
une famille d'estimateurs par projection, soit pour le risque minimax. Nous
nous sommes restreints à deux cas particuliers : les processus de Poisson
inhomogènes et les processus de comptage à intensité
multiplicative d'Aalen.
Dans les deux cas, nous voulons trouver une inégalité de type
oracle, qui garantit que les estimateurs par projection pénalisés ont un risque
du même ordre de grandeur que le meilleur estimateur par projection pour une
famille de modèles donnés. La clé qui permet de prouver des inégalités de
type oracle est le phénomène de concentration de la mesure ou plus précisément
la connaissance d'inégalités exponentielles, qui permettent de contrôler en
probabilité les déviations de statistiques de type khi-deux au dessus de leur
moyenne. Nous avons prouvé deux types d'inégalités de concentration. La
première n'est valable que pour les processus de Poisson. Elle est comparable
en terme d'ordre de grandeur à l'inégalité de M. Talagrand pour les suprema de
processus empiriques. La deuxième est plus grossière mais elle est valable
pour des processus de comptage beaucoup plus généraux.
Cette dernière inégalité met en oeuvre des techniques de
martingales dont nous nous sommes inspirés pour prouver des inégalités de
concentration pour des U-statistiques dégénérées d'ordre 2 ainsi que pour des
intégrales doubles par rapport à une mesure de Poisson recentrée.
Nous calculons aussi certaines bornes inférieures pour les
risques minimax et montrons que les estimateurs par projection pénalisés
atteignent ces vitesses.
APA, Harvard, Vancouver, ISO, and other styles
11

Lehéricy, Luc. "Estimation adaptative pour les modèles de Markov cachés non paramétriques." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS550/document.

Full text
Abstract:
Dans cette thèse, j'étudie les propriétés théoriques des modèles de Markov cachés non paramétriques. Le choix de modèles non paramétriques permet d'éviter les pertes de performance liées à un mauvais choix de paramétrisation, d'où un récent intérêt dans les applications. Dans une première partie, je m'intéresse à l'estimation du nombre d'états cachés. J'y introduis deux estimateurs consistants : le premier fondé sur un critère des moindres carrés pénalisés, le second sur une méthode spectrale. Une fois l'ordre connu, il est possible d'estimer les autres paramètres. Dans une deuxième partie, je considère deux estimateurs adaptatifs des lois d'émission, c'est-à-dire capables de s'adapter à leur régularité. Contrairement aux méthodes existantes, ces estimateurs s'adaptent à la régularité de chaque loi au lieu de s'adapter seulement à la pire régularité. Dans une troisième partie, je me place dans le cadre mal spécifié, c'est-à-dire lorsque les observations sont générées par une loi qui peut ne pas être un modèle de Markov caché. J'établis un contrôle de l'erreur de prédiction de l'estimateur du maximum de vraisemblance sous des conditions générales d'oubli et de mélange de la vraie loi. Enfin, j'introduis une variante non homogène des modèles de Markov cachés : les modèles de Markov cachés avec tendances, et montre la consistance de l'estimateur du maximum de vraisemblance
During my PhD, I have been interested in theoretical properties of nonparametric hidden Markov models. Nonparametric models avoid the loss of performance coming from an inappropriate choice of parametrization, hence a recent interest in applications. In a first part, I have been interested in estimating the number of hidden states. I introduce two consistent estimators: the first one is based on a penalized least squares criterion, and the second one on a spectral method. Once the order is known, it is possible to estimate the other parameters. In a second part, I consider two adaptive estimators of the emission distributions. Adaptivity means that their rate of convergence adapts to the regularity of the target distribution. Contrary to existing methods, these estimators adapt to the regularity of each distribution instead of only the worst regularity. The third part is focussed on the misspecified setting, that is when the observations may not come from a hidden Markov model. I control of the prediction error of the maximum likelihood estimator when the true distribution satisfies general forgetting and mixing assumptions. Finally, I introduce a nonhomogeneous variant of hidden Markov models : hidden Markov models with trends, and show that the maximum likelihood estimators of such models is consistent
APA, Harvard, Vancouver, ISO, and other styles
12

Naveau, Marion. "Procédures de sélection de variables en grande dimension dans les modèles non-linéaires à effets mixtes. Application en amélioration des plantes." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASM031.

Full text
Abstract:
Les modèles à effets mixtes analysent des observations collectées de façon répétée sur plusieurs individus, attribuant la variabilité à différentes sources (intra-individuelle, inter-individuelle, résiduelle). Prendre en compte cette variabilité est essentiel pour caractériser sans biais les mécanismes biologiques sous-jacents. Ces modèles utilisent des covariables et des effets aléatoires pour décrire la variabilité entre individus : les covariables décrivent les différences dues à des caractéristiques observées, tandis que les effets aléatoires représentent la variabilité non attribuable aux covariables mesurées. Dans un contexte de grande dimension, où le nombre de covariables dépasse celui des individus, identifier les covariables influentes est difficile, car la sélection porte sur des variables latentes du modèle. De nombreuses procédures ont été mises au point pour les modèles linéaires à effets mixtes, mais les contributions pour les modèles non-linéaires sont rares et manquent de fondements théoriques. Cette thèse vise à développer une procédure de sélection de covariables en grande dimension pour les modèles non-linéaires à effets mixtes, en étudiant leurs implémentations pratiques et leurs propriétés théoriques. Cette procédure est basée sur l'utilisation d'un prior spike-and-slab gaussien et de l'algorithme SAEM (Stochastic Approximation of Expectation Maximisation Algorithm). Des taux de contraction a posteriori autour des vraies valeurs des paramètres dans un modèle non-linéaire à effets mixtes sous prior spike-and-slab discret ont été obtenus, comparables à ceux observés dans des modèles linéaires. Les travaux conduits dans cette thèse sont motivés par des questions appliquées en amélioration des plantes, où ces modèles décrivent le développement des plantes en fonction de leurs génotypes et des conditions environnementales. Les covariables considérées sont généralement nombreuses puisque les variétés sont caractérisées par des milliers de marqueurs génétiques, dont la plupart n'ont aucun effet sur certains traits phénotypiques. La méthode statistique développée dans la thèse est appliquée à un jeu de données réel relatif à cette application
Mixed-effects models analyze observations collected repeatedly from several individuals, attributing variability to different sources (intra-individual, inter-individual, residual). Accounting for this variability is essential to characterize the underlying biological mechanisms without biais. These models use covariates and random effects to describe variability among individuals: covariates explain differences due to observed characteristics, while random effects represent the variability not attributable to measured covariates. In high-dimensional context, where the number of covariates exceeds the number of individuals, identifying influential covariates is challenging, as selection focuses on latent variables in the model. Many procedures have been developed for linear mixed-effects models, but contributions for non-linear models are rare and lack theoretical foundations. This thesis aims to develop a high-dimensional covariate selection procedure for non-linear mixed-effects models by studying their practical implementations and theoretical properties. This procedure is based on the use of a gaussian spike-and-slab prior and the SAEM algorithm (Stochastic Approximation of Expectation Maximisation Algorithm). Posterior contraction rates around true parameter values in a non-linear mixed-effects model under a discrete spike-and-slab prior have been obtained, comparable to those observed in linear models. The work in this thesis is motivated by practical questions in plant breeding, where these models describe plant development as a function of their genotypes and environmental conditions. The considered covariates are generally numerous since varieties are characterized by thousands of genetic markers, most of which have no effect on certain phenotypic traits. The statistical method developed in the thesis is applied to a real dataset related to this application
APA, Harvard, Vancouver, ISO, and other styles
13

Paolillo, José. "L'institutionnalisation du discours sur l'Université de rang mondial dans le système d'enseignement supérieur Péruvien : le cas de l’Université Catholique Santo Toribio de Mogrovejo au Chiclayo." Electronic Thesis or Diss., Université de Montpellier (2022-....), 2024. http://www.theses.fr/2024UMOND009.

Full text
Abstract:
Nous expliquons la construction du concept Université de rang mondial (URM) et sa relation particulière avec les classements internationaux des universités, les principaux acteurs qui composent le scénario mondial sont identifiés en décrivant chacun d’entre eux. Un accent particulier est mis sur ce que l’on appelle les « Big Three » en raison de leur importance cruciale de leur diffusion dans le processus d’institutionnalisation du concept. De même nous examinons, les implications du concept dans la sphère nationale (c’est-à-dire au Pérou), et plus tard dans la sphère micro-organisationnelle (Dans l’Université Catholique Santo Toribio de Mogrovejo à la Ville de Chiclayo - Pérou). Nous présentons une revue de la littérature liée au concept, en partant d’études menées au niveau mondial, puis de celles au niveau latino-américain, et on finira par celles établies dans le niveau national péruvien. Ensuite, nous présentons le cadre conceptuel de la théorie néo-institutionnelle (TNI) qui nous aidera à clarifier l’institutionnalisation à travers la variante discursive. Nous mettons en relevance les arguments qui nous ont conduits à nous prononcer sur cette théorie à partir des articles fondateurs et de leurs perspectives. Postérieurement, nous présentons un bref aperçu de la trajectoire discursive, ainsi que l’explication d’un modelé d’institutionnalisation discursive à travers les relations entre les actions, les textes, le discours et les institutions. Finalement, nous présentons nos questions de recherche, qui vont du niveau international à la portée de l’Universidad Católica Santo Toribio de Mogrovejo (USAT), en passant par l’interprétation du discours au niveau national. Dans la deuxième partie, nous basons notre décision de sélection sur une recherche qualitative, puis nous nous sommes appuyés par un modèle à cas unique. Nous partons de notre positionnement épistémologique, inscrivant ainsi nos recherches dans le paradigme interprétativiste. Ensuite, nous expliquons les raisons du choix de la méthodologie qualitative et après nous avons intégré dans nos travaux la perspective longitudinale processuelle de Langley (1999). Nous montrons en détail la collecte des données, ainsi que les considérations d’interprétation et d’analyse : l’immersion, les entretiens, la conduite des entretiens, la sélection des acteurs interrogés et la collecte des données (primaires et secondaires). Finalement, nous résultats suggèrent deux aspects importants, l’identification des structures particulières d’institutionnalisation du concept URM dans chaque niveau d’analyse international, national et organisationnel, et l’dentification des leviers hors de notre modèle d’analyse provenant du terrain, à savoir la Qualité, la Langue et les Ressources économiques
We explain the construction of the World-class university (WCU) concept and its particular relationship with international university rankings, the main actors that make up the global scenario are identified by describing each of them. Particular emphasis is placed on the so-called “Big Three” because of the crucial importance of their diffusion in the process of institutionalization of the concept. Likewise, we examine the implications of the concept in the national sphere (Peru), and later in the micro-organizational sphere (At the Catholic University “Santo Toribio de Mogrovejo” in the City of Chiclayo - Peru). We present a review of the literature related to the concept, starting from studies carried out at the global level, then those at the Latin American level, and ending with those established at the Peruvian national level. Next, we present the conceptual framework of neo-institutional theory (NIT) which will help us clarify institutionalization through the discursive variant. We highlight the arguments that led us to pronounce ourselves on this theory based on the founding articles and their perspectives. Subsequently, we present a brief overview of the discursive trajectory, as well as the explanation of a model of discursive institutionalization through the relationships between actions, texts, discourse and institutions. Finally, we present our research questions, which range from the international level to the scope of the Catholic University “Santo Toribio de Mogrovejo” (USAT), through discourse interpretation at national level. In the second part, we base our selection decision on qualitative research, then rely on a single-case model. We start from our epistemological position, thus placing our research within the interpretivist paradigm. Then, we explain the reasons for choosing the qualitative methodology and then we integrate Langley's (1999) longitudinal approach into our work. We show in detail the data collection, as well as the interpretation and analysis considerations: immersion, interviews, conduct of interviews, selection of interviewed actors and data collection (primary and secondary). Finally, our results suggest two important aspects, the identification of particular structures of institutionalization of the WCU concept in each international, national and organizational level of analysis, and the identification of levers outside our analysis model coming from the field, namely Quality, Language and Economic Resources
APA, Harvard, Vancouver, ISO, and other styles
14

Makkhongkaew, Raywat. "Semi-supervised co-selection : instances and features : application to diagnosis of dry port by rail." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE1341.

Full text
Abstract:
Depuis la prolifération des bases de données partiellement étiquetées, l'apprentissage automatique a connu un développement important dans le mode semi-supervisé. Cette tendance est due à la difficulté de l'étiquetage des données d'une part et au coût induit de cet étiquetage quand il est possible, d'autre part.L'apprentissage semi-supervisé consiste en général à modéliser une fonction statistique à partir de base de données regroupant à la fois des exemples étiquetés et d'autres non-étiquetés. Pour aborder une telle problématique, deux familles d'approches existent : celles basées sur la propagation de la supervision en vue de la classification supervisée et celles basées sur les contraintes en vue du clustering (non-supervisé). Nous nous intéressons ici à la deuxième famille avec une difficulté particulière. Il s'agit d'apprendre à partir de données avec une partie étiquetée relativement très réduite par rapport à la partie non-étiquetée.Dans cette thèse, nous nous intéressons à l'optimisation des bases de données statistiques en vue de l'amélioration des modèles d'apprentissage. Cette optimisation peut être horizontale et/ou verticale. La première définit la sélection d'instances et la deuxième définit la tâche de la sélection de variables.Les deux taches sont habituellement étudiées de manière indépendante avec une série de travaux considérable dans la littérature. Nous proposons ici de les étudier dans un cadre simultané, ce qui définit la thématique de la co-sélection. Pour ce faire, nous proposons deux cadres unifiés considérant à la fois la partie étiquetée des données et leur partie non-étiquetée. Le premier cadre est basé sur un clustering pondéré sous contraintes et le deuxième sur la préservation de similarités entre les données. Les deux approches consistent à qualifier les instances et les variables pour en sélectionner les plus pertinentes de manière simultanée.Enfin, nous présentons une série d'études empiriques sur des données publiques connues de la littérature pour valider les approches proposées et les comparer avec d'autres approches connues dans la littérature. De plus, une validation expérimentale est fournie sur un problème réel, concernant le diagnostic de transport ferroviaire de l'état de la Thaïlande
We are drowning in massive data but starved for knowledge retrieval. It is well known through the dimensionality tradeoff that more data increase informative but pay a price in computational complexity, which has to be made up in some way. When the labeled sample size is too little to bring sufficient information about the target concept, supervised learning fail with this serious challenge. Unsupervised learning can be an alternative in this problem. However, as these algorithms ignore label information, important hints from labeled data are left out and this will generally downgrades the performance of unsupervised learning algorithms. Using both labeled and unlabeled data is expected to better procedure in semi-supervised learning, which is more adapted for large domain applications when labels are hardly and costly to obtain. In addition, when data are large, feature selection and instance selection are two important dual operations for removing irrelevant information. Both of tasks with semisupervised learning are different challenges for machine learning and data mining communities for data dimensionality reduction and knowledge retrieval. In this thesis, we focus on co-selection of instances and features in the context of semi-supervised learning. In this context, co-selection becomes a more challenging problem as the data contains labeled and unlabeled examples sampled from the same population. To do such semi-supervised coselection, we propose two unified frameworks, which efficiently integrate labeled and unlabeled parts into the co-selection process. The first framework is based on weighting constrained clustering and the second one is based on similarity preserving selection. Both approaches evaluate the usefulness of features and instances in order to select the most relevant ones, simultaneously. Finally, we present a variety of empirical studies over high-dimensional data sets, which are well-known in the literature. The results are promising and prove the efficiency and effectiveness of the proposed approaches. In addition, the developed methods are validated on a real world application, over data provided by the State Railway of Thailand (SRT). The purpose is to propose the application models from our methodological contributions to diagnose the performance of rail dry port systems. First, we present the results of some ensemble methods applied on a first data set, which is fully labeled. Second, we show how can our co-selection approaches improve the performance of learning algorithms over partially labeled data provided by SRT
APA, Harvard, Vancouver, ISO, and other styles
15

Arlot, Sylvain. "Rééchantillonnage et Sélection de modèles." Phd thesis, Université Paris Sud - Paris XI, 2007. http://tel.archives-ouvertes.fr/tel-00198803.

Full text
Abstract:
Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique.

La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.

Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.
APA, Harvard, Vancouver, ISO, and other styles
16

Genuer, Robin. "Forêts aléatoires : aspects théoriques, sélection de variables et applications." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00550989.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.
APA, Harvard, Vancouver, ISO, and other styles
17

Sidi, Zakari Ibrahim. "Sélection de variables et régression sur les quantiles." Thesis, Lille 1, 2013. http://www.theses.fr/2013LIL10081/document.

Full text
Abstract:
Ce travail est une contribution à la sélection de modèles statistiques et plus précisément à la sélection de variables dans le cadre de régression linéaire sur les quantiles pénalisée lorsque la dimension est grande. On se focalise sur deux points lors de la procédure de sélection : la stabilité de sélection et la prise en compte de variables présentant un effet de groupe. Dans une première contribution, on propose une transition des moindres carrés pénalisés vers la régression sur les quantiles (QR). Une approche de type bootstrap fondée sur la fréquence de sélection de chaque variable est proposée pour la construction de modèles linéaires (LM). Dans la majorité des cas, l’approche QR fournit plus de coefficients significatifs. Une deuxième contribution consiste à adapter certains algorithmes de la famille « Random » LASSO (Least Absolute Solution and Shrinkage Operator) au cadre de la QR et à proposer des méthodes de stabilité de sélection. Des exemples provenant de la sécurité alimentaire illustrent les résultats obtenus. Dans le cadre de la QR pénalisée en grande dimension, on établit la propriété d’effet groupement sous des conditions plus faibles ainsi que les propriétés oracles. Deux exemples de données réelles et simulées illustrent les chemins de régularisation des algorithmes proposés. La dernière contribution traite la sélection de variables pour les modèles linéaires généralisés (GLM) via la vraisemblance nonconcave pénalisée. On propose un algorithme pour maximiser la vraisemblance pénalisée pour une large classe de fonctions de pénalité non convexes. La propriété de convergence de l’algorithme ainsi que la propriété oracle de l’estimateur obtenu après une itération ont été établies. Des simulations ainsi qu’une application sur données réelles sont également présentées
This work is a contribution to the selection of statistical models and more specifically in the selection of variables in penalized linear quantile regression when the dimension is high. It focuses on two points in the selection process: the stability of selection and the inclusion of variables by grouping effect. As a first contribution, we propose a transition from the penalized least squares regression to quantiles regression (QR). A bootstrap approach based on frequency of selection of each variable is proposed for the construction of linear models (LM). In most cases, the QR approach provides more significant coefficients. A second contribution is to adapt some algorithms of "Random" LASSO (Least Absolute Shrinkage and Solution Operator) family in connection with the QR and to propose methods of selection stability. Examples from food security illustrate the obtained results. As part of the penalized QR in high dimension, the grouping effect property is established under weak conditions and the oracle ones. Two examples of real and simulated data illustrate the regularization paths of the proposed algorithms. The last contribution deals with variable selection for generalized linear models (GLM) using the nonconcave penalized likelihood. We propose an algorithm to maximize the penalized likelihood for a broad class of non-convex penalty functions. The convergence property of the algorithm and the oracle one of the estimator obtained after an iteration have been established. Simulations and an application to real data are also presented
APA, Harvard, Vancouver, ISO, and other styles
18

Mbina, Mbina Alban. "Contributions à la sélection des variables en statistique multidimensionnelle et fonctionnelle." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10102/document.

Full text
Abstract:
Cette thèse porte sur la sélection des variables dans les modèles de régression linéaires multidimensionnels et les modèles de régression linéaires fonctionnels. Plus précisément, nous proposons trois nouvelles approches de sélection de variables qui généralisent des méthodes existantes dans la littérature. La première méthode permet de sélectionner des variables aléatoires continues dans un modèle linéaire multidimensionnel. Cette approche généralise celle de NKIET (2001) obtenue dans le cas d'un modèle linéaire unidimensionnel. Une étude comparative, par simulation, basée sur le calcul de la perte de prédiction montre que notre méthode est meilleure à celle de An et al. (2013). La deuxième approche propose une nouvelle méthode de sélection des variables mixtes (mélange de variables discrètes et de variables continues) en analyse discriminante pour plus de deux groupes. Cette méthode est basée sur la généralisation dans le cadre mixte de l'approche de NKIET (2012) obtenue dans le cas de l'analyse discriminante de plus de deux groupes. Une étude comparative par simulation montre, à partir du taux de bon classement que cette méthode a les mêmes performances que celle de MAHAT et al. (2007) dans le cas de deux groupes. Enfin, nous proposons dans la troisième approche une méthode de sélection de variables dans un modèle linéaire fonctionnel additif. Pour cela, nous considérons un modèle de régression d'une variable aléatoire réelle sur une somme de variables aléatoires fonctionnelles. En utilisant la distance de Hausdorff, qui mesure l'éloignement entre deux ensembles, nous montrons dans un exemple par simulation, une illustration de notre approche
This thesis focuses on variables selection on linear models and additif functional linear model. More precisely we propose three variables selection methods. The first one is concerned with the selection continuous variables of multidimentional linear model. The comparative study based on prediction loss shows that our method is beter to method of An et al. (2013) Secondly, we propose a new selection method of mixed variables (mixing of discretes and continuous variables). This method is based on generalization in the mixed framwork of NKIET (2012) method, more precisely, is based on a generalization of linear canonical invariance criterion to the framework of discrimination with mixed variables. A comparative study based on the rate of good classification show that our method is equivalente to the method of MAHAT et al. (2007) in the case of two groups. In the third method, we propose an approach of variables selection on an additive functional linear model. A simulations study shows from Hausdorff distance an illustration of our approach
APA, Harvard, Vancouver, ISO, and other styles
19

Lerasle, Matthieu. "Rééchantillonnage et sélection de modèles optimale pour l'estimation de la densité." Toulouse, INSA, 2009. http://eprint.insa-toulouse.fr/archive/00000290/.

Full text
Abstract:
Le principal objectif de cette thèse est d’étudier deux méthodes de calibration automatique de la pénalité pour la sélection de modèle. L’avantage de ces méthodes est double, d’une part, elles sont toujours implémentables, elles ont mˆeme souvent été utilisées dans des problèmes pratiques avec succès, d’autre part, elles sont optimales puisqu’elles permettent de sélectionner asymptotiquement le meilleur modèle. Il existe d’autres méthodes de pénalisation calculables en pratique, quand les données sont indépendantes. Néanmoins, en dehors des collections de modèles très réguliers, ces pénalités sont très pessimistes, voire dépendent de constantes inconnues comme la norme sup de la densité. De plus, quand on veut utiliser les preuves classiques pour des données mélangeantes, les pénalités que l’on obtient dépendent toujours de constantes inconnues de l’utilisateur (voir le chapitre 3). Le chapitre 2 étudie l’heuristique de pente et les pénalités par rééchantillonnage dans le cas de données indépendantes. On donne une condition suffisante pour que l’heuristique de la pente soit optimale, en utilisant l’inégalité de concentration de Talagrand pour le supremum du processus empirique. On étudie aussi l’approximation du processus empirique par sa version rééchantillonnée et on en déduit que la même condition suffit à garantir l’optimalité des méthodes par rééchantillonnage. Le chapitre 3 est consacré à l’étude de pénalités classiques quand les observations sont mélangeantes. On montre des inégalités oracles et l’adaptativité de l’estimateur sélectionné à la régularité de la densité. La pénalité dépend des coefficients de mélange qui peuvent parfois être évalués. Le chapitre 4 étend les résultats du chapitre 2 au cas de données mélangeantes. On montre ainsi que les méthodes de la pente et bootstrap sont également optimales dans ce cas, sous le même type de conditions. Ces nouvelles pénalités sont toujours calculables en pratique et le modèle sélectionné est asymptotiquement un oracle, ce qui améliore beaucoup les résultats du chapitre 3. Le chapitre 5 traite du problème des régions de confiance adaptatives. Contrairement au cas de l’estimation, cette adaptation n’est que très rarement possible. Quand elle l’est, nous construisons des régions adaptatives. En particulier, on améliore quelques résultats de concentration du chapitre 2 lorsque les données sont à valeurs réelles, notamment ceux des U-statistiques.
APA, Harvard, Vancouver, ISO, and other styles
20

Verzelen, Nicolas. "Modèles graphiques gaussiens et sélection de modèles." Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00352802.

Full text
Abstract:
Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique, de la théorie statistique de l'apprentissage et des statistiques spatiales. Son objet est la compréhension et la mise en oeuvre de méthodes d'estimation et de décision pour des modèles graphiques gaussiens. Ces outils probabilistes rencontrent un succès grandissant pour la modélisation de systêmes complexes dans des domaines aussi différents que la génomique ou l'analyse spatiale. L'inflation récente de la taille des données analysées rend maintenant nécessaire la construction de procédures statistiques valables en << grande dimension >>, c'est à dire lorsque le nombre de variables est potentiellement plus grand que le nombre d'observations. Trois problèmes généraux sont considérés dans cette thèse: le test d'adéquation d'un graphe à un modèle graphique gaussien, l'estimation du graphe d'un modèle graphique gaussien et l'estimation de la covariance d'un modèle graphique gaussien, ou plus généralement d'un vecteur gaussien. Suite à cela, nous étudions l'estimation de la covariance d'un champ gaussien stationnaire sur un réseau, sous l'angle de la modélisation graphique.

En utilisant le lien entre modèles graphiques et régression linéaire à plan d'expérience gaussien, nous développons une approche basée sur des techniques de sélection de modèles. Les procédures ainsi introduites sont analysés d'un point de vue non-asymptotique. Nous prouvons notamment des inégalités oracles et des propriétés d'adaptation au sens minimax valables en grande dimension. Les performances pratiques des méthodes statistiques sont illustrées sur des données simulées ainsi que sur des données réelles.
APA, Harvard, Vancouver, ISO, and other styles
21

Nédélec, Elodie. "Quelques problèmes liés à la théorie statistique de l'apprentissage et applications." Paris 11, 2004. http://www.theses.fr/2004PA112297.

Full text
Abstract:
Cette thèse aborde trois sujets statistiques faisant l'objet des chapitres 2,3 et 4 pouvant s'inscrire dans un modèle général d'apprentissage. On observe un n échantillon d'un couple (X,Y) vérifiant la relation Y=s(X)+e où e est conditionellement centré par rapport à X. Notre but est d'estimer s* une fonctionnelle de la fonction de régression s en faisant un minimum d'hypothèses sur s. On utilise pour cela une procédure de minimum de contraste. On note F l'espace des fonctions auquel s* appartient. On considère une collection de modèles et un contraste empirique g sur F. On etudie les estimateurs du minimum de contraste sur chaque modèle. Pour évaluer leurs performances, on définit sur F une fonction de perte l(u,v) pour tout u,v dans F à l'aide du contraste g. Puis on s'interesse au risque des estimateurs défini comme la perte moyenne entre l'estimateur et s*. Plus faible sera le risque meilleure sera l'estimation. Dans cette thèse nous mènerons pour différents exemples s'inscrivant dans un cadre d'apprentissage l'étude du risque sur un modèle et l'étude de la sélection de modèles
This thesis deals with three problems in learning theory. We observe a sample of (X,Y) satisfying the relation Y=s(X)+e where e is centered conditionnaly to X. Our aim is to estimate s* a function of the regression function s with few assumptions on s. We use a minimum contrast procedure. We note F a set of function such that s belongs to F. We consider a collection of models and an empirical contrast g on F. We study the minimum contrast estimator on a fixed model. We define a loss function l(u,v) for all u,v in F in order to evaluate the quality of the minimum contrast estimators. And then we are interested by the risk of the estimators defined as the expectation of the loss function between s* and the estimators. We look for estimators with a low risk. In this thesis we study for different examples in learning theory tthe risk on one model and the model selection procedure
APA, Harvard, Vancouver, ISO, and other styles
22

Ben, Ishak Anis. "Sélection de variables par les machines à vecteurs supports pour la discrimination binaire et multiclasse en grande dimension." Aix-Marseille 2, 2007. http://www.theses.fr/2007AIX22067.

Full text
APA, Harvard, Vancouver, ISO, and other styles
23

Harel, Michel. "Convergence faible de la statistique linéaire de rang pour des variables aléatoires faiblement dépendantes et non stationnaires." Paris 11, 1989. http://www.theses.fr/1989PA112359.

Full text
Abstract:
There is three parts in this work. In the first part we study the weak: convergence of the truncated and weighted empirical process for sequences of q> mixing or strong mixing and non-stationary random variables. Then we extend these results to the weighted empirical process indexed by rectangles. After the definition of a new process called split process, we prove the weak: convergence of this process weighted by a function. In the second part, we deduce the weak: convergence of the multi-dimensional linear rank statistic as well as the serial linear rank statistic always under mixing and non-stationary conditions. Then, we establish the weak: convergence of a two sample linear rank statistic. At last, in the third part, we prove the weak: invariance of the U-statistic as well as a signed rank statistic under absolutely regularity and non-stationary conditions
Ce travail est composé de trois parties. La première consiste en la convergence faible du processus empirique tronqué corrigé pour des suites de variables aléatoires non stationnaires
APA, Harvard, Vancouver, ISO, and other styles
24

Vandewalle, Vincent. "Estimation et sélection en classification semi-supervisée." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. http://tel.archives-ouvertes.fr/tel-00447141.

Full text
Abstract:
Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints.
APA, Harvard, Vancouver, ISO, and other styles
25

Viallefont, Valérie. "Analyses bayesiennes du choix de modèles en épidémiologie : sélection de variables et modélisation de l'hétérogénéité pour des évènements." Paris 11, 2000. http://www.theses.fr/2000PA11T023.

Full text
Abstract:
Cette thèse se décompose en deux parties qui traitent la question du choix modèles dans deux problématiques différentes. Dans la première partie, on s'intéresse, pour les modèles de régression logis multivariée, à différentes stratégies de sélection de variables associées à l'apparition d'une maladie. Les méthodes les plus fréquemment mises en œuvre à l'heure actuelle consistent à sélectionner certaines variables dans un modèle final unique, modèle dans lequel sont ensuite estimés les paramètres et leur variance. Différents critères de sélection existent et la plupart d'entre eux reposent sur une comparaison du degré de signification de tests à une valeur seuil. On s'intéresse aux performances auc performances de ces approches par rapport à celles d'une méthode bayésienne dans laquelle on considère tout un ensemble de modèles. A chaque modèle est associé sa probabilité a posteriori. Cette approche permet d'estimer la probabilité de l'existence d'une association entre chaque variable et l'apparition de la maladie, et de calculer des estimations globale des paramètres. Deux schémas de simulations sont envisagés pour cette comparaison : l'un évoque un cas d'école où l'on s'intéresse à un facteur de risque en présence d'un unique facteur de confusion potentiel, l'autre caractérise une enquête épidémiologique avec un grand nombre de facteurs de risque possibles. Les critères de comparaison portent sur le biais moyen dans l'estimation des coefficients, les pourcentages d’erreurs de première et seconde espèces ou leur équivalent bayésien, et l'expression du degré d'incertitude. La méthode bayésienne fournit notamment une appréciation plus explicite de l'incertitude sur les conclusions. Dans la deuxième partie, on s'intéresse au cas où des données relatives à des événements rares présentent une trop forte hétérogénéité pour être modélisées par une seule distribution de Poisson. On fait alors l'hypothèse qu'elles sont issues de mélange de distributions de Poisson. On propose d'estimer conjointement, dans un modèle hiérarchique bayésien, le nombre de composantes du mélange et les proportions et paramètres de chacune, par les méthodes de Monte Carlo par Chaîne de Markov (MCMC). L'estimation du nombre de composantes nécessite que la dimension de l'espace des paramètres puisse varier : pour ceci on utilise le principe du "Saut Reversible". On illustre la difficulté de trouver une loi a priori faiblement informative pour les paramètres de Poisson en étudiant la sensibilité des résultats au choix de cette loi a priori et de ses paramètres. On propose différentes transformations lors du changement de dimension de l'espace des paramètres et on s'intéresse à leur influence sur les performances de l'algorithme, notamment son caractère mélangeant. Enfin on écrit deux modèles, de prise en compte de covariables, dont l'effet est soit homogène soit hétérogène sur les composantes du mélange. Les comparaisons sont menées sur des jeux de données simulés, et le modèle est finalement illustré sur des données réelles de nature épidémiologique concernant des cas de cancers digestifs en France, puis des données d'accidents de la route
This dissertation has two separated parts. In the first part, we compare different strategies for variable selection in a multi­variate logistic regression model. Covariate and confounder selection in case-control studies is often carried out using either a two-step method or a stepwise variable selection method. Inference is then carried out conditionally on the selected model, but this ignores the madel uncertainty implicit in the variable selection process, and so underestimates uncertainty about relative risks. It is well known, and showed again in our study, that the ρ-values computed after variable selection can greatly overstate the strength of conclusions. We propose Bayesian Model Averaging as a formal way of taking account of madel uncertainty in a logistic regression context. The BMA methods, that allows to take into account several models, each being associated with its posterior probability, yields an easily interpreted summary, the posterior probability that a variable is a risk factor, and its estimate averaged over the set of models. We conduct two comparative simulations studies : the first one has a simple design including only one risk factor and one confounder, the second one mimics a epidemiological cohort study dataset, with a large number of potential risk factors. Our criteria are the mean bias, the rate of type I and type II errors, and the assessment of uncertainty in the results, which is bath more accurate and explicit under the BMA analysis. The methods are applied and compared in the context of a previously published case-control study of cervical cancer. The choice of the prior distributions are discussed. In the second part, we focus on the modelling of rare events via a Poisson distribution, that sometimes reveals substantial over-dispersion, indicating that sorme un­ explained discontinuity arises in the data. We suggest to madel this over-dispersion by a Poisson mixture. In a hierarchical Bayesian model, the posterior distributions of he unknown quantities in the mixture (number of components, weights, and Poisson parameters) can be estimated by MCMC algorithms, including reversible jump algothms which allows to vary the dimension of the mixture. We focus on the difficulty of finding a weakly informative prior for the Poisson parameters : different priors are detailed and compared. Then, the performances of different maves created for changing dimension are investigated. The model is extended by the introduction of covariates, with homogeneous or heterogeneous effect. Simulated data sets are designed for the different comparisons, and the model is finally illustrated in two different contexts : an ecological analysis of digestive cancer mortality along the coasts of France, and a dataset concerning counts of accidents in road-junctions
APA, Harvard, Vancouver, ISO, and other styles
26

d'Estampes, Ludovic. "Traitement statistique des processus alpha-stables: mesures de dépendance et identification des ar stables. Test séquentiels tronqués." Phd thesis, Institut National Polytechnique de Toulouse - INPT, 2003. http://tel.archives-ouvertes.fr/tel-00005216.

Full text
Abstract:
Dans ce travail, nous étudions de manière approfondie les lois $\al$-stables (lois à variance infinie). Dans le premier chapitre, nous rappelons les différentes propriétés des lois $\al$-stables univariées (stabilité, calcul des moments, simulation). Nous introduisons ensuite les lois symétriques $\al$-stables (\SaS) multivariées. Après avoir parlé de la mesure spectrale et de son intérêt pour caractériser l'indépendance, nous nous concentrons sur les mesures de dépendance. Constatant que le coefficient de covariation, largement utilisé actuellement, admet certaines limites, nous construisons dans le deuxième chapitre une nouvelle mesure de dépendance, appelée coefficient de covariation symétrique. Ce dernier nous permet, entre autres, de découvrir quelques spécificités des vecteurs \SaS. En effet, contrairement aux vecteurs gaussiens, on peut obtenir pour certains vecteurs \SaS\ à la fois une dépendance positive et une dépendance négative. Après avoir conclu le chapitre par l'étude de la loi asymptotique de l'estimateur du coefficient de covariation, nous abordons, dans le troisième chapitre, les processus autorégressifs à innovations stables. Nous présentons les différentes méthodes d'identification de l'ordre d'un processus AR: autocorrélation partielle (Brockwell et Davis) et statistiques quadratiques asymptotiquement invariantes basées sur les rangs (Garel et Hallin). De nombreuses simulations, effectuées en Matlab et Fortran, nous permettent de comparer ces méthodes et de constater l'importance du rôle joué par les statistiques de rang dans ce domaine. Pour finir, un problème de test séquentiel, développé dans le cadre d'un contrat industriel, nous permet d'introduire la notion de niveau de confiance après décision.
APA, Harvard, Vancouver, ISO, and other styles
27

Brault, Vincent. "Estimation et sélection de modèle pour le modèle des blocs latents." Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112238/document.

Full text
Abstract:
Le but de la classification est de partager des ensembles de données en sous-ensembles les plus homogènes possibles, c'est-à-dire que les membres d'une classe doivent plus se ressembler entre eux qu'aux membres des autres classes. Le problème se complique lorsque le statisticien souhaite définir des groupes à la fois sur les individus et sur les variables. Le modèle des blocs latents définit une loi pour chaque croisement de classe d'objets et de classe de variables, et les observations sont supposées indépendantes conditionnellement au choix de ces classes. Toutefois, il est impossible de factoriser la loi jointe des labels empêchant le calcul de la logvraisemblance et l'utilisation de l'algorithme EM. Plusieurs méthodes et critères existent pour retrouver ces partitions, certains fréquentistes, d'autres bayésiens, certains stochastiques, d'autres non. Dans cette thèse, nous avons d'abord proposé des conditions suffisantes pour obtenir l'identifiabilité. Dans un second temps, nous avons étudié deux algorithmes proposés pour contourner le problème de l'algorithme EM : VEM de Govaert et Nadif (2008) et SEM-Gibbs de Keribin, Celeux et Govaert (2010). En particulier, nous avons analysé la combinaison des deux et mis en évidence des raisons pour lesquelles les algorithmes dégénèrent (terme utilisé pour dire qu'ils renvoient des classes vides). En choisissant des lois a priori judicieuses, nous avons ensuite proposé une adaptation bayésienne permettant de limiter ce phénomène. Nous avons notamment utilisé un échantillonneur de Gibbs dont nous proposons un critère d'arrêt basé sur la statistique de Brooks-Gelman (1998). Nous avons également proposé une adaptation de l'algorithme Largest Gaps (Channarond et al. (2012)). En reprenant leurs démonstrations, nous avons démontré que les estimateurs des labels et des paramètres obtenus sont consistants lorsque le nombre de lignes et de colonnes tendent vers l'infini. De plus, nous avons proposé une méthode pour sélectionner le nombre de classes en ligne et en colonne dont l'estimation est également consistante à condition que le nombre de ligne et de colonne soit très grand. Pour estimer le nombre de classes, nous avons étudié le critère ICL (Integrated Completed Likelihood) dont nous avons proposé une forme exacte. Après avoir étudié l'approximation asymptotique, nous avons proposé un critère BIC (Bayesian Information Criterion) puis nous conjecturons que les deux critères sélectionnent les mêmes résultats et que ces estimations seraient consistantes ; conjecture appuyée par des résultats théoriques et empiriques. Enfin, nous avons comparé les différentes combinaisons et proposé une méthodologie pour faire une analyse croisée de données
Classification aims at sharing data sets in homogeneous subsets; the observations in a class are more similar than the observations of other classes. The problem is compounded when the statistician wants to obtain a cross classification on the individuals and the variables. The latent block model uses a law for each crossing object class and class variables, and observations are assumed to be independent conditionally on the choice of these classes. However, factorizing the joint distribution of the labels is impossible, obstructing the calculation of the log-likelihood and the using of the EM algorithm. Several methods and criteria exist to find these partitions, some frequentist ones, some bayesian ones, some stochastic ones... In this thesis, we first proposed sufficient conditions to obtain the identifiability of the model. In a second step, we studied two proposed algorithms to counteract the problem of the EM algorithm: the VEM algorithm (Govaert and Nadif (2008)) and the SEM-Gibbs algorithm (Keribin, Celeux and Govaert (2010)). In particular, we analyzed the combination of both and highlighted why the algorithms degenerate (term used to say that it returns empty classes). By choosing priors wise, we then proposed a Bayesian adaptation to limit this phenomenon. In particular, we used a Gibbs sampler and we proposed a stopping criterion based on the statistics of Brooks-Gelman (1998). We also proposed an adaptation of the Largest Gaps algorithm (Channarond et al. (2012)). By taking their demonstrations, we have shown that the labels and parameters estimators obtained are consistent when the number of rows and columns tend to infinity. Furthermore, we proposed a method to select the number of classes in row and column, the estimation provided is also consistent when the number of row and column is very large. To estimate the number of classes, we studied the ICL criterion (Integrated Completed Likelihood) whose we proposed an exact shape. After studying the asymptotic approximation, we proposed a BIC criterion (Bayesian Information Criterion) and we conjecture that the two criteria select the same results and these estimates are consistent; conjecture supported by theoretical and empirical results. Finally, we compared the different combinations and proposed a methodology for co-clustering
APA, Harvard, Vancouver, ISO, and other styles
28

Thouvenot, Vincent. "Estimation et sélection pour les modèles additifs et application à la prévision de la consommation électrique." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS184/document.

Full text
Abstract:
L'électricité ne se stockant pas aisément, EDF a besoin d'outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d'estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau électrique, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d'habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L'objectif de ce travail est de présenter des procédures automatiques de sélection et d'estimation de composantes d'un modèle additif avec des estimateurs en plusieurs étapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Nos résultats théoriques de consistance en sélection et en estimation sont obtenus sans nécessiter l'hypothèse classique que les normes des composantes non nulles du modèle additif soient bornées par une constante non nulle. En effet, nous autorisons cette norme à pouvoir converger vers 0 à une certaine vitesse. Les procédures sont illustrées sur des applications pratiques de prévision de consommation électrique nationale et locale.Mots-clés: Group LASSO, Estimateurs en plusieurs étapes, Modèle Additif, Prévision de charge électrique, P-Splines, Sélection de variables
French electricity load forecasting encounters major changes since the past decade. These changes are, among others things, due to the opening of electricity market (and economical crisis), which asks development of new automatic time adaptive prediction methods. The advent of innovating technologies also needs the development of some automatic methods, because we have to study thousands or tens of thousands time series. We adopt for time prediction a semi-parametric approach based on additive models. We present an automatic procedure for covariate selection in a additive model. We combine Group LASSO, which is selection consistent, with P-Splines, which are estimation consistent. Our estimation and model selection results are valid without assuming that the norm of each of the true non-zero components is bounded away from zero and need only that the norms of non-zero components converge to zero at a certain rate. Real applications on local and agregate load forecasting are provided.Keywords: Additive Model, Group LASSO, Load Forecasting, Multi-stage estimator, P-Splines, Variables selection
APA, Harvard, Vancouver, ISO, and other styles
29

Grelaud, Aude. "Méthodes sans vraisemblance appliquées à l'étude de la sélection naturelle et à la prédiction de structure tridimensionnelle des protéines." Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090048.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Gendre, Xavier. "Estimation par sélection de modèle en régression hétéroscédastique." Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00397608.

Full text
Abstract:
Cette thèse s'inscrit dans les domaines de la statistique non-asymptotique et de la théorie statistique de la sélection de modèle. Son objet est la construction de procédures d'estimation de paramètres en régression hétéroscédastique. Ce cadre reçoit un intérêt croissant depuis plusieurs années dans de nombreux champs d'application. Les résultats présentés reposent principalement sur des inégalités de concentration et sont illustrés par des applications à des données simulées.

La première partie de cette thèse consiste dans l'étude du problème d'estimation de la moyenne et de la variance d'un vecteur gaussien à coordonnées indépendantes. Nous proposons une méthode de choix de modèle basée sur un critère de vraisemblance pénalisé. Nous validons théoriquement cette approche du point de vue non-asymptotique en prouvant des majorations de type oracle du risque de Kullback de nos estimateurs et des vitesses de convergence uniforme sur les boules de Hölder.

Un second problème que nous abordons est l'estimation de la fonction de régression dans un cadre hétéroscédastique à dépendances connues. Nous développons des procédures de sélection de modèle tant sous des hypothèses gaussiennes que sous des conditions de moment. Des inégalités oracles non-asymptotiques sont données pour nos estimateurs ainsi que des propriétés d'adaptativité. Nous appliquons en particulier ces résultats à l'estimation d'une composante dans un modèle de régression additif.
APA, Harvard, Vancouver, ISO, and other styles
31

Roux, Camille. "Effets de la sélection naturelle et de l'histoire démographique sur les patrons de polymorphisme nucléaire : comparaisons interspécifiques chez Arabidopsis halleri et A. lyrata entre le fond génomique et deux régions cibles de la sélection." Thesis, Lille 1, 2010. http://www.theses.fr/2010LIL10157/document.

Full text
Abstract:
La vision dichotomique du vivant a longtemps prévalue pour représenter la diversité observée dans la nature. La récente expansion des données de séquençage ont permis d'identifier de larges discordances entre les phylogénies de gènes et des espèces, formant la structure dite "mosaïque" des génomes. Ce pattern complexe est la résultante de différents processus évolutifs neutres et adaptatifs qui conduisent à la diversité du vivant. Ces processus expliquent le partage de polymorphisme observé entre deux espèces. Le polymorphisme trans-spécifique (PTS) neutre est généré par la rétention du polymorphisme ancestral, l'introgression génétique et l'homoplasie Le PTS fonctionnel est le résultat des mêmes processus ainsi que des effets de la sélection naturelle. Si l'adaptation locale d'une espèce contribue à la diminution du PTS, la sélection naturelle peut augmenter le PTS dans le cas de la sélection balancée.En utilisant le couple d'espèces végétales Arabidopsis halleri et A. lyrata, nous comparons les patrons de polymorphisme de fonds génomiques à ceux observés autour de régions cibles d'une sélection balancée pour mesurer les importances relatives de la sélection et de la démographie.L'analyse démographique par ABC des fonds génomiques a permis de dresser un cadre historique en rejetant l'hypothèse de migration récente entre ces deux espèces, et en appuyant l'importance de l'évolution de la tolérance aux métaux lourds dans le processus de spéciation d'A. halleri.Finalement, en mesurant les patrons de polymorphisme observés autour du locus-S, nous montrons que la sélection balancée affecte très localement le polymorphisme des régions neutres qui lui sont liées
The dichotomous view of life has long been availed to represent the diversity observed in nature. The recent expansion of sequence data have identified large discrepancies between the phylogenies of genes and species, forming the so-called "mosaic structure" of genomes. This complex pattern is the result of different neutral and adaptive evolutionary processes shaping the diversity of life. These processes explain the shared polymorphism observed between two different species. The trans-specific polymorphism (TSP) is generated by neutral retention of ancestral polymorphism, introgression and genetic homoplasy. Functional TSP is the result of the same processes and of the effects of natural selection. Whether local adaptation of a species contributes to the reduction of TSP, natural selection may increase the TSP in the case of balancing selection.Using the pair of closely related plant species Arabidopsis halleri and A. lyrata, we compared the patterns of polymorphism observed in genomic backgrounds to those observed in the neighborhood of the target regions of balancing selection, in order to measure the relative importance of selection and demography.Demographic analysis by ABC from genomic backgrounds leads to the rejection of the hypothesis of recent migration between these two species, and support the importance of the evolution of tolerance to heavy metals in the process of speciation of A. halleri.Finally, by measuring the patterns of polymorphism around the S-locus, we showed that balancing selection affects very localy the neutral linked polymorphism
APA, Harvard, Vancouver, ISO, and other styles
32

Caron, François. "Inférence bayésienne pour la détermination et la sélection de modèles stochastiques." Ecole Centrale de Lille, 2006. http://www.theses.fr/2006ECLI0012.

Full text
Abstract:
On s'intéresse à l'ajout d'incertitudes supplémentaires dans les modèles de Markov cachés. L'inférence est réalisée dans un cadre bayésien à l'aide des méthodes de Monte Carlo. Dans un cadre multicapteur, on suppose que chaque capteur peut commuter entre plusieurs états de fonctionnement. Un modèle à saut original est développé et des algorithmes de Monte Carlo efficaces sont présentés pour différents types de situations, prenant en compte des données synchrones/asynchrones et le cas binaire capteur valide/défaillant. Le modèle/algorithme développé est appliqué à la localisation d'un véhicule terrestre équipé de trois capteurs, dont un récepteur GPS, potentiellement défaillant à cause de phénomènes de trajets multiples. On s'intéresse ensuite à l'estimation de la densité de probabilité des bruits d'évolution et de mesure dans les modèles de Markov cachés, à l'aide des mélanges de processus de Dirichlet. Le cas de modèles linéaires est tout d'abord étudié, et des algorithmes MCMC et de filtrage particulaire sont développés. Ces algorithmes sont testés sur trois applications différentes. Puis le cas de l'estimation des densités de probabilité des bruits dans les modèles non linéaires est étudié. On définit pour cela des processus de Dirichlet variant temporellement, permettant l'estimation en ligne d'une densité de probabilité non stationnaire
We are interested in the addition of uncertainty in hidden Markov models. The inference is made in a Bayesian framework based on Monte Carlo methods. We consider multiple sensors that may switch between several states of work. An original jump model is developed for different kind of situations, including synchronous/asynchronous data and the binary valid/invalid case. The model/algorithm is applied to the positioning of a land vehicle equipped with three sensors. One of them is a GPS receiver, whose data are potentially corrupted due to multipaths phenomena. We consider the estimation of the probability density function of the evolution and observation noises in hidden Markov models. First, the case of linear models is addressed and MCMC and particle filter algorithms are developed and applied on three different applications. Then the case of the estimation of probability density functions in nonlinear models is addressed. For that purpose, time-varying Dirichlet processes are defined for the online estimation of time-varying probability density functions
APA, Harvard, Vancouver, ISO, and other styles
33

El, Matouat Abdelaziz. "Sélection du nombre de paramètres d'un modèle comparaison avec le critère d'Akaike." Rouen, 1987. http://www.theses.fr/1987ROUES054.

Full text
Abstract:
Dans ce travail, nous considérons une structure statistique (Oméga, A, f(thêta) sur laquelle nous disposons de n observations, et nous étudions, dans un premier temps, le critère d'Akaike pour une structure gaussienne. Ce critère permet lorsque l'échantillon est de taille n de définir un ordre k optimal plus petit que m, nombre de paramètres du modèle correct. L'ordre k, fonction de n, doit être suffisamment petit afin de faire apparaître une redondance statistique lors de l'estimation des k paramètres. Ensuite, pour tout thêta de I ensemble quelconque d'indices, soit f(thêta) une densité de Probabilité par rapport à une probabilité mu représentant la connaissance a priori. Les probabilités sont définies sur une tribu A provenant d'une partition finie M de oméga. Nous sommes alors amenés à modifier la fonction de perte en utilisant la distance de Hellinger. Le critère original présenté permet de définir la densité estimée. Comme des densités de probabilité interviennent, leur estimation est améliorée en utilisant la méthode du noyau ce qui conduit à une seconde modification du critère d'Akaike. Les résultats antérieurs sont appliqués à la déterminantion des paramètres p, q d'un modèle ARMA. Au préalable, l'utilisation du modèle interne fournit l'estimateur du maximum de vraisemblance pour les coefficients du modèle ARMA lorsque les paramètres p, q sont connus.
APA, Harvard, Vancouver, ISO, and other styles
34

Lounici, Karim. "Estimation Statistique En Grande Dimension, Parcimonie et Inégalités D'Oracle." Phd thesis, Université Paris-Diderot - Paris VII, 2009. http://tel.archives-ouvertes.fr/tel-00435917.

Full text
Abstract:
Dans cette thèse nous traitons deux sujets. Le premier sujet concerne l'apprentissage statistique en grande dimension, i.e. les problèmes où le nombre de paramètres potentiels est beaucoup plus grand que le nombre de données à disposition. Dans ce contexte, l'hypothèse généralement adoptée est que le nombre de paramètres intervenant effectivement dans le modèle est petit par rapport au nombre total de paramètres potentiels et aussi par rapport au nombre de données. Cette hypothèse est appelée ``\emph{sparsity assumption}''. Nous étudions les propriétés statistiques de deux types de procédures : les procédures basées sur la minimisation du risque empirique muni d'une pénalité $l_{1}$ sur l'ensemble des paramètres potentiels et les procédures à poids exponentiels. Le second sujet que nous abordons concerne l'étude de procédures d'agrégation dans un modèle de densité. Nous établissons des inégalités oracles pour la norme $L^{\pi}$, $1\leqslant \pi \leqslant \infty$. Nous proposons ensuite une application à l'estimation minimax et adaptative en la régularité de la densité.
APA, Harvard, Vancouver, ISO, and other styles
35

Pluntz, Matthieu. "Sélection de variables en grande dimension par le Lasso et tests statistiques - application à la pharmacovigilance." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASR002.

Full text
Abstract:
La sélection de variables dans une régression de grande dimension est un problème classique dans l'exploitation de données de santé, où l'on cherche à identifier un nombre limité de facteurs associés à un évènement parmi un grand nombre de variables candidates : facteurs génétiques, expositions environnementales ou médicamenteuses.La régression Lasso (Tibshirani, 1996) fournit une suite de modèles parcimonieux où les variables apparaissent les unes après les autres suivant la valeur du paramètre de régularisation. Elle doit s'accompagner d'une procédure du choix de ce paramètre et donc du modèle associé. Nous proposons ici des procédures de sélection d'un des modèles du chemin du Lasso qui font partie, ou s'inspirent, du paradigme des tests statistiques. De la sorte, nous cherchons à contrôler le risque de sélection d'au moins un faux positif (Family-Wise Error Rate, FWER), au contraire de la plupart des méthodes existantes de post-traitement du Lasso qui acceptent plus facilement des faux positifs.Notre première proposition est une généralisation du critère d'information d'Akaike (AIC) que nous appelons AIC étendu (EAIC). La log-vraisemblance du modèle considéré y est pénalisée par son nombre de paramètres affecté d'un poids qui est fonction du nombre total de variables candidates et du niveau visé de FWER, mais pas du nombre d'observations. Nous obtenons cette fonction en rapprochant la comparaison de critères d'information de sous-modèles emboîtés d'une régression en grande dimension, de tests multiples du rapport de vraisemblance sur lesquels nous démontrons un résultat asymptotique.Notre deuxième proposition est un test de la significativité d'une variable apparaissant sur le chemin du Lasso. Son hypothèse nulle dépend d'un ensemble A de variables déjà sélectionnées et énonce qu'il contient toutes les variables actives. Nous cherchons à prendre comme statistique de test la valeur du paramètre de régularisation à partir de laquelle une première variable en dehors de A est sélectionnée par le Lasso. Ce choix se heurte au fait que l'hypothèse nulle n'est pas assez spécifiée pour définir la loi de cette statistique et donc sa p-value. Nous résolvons cela en lui substituant sa p-value conditionnelle, définie conditionnellement aux coefficients estimés du modèle non pénalisé restreint à A. Nous estimons celle-ci par un algorithme que nous appelons simulation-calibration, où des vecteurs réponses sont simulés puis calibrés sur les coefficients estimés du vecteur réponse observé. Nous adaptons de façon heuristique la calibration au cas des modèles linéaires généralisés (binaire et de Poisson) dans lesquels elle est une procédure itérative et stochastique. Nous prouvons que l'utilisation du test permet de contrôler le risque de sélection d'un faux positif dans les modèles linéaires, à la fois lorsque l'hypothèse nulle est vérifiée mais aussi, sous une condition de corrélation, lorsque A ne contient pas toutes les variables actives.Nous mesurons les performances des deux procédures par des études de simulations extensives, portant à la fois sur la sélection éventuelle d'une variable sous l'hypothèse nulle (ou son équivalent pour l'EAIC) et sur la procédure globale de sélection d'un modèle. Nous observons que nos propositions se comparent de façon satisfaisante à leurs équivalents les plus proches déjà existants, BIC et ses versions étendues pour l'EAIC et le test de covariance de Lockhart et al. (2014) pour le test par simulation-calibration. Nous illustrons également les deux procédures dans la détection d'expositions médicamenteuses associées aux pathologies hépatiques (drug-induced liver injuries, DILI) dans la base nationale de pharmacovigilance (BNPV) en mesurant leurs performances grâce à l'ensemble de référence DILIrank d'associations connues
Variable selection in high-dimensional regressions is a classic problem in health data analysis. It aims to identify a limited number of factors associated with a given health event among a large number of candidate variables such as genetic factors or environmental or drug exposures.The Lasso regression (Tibshirani, 1996) provides a series of sparse models where variables appear one after another depending on the regularization parameter's value. It requires a procedure for choosing this parameter and thus the associated model. In this thesis, we propose procedures for selecting one of the models of the Lasso path, which belong to or are inspired by the statistical testing paradigm. Thus, we aim to control the risk of selecting at least one false positive (Family-Wise Error Rate, FWER) unlike most existing post-processing methods of the Lasso, which accept false positives more easily.Our first proposal is a generalization of the Akaike Information Criterion (AIC) which we call the Extended AIC (EAIC). We penalize the log-likelihood of the model under consideration by its number of parameters weighted by a function of the total number of candidate variables and the targeted level of FWER but not the number of observations. We obtain this function by observing the relationship between comparing the information criteria of nested sub-models of a high-dimensional regression, and performing multiple likelihood ratio test, about which we prove an asymptotic property.Our second proposal is a test of the significance of a variable appearing on the Lasso path. Its null hypothesis depends on a set A of already selected variables and states that it contains all the active variables. As the test statistic, we aim to use the regularization parameter value from which a first variable outside A is selected by Lasso. This choice faces the fact that the null hypothesis is not specific enough to define the distribution of this statistic and thus its p-value. We solve this by replacing the statistic with its conditional p-value, which we define conditional on the non-penalized estimated coefficients of the model restricted to A. We estimate the conditional p-value with an algorithm that we call simulation-calibration, where we simulate outcome vectors and then calibrate them on the observed outcome‘s estimated coefficients. We adapt the calibration heuristically to the case of generalized linear models (binary and Poisson) in which it turns into an iterative and stochastic procedure. We prove that using our test controls the risk of selecting a false positive in linear models, both when the null hypothesis is verified and, under a correlation condition, when the set A does not contain all active variables.We evaluate the performance of both procedures through extensive simulation studies, which cover both the potential selection of a variable under the null hypothesis (or its equivalent for EAIC) and on the overall model selection procedure. We observe that our proposals compare well to their closest existing counterparts, the BIC and its extended versions for the EAIC, and Lockhart et al.'s (2014) covariance test for the simulation-calibration test. We also illustrate both procedures in the detection of exposures associated with drug-induced liver injuries (DILI) in the French national pharmacovigilance database (BNPV) by measuring their performance using the DILIrank reference set of known associations
APA, Harvard, Vancouver, ISO, and other styles
36

Rohart, Florian. "Prédiction phénotypique et sélection de variables en grande dimension dans les modèles linéaires et linéaires mixtes." Thesis, Toulouse, INSA, 2012. http://www.theses.fr/2012ISAT0027/document.

Full text
Abstract:
Les nouvelles technologies permettent l'acquisition de données génomiques et post-génomiques de grande dimension, c'est-à-dire des données pour lesquelles il y a toujours un plus grand nombre de variables mesurées que d'individus sur lesquels on les mesure. Ces données nécessitent généralement des hypothèses supplémentaires afin de pouvoir être analysées, comme une hypothèse de parcimonie pour laquelle peu de variables sont supposées influentes. C'est dans ce contexte de grande dimension que nous avons travaillé sur des données réelles issues de l’espèce porcine et de la technologie haut-débit, plus particulièrement le métabolome obtenu à partir de la spectrométrie RMN et des phénotypes mesurés post-mortem pour la plupart. L'objectif est double : d'une part la prédiction de phénotypes d’intérêt pour la production porcine et d'autre part l'explicitation de relations biologiques entre ces phénotypes et le métabolome. On montre, grâce à une analyse dans le modèle linéaire effectuée avec la méthode Lasso, que le métabolome a un pouvoir prédictif non négligeable pour certains phénotypes importants pour la production porcine comme le taux de muscle et la consommation moyenne journalière. Le deuxième objectif est traité grâce au domaine statistique de la sélection de variables. Les méthodes classiques telles que la méthode Lasso et la procédure FDR sont investiguées et de nouvelles méthodes plus performantes sont développées : nous proposons une méthode de sélection de variables en modèle linéaire basée sur des tests d'hypothèses multiples. Cette méthode possède des résultats non asymptotiques de puissance sous certaines conditions sur le signal. De part les données annexes disponibles sur les animaux telles que les lots dans lesquels ils ont évolués ou les relations de parentés qu'ils possèdent, les modèles mixtes sont considérés. Un nouvel algorithme de sélection d'effets fixes est développé et il s'avère beaucoup plus rapide que les algorithmes existants qui ont le même objectif. Grâce à sa décomposition en étapes distinctes, l’algorithme peut être combiné à toutes les méthodes de sélection de variables développées pour le modèle linéaire classique. Toutefois, les résultats de convergence dépendent de la méthode utilisée. On montre que la combinaison de cet algorithme avec la méthode de tests multiples donne de très bons résultats empiriques. Toutes ces méthodes sont appliquées au jeu de données réelles et des relations biologiques sont mises en évidence
Recent technologies have provided scientists with genomics and post-genomics high-dimensional data; there are always more variables that are measured than the number of individuals. These high dimensional datasets usually need additional assumptions in order to be analyzed, such as a sparsity condition which means that only a small subset of the variables are supposed to be relevant. In this high-dimensional context we worked on a real dataset which comes from the pig species and high-throughput biotechnologies. Metabolomic data has been measured with NMR spectroscopy and phenotypic data has been mainly obtained post-mortem. There are two objectives. On one hand, we aim at obtaining good prediction for the production phenotypes and on the other hand we want to pinpoint metabolomic data that explain the phenotype under study. Thanks to the Lasso method applied in a linear model, we show that metabolomic data has a real prediction power for some important phenotypes for livestock production, such as a lean meat percentage and the daily food consumption. The second objective is a problem of variable selection. Classic statistical tools such as the Lasso method or the FDR procedure are investigated and new powerful methods are developed. We propose a variable selection method based on multiple hypotheses testing. This procedure is designed to perform in linear models and non asymptotic results are given under a condition on the signal. Since supplemental data are available on the real dataset such as the batch or the family relationships between the animals, linear mixed models are considered. A new algorithm for fixed effects selection is developed, and this algorithm turned out to be faster than the usual ones. Thanks to its structure, it can be combined with any variable selection methods built for linear models. However, the convergence property of this algorithm depends on the method that is used. The multiple hypotheses testing procedure shows good empirical results. All the mentioned methods are applied to the real data and biological relationships are emphasized
APA, Harvard, Vancouver, ISO, and other styles
37

Roche, Angelina. "Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptatives." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2014. http://tel.archives-ouvertes.fr/tel-01023919.

Full text
Abstract:
L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire.
APA, Harvard, Vancouver, ISO, and other styles
38

Haury, Anne-Claire. "Sélection de variables à partir de données d'expression : signatures moléculaires pour le pronostic du cancer du sein et inférence de réseaux de régulation génique." Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00818345.

Full text
Abstract:
De considérables développements dans le domaine des biotechnologies ont modifié notre approche de l'analyse de l'expression génique. En particulier, les puces à ADN permettent de mesurer l'expression des gènes à l'échelle du génome, dont l'analyse est confiée au statisticien.A partir de ces données dites en grande dimension, nous contribuons, dans cette thèse, à l'étude de deux problèmes biologiques. Nous traitons ces questions comme des problèmes d'apprentissage statistique supervisé et, en particulier, de sélection de variables, où il s'agit d'extraire, parmi toutes les variables - gènes - à disposition, celles qui sont nécessaires et suffisantes pour prédire la réponse à une question donnée.D'une part, nous travaillons à repérer des listes de gènes, connues sous le nom de signatures moléculaires et supposées contenir l'information nécessaire à la prédiction de l'issue du cancer du sein. La prédiction des événements métastatiques est en effet cruciale afin d'évaluer, dès l'apparition de la tumeur primaire, la nécessité d'un traitement par chimio-thérapie adjuvante, connue pour son agressivité. Nous présentons dans cette thèse trois contributions à ce problème. Dans la première, nous proposons une comparaison systématique des méthodes de sélection de variables, en termes de performance prédictive, de stabilité et d'interprétabilité biologique de la solution. Les deux autres contributions portent sur l'application de méthodes dites de parcimonie structurée (graph Lasso et k-support norm) au problème de sélection de signatures. Ces trois travaux discutent également l'impact de l'utilisation de méthodes d'ensemble (bootstrap et ré-échantillonnage).D'autre part, nous nous intéressons au problème d'inférence de réseau génique, consistant à déterminer la structure des interactions entre facteurs de transcription et gènes cibles. Les premiers sont des protéines ayant la faculté de réguler la transcription des gènes cibles, c'est-à-dire de l'activer ou de la réprimer. Ces régulations peuvent être représentées sous la forme d'un graphe dirigé, où les noeuds symbolisent les gènes et les arêtes leurs interactions. Nous proposons un nouvel algorithme, TIGRESS, classé troisième lors du challenge d'inférence de réseaux DREAM5 en 2010. Basé sur l'algorithme LARS couplé à une stratégie de ré-échantillonnage, TIGRESS traite chaque gène cible séparément, en sélectionnant ses régulateurs, puis assemble ces sous-problèmes pour prédire l'ensemble du réseau.Enfin, nous consacrons le dernier chapitre à une discussion ayant pour objectif de replacer les travaux de cette thèse dans un contexte bibliographique et épistémologique plus large.
APA, Harvard, Vancouver, ISO, and other styles
39

Comminges, Laëtitia. "Quelques contributions à la sélection de variables et aux tests non-paramétriques." Thesis, Paris Est, 2012. http://www.theses.fr/2012PEST1068/document.

Full text
Abstract:
Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée $Q$, l'hypothèse nulle correspond au fait que la fonction $f$ satisfait la contrainte $Q[f] = 0$, tandis que l'alternative correspond aux fonctions pour lesquelles $ |Q[f]|$ est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime « régulier » et un régime « irrégulier ». On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités
Real-world data are often extremely high-dimensional, severely under constrained and interspersed with a large number of irrelevant or redundant features. Relevant variable selection is a compelling approach for addressing statistical issues in the scenario of high-dimensional and noisy data with small sample size. First, we address the issue of variable selection in the regression model when the number of variables is very large. The main focus is on the situation where the number of relevant variables is much smaller than the ambient dimension. Without assuming any parametric form of the underlying regression function, we get tight conditions making it possible to consistently estimate the set of relevant variables. Secondly, we consider the problem of testing a particular type of composite null hypothesis under a nonparametric multivariate regression model. For a given quadratic functional $Q$, the null hypothesis states that the regression function $f$ satisfies the constraint $Q[f] = 0$, while the alternative corresponds to the functions for which $Q[f]$ is bounded away from zero. We provide minimax rates of testing and the exact separation constants, along with a sharp-optimal testing procedure, for diagonal and nonnegative quadratic functionals. We can apply this to testing the relevance of a variable. Studying minimax rates for quadratic functionals which are neither positive nor negative, makes appear two different regimes: “regular” and “irregular”. We apply this to the issue of testing the equality of norms of two functions observed in noisy environments
APA, Harvard, Vancouver, ISO, and other styles
40

Zulian, Marine. "Méthodes de sélection et de validation de modèles à effets mixtes pour la médecine génomique." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX003.

Full text
Abstract:
L'étude de phénomènes biologiques complexes tels que la physiopathologie humaine, la pharmacocinétique d'un médicament ou encore sa pharmacodynamie peut être enrichie par des approches de modélisation et de simulation. Les progrès technologiques de la génétique permettent la constitution de jeux de données issues de populations plus larges et plus hétérogènes. L'enjeu est alors de développer des outils intégrant les données génomiques et phénotypiques permettant d'expliquer la variabilité inter-individuelle. Dans cette thèse, nous développons des méthodes qui permettent de prendre en compte la complexité des données biologiques et la complexité des processus sous-jacents. Des étapes de curation des covariables génomiques nous permettent de restreindre le nombre de covariables potentielles ainsi que de limiter les corrélations entre covariables. Nous proposons un algorithme de sélection de covariables dans un modèle à effets mixtes dont la structure est contrainte par le processus physiologique étudié. En particulier, nous illustrons les méthodes développées sur deux applications issues de la médecine : des données réelles d'hypertension artérielle et des données simulées du métabolisme du tramadol (opioïde)
The study of complex biological phenomena such as human pathophysiology, pharmacokinetics of a drug or its pharmacodynamics can be enriched by modelling and simulation approaches. Technological advances in genetics allow the establishment of data sets from larger and more heterogeneous populations. The challenge is then to develop tools that integrate genomic and phenotypic data to explain inter-individual variability. In this thesis, we develop methods that take into account the complexity of biological data and the complexity of underlying processes. Curation steps of genomic covariates allow us to limit the number of potential covariates and limit correlations between covariates. We propose an algorithm for selecting covariates in a mixed effects model whose structure is constrained by the physiological process. In particular, we illustrate the developed methods on two medical applications: actual high blood pressure data and simulated tramadol (opioid) metabolism data
APA, Harvard, Vancouver, ISO, and other styles
41

Saumard, Adrien. "Estimation par Minimum de Contraste Régulier et Heuristique de Pente en Sélection de Modèles." Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00569372.

Full text
Abstract:
Cette thèse est consacrée à l'étude théorique d'une méthode de calibration automatique des pénalités en sélection de modèles. Cette méthode se base sur une heuristique, appelée "heuristique de pente", qui stipule l'existence d'une pénalité minimale telle que la solution optimale du problème de pénalisation vaut deux fois celle-ci. En pratique, on estime la pénalité optimale en estimant préalablement la pénalité minimale, caractérisée par un changement brutal dans le comportement de la procédure de sélection de modèles autour de ce seuil de pénalisation. L'analyse théorique du phénomène de pente se base sur un contrôle à la constante près des déviations de l'excès de risque et de l'excès de risque empirique des estimateurs considérés, mesurant respectivement leur performance en prédiction et leur performance empirique. Ceci suggère en premier lieu, une forte spécification de la structure du problème étudié. Nous validons l'heuristique de pente dans un cadre général qui s'articule autour d'une notion nouvelle en M-estimation, que nous appelons "contraste régulier", et nous développons une méthodologie de preuve inédite, permettant de traiter à la fois la question des bornes supérieures et des bornes inférieures de déviation des excès de risque à modèle fixé. Nous retrouvons ainsi la plupart des résultats déjà connus sur l'heuristique de pente. En effet, nous donnons trois exemples d'estimation par minimum de contraste régulier, à savoir la régression par moindres carrés sur des modèles linéaires, l'estimation de la densité par moindres carrés sur des modèles affines et l'estimation de la densité par maximum de vraisemblance sur des ensembles convexes. Ceci nous permet d'étendre les résultats précédemment établis dans le cas de la régression à des modèles plus généraux et de valider l'heuristique de pente pour un risque non quadratique en considérant le cas de l'estimation par maximum de vraisemblance. Enfin, notre méthodologie de preuve fournit des pistes précises de recherche pour des situations non régulières, comme on en trouve en classification ou plus généralement en théorie de l'apprentissage statistique.
APA, Harvard, Vancouver, ISO, and other styles
42

Sokolovska, Nataliya. "Contributions à l'estimation de modèles probabilistes discriminants : apprentissage semi-supervisé et sélection de caractéristiques." Phd thesis, Paris, Télécom ParisTech, 2010. https://pastel.hal.science/pastel-00006257.

Full text
Abstract:
Dans cette thèse nous étudions l'estimation de modèles probabilistes discriminants, surtout des aspects d'apprentissage semi-supervisé et de sélection de caractéristiques. Le but de l'apprentissage semi-supervisé est d'améliorer l'efficacité de l'apprentissage supervisé en utilisant des données non-étiquetées. Cet objectif est difficile à atteindre dans les cas des modèles discriminants. Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (CRF). Notre contribution est double. Nous introduisons une méthode originale et simple pour intégrer des données non étiquetées dans une fonction objectif semi-supervisée. Nous démontrons alors que l'estimateur semi-supervisé correspondant est asymptotiquement optimal. Le cas de la régression logistique est illustré par des résultats d'expèriences. Dans cette étude, nous proposons un algorithme d'estimation pour les CRF qui réalise une sélection de modèle, par le truchement d'une pénalisation L1. Nous présentons également les résultats d'expériences menées sur des tâches de traitement des langues (le chunking et la détection des entités nommées), en analysant les performances en généralisation et les caractéristiques sélectionnées. Nous proposons finalement diverses pistes pour améliorer l'efficacité computationelle de cette technique
In this thesis, we investigate the use of parametric probabilistic models for classification tasks in the domain of natural lang uage processing. We focus in particular on discriminative models, such as logistic regression and its generalization, conditional random fields (CRFs). Discriminative probabilistic models design directly conditional probability of a class given an observation. The logistic regression has been widely used due to its simplicity and effectiveness. Conditional random fields allow to take structural dependencies into consideration and therefore are used for structured output prediction. In this study, we address two aspects of modern machine learning, namely , semi-supervised learning and model selection, in the context of CRFs. The contribution of this thesis is twofold. First, we consider the framework of semi -supervised learning and propose a novel semi-supervised estimator and show that it is preferable to the standard logistic regression. Second, we study model selection approaches for discriminative models, in particular for CRFs and propose to penalize the CRFs with the elastic net. Since the penalty term is not differentiable in zero, we consider coordinate-wise optimization. The comparison with the performances of other methods demonstrates competitiveness of the CRFs penalized by the elastic net
APA, Harvard, Vancouver, ISO, and other styles
43

Sokolovska, Nataliya. "Contributions à l'estimation de modèles probabilistes discriminants : apprentissage semi-supervisé et sélection de caractéristiques." Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00557662.

Full text
Abstract:
Dans cette thèse nous étudions l'estimation de modèles probabilistes discriminants, surtout des aspects d'apprentissage semi-supervisé et de sélection de caractéristiques. Le but de l'apprentissage semi-supervisé est d'améliorer l'efficacité de l'apprentissage supervisé en utilisant des données non étiquetées. Cet objectif est difficile à atteindre dans les cas des modèles discriminants. Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (CRF). Sélectionner automatiquement les caractéristiques pertinentes s'avère alors intéressant et donne lieu à des modèles plus compacts et plus faciles à utiliser. Notre contribution est double. Nous introduisons une méthode originale et simple pour intégrer des données non étiquetées dans une fonction objectif semi-supervisé. Nous démontrons alors que l'estimateur semi-supervisé correspondant est asymptotiquement optimal. Le cas de la régression logistique est illustré par des résultats d'expériences. Nous proposons un algorithme d'estimation pour les CRF qui réalise une sélection de caractéristiques, par le truchement d'une pénalisation $L_1$. Nous présentons également les résultats d'expériences menées sur des tâches de traitement des langues, en analysant les performances en généralisation et les caractéristiques sélectionnées. Nous proposons finalement diverses pistes pour améliorer l'efficacité computationelle de cette technique.
APA, Harvard, Vancouver, ISO, and other styles
44

Leyrat, Clémence. "Biais de sélection dans les essais en clusters : intérêt d'une approche de type score de propension pour le diagnostic et l'analyse statistique." Paris 7, 2014. http://www.theses.fr/2014PA077064.

Full text
Abstract:
L'objectif de ce travail est d'étudier l'intérêt des approches reposant sur le score de propension (SP) dans le contexte des essais en clusters (ERC) avec biais de sélection. Dans un premier temps, nous avons étudié à l'aide de simulations Monte Carlo, les performances de 4 méthodes reposant sur le SP (ajustement direct, pondération inverse, stratification et appariement) en comparaison à une régression multivariée classique pour l'analyse d'ERC avec biais de sélection. Lorsque le critère de jugement est continu, la régression multivariée et les méthodes reposant sur le SP (sauf l'appariement) corrigent le biais. En revanche, seul l'ajustement sur le SP permet d'estimer un effet non biaisé du traitement lorsqu'il s'agit d'un critère de jugement binaire de faible incidence. Dans un second temps, nous avons développé un outil de détection du biais de sélection, reposant sur la statistique c associée à un modèle de régression logistique. Cet outil fournit, pour un nombre de covariables et un effectif total fixés, une valeur seuil au-delà de laquelle on pourra conclure à la présence d'un biais de sélection. Ce travail soulève également les difficultés de la mise en place des méthodes de SP dans les ERC, liées à la structure hiérarchique des données, ainsi que les enjeux associés au choix de la méthode d'analyse dans un cadre d'inférence causale
This work aimed to study propensity score (PS)-based approaches for analysis of results of cluster randomized trials (CRTs) with selection bias. First, we used Monte Carlo simulations to compare the performance of 4 PS-based methods (direct adjustment, inverse weighting, stratification and matching) and classical multivariable regression when analyzing results of a CRT with selection bias. For continuous outcomes, both multivariable regression and PS-based methods (except matching) removed the bias. Conversely, only direct adjustment on PS provided an unbiased estimate of treatment effect for a low-incidence binary outcome. Second, we developed a tool for detecting selection bias that relies on the area under the receiver operating characteristic curve of the PS model. This tool provides, for a fixed number of covariates and sample size, a threshold value beyond which one could consider the existence of selection bias. This work also highlights the complexity of implementing PS-based methods in the context of CRTs because of the hierarchical structure of the data, as well as the challenges linked to the choice of the statistical method in a causal inference framework
APA, Harvard, Vancouver, ISO, and other styles
45

Celisse, Alain. "Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures." Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00346320.

Full text
Abstract:
L'objet de cette thèse est l'étude d'un certain type d'algorithmes de rééchantillonnage regroupés sous le nom de validation-croisée, et plus particulièrement parmi eux, du leave-p-out. Très utilisés en pratique, ces algorithmes sont encore mal compris d'un point de vue théorique, notamment sur un plan non-asymptotique. Notre analyse du leave-p-out s'effectue dans les cadres de l'estimation de densité et de la régression. Son objectif est de mieux comprendre la validation-croisée en fonction du cardinal $p$ de l'ensemble test dont elle dépend. D'un point de vue général, la validation-croisée est destinée à estimer le risque d'un estimateur. Dans notre cas, le leave-$p$-out n'est habituellement pas applicable en pratique, à cause d'une trop grande complexité algorithmique. Pourtant, nous parvenons à obtenir des formules closes (parfaitement calculables) de l'estimateur leave-p-out du risque, pour une large gamme d'estimateurs très employés. Nous envisageons le problème de la sélection de modèle par validation-croisée sous deux aspects. L'un repose sur l'estimation optimale du risque en termes d'un compromis biais-variance, ce qui donne lieu à une procédure d'estimation de densité basée sur un choix de $p$ entièrement fondé sur les données. Une application naturelle au problème des tests multiples est envisagée. L'autre aspect est lié à l'interprétation de l'estimateur validation-croisée comme critère pénalisé. Sur le plan théorique, la qualité de la procédure leave-$p$-out est garantie par des inégalités oracle ainsi qu'un résultat d'adaptativité dans le cadre de l'estimation de densité. Le problème de la détection de ruptures est également abordé au travers d'une vaste étude de simulations, basée sur des considérations théoriques. Sur cette base, nous proposons une procédure entièrement tournée vers le rééchantillonnage, permettant de traiter le cas difficile de données hétéroscédastiques avec une complexité algorithmique raisonnable.
APA, Harvard, Vancouver, ISO, and other styles
46

Bourguignon, Pierre Yves Vincent. "Parcimonie dans les modèles Markoviens et application à l'analyse des séquences biologiques." Thesis, Evry-Val d'Essonne, 2008. http://www.theses.fr/2008EVRY0042.

Full text
Abstract:
Les chaînes de Markov constituent une famille de modèle statistique incontournable dans de nombreuses applications, dont le spectre s'étend de la compression de texte à l'analyse des séquences biologiques. Un problème récurrent dans leur mise en oeuvre face à des données réelles est la nécessité de compromettre l'ordre du modèle, qui conditionne la complexité des interactions modélisées, avec la quantité d'information fournies par les données, dont la limitation impacte négativement la qualité des estimations menées. Les arbres de contexte permettent une granularité fine dans l'établissement de ce compromis, en permettant de recourir à des longueurs de mémoire variables selon le contexte rencontré dans la séquence. Ils ont donné lieu à des outils populaires tant pour l'indexation des textes que pour leur compression (Context Tree Maximisation – CTM - et Context Tree Weighting - CTW). Nous proposons une extension de cette classe de modèles, en introduisant les arbres de contexte parcimonieux, obtenus par fusion de noeuds issus du même parent dans l'arbre. Ces fusions permettent une augmentation radicale de la granularité de la sélection de modèle, permettant ainsi de meilleurs compromis entre complexité du modèle et qualité de l'estimation, au prix d'une extension importante de la quantité de modèles mise en concurrence. Cependant, grâce à une approche bayésienne très similaire à celle employée dans CTM et CTW, nous avons pu concevoir une méthode de sélection de modèles optimisant de manière exacte le critère bayésien de sélection de modèles tout en bénéficiant d'une programmation dynamique. Il en résulte un algorithme atteignant la borne inférieure de la complexité du problème d'optimisation, et pratiquement tractable pour des alphabets de taille inférieure à 10 symboles. Diverses démonstrations de la performance atteinte par cette procédure sont fournies en dernière partie
Markov chains, as a universal model accounting for finite memory, discrete valued processes, are omnipresent in applied statistics. Their applications range from text compression to the analysis of biological sequences. Their practical use with finite samples, however, systematically require to draw a compromise between the memory length of the model used, which conditions the complexity of the interactions the model may capture, and the amount of information carried by the data, whose limitation negatively impacts the quality of estimation. Context trees, as an extension of the model class of Markov chains, provide the modeller with a finer granularity in this model selection process, by allowing the memory length to vary across contexts. Several popular modelling methods are based on this class of models, in fields such as text indexation of text compression (Context Tree Maximization and Context Tree Weighting). We propose an extension of the models class of context trees, the Parcimonious context trees, which further allow the fusion of sibling nodes in the context tree. They provide the modeller with a yet finer granularity to perform the model selection task, at the cost of an increased computational cost for performing it. Thanks to a bayesian approach of this problem borrowed from compression techniques, we succeeded at desiging an algorithm that exactly optimizes the bayesian criterion, while it benefits from a dynamic programming scheme ensuring the minimisation of the computational complexity of the model selection task. This algorithm is able to perform in reasonable space and time on alphabets up to size 10, and has been applied on diverse datasets to establish the good performances achieved by this approach
APA, Harvard, Vancouver, ISO, and other styles
47

Pain, Michel. "Mouvement brownien branchant et autres modèles hiérarchiques en physique statistique." Thesis, Sorbonne université, 2019. http://www.theses.fr/2019SORUS305.

Full text
Abstract:
Le mouvement brownien branchant (BBM) est un système de particules se déplaçant et se reproduisant aléatoirement. En premier lieu, nous étudions avec précision la transition de phase qui a lieu au sein de ce système de particules près de son minimum, en se plaçant dans le cas dit presque-critique. Ensuite, nous décrivons les fluctuations 1-stable universelles qui apparaissent dans le front du BBM, ainsi que le comportement typique des particules qui y contribuent. Une version du BBM avec sélection est également étudiée, où les particules sont tuées quand elles descendent à une distance L de la particule la plus haute : nous verrons comment cette règle de sélection affecte la vitesse de déplacement des individus les plus rapides quand L est grand. Puis, sous l'angle de la question du chaos en température pour les verres de spin, nous comparons le champ libre gaussien discret en dimension 2, un modèle possèdant une structure hiérarchique approximative et des propriétés très proches de celles du BBM, avec le Random Energy Model. Finalement, le dernier chapitre porte sur le modèle de Derrida-Retaux, qui est également défini par une structure hiérarchique. Nous introduisons une version continue de ce modèle, possédant une famille exactement soluble de solutions qui permet de répondre à différentes conjectures existantes sur le modèle discret
Branching Brownian motion (BBM) is a particle system, where particles move and reproduce randomly. Firstly, we study precisely the phase transition occuring for this particle system close to its minimum, in the setting of the so-called near-critical case. Then, we describe the universal 1-stable fluctuations appearing in the front of BBM and identify the typical behavior of particles contributing to them. A version of BBM with selection, where particles are killed when going down at a distance larger than L from the highest particle, is also sudied: we see how this selection rule affects the speed of the fastest individuals in the population, when L is large. Thereafter, motivated by temperature chaos in spin glasses, we study the 2-dimensional discrete Gaussian free field, which is a model with an approximative hierarchical structure and properties similar to BBM, and show that, from this perspective, it behaves differently than the Random Energy Model. Finally, the last part of this thesis is dedicated to the Derrida-Retaux model, which is also defined by a hierarchical structure. We introduce a continuous time version of this model and exhibit a family of exactly solvable solutions, which allows us to answer several conjectures stated on the discrete time model
APA, Harvard, Vancouver, ISO, and other styles
48

Perthame, Emeline. "Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension." Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S122/document.

Full text
Abstract:
Les données à haut-débit, par leur grande dimension et leur hétérogénéité, ont motivé le développement de méthodes statistiques pour la sélection de variables. En effet, le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches de sélection habituelles, construites sous l'hypothèse d'indépendance des variables, sont alors remises en question car elles peuvent conduire à des décisions erronées. L'objectif de cette thèse est de contribuer à l'amélioration des méthodes de sélection de variables pour la régression et la classification supervisée, par une meilleure prise en compte de la dépendance entre les statistiques de sélection. L'ensemble des méthodes proposées s'appuie sur la description de la dépendance entre covariables par un petit nombre de variables latentes. Ce modèle à facteurs suppose que les covariables sont indépendantes conditionnellement à un vecteur de facteurs latents. Une partie de ce travail de thèse porte sur l'analyse de données de potentiels évoqués (ERP). Les ERP sont utilisés pour décrire par électro-encéphalographie l'évolution temporelle de l'activité cérébrale. Sur les courts intervalles de temps durant lesquels les variations d'ERPs peuvent être liées à des conditions expérimentales, le signal psychologique est faible, au regard de la forte variabilité inter-individuelle des courbes ERP. En effet, ces données sont caractérisées par une structure de dépendance temporelle forte et complexe. L'analyse statistique de ces données revient à tester pour chaque instant un lien entre l'activité cérébrale et des conditions expérimentales. Une méthode de décorrélation des statistiques de test est proposée, basée sur la modélisation jointe du signal et de la dépendance à partir d'une connaissance préalable d'instants où le signal est nul. Ensuite, l'apport du modèle à facteurs dans le cadre général de l'Analyse Discriminante Linéaire est étudié. On démontre que la règle linéaire de classification optimale conditionnelle aux facteurs latents est plus performante que la règle non-conditionnelle. Un algorithme de type EM pour l'estimation des paramètres du modèle est proposé. La méthode de décorrélation des données ainsi définie est compatible avec un objectif de prédiction. Enfin, on aborde de manière plus formelle les problématiques de détection et d'identification de signal en situation de dépendance. On s'intéresse plus particulièrement au Higher Criticism (HC), défini sous l'hypothèse d'un signal rare de faible amplitude et sous l'indépendance. Il est montré dans la littérature que cette méthode atteint des bornes théoriques de détection. Les propriétés du HC en situation de dépendance sont étudiées et les bornes de détectabilité et d'estimabilité sont étendues à des situations arbitrairement complexes de dépendance. Dans le cadre de l'identification de signal, une adaptation de la méthode Higher Criticism Thresholding par décorrélation par les innovations est proposée
The analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables. The goal of this thesis is to contribute to the improvement of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. All the methods proposed in this thesis are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables. A part of this thesis focuses on the analysis of event-related potentials data (ERP). ERPs are now widely collected in psychological research to determine the time courses of mental events. In the significant analysis of the relationships between event-related potentials and experimental covariates, the psychological signal is often both rare, since it only occurs on short intervals and weak, regarding the huge between-subject variability of ERP curves. Indeed, this data is characterized by a temporal dependence pattern both strong and complex. Moreover, studying the effect of experimental condition on brain activity for each instant is a multiple testing issue. We propose to decorrelate the test statistics by a joint modeling of the signal and time-dependence among test statistics from a prior knowledge of time points during which the signal is null. Second, an extension of decorrelation methods is proposed in order to handle a variable selection issue in the linear supervised classification models framework. The contribution of factor model assumption in the general framework of Linear Discriminant Analysis is studied. It is shown that the optimal linear classification rule conditionally to these factors is more efficient than the non-conditional rule. Next, an Expectation-Maximization algorithm for the estimation of the model parameters is proposed. This method of data decorrelation is compatible with a prediction purpose. At last, the issues of detection and identification of a signal when features are dependent are addressed more analytically. We focus on the Higher Criticism (HC) procedure, defined under the assumptions of a sparse signal of low amplitude and independence among tests. It is shown in the literature that this method reaches theoretical bounds of detection. Properties of HC under dependence are studied and the bounds of detectability and estimability are extended to arbitrarily complex situations of dependence. Finally, in the context of signal identification, an extension of Higher Criticism Thresholding based on innovations is proposed
APA, Harvard, Vancouver, ISO, and other styles
49

Cherfaoui, Farah. "Echantillonnage pour l'accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses." Electronic Thesis or Diss., Aix-Marseille, 2022. http://www.theses.fr/2022AIXM0256.

Full text
Abstract:
Les contributions de cette thèse se divisent en deux parties. Une première partie dédiée à l’accélération des méthodes à noyaux et une seconde à l'optimisation sous contrainte de parcimonie. Les méthodes à noyaux sont largement connues et utilisées en apprentissage automatique. Toutefois, la complexité de leur mise en œuvre est élevée et elles deviennent inutilisables lorsque le nombre de données est grand. Nous proposons dans un premier temps une approximation des Ridge Leverage Scores. Nous utilisons ensuite ces scores pour définir une distribution de probabilité pour le processus d'échantillonnage de la méthode de Nyström afin d’accélérer les méthodes à noyaux. Nous proposons dans un second temps un nouveau framework basé sur les noyaux, permettant de représenter et de comparer les distributions de probabilités discrètes. Nous exploitons ensuite le lien entre notre framework et la Maximum Mean Discrepancy pour proposer une approximation précise et peu coûteuse de cette dernière. La deuxième partie de cette thèse est consacrée à l’optimisation avec contrainte de parcimonie pour l’optimisation de signaux et l’élagage de forêts aléatoires. Tout d’abord, nous prouvons sous certaines conditions sur la cohérence du dictionnaire, les propriétés de reconstruction et de convergence de l’algorithme Frank-Wolfe. Ensuite, nous utilisons l'algorithme OMP pour réduire la taille de forêts aléatoires et ainsi réduire la taille nécessaire pour son stockage. La forêt élaguée est constituée d’un sous-ensemble d’arbres de la forêt initiale sélectionnés et pondérés par OMP de manière à minimiser son erreur empirique de prédiction
The contributions of this thesis are divided into two parts. The first part is dedicated to the acceleration of kernel methods and the second to optimization under sparsity constraints. Kernel methods are widely known and used in machine learning. However, the complexity of their implementation is high and they become unusable when the number of data is large. We first propose an approximation of Ridge leverage scores. We then use these scores to define a probability distribution for the sampling process of the Nyström method in order to speed up the kernel methods. We then propose a new kernel-based framework for representing and comparing discrete probability distributions. We then exploit the link between our framework and the maximum mean discrepancy to propose an accurate and fast approximation of the latter. The second part of this thesis is devoted to optimization with sparsity constraint for signal optimization and random forest pruning. First, we prove under certain conditions on the coherence of the dictionary, the reconstruction and convergence properties of the Frank-Wolfe algorithm. Then, we use the OMP algorithm to reduce the size of random forests and thus reduce the size needed for its storage. The pruned forest consists of a subset of trees from the initial forest selected and weighted by OMP in order to minimize its empirical prediction error
APA, Harvard, Vancouver, ISO, and other styles
50

Peel, Thomas. "Algorithmes de poursuite stochastiques et inégalités de concentration empiriques pour l'apprentissage statistique." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM4769/document.

Full text
Abstract:
La première partie de cette thèse introduit de nouveaux algorithmes de décomposition parcimonieuse de signaux. Basés sur Matching Pursuit (MP) ils répondent au problème suivant : comment réduire le temps de calcul de l'étape de sélection de MP, souvent très coûteuse. En réponse, nous sous-échantillonnons le dictionnaire à chaque itération, en lignes et en colonnes. Nous montrons que cette approche fondée théoriquement affiche de bons résultats en pratique. Nous proposons ensuite un algorithme itératif de descente de gradient par blocs de coordonnées pour sélectionner des caractéristiques en classification multi-classes. Celui-ci s'appuie sur l'utilisation de codes correcteurs d'erreurs transformant le problème en un problème de représentation parcimonieuse simultanée de signaux. La deuxième partie expose de nouvelles inégalités de concentration empiriques de type Bernstein. En premier, elles concernent la théorie des U-statistiques et sont utilisées pour élaborer des bornes en généralisation dans le cadre d'algorithmes de ranking. Ces bornes tirent parti d'un estimateur de variance pour lequel nous proposons un algorithme de calcul efficace. Ensuite, nous présentons une version empirique de l'inégalité de type Bernstein proposée par Freedman [1975] pour les martingales. Ici encore, la force de notre borne réside dans l'introduction d'un estimateur de variance calculable à partir des données. Cela nous permet de proposer des bornes en généralisation pour l'ensemble des algorithmes d'apprentissage en ligne améliorant l'état de l'art et ouvrant la porte à une nouvelle famille d'algorithmes d'apprentissage tirant parti de cette information empirique
The first part of this thesis introduces new algorithms for the sparse encoding of signals. Based on Matching Pursuit (MP) they focus on the following problem : how to reduce the computation time of the selection step of MP. As an answer, we sub-sample the dictionary in line and column at each iteration. We show that this theoretically grounded approach has good empirical performances. We then propose a bloc coordinate gradient descent algorithm for feature selection problems in the multiclass classification setting. Thanks to the use of error-correcting output codes, this task can be seen as a simultaneous sparse encoding of signals problem. The second part exposes new empirical Bernstein inequalities. Firstly, they concern the theory of the U-Statistics and are applied in order to design generalization bounds for ranking algorithms. These bounds take advantage of a variance estimator and we propose an efficient algorithm to compute it. Then, we present an empirical version of the Bernstein type inequality for martingales by Freedman [1975]. Again, the strength of our result lies in the variance estimator computable from the data. This allows us to propose generalization bounds for online learning algorithms which improve the state of the art and pave the way to a new family of learning algorithms taking advantage of this empirical information
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography