Log in

Relevant bibliographies by topics / Apprentissage statistiques / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Apprentissage statistiques.

Dissertations / Theses on the topic 'Apprentissage statistiques'

Author: Grafiati

Published: 4 June 2021

Last updated: 11 January 2025

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage statistiques.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Solnon, Matthieu. "Apprentissage statistique multi-tâches." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00911498.

Full text

Abstract:

Cette thèse a pour objet la construction, la calibration et l'étude d'estimateurs multi-tâches, dans un cadre fréquentiste non paramétrique et non asymptotique. Nous nous plaçons dans le cadre de la régression ridge à noyau et y étendons les méthodes existantes de régression multi-tâches. La question clef est la calibration d'un paramètre de régularisation matriciel, qui encode la similarité entre les tâches. Nous proposons une méthode de calibration de ce paramètre, fondée sur l'estimation de la matrice de covariance du bruit entre les tâches. Nous donnons ensuite pour l'estimateur obtenu des garanties d'optimalité, via une inégalité oracle, puis vérifions son comportement sur des exemples simulés. Nous obtenons par ailleurs un encadrement précis des risques des estimateurs oracles multi-tâches et mono-tâche dans certains cas. Cela nous permet de dégager plusieurs situations intéressantes, où l'oracle multi-tâches est plus efficace que l'oracle mono-tâche, ou vice versa. Cela nous permet aussi de nous assurer que l'inégalité oracle force l'estimateur multi-tâches à avoir un risque inférieur à l'estimateur mono-tâche dans les cas étudiés. Le comportement des oracles multi-tâches et mono-tâche est vérifié sur des exemples simulés.

APA, Harvard, Vancouver, ISO, and other styles

2

Vayatis, Nicolas. "Approches statistiques en apprentissage : boosting et ranking." Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00120738.

Full text

Abstract:

Depuis une dizaine d'années, la théorie statistique de l'apprentissage a connu une forte expansion. L'avènement d'algorithmes hautement performants pour la classification de données en grande dimension, tels que le boosting ou les machines à noyaux (SVM) a engendré de nombreuses questions statistiques que la théorie de Vapnik-Chervonenkis (VC) ne permettait pas de résoudre. En effet, le principe de Minimisation du Risque Empirique ne rend pas compte des méthodes d'apprentissage concrètes et le concept de complexité combinatoire de VC dimension ne permet pas d'expliquer les capacités de généralisation d'algorithmes
sélectionnant un estimateur au sein d'une classe massive telle que l'enveloppe convexe d'une classe de VC. Dans le premier volet du mémoire, on rappelle les interprétations des algorithmes de boosting comme des implémentations de principes de minimisation
de risques convexes et on étudie leurs propriétés sous cet angle. En particulier, on montre l'importance de la
régularisation pour obtenir des stratégies consistantes. On développe également une nouvelle classe d'algorithmes de type gradient stochastique appelés algorithmes de descente miroir avec moyennisation et on évalue leur comportement à travers des simulations informatiques. Après avoir présenté les principes fondamentaux du boosting, on s'attache dans le
deuxième volet à des questions plus avancées telles que
l'élaboration d'inégalités d'oracle. Ainsi, on étudie la
calibration précise des pénalités en fonction des critères
de coût utilisés. On présente des résultats
non-asymptotiques sur la performance des estimateurs du boosting pénalisés, notamment les vitesses rapides sous les conditions de marge de type Mammen-Tsybakov et on décrit les capacités d'approximation du boosting utilisant les "rampes" (stumps) de décision. Le troisième volet du mémoire explore le problème du ranking. Un enjeu important dans des applications
telles que la fouille de documents ou le "credit scoring" est d'ordonner les instances plutôt que de les catégoriser. On propose une formulation simple de ce problème qui permet d'interpréter le ranking comme une classification sur des paires d'observations. La différence dans ce cas vient du fait que les
critères empiriques sont des U-statistiques et on développe donc la théorie de la classification adaptée à ce contexte. On explore également la question de la généralisation de l'erreur de ranking afin de pouvoir inclure des a priori sur l'ordre des instances, comme dans le cas où on ne s'intéresse qu'aux "meilleures" instances.

APA, Harvard, Vancouver, ISO, and other styles

3

Dimeglio, Chloé. "Méthodes d'estimations statistiques et apprentissage pour l'imagerie agricole." Toulouse 3, 2013. http://www.theses.fr/2013TOU30110.

Full text

Abstract:

Nous disposons de séries temporelles d'indices associés à chaque pixel d'une image satellite. Notre objectif est de fournir au plus tôt une information fiable sur les estimations de surfaces en culture à partir de l'information attachée à chaque pixel et caractérisée par la courbe qui lui est associée. Il s'agira donc dans un premier temps de caractériser la variabilité spatiale associée à ces pixels et de déterminer une segmentation spatiale qui permette d'homogénéiser les données par classe. Dans un second temps l'extraction de l'information utile tiendra compte de la structure des courbes caractéristiques de la nature des pixels de l'image. L'étape finale consistera à déterminer la méthode adéquate d'estimation pour une prédiction des surfaces en cultures
We have to provide reliable information on the acreage estimate of crop areas. We have time series of indices contained in satellite images, and thus sets of curves. We propose to segment the space in order to reduce the variability of our initial classes of curves. Then, we reduce the data volume and we find a set of meaningful representative functions that characterizes the common behavior of each crop class. This method is close to the extraction of a "structural mean". We compare each unknown curve to a curve of the representative base and we allocate each curve to the class of the nearest representative curve. At the last step we learn the error of estimates on known data and correct the first estimate by calibration

APA, Harvard, Vancouver, ISO, and other styles

4

BERNY, ARNAUD. "Apprentissage et optimisation statistiques. Application a la radiotelephonie mobile." Nantes, 2000. http://www.theses.fr/2000NANT2081.

Full text

Abstract:

Le sujet de cette these est l'optimisation stochastique. Dans la premiere des trois parties, nous presentons plusieurs problemes d'optimisation combinatoire et des algorithmes approches de resolution, en particulier les algorithmes genetiques. Nous abordons egalement les methodes issues de la physique statistique, en particulier les systemes de spins et l'echantillonnage de gibbs que nous appliquons a la coloration de graphes. Dans la deuxieme partie, nous presentons des algorithmes d'optimisation qui travaillent sur une representation de l'espace de recherche, au contraire des algorithmes de la premiere partie. Par representation, nous entendons une probabilite sur l'espace de recherche decrite par un nombre fini de parametres. L'optimisation est controlee par un systeme dynamique a gradient, a l'instar de l'apprentissage dans les reseaux de neurones, qui agit sur les parametres de la probabilite et maximise un critere statistique. Nous avons introduit deux nouveaux criteres statistiques qui conduisent a des algorithmes d'apprentissage par selection. Dans le cas des vecteurs binaires, nous utilisons les mesures de bernoulli, et dans le cas euclidien, les densites gaussiennes. La troisieme partie porte sur un probleme d'optimisation en radiotelephonie mobile, la planification cellulaire. Apres avoir presente le modele, nous proposons une methode de resolution qui incorpore plusieurs des notions rencontrees dans les deux premieres parties. Elle fait appel en particulier a la recherche locale, aux systemes de spins, a l'echantillonnage de gibbs, au recuit simule et a l'apprentissage par renforcement. La methode est evaluee sur des jeux de donnees reelles de grande taille et comparee a d'autres methodes.

APA, Harvard, Vancouver, ISO, and other styles

5

Roche, Mathieu. "Intégration de la construction de la terminologie de domaines spécialisés dans un processus global de fouille de textes." Paris 11, 2004. http://www.theses.fr/2004PA112330.

Full text

Abstract:

L'extraction d'information à partir de textes spécialisés exige l'application d'un processus complet de fouille de textes. Une des étapes de ce processus consiste à extraire les termes dans les textes. Les termes sont définis comme des groupes de mots représentant des traces linguistiques de concepts. Le terme « data mining » évoque, par exemple, le concept de « technique informatique ». La tâche d'acquisition de la terminologie consiste, dans un premier temps, à extraire les mots voisins vérifiant des patrons syntaxiques simples tels que Nom-Nom, Adjectif-Nom, etc. Une des spécificités de notre algorithme est son aspect itératif utilisé pour construire des termes complexes. Par exemple, si lors de la première itération le terme « data mining » de type Nom-Nom est extrait, à l'étape suivante le terme « data-mining application » peut être obtenu. De plus, avec EXIT (EXtraction Itérative de la Terminologie) l'expert est placé au centre du processus d'extraction de la terminologie et il peut intervenir tout au long du processus. Outre l'aspect itératif du système mis en place, de nombreux paramètres ont été ajoutés. Un des paramètres permet d'utiliser différents critères statistiques pour classer les termes selon leur pertinence par rapport à une tâche à réaliser. Notre approche a été validée à partir de quatre corpus de langues, de tailles et de domaines de spécialité différents. Enfin, une méthode fondée sur un processus d'apprentissage supervisé est proposée afin d'améliorer la qualité de la terminologie extraite
Information extraction from specialized texts requires the application of a complete process of text mining. One of the steps of this process is term detection. The terms are defined as groups of words representing a linguistic instance of some user-defined concept. For example, the term "data mining" evokes the concept of “computational technique”. Initially, the task of terminology acquisition consists in extracting groups of words instanciating simple syntactic patterns such as Noun-Noun, Adjective-Noun, etc. One specificity of our algorithm is its iterative mode used to build complex terms. For example, if at the first iteration the Noun-Noun term “data mining” is found, at the following step the term “data-mining application” can be obtained. Moreover, with EXIT (Iterative EXtraction of the Terminology) the expert stands at the center of the terminology extraction process and he can intervene throughout the process. In addition to the iterative aspect of the system, many parameters were added. One of these parameters makes possible the use of various statistical criteria to classify the terms according to their relevance for a task to achieve. Our approach was validated with four corpora of different languages and size, and different fields of specialty. Lastly, a method based on a supervised machine learning approach is proposed in order to improve the quality of the obtained terminology

APA, Harvard, Vancouver, ISO, and other styles

6

Loustau, Sébastien. "Performances statistiques de méthodes à noyaux." Phd thesis, Université de Provence - Aix-Marseille I, 2008. http://tel.archives-ouvertes.fr/tel-00343377.

Full text

Abstract:

Cette thèse se concentre sur le modèle de classification binaire. Etant donné $n$ couples de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) $(X_i,Y_i)$, $i=1,\ldots ,n$ de loi $P$, on cherche à prédire la classe $Y\in\{-1,+1\}$ d'une nouvelle entrée $X$ où $(X,Y)$ est de loi $P$. La règle de Bayes, notée $f^*$, minimise l'erreur de généralisation $R(f)=P(f(X)\not=Y)$. Un algorithme de classification doit s'approcher de la règle de Bayes. Cette thèse suit deux axes : établir des vitesses de convergence vers la règle de Bayes et proposer des procédures adaptatives.

Les méthodes de régularisation ont montrées leurs intérêts pour résoudre des problèmes de classification. L'algorithme des Machines à Vecteurs de Support (SVM) est aujourd'hui le représentant le plus populaire. Dans un premier temps, cette thèse étudie les performances statistiques de cet algorithme, et considère le problème d'adaptation à la marge et à la complexité. On étend ces résultats à une nouvelle procédure de minimisation de risque empirique pénalisée sur les espaces de Besov. Enfin la dernière partie se concentre sur une nouvelle procédure de sélection de modèles : la minimisation de l'enveloppe du risque (RHM). Introduite par L.Cavalier et Y.Golubev dans le cadre des problèmes inverses, on cherche à l'appliquer au contexte de la classification.

APA, Harvard, Vancouver, ISO, and other styles

7

Szafranski, Marie. "Pénalités hiérarchiques pour l'ntégration de connaissances dans les modèles statistiques." Phd thesis, Université de Technologie de Compiègne, 2008. http://tel.archives-ouvertes.fr/tel-00369025.

Full text

Abstract:

L'apprentissage statistique vise à prédire, mais aussi analyser ou interpréter un phénomène. Dans cette thèse, nous proposons de guider le processus d'apprentissage en intégrant une connaissance relative à la façon dont les caractéristiques d'un problème sont organisées. Cette connaissance est représentée par une structure arborescente à deux niveaux, ce qui permet de constituer des groupes distincts de caractéristiques. Nous faisons également l'hypothèse que peu de (groupes de) caractéristiques interviennent pour discriminer les observations. L'objectif est donc de faire émerger les groupes de caractéristiques pertinents, mais également les caractéristiques significatives associées à ces groupes. Pour cela, nous utilisons une formulation variationnelle de type pénalisation adaptative. Nous montrons que cette formulation conduit à minimiser un problème régularisé par une norme mixte. La mise en relation de ces deux approches offre deux points de vues pour étudier les propriétés de convexité et de parcimonie de cette méthode. Ces travaux ont été menés dans le cadre d'espaces de fonctions paramétriques et non paramétriques. L'intérêt de cette méthode est illustré sur des problèmes d'interfaces cerveaux-machines.

APA, Harvard, Vancouver, ISO, and other styles

8

Szafranski, Marie. "Pénalités hiérarchiques pour l'intégration de connaissances dans les modèles statistiques." Compiègne, 2008. http://www.theses.fr/2008COMP1770.

Full text

Abstract:

L'apprentissage statistique vise à prédire, mais aussi analyser ou interpréter un phénomène. Dans cette thèse, nous proposons de guider le processus d'apprentissage en intégrant une connaissance relative à la façon dont les caractéristiques d'un problème sont organisées. Cette connaissance est représentée par une structure arborescence à deux niveaux, ce qui permet de constituer des groupes distincts de caractéristiques. Nous faisons également l'hypothèse que peu de (groupes de) caractéristiques interviennent pour discriminer les observations. L'objectif est donc de faire émerger les groupes de caractéristiques pertinents, mais également les caractéristiques significatives associées à ces groupes. Pour cela, nous utilisons une formulation variationnelle de type pénalisation adaptative. Nous montrons que cette formulation conduit à minimiser un problème régularisé par une norme mixte. La mise en relation de ces deux approches offre deux points de vues pour étudier les propriétés de convexité et de parcimonie de cette méthode. Ces travaux ont été menés dans le cadre d'espaces de fonctions paramétriques et non paramétriques. L'intérêt de cette méthode est illustré sur des problèmes d'interfaces cerveaux-machines
Supervised learning aims at predicting, but also analyzing or interpreting an observed phenomenon. Hierarchical penalization is a generic framework for integrating prior information in the fitting of statistical models. This prior information represents the relations shared by the characteristics of a given studied problem. In this thesis, the characteristics are organized in a two-levels tree structure, which defines distinct groups. The assumption is that few (groups of) characteristics are involved to discriminate between observations. Thus, for a learning problem, the goal is to identify relevant groups of characteristics, and at the same time, the significant characteristics within these groups. An adaptive penalization formulation is used to extract the significant components of each level. We show that the solution to this problem is equivalent to minimize a problem regularized by a mixed norm. These two approaches have been used to study the convexity and sparseness properties of the method. The latter is derived in parametric and non parametric function spaces. Experiences on brain-computer interfaces problems support our approach

APA, Harvard, Vancouver, ISO, and other styles

9

Mathieu, Timothée. "M-estimation and Median of Means applied to statistical learning Robust classification via MOM minimization MONK – outlier-robust mean embedding estimation by median-of-means Excess risk bounds in robust empirical risk minimization." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPASM002.

Full text

Abstract:

Le principal objectif de cette thèse est d'étudier des méthodes d'apprentissage statistique robuste. Traditionnellement, en statistique nous utilisons des modèles ou des hypothèses simplificatrices qui nous permettent de représenter le monde réel tout en sachant l'analyser convenablement. Cependant, certaines déviations des hypothèses peuvent fortement perturber l'analyse statistique d'une base de données. Par statistiques robuste, nous entendons ici des méthodes pouvant gérer d'une part des données dites anormales (erreur de capteur, erreur humaine) mais aussi des données de nature très variables. Nous appliquons ce genre de technique à l'apprentissage statistique, donnant ainsi des assurances théoriques d'efficacité des méthodes proposées ainsi que des illustrations sur des données simulées et réelles
The main objective of this thesis is to study methods for robust statistical learning. Traditionally, in statistics we use models or simplifying assumptions that allow us to represent the real world. However, some deviations from the hypotheses can strongly disrupt the statistical analysis of a database. By robust statistics, we mean methods that can handle on the one hand so-called abnormal data (sensor error, human error) but also data of a highly variable nature. We apply robust techniques to statistical learning, giving theoretical efficiency results of the proposed methods as well as illustrations on simulated and real data

APA, Harvard, Vancouver, ISO, and other styles

10

Gosselin, Philippe-Henri. "Apprentissage interactif pour la recherche par le contenu dans les bases multimédias." Habilitation à diriger des recherches, Université de Cergy Pontoise, 2011. http://tel.archives-ouvertes.fr/tel-00660316.

Full text

Abstract:

Les bases actuelles de données multimédia nécessitent des outils de plus en plus avancés pour pouvoir être parcourues avec efficacité. Dans ce contexte, la recherche en interaction avec un utilisateur est une approche qui permet de résoudre des requêtes à la sémantique complexe avec rapidité, sans pour autant nécessiter un haut niveau d'expertise utilisateur. Parmi les différents éléments intervenant dans la conception d'un système de recherche interactive, deux parties essentielles interviennent: l'indexation et la similarité entre les documents multimédia, et la gestion du processus interactif. Dans le contexte de la recherche multimédia par le contenu, on s'appuie sur des descriptions visuelles extraites automatiquement des documents. Suite à cette étape initiale, il est nécessaire de produire des structures de données, appelées index, ainsi qu'une métrique capable de comparer ces structures. Pour ce faire, nous proposons de représenter un document sous la forme d'un graphe, où chaque sommet du graphe représente une partie du document (région, point d'intérêt, ...) et chaque arête du graphe représente une relation entre deux parties du document. Puis, nous introduisons des métriques associées, sous la forme de fonctions noyaux sur graphes, qui permettent d'utiliser ces représentations complexes avec les méthodes d'apprentissages Hilbertiennes, telle que les SVMs. La gestion du processus interactif entre le système et un utilisateur a fait d'important progrès grâce à l'approche dite par apprentissage actif. Les premières approches proposent des critères pertinents pour la sélection de document à faire annoter par l'utilisateur, dans le but de trouver les documents recherchés au plus vite. Dans ce contexte, nous proposons d'aller plus loin en nous intéressant à la fabrication "en ligne" d'index et métriques associées en fonction de la nature de la recherche. En d'autres termes, nous proposons de remplacer le schéma traditionnel, où un unique index général est utilisé, par un schéma d'indexation active, où chaque utilisateur dispose d'un index dédié à sa requête.

APA, Harvard, Vancouver, ISO, and other styles

11

Colin, Igor. "Adaptation des méthodes d’apprentissage aux U-statistiques." Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0070.

Full text

Abstract:

L’explosion récente des volumes de données disponibles a fait de la complexité algorithmique un élément central des méthodes d’apprentissage automatique. Les algorithmes d’optimisation stochastique ainsi que les méthodes distribuées et décentralisées ont été largement développés durant les dix dernières années. Ces méthodes ont permis de faciliter le passage à l’échelle pour optimiser des risques empiriques dont la formulation est séparable en les observations associées. Pourtant, dans de nombreux problèmes d’apprentissage statistique, l’estimation précise du risque s’effectue à l’aide de U-statistiques, des fonctions des données prenant la forme de moyennes sur des d-uplets. Nous nous intéressons tout d’abord au problème de l’échantillonnage pour la minimisation du risque empirique. Nous montrons que le risque peut être remplacé par un estimateur de Monte-Carlo, intitulé U-statistique incomplète, basé sur seulement O(n) termes et permettant de conserver un taux d’apprentissage du même ordre. Nous établissons des bornes sur l’erreur d’approximation du U-processus et les simulations numériques mettent en évidence l’avantage d’une telle technique d’échantillonnage. Nous portons par la suite notre attention sur l’estimation décentralisée, où les observations sont désormais distribuées sur un réseau connexe. Nous élaborons des algorithmes dits gossip, dans des cadres synchrones et asynchrones, qui diffusent les observations tout en maintenant des estimateurs locaux de la U-statistique à estimer. Nous démontrons la convergence de ces algorithmes avec des dépendances explicites en les données et la topologie du réseau. Enfin, nous traitons de l’optimisation décentralisée de fonctions dépendant de paires d’observations. De même que pour l’estimation, nos méthodes sont basées sur la concomitance de la propagation des observations et l’optimisation local du risque. Notre analyse théorique souligne que ces méthodes conservent une vitesse de convergence du même ordre que dans le cas centralisé. Les expériences numériques confirment l’intérêt pratique de notre approche
With the increasing availability of large amounts of data, computational complexity has become a keystone of many machine learning algorithms. Stochastic optimization algorithms and distributed/decentralized methods have been widely studied over the last decade and provide increased scalability for optimizing an empirical risk that is separable in the data sample. Yet, in a wide range of statistical learning problems, the risk is accurately estimated by U-statistics, i.e., functionals of the training data with low variance that take the form of averages over d-tuples. We first tackle the problem of sampling for the empirical risk minimization problem. We show that empirical risks can be replaced by drastically computationally simpler Monte-Carlo estimates based on O(n) terms only, usually referred to as incomplete U-statistics, without damaging the learning rate. We establish uniform deviation results and numerical examples show that such approach surpasses more naive subsampling techniques. We then focus on the decentralized estimation topic, where the data sample is distributed over a connected network. We introduce new synchronous and asynchronous randomized gossip algorithms which simultaneously propagate data across the network and maintain local estimates of the U-statistic of interest. We establish convergence rate bounds with explicit data and network dependent terms. Finally, we deal with the decentralized optimization of functions that depend on pairs of observations. Similarly to the estimation case, we introduce a method based on concurrent local updates and data propagation. Our theoretical analysis reveals that the proposed algorithms preserve the convergence rate of centralized dual averaging up to an additive bias term. Our simulations illustrate the practical interest of our approach

APA, Harvard, Vancouver, ISO, and other styles

12

Mahler, Nicolas. "Machine learning methods for discrete multi-scale fows : application to finance." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2012. http://tel.archives-ouvertes.fr/tel-00749717.

Full text

Abstract:

This research work studies the problem of identifying and predicting the trends of a single financial target variable in a multivariate setting. The machine learning point of view on this problem is presented in chapter I. The efficient market hypothesis, which stands in contradiction with the objective of trend prediction, is first recalled. The different schools of thought in market analysis, which disagree to some extent with the efficient market hypothesis, are reviewed as well. The tenets of the fundamental analysis, the technical analysis and the quantitative analysis are made explicit. We particularly focus on the use of machine learning techniques for computing predictions on time-series. The challenges of dealing with dependent and/or non-stationary features while avoiding the usual traps of overfitting and data snooping are emphasized. Extensions of the classical statistical learning framework, particularly transfer learning, are presented. The main contribution of this chapter is the introduction of a research methodology for developing trend predictive numerical models. It is based on an experimentation protocol, which is made of four interdependent modules. The first module, entitled Data Observation and Modeling Choices, is a preliminary module devoted to the statement of very general modeling choices, hypotheses and objectives. The second module, Database Construction, turns the target and explanatory variables into features and labels in order to train trend predictive numerical models. The purpose of the third module, entitled Model Construction, is the construction of trend predictive numerical models. The fourth and last module, entitled Backtesting and Numerical Results, evaluates the accuracy of the trend predictive numerical models over a "significant" test set via two generic backtesting plans. The first plan computes recognition rates of upward and downward trends. The second plan designs trading rules using predictions made over the test set. Each trading rule yields a profit and loss account (P&L), which is the cumulated earned money over time. These backtesting plans are additionally completed by interpretation functionalities, which help to analyze the decision mechanism of the numerical models. These functionalities can be measures of feature prediction ability and measures of model and prediction reliability. They decisively contribute to formulating better data hypotheses and enhancing the time-series representation, database and model construction procedures. This is made explicit in chapter IV. Numerical models, aiming at predicting the trends of the target variables introduced in chapter II, are indeed computed for the model construction methods described in chapter III and thoroughly backtested. The switch from one model construction approach to another is particularly motivated. The dramatic influence of the choice of parameters - at each step of the experimentation protocol - on the formulation of conclusion statements is also highlighted. The RNN procedure, which does not require any parameter tuning, has thus been used to reliably study the efficient market hypothesis. New research directions for designing trend predictive models are finally discussed.

APA, Harvard, Vancouver, ISO, and other styles

13

Chamma, Ahmad. "Statistical interpretation of high-dimensional complex prediction models for biomedical data." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG028.

Full text

Abstract:

Les grands jeux de données de santé produits, qui représentent les caractéristiques de la population selon de multiples modalités, permettent de prédire et de comprendre les résultats individuels. À mesure que la collecte de données s'étend aux domaines scientifiques, tels que l'imagerie cérébrale, les variables sont liées par des dépendances complexes, éventuellement non linéaires, ainsi que par des degrés élevés de corrélation. Par conséquent, les modèles populaires tels que les techniques linéaires et à base d'arbres de décision ne sont plus efficaces dans ces contextes à haute dimension. De puissants algorithmes d'apprentissage automatique non linéaires, tels que les forêts aléatoires et les réseaux de neurones profonds, sont devenus des outils importants pour caractériser les différences interindividuelles et prédire les résultats biomédicaux, tels que l'âge du cerveau. Il est essentiel d'expliquer le processus de décision des algorithmes d'apprentissage automatique, à la fois pour améliorer les performances d'un modèle et pour faciliter la compréhension. Cet objectif peut être atteint en évaluant l'importance des variables. Traditionnellement, les scientifiques ont privilégié des modèles simples et transparents tels que la régression linéaire, où l'importance des variables peut être facilement mesurée par des coefficients. Cependant, avec l'utilisation de méthodes plus avancées, l'accès direct à la structure interne est devenu limité et/ou ininterprétable d'un point de vue humain. C'est pourquoi ces méthodes sont souvent appelées méthodes "boîte noire". Les approches standard basées sur l'importance par permutation (PI) évaluent l'importance d'une variable en mesurant la diminution du score de perte lorsque la variable d'intérêt est remplacée par sa version permutée. Bien que ces approches augmentent la transparence des modèles de boîte noire et offrent une validité statistique, elles peuvent produire des évaluations d'importance peu fiables lorsque les variables sont corrélées.L'objectif de ce travail est de surmonter les limites de l'importance de permutation standard en intégrant des schémas conditionnels. Par conséquent, nous développons deux cadres génériques, l'importance par permutation conditionnelle (CPI) et l'importance par permutation conditionnelle basée sur des blocs (BCPI), qui prennent efficacement en compte les corrélations entre les variables et surmontent les limites de l'importance par permutation. Nous présentons deux nouveaux algorithmes conçus pour traiter les situations où les variables sont corrélées, qu'elles soient groupées ou non. Nos résultats théoriques et empiriques montrent que CPI fournit des méthodes efficaces sur le plan du calcul et solides sur le plan théorique pour l'évaluation des variables individuelles. Le cadre de CPI garantit le contrôle des erreurs de type-I et produit une sélection concise des variables significatives dans les grands ensembles de données.BCPI présente une stratégie de gestion des variables individuelles et groupées. Elle intègre le regroupement statistique et utilise la connaissance préalable du regroupement pour adapter l'architecture du réseau DNN à l'aide de techniques d'empilement. Ce cadre est robuste et maintient le contrôle de l'erreur de type-I même dans des scénarios avec des groupes de variables fortement corrélées. Il donne de bons résultats sur divers points de référence. Les évaluations empiriques de nos méthodes sur plusieurs jeux de données biomédicales ont montré une bonne validité apparente. Nous avons également appliqué ces méthodes à des données cérébrales multimodales ainsi qu'à des données sociodémographiques, ouvrant la voie à de nouvelles découvertes et avancées dans les domaines ciblés. Les cadres CPI et BCPI sont proposés en remplacement des méthodes conventionnelles basées sur la permutation. Ils améliorent l'interprétabilité de l'estimation de l'importance des variables pour les modèles d'apprentissage à haute performance
Modern large health datasets represent population characteristics in multiple modalities, including brain imaging and socio-demographic data. These large cohorts make it possible to predict and understand individual outcomes, leading to promising results in the epidemiological context of forecasting/predicting the occurrence of diseases, health outcomes, or other events of interest. As data collection expands into different scientific domains, such as brain imaging and genomic analysis, variables are related by complex, possibly non-linear dependencies, along with high degrees of correlation. As a result, popular models such as linear and tree-based techniques are no longer effective in such high-dimensional settings. Powerful non-linear machine learning algorithms, such as Random Forests (RFs) and Deep Neural Networks (DNNs), have become important tools for characterizing inter-individual differences and predicting biomedical outcomes, such as brain age. Explaining the decision process of machine learning algorithms is crucial both to improve the performance of a model and to aid human understanding. This can be achieved by assessing the importance of variables. Traditionally, scientists have favored simple, transparent models such as linear regression, where the importance of variables can be easily measured by coefficients. However, with the use of more advanced methods, direct access to the internal structure has become limited and/or uninterpretable from a human perspective. As a result, these methods are often referred to as "black box" methods. Standard approaches based on Permutation Importance (PI) assess the importance of a variable by measuring the decrease in the loss score when the variable of interest is replaced by its permuted version. While these approaches increase the transparency of black box models and provide statistical validity, they can produce unreliable importance assessments when variables are correlated.The goal of this work is to overcome the limitations of standard permutation importance by integrating conditional schemes. Therefore, we investigate two model-agnostic frameworks, Conditional Permutation Importance (CPI) and Block-Based Conditional Permutation Importance (BCPI), which effectively account for correlations between covariates and overcome the limitations of PI. We present two new algorithms designed to handle situations with correlated variables, whether grouped or ungrouped. Our theoretical and empirical results show that CPI provides computationally efficient and theoretically sound methods for evaluating individual variables. The CPI framework guarantees type-I error control and produces a concise selection of significant variables in large datasets.BCPI presents a strategy for managing both individual and grouped variables. It integrates statistical clustering and uses prior knowledge of grouping to adapt the DNN architecture using stacking techniques. This framework is robust and maintains type-I error control even in scenarios with highly correlated groups of variables. It performs well on various benchmarks. Empirical evaluations of our methods on several biomedical datasets showed good face validity. Our methods have also been applied to multimodal brain data in addition to socio-demographics, paving the way for new discoveries and advances in the targeted areas. The CPI and BCPI frameworks are proposed as replacements for conventional permutation-based methods. They provide improved interpretability and reliability in estimating variable importance for high-performance machine learning models

APA, Harvard, Vancouver, ISO, and other styles

14

Mallet, Grégory. "Méthodes statistiques pour la prédiction de température dans les composants hyperfréquences." Phd thesis, INSA de Rouen, 2010. http://tel.archives-ouvertes.fr/tel-00586089.

Full text

Abstract:

Cette thèse s'intéresse à l'application des méthodes d'apprentissage statistique pour la prédiction de température d'un composant électronique présent dans un radar. On étudie un cas simplifié des systèmes réels, le système étudié se limitant à un seul composant monté sur un système de refroidissement réduit. Le premier chapitre est consacré à la modélisation thermique. Après avoir présenté les principaux modes de transmission de l'agitation thermique, les modèles analytiques et numériques qui en découlent sont étudiés. En utilisant cette connaissance,le deuxième chapitre propose de choisir dans les méthodes de mesures les plus adaptées aux spécifications et aux contraintes de l'application choisie. Une fois que les bases de données ont été établies, nous pouvons utiliser dans le troisième chapitre les techniques de l'apprentissage statistique pour construire un modèle dynamique. Après un bref rappel sur les tenants et les aboutissants de la modélisation statistique, quatre familles de méthodes seront présentées : les modèles linéaires, les réseaux de neurones, les réseaux bayésiens dynamiques et les machines à vecteur support (SVM). Enfin, le quatrième chapitre est l'occasion de présenter une méthode de modélisation originale.En effet, après avoir détaillé la mise en oeuvre des méthodes d'identification de représentation d'état, nous verrons comment prendre en compte des a priori théoriques au cours de l'apprentissage de ce type de modèle, à savoir une contrainte de stabilité.

APA, Harvard, Vancouver, ISO, and other styles

15

Louis, Maxime. "Méthodes numériques et statistiques pour l'analyse de trajectoire dans un cadre de géométrie Riemannienne." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS570.

Full text

Abstract:

Cette thèse porte sur l'élaboration d'outils de géométrie riemannienne et de leur application en vue de la modélisation longitudinale de sujets atteints de maladies neuro-dégénératives. Dans une première partie, nous prouvons la convergence d'un schéma numérique pour le transport parallèle. Ce schéma reste efficace tant que l'inverse de la métrique peut être calculé rapidement. Dans une deuxième partie, nous proposons l'apprentissage une variété et une métrique riemannienne. Après quelques résultats théoriques encourageants, nous proposons d'optimiser la modélisation de progression de sujets comme des géodésiques sur cette variété
This PhD proposes new Riemannian geometry tools for the analysis of longitudinal observations of neuro-degenerative subjects. First, we propose a numerical scheme to compute the parallel transport along geodesics. This scheme is efficient as long as the co-metric can be computed efficiently. Then, we tackle the issue of Riemannian manifold learning. We provide some minimal theoretical sanity checks to illustrate that the procedure of Riemannian metric estimation can be relevant. Then, we propose to learn a Riemannian manifold so as to model subject's progressions as geodesics on this manifold. This allows fast inference, extrapolation and classification of the subjects

APA, Harvard, Vancouver, ISO, and other styles

16

Löser, Kevin. "Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS203/document.

Full text

Abstract:

Un problème central contribuant à la grande difficulté du traitement du langage naturel par des méthodes statistiques est celui de la parcimonie des données, à savoir le fait que dans un corpus d'apprentissage donné, la plupart des évènements linguistiques n'ont qu'un nombre d'occurrences assez faible, et que par ailleurs un nombre infini d'évènements permis par une langue n'apparaitront nulle part dans le corpus. Les modèles neuronaux ont déjà contribué à partiellement résoudre le problème de la parcimonie en inférant des représentations continues de mots. Ces représentations continues permettent de structurer le lexique en induisant une notion de similarité sémantique ou syntaxique entre les mots. Toutefois, les modèles neuronaux actuellement les plus répandus n'offrent qu'une solution partielle au problème de la parcimonie, notamment par le fait que ceux-ci nécessitent une représentation distribuée pour chaque mot du vocabulaire, mais sont incapables d'attribuer une représentation à des mots hors vocabulaire. Ce problème est particulièrement marqué dans des langues morphologiquement riches, ou des processus de formation de mots complexes mènent à une prolifération des formes de mots possibles, et à une faible coïncidence entre le lexique observé lors de l’entrainement d’un modèle, et le lexique observé lors de son déploiement. Aujourd'hui, l'anglais n'est plus la langue majoritairement utilisée sur le Web, et concevoir des systèmes de traduction automatique pouvant appréhender des langues dont la morphologie est très éloignée des langues ouest-européennes est un enjeu important. L’objectif de cette thèse est de développer de nouveaux modèles capables d’inférer de manière non-supervisée les processus de formation de mots sous-jacents au lexique observé, afin de pouvoir de pouvoir produire des analyses morphologiques de nouvelles formes de mots non observées lors de l’entraînement
A crucial issue in statistical natural language processing is the issue of sparsity, namely the fact that in a given learning corpus, most linguistic events have low occurrence frequencies, and that an infinite number of structures allowed by a language will not be observed in the corpus. Neural models have already contributed to solving this issue by inferring continuous word representations. These continuous representations allow to structure the lexicon by inducing semantic or syntactic similarity between words. However, current neural models only partially solve the sparsity issue, due to the fact that they require a vectorial representation for every word in the lexicon, but are unable to infer sensible representations for unseen words. This issue is especially present in morphologically rich languages, where word formation processes yield a proliferation of possible word forms, and little overlap between the lexicon observed during model training, and the lexicon encountered during its use. Today, several languages are used on the Web besides English, and engineering translation systems that can handle morphologies that are very different from western European languages has become a major stake. The goal of this thesis is to develop new statistical models that are able to infer in an unsupervised fashion the word formation processes underlying an observed lexicon, in order to produce morphological analyses of new unseen word forms

APA, Harvard, Vancouver, ISO, and other styles

17

Colin, Igor. "Adaptation des méthodes d’apprentissage aux U-statistiques." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0070/document.

Full text

Abstract:

L’explosion récente des volumes de données disponibles a fait de la complexité algorithmique un élément central des méthodes d’apprentissage automatique. Les algorithmes d’optimisation stochastique ainsi que les méthodes distribuées et décentralisées ont été largement développés durant les dix dernières années. Ces méthodes ont permis de faciliter le passage à l’échelle pour optimiser des risques empiriques dont la formulation est séparable en les observations associées. Pourtant, dans de nombreux problèmes d’apprentissage statistique, l’estimation précise du risque s’effectue à l’aide de U-statistiques, des fonctions des données prenant la forme de moyennes sur des d-uplets. Nous nous intéressons tout d’abord au problème de l’échantillonnage pour la minimisation du risque empirique. Nous montrons que le risque peut être remplacé par un estimateur de Monte-Carlo, intitulé U-statistique incomplète, basé sur seulement O(n) termes et permettant de conserver un taux d’apprentissage du même ordre. Nous établissons des bornes sur l’erreur d’approximation du U-processus et les simulations numériques mettent en évidence l’avantage d’une telle technique d’échantillonnage. Nous portons par la suite notre attention sur l’estimation décentralisée, où les observations sont désormais distribuées sur un réseau connexe. Nous élaborons des algorithmes dits gossip, dans des cadres synchrones et asynchrones, qui diffusent les observations tout en maintenant des estimateurs locaux de la U-statistique à estimer. Nous démontrons la convergence de ces algorithmes avec des dépendances explicites en les données et la topologie du réseau. Enfin, nous traitons de l’optimisation décentralisée de fonctions dépendant de paires d’observations. De même que pour l’estimation, nos méthodes sont basées sur la concomitance de la propagation des observations et l’optimisation local du risque. Notre analyse théorique souligne que ces méthodes conservent une vitesse de convergence du même ordre que dans le cas centralisé. Les expériences numériques confirment l’intérêt pratique de notre approche
With the increasing availability of large amounts of data, computational complexity has become a keystone of many machine learning algorithms. Stochastic optimization algorithms and distributed/decentralized methods have been widely studied over the last decade and provide increased scalability for optimizing an empirical risk that is separable in the data sample. Yet, in a wide range of statistical learning problems, the risk is accurately estimated by U-statistics, i.e., functionals of the training data with low variance that take the form of averages over d-tuples. We first tackle the problem of sampling for the empirical risk minimization problem. We show that empirical risks can be replaced by drastically computationally simpler Monte-Carlo estimates based on O(n) terms only, usually referred to as incomplete U-statistics, without damaging the learning rate. We establish uniform deviation results and numerical examples show that such approach surpasses more naive subsampling techniques. We then focus on the decentralized estimation topic, where the data sample is distributed over a connected network. We introduce new synchronous and asynchronous randomized gossip algorithms which simultaneously propagate data across the network and maintain local estimates of the U-statistic of interest. We establish convergence rate bounds with explicit data and network dependent terms. Finally, we deal with the decentralized optimization of functions that depend on pairs of observations. Similarly to the estimation case, we introduce a method based on concurrent local updates and data propagation. Our theoretical analysis reveals that the proposed algorithms preserve the convergence rate of centralized dual averaging up to an additive bias term. Our simulations illustrate the practical interest of our approach

APA, Harvard, Vancouver, ISO, and other styles

18

Zwald, Laurent. "Performances statistiques d'algorithmes d'apprentissage : "Kernel projection machine" et analyse en composantes principales à noyau." Paris 11, 2005. https://tel.archives-ouvertes.fr/tel-00012011.

Full text

Abstract:

La thèse se place dans le cadre de l'apprentissage statistique. Elle apporte des contributions à la communauté du machine learning en utilisant des techniques de statistiques modernes basées sur des avancées dans l'étude des processus empiriques. Dans une première partie, les propriétés statistiques de l'analyse en composantes principales a noyau (KPCA) sont explorées. Le comportement de l'erreur de reconstruction est étudie avec un point de vue non-asymptotique et des inégalités de concentration des valeurs propres de la matrice de Gram sont données. Tous ces résultats impliquent des vitesses de convergence rapides. Des propriétés non-asymptotiques concernant les espaces propres de la KPCA eux-mêmes sont également proposées. Dans une deuxième partie, un nouvel algorithme de classification a été conçu : la Kernel Projection Machine (KPM). Tout en s'inspirant des Support Vector Machines (SVM), il met en lumière que la sélection d'un espace vectoriel par une méthode de réduction de la dimension telle que la KPCA régularise convenablement. Le choix de l'espace vectoriel utilise par la KPM est guide par des études statistiques de sélection de modèle par minimisation pénalisée de la perte empirique. Ce principe de régularisation est étroitement relie a la projection fini-dimensionnelle étudiée dans les travaux statistiques de Birge et Massart. Les performances de la KPM et de la SVM sont ensuite comparées sur différents jeux de données. Chaque thème aborde dans cette thèse soulevé de nouvelles questions d'ordre théorique et pratique
This thesis takes place within the framework of statistical learning. It brings contributions to the machine learning community using modern statistical techniques based on progress in the study of empirical processes. The first part investigates the statistical properties of Kernel Principal Component Analysis (KPCA). The behavior of the reconstruction error is studied with a non-asymptotique point of view and concentration inequalities of the eigenvalues of the kernel matrix are provided. All these results correspond to fast convergence rates. Non-asymptotic results concerning the eigenspaces of KPCA themselves are also provided. A new algorithm of classification has been designed in the second part: the Kernel Projection Machine (KPM). It is inspired by the Support Vector Machines (SVM). Besides, it highlights that the selection of a vector space by a dimensionality reduction method such as KPCA regularizes suitably. The choice of the vector space involved in the KPM is guided by statistical studies of model selection using the penalized minimization of the empirical loss. This regularization procedure is intimately connected with the finite dimensional projections studied in the statistical work of Birge and Massart. The performances of KPM and SVM are then compared on some data sets. Each topic tackled in this thesis raises new questions

APA, Harvard, Vancouver, ISO, and other styles

19

Korba, Anna. "Learning from ranking data : theory and methods." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLT009.

Full text

Abstract:

Les données de classement, c.à. d. des listes ordonnées d'objets, apparaissent naturellement dans une grande variété de situations, notamment lorsque les données proviennent d’activités humaines (bulletins de vote d'élections, enquêtes d'opinion, résultats de compétitions) ou dans des applications modernes du traitement de données (moteurs de recherche, systèmes de recommendation). La conception d'algorithmes d'apprentissage automatique, adaptés à ces données, est donc cruciale. Cependant, en raison de l’absence de structure vectorielle de l’espace des classements et de sa cardinalité explosive lorsque le nombre d'objets augmente, la plupart des méthodes classiques issues des statistiques et de l’analyse multivariée ne peuvent être appliquées directement. Par conséquent, la grande majorité de la littérature repose sur des modèles paramétriques. Dans cette thèse, nous proposons une théorie et des méthodes non paramétriques pour traiter les données de classement. Notre analyse repose fortement sur deux astuces principales. La première est l’utilisation poussée de la distance du tau de Kendall, qui décompose les classements en comparaisons par paires. Cela nous permet d'analyser les distributions sur les classements à travers leurs marginales par paires et à travers une hypothèse spécifique appelée transitivité, qui empêche les cycles dans les préférences de se produire. La seconde est l'utilisation des fonctions de représentation adaptées aux données de classements, envoyant ces dernières dans un espace vectoriel. Trois problèmes différents, non supervisés et supervisés, ont été abordés dans ce contexte: l'agrégation de classement, la réduction de dimensionnalité et la prévision de classements avec variables explicatives.La première partie de cette thèse se concentre sur le problème de l'agrégation de classements, dont l'objectif est de résumer un ensemble de données de classement par un classement consensus. Parmi les méthodes existantes pour ce problème, la méthode d'agrégation de Kemeny se démarque. Ses solutions vérifient de nombreuses propriétés souhaitables, mais peuvent être NP-difficiles à calculer. Dans cette thèse, nous avons étudié la complexité de ce problème de deux manières. Premièrement, nous avons proposé une méthode pour borner la distance du tau de Kendall entre tout candidat pour le consensus (généralement le résultat d'une procédure efficace) et un consensus de Kemeny, sur tout ensemble de données. Nous avons ensuite inscrit le problème d'agrégation de classements dans un cadre statistique rigoureux en le reformulant en termes de distributions sur les classements, et en évaluant la capacité de généralisation de consensus de Kemeny empiriques.La deuxième partie de cette théorie est consacrée à des problèmes d'apprentissage automatique, qui se révèlent être étroitement liés à l'agrégation de classement. Le premier est la réduction de la dimensionnalité pour les données de classement, pour lequel nous proposons une approche de transport optimal, pour approximer une distribution sur les classements par une distribution montrant un certain type de parcimonie. Le second est le problème de la prévision des classements avec variables explicatives, pour lesquelles nous avons étudié plusieurs méthodes. Notre première proposition est d’adapter des méthodes constantes par morceaux à ce problème, qui partitionnent l'espace des variables explicatives en régions et assignent à chaque région un label (un consensus). Notre deuxième proposition est une approche de prédiction structurée, reposant sur des fonctions de représentations, aux avantages théoriques et computationnels, pour les données de classements
Ranking data, i.e., ordered list of items, naturally appears in a wide variety of situations, especially when the data comes from human activities (ballots in political elections, survey answers, competition results) or in modern applications of data processing (search engines, recommendation systems). The design of machine-learning algorithms, tailored for these data, is thus crucial. However, due to the absence of any vectorial structure of the space of rankings, and its explosive cardinality when the number of items increases, most of the classical methods from statistics and multivariate analysis cannot be applied in a direct manner. Hence, a vast majority of the literature rely on parametric models. In this thesis, we propose a non-parametric theory and methods for ranking data. Our analysis heavily relies on two main tricks. The first one is the extensive use of the Kendall’s tau distance, which decomposes rankings into pairwise comparisons. This enables us to analyze distributions over rankings through their pairwise marginals and through a specific assumption called transitivity, which prevents cycles in the preferences from happening. The second one is the extensive use of embeddings tailored to ranking data, mapping rankings to a vector space. Three different problems, unsupervised and supervised, have been addressed in this context: ranking aggregation, dimensionality reduction and predicting rankings with features.The first part of this thesis focuses on the ranking aggregation problem, where the goal is to summarize a dataset of rankings by a consensus ranking. Among the many ways to state this problem stands out the Kemeny aggregation method, whose solutions have been shown to satisfy many desirable properties, but can be NP-hard to compute. In this work, we have investigated the hardness of this problem in two ways. Firstly, we proposed a method to upper bound the Kendall’s tau distance between any consensus candidate (typically the output of a tractable procedure) and a Kemeny consensus, on any dataset. Then, we have casted the ranking aggregation problem in a rigorous statistical framework, reformulating it in terms of ranking distributions, and assessed the generalization ability of empirical Kemeny consensus.The second part of this thesis is dedicated to machine learning problems which are shown to be closely related to ranking aggregation. The first one is dimensionality reduction for ranking data, for which we propose a mass-transportation approach to approximate any distribution on rankings by a distribution exhibiting a specific type of sparsity. The second one is the problem of predicting rankings with features, for which we investigated several methods. Our first proposal is to adapt piecewise constant methods to this problem, partitioning the feature space into regions and locally assigning as final label (a consensus ranking) to each region. Our second proposal is a structured prediction approach, relying on embedding maps for ranking data enjoying theoretical and computational advantages

APA, Harvard, Vancouver, ISO, and other styles

20

Cornec, Matthieu. "Inégalités probabilistes pour l'estimateur de validation croisée dans le cadre de l'apprentissage statistique et Modèles statistiques appliqués à l'économie et à la finance." Phd thesis, Université de Nanterre - Paris X, 2009. http://tel.archives-ouvertes.fr/tel-00530876.

Full text

Abstract:

L'objectif initial de la première partie de cette thèse est d'éclairer par la théorie une pratique communément répandue au sein des practiciens pour l'audit (ou risk assessment en anglais) de méthodes prédictives (ou prédicteurs) : la validation croisée (ou cross-validation en anglais). La seconde partie s'inscrit principalement dans la théorie des processus et son apport concerne essentiellement les applications à des données économiques et financières. Le chapitre 1 s'intéresse au cas classique de prédicteurs de Vapnik-Chernovenkis dimension (VC-dimension dans la suite) finie obtenus par minimisation du risque empirique. Le chapitre 2 s'intéresse donc à une autre classe de prédicteurs plus large que celle du chapitre 1 : les estimateurs stables. Dans ce cadre, nous montrons que les méthodes de validation croisée sont encore consistantes. Dans le chapitre 3, nous exhibons un cas particulier important le subagging où la méthode de validation croisée permet de construire des intervalles de confiance plus étroits que la méthodologie traditionnelle issue de la minimisation du risque empirique sous l'hypothèse de VC-dimension finie. Le chapitre 4 propose un proxy mensuel du taux de croissance du Produit Intérieur Brut français qui est disponible officiellement uniquement à fréquence trimestrielle. Le chapitre 5 décrit la méthodologie pour construire un indicateur synthétique mensuel dans les enquêtes de conjoncture dans le secteur des services en France. L'indicateur synthétique construit est publié mensuellement par l'Insee dans les Informations Rapides. Le chapitre 6 décrit d'un modèle semi-paramétrique de prix spot d'électricité sur les marchés de gros ayant des applications dans la gestion du risque de la production d'électricité.

APA, Harvard, Vancouver, ISO, and other styles

21

Allain, Guillaume. "Prévision et analyse du trafic routier par des méthodes statistiques." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/351/.

Full text

Abstract:

La société Mediamobile édite et diffuse de l'information sur le trafic aux usagers. L'objectif de ce travail est l'enrichissement de cette information par la prévision et la complétion des conditions de route. Notre approche s'inspire parfois de la modélisation physique du trafic routier mais fait surtout appel à des méthodes statistiques afin de proposer des solutions automatisables, modulaires et adaptées aux contraintes industrielles. Dans un premier temps, nous décrivons une méthode de prévision de la vitesse de quelques minutes à plusieurs heures. Nous supposons qu'il existe un nombre fini de comportements types du trafic sur le réseau, dus aux déplacements périodiques des usagers. Nous faisons alors l'hypothèse que les courbes de vitesses observées en chaque point du réseau sont issues d'un modèle de mélange. Nous cherchons ensuite à améliorer cette méthode générale de prévision. La prévision à moyen terme fait appel à des variables bâties sur le calendrier. Nous retenons le modèle de mélange des courbes de vitesse et nous proposons également des modèles de régression fonctionnelle pour les courbes de vitesses. Ensuite nous proposons une modélisation par régression locale afin de capturer la dynamique physique du trafic à très court terme. Nous estimons la fonction de noyau à partir des observations du phénomène en intégrant des connaissances a priori sur la dynamique du trafic. La dernière partie est dédiée à l'analyse des vitesses issues de véhicules traceurs. Ces vitesses sont irrégulièrement observées en temps et en espace sur un axe routier. Nous proposons un modèle de régression locale à l'aide de polynômes locaux pour compléter et lisser ces données
The industrial partner of this work is Mediamobile/V-trafic, a company which processes and broadcasts live road-traffic information. The goal of our work is to enhance traffic information with forecasting and spatial extending. Our approach is sometimes inspired by physical modelling of traffic dynamic, but it mainly uses statistical methods in order to propose self-organising and modular models suitable for industrial constraints. In the first part of this work, we describe a method to forecast trafic speed within a time frame of a few minutes up to several hours. Our method is based on the assumption that traffic on the a road network can be summarized by a few typical profiles. Those profiles are linked to the users' periodical behaviors. We therefore make the assumption that observed speed curves on each point of the network are stemming from a probabilistic mixture model. The following parts of our work will present how we can refine the general method. Medium term forecasting uses variables built from the calendar. The mixture model still stands. Additionnaly we use a fonctionnal regression model to forecast speed curves. We then introduces a local regression model in order to stimulate short-term trafic dynamics. The kernel function is built from real speed observations and we integrate some knowledge about traffic dynamics. The last part of our work focuses on the analysis of speed data from in traffic vehicles. These observations are gathered sporadically in time and on the road segment. The resulting data is completed and smoothed by local polynomial regression

APA, Harvard, Vancouver, ISO, and other styles

22

Wang, Xuanzhou. "Détermination de classes de modalités de dégradation significatives pour le pronostic et la maintenance." Thesis, Troyes, 2013. http://www.theses.fr/2013TROY0022/document.

Full text

Abstract:

Les travaux présentés dans ce manuscrit traitent de la détermination de classes de systèmes selon leur mode de vieillissement dans l'objectif de prévenir une défaillance et de prendre une décision de maintenance. L’évolution du niveau de dégradation observée sur un système peut être modélisée par un processus stochastique paramétré. Un modèle usuellement utilisé est le processus Gamma. On s’intéresse au cas où tous les systèmes ne vieillissent pas identiquement et le mode de vieillissement est dépendant du contexte d’utilisation des systèmes ou des propriétés des systèmes, appelé ensemble de covariables. Il s’agit alors de regrouper les systèmes vieillissant de façon analogue en tenant compte de la covariable et d’identifier les paramètres du modèle associé à chacune des classes.Dans un premier temps la problématique est explicitée avec notamment la définition des contraintes: incréments d’instants d’observation irréguliers, nombre quelconque d’observations par chemin décrivant une évolution, prise en compte de la covariable. Ensuite des méthodes sont proposées. Elles combinent un critère de vraisemblance dans l’espace des incréments de mesure du niveau de dégradation, et un critère de cohérence dans l’espace de la covariable. Une technique de normalisation est introduite afin de contrôler l’importance de chacun de ces critères. Des études expérimentales sont effectuées pour illustrer l'efficacité des méthodes proposées
The work presented in this thesis deals with the problem of determination of classes of systems according to their aging mode in the aim of preventing a failure and making a decision of maintenance. The evolution of the observed deterioration levels of a system can be modeled by a parameterized stochastic process. A commonly used model is the Gamma process. We are interested in the case where all the systems do not age identically and the aging mode depends on the condition of usage of systems or system properties, called the set of covariates. Then, we aims to group the systems that age similarly by taking into account the covariate and to identify the parameters of the model associated with each class.At first, the problem is presented especially with the definition of constraints: time increments of irregular observations, any number of observations per path which describes an evolution, consideration of the covariate. Then the methods are proposed. They combine a likelihood criterion in the space of the increments of deterioration levels, and a coherence criterion in the space of the covariate. A normalization technique is introduced to control the importance of each of these two criteria. Experimental studies are performed to illustrate the effectiveness of the proposed methods

APA, Harvard, Vancouver, ISO, and other styles

23

Chiapino, Maël. "Apprentissage de structures dans les valeurs extrêmes en grande dimension." Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0035.

Full text

Abstract:

Nous présentons et étudions des méthodes d’apprentissage non-supervisé de phénomènes extrêmes multivariés en grande dimension. Dans le cas où chacune des distributions marginales d’un vecteur aléatoire est à queue lourde, l’étude de son comportement dans les régions extrêmes (i.e. loin de l’origine) ne peut plus se faire via les méthodes usuelles qui supposent une moyenne et une variance finies. La théorie des valeurs extrêmes offre alors un cadre adapté à cette étude, en donnant notamment une base théorique à la réduction de dimension à travers la mesure angulaire. La thèse s’articule autour de deux grandes étapes : - Réduire la dimension du problème en trouvant un résumé de la structure de dépendance dans les régions extrêmes. Cette étape vise en particulier à trouver les sous-groupes de composantes étant susceptible de dépasser un seuil élevé de façon simultané. - Modéliser la mesure angulaire par une densité de mélange qui suit une structure de dépendance déterminée à l’avance. Ces deux étapes permettent notamment de développer des méthodes de classification non-supervisée à travers la construction d’une matrice de similarité pour les points extrêmes
We present and study unsupervised learning methods of multivariate extreme phenomena in high-dimension. Considering a random vector on which each marginal is heavy-tailed, the study of its behavior in extreme regions is no longer possible via usual methods that involve finite means and variances. Multivariate extreme value theory provides an adapted framework to this study. In particular it gives theoretical basis to dimension reduction through the angular measure. The thesis is divided in two main part: - Reduce the dimension by finding a simplified dependence structure in extreme regions. This step aim at recover subgroups of features that are likely to exceed large thresholds simultaneously. - Model the angular measure with a mixture distribution that follows a predefined dependence structure. These steps allow to develop new clustering methods for extreme points in high dimension

APA, Harvard, Vancouver, ISO, and other styles

24

Guillouet, Brendan. "Apprentissage statistique : application au trafic routier à partir de données structurées et aux données massives." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30205/document.

Full text

Abstract:

Cette thèse s'intéresse à l'apprentissage pour données massives. On considère en premier lieu, des trajectoires définies par des séquences de géolocalisations. Une nouvelle mesure de distance entre trajectoires (Symmetrized Segment-Path Distance) permet d'identifier par classification hiérarchique des groupes de trajectoires, modélisés ensuite par des mélanges gaussiens décrivant les déplacements par zones. Cette modélisation est utilisée de façon générique pour résoudre plusieurs types de problèmes liés aux trafic routier : prévision de la destination finale d'une trajectoire, temps d'arrivée à destination, prochaine zone de localisation. Les exemples analysés montrent que le modèle proposé s'applique à des environnements routiers différents et, qu'une fois appris, il s'applique à des trajectoires aux propriétés spatiales et temporelles différentes. En deuxième lieu, les environnements technologiques d'apprentissage pour données massives sont comparés sur des cas d'usage industriels
This thesis focuses on machine learning techniques for application to big data. We first consider trajectories defined as sequences of geolocalized data. A hierarchical clustering is then applied on a new distance between trajectories (Symmetrized Segment-Path Distance) producing groups of trajectories which are then modeled with Gaussian mixture in order to describe individual movements. This modeling can be used in a generic way in order to resolve the following problems for road traffic : final destination, trip time or next location predictions. These examples show that our model can be applied to different traffic environments and that, once learned, can be applied to trajectories whose spatial and temporal characteristics are different. We also produce comparisons between different technologies which enable the application of machine learning methods on massive volumes of data

APA, Harvard, Vancouver, ISO, and other styles

25

Azzi, Soumaya. "Surrogate modeling of stochastic simulators." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT009.

Full text

Abstract:

Cette thèse propose des outils statistiques pour étudier l’impact qu’a la morphologie d’une ville sur l’exposition des populations induite par un champ électromagnétique provenant d’une station de base. Pour cela l’exposition a été évaluée numériquement en propageant (via des techniques de lancer de rayons) les champs émis dans une antenne dans des villes aléatoires. Ces villes aléatoires ont les mêmes caractéristiques macroscopiques (e.g. hauteur moyenne des immeubles, largeur moyenne des rues et anisotropie) mais sont distinctes les unes des autres. Pour les mêmes caractéristiques de nombreuses villes aléatoires ont été générées et l’exposition induite a été calculée pour chacune. Par conséquent, chaque combinaison de variables correspond à plusieurs valeurs d’exposition. L’exposition est décrite par une distribution statistique non nécessairement gaussienne. Ce comportement stochastique est présent en plusieurs problèmes industriels et souvent les nombreuses simulations menées ont un cout de calcul important. Les travaux de cette thèse étudient la modélisation de substitution des fonctions aléatoires. Le simulateur stochastique est considéré comme un processus stochastique. On propose une approche non paramétrique basée sur la décomposition de Karhunen-Loève du processus stochastique. La fonction de substitution a l’avantage d’être très peu coûteuse à exécuter et à fournir des prédictions précises.En effet, l’objectif de la thèse consiste à évaluer la sensibilité de l’exposition aux caractéristiques morphologiques d’une ville. On propose une approche d’analyse de sensibilité tenant compte de l’aspect stochastique du modèle. L’entropie différentielle du processus stochastique est évaluée et la sensibilité est estimée en calculant les indices de Sobol de l’entropie. La variance de l’entropie est exprimée en fonction de la variabilité de chacune des variables d’entrée
This thesis is a contribution to the surrogate modeling and the sensitivity analysis on stochastic simulators. Stochastic simulators are a particular type of computational models, they inherently contain some sources of randomness and are generally computationally prohibitive. To overcome this limitation, this manuscript proposes a method to build a surrogate model for stochastic simulators based on Karhunen-Loève expansion. This thesis also aims to perform sensitivity analysis on such computational models. This analysis consists on quantifying the influence of the input variables onto the output of the model. In this thesis, the stochastic simulator is represented by a stochastic process, and the sensitivity analysis is then performed on the differential entropy of this process.The proposed methods are applied to a stochastic simulator assessing the population’s exposure to radio frequency waves in a city. Randomness is an intrinsic characteristic of the stochastic city generator. Meaning that, for a set of city parameters (e.g. street width, building height and anisotropy) does not define a unique city. The context of the electromagnetic dosimetry case study is presented, and a surrogate model is built. The sensitivity analysis is then performed using the proposed method

APA, Harvard, Vancouver, ISO, and other styles

26

Korba, Anna. "Learning from ranking data : theory and methods." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLT009/document.

Full text

Abstract:

Les données de classement, c.à. d. des listes ordonnées d'objets, apparaissent naturellement dans une grande variété de situations, notamment lorsque les données proviennent d’activités humaines (bulletins de vote d'élections, enquêtes d'opinion, résultats de compétitions) ou dans des applications modernes du traitement de données (moteurs de recherche, systèmes de recommendation). La conception d'algorithmes d'apprentissage automatique, adaptés à ces données, est donc cruciale. Cependant, en raison de l’absence de structure vectorielle de l’espace des classements et de sa cardinalité explosive lorsque le nombre d'objets augmente, la plupart des méthodes classiques issues des statistiques et de l’analyse multivariée ne peuvent être appliquées directement. Par conséquent, la grande majorité de la littérature repose sur des modèles paramétriques. Dans cette thèse, nous proposons une théorie et des méthodes non paramétriques pour traiter les données de classement. Notre analyse repose fortement sur deux astuces principales. La première est l’utilisation poussée de la distance du tau de Kendall, qui décompose les classements en comparaisons par paires. Cela nous permet d'analyser les distributions sur les classements à travers leurs marginales par paires et à travers une hypothèse spécifique appelée transitivité, qui empêche les cycles dans les préférences de se produire. La seconde est l'utilisation des fonctions de représentation adaptées aux données de classements, envoyant ces dernières dans un espace vectoriel. Trois problèmes différents, non supervisés et supervisés, ont été abordés dans ce contexte: l'agrégation de classement, la réduction de dimensionnalité et la prévision de classements avec variables explicatives.La première partie de cette thèse se concentre sur le problème de l'agrégation de classements, dont l'objectif est de résumer un ensemble de données de classement par un classement consensus. Parmi les méthodes existantes pour ce problème, la méthode d'agrégation de Kemeny se démarque. Ses solutions vérifient de nombreuses propriétés souhaitables, mais peuvent être NP-difficiles à calculer. Dans cette thèse, nous avons étudié la complexité de ce problème de deux manières. Premièrement, nous avons proposé une méthode pour borner la distance du tau de Kendall entre tout candidat pour le consensus (généralement le résultat d'une procédure efficace) et un consensus de Kemeny, sur tout ensemble de données. Nous avons ensuite inscrit le problème d'agrégation de classements dans un cadre statistique rigoureux en le reformulant en termes de distributions sur les classements, et en évaluant la capacité de généralisation de consensus de Kemeny empiriques.La deuxième partie de cette théorie est consacrée à des problèmes d'apprentissage automatique, qui se révèlent être étroitement liés à l'agrégation de classement. Le premier est la réduction de la dimensionnalité pour les données de classement, pour lequel nous proposons une approche de transport optimal, pour approximer une distribution sur les classements par une distribution montrant un certain type de parcimonie. Le second est le problème de la prévision des classements avec variables explicatives, pour lesquelles nous avons étudié plusieurs méthodes. Notre première proposition est d’adapter des méthodes constantes par morceaux à ce problème, qui partitionnent l'espace des variables explicatives en régions et assignent à chaque région un label (un consensus). Notre deuxième proposition est une approche de prédiction structurée, reposant sur des fonctions de représentations, aux avantages théoriques et computationnels, pour les données de classements
Ranking data, i.e., ordered list of items, naturally appears in a wide variety of situations, especially when the data comes from human activities (ballots in political elections, survey answers, competition results) or in modern applications of data processing (search engines, recommendation systems). The design of machine-learning algorithms, tailored for these data, is thus crucial. However, due to the absence of any vectorial structure of the space of rankings, and its explosive cardinality when the number of items increases, most of the classical methods from statistics and multivariate analysis cannot be applied in a direct manner. Hence, a vast majority of the literature rely on parametric models. In this thesis, we propose a non-parametric theory and methods for ranking data. Our analysis heavily relies on two main tricks. The first one is the extensive use of the Kendall’s tau distance, which decomposes rankings into pairwise comparisons. This enables us to analyze distributions over rankings through their pairwise marginals and through a specific assumption called transitivity, which prevents cycles in the preferences from happening. The second one is the extensive use of embeddings tailored to ranking data, mapping rankings to a vector space. Three different problems, unsupervised and supervised, have been addressed in this context: ranking aggregation, dimensionality reduction and predicting rankings with features.The first part of this thesis focuses on the ranking aggregation problem, where the goal is to summarize a dataset of rankings by a consensus ranking. Among the many ways to state this problem stands out the Kemeny aggregation method, whose solutions have been shown to satisfy many desirable properties, but can be NP-hard to compute. In this work, we have investigated the hardness of this problem in two ways. Firstly, we proposed a method to upper bound the Kendall’s tau distance between any consensus candidate (typically the output of a tractable procedure) and a Kemeny consensus, on any dataset. Then, we have casted the ranking aggregation problem in a rigorous statistical framework, reformulating it in terms of ranking distributions, and assessed the generalization ability of empirical Kemeny consensus.The second part of this thesis is dedicated to machine learning problems which are shown to be closely related to ranking aggregation. The first one is dimensionality reduction for ranking data, for which we propose a mass-transportation approach to approximate any distribution on rankings by a distribution exhibiting a specific type of sparsity. The second one is the problem of predicting rankings with features, for which we investigated several methods. Our first proposal is to adapt piecewise constant methods to this problem, partitioning the feature space into regions and locally assigning as final label (a consensus ranking) to each region. Our second proposal is a structured prediction approach, relying on embedding maps for ranking data enjoying theoretical and computational advantages

APA, Harvard, Vancouver, ISO, and other styles

27

Schreuder, Nicolas. "A study of some trade-offs in statistical learning : online learning, generative models and fairness." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAG004.

Full text

Abstract:

Les algorithmes d'apprentissage automatique sont reconnus pour leurs performances impressionnantes sur de nombreuses tâches que l'on croyait dédiées à l'esprit humain, de la reconnaissance des chiffres manuscrits (LeCun et al. 1990) au pronostic du cancer (Kourou et al. 2015). Néanmoins, l'apprentissage automatique devenant de plus en plus omniprésent dans notre quotidien, il existe un besoin croissant de comprendre précisément leurs comportements et leurs limites.La théorie de l'apprentissage statistique est la branche de l'apprentissage automatique qui vise à fournir un formalisme de modélisation solide pour les problèmes d'inférence ainsi qu'une meilleure compréhension des propriétés statistiques des algorithmes d'apprentissage.Il est important de noter que la théorie de l'apprentissage statistique permet (i) de mieux comprendre les cas dans lesquels un algorithme fonctionne bien (ii) de quantifier les compromis inhérents à l'apprentissage pour des choix algorithmiques mieux informés (iii) de fournir des informations pour développer de nouveaux algorithmes qui finira par surpasser ceux existants ou s'attaquer à de nouvelles tâches. S'appuyant sur le cadre d'apprentissage statistique, cette thèse présente des contributions liées à trois problèmes d'apprentissage différents : l'apprentissage en ligne, l'apprentissage des modèles génératifs et, enfin, l'apprentissage équitable.Dans la configuration d'apprentissage en ligne - dans laquelle la taille de l'échantillon n'est pas connue à l'avance - nous fournissons des bornes de déviations (ou intervalles de confiance) uniformes dans la taille de l'échantillon dont la largeur a le taux donné dans la loi du logarithme itéré pour une classe générale de M-estimateurs convexes -- comprenant la moyenne, la médiane, les quantiles, les M-estimateurs de Huber.En ce qui concerne les modèles génératifs, nous proposons un cadre pratique pour étudier les modèles génératifs adversariaux (Goodfellow et al. 2014) d'un point de vue statistique afin d'évaluer l'impact d'une (éventuelle) faible dimensionnalité intrinsèque des données sur l'erreur du modèle génératif. Dans notre cadre, nous établissons des limites de risque non asymptotiques pour le minimiseur du risque empirique (MRE).Enfin, notre travail sur l'apprentissage équitable consiste en une large étude de la contrainte de parité démographique (DP en anglais), une contrainte populaire dans la littérature sur l'apprentissage équitable. La parité démographique contraint essentiellement les prédicteurs à traiter les groupes définis par un attribut sensible (par exemple, le sexe ou l'origine ethnique) pour qu'ils soient « traités de la même manière ». En particulier, nous proposons un cadre statistique minimax pour quantifier précisément le coût en risque d'introduire cette contrainte dans le cadre de la régression
Machine learning algorithms are celebrated for their impressive performance on many tasksthat we thought were dedicated to human minds, from handwritten digits recognition (LeCunet al. 1990) to cancer prognosis (Kourou et al. 2015). Nevertheless, as machine learning becomes more and more ubiquitous in our daily lives, there is a growing need for precisely understanding their behaviours and their limits.Statistical learning theory is the branch of machine learning which aims at providing a powerful modelling formalism for inference problems as well as a better understanding of the statistical properties of learning algorithms.Importantly, statistical learning theory allows one to (i) get a better understanding of the cases in which an algorithm performs well (ii) quantify trade-offs inherent to learning for better-informed algorithmic choices (iii) provide insights to develop new algorithms which will eventually outperform existing ones or tackle new tasks. Relying on the statistical learning framework, this thesis presents contributions related to three different learning problems: online learning, learning generative models and, finally, fair learning.In the online learning setup -- in which the sample size is not known in advance -- we provide general anytime deviation bounds (or confidence intervals) whose width has the rate given in the Law of Iterated Logarithm for a general class of convex M-estimators -- comprising the mean, the median, quantiles, Huber’s M-estimators.Regarding generative models, we propose a convenient framework for studying adversarial generative models (Goodfellow et al. 2014) from a statistical perspective to assess the impact of (eventual) low intrinsic dimensionality of the data on the error of the generative model. In our framework, we establish non-asymptotic risk bounds for the Empirical Risk Minimizer (ERM).Finally, our work on fair learning consists in a broad study of the Demographic Parity (DP) constraint, a popular constraint in the fair learning literature. DP essentially constrains predictors to treat groups defined by a sensitive attribute (e.g., gender or ethnicity) to be “treated the same”. In particular, we propose a statistical minimax framework to precisely quantify the cost in risk of introducing this constraint in the regression setting

APA, Harvard, Vancouver, ISO, and other styles

28

Debèse, Nathalie. "Recalage de la navigation par apprentissage sur les données bathymètriques." Compiègne, 1992. http://www.theses.fr/1992COMPD538.

Full text

Abstract:

L'utilisation d'un sondeur multifaisceaux dans la cartographie des fonds marins souligne l'insuffisance d'une correction de la navigation à l'estime basée uniquement sur l'introduction d'un positionnement par satellite. La fiabilité des cartes bathymétriques nécessite la correction des décalages entre les différentes observations que l'on réalise d'une même zone géographique à chaque passage du navire. L'automatisation de la correction des points navigation s'impose pour réduire le temps passé par les cartographes pour effectuer cette opération, pour obtenir des cartes précises, et enfin pour enrichir les campagnes existantes des données nouvellement acquises. Le problème du recalage se ramène à la recherche d'une isométrie permettant de passer d'une famille de courbes planes à une autre famille dont les paramètres sont estimées à partir de données discrètes, incertaines et entachées d'erreurs. Une modélisation des incertitudes dans un système de voisinage a été introduite dans un test du rapport de vraisemblance pour dégager une classe de transformations admissibles de recalage. Une représentation topographique par un modèle numérique de terrain (facettes triangulaires) permet alors de préciser la correction. Les études de cas proposées montrent que la procédure ainsi élaborée est efficace.

APA, Harvard, Vancouver, ISO, and other styles

29

Jouvet, Denis. "Reconnaissance de mots connectes indépendamment du locuteur par des méthodes statistiques." Paris, ENST, 1988. http://www.theses.fr/1988ENST0006.

Full text

Abstract:

Les caractéristiques principales du système développe sont la représentation de l'ensemble des phrases de l'application par un réseau, obtenu en compilant toutes les connaissances a priori de l'application: syntaxe, descriptions phonétiques, règles phonologiques etc; et l'emploi de densités de probabilité gaussiennes associées aux transitions.

APA, Harvard, Vancouver, ISO, and other styles

30

Lefort, Tanguy. "Label ambiguity in crowdsourcing for classification and expert feedback." Electronic Thesis or Diss., Université de Montpellier (2022-....), 2024. http://www.theses.fr/2024UMONS020.

Full text

Abstract:

Alors que les jeux de données de classification sont composés d'un nombre croissant de données, le besoin d'expertise humaine pour les étiqueter est toujours présent. Les plateformes de crowdsourcing sont un moyen de recueillir les commentaires d'experts à faible coût. Cependant, la qualité de ces étiquettes n'est pas toujours garantie. Dans cette thèse, nous nous concentrons sur le problème de l'ambiguïté des étiquettes dans le crowdsourcing. L'ambiguïté des étiquettes a principalement deux sources : la capacité du travailleur et la difficulté de la tâche. Nous présentons tout d'abord un nouvel indicateur, le mathrm{WAUM} (Weighted Area Under the Magin), pour détecter les tâches ambiguës confiées aux travailleurs. Basé sur le mathrm{AUM} existant dans le cadre supervisé classique, il nous permet d'explorer de grands jeux de données tout en nous concentrant sur les tâches qui pourraient nécessiter une expertise plus pertinente ou qui devraient être éliminées du jeu de données actuel. Nous présentons ensuite une nouvelle bibliothèque texttt{python} open-source, PeerAnnot, développée pour traiter les jeux de données crowdsourcées dans la classification d'images. Nous avons créé un benchmark dans la bibliothèque Benchopt pour évaluer nos stratégies d'agrégation d'étiquettes afin d'obtenir des résultats reproductibles facilement. Enfin, nous présentons une étude de cas sur l'ensemble de données Pl@ntNet, où nous évaluons l'état actuel de la stratégie d'agrégation d'étiquettes de la plateforme et proposons des moyens de l'améliorer. Ce contexte avec un grand nombre de tâches, d'experts et de classes est très difficile pour les stratégies d'agrégation de crowdsourcing actuelles. Nous faisons état de performances constamment supérieures à celles de nos concurrents et proposons une nouvelle stratégie d'agrégation qui pourrait être utilisée à l'avenir pour améliorer la qualité de l'ensemble de données Pl@ntNet. Nous publions également en plus de ce grand jeu de données, des annotations d'experts qui pourraientt être utilisées pour améliorer la qualité des méthodes d'agrégation actuelles et fournir un nouveau point de référence
While classification datasets are composed of more and more data, the need for human expertise to label them is still present. Crowdsourcing platforms are a way to gather expert feedback at a low cost. However, the quality of these labels is not always guaranteed. In this thesis, we focus on the problem of label ambiguity in crowdsourcing. Label ambiguity has mostly two sources: the worker's ability and the task's difficulty. We first present a new indicator, the mathrm{WAUM} (Weighted Area Under the Magin), to detect ambiguous tasks given to workers. Based on the existing mathrm{AUM} in the classical supervised setting, this lets us explore large datasets while focusing on tasks that might require more relevant expertise or should be discarded from the actual dataset. We then present a new open-source texttt{python} library, PeerAnnot, that we developed to handle crowdsourced datasets in image classification. We created a benchmark in the Benchopt library to evaluate our label aggregation strategies for more reproducible results. Finally, we present a case study on the Pl@ntNet dataset, where we evaluate the current state of the platform's label aggregation strategy and propose ways to improve it. This setting with a large number of tasks, experts and classes is highly challenging for current crowdsourcing aggregation strategies. We report consistently better performance against competitors and propose a new aggregation strategy that could be used in the future to improve the quality of the Pl@ntNet dataset. We also release this large dataset of expert feedback that could be used to improve the quality of the current aggregation methods and provide a new benchmark

APA, Harvard, Vancouver, ISO, and other styles

31

Chesneau, Nicolas. "Learning to Recognize Actions with Weak Supervision." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM007/document.

Full text

Abstract:

L'accroissement rapide des données numériques vidéographiques fait de la compréhension automatiquedes vidéos un enjeu de plus en plus important. Comprendre de manière automatique une vidéo recouvrede nombreuses applications, parmi lesquelles l'analyse du contenu vidéo sur le web, les véhicules autonomes,les interfaces homme-machine. Cette thèse présente des contributions dans deux problèmes majeurs pourla compréhension automatique des vidéos : la détection d'actions supervisée par des données web, et la localisation d'actions humaines.La détection d'actions supervisées par des données web a pour objectif d'apprendre à reconnaître des actions dans des contenus vidéos sur Internet, sans aucune autre supervision. Nous proposons une approche originaledans ce contexte, qui s'appuie sur la synergie entre les données visuelles (les vidéos) et leur description textuelle associée, et ce dans le but d'apprendre des classifieurs pour les événements sans aucune supervision. Plus précisément, nous télechargeons dans un premier temps une base de données vidéos à partir de requêtes construites automatiquement en s'appuyant sur la description textuelle des événéments, puis nous enlevons les vidéos téléchargées pour un événement, et dans laquelle celui-ci n'apparaït pas. Enfin, un classifieur est appris pour chaque événement. Nous montrons l'importance des deux étapes principales, c'est-à-dire la créations des requêtes et l'étape de suppression des vidéos, par des résutatsquantitatifs. Notre approche est évaluée dans des conditions difficiles, où aucune annotation manuelle n'est disponible, dénotées EK0 dans les challenges TrecVid. Nous obtenons l'état de l'art sur les bases de donnéesMED 2011 et 2013.Dans la seconde partie de notre thèse, nous nous concentrons sur la localisation des actions humaines, ce qui implique de reconnaïtre à la fois les actions se déroulant dans la vidéo, comme par exemple "boire" ou "téléphoner", et leur étendues spatio-temporelles. Nous proposons une nouvelle méthode centrée sur la personne, traquant celle-ci dans les vidéos pour en extraire des tubes encadrant le corps entier, même en cas d'occultations ou dissimulations partielles. Deux raisons motivent notre approche. La première est qu'elle permet de gérer les occultations et les changements de points de vue de la caméra durant l'étape de localisation des personnes, car celle-ci estime la position du corps entier à chaque frame. La seconde est que notre approche fournit une meilleure grille de référence que les tubes humains standards (c'est-à-dire les tubes qui n'encadrent que les parties visibles) pour extraire de l'information sur l'action. Le coeur de notre méthode est un réseau de neurones convolutionnel qui apprend à générer des propositions de parties du corps humain. Notre algorithme de tracking connecte les détections temporellement pour extraire des tubes encadrant le corps entier. Nous évaluons notre nouvelle méthode d'extraction de tubes sur une base de données difficile, DALY, et atteignons l'état de l'art
With the rapid growth of digital video content, automaticvideo understanding has become an increasingly important task. Video understanding spansseveral applications such as web-video content analysis, autonomous vehicles, human-machine interfaces (eg, Kinect). This thesismakes contributions addressing two major problems in video understanding:webly-supervised action detection and human action localization.Webly-supervised action recognition aims to learn actions from video content on the internet, with no additional supervision. We propose a novel approach in this context, which leverages thesynergy between visual video data and the associated textual metadata, to learnevent classifiers with no manual annotations. Specifically, we first collect avideo dataset with queries constructed automatically from textual descriptionof events, prune irrelevant videos with text and video data, and then learn thecorresponding event classifiers. We show the importance of both the main steps of our method, ie,query generation and data pruning, with quantitative results. We evaluate this approach in the challengingsetting where no manually annotated training set is available, i.e., EK0 in theTrecVid challenge, and show state-of-the-art results on MED 2011 and 2013datasets.In the second part of the thesis, we focus on human action localization, which involves recognizing actions that occur in a video, such as ``drinking'' or ``phoning'', as well as their spatial andtemporal extent. We propose a new person-centric framework for action localization that trackspeople in videos and extracts full-body human tubes, i.e., spatio-temporalregions localizing actions, even in the case of occlusions or truncations.The motivation is two-fold. First, it allows us to handle occlusions and camera viewpoint changes when localizing people, as it infers full-body localization. Second, it provides a better reference grid for extracting action information than standard human tubes, ie, tubes which frame visible parts only.This is achieved by training a novel human part detector that scores visibleparts while regressing full-body bounding boxes, even when they lie outside the frame. The core of our method is aconvolutional neural network which learns part proposals specific to certainbody parts. These are then combined to detect people robustly in each frame.Our tracking algorithm connects the image detections temporally to extractfull-body human tubes. We evaluate our new tube extraction method on a recentchallenging dataset, DALY, showing state-of-the-art results

APA, Harvard, Vancouver, ISO, and other styles

32

Lacombe, Théo. "Statistiques sur les descripteurs topologiques à base de transport optimal." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX036.

Full text

Abstract:

L’analyse topologique des données (ATD) permet d’extraire une information riche des données structurées (telles que les graphes ou les séries temporelles) présentes dans les problèmes modernes d’apprentissage. Elle va représenter cette information sous forme de descripteurs dont font partie les diagrammes de persistance, qui peuvent être décrits comme des mesures ponctuelles supportées sur un demi-plan. À défaut d’être de simples vecteurs, les diagrammes de persistance peuvent néanmoins être comparés entre eux à l’aide de métriques d’appariement partiel. La similarité entre ces métriques et les métriques usuelles du transport optimal - un autre domaine des mathématiques - est connue de longue date, mais un lien formel entre ces deux domaines restait à établir. L’objet de cette thèse est de clariﬁer cette connexion pour pouvoir utiliser les nombreux acquis du transport optimal aﬁn de développer de nouveaux outils statistiques (théoriques et pratiques) pour manipuler les diagrammes de persistance. Dans un premier temps, nous montrons comment le transport optimal partiel avec frontière, une variante du transport optimal classique, nous fournit un formalisme qui contient les métriques usuelles de l’ATD. Nous illustrons ensuite les apports bénéﬁques de cette reformulation dans différentes situations: étude théorique et algorithme pour l’estimation efﬁcace des barycentres de diagrammes de persistance grâce au transport régularisé, caractérisation des représentations linéaires continues des diagrammes et leur apprentissage via un réseau de neurones versatile, ainsi qu’un résultat de stabilité des moyennes linéaires de diagrammes tirés aléatoirement
Topological data analysis (TDA) allows one to extract rich information from structured data (such as graphs or time series) that occurs in modern machine learning problems. This information will be represented as descriptors such as persistence diagrams, which can be described as point measures supported on a half-plane. While persistence diagrams are not elements of a vector space, they can still be compared using partial matching metrics. The similarities between these metrics and those routinely used in optimal transport—another ﬁeld of mathematics—are known for long, but a formal connection between these two ﬁelds is yet to come.The purpose of this thesis is to clarify this connection and develop new theoretical and computational tools to manipulate persistence diagrams, targeting statistical applications. First, we show how optimal partial transport with boundary, a variation of classic optimal transport theory, provides a formalism that encompasses standard metrics in TDA. We then show-case the beneﬁts of this connection in different situations: a theoretical study and the development of an algorithm to perform fast estimation of barycenters of persistence diagrams, the characterization of continuous linear representations of persistence diagrams and how to learn such representations using a neural network, and eventually a stability result in the context of linearly averaging random persistence diagrams

APA, Harvard, Vancouver, ISO, and other styles

33

Yahiaoui, Meriem. "Modèles statistiques avancés pour la segmentation non supervisée des images dégradées de l'iris." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL006.

Full text

Abstract:

L'iris est considérée comme une des modalités les plus robustes et les plus performantes en biométrie à cause de ses faibles taux d'erreurs. Ces performances ont été observées dans des situations contrôlées, qui imposent des contraintes lors de l'acquisition pour l'obtention d'images de bonne qualité. Relâcher ces contraintes, au moins partiellement, implique des dégradations de la qualité des images acquises et par conséquent une réduction des performances de ces systèmes. Une des principales solutions proposées dans la littérature pour remédier à ces limites est d'améliorer l'étape de segmentation de l'iris. L'objectif principal de ce travail de thèse a été de proposer des méthodes originales pour la segmentation des images dégradées de l'iris. Les chaînes de Markov ont été déjà proposées dans la littérature pour résoudre des problèmes de segmentation d'images. Dans ce cadre, une étude de faisabilité d'une segmentation non supervisée des images dégradées d'iris en régions par les chaînes de Markov a été réalisée, en vue d'une future application en temps réel. Différentes transformations de l'image et différentes méthodes de segmentation grossière pour l'initialisation des paramètres ont été étudiées et comparées. Les modélisations optimales ont été introduites dans un système de reconnaissance de l'iris (avec des images en niveaux de gris) afin de produire une comparaison avec les méthodes existantes. Finalement une extension de la modélisation basée sur les chaînes de Markov cachées, pour une segmentation non supervisée des images d'iris acquises en visible, a été mise en place
Iris is considered as one of the most robust and efficient modalities in biometrics because of its low error rates. These performances were observed in controlled situations, which impose constraints during the acquisition in order to have good quality images. The renouncement of these constraints, at least partially, implies degradations in the quality of the acquired images and it is therefore a degradation of these systems’ performances. One of the main proposed solutions in the literature to take into account these limits is to propose a robust approach for iris segmentation. The main objective of this thesis is to propose original methods for the segmentation of degraded images of the iris. Markov chains have been well solicited to solve image segmentation problems. In this context, a feasibility study of unsupervised segmentation into regions of degraded iris images by Markov chains was performed. Different image transformations and different segmentation methods for parameters initialization have been studied and compared. Optimal modeling has been inserted in iris recognition system (with grayscale images) to produce a comparison with the existing methods. Finally, an extension of the modeling based on the hidden Markov chains has been developed in order to realize an unsupervised segmentation of the iris images acquired in visible light

APA, Harvard, Vancouver, ISO, and other styles

34

Boulfani, Fériel. "Caractérisation du comportement de systèmes électriques aéronautiques à partir d'analyses statistiques." Thesis, Toulouse 1, 2021. http://publications.ut-capitole.fr/43780/.

Full text

Abstract:

La caractérisation des systèmes électriques est une tâche essentielle dans la conception aéronautique. Elle consiste notamment à dimensionner les composants des systèmes, définir les exigences à respecter par les charges électriques, définir les intervalles de maintenance et identifier les causes racines des pannes sur avions. Aujourd'hui, les calculs sont basés sur la théorie du génie électrique ou des modèles physiques simulés. L'objectif de cette thèse est d'utiliser une approche statistique basée sur les données observées durant les vols et des modèles d'apprentissage automatique pour caractériser le comportement du système électrique aéronautique. La première partie de cette thèse traite de l'estimation de la consommation électrique maximale que fournit un système électrique, dans le but d'optimiser le dimensionnement des générateurs et de mieux connaître les marges réelles. La théorie des valeurs extrêmes a été utilisée pour estimer des quantiles qui sont comparés aux valeurs théoriques calculées par les ingénieurs. Dans la deuxième partie, différents modèles régularisés sont considérés pour prédire la température de l'huile du générateur électrique dans un contexte de données fonctionnelles. Cette étude permet notamment de comprendre le comportement du générateur dans des conditions extrêmes qui ne peuvent pas être réalisées physiquement. Enfin, dans la dernière partie, un modèle de maintenance prédictive est proposé afin de détecter des anomalies dans le fonctionnement du générateur électrique pour anticiper les pannes. Le modèle proposé utilise des variantes de la méthode "Invariant Coordinate Selection" pour des données fonctionnelles
The characterization of electrical systems is an essential task in aeronautic conception. It consists in particular of sizing the electrical components, defining maintenance frequency and finding the root cause of aircraft failures. Nowadays, the computations are made using electrical engineering theory and simulated physical models. The aim of this thesis is to use statistical approaches based on flight data and machine learning models to characterize the behavior of aeronautic electrical systems. In the first part, we estimate the maximal electrical consumption that the generator should deliver to optimize the generator size and to better understand its real margin. Using the extreme value theory we estimate quantiles that we compare to the theoretical values computed by the electrical engineers. In the second part, we compare different regularized procedures to predict the oil temperature of a generator in a functional data framework. In particular, this study makes it possible to understand the generator behavior under extreme conditions that could not be reproduced physically. Finally, in the last part, we develop a predictive maintenance model that detects the abnormal behavior of a generator to anticipate failures. This model is based on variants of "Invariant Coordinate Selection" adapted to functional data

APA, Harvard, Vancouver, ISO, and other styles

35

Barreyre, Clementine. "Statistiques en grande dimension pour la détection d'anomalies dans les données fonctionnelles issues des satellites." Thesis, Toulouse, INSA, 2018. http://www.theses.fr/2018ISAT0009/document.

Full text

Abstract:

Ce travail de thèse consiste au développement de méthodes statistiques pour détecter des com- portements anormaux dans les données fonctionnelles que produit le satellite tout au long de sa vie. Un premier travail a été de comprendre comment mettre en évidence les anomalies grâce à des projections sur des bases de fonctions. En complément de cette revue des projections, nous avons appliqué plusieurs méthodes de détection d’anomalies, telles que la One-Class SVM et le Local Outlier Factor (LOF). En plus de ces deux méthodes, nous avons développé notre propre méthode pour prendre en compte la saisonnalité des courbes que nous considérons. En se basant sur cette étude, nous avons développé une nouvelle procédure pour sélectionner automatiquement les coefficients les plus intéressants pour la détection d’anomalies dans un cadre semi-supervisé. Notre méthode est une procédure de tests multiples où nous appliquons un test à deux échantillons à tous les niveaux de coefficients. Nous nous sommes également intéressés aux covariances des télémesures entre elles pour la détection d’anomalies. Pour cela, nous cherchons à comparer les covariances entre un groupe de télémesures pour deux journées, ou périodes consécutives. Nous avons appliqué trois tests sta- tistiques ayant des angles d’approche différents. Nous avons également développé dans ce but un nouveau test asymptotique. Outre la démonstration de la convergence de notre test, nous démontrons par des exemples que ce test est dans la pratique le plus puissant sur les données dont nous disposons. Dans cette thèse, nous avons abordé plusieurs aspects de la détection d’anomalies dans les données fonctionnelles issues des satellites. Pour chacune des méthodes, nous avons pu détecter toutes les anomalies, améliorant sensiblement le taux de fausses alarmes
In this PhD, we have developed statistical methods to detect abnormal events in all the functional data produced by the satellite all through its lifecycle. The data we are dealing with come from two main phases in the satellite’s life, telemetries and test data. A first work on this thesis was to understand how to highlight the outliers thanks to projections onto functional bases. On these projections, we have also applied several outlier detection methods, such as the One-Class SVM, the Local Outlier Factor (LOF). In addition to these two methods, we have developed our own outlier detection method, by taking into account the seasonality of the data we consider. Based on this study, we have developed an original procedure to select automatically the most interesting coefficients in a semi-supervised framework for the outlier detection, from a given projection. Our method is a multiple testing procedure where we apply the two sample-test to all the levels of coefficients.We have also chosen to analyze the covariance matrices representing the covariance of the te- lemetries between themselves for the outlier detection in multivariate data. In this purpose, we are comparing the covariance of a cluster of several telemetries deriving from two consecutive days, or consecutive orbit periods. We have applied three statistical tests targeting this same issue with different approaches. We have also developed an original asymptotic test, inspired by both first tests. In addition to the proof of the convergence of this test, we demonstrate thanks to examples that this new test is the most powerful. In this PhD, we have tackled several aspects of the anomaly detection in the functional data deriving from satellites. For each of these methods, we have detected all the major anomalies, improving significantly the false discovery rate

APA, Harvard, Vancouver, ISO, and other styles

36

Sfikas, Giorgos. "Modèles statistiques non linéaires pour l'analyse de formes : application à l'imagerie cérébrale." Phd thesis, Université de Strasbourg, 2012. http://tel.archives-ouvertes.fr/tel-00789793.

Full text

Abstract:

Cette thèse a pour objet l'analyse statistique de formes, dans le contexte de l'imagerie médicale.Dans le champ de l'imagerie médicale, l'analyse de formes est utilisée pour décrire la variabilité morphologique de divers organes et tissus. Nous nous focalisons dans cette thèse sur la construction d'un modèle génératif et discriminatif, compact et non-linéaire, adapté à la représentation de formes.Ce modèle est évalué dans le contexte de l'étude d'une population de patients atteints de la maladie d'Alzheimer et d'une population de sujets contrôles sains. Notre intérêt principal ici est l'utilisationdu modèle discriminatif pour découvrir les différences morphologiques les plus discriminatives entre une classe de formes donnée et des formes n'appartenant pas à cette classe. L'innovation théorique apportée par notre modèle réside en deux points principaux : premièrement, nous proposons un outil pour extraire la différence discriminative dans le cadre Support Vector Data Description (SVDD) ; deuxièmement, toutes les reconstructions générées sont anatomiquementcorrectes. Ce dernier point est dû au caractère non-linéaire et compact du modèle, lié à l'hypothèse que les données (les formes) se trouvent sur une variété non-linéaire de dimension faible. Une application de notre modèle à des données médicales réelles montre des résultats cohérents avec les connaissances médicales.

APA, Harvard, Vancouver, ISO, and other styles

37

Harrison, Josquin. "Imagerie médicale, formes et statistiques pour la prédiction du risque d'accident vasculaire cérébral dans le cadre de la fibrillation atriale." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4027.

Full text

Abstract:

La Fibrillation Atriale (FA) est une maladie cardiaque complexe aux proportions épidémiques. Elle se caractérise par une activation électrique chaotique et créé un environnement hémodynamique propice à la formation de caillots et à l'augmentation du risque d'accidents vasculaires cérébraux (AVC) ischémiques. Bien qu'il existe des traitements et interventions préventives visant à réduire l'incidence d'AVC, ils impliquent une augmentation du risque d'autres complications médicales ou consistent en des procédures invasives. C'est pourquoi les tentatives de stratification du risque d'AVC dans la FA sont d'une importance cruciale pour la prise de décision clinique. Malgré cela, les scores de risque actuellement utilisés ne reposent que sur des informations élémentaires du patient et sont peu performants. Aucun marqueur connu ne reflète le processus mécanique de l'AVC, tandis que de plus en plus de données sont collectées de façon routinière sans être utilisées. Bien que de nombreuses études cliniques suggèrent que l'Atrium Gauche (AG) joue un rôle important dans l’occurrence d'AVC, celles-ci ce basent sur des mesures subjectives pour le vérifier. En contraste, nous souhaitons exploiter l'avancée des méthodes de stratification d'imagerie médicale pour valider cette intuition.Pour cela, nous traduisons le lien existant entre l'anatomie de l'AG et le risque d'AVC en un problème géométrique, nous permettant ainsi de bénéficier d'un riche historique de ressources théoriques et appliquées sur l'analyse de formes. Nous passons en revue les nombreuses facettes de l'analyse de formes, et réalisons que, bien que puissantes, les méthodes existantes manquent d'interprétations cliniquement significatives. Nous nous basons néanmoins sur ces outils généraux pour construire une représentation compacte spécifique à l'AG qui permet une meilleure interprétation des résultats. Cette première tentative nous permet d'identifier les éléments clés d'une solution réaliste à l'étude de l'AG. Parmi eux, tout outil que nous construirons devra être suffisamment rapide et robuste pour être adaptés a de potentiels large études prospectives. Puisque l'étape cynétiquement déterminante du processus réside dans la segmentation sémantique des parties anatomiques de l'AG, nous nous concentrons sur l'utilisation de réseaux de neurones spécifiquement conçus pour les surfaces afin d'accélérer ce problème. En particulier, nous montrons que passer la courbure principale des formes en entrée des réseaux de neurones est un meilleur choix que ce qui est actuellement utilisé, quelle que soit l'architecture. Au fur et à mesure de l'amélioration itérative de notre pipeline, nous approfondissons l'utilisation de la segmentation sémantique et de la représentation compacte en proposant un ensemble de caractéristiques géométriques expressives décrivant l'AG -- parfaitement alignées avec les attentes des cliniciens tout en offrant la possibilité d'une analyse quantitative robuste. Nous utilisons ces caractéristiques locales et mettons en lumière les relations complexes entre la forme de l'AG et l'incidence d'AVC, en effectuant une analyse statistique ainsi qu'une classification à l'aide de méthodes basées sur les arbres de décision. Les résultats fournissent des informations précieuses pour la prédiction d'AVC : une liste de caractéristiques de forme directement liées aux patients victimes; des caractéristiques qui expliquent d'importants indicateurs de troubles hémodynamiques; et une meilleure compréhension de l'impact du remodelage de l'AG lié à l'état de la FA. Enfin, nous discutons d'autres utilisations possibles des outils développés dans ce travail, de l'étude de cohortes plus importantes à l'intégration dans des analyses multimodales, en passant par une potentielle analyse de sensibilité précise de simulation hémodynamiques, une étape précieuse pour une compréhension exhaustive du processus mécanique de l'AVC
Atrial Fibrillation (AF) is a complex heart disease of epidemic proportions. It is characterized by chaotic electrical activation which creates a haemodynamic environment prone to clot formation and an increase in risk of ischemic strokes. Although treatments and interventions exist to reduce stroke incidence, they often imply an increase in risk of other complications or consist in invasive procedures. As so, attempts of stratifying stroke risk in AF is of crucial importance for clinical decision-making. However, current widely used risk scores only rely on basic patient information and show poor performance. Importantly, no known markers reflect the mechanistic process of stroke, all the while more and more patient data is routinely available. In parallel, many clinical experts have hypothesized that the Left Atrium (LA) has an important role in stroke occurrence, yet have only relied on subjective measures to verify it. In this study, we aim at taking advantage of the evolving patient imaging stratification to substantiate this claim. Linking the anatomy of the LA to the risk of stroke can directly be translated into a geometric problem. Thankfully, the study and analysis of shapes knows a long-standing mathematical history, in theory as well as application, of which we can take full advantage. We first walk through the many facets of shape analysis, to realise that, while powerful, global methods lack clinically meaningful interpretations. We then set out to use these general tools to build a compact representation specific to the LA, enabling a more interpretable study. This first attempt allows us to identify key facts for a realistic solution to the study of the LA. Amongst them, any tool we build must be fast and robust enough for potentially large and prospective studies. Since the computational crux of our initial pipeline lies in the semantic segmentation of the anatomical parts of the LA, we focus on the use of neural networks specifically designed for surfaces to accelerate this problem. In particular, we show that representing input shapes using principal curvature is a better choice than what is currently used, regardless the architecture. As we iteratively update our pipeline, we further the use of the semantic segmentation and the compact representation by proposing a set of expressive geometric features describing the LA which are well in line with clinicians expectations yet offering the possibility for robust quantitative analysis. We make use of these local features and shed light on the complex relations between LA shape and stroke incidence, by conducting statistical analysis and classification using decision tree based methods. Results yield valuable insights for stroke prediction: a list of shape features directly linked to stroke patients; features that explain important indicators of haemodynamic disorder; and a better understanding of the impact of AF state related LA remodelling. Finally, we discuss other possible use of the set of tools developed in this work, from larger cohorts study, to the integration into multi-modal models, as well as opening possibilities for precise sensitivity analysis of haemodynamic simulation, a valuable next step to better understand the mechanistic process of stroke

APA, Harvard, Vancouver, ISO, and other styles

38

Cherief-Abdellatif, Badr-Eddine. "Contributions to the theoretical study of variational inference and robustness." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAG001.

Full text

Abstract:

Cette thèse de doctorat traite de l'inférence variationnelle et de la robustesse en statistique et en machine learning. Plus précisément, elle se concentre sur les propriétés statistiques des approximations variationnelles et sur la conception d'algorithmes efficaces pour les calculer de manière séquentielle, et étudie les estimateurs basés sur le Maximum Mean Discrepancy comme règles d'apprentissage qui sont robustes à la mauvaise spécification du modèle.Ces dernières années, l'inférence variationnelle a été largement étudiée du point de vue computationnel, cependant, la littérature n'a accordé que peu d'attention à ses propriétés théoriques jusqu'à très récemment. Dans cette thèse, nous étudions la consistence des approximations variationnelles dans divers modèles statistiques et les conditions qui assurent leur consistence. En particulier, nous abordons le cas des modèles de mélange et des réseaux de neurones profonds. Nous justifions également d'un point de vue théorique l'utilisation de la stratégie de maximisation de l'ELBO, un critère numérique qui est largement utilisé dans la communauté VB pour la sélection de modèle et dont l'efficacité a déjà été confirmée en pratique. En outre, l'inférence Bayésienne offre un cadre d'apprentissage en ligne attrayant pour analyser des données séquentielles, et offre des garanties de généralisation qui restent valables même en cas de mauvaise spécification des modèles et en présence d'adversaires. Malheureusement, l'inférence Bayésienne exacte est rarement tractable en pratique et des méthodes d'approximation sont généralement employées, mais ces méthodes préservent-elles les propriétés de généralisation de l'inférence Bayésienne ? Dans cette thèse, nous montrons que c'est effectivement le cas pour certains algorithmes d'inférence variationnelle (VI). Nous proposons de nouveaux algorithmes tempérés en ligne et nous en déduisons des bornes de généralisation. Notre résultat théorique repose sur la convexité de l'objectif variationnel, mais nous soutenons que notre résultat devrait être plus général et présentons des preuves empiriques à l'appui. Notre travail donne des justifications théoriques en faveur des algorithmes en ligne qui s'appuient sur des méthodes Bayésiennes approchées.Une autre question d'intérêt majeur en statistique qui est abordée dans cette thèse est la conception d'une procédure d'estimation universelle. Cette question est d'un intérêt majeur, notamment parce qu'elle conduit à des estimateurs robustes, un thème d'actualité en statistique et en machine learning. Nous abordons le problème de l'estimation universelle en utilisant un estimateur de minimisation de distance basé sur la Maximum Mean Discrepancy. Nous montrons que l'estimateur est robuste à la fois à la dépendance et à la présence de valeurs aberrantes dans le jeu de données. Nous mettons également en évidence les liens qui peuvent exister avec les estimateurs de minimisation de distance utilisant la distance L2. Enfin, nous présentons une étude théorique de l'algorithme de descente de gradient stochastique utilisé pour calculer l'estimateur, et nous étayons nos conclusions par des simulations numériques. Nous proposons également une version Bayésienne de notre estimateur, que nous étudions à la fois d'un point de vue théorique et d'un point de vue computationnel
This PhD thesis deals with variational inference and robustness. More precisely, it focuses on the statistical properties of variational approximations and the design of efficient algorithms for computing them in an online fashion, and investigates Maximum Mean Discrepancy based estimators as learning rules that are robust to model misspecification.In recent years, variational inference has been extensively studied from the computational viewpoint, but only little attention has been put in the literature towards theoretical properties of variational approximations until very recently. In this thesis, we investigate the consistency of variational approximations in various statistical models and the conditions that ensure the consistency of variational approximations. In particular, we tackle the special case of mixture models and deep neural networks. We also justify in theory the use of the ELBO maximization strategy, a model selection criterion that is widely used in the Variational Bayes community and is known to work well in practice.Moreover, Bayesian inference provides an attractive online-learning framework to analyze sequential data, and offers generalization guarantees which hold even under model mismatch and with adversaries. Unfortunately, exact Bayesian inference is rarely feasible in practice and approximation methods are usually employed, but do such methods preserve the generalization properties of Bayesian inference? In this thesis, we show that this is indeed the case for some variational inference algorithms. We propose new online, tempered variational algorithms and derive their generalization bounds. Our theoretical result relies on the convexity of the variational objective, but we argue that our result should hold more generally and present empirical evidence in support of this. Our work presents theoretical justifications in favor of online algorithms that rely on approximate Bayesian methods. Another point that is addressed in this thesis is the design of a universal estimation procedure. This question is of major interest, in particular because it leads to robust estimators, a very hot topic in statistics and machine learning. We tackle the problem of universal estimation using a minimum distance estimator based on the Maximum Mean Discrepancy. We show that the estimator is robust to both dependence and to the presence of outliers in the dataset. We also highlight the connections that may exist with minimum distance estimators using L2-distance. Finally, we provide a theoretical study of the stochastic gradient descent algorithm used to compute the estimator, and we support our findings with numerical simulations. We also propose a Bayesian version of our estimator, that we study from both a theoretical and a computational points of view

APA, Harvard, Vancouver, ISO, and other styles

39

Yahiaoui, Meriem. "Modèles statistiques avancés pour la segmentation non supervisée des images dégradées de l'iris." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL006/document.

Full text

Abstract:

L'iris est considérée comme une des modalités les plus robustes et les plus performantes en biométrie à cause de ses faibles taux d'erreurs. Ces performances ont été observées dans des situations contrôlées, qui imposent des contraintes lors de l'acquisition pour l'obtention d'images de bonne qualité. Relâcher ces contraintes, au moins partiellement, implique des dégradations de la qualité des images acquises et par conséquent une réduction des performances de ces systèmes. Une des principales solutions proposées dans la littérature pour remédier à ces limites est d'améliorer l'étape de segmentation de l'iris. L'objectif principal de ce travail de thèse a été de proposer des méthodes originales pour la segmentation des images dégradées de l'iris. Les chaînes de Markov ont été déjà proposées dans la littérature pour résoudre des problèmes de segmentation d'images. Dans ce cadre, une étude de faisabilité d'une segmentation non supervisée des images dégradées d'iris en régions par les chaînes de Markov a été réalisée, en vue d'une future application en temps réel. Différentes transformations de l'image et différentes méthodes de segmentation grossière pour l'initialisation des paramètres ont été étudiées et comparées. Les modélisations optimales ont été introduites dans un système de reconnaissance de l'iris (avec des images en niveaux de gris) afin de produire une comparaison avec les méthodes existantes. Finalement une extension de la modélisation basée sur les chaînes de Markov cachées, pour une segmentation non supervisée des images d'iris acquises en visible, a été mise en place
Iris is considered as one of the most robust and efficient modalities in biometrics because of its low error rates. These performances were observed in controlled situations, which impose constraints during the acquisition in order to have good quality images. The renouncement of these constraints, at least partially, implies degradations in the quality of the acquired images and it is therefore a degradation of these systems’ performances. One of the main proposed solutions in the literature to take into account these limits is to propose a robust approach for iris segmentation. The main objective of this thesis is to propose original methods for the segmentation of degraded images of the iris. Markov chains have been well solicited to solve image segmentation problems. In this context, a feasibility study of unsupervised segmentation into regions of degraded iris images by Markov chains was performed. Different image transformations and different segmentation methods for parameters initialization have been studied and compared. Optimal modeling has been inserted in iris recognition system (with grayscale images) to produce a comparison with the existing methods. Finally, an extension of the modeling based on the hidden Markov chains has been developed in order to realize an unsupervised segmentation of the iris images acquired in visible light

APA, Harvard, Vancouver, ISO, and other styles

40

Depersin, Jules. "Statistical and Computational Complexities of Robust and High-Dimensional Estimation Problems." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAG009.

Full text

Abstract:

La théorie de l'apprentissage statistique vise à fournir une meilleure compréhension des propriétés statistiques des algorithmes d'apprentissage. Ces propriétés sont souvent dérivées en supposant que les données sous-jacentes sont recueillies par échantillonnage de variables aléatoires gaussiennes (ou subgaussiennes) indépendantes et identiquement distribuées. Ces propriétés peuvent donc être radicalement affectées par la présence d'erreurs grossières (également appelées "valeurs aberrantes") dans les données, et par des données à queue lourde. Nous sommes intéressés par les procédures qui ont de bonnes propriétés même lorsqu'une partie des données est corrompue et à forte queue, procédures que nous appelons extit{robusts}, que nous obtenons souvent dans cette thèse en utilisant l'heuristique Median-Of-Mean.Nous sommes particulièrement intéressés par les procédures qui sont robustes dans des configurations à haute dimension, et nous étudions (i) comment la dimensionnalité affecte les propriétés statistiques des procédures robustes, et (ii) comment la dimensionnalité affecte la complexité computationnelle des algorithmes associés. Dans l'étude des propriétés statistiques (i), nous trouvons que pour une large gamme de problèmes, la complexité statistique des problèmes et sa "robustesse" peuvent être en un sens "découplées", conduisant à des limites où le terme dépendant de la dimension est ajouté au terme dépendant de la corruption, plutôt que multiplié par celui-ci. Nous proposons des moyens de mesurer les complexités statistiques de certains problèmes dans ce cadre corrompu, en utilisant par exemple la dimension VC. Nous fournissons également des limites inférieures pour certains de ces problèmes.Dans l'étude de la complexité computationnelle de l'algorithme associé (ii), nous montrons que dans deux cas particuliers, à savoir l'estimation robuste de la moyenne par rapport à la norme euclidienne et la régression robuste, on peut relaxer les problèmes d'optimisation associés qui deviennent exponentiellement difficiles avec la dimension pour obtenir un algorithme traitable qui se comporte de manière polynomiale dans la dimension
Statistical learning theory aims at providing a better understanding of the statistical properties of learning algorithms. These properties are often derived assuming the underlying data are gathered by sampling independent and identically distributed gaussian (or subgaussian) random variables. These properties can thus be drastically affected by the presence of gross errors (also called "outliers") in the data, and by data being heavy-tailed. We are interested in procedures that have good properties even when part of the data is corrupted and heavy-tailed, procedures that we call extit{robusts}, that we often get in this thesis by using the Median-Of-Mean heuristic.We are especially interested in procedures that are robust in high-dimensional set-ups, and we study (i) how dimensionality affects the statistical properties of robust procedures, and (ii) how dimensionality affects the computational complexity of the associated algorithms. In the study of the statistical properties (i), we find that for a large range of problems, the statistical complexity of the problems and its "robustness" can be in a sense "decoupled", leading to bounds where the dimension-dependent term is added to the term that depends on the corruption, rather than multiplied by it. We propose ways of measuring the statistical complexities of some problems in that corrupted framework, using for instance VC-dimension. We also provide lower bounds for some of those problems.In the study of computational complexity of the associated algorithm (ii), we show that in two special cases, namely robust mean-estimation with respect to the euclidean norm and robust regression, one can relax the associated optimization problems that becomes exponentially hard with the dimension to get tractable algorithm that behaves polynomially in the dimension

APA, Harvard, Vancouver, ISO, and other styles

41

Raja, Suleiman Raja Fazliza. "Méthodes de detection robustes avec apprentissage de dictionnaires. Applications à des données hyperspectrales." Thesis, Nice, 2014. http://www.theses.fr/2014NICE4121/document.

Full text

Abstract:

Le travail dans cette thèse porte sur le problème de détection «one among many» où l’on doit distinguer entre un bruit sous H0 et une parmi L alternatives connues sous H1. Ce travail se concentre sur l’étude et la mise en œuvre de méthodes de détection robustes de dimension réduite utilisant des dictionnaires optimisés. Ces méthodes de détection sont associées au test de Rapport de Vraisemblance Généralisé. Les approches proposées sont principalement évaluées sur des données hyperspectrales. Dans la première partie, plusieurs sujets techniques associés à cette thèse sont présentés. La deuxième partie met en évidence les aspects théoriques et algorithmiques des méthodes proposées. Deux inconvénients liés à un grand nombre d’alternatives se posent. Dans ce cadre, nous proposons des techniques d’apprentissage de dictionnaire basées sur un critère robuste qui cherche à minimiser la perte de puissance dans le pire des cas (type minimax). Dans le cas où l’on cherche un dictionnaire à K = 1 atome, nous montrons que la solution exacte peut être obtenue. Ensuite, nous proposons dans le cas K > 1 trois algorithmes d’apprentissage minimax. Finalement, la troisième partie de ce manuscrit présente plusieurs applications. L’application principale concerne les données astrophysiques hyperspectrales de l’instrument Multi Unit Spectroscopic Explorer. Les résultats numériques montrent que les méthodes proposées sont robustes et que le cas K > 1 permet d’augmenter les performances de détection minimax par rapport au cas K = 1. D’autres applications possibles telles que l’apprentissage minimax de visages et la reconnaissance de chiffres manuscrits dans le pire cas sont présentées
This Ph.D dissertation deals with a "one among many" detection problem, where one has to discriminate between pure noise under H0 and one among L known alternatives under H1. This work focuses on the study and implementation of robust reduced dimension detection tests using optimized dictionaries. These detection methods are associated with the Generalized Likelihood Ratio test. The proposed approaches are principally assessed on hyperspectral data. In the first part, several technical topics associated to the framework of this dissertation are presented. The second part highlights the theoretical and algorithmic aspects of the proposed methods. Two issues linked to the large number of alternatives arise in this framework. In this context, we propose dictionary learning techniques based on a robust criterion that seeks to minimize the maximum power loss (type minimax). In the case where the learned dictionary has K = 1 column, we show that the exact solution can be obtained. Then, we propose in the case K > 1 three minimax learning algorithms. Finally, the third part of this manuscript presents several applications. The principal application regards astrophysical hyperspectral data of the Multi Unit Spectroscopic Explorer instrument. Numerical results show that the proposed algorithms are robust and in the case K > 1 they allow to increase the minimax detection performances over the K = 1 case. Other possible applications such as worst-case recognition of faces and handwritten digits are presented

APA, Harvard, Vancouver, ISO, and other styles

42

Zwald, Laurent. "PERFORMANCES STATISTIQUES D'ALGORITHMES D'APPRENTISSAGE : ``KERNEL PROJECTION MACHINE'' ET ANALYSE EN COMPOSANTES PRINCIPALES A NOYAU." Phd thesis, Université Paris Sud - Paris XI, 2005. http://tel.archives-ouvertes.fr/tel-00012011.

Full text

Abstract:

La thèse se place dans le cadre de l'apprentissage statistique. Elle apporte
des contributions à la communauté du machine learning en utilisant des
techniques de statistiques modernes basées sur des avancées dans l'étude
des processus empiriques. Dans une première partie, les propriétés statistiques de
l'analyse en composantes principales à noyau (KPCA) sont explorées. Le
comportement de l'erreur de reconstruction est étudié avec un point de vue
non-asymptotique et des inégalités de concentration des valeurs propres de la matrice de
Gram sont données. Tous ces résultats impliquent des vitesses de
convergence rapides. Des propriétés
non-asymptotiques concernant les espaces propres de la KPCA eux-mêmes sont également
proposées. Dans une deuxième partie, un nouvel
algorithme de classification a été
conçu : la Kernel Projection Machine (KPM).
Tout en s'inspirant des Support Vector Machines (SVM), il met en lumière que la sélection d'un espace vectoriel par une méthode de
réduction de la dimension telle que la KPCA régularise
convenablement. Le choix de l'espace vectoriel utilisé par la KPM est guidé par des études statistiques de sélection de modéle par minimisation pénalisée de la perte empirique. Ce
principe de régularisation est étroitement relié à la projection fini-dimensionnelle étudiée dans les travaux statistiques de
Birgé et Massart. Les performances de la KPM et de la SVM sont ensuite comparées sur différents jeux de données. Chaque thème abordé dans cette thèse soulève de nouvelles questions d'ordre théorique et pratique.

APA, Harvard, Vancouver, ISO, and other styles

43

Salomon, Antoine. "Apprentissage stratégique statistique." Paris 13, 2010. http://www.theses.fr/2010PA132039.

Full text

Abstract:

On étudie l'interaction stratégique entre des agents face à un conflit entre exploration et exploitation. En théorie des jeux, les modèles de bandit-manchot sont particulièrement adaptés à ce problème. Chaque joueur fait face à une machine à deux bras, l'un étant sûr, l'autre risqué. A chaque étape du jeu, il décide quel bras activer. S'il parie sur le bras risqué (c'est-à-dire s'il « explore »), il reçoit un paiement aléatoire qui l'informe partiellement sur la rentabilité de sa machine. S'il choisit le bras sûr (c'est-à-dire s'il « exploite »), il reçoit un paiement connu, mais potentiellement plus faible que ce que pourrait rapporter l'exploration. La rentabilité des machines dépend d'un état de la nature inconnu, mais que l'on peut apprendre en explorant. L'apprentissage de cet état est un enjeu stratégique: un joueur peut par exemple tirer avantage de l'expérimentation des autres joueurs sans prendre de risques lui-même. La question principale est l'efficacité des équilibres de Nash: est-ce qu'un agent gagne plus en situation d'interaction stratégique que lorsqu'il est seul ? Existe-t-il une forme de coopération entre les joueurs ? Les joueurs parviennent-ils à un bon apprentissage de l'état la nature ? Nous montrons que cela dépend des possibilités d'observations entre les joueurs (i. E s'ils observent les paiements des autres, ou seulement les actions de ceux-ci), ainsi que de la manière dont les types de leurs machines sont corrélés. Nous verrons également comment évoluent les équilibres lorsque le nombre de joueurs devient important, et en particulier si cette augmentation se traduit par un afflux d’information et donc de meilleurs gains
This thesis studies strategic interaction between several agents who are facing an exploration vs. Exploitation dilemma. In game theory, this situation is well described by models of bandit games. Each player faces a two-arm bandit machine, one arm being safe, the other being risky. At each stage of the game, each player has to decide which arm he uses. If he chooses the risky arm (exploration), he gets a random payoff which gives him partial information on the rentability of his machine. If he chooses the safe arm, he gets a known payoff, but possibly less than what he could have got from exploration. The rentability of the machine depends on an unknown state of the nature, which can be learnt from exploration. Learning is a strategic issue: for instance a player could benefit from others' information without taking risks himself. We study Nash equilibria of such games. We mainly wonder if equilibria are efficient: does a player gain significanlty more from strategic interaction than he would alone? Is there some kind of cooperation that helps getting more information? Do players manage to have a good knowledge of the state of the nature? This depends on what agents are able to see from each other (actions and/or payoffs), and also on how the types of the machines are correlated. We will also study the way equilibria are evolving when the number of players get large. In particular, we wonder if this increase leads to better pieces of information, and better gains

APA, Harvard, Vancouver, ISO, and other styles

44

Guinot, Florent. "Statistical learning for omics association and interaction studies based on blockwise feature compression." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLE029/document.

Full text

Abstract:

Depuis la dernière décennie le développement rapide des technologies de génotypage a profondément modifié la façon dont les gènes impliqués dans les troubles mendéliens et les maladies complexes sont cartographiés, passant d'approches gènes candidats aux études d'associations pan-génomique, ou Genome-Wide Association Studies (GWASs). Ces études visent à identifier, au sein d'échantillons d'individus non apparentés, des marqueurs génétiques impliqués dans l'expression de maladies complexes. Ces études exploitent le fait qu'il est plus facile d'établir, à partir de la population générale, de grandes cohortes de personnes affectées par une maladie et partageant un facteur de risque génétique qu'au sein d'échantillons apparentés issus d'une même famille, comme c'est le cas dans les études familiales traditionnelles.D'un point de vue statistique, l'approche standard est basée sur le test d'hypothèse: dans un échantillon d'individus non apparentés, des individus malades sont testés contre des individus sains à un ou plusieurs marqueurs. Cependant, à cause de la grande dimension des données, ces procédures de tests classiques sont souvent sujettes à des faux positifs, à savoir des marqueurs faussement identifiés comme étant significatifs. Une solution consiste à appliquer une correction sur les p-valeurs obtenues afin de diminuer le seuil de significativité, augmentant en contrepartie le risque de manquer des associations n’ayant qu'un faible effet sur le phénotype.De plus, bien que cette approche ait réussi à identifier des marqueurs génétiques associés à des maladies multi-factorielles complexes (maladie de Crohn, diabète I et II, maladie coronarienne,…), seule une faible proportion des variations phénotypiques attendues des études familiales classiques a été expliquée. Cette héritabilité manquante peut avoir de multiples causes parmi les suivantes: fortes corrélations entre les variables génétiques, structure de la population, épistasie (interactions entre gènes), maladie associée aux variants rares,...Les principaux objectifs de cette thèse sont de développer de nouvelles méthodes statistiques pouvant répondre à certaines des limitations mentionnées ci-dessus. Plus précisément, nous avons développé deux nouvelles approches: la première exploite la structure de corrélation entre les marqueurs génétiques afin d'améliorer la puissance de détection dans le cadre des tests d'hypothèses tandis que la seconde est adaptée à la détection d'interactions statistiques entre groupes de marqueurs méta-génomiques et génétiques permettant une meilleure compréhension de la relation complexe entre environnement et génome sur l'expression d'un caractère
Since the last decade, the rapid advances in genotyping technologies have changed the way genes involved in mendelian disorders and complex diseases are mapped, moving from candidate genes approaches to linkage disequilibrium mapping. In this context, Genome-Wide Associations Studies (GWAS) aim at identifying genetic markers implied in the expression of complex disease and occuring at different frequencies between unrelated samples of affected individuals and unaffected controls. These studies exploit the fact that it is easier to establish, from the general population, large cohorts of affected individuals sharing a genetic risk factor for a complex disease than within individual families, as is the case with traditional linkage analysis.From a statistical point of view, the standard approach in GWAS is based on hypothesis testing, with affected individuals being tested against healthy individuals at one or more markers. However, classical testing schemes are subject to false positives, that is markers that are falsely identified as significant. One way around this problem is to apply a correction on the p-values obtained from the tests, increasing in return the risk of missing true associations that have only a small effect on the phenotype, which is usually the case in GWAS.Although GWAS have been successful in the identification of genetic variants associated with complex multifactorial diseases (Crohn's disease, diabetes I and II, coronary artery disease,…) only a small proportion of the phenotypic variations expected from classical family studies have been explained .This missing heritability may have multiple causes amongst the following: strong correlations between genetic variants, population structure, epistasis (gene by gene interactions), disease associated with rare variants,…The main objectives of this thesis are thus to develop new methodologies that can face part of the limitations mentioned above. More specifically we developed two new approaches: the first one is a block-wise approach for GWAS analysis which leverages the correlation structure among the genomic variants to reduce the number of statistical hypotheses to be tested, while in the second we focus on the detection of interactions between groups of metagenomic and genetic markers to better understand the complex relationship between environment and genome in the expression of a given phenotype

APA, Harvard, Vancouver, ISO, and other styles

45

Chiapino, Maël. "Apprentissage de structures dans les valeurs extrêmes en grande dimension." Thesis, Paris, ENST, 2018. http://www.theses.fr/2018ENST0035/document.

Full text

Abstract:

Nous présentons et étudions des méthodes d’apprentissage non-supervisé de phénomènes extrêmes multivariés en grande dimension. Dans le cas où chacune des distributions marginales d’un vecteur aléatoire est à queue lourde, l’étude de son comportement dans les régions extrêmes (i.e. loin de l’origine) ne peut plus se faire via les méthodes usuelles qui supposent une moyenne et une variance finies. La théorie des valeurs extrêmes offre alors un cadre adapté à cette étude, en donnant notamment une base théorique à la réduction de dimension à travers la mesure angulaire. La thèse s’articule autour de deux grandes étapes : - Réduire la dimension du problème en trouvant un résumé de la structure de dépendance dans les régions extrêmes. Cette étape vise en particulier à trouver les sous-groupes de composantes étant susceptible de dépasser un seuil élevé de façon simultané. - Modéliser la mesure angulaire par une densité de mélange qui suit une structure de dépendance déterminée à l’avance. Ces deux étapes permettent notamment de développer des méthodes de classification non-supervisée à travers la construction d’une matrice de similarité pour les points extrêmes
We present and study unsupervised learning methods of multivariate extreme phenomena in high-dimension. Considering a random vector on which each marginal is heavy-tailed, the study of its behavior in extreme regions is no longer possible via usual methods that involve finite means and variances. Multivariate extreme value theory provides an adapted framework to this study. In particular it gives theoretical basis to dimension reduction through the angular measure. The thesis is divided in two main part: - Reduce the dimension by finding a simplified dependence structure in extreme regions. This step aim at recover subgroups of features that are likely to exceed large thresholds simultaneously. - Model the angular measure with a mixture distribution that follows a predefined dependence structure. These steps allow to develop new clustering methods for extreme points in high dimension

APA, Harvard, Vancouver, ISO, and other styles

46

Maza, Elie. "Prévision de trafic routier par des méthodes statistiques : espérance structurelle d’une fonction aléatoire." Toulouse 3, 2004. http://www.theses.fr/2004TOU30238.

Full text

Abstract:

Dans la première partie de cette thèse, nous décrivons une méthode de prévision de temps de parcours sur le réseau autoroutier d'Île-de-France. Cette méthode est basée sur un modèle de mélange. Les paramètres sont estimés par une classification automatique et par apprentissage. La deuxième partie est consacrée à l'étude d'un modèle semi-paramétrique de translation de courbe. Les estimations sont effectuées par une méthode de M-estimation. Nous montrons la consistance et la normalité asymptotique des estimateurs. Dans la troisième partie, nous élargissons le modèle de déformation de courbe en considérant que les déformations sont issues d'un processus aléatoire. Cela nous permet de définir, de manière intrinsèque, une notion d'espérance structurelle et de pallier ainsi à la non identifiabilité du modèle. Nous proposons un estimateur empirique de cette espérance structurelle et en montrons la consistance et la normalité asymptotique
In the first part of this thesis, we describe a travel time forecasting method on the Parisian motorway network. This method is based on a mixture model. Parameters are estimated by an automatic classification method and a training concept. The second part is devoted to the study of a semi-parametric curve translation model. Estimates are carried out by an M-estimation method. We show the consistency and the asymptotic normality of the estimators. In the third part, we widen the function warping model by considering that the warping functions result from a random process. That enables us to define, in an intrinsic way, a concept of structural expectation and thus to get round the non identifiability of the model. We propose an empirical estimator of this structural expectation and we show consistency and asymptotic normality

APA, Harvard, Vancouver, ISO, and other styles

47

Smith, Isabelle. "Les comportements de jeu et l'illusion de contrôle chez des universitaires avec et sans maîtrise des statistiques et des probabilités." Doctoral thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/35235.

Full text

Abstract:

Au terme d’une trentaine d’années de recherche, il a été démontré empiriquement que les distorsions cognitives agissent à titre de facteurs fondamentaux sous-jacents aux problèmes liés à la pratique des jeux de hasard et d’argent (JHA). Elles seraient expliquées en majeure partie par une mauvaise compréhension des notions de hasard, des statistiques et des probabilités (SP) et par une illusion de contrôle sur l’issue du jeu. C’est pourquoi les programmes de prévention et de traitement des problèmes de jeu ont été élaborés autour de l’enseignement de ces concepts mathématiques et de la correction des erreurs cognitives liées à leur mauvaise compréhension. Malgré une utilisation courante de ces techniques d’intervention auprès des joueurs problématiques, les études s’intéressant aux attitudes et comportements liés au jeu n’ont pas toutes conclu que le fait de détenir ou d’acquérir des connaissances en SP diminuait les habitudes de jeu. La première étude de thèse a ainsi cherché à comparer les comportements de jeu de 45 étudiants et diplômés universitaires démontrant une maîtrise raisonnable des SP à ceux de 29 personnes ne démontrant pas de connaissances particulières dans cette branche des mathématiques. Les résultats montrent que le taux de participation annuel aux JHA des individus sondés est élevé, mais qu’ils jouent à une fréquence minimale et qu’ils misent peu d’argent, qu’ils détiennent ou non des connaissances en SP. De plus, ils éprouvent peu de problèmes de jeu. L’apport modéré de la connaissance des SP sur les comportements de jeu auprès d’une population universitaire déjà fortement scolarisée et peu propice au jeu est discuté, de même que la répétition de cette absence d’effet au sein de la littérature. Ces résultats ont amené à vouloir comprendre davantage comment des personnes ayant atteint de hauts niveaux d’éducation s’adonnent, elles aussi, à des activités de JHA, bien qu’on puisse s’attendre à une meilleure compréhension des enjeux liés aux JHA et, par le fait même, à une plus grande précaution de leur part. Que ces personnes se laissent tenter par le jeu surprend et amène son lot de questionnements. Leur niveau d’éducation est supérieur, mais leurs comportements face aux JHA ne le démontrent pas, ce qui donne l’impression que certaines de leurs caractéristiques pourraient les amener à surestimer leurs habiletés à contrôler l’issue des JHA. Cette hypothèse est toutefois négligée dans la littérature. À partir des données initialement recueillies, la deuxième étude examine les relations entre l’illusion de contrôle liée aux JHA et différentes variables cognitives et de personnalité chez 142 universitaires. D’une part, il est question de brosser un portrait de leurs croyances liées au jeu (illusion de contrôle, mésinterprétation de l’indépendance des tours et superstitions) et d’autres variables pouvant mener à une illusion de contrôle, c’est-à-dire le degré d’optimisme, l’internalité du lieu de contrôle, le fait de posséder ou non des connaissances particulières en SP, et leur degré de conviction quant à leur compréhension des JHA. En dernier lieu, dans un modèle de régressions multiples, cette étude teste les prédicteurs potentiels de l’illusion de contrôle liée aux JHA au sein de cet échantillon. Les résultats conviennent d’une association entre une connaissance supérieure des SP, moins de pensées erronées liées à la superstition et un degré plus élevé d’optimisme. Une forte association négative existe également entre l’illusion de contrôle liée aux JHA et le degré de conviction des participants quant à ces croyances. Parmi ces participants, l’illusion de contrôle liée aux JHA peut être prédite par une plus faible connaissance des SP, un plus faible degré de conviction envers les croyances et le fait d’être de sexe masculin. La fonction du doute face à ses croyances en JHA chez des individus scolarisés est examinée en termes de facteur de protection métacognitif potentiel. La thèse se conclut sur une discussion concernant l’implication de ces résultats pour la compréhension du jeu dans un contexte d’alternance cognitive afin d’adapter les stratégies utilisées en prévention. Finalement, les forces et les limites de la thèse sont énumérées et permettent de formuler des recommandations quant aux variables et échantillons à étudier dans l’avenir.
After 30 years of research, it has been shown empirically that cognitive distortions act as fundamental factors underlying gambling and gambling problems. They are explained mainly by a misunderstanding of the notions of chance, statistics and probabilities (SP) and by an illusion of control over the outcome of the game. That is why prevention and treatment programs of gambling problems have been developed around the teaching of these mathematical concepts and correction of cognitive distortions. Despite a common use of these intervention techniques with problem gamblers, studies of gambling attitudes and behaviors have not all concluded that having or acquiring SP knowledge decreases gambling habits. The first study of this thesis thus sought to compare the gambling behavior of 45 university students and graduates demonstrating a reasonable mastery of SP to those of 29 people who do not demonstrate knowledge in this field of mathematics. The results show that the participation rate of the individuals surveyed is high, but that they gamble at a minimum frequency and that they invest little money, whether or not they have SP knowledge. In addition, they experience few gambling problems. The moderate contribution of SP knowledge on gambling behaviors of an already highly educated and low-gambling university population is discussed, as is the repetition of this absence of effect in the literature. These results have led to further our understanding of how individuals with high levels of education are also engaged in gambling activities, although we can expect a better understanding of the issues related to gambling and, as a result, to a greater precaution. That these people are tempted by gambling is surprising and brings its lot of questions. Their level of education is superior, but their gambling behaviors do not demonstrate it, which gives the impression that some of their characteristics could lead them to overestimate their ability to control the outcome of the games, rather than other types of erroneous beliefs. However, this hypothesis is neglected in the literature. From the data originally collected, the second study examines the relationship between the illusion of control over gambling and different cognitive and personality variables among 142 university students and graduates. First, it aims to draw a portrait of their beliefs related to gambling (illusion of control, gambler’s fallacy and superstitions) and other elements that can lead to an illusion of control, which are, the degree of optimism, the internality of their locus of control, whether or not they have particular SP knowledge, and their degree of confidence in their understanding of gambling. Finally, in a multiple regression model, this study tests potential predictors of the illusion of control related to gambling within this sample. The results agree on an association between higher SP knowledge, fewer misconceptions related to superstition, and a higher degree of optimism. A strong negative association also exists between illusion of control related to gambling and the degree of confidence about those gambling beliefs. Among these participants, the illusion of control over gambling can be predicted by a weaker SP knowledge, lower confidence in beliefs and being male. The function of doubt about gambling beliefs in educated individuals is examined in terms of potential metacognitive protective factor. The thesis concludes with a discussion about the implication of these results for the understanding of gambling in a context of cognitive switching in order to adapt prevention strategies. Finally, the strengths and limitations of the thesis are listed, and we make recommendations for variables and samples to be studied in the future.

APA, Harvard, Vancouver, ISO, and other styles

48

Cottet, Vincent R. "Theoretical study of some statistical procedures applied to complex data." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLG002.

Full text

Abstract:

La partie principale de cette thèse s'intéresse à développer les aspects théoriques et algorithmiques pour trois procédures statistiques distinctes. Le premier problème abordé est la complétion de matrices binaires. Nous proposons un estimateur basé sur une approximation variationnelle pseudo-bayésienne en utilisant une fonction de perte différente de celles utilisées auparavant. Nous pouvons calculer des bornes non asymptotiques sur le risque intégré. L'estimateur proposé est beaucoup plus rapide à calculer qu'une estimation de type MCMC et nous montrons sur des exemples qu'il est efficace en pratique. Le deuxième problème abordé est l'étude des propriétés théoriques du minimiseur du risque empirique pénalisé pour des fonctions de perte lipschitziennes. Nous pouvons ensuite appliquer les résultats principaux sur la régression logistique avec la pénalisation SLOPE ainsi que sur la complétion de matrice. Le troisième chapitre développe une approximation de type Expectation-Propagation quand la vraisemblance n'est pas explicite. On utilise alors l'approximation ABC dans un second temps. Cette procédure peut s'appliquer à beaucoup de modèles et est beaucoup plus précise et rapide. Elle est appliquée à titre d'exemple sur un modèle d'extrêmes spatiaux
The main part of this thesis aims at studying the theoretical and algorithmic aspects of three distinct statistical procedures. The first problem is the binary matrix completion. We propose an estimator based on a variational approximation of a pseudo-Bayesian estimator. We use a different loss function of the ones used in the literature. We are able to compute non asymptotic risk bounds. It is much faster to compute the estimator than a MCMC method and we show on examples that it is efficient in practice. In a second part we study the theoretical properties of the regularized empirical risk minimizer for Lipschitz loss functions. We are therefore able to apply it on the logistic regression with the SLOPE regularization and on the matrix completion as well. The third chapter develops an Expectation-Propagation approximation when the likelihood is not explicit. We then use an ABC approximation in a second stage. This procedure may be applied to many models and is more precise and faster than the classic ABC approximation. It is used in a spatial extremes model

APA, Harvard, Vancouver, ISO, and other styles

49

Pinault, Florian. "Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systèmes de dialogue oral." Phd thesis, Université d'Avignon, 2011. http://tel.archives-ouvertes.fr/tel-00933937.

Full text

Abstract:

Les systèmes de dialogue homme machine actuellement utilisés dans l'industrie sont fortement limités par une forme de communication très rigide imposant à l'utilisateur de suivre la logique du concepteur du système. Cette limitation est en partie due à leur représentation de l'état de dialogue sous la forme de formulaires préétablis.Pour répondre à cette difficulté, nous proposons d'utiliser une représentation sémantique à structure plus riche et flexible visant à permettre à l'utilisateur de formuler librement sa demande.Une deuxième difficulté qui handicape grandement les systèmes de dialogue est le fort taux d'erreur du système de reconnaissance vocale. Afin de traiter ces erreurs de manière quantitative, la volonté de réaliser une planification de stratégie de dialogue en milieu incertain a conduit à utiliser des méthodes d'apprentissage par renforcement telles que les processus de décision de Markov partiellement observables (POMDP). Mais un inconvénient du paradigme POMDP est sa trop grande complexité algorithmique. Certaines propositions récentes permettent de réduire la complexité du modèle. Mais elles utilisent une représentation en formulaire et ne peuvent être appliqués directement à la représentation sémantique riche que nous proposons d'utiliser.Afin d'appliquer le modèle POMDP dans un système dont le modèle sémantique est complexe, nous proposons une nouvelle façon de contrôler sa complexité en introduisant un nouveau paradigme : le POMDP résumé à double suivi de la croyance. Dans notre proposition, le POMDP maitre, complexe, est transformé en un POMDP résumé, plus simple. Un premier suivi de croyance (belief update) est réalisé dans l'espace maitre (en intégrant des observations probabilistes sous forme de listes nbest). Et un second suivi de croyance est réalisé dans l'espace résumé, les stratégies obtenues sont ainsi optimisées sur un véritable POMDP.Nous proposons deux méthodes pour définir la projection du POMDP maitre en un POMDP résumé : par des règles manuelles et par regroupement automatique par k plus proches voisins. Pour cette dernière, nous proposons d'utiliser la distance d'édition entre graphes, que nous généralisons pour obtenir une distance entre listes nbest.En outre, le couplage entre un système résumé, reposant sur un modèle statistique par POMDP, et un système expert, reposant sur des règles ad hoc, fournit un meilleur contrôle sur la stratégie finale. Ce manque de contrôle est en effet une des faiblesses empêchant l'adoption des POMDP pour le dialogue dans l'industrie.Dans le domaine du renseignement d'informations touristiques et de la réservation de chambres d'hôtel, les résultats sur des dialogues simulés montrent l'efficacité de l'approche par renforcement associée à un système de règles pour s'adapter à un environnement bruité. Les tests réels sur des utilisateurs humains montrent qu'un système optimisé par renforcement obtient cependant de meilleures performances sur le critère pour lequel il a été optimisé.

APA, Harvard, Vancouver, ISO, and other styles

50

Carriere, Mathieu. "On Metric and Statistical Properties of Topological Descriptors for geometric Data." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS433/document.

Full text

Abstract:

Dans le cadre de l'apprentissage automatique, l'utilisation de représentations alternatives, ou descripteurs, pour les données est un problème fondamental permettant d'améliorer sensiblement les résultats des algorithmes. Parmi eux, les descripteurs topologiques calculent et encodent l'information de nature topologique contenue dans les données géométriques. Ils ont pour avantage de bénéficier de nombreuses bonnes propriétés issues de la topologie, et désirables en pratique, comme par exemple leur invariance aux déformations continues des données. En revanche, la structure et les opérations nécessaires à de nombreuses méthodes d'apprentissage, comme les moyennes ou les produits scalaires, sont souvent absents de l'espace de ces descripteurs. Dans cette thèse, nous étudions en détail les propriétés métriques et statistiques des descripteurs topologiques les plus fréquents, à savoir les diagrammes de persistance et Mapper. En particulier, nous montrons que le Mapper, qui est empiriquement un descripteur instable, peut être stabilisé avec une métrique appropriée, que l'on utilise ensuite pour calculer des régions de confiance et pour régler automatiquement ses paramètres. En ce qui concerne les diagrammes de persistance, nous montrons que des produits scalaires peuvent être utilisés via des méthodes à noyaux, en définissant deux noyaux, ou plongements, dans des espaces de Hilbert en dimension finie et infinie
In the context of supervised Machine Learning, finding alternate representations, or descriptors, for data is of primary interest since it can greatly enhance the performance of algorithms. Among them, topological descriptors focus on and encode the topological information contained in geometric data. One advantage of using these descriptors is that they enjoy many good and desireable properties, due to their topological nature. For instance, they are invariant to continuous deformations of data. However, the main drawback of these descriptors is that they often lack the structure and operations required by most Machine Learning algorithms, such as a means or scalar products. In this thesis, we study the metric and statistical properties of the most common topological descriptors, the persistence diagrams and the Mappers. In particular, we show that the Mapper, which is empirically instable, can be stabilized with an appropriate metric, that we use later on to conpute confidence regions and automatic tuning of its parameters. Concerning persistence diagrams, we show that scalar products can be defined with kernel methods by defining two kernels, or embeddings, into finite and infinite dimensional Hilbert spaces

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!