To see the other types of publications on this topic, follow the link: Estimation des données manquantes.

Dissertations / Theses on the topic 'Estimation des données manquantes'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Estimation des données manquantes.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Bahamonde, Natalia. "Estimation de séries chronologiques avec données manquantes." Paris 11, 2007. http://www.theses.fr/2007PA112115.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

El-Taib, El-Rafehi Ahmed. "Estimation des données manquantes dans les séries chronologiques." Montpellier 2, 1992. http://www.theses.fr/1992MON20239.

Full text
Abstract:
L'objectif de la these est de developper, de facon la plus exhaustive possible, la maniere de traiter, statistiquement, le probleme des donnees manquantes dans une collection d'informations chiffrees. En excluant le comportement facile, mais pourtant souvent employe, qui consiste a remplacer la (les) donnee(s) manquante(s) par l'intuition (sondages), le repiquage (series temporelles), ou l'elimination de lignes d'un tableau (statistiques multivariees). Nous proposons au contraire de realiser des choix, les plus pertinents possibles, dans la liste des solutions preconisees par les statisticiens depuis de nombreuses annees. Un schema methodologique est suggere permettant de guider le chercheur dans le labyrinthe de methodes exposees afin de s'y retrouver
APA, Harvard, Vancouver, ISO, and other styles
3

Gu, Co Weila Vila. "Méthodes statistiques et informatiques pour le traitement des données manquantes." Phd thesis, Conservatoire national des arts et metiers - CNAM, 1997. http://tel.archives-ouvertes.fr/tel-00808585.

Full text
Abstract:
Cette thèse est consacrée au traitement des données manquantes. Des méthodes descriptives (analyse en composantes principales, analyse des correspondances dont analyse homogène et la classification automatique) sont étudiées dans le cadre des données incomplètes. La seconde partie est consacrée à des problèmes de fusion de fichiers et analyses homogène y est introduite.
APA, Harvard, Vancouver, ISO, and other styles
4

Dellagi, Hatem. "Estimations paramétrique et non paramétrique des données manquantes : application à l'agro-climatologie." Paris 6, 1994. http://www.theses.fr/1994PA066546.

Full text
Abstract:
Dans ce travail nous proposons deux méthodes d'estimation des données manquantes. Dans le cas de l'estimation paramétrique et afin de résoudre le problème par la prévision, nous exploitons l'estimateur décale (E. D) de la partie autorégressive d'un modèle ARMA scalaire pour estimer la matrice de covariance In dont la consistance forte est prouvée sous des conditions ayant l'avantage de s'exprimer en fonction des trajectoires et identifier les coefficients de la partie moyenne mobile et la variance du bruit blanc. En analyse des correspondances et afin d'estimer les données manquantes d'un tableau de correspondance, le problème se résout complètement dans le cas d'une seule donnée manquante. L'existence est prouvée dans le cas où il y en a plusieurs, par contre l'unicité étant délicate, une combinaison linéaire entre les données manquantes est obtenue à partir de la formule de la trace dont la minimisation assure l'homogénéité du tableau de correspondance, nous établirons sous le même critère la reconstitution d'une donnée d'origine à partir du codage linéaire par morceaux
APA, Harvard, Vancouver, ISO, and other styles
5

Yuan, Shuning. "Méthodes d'analyse de données GPS dans les enquêtes sur la mobilité des personnes : les données manquantes et leur estimation." Paris 1, 2010. http://www.theses.fr/2010PA010074.

Full text
Abstract:
Améliorer l'observation des comportements de déplacement est maintenant possible: d’une part, les méthodologies d’enquête ont évolué : nous sommes passés de l’ère PAPI (Paper And Pencil Interview) à l’ère CATI ou CAPI (Computer Assisted Telephon Interview ou Personal Interview) ; d’autre part, les nouvelles technologies (localisation automatique par satellite, téléphonie mobile, etc. ) permettent d’améliorer considérablement la précision du cadre temporel (heures de départ, d’arrivée. . . ) et spatial (distances et lieux d’activité) des déplacements. Le relevé des traces GPS apporte, avec une précision bien supérieure, des informations qu’il ne serait pas envisageable de collecter à l’aide d’une méthode classique, par exemple : - les trajets courts autour d’un lieu de résidence non habituel (vacances, congrès, etc. ), - la description des trajets très courts et des parcours terminaux, - plus de précision sur les temps terminaux, les temps d’attente, les correspondances entre modes, - le choix de l’itinéraire, - les vitesses. Un défi dans le traitement à posteriori des données collectées, qui constituera le coeur de cette thèse, est la mise au point de méthodes permettant de combler ces données manquantes et de reconstituer de manière automatisée des séquences continues, à la fois dans l’espace et dans le temps.
APA, Harvard, Vancouver, ISO, and other styles
6

Nguyen, Dinh Tuan. "Propriétés asymtpotiques et inférence avec des données manquantes pour les modèles de maintenance imparfaite." Thesis, Troyes, 2015. http://www.theses.fr/2015TROY0034/document.

Full text
Abstract:
Cette thèse est consacrée à la modélisation de la maintenance imparfaite par les modèles statistiques. La maintenance imparfaite est le cas intermédiaire de deux situations extrêmes : la maintenance minimale où le système est remis en état qu’il se trouve juste avant la défaillance, et la maintenance parfaite où le système est remplacé à neuf. Dans ce cadre, les expressions analytiques des grandeurs de fiabilité d’un modèle de maintenance imparfaite sont développées. La convergence du modèle est soulignée, et les lois asymptotiques dans le régime stationnaire sont proposées. Ensuite, les lois sont appliquées pour proposer des politiques de maintenance préventive avec des maintenances imparfaites. Le deuxième thème consiste à proposer une adaptation de procédure d’estimation pour les fenêtres d’observation. Seuls les événements pendant ces périodes sont observés. La modélisation et l’inférence s’appuient sur la convergence de modèles vers leurs régimes stationnaires, ou sur la modélisation de l’âge du système au début des fenêtres. Enfin, l’inférence bayésienne d’un modèle de maintenance imparfaite y est présentée. On étudie l’impact des choix des lois a priori sur la qualité des estimations par des simulations numériques. La sélection des modèles de maintenance imparfaite par le facteur de Bayes est proposée. Dans chaque partie, les modélisations statistiques sont appliquées à des données issues de l’industrie<br>The thesis analyses imperfect maintenance processes of industrial systems by statistical models. Imperfect maintenance is an intermediate situation of two extremes ones: minimal maintenance where the system is restored to the state immediately prior to failure, and perfect maintenance where the system is renewed after the failure. Analytical expressions of reliability quantities of an imperfect maintenance model are developed. The convergence of the model is highlighted and the asymptotic expressions are proposed. The results are applied to build some preventive maintenance policies that contain only imperfect maintenances. The second part of the thesis consists of analyzing failure data contained in observation windows. An observation window is a period of the entire functioning history that only the events occurring in this period are recorded. The modelling and the inference are based on the convergence property or the modelling of initial age. Finally, Bayesian inference of an imperfect maintenance model is presented. The impact of the choices of a priori distributions is analyzed by numerical simulations. A selection method of imperfect maintenance models using the Bayes factor is also introduced.The statistical modelling in each section is applied to real data
APA, Harvard, Vancouver, ISO, and other styles
7

Ladjouze, Salim Pham Dinh Tuan. "Problèmes d'estimation dans les séries temporelles stationnaires avec données manquantes." S.l. : Université Grenoble 1, 2008. http://tel.archives-ouvertes.fr/tel-00319946.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Jebri, Mohamed Ali. "Estimation des données manquantes par la métrologie virtuelle pour l'amélioration du régulateur Run-To-Run dans le domaine des semi-conducteurs." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0028.

Full text
Abstract:
La thématique abordée porte sur la métrologie virtuelle (VM) pour estimer les données manquantes durant les processus de fabrications des semi-conducteurs. L'utilisation de la métrologie virtuelle permet également de fournir les mesures logicielles (estimations) des sorties pour alimenter les régulateurs run-to-run (R2R) mis en place pour le contrôle de la qualité des produits fabriqués. Pour remédier aux problèmes liés au retard de mesures causé par l'échantillonnage statique imposé par la stratégie et les équipements mis en place, notre contribution dans cette thèse est d'introduire la notion de l'échantillonnage dynamique intelligent. Cette stratégie est basée sur un algorithme qui prend en compte la condition de voisinage permettant d'éviter la mesure réelle même si l'échantillonnage statique l'exige. Cela permet de réduire le nombre de mesures réelles, le temps du cycle et le coût de production. Cette approche est assurée par un module de métrologie virtuelle (VM) que nous avons développé et qui peut être intégré dans une boucle de régulation R2R. Les résultats obtenus ont été validés sur des exemples académiques et sur des données réelles fournies par notre partenaire STMicroelectronics de Rousset concernant un processus chemical mechanical planarization (CMP). Ces données réelles ont permis également de valider les résultats obtenus de la métrologie virtuelle pour les fournir ensuite aux régulateurs R2R (ayant besoin de l'estimation de ces données)<br>The addressed work is about the virtual metrology (VM) for estimating missing data during semiconductor manufacturing processes. The use of virtual metrology tool also makes it possible to provide the software measurements (estimations) of the outputs to feed the run-to-run (R2R) controllers set up for the quality control of the manufactured products.To address these issues related to the delay of measurements caused by the static sampling imposed by the strategy and the equipments put in place, our contribution in this thesis is to introduce the notion of the dynamic dynamic sampling. This strategy is based on an algorithm that considers the neighborhood condition to avoid the actual measurement even if the static sampling requires it. This reduces the number of actual measurements, the cycle time and the cost of production. This approach is provided by a virtual metrology module (VM) that we have developed and which can be integrated into an R2R control loop. The obtained results were validated on academic examples and on real data provided by our partner STMicroelectronics of Rousset from a chemical mechanical planarization (CMP) process. This real data also enabled the results obtained from the virtual metrology to be validated and then supplied to the R2R regulators (who need the estimation of these data)
APA, Harvard, Vancouver, ISO, and other styles
9

Kuhn, Estelle. "Estimation par maximum de vraisemblance dans des problèmes inverses non linéaires." Paris 11, 2003. https://tel.archives-ouvertes.fr/tel-00008316.

Full text
Abstract:
Cette thèse est consacrée à l'estimation par maximum de vraisemblance dans des problèmes inverses. Nous considérons des modèles statistiques à données manquantes, dans un cadre paramétrique au cours des trois premiers chapitres. Le Chapitre 1 présente une variante de l'algorithme EM (Expectation Maximization) qui combine une approximation stochastique à une méthode de Monte Carlo par chaînes de Markov : les données manquantes sont simulées selon une probabilité de transition bien choisie. Nous prouvons la convergence presque sûre de la suite générée par l'algorithme vers un maximum local de la vraisemblance des observations. Nous présentons des applications en déconvolution et en détection de ruptures. Dans le Chapitre 2, nous appliquons cet algorithme aux modèles non linéaires à effets mixtes et effectuons outre l'estimation des paramètres du modèle, des estimations de la vraisemblance du modèle et de l'information de Fisher. Les performances de l'algorithme sont illustrées via des comparaisons avec d'autres méthodes sur des exemples de pharmacocinétique et de pharmacodynamique. Le Chapitre 3 présente une application de l'algorithme en géophysique. Nous effectuons une inversion jointe, entre les temps de parcours des ondes sismiques et leurs vitesses et entre des mesures gravimétriques de surface et les densités du sous-sol, en estimant les paramètres du modèle, qui étaient en général fixés arbitrairement. De plus, nous prenons en compte une relation linéaire entre les densités et les vitesses des ondes. Le Chapitre 4 est consacré à l'estimation non paramétrique de la densité [PI] des données manquantes. Nous exhibons un estimateur logspline de PI qui maximise la vraisemblance des observations dans un modèle logspline et appliquons notre algorithme à ce modèle paramétrique. Nous étudions la convergence de cet estimateur vers pi lorsque la dimension du modèle logspline et le nombre d'observations tendent vers l'infini. Nous présentons quelques applications<br>This thesis deals with maximum likelihood estimation in inverse problems. In the tree first chapters, we consider statistical models involving missing data in a parametric framework. Chapter 1 presents a version of the EM algorithm (Expectation Maximization), which combines a stochastic approximation with a Monte Carlo Markov Chain method: the missing data are drawn from a well-chosen transition probability. The almost sure convergence of the sequence generated by the algorithm to a local maximum of the likelihood of the observations is proved. Some applications to deconvolution and change-point detection are presented. Chapter 2 deals with the application of the algorithm to nonlinear mixed effects models. Besides the estimation of the parameters, we estimate the likelihood of the model and the Fisher information matrix. We assess the performance of the algorithm, comparing the results obtained with other methods, on examples coming from pharmacocinetics and pharmacodynamics. Chapter 3 presents an application to geophysics. We perform a joint inversion between teleseismic times and velocity and between gravimetric data and density. Our point of view is innovative because we estimate the parameters of the model which were generally fixed arbitrarily. Moreover we take into account a linear relation between slowness and density. Chapter 4 deals with non parametric density estimation in missing data problems. We propose a logspline estimator of the density of the non observed data, which maximizes the observed likelihood in a logspline model. We apply our algorithm in this parametric model. We study the convergence of this estimator to the density of the non observed data, when the size of the logpline model and the number of observations tend to infinity. Some applications illustrate this method
APA, Harvard, Vancouver, ISO, and other styles
10

De, Moliner Anne. "Estimation robuste de courbes de consommmation électrique moyennes par sondage pour de petits domaines en présence de valeurs manquantes." Thesis, Bourgogne Franche-Comté, 2017. http://www.theses.fr/2017UBFCK021/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à l'estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l'ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement inobservées.En effet, de nombreuses études réalisées dans le groupe EDF, que ce soit dans une optique commerciale ou de gestion du réseau de distribution par Enedis, se basent sur l'analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes. L'ensemble des consommations électriques de chacun des 35 millions de clients résidentiels et professionnels Français ne pouvant être mesurées pour des raisons de coût et de protection de la vie privée, ces courbes de consommation moyennes sont estimées par sondage à partir de panels. Nous prolongeons les travaux de Lardin (2012) sur l'estimation de courbes moyennes par sondage en nous intéressant à des aspects spécifiques de cette problématique, à savoir l'estimation robuste aux unités influentes, l'estimation sur des petits domaines, et l'estimation en présence de courbes partiellement ou totalement inobservées.Pour proposer des estimateurs robustes de courbes moyennes, nous adaptons au cadre fonctionnel l'approche unifiée d'estimation robuste en sondages basée sur le biais conditionnel proposée par Beaumont (2013). Pour cela, nous proposons et comparons sur des jeux de données réelles trois approches : l'application des méthodes usuelles sur les courbes discrétisées, la projection sur des bases de dimension finie (Ondelettes ou Composantes Principales de l'Analyse en Composantes Principales Sphériques Fonctionnelle en particulier) et la troncature fonctionnelle des biais conditionnels basée sur la notion de profondeur d'une courbe dans un jeu de données fonctionnelles. Des estimateurs d'erreur quadratique moyenne instantanée, explicites et par bootstrap, sont également proposés.Nous traitons ensuite la problématique de l'estimation sur de petites sous-populations. Dans ce cadre, nous proposons trois méthodes : les modèles linéaires mixtes au niveau unité appliqués sur les scores de l'Analyse en Composantes Principales ou les coefficients d'ondelettes, la régression fonctionnelle et enfin l'agrégation de prédictions de courbes individuelles réalisées à l'aide d'arbres de régression ou de forêts aléatoires pour une variable cible fonctionnelle. Des versions robustes de ces différents estimateurs sont ensuite proposées en déclinant la démarche d'estimation robuste basée sur les biais conditionnels proposée précédemment.Enfin, nous proposons quatre estimateurs de courbes moyennes en présence de courbes partiellement ou totalement inobservées. Le premier est un estimateur par repondération par lissage temporel non paramétrique adapté au contexte des sondages et de la non réponse et les suivants reposent sur des méthodes d'imputation. Les portions manquantes des courbes sont alors déterminées soit en utilisant l'estimateur par lissage précédemment cité, soit par imputation par les plus proches voisins adaptée au cadre fonctionnel ou enfin par une variante de l'interpolation linéaire permettant de prendre en compte le comportement moyen de l'ensemble des unités de l'échantillon. Des approximations de variance sont proposées dans chaque cas et l'ensemble des méthodes sont comparées sur des jeux de données réelles, pour des scénarios variés de valeurs manquantes<br>In this thesis, we address the problem of robust estimation of mean or total electricity consumption curves by sampling in a finite population for the entire population and for small areas. We are also interested in estimating mean curves by sampling in presence of partially missing trajectories.Indeed, many studies carried out in the French electricity company EDF, for marketing or power grid management purposes, are based on the analysis of mean or total electricity consumption curves at a fine time scale, for different groups of clients sharing some common characteristics.Because of privacy issues and financial costs, it is not possible to measure the electricity consumption curve of each customer so these mean curves are estimated using samples. In this thesis, we extend the work of Lardin (2012) on mean curve estimation by sampling by focusing on specific aspects of this problem such as robustness to influential units, small area estimation and estimation in presence of partially or totally unobserved curves.In order to build robust estimators of mean curves we adapt the unified approach to robust estimation in finite population proposed by Beaumont et al (2013) to the context of functional data. To that purpose we propose three approaches : application of the usual method for real variables on discretised curves, projection on Functional Spherical Principal Components or on a Wavelets basis and thirdly functional truncation of conditional biases based on the notion of depth.These methods are tested and compared to each other on real datasets and Mean Squared Error estimators are also proposed.Secondly we address the problem of small area estimation for functional means or totals. We introduce three methods: unit level linear mixed model applied on the scores of functional principal components analysis or on wavelets coefficients, functional regression and aggregation of individual curves predictions by functional regression trees or functional random forests. Robust versions of these estimators are then proposed by following the approach to robust estimation based on conditional biais presented before.Finally, we suggest four estimators of mean curves by sampling in presence of partially or totally unobserved trajectories. The first estimator is a reweighting estimator where the weights are determined using a temporal non parametric kernel smoothing adapted to the context of finite population and missing data and the other ones rely on imputation of missing data. Missing parts of the curves are determined either by using the smoothing estimator presented before, or by nearest neighbours imputation adapted to functional data or by a variant of linear interpolation which takes into account the mean trajectory of the entire sample. Variance approximations are proposed for each method and all the estimators are compared to each other on real datasets for various missing data scenarios
APA, Harvard, Vancouver, ISO, and other styles
11

Dorffer, Clément. "Méthodes informées de factorisaton matricielle pour l'étalonnage de réseaux de capteurs mobiles et la cartographie de champs de pollution." Thesis, Littoral, 2017. http://www.theses.fr/2017DUNK0507/document.

Full text
Abstract:
Le mobile crowdsensing consiste à acquérir des données géolocalisées et datées d'une foule de capteurs mobiles (issus de ou connectés à des smartphones). Dans cette thèse, nous nous intéressons au traitement des données issues du mobile crowdsensing environnemental. En particulier, nous proposons de revisiter le problème d'étalonnage aveugle de capteurs comme un problème informé de factorisation matricielle à données manquantes, où les facteurs contiennent respectivement le modèle d'étalonnage fonction du phénomène physique observé (nous proposons des approches pour des modèles affines et non linéaires) et les paramètres d'étalonnage de chaque capteur. Par ailleurs, dans l'application de surveillance de la qualité de l'air que nous considérons, nous supposons avoir à notre disposition des mesures très précises mais distribuées de manière très parcimonieuse dans le temps et l'espace, que nous couplons aux multiples mesures issues de capteurs mobiles. Nos approches sont dites informées car (i) les facteurs matriciels sont structurés par la nature du problème, (ii) le phénomène observé peut être décomposé sous forme parcimonieuse dans un dictionnaire connu ou approché par un modèle physique/géostatistique, et (iii) nous connaissons la fonction d'étalonnage moyenne des capteurs à étalonner. Les approches proposées sont plus performantes que des méthodes basées sur la complétion de la matrice de données observées ou les techniques multi-sauts de la littérature, basées sur des régressions robustes. Enfin, le formalisme informé de factorisation matricielle nous permet aussi de reconstruire une carte fine du phénomène physique observé<br>Mobile crowdsensing aims to acquire geolocated and timestamped data from a crowd of sensors (from or connected to smartphones). In this thesis, we focus on processing data from environmental mobile crowdsensing. In particular, we propose to revisit blind sensor calibration as an informed matrix factorization problem with missing entries, where factor matrices respectively contain the calibration model which is a function of the observed physical phenomenon (we focus on approaches for affine or nonlinear sensor responses) and the calibration parameters of each sensor. Moreover, in the considered air quality monitoring application, we assume to pocee- some precise measurements- which are sparsely distributed in space and time - that we melt with the multiple measurements from the mobile sensors. Our approaches are "informed" because (i) factor matrices are structured by the problem nature, (ii) the physical phenomenon can be decomposed using sparse decomposition with a known dictionary or can be approximated by a physical or a geostatistical model, and (iii) we know the mean calibration function of the sensors to be calibrated. The proposed approaches demonstrate better performances than the one based on the completion of the observed data matrix or the multi-hop calibration method from the literature, based on robust regression. Finally, the informed matrix factorization formalism also provides an accurate reconstruction of the observed physical field
APA, Harvard, Vancouver, ISO, and other styles
12

KUHN, Estelle. "Estimation par maximum de vraisemblance dans des problèmes inverses non linéaires." Phd thesis, Université Paris Sud - Paris XI, 2003. http://tel.archives-ouvertes.fr/tel-00008316.

Full text
Abstract:
Cette thèse est consacrée à l'estimation par maximum de vraisemblance dans des problèmes inverses. Nous considérons des modèles statistiques à données manquantes, dans un cadre paramétrique au cours des trois premiers chapitres. Le Chapitre 1 présente une variante de l'algorithme EM (Expectation Maximization) qui combine une approximation stochastique à une méthode de Monte Carlo par chaînes de Markov : les données manquantes sont simulées selon une probabilité de transition bien choisie. Nous prouvons la convergence presque sûre de la suite générée par l'algorithme vers un maximum local de la vraisemblance des observations. Nous présentons des applications en déconvolution et en détection de ruptures. Dans le Chapitre 2, nous appliquons cet algorithme aux modèles non linéaires à effets mixtes et effectuons outre l'estimation des paramètres du modèle, des estimations de la vraisemblance du modèle et de l'information de Fisher. Les performances de l'algorithme sont illustrées via des comparaisons avec d'autres méthodes sur des exemples de pharmacocinétique et de pharmacodynamique. Le Chapitre 3 présente une application de l'algorithme en géophysique. Nous effectuons une inversion jointe, entre les temps de parcours des ondes sismiques et leurs vitesses et entre des mesures gravimétriques de surface et les densités du sous-sol, en estimant les paramètres du modèle, qui étaient en général fixés arbitrairement. De plus, nous prenons en compte une relation linéaire entre les densités et les vitesses des ondes. Le Chapitre 4 est consacré à l'estimation non paramétrique de la densité des données manquantes. Nous exhibons un estimateur logspline de cette densité qui maximise la vraisemblance des observations dans un modèle logspline et appliquons notre algorithme à ce modèle paramétrique. Nous étudions la convergence de cet estimateur vers la vraie densité lorsque la dimension du modèle logspline et le nombre d'observations tendent vers l'infini. Nous présentons quelques applications.
APA, Harvard, Vancouver, ISO, and other styles
13

Vandewalle, Vincent. "Estimation et sélection en classification semi-supervisée." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. http://tel.archives-ouvertes.fr/tel-00447141.

Full text
Abstract:
Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints.
APA, Harvard, Vancouver, ISO, and other styles
14

Rodes, Arnau Isabel. "Estimation de l'occupation des sols à grande échelle pour l'exploitation d'images d'observation de la Terre à hautes résolutions spatiale, spectrale et temporelle." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30375/document.

Full text
Abstract:
Les missions spatiales d'observation de la Terre de nouvelle génération telles que Sentinel-2 (préparé par l'Agence Spatiale Européenne ESA dans le cadre du programme Copernicus, auparavant appelé Global Monitoring for Environment and Security ou GMES) ou Venµs, conjointement développé par l'Agence Spatiale Française (Centre National d 'Études Spatiales CNES) et l'Agence Spatiale Israélienne (ISA), vont révolutionner la surveillance de l'environnement d' aujourd'hui avec le rendement de volumes inédits de données en termes de richesse spectrale, de revisite temporelle et de résolution spatiale. Venµs livrera des images dans 12 bandes spectrales de 412 à 910 nm, une répétitivité de 2 jours et une résolution spatiale de 10 m; les satellites jumeaux Sentinel-2 assureront une couverture dans 13 bandes spectrales de 443 à 2200 nm, avec une répétitivité de 5 jours, et des résolutions spatiales de 10 à 60m. La production efficace de cartes d'occupation des sols basée sur l'exploitation de tels volumes d'information pour grandes surfaces est un défi à la fois en termes de coûts de traitement mais aussi de variabilité des données. En général, les méthodes classiques font soit usage des approches surveillées (trop coûteux en termes de travaux manuels pour les grandes surfaces), ou soit ciblent des modèles locaux spécialisés pour des problématiques précises (ne s'appliquent pas à autres terrains ou applications), ou comprennent des modèles physiques complexes avec coûts de traitement rédhibitoires. Ces approches existantes actuelles sont donc inefficaces pour l'exploitation du nouveau type de données que les nouvelles missions fourniront, et un besoin se fait sentir pour la mise en œuvre de méthodes précises, rapides et peu supervisées qui permettent la généralisation à l'échelle de grandes zones avec des résolutions élevées. Afin de permettre l'exploitation des volumes de données précédemment décrits, l'objectif de ce travail est la conception et validation d'une approche entièrement automatique qui permet l'estimation de la couverture terrestre de grandes surfaces avec imagerie d'observation de la Terre de haute résolution spatiale, spectrale et temporelle, généralisable à des paysages différents, et offrant un temps de calcul opérationnel avec ensembles de données satellitaires simulés, en préparation des prochaines missions. Cette approche est basée sur l'intégration d'algorithmes de traitement de données, tels que les techniques d'apprentissage de modèles et de classification, et des connaissances liées à l'occupation des sols sur des questions écologiques et agricoles, telles que les variables avec un impact sur la croissance de la végétation ou les pratiques de production. Par exemple, la nouvelle introduction de température comme axe temporel pour un apprentissage des modèles ultérieurs intègre un facteur établi de la croissance de la végétation à des techniques d'apprentissage automatiques pour la caractérisation des paysages. Une attention particulière est accordée au traitement de différentes questions, telles que l'automatisation, les informations manquantes (déterminées par des passages satellitaires, des effets de réflexion des nuages, des ombres ou encore la présence de neige), l'apprentissage et les données de validation limitées, les échantillonnages temporels irréguliers (différent nombre d'images disponible pour chaque période et région, données inégalement réparties dans le temps), la variabilité des données, et enfin la possibilité de travailler avec différents ensembles de données et nomenclatures<br>The new generation Earth observation missions such as Sentinel-2 (a twin-satellite initiative prepared by the European Space Agency, ESA, in the frame of the Copernicus programme, previously known as Global Monitoring for Environment and Security or GMES) and Venµs, jointly developed by the French Space Agency (Centre National d'Études Spatiales, CNES) and the Israeli Space Agency (ISA), will revolutionize present-day environmental monitoring with the yielding of unseen volumes of data in terms of spectral richness, temporal revisit and spatial resolution. Venµs will deliver images in 12 spectral bands from 412 to 910 nm, a repetitivity of 2 days, and a spatial resolution of 10 m; the twin Sentinel-2 satellites will provide coverage in 13 spectral bands from 443 to 2200 nm, with a repetitivity of 5 days, and spatial resolutions of 10 to 60m. The efficient production of land cover maps based on the exploitation of such volumes of information for large areas is challenging both in terms of processing costs and data variability. In general, conventional methods either make use of supervised approaches (too costly in terms of manual work for large areas), target specialised local models for precise problem areas (not applicable to other terrains or applications), or include complex physical models with inhibitory processing costs. These existent present-day approaches are thus inefficient for the exploitation of the new type of data that the new missions will provide, and a need arises for the implementation of accurate, fast and minimally supervised methods that allow for generalisation to large scale areas with high resolutions. In order to allow for the exploitation of the previously described volumes of data, the objective of this thesis is the conception, design, and validation of a fully automatic approach that allows the estimation of large-area land cover with high spatial, spectral and temporal resolution Earth observation imagery, being generalisable to different landscapes, and offering operational computation times with simulated satellite data sets, in preparation of the coming missions
APA, Harvard, Vancouver, ISO, and other styles
15

Geronimi, Julia. "Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale." Thesis, Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1114/document.

Full text
Abstract:
Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps<br>Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time
APA, Harvard, Vancouver, ISO, and other styles
16

Guastella, Davide Andrea. "Dynamic learning of the environment for eco-citizen behavior." Thesis, Toulouse 3, 2020. http://www.theses.fr/2020TOU30160.

Full text
Abstract:
Le développement de villes intelligentes et durables nécessite le déploiement des technologies de l'information et de la communication (ITC) pour garantir de meilleurs services et informations disponibles à tout moment et partout. Comme les dispositifs IoT devenant plus puissants et moins coûteux, la mise en place d'un réseau de capteurs dans un contexte urbain peut être coûteuse. Cette thèse propose une technique pour estimer les informations environnementales manquantes dans des environnements à large échelle. Notre technique permet de fournir des informations alors que les dispositifs ne sont pas disponibles dans une zone de l'environnement non couverte par des capteurs. La contribution de notre proposition est résumée dans les points suivants : - limiter le nombre de dispositifs de détection à déployer dans un environnement urbain ; - l'exploitation de données hétérogènes acquises par des dispositifs intermittents ; - le traitement en temps réel des informations ; - l'auto-calibration du système. Notre proposition utilise l'approche AMAS (Adaptive Multi-Agent System) pour résoudre le problème de l'indisponibilité des informations. Dans cette approche, une exception est considérée comme une situation non coopérative (NCS) qui doit être résolue localement et de manière coopérative. HybridIoT exploite à la fois des informations homogènes (informations du même type) et hétérogènes (informations de différents types ou unités) acquises à partir d'un capteur disponible pour fournir des estimations précises au point de l'environnement où un capteur n'est pas disponible. La technique proposée permet d'estimer des informations environnementales précises dans des conditions de variabilité résultant du contexte d'application urbaine dans lequel le projet est situé, et qui n'ont pas été explorées par les solutions de l'état de l'art : - ouverture : les capteurs peuvent entrer ou sortir du système à tout moment sans qu'aucune configuration particulière soit nécessaire ; - large échelle : le système peut être déployé dans un contexte urbain à large échelle et assurer un fonctionnement correct avec un nombre significatif de dispositifs ; - hétérogénéité : le système traite différents types d'informations sans aucune configuration a priori. Notre proposition ne nécessite aucun paramètre d'entrée ni aucune reconfiguration. Le système peut fonctionner dans des environnements ouverts et dynamiques tels que les villes, où un grand nombre de capteurs peuvent apparaître ou disparaître à tout moment et sans aucun préavis. Nous avons fait différentes expérimentations pour comparer les résultats obtenus à plusieurs techniques standard afin d'évaluer la validité de notre proposition. Nous avons également développé un ensemble de techniques standard pour produire des résultats de base qui seront comparés à ceux obtenus par notre proposition multi-agents<br>The development of sustainable smart cities requires the deployment of Information and Communication Technology (ICT) to ensure better services and available information at any time and everywhere. As IoT devices become more powerful and low-cost, the implementation of an extensive sensor network for an urban context can be expensive. This thesis proposes a technique for estimating missing environmental information in large scale environments. Our technique enables providing information whereas devices are not available for an area of the environment not covered by sensing devices. The contribution of our proposal is summarized in the following points: * limiting the number of sensing devices to be deployed in an urban environment; * the exploitation of heterogeneous data acquired from intermittent devices; * real-time processing of information; * self-calibration of the system. Our proposal uses the Adaptive Multi-Agent System (AMAS) approach to solve the problem of information unavailability. In this approach, an exception is considered as a Non-Cooperative Situation (NCS) that has to be solved locally and cooperatively. HybridIoT exploits both homogeneous (information of the same type) and heterogeneous information (information of different types or units) acquired from some available sensing device to provide accurate estimates in the point of the environment where a sensing device is not available. The proposed technique enables estimating accurate environmental information under conditions of uncertainty arising from the urban application context in which the project is situated, and which have not been explored by the state-of-the-art solutions: * openness: sensors can enter or leave the system at any time without the need for any reconfiguration; * large scale: the system can be deployed in a large, urban context and ensure correct operation with a significative number of devices; * heterogeneity: the system handles different types of information without any a priori configuration. Our proposal does not require any input parameters or reconfiguration. The system can operate in open, dynamic environments such as cities, where a large number of sensing devices can appear or disappear at any time and without any prior notification. We carried out different experiments to compare the obtained results to various standard techniques to assess the validity of our proposal. We also developed a pipeline of standard techniques to produce baseline results that will be compared to those obtained by our multi-agent proposal
APA, Harvard, Vancouver, ISO, and other styles
17

Meyer, Valentine. "Apport de la reconstruction virtuelle du bassin Regourdou 1 (Dordogne, France) à la connaissance des mécaniques obstétricales néandertaliennes." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2013. http://tel.archives-ouvertes.fr/tel-01059802.

Full text
Abstract:
La découverte d'un nouveau bassin, Regourdou 1, offre l'occasion de discuter de l'implication fonctionnelle de la morphologie pelvienne néandertalienne. Dans un premier temps, ce spécimen est décrit, ce qui permet de vérifier son appartenance aux Néandertaliens et mettre en évidence certains traits spécifiques à cette population. Bien qu'aucun ne soit autapomorphique, la combinaison de ces caractères caractérise la ceinture pelvienne néandertalienne. Le bassin Regourdou 1 est ensuite reconstruit à l'aide d'une estimation desdonnées manquantes, par thin-plate spline à partir de Kebara 2. Les dimensions du canal pelvien de Regourdou 1sont comparées à celles de deux autres spécimens néandertaliens (Tabun C1 et Kebara 2) et d'une populationmoderne (n=151). L'analyse de la morphologie des détroits obstétricaux néandertaliens (par morphométrie géométrique), et de la relation céphalo-pelvienne, met en évidence la présence de caractéristiques associées chez l'Homme anatomiquement moderne à la naissance rotationnelle. Notre travail confirme l'existence de mécaniques obstétricales néandertaliennes de type moderne. Cette interprétation permet d'enrichir notre connaissance biologique et culturelle de cette population.
APA, Harvard, Vancouver, ISO, and other styles
18

Nadif, Mohamed. "Classification automatique et données manquantes." Metz, 1991. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/1991/Nadif.Mohamed.SMZ912.pdf.

Full text
Abstract:
Face à un problème pratique de traitements de données, il arrive souvent qu'un certain nombre desdites données se trouve manquer, et dont l'absence peut être imputable à diverses raisons comme une erreur de saisie ou d'expérimentation ou un refus de répondre. Notre travail a consisté à classifier un ensemble d'individus décrits par des variables binaires ou qualitatives nominales sachant que certaines de ces variables n'ont pas été relevées. Les modèles probabilistes étant notre principal outil pour étudier et proposer des solutions au problème de la classification automatique en présence de données manquantes, nous commencons par rappeler comment la classification peut être vue comme une solution à un problème d'estimation de paramètres d'un modèle de mélanges et comment associer à l'algorithme EM (Estimation, Maximisation) un algorithme CEM (Classification, Estimation, Maximisation). En nous appuyant sur les modèles de Bernoulli et en faisant une hypothèse sur la distribution des données manquantes, nous retenons comme critère, l'espérance de la vraisemblance classifiante. Ensuite, nous utilisons le processus de l'algorithme EM en supposant que les données manquantes suivent le modèle de Bernoulli choisi. De plus, l'extension de cet algorithme est étudiée dans ce travail. Nous nous sommes aussi intéressés à la reconstitution des données non observées. Toutes les méthodes proposées dans cette thèse ont été programmées et intégrées au logiciel d'analyse de données SICLA (système interactif de classification automatique, INRIA) et ont été appliquées sur des données simulées et réelles
APA, Harvard, Vancouver, ISO, and other styles
19

Detais, Amélie. "Maximum de vraisemblance et moindre carrés pénalisés dans des modèles de durée de vie censurées." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/820/.

Full text
Abstract:
L'analyse de durées de vie censurées est utilisée dans des domaines d'application variés et différentes possibilités ont été proposées pour la modélisation de telles données. Nous nous intéressons dans cette thèse à deux types de modélisation différents, le modèle de Cox stratifié avec indicateurs de strates aléatoirement manquants et le modèle de régression linéaire censuré à droite. Nous proposons des méthodes d'estimation des paramètres et établissons les propriétés asymptotiques des estimateurs obtenus dans chacun de ces modèles. Dans un premier temps, nous considérons une généralisation du modèle de Cox qui permet à différents groupes de la population, appelés strates, de posséder des fonctions d'intensité de base différentes tandis que la valeur du paramètre de régression est commune. Dans ce modèle à intensité proportionnelle stratifié, nous nous intéressons à l'estimation des paramètres lorsque l'indicateur de strate est manquant pour certains individus de la population. Des estimateurs du maximum de vraisemblance non paramétrique pour les paramètres du modèle sont proposés et nous montrons leurs consistance et normalité asymptotique. L'efficacité du paramètre de régression est établie et des estimateurs consistants de sa variance asymptotique sont également obtenus. Pour l'évaluation des estimateurs du modèle, nous proposons l'utilisation de l'algorithme Espérance-Maximisation et le développons dans ce cas particulier. Dans un second temps, nous nous intéressons au modèle de régression linéaire lorsque la donnée réponse est censurée aléatoirement à droite. Nous introduisons un nouvel estimateur du paramètre de régression minimisant un critère des moindres carrés pénalisé et pondéré par des poids de Kaplan-Meier. Des résultats de consistance et normalité asymptotique sont obtenus et une étude de simulations est effectuée pour illustrer les propriétés de cet estimateur de type LASSO. La méthode bootstrap est utilisée pour l'estimation de la variance asymptotique<br>Life data analysis is used in various application fields. Different methods have been proposed for modelling such data. In this thesis, we are interested in two distinct modelisation types, the stratified Cox model with randomly missing strata indicators and the right-censored linear regression model. We propose methods for estimating the parameters and establish the asymptotic properties of the obtained estimators in each of these models. First, we consider a generalization of the Cox model, allowing different groups, named strata, of the population to have distinct baseline intensity functions, whereas the regression parameter is shared by all the strata. In this stratified proportional intensity model, we are interested in the parameters estimation when the strata indicator is missing for some of the population individuals. Nonparametric maximum likelihood estimators are proposed for the model parameters and their consistency and asymptotic normality are established. We show the efficiency of the regression parameter and obtain consistent estimators of its variance. The Expectation-Maximization algorithm is proposed and developed for the evaluation of the estimators of the model parameters. Second, we are interested in the regression linear model when the response data is randomly right-censored. We introduce a new estimator of the regression parameter, which minimizes a Kaplan-Meier-weighted penalized least squares criterion. Results of consistency and asymptotic normality are obtained and a simulation study is conducted in order to investigate the small sample properties of this LASSO-type estimator. The bootstrap method is used for the estimation of the asymptotic variance
APA, Harvard, Vancouver, ISO, and other styles
20

Silva, Gonçalves da Costa Lorga da Ana Isabel. "Données manquantes et méthodes d'imputation en classification." Paris, CNAM, 2005. http://www.theses.fr/2005CNAM0719.

Full text
Abstract:
In this work we aimed to study the effect of missing data in classification of variables; mainly in ascending hierarchical classification, according to the following factors; amount of missing data, imputation techniques, similarly coefficient and classification criterion. We used as techniques in presence of missing data, listwise and pairwise; as simple imputation methods, an EM algorithm, the OLS regression method, the NIPALS algorithm and a PLS regression method. As mutiple imputation, we used a method based on the OLS regression and a new one based on PLS, combined by the mean value of the similarly matrices and an ordinal consensus. As hierarchical methods we used classical and probabilistic approaches, the latter based on the VL-family. The hierachical methods used were single, complete and average linkage, AVL and AVB. For the similarity matrices we used the basic affinity coefficient (for continuous data)-that corresponds to the Ochiai index for binary data; the Pearson's correlation coefficient and the probabilistic approach of the affinity coefficient, centered and reduced by the W-method. The study was based mainly on simulated data, complemented by reals ones. We used the Spearman coefficient between the associated ultrametrics to compare the structures of the hierarchical classifications and, for the non hierarchical classifications, the Rand's index<br>Le but de ce travail est d'étudier l'effet des données manquantes en classification de variables, principalement en classification hiérarchique ascendante, et aussi en classification hiérachique ascendante, et aussi en classification non hiérarchique (ou partitionnement). L'étude est effectuée en considérant les facteurs suivants : pourcentage de donnes manquantes, méthodes d'imputation, coefficients de ressemblance et critères de classification. On suppose que les données manquantes au hasard, mais pas complètement au hasard. Les données manquantes satisfont un schéma majoritairement monotone. Nous avons utilisé comme techniques sans imputation les méthodes listwise et pairwise et comme méthodes d'imputation simple. L'algorithme EM, le modèle de régression OLS, l'algorithme NIPALS et une méthode de régression PLS. Comme méthodes d'imputation multiple basé sur les méthodes de régression PLS. Pour combiner les strctures de classification résultant des méthodes d'imputation multiple nous avons proposé une combinaison par la moyenne des matrices de similarité et deux méthodes de consensus. Nous avons utilisé comme méthodes de classification hiérachique, le saut minimal, le saut maximal, la moyenne parmi les groupes et aussi les AVL et AVB ; pour les matrices de ressemblance, le coefficient d'affinité basique (pour les données continues) -qui correspond à l'indice d'Ochiai; pour les données binaires, le coefficient de corrélation de Bravais-Pearson et l'approximation probabiliste du coefficient d'affinité centré et réduit par la méthode-W. L'étude est basée principalemnt sur des données simulées et complétée par des applications à des données réelles
APA, Harvard, Vancouver, ISO, and other styles
21

Gegout-Petit, Anne. "Contribution à la statistique des processus : modélisation et applications." Habilitation à diriger des recherches, Université Sciences et Technologies - Bordeaux I, 2012. http://tel.archives-ouvertes.fr/tel-00762189.

Full text
Abstract:
Nous présentons d'abord les problématiques liées à l'utilisation des processus pour la modélisation des modèles d'histoire de vie et de survie, écriture de vraisemblance, définition d'indépendance locale entre processus et interprétation causale. De manière indépendante, nous présentons ensuite des modèles de processus de bifurcation, les méthodes d'estimation associées avec application à la division cellulaire. Enfin nous regardons des problèmes liés aux PDMP : modélisation de propagation de fissures, de HUMS et estimation du taux de saut. Quelques exemples de collaborations avec des chercheurs d'autres disciplines sont donnés dans le dernier chapitre.
APA, Harvard, Vancouver, ISO, and other styles
22

Barhoumi, Mohamed Adel. "Traitement des données manquantes dans les données de panel : cas des variables dépendantes dichotomiques." Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23619/23619.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
23

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00179506.

Full text
Abstract:
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
APA, Harvard, Vancouver, ISO, and other styles
24

Demange, Sébastien. "Contributions à la reconnaissance automatique de la parole avec données manquantes." Phd thesis, Université Henri Poincaré - Nancy I, 2007. http://tel.archives-ouvertes.fr/tel-00187953.

Full text
Abstract:
Ce mémoire propose, dans un premier temps, une introduction détaillée de la reconnaissance automatique de la parole avec données manquantes appuyée par de nombreuses références bibliographiques. Il est montré que l'estimation de masques constitue une étape cruciale. En effet, la qualité des masques estimés conditionne les performances du système de reconnaissance. L'amélioration de la fiabilité des masques constitue donc un enjeu important. Dans un second temps, les travaux menés dans le cadre de l'estimation bayésienne des masques de données manquantes sont présentés. D'une part je propose de nouveaux modèles de masques permettant de modéliser les dépendances entre les masques de différents coefficients d'un signal. Ces modèles sont évalués comparativement à un modèle de référence. Les résultats sont présentés en termes d'erreur de masques ainsi qu'en taux de reconnaissance. Les résultats montrent que ces dépendances contribuent à améliorer les taux de reconnaissance et soulignent l'importance du contexte temporel d'un masque. Je présente, dans un second temps, une nouvelle définition de masque: les masques de contribution. Ces nouveaux masques sont évalués comparativement aux masques usuellement utilisés, fondés sur le seuillage du SNR. Je montre que cette nouvelle définition permet d'améliorer l'algorithme de décodage en affinant les intervalles de marginalisation. L'évaluation, dans le cadre de la marginalisation de données et en présence d'un bruit stationnaire, montrent que les intervalles sont considérablement réduits entraînant une nette amélioration des taux de reconnaissance.
APA, Harvard, Vancouver, ISO, and other styles
25

Bernard, Francis. "Méthodes d'analyse des données incomplètes incorporant l'incertitude attribuable aux valeurs manquantes." Mémoire, Université de Sherbrooke, 2013. http://hdl.handle.net/11143/6571.

Full text
Abstract:
Lorsqu'on réalise une analyse des données dans le cadre d'une enquête, on est souvent confronté au problème des données manquantes. L'une des solutions les plus fréquemment utilisées est d'avoir recours aux méthodes d'imputation simple. Malheureusement, ces méthodes souffrnt d'un handicap important : les estimations courantes basées sur les valeurs observées et imputées considèrent à tort les valeurs imputées comme des valeurs connues, bien qu'une certaine forme d'incertitude plane au sujet des valeurs à imputer. En particulier, les intervalles de confiance pour les paramètres d'intérêt basés sur les données ainsi complétées n'incorporent pas l'incertitude qui est attribuable aux valeurs manquantes. Les méthodes basées sur le rééchantillonnage et l'imputation multiple -- une généralisation de l'imputation simple -- s'avèrent toutes deux des solutions courantes convenables au problème des données manquantes, du fait qu'elles incorporent cette incertitude. Une alternative consiste à avoir recours à l'imputation multiple à deux niveaux, une généralisation de l'imputation multiple (conventionnelle) qui a été développée dans la thèse que Shen [51] a rédigée en 2000 et qui permet d'exploiter les situations où la nature des valeurs manquantes suggère d'effectuer la procédure d'imputation en deux étapes plutôt qu'en une seule. Nous décrirons ces méthodes d'analyse des données incomplètes qui incorporent l'incertitude attribuable aux valeurs manquantes, nous soulèverons quelques problématiques intéressantes relatives au recours à ces méthodes et nous y proposerons des solutions appropriées. Finalement, nous illustrerons l'application de l'imputation multiple conventionnelle et de l'imputation multiple à deux niveaux au moyen d'exemples simples et concrets.
APA, Harvard, Vancouver, ISO, and other styles
26

Resseguier, Noémie. "Méthodes de gestion des données manquantes en épidémiologie. : Application en cancérologie." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM5063.

Full text
Abstract:
La problématique de la gestion des données manquantes dans les études épidémiologiques est un sujet qui intéressera tous les chercheurs impliqués dans l’analyse des données recueillies et dans l’interprétation des résultats issus de ces analyses. Et même si la question de la gestion des données manquantes et de leur impact sur la validité des résultats obtenus est souvent discutée, cesont souvent les méthodes de traitement des données manquantes les plus simples mais pas toujours les plus valides qui sont utilisées en pratique. L’utilisation de chacune de ces méthodes suppose un certain nombre d’hypothèses sous lesquelles les résultats obtenus sont valides, mais il n’est pas toujours possible de tester ces hypothèses. L’objectif de ce travail était (i) de proposer une revue des différentes méthodes de traitement des données manquantes utilisées en épidémiologie en discutant les avantages et les limites de chacune de ces méthodes, (ii) de proposer une stratégie d’analyse afin d’étudier la robustesse des résultats obtenues via les méthodes classiques de traitement des données manquantes à l’écart aux hypothèses qui, bien que non testables, sont nécessaires à la validité de ces résultats, et (iii) de proposer quelques applications sur des données réelles des différents point discutés dans les deux premières parties<br>The issue of how to deal with missing data in epidemiological studies is a topic which concerns every researcher involved in the analysis of collected data and in the interpretation of the results produced by these analyses. And even if the issue of the handling of missing data and of their impact on the validity of the results is often discussed, simple, but not always appropriate methods to deal with missing data are commonly used. The use of each of these methods is based on some hypotheses under which the obtained results are valid, but it is not always possible to test these hypotheses. The objective of this work was (i) to propose a review of various methods to handle missing data used in the field of epidemiology, and to discuss the advantages and disadvantages of each of these methods, (ii) to propose a strategy of analysis in order to study the robustness of the results obtained via classical methods to handle missing data to the departure from hypotheses which are required for the validity of these results, although they are not testable, and (iii) to propose some applications on real data of the issues discussed in the first two sections
APA, Harvard, Vancouver, ISO, and other styles
27

Héraud, Bousquet Vanina. "Traitement des données manquantes en épidémiologie : Application de l'imputation multiple à des données de surveillance et d'enquêtes." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00713926.

Full text
Abstract:
Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d'intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L'objectif de ce travail a été d'investiguer et d'appliquer une méthode d'imputation multiple à des données transversales d'enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l'application d'une méthode d'imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l'infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d'une base de données de surveillance de l'hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind'identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d'application d'une analyse de sensibilité aux hypothèses sous-jacentes àl'imputation multiple. Enfin, nous avons décrit l'élaboration d'un processus d'imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d'évaluation et devalidation.Les applications pratiques présentées nous ont permis d'élaborer une stratégie de traitement des données manquantes, incluant l'examen approfondi de la base de données incomplète, la construction du modèle d'imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses.
APA, Harvard, Vancouver, ISO, and other styles
28

Héraud, Bousquet Vanina. "Traitement des données manquantes en épidémiologie : application de l’imputation multiple à des données de surveillance et d’enquêtes." Thesis, Paris 11, 2012. http://www.theses.fr/2012PA11T017/document.

Full text
Abstract:
Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d’intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L’objectif de ce travail a été d’investiguer et d’appliquer une méthode d’imputation multiple à des données transversales d’enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l’application d’une méthode d’imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l’infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d’une base de données de surveillance de l’hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind’identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d’application d’une analyse de sensibilité aux hypothèses sous-jacentes àl’imputation multiple. Enfin, nous avons décrit l’élaboration d’un processus d’imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d’évaluation et devalidation.Les applications pratiques présentées nous ont permis d’élaborer une stratégie de traitement des données manquantes, incluant l’examen approfondi de la base de données incomplète, la construction du modèle d’imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses<br>The management of missing values is a common and widespread problem in epidemiology. The most common technique used restricts the data analysis to subjects with complete information on variables of interest, which can reducesubstantially statistical power and precision and may also result in biased estimates.This thesis investigates the application of multiple imputation methods to manage missing values in epidemiological studies and surveillance systems for infectious diseases. Study designs to which multiple imputation was applied were diverse: a risk analysis of HIV transmission through blood transfusion, a case-control study on risk factors for ampylobacter infection, and a capture-recapture study to estimate the number of new HIV diagnoses among children. We then performed multiple imputation analysis on data of a surveillance system for chronic hepatitis C (HCV) to assess risk factors of severe liver disease among HCV infected patients who reported drug use. Within this study on HCV, we proposedguidelines to apply a sensitivity analysis in order to test the multiple imputation underlying hypotheses. Finally, we describe how we elaborated and applied an ongoing multiple imputation process of the French national HIV surveillance database, evaluated and attempted to validate multiple imputation procedures.Based on these practical applications, we worked out a strategy to handle missing data in surveillance data base, including the thorough examination of the incomplete database, the building of the imputation model, and the procedure to validate imputation models and examine underlying multiple imputation hypotheses
APA, Harvard, Vancouver, ISO, and other styles
29

Salloum, Zahraa. "Maximum de vraisemblance empirique pour la détection de changements dans un modèle avec un nombre faible ou très grand de variables." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE1008/document.

Full text
Abstract:
Cette thèse est consacrée à tester la présence de changements dans les paramètres d'un modèle de régression non-linéaire ainsi que dans un modèle de régression linéaire en très grande dimension. Tout d'abord, nous proposons une méthode basée sur la vraisemblance empirique pour tester la présence de changements dans les paramètres d'un modèle de régression non-linéaire. Sous l'hypothèse nulle, nous prouvons la consistance et la vitesse de convergence des estimateurs des paramètres de régression. La loi asymptotique de la statistique de test sous l'hypothèse nulle nous permet de trouver la valeur critique asymptotique. D'autre part, nous prouvons que la puissance asymptotique de la statistique de test proposée est égale à 1. Le modèle épidémique avec deux points de rupture est également étudié. Ensuite, on s'intéresse à construire les régions de confiance asymptotiques pour la différence entre les paramètres de deux phases d'un modèle non-linéaire avec des regresseurs aléatoires en utilisant la méthode de vraisemblance empirique. On montre que le rapport de la vraisemblance empirique a une distribution asymptotique χ2. La méthode de vraisemblance empirique est également utilisée pour construire les régions de confiance pour la différence entre les paramètres des deux phases d'un modèle non-linéaire avec des variables de réponse manquantes au hasard (Missing At Random (MAR)). Afin de construire les régions de confiance du paramètre en question, on propose trois statistiques de vraisemblance empirique : la vraisemblance empirique basée sur les données cas-complète, la vraisemblance empirique pondérée et la vraisemblance empirique par des valeurs imputées. On prouve que les trois rapports de vraisemblance empirique ont une distribution asymptotique χ2. Un autre but de cette thèse est de tester la présence d'un changement dans les coefficients d'un modèle linéaire en grande dimension, où le nombre des variables du modèle peut augmenter avec la taille de l'échantillon. Ce qui conduit à tester l'hypothèse nulle de non-changement contre l'hypothèse alternative d'un seul changement dans les coefficients de régression. Basée sur les comportements asymptotiques de la statistique de rapport de vraisemblance empirique, on propose une simple statistique de test qui sera utilisée facilement dans la pratique. La normalité asymptotique de la statistique de test proposée sous l'hypothèse nulle est prouvée. Sous l'hypothèse alternative, la statistique de test diverge<br>In this PHD thesis, we propose a nonparametric method based on the empirical likelihood for detecting the change in the parameters of nonlinear regression models and the change in the coefficient of linear regression models, when the number of model variables may increase as the sample size increases. Firstly, we test the null hypothesis of no-change against the alternative of one change in the regression parameters. Under null hypothesis, the consistency and the convergence rate of the regression parameter estimators are proved. The asymptotic distribution of the test statistic under the null hypothesis is obtained, which allows to find the asymptotic critical value. On the other hand, we prove that the proposed test statistic has the asymptotic power equal to 1. The epidemic model, a particular case of model with two change-points, under the alternative hypothesis, is also studied. Afterwards, we use the empirical likelihood method for constructing the confidence regions for the difference between the parameters of a two-phases nonlinear model with random design. We show that the empirical likelihood ratio has an asymptotic χ2 distribu- tion. Empirical likelihood method is also used to construct the confidence regions for the difference between the parameters of a two-phases nonlinear model with response variables missing at randoms (MAR). In order to construct the confidence regions of the parameter in question, we propose three empirical likelihood statistics : empirical likelihood based on complete-case data, weighted empirical likelihood and empirical likelihood with imputed va- lues. We prove that all three empirical likelihood ratios have asymptotically χ2 distributions. An another aim for this thesis is to test the change in the coefficient of linear regres- sion models for high-dimensional model. This amounts to testing the null hypothesis of no change against the alternative of one change in the regression coefficients. Based on the theoretical asymptotic behaviour of the empirical likelihood ratio statistic, we propose, for a deterministic design, a simpler test statistic, easier to use in practice. The asymptotic normality of the proposed test statistic under the null hypothesis is proved, a result which is different from the χ2 law for a model with a fixed variable number. Under alternative hypothesis, the test statistic diverges
APA, Harvard, Vancouver, ISO, and other styles
30

Audigier, Vincent. "Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes." Thesis, Rennes, Agrocampus Ouest, 2015. http://www.theses.fr/2015NSARG015/document.

Full text
Abstract:
Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev<br>This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods
APA, Harvard, Vancouver, ISO, and other styles
31

Ben, Othman Amroussi Leila. "Conception et validation d’une méthode de complétion des valeurs manquantes fondée sur leurs modèles d’apparition." Caen, 2011. http://www.theses.fr/2011CAEN2067.

Full text
Abstract:
L'extraction de connaissances à partir de données incomplètes constitue un axe de recherche en plein essor. Dans cette thèse, nous y contribuons par la proposition d'une méthode de complétion des valeurs manquantes. Nous commençons par aborder cette problématique par la définition de modèles d'apparition des valeurs manquantes. Nous en proposons une nouvelle typologie en fonction des données connues et nous les caractérisons de façon non redondante grâce à la base d'implications propres. Un algorithme de calcul de cette base de règles, formalisé à partir de la théorie des hypergraphes, est également proposé dans cette thèse. Ensuite, nous exploitons les informations fournies lors de l'étape de caractérisation afin de proposer une méthode de complétion contextualisée, qui complète les valeurs manquantes selon le type aléatoire/non-aléatoire et selon le contexte. La complétion des valeurs manquantes non aléatoires est effectuée par des valeurs spéciales, renfermant intrinsèquement les origines des valeurs manquantes et déterminées grâce à des schémas de caractérisation. Finalement, nous nous intéressons aux techniques d'évaluation des méthodes de complétion et nous proposons une nouvelle technique fondée sur la stabilité d'un clustering entre les données de référence et les données complétées<br>Knowledge Discovery from incomplete databases is a thriving research area. In this thesis, the main focus is put on the proposal of a missing values completion method. We start approaching this issue by defining the appearing models of the missing values. We thus propose a new typology according to the given data and we characterize these missing values in a non-redundant manner defined by means of the basis of proper implications. An algorithm computing this basis of rules, heavily relying on the hypergraph theory battery of results, is also introduced in this thesis. We then explore the information provided during the characterization stage in order to propose a new contextual completion method. The latter completes the missing values with respect to their type as well as to their appearance context. The non-random missing values are completed with special values intrinsically containing the explanation defined by the characterization schemes. Finally, we investigate the evaluation techniques of the missing values completion methods and we introduce a new technique based on the stability of a clustering, when applied on reference data and completed ones
APA, Harvard, Vancouver, ISO, and other styles
32

Guilloux, Frédéric. "Analyse harmonique et Estimation spectrale sur la Sphère.Applications à l'étude du Fond diffus cosmologique." Phd thesis, Université Paris-Diderot - Paris VII, 2008. http://tel.archives-ouvertes.fr/tel-00347673.

Full text
Abstract:
Cette thèse porte sur l'utilisation d'ondelettes de seconde génération pour l'étude statistique de champs aléatoires sphériques. Parmi les phénomènes modélisables par un tel champ, on s'intéressera en particulier au Fond diffus cosmologique (CMB).<br /><br />La localisation des needlets (récente construction d'ondelettes) sur la sphère est étudiée et optimisée en terme de concentration spatiale et d'estimation statistique. Ces fonctions sont ensuite utilisées pour construire un nouvel estimateur du spectre de puissance angulaire. L'examen des propriété de cet estimateur, d'un point de vue théorique (dans l'asymptotique des hautes fréquences angulaires) et pratique, montre qu'il améliore les méthodes existantes dans un modèle réaliste comportant des données manquantes et un bruit hétéroscédastique. A côté de l'estimation spectrale, l'utilisation des needlets est également introduite dans un problème de séparation de sources.<br /><br />Après quatre chapitres introductifs (dédiés respectivement aux aspects physiques, analytiques et statistiques de l'étude du CMB, puis à une présentation d'ensemble des résultats), quatre articles de revue (en collaboration) sont présentés : "Practical wavelet design on the sphere" ; "CMB power spectrum estimation using wavelets" ; "Spectral estimation on the sphere with needlets: high frequency asymptotics" et "A full sky, low foreground, high resolution CMB map from WMAP".
APA, Harvard, Vancouver, ISO, and other styles
33

Rioult, François. "Extraction de connaissances dans les bases de données comportant des valeurs manquantes ou un grand nombre d'attributs." Caen, 2005. http://www.theses.fr/2005CAEN2035.

Full text
Abstract:
L'extraction de motifs est une tâche centrale pour l'extraction de connaissances dans les bases de données et cette thèse traite de deux cas génériques et particulièrement utiles dans de nombreuses applications : les bases de données entachées de valeurs manquantes ou comportant un grand nombre d'attributs. Sans traitement particulier, les valeurs manquantes sont source de graves dommages dans les connaissances extraites. Nous proposons un mécanisme de désactivation temporaire des objets incomplets, qui permet par des calculs dans une base incomplète de mettre en évidence des propriétés compatibles avec la base complète. Ces propriétés sont exploitées avec celles de la base opposée pour proposer une méthode originale de construction de règles d'association informatives généralisées. De nombreuses applications concernent des données comportant un grand nombre d'attributs, comme l'analyse du génome qui produit des données sur des dizaines de milliers de gènes, mais les expériences biologiques sont coûteuses donc peu nombreuses. En utilisant un principe de transposition et les propriétés de la connexion de Galois, nous avons développé un cadre formel pour l'extraction de motifs contraints dans ces données, qui permet de choisir l'orientation de la base de données la plus favorable pour les algorithmes d'extraction. Les contraintes de recherche sont également transposables et permettent d'obtenir les motifs contraints en menant les extractions dans le contexte transposée. Enfin, l'utilisation de règles d'association généralisées à des fins d'apprentissage supervisé et de motifs émergents forts complète ces travaux pour des applications médicales et génomiques.
APA, Harvard, Vancouver, ISO, and other styles
34

El, Abed Abir. "Suivi multi-objets par filtrage particulaire dans un contexte de données incomplètes et/ou manquantes." Paris 6, 2008. http://www.theses.fr/2008PA066304.

Full text
Abstract:
Le présent travail aborde le sujet de suivi multi-objets. L'objectif principal est d'associer les données fournies aux objets présents dans un vidéo afin de pouvoir suivre leur évolution temporel par un algorithme de filtrage. L'étude décrite est soumise aux contraintes de modèles dynamiques non linéaires et complexes, avec données manquantes et présence de fausses alarmes. La principale contribution apportée est le développement d'un nouveau filtre d'association de données permettant de déterminer la probabilité d'association mesure-objet, sans connaissance a priori du vrai modèle dynamique des objets. Notre filtre d'association EAF permet de gérer de manière robuste les problèmes de données manquantes et fausses alarmes, et d'intervalle de temps significatif entre deux observations successives. Ses principaux avantages sont qu'il n'a besoin d'aucun paramètre et qu'il est peu consommateur en temps de calcul. Nous avons construit le nouveau filtre EPF dans le cadre de filtrage non-linéaire multi-objets qui ne nécessite que de peu d'informations a priori. Il peut estimer en ligne les paramètres du modèle dynamique à partir de l'association mesure-objet donnée par EAF, ceci pour modéliser de manière plus adéquate les mouvements complexes difficiles à apprendre a priori. Nous avons proposé le filtre PF-DO permettant d'estimer la déformation locale d'un objet ainsi que son mouvement à partir du EPF et des coefficients de Fourier. Nous avons ajouté au EPF un algorithme de détection de zones de mouvement QNMI, qui utilise l'information mutuelle normalisée pour pouvoir prendre en compte différentes modalités. Le modèle obtenu est dénommé ENMIM
APA, Harvard, Vancouver, ISO, and other styles
35

Croiseau, Pascal. "Influence et traitement des données manquantes dans les études d'association sur trios : application à des données sur la sclérose en plaques." Paris 11, 2008. http://www.theses.fr/2008PA112021.

Full text
Abstract:
Pour tester l’association entre une maladie et un jeu de marqueurs, ou pour estimer les risques de la maladie, différentes méthodes ont été développés. Plusieurs de ces méthodes nécessitent que les individus soient génotypés pour l’ensemble des marqueurs et lorsque cette condition n’est pas respectée, les individus avec données manquantes sont alors exclus de l’analyse. Nous avons pu montrer que cette solution, qui conduit à une diminution importante de la taille de l’échantillon, pouvait aboutir à une perte de puissance pour détecter une association mais également à de fausses conclusions. Au cours de ma thèse, nous avons adapté aux données génétiques une méthode statistique nommée « imputation multiple » permettant de compléter les données manquantes par des données plausibles. D'après les études de simulation que nous avons menées, notre méthode apparaît comme un outil prometteur dans la recherche de variants de susceptibilité tant par sa simplicité d'utilisation que par sa fléxibilité aux modèles génétiques. Nous avons appliqué cette méthode sur un échantillon de 450 familles trios constituées d'un enfant atteint de Sclérose en Plaques et de ses deux parents. Des travaux récents ont mis en évidence une association entre un polymorphisme du gène CTLA4 et la Sclérose en Plaques. Cependant, CTLA4 fait partie du cluster de gènes CD28, CTLA4, ICOS par conséquent, cette association pourrait être due à un autre marqueur en déséquilibre de liaison avec celui-ci. Notre méthode nous a permis de retrouver l'implication du polymorphisme de CTLA4 mais également de fournir une nouvelle piste avec un polymorphisme de CD28 qui pourrait interagir avec le polymorphisme de CTLA4<br>To test for association between a set of markers and a disease, or to estimate the disease risks, different methods have been developped. Several of these methods need that all individuals are genotyped for all markers. When it is not the case, individuals with missing data are discarded. We have shown that this solution, which leads to a strong decrease of the sample size, could involve a loss of power to detect an association but also to false conclusion. In this work, we adapted to genetic data a method of "multiple imputation" that consists in replacing missing data by plausible values. Results obtained from simulated data show that this approach is promising to search for disease susceptibility genes. It is simple to use and very flexible in terms of genetic models that can be tested. We applied our method to a sample of 450 multiple sclerosis family trios (an affected child and both parents). Recent works have detected an association between a polymorphism of CTLA4 gene and multiple sclerosis. However, CTLA4 belongs to a cluster of three gene CD28, CTLA4 and ICOS all involved in the immune response. Consequently, this association could be due to another marker in linkage disequilibrium with CTLA4. Our method allows us to detect the association with CTLA4's polymorphism and also to provide us with a new candidate to explore : a CD28 polymorphism which could be involved in multiple sclerosis in interaction with the CTLA4 polymorphism
APA, Harvard, Vancouver, ISO, and other styles
36

Tzompanaki, Aikaterini. "Réponses manquantes : Débogage et Réparation de requêtes." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS223/document.

Full text
Abstract:
La quantité croissante des données s’accompagne par l’augmentation du nombre de programmes de transformation de données, généralement des requêtes, et par la nécessité d’analyser et comprendre leurs résultats : (a) pourquoi telle réponse figure dans le résultat ? ou (b) pourquoi telle information n’y figure pas ? La première question demande de trouver l’origine ou la provenance des résultats dans la base, un problème très étudié depuis une 20taine d’années. Par contre, expliquer l’absence de réponses dans le résultat d’une requête est un problème peu exploré jusqu’à présent. Répondre à une question Pourquoi-Pas consiste à fournir des explications quant à l’absence de réponses. Ces explications identifient pourquoi et comment les données pertinentes aux réponses manquantes sont absentes ou éliminées par la requête. Notre travail suppose que la base de données n’est pas source d’erreur et donc cherche à fournir des explications fondées sur (les opérateurs de) la requête qui peut alors être raffinée ultérieurement en modifiant les opérateurs "fautifs". Cette thèse développe des outils formels et algorithmiques destinés au débogage et à la réparation de requêtes SQL afin de traiter des questions de type Pourquoi-Pas. Notre première contribution, inspirée par une étude critique de l’état de l’art, utilise un arbre de requête pour rechercher les opérateurs "fautifs". Elle permet de considérer une classe de requêtes incluant SPJA, l’union et l’agrégation. L’algorithme NedExplain développé dans ce cadre, a été validé formellement et expérimentalement. Il produit des explications de meilleure qualité tout en étant plus efficace que l’état de l’art.L’approche précédente s’avère toutefois sensible au choix de l’arbre de requête utilisé pour rechercher les explications. Notre deuxième contribution réside en la proposition d’une notion plus générale d’explication sous forme de polynôme qui capture toutes les combinaisons de conditions devant être modifiées pour que les réponses manquantes apparaissent dans le résultat. Cette méthode s’applique à la classe des requêtes conjonctives avec inégalités. Sur la base d’un premier algorithme naïf, Ted, ne passant pas à l’échelle, un deuxième algorithme, Ted++, a été soigneusement conçu pour éliminer entre autre les calculs itérés de sous-requêtes incluant des produits cartésien. Comme pour la première approche, une évaluation expérimentale a prouvé la qualité et l’efficacité de Ted++. Concernant la réparation des requêtes, notre contribution réside dans l’exploitation des explications polynômes pour guider les modifications de la requête initiale ce qui permet la génération de raffinements plus pertinents. La réparation des jointures "fautives" est traitée de manière originale par des jointures externes. L’ensemble des techniques de réparation est mis en oeuvre dans FixTed et permet ainsi une étude de performance et une étude comparative. Enfin, Ted++ et FixTed ont été assemblés dans une plate-forme pour le débogage et la réparation de requêtes relationnelles<br>With the increasing amount of available data and data transformations, typically specified by queries, the need to understand them also increases. “Why are there medicine books in my sales report?” or “Why are there not any database books?” For the first question we need to find the origins or provenance of the result tuples in the source data. However, reasoning about missing query results, specified by Why-Not questions as the latter previously mentioned, has not till recently receivedthe attention it is worth of. Why-Not questions can be answered by providing explanations for the missing tuples. These explanations identify why and how data pertinent to the missing tuples were not properly combined by the query. Essentially, the causes lie either in the input data (e.g., erroneous or incomplete data) or at the query level (e.g., a query operator like join). Assuming that the source data contain all the necessary relevant information, we can identify the responsible query operators formingquery-based explanations. This information can then be used to propose query refinements modifying the responsible operators of the initial query such that the refined query result contains the expected data. This thesis proposes a framework targeted towards SQL query debugging and fixing to recover missing query results based on query-based explanations and query refinements.Our contribution to query debugging consist in two different approaches. The first one is a tree-based approach. First, we provide the formal framework around Why-Not questions, missing from the state-of-the-art. Then, we review in detail the state-of-the-art, showing how it probably leads to inaccurate explanations or fails to provide an explanation. We further propose the NedExplain algorithm that computes correct explanations for SPJA queries and unions there of, thus considering more operators (aggregation) than the state of the art. Finally, we experimentally show that NedExplain is better than the both in terms of time performance and explanation quality. However, we show that the previous approach leads to explanations that differ for equivalent query trees, thus providing incomplete information about what is wrong with the query. We address this issue by introducing a more general notion of explanations, using polynomials. The polynomial captures all the combinations in which the query conditions should be fixed in order for the missing tuples to appear in the result. This method is targeted towards conjunctive queries with inequalities. We further propose two algorithms, Ted that naively interprets the definitions for polynomial explanations and the optimized Ted++. We show that Ted does not scale well w.r.t. the size of the database. On the other hand, Ted++ is capable ii of efficiently computing the polynomial, relying on schema and data partitioning and advantageous replacement of expensive database evaluations by mathematical calculations. Finally, we experimentally evaluate the quality of the polynomial explanations and the efficiency of Ted++, including a comparative evaluation.For query fixing we propose is a new approach for refining a query by leveraging polynomial explanations. Based on the input data we propose how to change the query conditions pinpointed by the explanations by adjusting the constant values of the selection conditions. In case of joins, we introduce a novel type of query refinements using outer joins. We further devise the techniques to compute query refinements in the FixTed algorithm, and discuss how our method has the potential to be more efficient and effective than the related work.Finally, we have implemented both Ted++ and FixTed in an system prototype. The query debugging and fixing platform, short EFQ allows users to nteractively debug and fix their queries when having Why- Not questions
APA, Harvard, Vancouver, ISO, and other styles
37

Bouges, Pierre. "Gestion de données manquantes dans des cascades de boosting : application à la détection de visages." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2012. http://tel.archives-ouvertes.fr/tel-00840842.

Full text
Abstract:
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe ISPR (ImageS, Perception systems and Robotics) de l'Institut Pascal au sein de l'équipe ComSee (Computers that See). Ces travaux s'inscrivent dans le cadre du projet Bio Rafale initié par la société clermontoise Vesalis et financé par OSEO. Son but est d'améliorer la sécurité dans les stades en s'appuyant sur l'identification des interdits de stade. Les applications des travaux de cette thèse concernent la détection de visages. Elle représente la première étape de la chaîne de traitement du projet. Les détecteurs les plus performants utilisent une cascade de classifieurs boostés. La notion de cascade fait référence à une succession séquentielle de plusieurs classifieurs. Le boosting, quant à lui, représente un ensemble d'algorithmes d'apprentissage automatique qui combinent linéairement plusieurs classifieurs faibles. Le détecteur retenu pour cette thèse utilise également une cascade de classifieurs boostés. L'apprentissage d'une telle cascade nécessite une base d'apprentissage ainsi qu'un descripteur d'images. Cette description des images est ici assurée par des matrices de covariance. La phase d'apprentissage d'un détecteur d'objets détermine ces conditions d'utilisation. Une de nos contributions est d'adapter un détecteur à des conditions d'utilisation non prévues par l'apprentissage. Les adaptations visées aboutissent à un problème de classification avec données manquantes. Une formulation probabiliste de la structure en cascade est alors utilisée pour incorporer les incertitudes introduites par ces données manquantes. Cette formulation nécessite l'estimation de probabilités a posteriori ainsi que le calcul de nouveaux seuils à chaque niveau de la cascade modifiée. Pour ces deux problèmes, plusieurs solutions sont proposées et de nombreux tests sont effectués pour déterminer la meilleure configuration. Enfin, les applications suivantes sont présentées : détection de visages tournés ou occultés à partir d'un détecteur de visages de face. L'adaptation du détecteur aux visages tournés nécessite l'utilisation d'un modèle géométrique 3D pour ajuster les positions des sous-fenêtres associées aux classifieurs faibles.
APA, Harvard, Vancouver, ISO, and other styles
38

Bock, Dumas Élodie de. "Identification de stratégies d’analyse de variables latentes longitudinales en présence de données manquantes potentiellement informatives." Nantes, 2014. http://archive.bu.univ-nantes.fr/pollux/show.action?id=ed3dcb7e-dec1-4506-b99d-50e3448d1ce4.

Full text
Abstract:
Le but de cette étude était d'identifier des stratégies pour analyser des variables latentes longitudinales (patient reported outcomes – PRO) en présence de données manquantes potentiellement informatives. Des modèles, issus de la thérorie classique des tests et de la famille des modèles de Rasch, ont été comparés. Dans le but d'obtenir une comparaison objective de ces méthodes, des études de simulation ont été mises en place. De plus, des exemples illustratifs ont été analysés. Ce travail de recherche a montré que la méthode issue des modèles de la famille de Rasch donne de meilleurs résultats que l'autre méthode dans certaines conditions, surtout du point de vue de la puissance. Cependant, des limites ont été mises en évidence. De plus, des résultats ont été obtenus concernant les conditions d'utilisation de l'imputation par la moyenne<br>The purpose of this study was to identify the most adequate strategy to analyse longitudinal latent variables (patient reported outcomes) when potentially informative missing data are observed. Models coming from classical test theory and Rasch-family were compared. In order to obtain an objective comparison of these methods, simulation studies were used. Moreover, illustrative examples were analysed. This research work showed that the method that comes from Rasch-family models performs better than the other in some circumstances, mainly for power. However, limitations were highlighted. Moreover, some results were obtained about personal mean score imputation
APA, Harvard, Vancouver, ISO, and other styles
39

Petit, Renaud Simon. "Application de la théorie des croyances et des systèmes flous à l'estimation fonctionnelle en présence d'informations incertaines ou imprécises." Compiègne, 1999. http://www.theses.fr/1999COMP1237.

Full text
Abstract:
L’estimation des relations de dépendance entre variables est généralement déterminée à partir de modèles probabilistes. Cependant, ces modèles sont souvent inadaptés aux données définies de façon imprécise ou lors de la prise en compte d'informations non numériques, comme le jugement d'un expert. La théorie des ensembles flous et la théorie des croyances permettent au contraire de tenir compte de ces imperfections. Nous avons d'abord proposé un système neuro-flou pour la reconstruction de données manquantes. Le principe est d'utiliser une base de règles floues construites à partir des relations entre les composantes des vecteurs d'un ensemble d'apprentissage. Notre méthode permet d'estimer toutes les variables manquantes d'un vecteur dans un seul modèle, quel que soit le nombre de variables disponibles. Nous l'avons appliquée à des données environnementales, dans le cadre du projet européen EM2S. Une comparaison avec certaines approches probabilistes a été étudiée. Ensuite, nous avons proposé une méthode de régression généralisée basée sur la théorie des croyances. L’information apportée par chaque élément de l'ensemble d'apprentissage est représentée par une structure de croyance définie par la sortie associée au vecteur d'apprentissage et par la distance au vecteur étudié. Cette approche permet une caractérisation de différents types d'incertitudes sur la sortie. Pour optimiser les performances du modèle, un critère d'erreur entre deux structures de croyance a été défini, généralisant une distance classique entre intervalles réels. Afin de diminuer le temps de calcul pour l'obtention de la structure finale, deux types de méthodes ont été développés. L’un d'eux consiste simplement à résumer l'information par classification de l'ensemble d'apprentissage. L’autre repose sur l'approximation des structures de croyance par classification hiérarchique des éléments focaux ou par optimisation de critères d'information.
APA, Harvard, Vancouver, ISO, and other styles
40

Nguyen, Huu Du. "System Reliability : Inference for Common Cause Failure Model in Contexts of Missing Information." Thesis, Lorient, 2019. http://www.theses.fr/2019LORIS530.

Full text
Abstract:
Le bon fonctionnement de l’ensemble d’un système industriel est parfois fortement dépendant de la fiabilité de certains éléments qui le composent. Une défaillance de l’un de ces éléments peut conduire à une défaillance totale du système avec des conséquences qui peuvent être catastrophiques en particulier dans le secteur de l’industrie nucléaire ou dans le secteur de l’industrie aéronautique. Pour réduire ce risque de panne catastrophique, une stratégie consiste à dupliquer les éléments sensibles dans le dispositif. Ainsi, si l’un de ces éléments tombe en panne, un autre pourra prendre le relais et le bon fonctionnement du système pourra être maintenu. Cependant, on observe couramment des situations qui conduisent à des défaillances simultanées d’éléments du système : on parle de défaillance de cause commune. Analyser, modéliser, prédire ce type d’événement revêt donc une importance capitale et sont l’objet des travaux présentés dans cette thèse. Il existe de nombreux modèles pour les défaillances de cause commune. Des méthodes d’inférence pour étudier les paramètres de ces modèles ont été proposées. Dans cette thèse, nous considérons la situation où l’inférence est menée sur la base de données manquantes. Nous étudions en particulier le modèle BFR (Binomial Failure Rate) et la méthode des facteurs alpha. En particulier, une approche bayésienne est développée en s’appuyant sur des techniques algorithmiques (Metropolis, IBF). Dans le domaine du nucléaire, les données de défaillances sont peu abondantes et des techniques particulières d’extrapolations de données doivent être mis en oeuvre pour augmenter l’information. Nous proposons dans le cadre de ces stratégies, des techniques de prédiction des défaillances de cause commune. L’actualité récente a mis en évidence l’importance de la fiabilité des systèmes redondants et nous espérons que nos travaux contribueront à une meilleure compréhension et prédiction des risques de catastrophes majeures<br>The effective operation of an entire industrial system is sometimes strongly dependent on the reliability of its components. A failure of one of these components can lead to the failure of the system with consequences that can be catastrophic, especially in the nuclear industry or in the aeronautics industry. To reduce this risk of catastrophic failures, a redundancy policy, consisting in duplicating the sensitive components in the system, is often applied. When one of these components fails, another will take over and the normal operation of the system can be maintained. However, some situations that lead to simultaneous failures of components in the system could be observed. They are called common cause failure (CCF). Analyzing, modeling, and predicting this type of failure event are therefore an important issue and are the subject of the work presented in this thesis. We investigate several methods to deal with the statistical analysis of CCF events. Different algorithms to estimate the parameters of the models and to make predictive inference based on various type of missing data are proposed. We treat confounded data using a BFR (Binomial Failure Rare) model. An EM algorithm is developed to obtain the maximum likelihood estimates (MLE) for the parameters of the model. We introduce the modified-Beta distribution to develop a Bayesian approach. The alpha-factors model is considered to analyze uncertainties in CCF. We suggest a new formalism to describe uncertainty and consider Dirichlet distributions (nested, grouped) to make a Bayesian analysis. Recording of CCF cause data leads to incomplete contingency table. For a Bayesian analysis of this type of tables, we propose an algorithm relying on inverse Bayes formula (IBF) and Metropolis-Hasting algorithm. We compare our results with those obtained with the alpha- decomposition method, a recent method proposed in the literature. Prediction of catastrophic event is addressed and mapping strategies are described to suggest upper bounds of prediction intervals with pivotal method and Bayesian techniques. Recent events have highlighted the importance of reliability redundant systems and we hope that our work will contribute to a better understanding and prediction of the risks of major CCF events
APA, Harvard, Vancouver, ISO, and other styles
41

Gouba, Elisée. "Identification de paramètres dans les systèmes distribuées à données manquantes : modèles mathématiques de la performance en sport." Antilles Guyane, 2010. http://www.theses.fr/2010AGUY0330.

Full text
Abstract:
Deux thèmes ont été abordés dans cette thèse: Identification de paramètres dans les systèmes distribués à données manquantes en première partie et modèles mathématiques de la performance en sport en seconde partie. La première partie concerne donc l'identification de la perméabilité d'un réservoir pétrolier en écoulement monophasique. Le modèle non linèaire dont nous disposons est incomplet dans le sens où la condition initiale, la condition aux limites et certains paramètres pétrophysiques du modèle ne sont que partiellement connus. Deux approches sont possibles, l'une classique utilisant la méthode des moindres carrés et l'autre plus ciblée utilisant la méthode des sentinelles développée par J. L. Lions. Dans ce travail, nous montrons d'abord que le problème de la sentinelle est équivalent à un problème de contrôlabilité à zéro. Nous résolvons ensuite ce problème de contrôlabilité par la méthode variationnelle rendue possible grâce aux inégalités de Carleman. La seconde partie de cette thèse est consacrée au modèle mathématique de la performance en sport proposé par Banister en 1975. Nous appliquons ce modèle pour la première fois aux données physiologiques d'une nageuse monopalme puis nous proposons un modèle qui améliore celui de Banister<br>Two topics were studied in this thesis: parameter's identification in distributed systems with missing data in first part and mathematical models of performance in sports in second part. The aim of the first part of this thesis is to identify the permeability parameter of an oil tanks in monophasic flow. The nonlinear model w have is a system with incomplete data in the sense that the initial condition, the boundary conditions and some petro-physical parameters of the model are partially known. Two approaches are possible, one using the classical method of least squares and the other more targeted using the sentinel method developed by J. L. Lions. Ln this work, we first show that the sentinel problem is equivalent to a null controllability problem. And we solves the problem of null controllability by the variational method made possible by the Carleman inequalities. The second part of this thesis is devoted to the mathematical model of performance in sports proposed by Banister in 1975. We firstly apply this model at physiological data of monofin swimmer and we propose a model that improves Banister's mode/
APA, Harvard, Vancouver, ISO, and other styles
42

Kezouit, Omar Abdelaziz. "Bases de données relationnelles et analyse de données : conception et réalisation d'un système intégré." Paris 11, 1987. http://www.theses.fr/1987PA112130.

Full text
Abstract:
Les utilisateurs de bases de données relationnelles ont de plus en plus souvent tendance à attendre des Systèmes de Gestion de Bases de Données (SGBD) des fonctionnalités qui aillent plus loin que l'organisation le stockage et la restitution d'un ensemble de données. D'un autre côté, les utilisateurs de l'analyse statistique multidimensionnelle, qui traitent des tableaux de données rectangulaires, ont de gros problèmes de gestion de leurs données et les outils dont ils disposaient jusqu'à présent manquaient souvent de souplesse, voire de possibilités. Pour répondre à cette préoccupation, cette thèse propose de rapprocher bases de données relationnelles et analyse statistique multidimensionnelle à travers la réalisation d'un système intégrant un SGBD relationnel et un système d'analyse de données, et de montrer par là même tout le bénéfice qui peut en être tiré du point de vue de l'interrogation des données. La première partie se propose de présenter les problèmes généraux naissant de l'intégration. Après une présentation des deux domaines et de certains travaux en bases de données statistiques, nous proposons une synthèse des notions de l'analyse statistique multidimensionnelle et des bases de données relationnelles. Ceci permettra de déboucher sur les spécifications d'un outil intégré de gestion et d'analyse des données et également de mettre en évidence un problème de cohérence particulier. Outre l'apport provenant de chaque part (gestion des données plus performante grâce au SGBD, interrogation statistique grâce au système d'analyse des données), des possibilités nouvelles naissent de l'intégration. Il s'agit principalement de la capacité d'effectuer des requêtes approximatives, que nous défroissons à cette occasion, sur une base de données et de la résolution dans certains cas du problème des données manquantes. La seconde partie est consacrée à la présentation d'une réalisation particulière. Nous avons pour cela intégré le SGBD relationnel PEPIN et le Système de classification automatique SICLA. Le prototype opérationnel permet ainsi de gérer une base de données relationnelle et de l'interroger statistiquement. Un exemple d'utilisation pour le traitement d'une enquête est donné.
APA, Harvard, Vancouver, ISO, and other styles
43

Ben, Othman Leila. "Conception et validation d'une méthode de complétion des valeurs manquantes fondée sur leurs modèles d'apparition." Phd thesis, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-01017941.

Full text
Abstract:
L'extraction de connaissances à partir de données incomplètes constitue un axe de recherche en plein essor. Dans cette thèse, nous y contribuons par la proposition d'une méthode de complétion des valeurs manquantes. Nous commençons par aborder cette problématique par la définition de modèles d'apparition des valeurs manquantes. Nous en proposons une nouvelle typologie en fonction des données connues et nous les caractérisons de façon non redondante grâce à la base d'implications propres. Un algorithme de calcul de cette base de règles, formalisé à partir de la théorie des hypergraphes, est également proposé dans cette thèse. Ensuite, nous exploitons les informations fournies lors de l'étape de caractérisation afin de proposer une méthode de complétion contextualisée, qui complète les valeurs manquantes selon le type aléatoire/non-aléatoire et selon le contexte. La complétion des valeurs manquantes non aléatoires est effectuée par des valeurs spéciales, renfermant intrinsèquement les origines des valeurs manquantes et déterminées grâce à des schémas de caractérisation. Finalement, nous nous intéressons aux techniques d'évaluation des méthodes de complétion et nous proposons une nouvelle technique fondée sur la stabilité d'un clustering entre les données de référence et les données complétées.
APA, Harvard, Vancouver, ISO, and other styles
44

Tu, Nguyen Trung. "Estimation par ondelettes pour des données longitudinales." Paris 7, 2011. http://www.theses.fr/2011PA077001.

Full text
Abstract:
Cette thèse traite principalement des problèmes d'analyse des données longitudinales. Dans le cadre de l'estimation non paramétrique, une technique particulièrement intéressante consiste à utiliser des bases d'ondelettes. Le but de cette thèse est d'obtenir de bonnes procédures d'estimation par ondelettes pour des données longitudinales. Lors d'une analyse des données longitudinales, nous recevons régulièrement des observations d'un ensemble d'individus mesurées en temps aléatoires. Les études récentes montrent que les corrélations entre des observations d'un même individu portent des informations importantes et ne peuvent plus être négligeables comme dans les modèles classiques. Il est certes intéressant de tenir compte de ces corrélations mais elles posent des problèmes techniques difficiles à gérer. Dans de telles circonstances, serait-il possible d'adopter des outils classiques ? Quelles sont les hypothèses nécessaires pour bien analyser ces données ? Comment interviennent-elles les corrélations dans la performance de ces études ? Pouvons-nous toujours avoir des procédures adaptatives qui ne demandent pas d'informations a priori ? Les résultats établis dans cette thèse permettent de répondre à ces questions. Dans le cadre de notre travail, nous considérons deux modèles longitudinaux : le modèle général et le modèle linéaire longitudinal. Nous travaillons principalement sur le modèle général pour lequel nous proposons un schéma d'estimation qui contient plusieurs étapes. Ces différentes étapes de seront explicitées successivement dans les chapitres 3, 4 et 5. Le chapitre 6 présentera les résultats pour le modèle linéaire longitudinal. Chaque chapitre correspond à une ou plusieurs réponses aux questions précédentes. Au sein du chapitre 3, nous apporterons des procédures d'estimation linéaires de deux fonctions essentielles (la moyenne et la covariance) de l'approche ACP. Dans cette étape, l'intervention des corrélations dans la performance se présente comme une nouvelle borne du risque quadratique. L'estimation par ondelettes est particulièrement bien adaptée pour résoudre les difficultés techniques générées par l'autocorrélation. Sous les hypothèses gaussiennes, nous pouvons montrer que la procédure d'estimation est optimale sur le plan minimax. Les chapitres 4 et 5 proposeront des procédures d'estimation adaptatives par la méthode de seuillage en ondelettes. Dans cette étape, nous étudions les deux cas du modèle : borné et gaussien. Concernant l'estimation de la moyenne, un cas intéressant - le cas brownien - sera examiné dans la section 4. 3. 3. Une comparaison numérique avec la méthode localement linéaire sera faite dans la section 4. 4. Le chapitre 5 terminera notre schéma par l'estimation de la covariance, toujours pour les deux cas considérés. Chacun de ces chapitres peut être lu indépendamment les uns des autres. Les résultats principaux seront résumés dans le chapitre 2. Une brève introduction sur les données longitudinales, les méthodes classiques et l'approche principale est présentée dans le chapitre 1<br>This thesis mainly deals with problems of analysis of longitudinal data. In the context of nonparametric estimation, a technique particularly interesting consists of wavelet estimation methods. This thesis proposes wavelet estimation procedures for longitudinal data and studies their asymptotical properties. Generally, in longitudinal data analysis, we regularly collect data, measured from a group of individuals in random times. Recent studies show that the autocorrelations of the observations (of the same subject) should be taken into account to draw valid scientific inferences. It is essential to consider these autocorrelation, but they pose difficult technical problems to manage when we analyze the asymptotic behaviors of the estimation procedures. In such circumstances, would it be possible to adopt the standard non-parametric estimation tools? What assumptions are needed to properly analyze these data? How do the correlations behave in the asymptotical properties? Is there any adaptive estimation procedure that does not require any priori information? The results established in this thesis help answering these questions. Two longitudinal models: the general model and the longitudinal linear model are considered in our work. The main results are studied for the general model in which a completed estimation scheme, containing separated steps, is proposed. These different steps will be explained successively in chapters 3, 4 and 5. Chapter 6 will present the results for the longitudinal linear model. Each chapter corresponds to one or more answers to the previous questions. In chapter 3, a linear procedure is studied to estimate two essential fonctions (mean and covariance) of thé PCA approach. In this case, the impact of the autocorrelations is presented as a new component of the quadratic risk. Wavelet estimation methods are particularly well suited to solve the technical difficulties generated by the autocorrelation. Moreover, under Gaussian assumptions, our estimation procedures are clearly proved to be optimal in the minimax sense. Chapters 4 and 5 propose adaptive estimation procedures by using wavelet shrinkage methods. In this step, we study two separated cases of the model: when the unknown random process is bounded or Gaussian. Furthermore, the case Brownian is discussed in Section 4. 3. 3. A numerical comparison with the locally linear method will be made in Section 4. 4. Chapter 5 will complete our scheme by estimating the covariance function, consecutively for these two previous cases. Each of these chapters could be read independently of each other. The main results are summarized in Chapter 2. A brief introduction of longitudinal data, conventional methods and the main approach is presented in Chapter 1
APA, Harvard, Vancouver, ISO, and other styles
45

Picard, Jacques. "Structure, classification et discrimination des profils évolutifs incomplets et asynchrones." Lyon 1, 1987. http://www.theses.fr/1987LYO19044.

Full text
APA, Harvard, Vancouver, ISO, and other styles
46

Viallon, Vivian. "Processus empiriques, estimation non paramétrique et données censurées." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00119260.

Full text
Abstract:
La théorie des processus empiriques joue un rôle central en statistique, puisqu'elle concerne l'ensemble des résultats limites généraux se rapportant aux échantillons aléatoires. En particulier, des lois uniformes du logarithme ont permis d'aborder de manière systématique la convergence en norme sup des estimateurs à noyau. Dans cette thèse, nous obtenons premièrement des lois fonctionnelles uniformes du logarithme pour les incréments du processus des quantiles normé, qui permettent d'établir des propriétés nouvelles des estimateurs basés sur les k-plus proches voisins. Le même type de résultat est ensuite obtenu pour les incréments du processus empirique de Kaplan-Meier, conduisant naturellement à des lois du logarithme uniformes pour des estimateurs de la densité et du taux de mortalité en présence de censure à droite. Dans le cas de la régression multivariée, des lois analogues sont obtenues pour des estimateurs à noyau, notamment dans le cas censuré. Enfin, nous développons un estimateur non paramétrique de la régression sous l'hypothèse du modèle additif dans le cas de censure à droite, permettant de se défaire du fléau de la dimension. Cet estimateur repose essentiellement sur la méthode d'intégration marginale.
APA, Harvard, Vancouver, ISO, and other styles
47

Lorga, Da Silva Ana. "Tratamento de dados omissos e métodos de imputação em classificação." Doctoral thesis, Instituto Superior de Economia e Gestão, 2005. http://hdl.handle.net/10400.5/3849.

Full text
Abstract:
Doutoramento em Matemática Aplicada à Economia e à Gestão<br>Neste trabalho, pretende-se estudar o efeito dos dados omissos em classificação de variáveis, principalmente em classificação hierárquica ascendente, de acordo com.òs seguintes factores: percentagens de dados omissos, métodos de imputação, coeficientes de semelhança-e métodos de classificação. Supõe-se que os dados omissos são do tipo MAR ("missing at random"), isto é, a presença de dados omissos não depende dos valores omissos, nem das variáveis com dados omissos, mas depende de valores observados sobre outras variáveis da matriz de dados. Os dados omissos satisfazem um padrão maioritariamente monótono. Utilizaram-se as técnicas, em presença de dados omissos "listwise" e "pairwise"; como métodos de imputação simples: o algoritmo EM, o modelo de regressão OLS, o algoritmo MPALS e um método de regressão PLS. Como métodos de imputação múltipla, adoptou-se um método baseado sobre o modelo de regressão OLS associado a técnicas bayesianas; propôs-se também um novo método de imputação múltipla baseado sobre os métodos de regressão PLS. Como métodos de classificação hierárquica utilizaram-se classificações clássicas e probabilísticas, estas últimas baseadas na família de métodos VL (validade da ligação). Os métodos de classificação hierárquica utilizados foram, "single", "complete" e "average" "linkage", AVL e AYB. Para as matrizes de semelhança utilizou-se o coeficiente de afinidade básico (para dados contínuos) - que corresponde ao índice d'Ochiai para dados binários; o coeficiente de correlação de Pearson e a aproximação probabilística do coeficiente de afinidade centrado e reduzido pelo método-W. O estudo foi baseado em dados simulados e reais. Utilizou-se o coeficiente de Spearman, para comparar as estruturas de classificação hierárquicas e para as classificações não hierárquicas o índice de Rand.<br>Le but de ce travail est d'étudier l’effet des données manquantes en classification de variables, principalement en classification hiérarchique ascendante, et aussi en classification non hiérarchique (ou partitionnement). L'étude est effectuée en considérant les facteurs suivants: pourcentage de données manquantes, méthodes d'imputation, coefficients de ressemblance et critères de classification. On suppose que les données manquantes sont du type MAR («missing at random») données manquantes au hasard, mais pas. complètement au hasard.. Les données manquantes satisfont un schéma majoritairement monotone. Nous avons utilisé comme techniques sans imputation les méthodes lisîwise et pairwise et comme méthodes d'imputation simple: l'algorithme EM, le modèle de régression OLS, l’algorithme NIPALS et une méthode de régression PLS., Comme méthodes d'imputation multiple nous avons adopté une méthode basée sur le modèle de régression OLS associé à des techniques bayesiennes; on a aussi proposé un nouveau modèle d'imputation multiple basé sur les méthodes de régression PLS. Pour combiner les structures de classification résultant des méthodes d'imputation multiple nous avons proposé une combinaison par la moyenne des matrices de similarité et deux méthodes de consensus. Nous avons utilisé comme méthodes de classification hiérarchique des méthodes classiques et probabilistes, ces dernières basées sur la famille de méthodes VL (Vraisemblance du Lien), comme méthodes de classification hiérarchique, le saut minimal, le saut maximal, la moyenne parmi les groupes et aussi les AVL et AVB; pour les matrices de ressemblance, le coefficient d'affinité basique (pour les données continues) - qui correspond à l'indice d'Ochiai; pour les données binaires, le coefficient de corrélation de Bravais-Pearson et l'approximation probabiliste du coefficient d'affinité centré et réduit par la méthode-W. L'étude est basée principalement sur des données simulées et complétée par des applications à des données réelles. Nous avons travaillé sur des données continues et binaires. Le coefficient de Spearman est utilisé pour comparer les structures hiérarchiques obtenues sur des matrices complètes avec les structures obtenues à partir des matrices ; où les données sont «effacées» puis imputées. L'indice de Rand est utilisé pour comparer les structures non hiérarchiques. Enfin, nous avons aussi proposé une méthode non hiérarchique qui «s'adapte» aux données manquantes. Sur un cas réel la méthode de Ward est utilisée dans les mêmes conditions que pour les simulations; mais aussi sans satisfaire un schéma monotone; une méthode de Monte Carlo par chaînes de Markov sert pour l'imputation multiple.<br>In this work we aimed to study the effect of missing data in classification of variables; mainly in ascending hierarchical classification, according to the following factors: amount of missing data, imputation techniques, similarity coefficient and classification-criterion. We used as techniques in presence of missing data, listwise and pairwise; as simple imputation methods, an EM algorithm, the OLS regression method, the NIPALS algorithm and a PLS regression method. As multiple imputation, we used a method based on the OLS regression and a new one based on PLS, combined by the mean value of the similarity matrices and an ordinal consensus. As hierarchical methods we used classical and. probabilistic approaches, the latter based on the VL-family. The hierarchical methods used were single, complete and average linkage, AVL and AVB. For the similarity matrices we used the basic affinity coefficient (for continuous data) - that corresponds to the Ochiai index for binary data; the Pearson's correlation coefficient and the probabilistic approach of the affinity coefficient, centered and reduced by the W-method.. The study was based mainly on simulated data, complemented by real ones. We used the Spearman.coefficient between the associated ultrametrics to compare the structures of the hierarchical classifications and, for the non hierarchical classifications, the Rand's index.
APA, Harvard, Vancouver, ISO, and other styles
48

Brulin, Damien. "Fusion de données multi-capteurs pour l'habitat intelligent." Thesis, Orléans, 2010. http://www.theses.fr/2010ORLE2066/document.

Full text
Abstract:
Le concept d’habitat intelligent s’est largement développé ces dernières années afin de proposer des solutions face à deux préoccupations majeures : la gestion optimisée de l’énergie dans le bâtiment et l’aide au maintien à domicile de personnes âgées. C’est dans ce contexte que le projet CAPTHOM, dans lequel s’inscrit cette thèse, a été développé. Pour répondre à ces problématiques, de nombreux capteurs, de natures différentes, sont utilisés pour la détection de la présence humaine, la détermination de la localisation et de la posture de la personne. En effet, aucun capteur, ne peut, seul, répondre à l’ensemble de ces informations justifiant le développement d’un dispositif multi-capteurs et d’une politique de fusion de données. Dans ce projet, les capteurs retenus sont les détecteurs infrarouges passifs, les thermopiles et la caméra. Aucun capteur n’est porté par la personne (non invasivité du dispositif). Nous proposons une architecture globale du capteur intelligent composée de quatre modules de fusion permettant respectivement de détecter la présence humaine, de localiser en 3D la personne, de déterminer la posture et d’aider à la prise de décision finale selon l’application visée. Le module de détection de présence fusionne les informations des trois capteurs : les détecteurs IRP pour la détection du mouvement, les thermopiles pour la présence en cas d’immobilité de la personne et la caméra pour identifier l’entité détectée. La localisation 3D de la personne est réalisée grâce à l’estimation de position sur horizon glissant. Cette méthode, nommée Visual Receding Horizon Estimation (VRHE), formule le problème d’estimation de position en un problème d’optimisation non linéaire sous contraintes dans le plan image. Le module de fusion pour la détermination de posture s’appuie sur la théorie des ensembles flous. Il assure la détermination de la posture indépendamment de la personne et de sa distance vis à vis de la caméra. Enfin, un module d’aide à la décision fusionne les sorties des différents modules et permet de déclencher des alarmes dans le cas de la surveillance de personnes âgées ou de déclencher des applications domotiques (chauffage, éclairage) pour la gestion énergétique de bâtiments<br>The smart home concept has been widely developed in the last years in order to propose solutions for twomain concerns : optimized energy management in building and help for in-home support for elderly people.In this context, the CAPTHOM project, in which this thesis is in line with, has been developed. To respondto these problems, many sensors, of different natures, are used to detect the human presence, to determinethe position and the posture of the person. In fact, no sensor can , alone, answers to all information justifyingthe development of a multi-sensor system and a data fusion method. In this project, the selected sensorsare passive infrared sensors (PIR), thermopiles and a video camera. No sensor is carried by the person(non invasive system). We propose a global architecture of intelligent sensor made of four fusion modulesallowing respectively to detect the human presence, to locate in 3D the person, to determine the posture andto help to make a decision according to the application. The human presence module fuses information ofthe three sensors : PIR sensors for the movement, thermopiles for the presence in case of immobility and thecamera to identify the detected entity. The 3D localisation of the person is realized thanks to position recedinghorizon estimation. This method, called Visual Receding Horizon Estimation (VRHE), formulates the positionestimation problem into an nonlinear optimisation problem under constraints in the image plane. The fusionmodule for the posture determination is based on fuzzy logic. It insures the posture determination regardlessof the person and the distance from the camera. Finally, the module to make a decision fuses the outputs of the preceding modules and gives the opportunity to launch alarms (elderly people monitoring) or to commandhome automation devices (lightning, heating) for the energy management of buildings
APA, Harvard, Vancouver, ISO, and other styles
49

Rioult, François. "Extraction de connaissances dans les bases de donn'ees comportant des valeurs manquantes ou un grand nombre d'attributs." Phd thesis, Université de Caen, 2005. http://tel.archives-ouvertes.fr/tel-00252089.

Full text
Abstract:
L'extraction de connaissances dans les bases de données est une discipline récente visant à la découverte de nouvelles connaissances. L'extraction de motifs y est une tâche centrale et cette thèse traite de deux cas présentant un caractère générique et particulièrement utile dans de nombreuses applications : celui des bases de données entachées de valeurs manquantes ou comportant un grand nombre d'attributs. Le premier cas est un problème ancien concernant les données issues du monde réel. Sans traitement particulier, les valeurs manquantes sont sources de graves dommages dans les connaissances extraites. Pour faire face à ce problème, nous proposons un mécanisme de désactivation temporaire des objets incomplets. Il permet d'effectuer des calculs dans une base incomplète, qui mettent en évidence des propriétés des données qui sont compatibles avec les propriétés de la base complète. Nous montrons un résultat de consistance des motifs k-libres extraits dans la base avec des valeurs manquantes. Ces propriétés sont exploitées avec celles issues de la base opposée pour proposer une méthode originale de construction de règles d'association informatives généralisées. Un outil logiciel a été développé pour l'extraction des motifs k-libres en présence de données incomplètes. Le deuxième cas concerne les bases de données aux dimensions inhabituelles, comportant nettement plus d'attributs que d'objets, configuration rendant difficile voire impossible l'application des algorithmes classiques. De nombreuses applications sont caractérisées par des données de ce type. Par exemple le domaine scientifique émergent de l'analyse du génome produit des données sur des dizaines de milliers de gènes, mais les expériences biologiques qui déterminent la séquence de gènes sont coûteuses et donc peu nombreuses. Nous avons développé un cadre formel pour l'extraction de motifs contraints dans ces données, en utilisant un principe de transposition et les propriétés de la connexion de Galois. Ce cadre permet de choisir l'orientation de la base de données qui est la plus favorable pour les algorithmes d'extraction. Les contraintes de recherche sont également transposables, et permettent d'obtenir les motifs contraints en menant les extractions dans le contexte transposée. Enfin, à partir des contributions précédentes, l'utilisation de règles d'association généralisées à des fins d'apprentissage supervisé et de motifs émergents forts complète ces travaux dans le cadre d'applications concernant des données médicales et génomiques.
APA, Harvard, Vancouver, ISO, and other styles
50

Tabouy, Timothée. "Impact de l’échantillonnage sur l’inférence de structures dans les réseaux : application aux réseaux d’échanges de graines et à l’écologie." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS289/document.

Full text
Abstract:
Dans cette thèse nous nous intéressons à l’étude du modèle à bloc stochastique (SBM) en présence de données manquantes. Nous proposons une classification des données manquantes en deux catégories Missing At Random et Not Missing At Random pour les modèles à variables latentes suivant le modèle décrit par D. Rubin. De plus, nous nous sommes attachés à décrire plusieurs stratégies d’échantillonnages de réseau et leurs lois. L’inférence des modèles de SBM avec données manquantes est faite par l’intermédiaire d’une adaptation de l’algorithme EM : l’EM avec approximation variationnelle. L’identifiabilité de plusieurs des SBM avec données manquantes a pu être démontrée ainsi que la consistance et la normalité asymptotique des estimateurs du maximum de vraisemblance et des estimateurs avec approximation variationnelle dans le cas où chaque dyade (paire de nœuds) est échantillonnée indépendamment et avec même probabilité. Nous nous sommes aussi intéressés aux modèles de SBM avec covariables, à leurs inférence en présence de données manquantes et comment procéder quand les covariables ne sont pas disponibles pour conduire l’inférence. Finalement, toutes nos méthodes ont été implémenté dans un package R disponible sur le CRAN. Une documentation complète sur l’utilisation de ce package a été écrite en complément<br>In this thesis we are interested in studying the stochastic block model (SBM) in the presence of missing data. We propose a classification of missing data into two categories Missing At Random and Not Missing At Random for latent variable models according to the model described by D. Rubin. In addition, we have focused on describing several network sampling strategies and their distributions. The inference of SBMs with missing data is made through an adaptation of the EM algorithm : the EM with variational approximation. The identifiability of several of the SBM models with missing data has been demonstrated as well as the consistency and asymptotic normality of the maximum likelihood estimators and variational approximation estimators in the case where each dyad (pair of nodes) is sampled independently and with equal probability. We also looked at SBMs with covariates, their inference in the presence of missing data and how to proceed when covariates are not available to conduct the inference. Finally, all our methods were implemented in an R package available on the CRAN. A complete documentation on the use of this package has been written in addition
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography