Dissertations / Theses on the topic 'Imputation des données manquantes'

To see the other types of publications on this topic, follow the link: Imputation des données manquantes.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Imputation des données manquantes.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Bernard, Francis. "Méthodes d'analyse des données incomplètes incorporant l'incertitude attribuable aux valeurs manquantes." Mémoire, Université de Sherbrooke, 2013. http://hdl.handle.net/11143/6571.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Lorsqu'on réalise une analyse des données dans le cadre d'une enquête, on est souvent confronté au problème des données manquantes. L'une des solutions les plus fréquemment utilisées est d'avoir recours aux méthodes d'imputation simple. Malheureusement, ces méthodes souffrnt d'un handicap important : les estimations courantes basées sur les valeurs observées et imputées considèrent à tort les valeurs imputées comme des valeurs connues, bien qu'une certaine forme d'incertitude plane au sujet des valeurs à imputer. En particulier, les intervalles de confiance pour les paramètres d'intérêt basés sur les données ainsi complétées n'incorporent pas l'incertitude qui est attribuable aux valeurs manquantes. Les méthodes basées sur le rééchantillonnage et l'imputation multiple -- une généralisation de l'imputation simple -- s'avèrent toutes deux des solutions courantes convenables au problème des données manquantes, du fait qu'elles incorporent cette incertitude. Une alternative consiste à avoir recours à l'imputation multiple à deux niveaux, une généralisation de l'imputation multiple (conventionnelle) qui a été développée dans la thèse que Shen [51] a rédigée en 2000 et qui permet d'exploiter les situations où la nature des valeurs manquantes suggère d'effectuer la procédure d'imputation en deux étapes plutôt qu'en une seule. Nous décrirons ces méthodes d'analyse des données incomplètes qui incorporent l'incertitude attribuable aux valeurs manquantes, nous soulèverons quelques problématiques intéressantes relatives au recours à ces méthodes et nous y proposerons des solutions appropriées. Finalement, nous illustrerons l'application de l'imputation multiple conventionnelle et de l'imputation multiple à deux niveaux au moyen d'exemples simples et concrets.
2

Audigier, Vincent. "Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes." Thesis, Rennes, Agrocampus Ouest, 2015. http://www.theses.fr/2015NSARG015/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev
This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods
3

Héraud, Bousquet Vanina. "Traitement des données manquantes en épidémiologie : application de l’imputation multiple à des données de surveillance et d’enquêtes." Thesis, Paris 11, 2012. http://www.theses.fr/2012PA11T017/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d’intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L’objectif de ce travail a été d’investiguer et d’appliquer une méthode d’imputation multiple à des données transversales d’enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l’application d’une méthode d’imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l’infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d’une base de données de surveillance de l’hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind’identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d’application d’une analyse de sensibilité aux hypothèses sous-jacentes àl’imputation multiple. Enfin, nous avons décrit l’élaboration d’un processus d’imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d’évaluation et devalidation.Les applications pratiques présentées nous ont permis d’élaborer une stratégie de traitement des données manquantes, incluant l’examen approfondi de la base de données incomplète, la construction du modèle d’imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses
The management of missing values is a common and widespread problem in epidemiology. The most common technique used restricts the data analysis to subjects with complete information on variables of interest, which can reducesubstantially statistical power and precision and may also result in biased estimates.This thesis investigates the application of multiple imputation methods to manage missing values in epidemiological studies and surveillance systems for infectious diseases. Study designs to which multiple imputation was applied were diverse: a risk analysis of HIV transmission through blood transfusion, a case-control study on risk factors for ampylobacter infection, and a capture-recapture study to estimate the number of new HIV diagnoses among children. We then performed multiple imputation analysis on data of a surveillance system for chronic hepatitis C (HCV) to assess risk factors of severe liver disease among HCV infected patients who reported drug use. Within this study on HCV, we proposedguidelines to apply a sensitivity analysis in order to test the multiple imputation underlying hypotheses. Finally, we describe how we elaborated and applied an ongoing multiple imputation process of the French national HIV surveillance database, evaluated and attempted to validate multiple imputation procedures.Based on these practical applications, we worked out a strategy to handle missing data in surveillance data base, including the thorough examination of the incomplete database, the building of the imputation model, and the procedure to validate imputation models and examine underlying multiple imputation hypotheses
4

Croiseau, Pascal. "Influence et traitement des données manquantes dans les études d'association sur trios : application à des données sur la sclérose en plaques." Paris 11, 2008. http://www.theses.fr/2008PA112021.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Pour tester l’association entre une maladie et un jeu de marqueurs, ou pour estimer les risques de la maladie, différentes méthodes ont été développés. Plusieurs de ces méthodes nécessitent que les individus soient génotypés pour l’ensemble des marqueurs et lorsque cette condition n’est pas respectée, les individus avec données manquantes sont alors exclus de l’analyse. Nous avons pu montrer que cette solution, qui conduit à une diminution importante de la taille de l’échantillon, pouvait aboutir à une perte de puissance pour détecter une association mais également à de fausses conclusions. Au cours de ma thèse, nous avons adapté aux données génétiques une méthode statistique nommée « imputation multiple » permettant de compléter les données manquantes par des données plausibles. D'après les études de simulation que nous avons menées, notre méthode apparaît comme un outil prometteur dans la recherche de variants de susceptibilité tant par sa simplicité d'utilisation que par sa fléxibilité aux modèles génétiques. Nous avons appliqué cette méthode sur un échantillon de 450 familles trios constituées d'un enfant atteint de Sclérose en Plaques et de ses deux parents. Des travaux récents ont mis en évidence une association entre un polymorphisme du gène CTLA4 et la Sclérose en Plaques. Cependant, CTLA4 fait partie du cluster de gènes CD28, CTLA4, ICOS par conséquent, cette association pourrait être due à un autre marqueur en déséquilibre de liaison avec celui-ci. Notre méthode nous a permis de retrouver l'implication du polymorphisme de CTLA4 mais également de fournir une nouvelle piste avec un polymorphisme de CD28 qui pourrait interagir avec le polymorphisme de CTLA4
To test for association between a set of markers and a disease, or to estimate the disease risks, different methods have been developped. Several of these methods need that all individuals are genotyped for all markers. When it is not the case, individuals with missing data are discarded. We have shown that this solution, which leads to a strong decrease of the sample size, could involve a loss of power to detect an association but also to false conclusion. In this work, we adapted to genetic data a method of "multiple imputation" that consists in replacing missing data by plausible values. Results obtained from simulated data show that this approach is promising to search for disease susceptibility genes. It is simple to use and very flexible in terms of genetic models that can be tested. We applied our method to a sample of 450 multiple sclerosis family trios (an affected child and both parents). Recent works have detected an association between a polymorphism of CTLA4 gene and multiple sclerosis. However, CTLA4 belongs to a cluster of three gene CD28, CTLA4 and ICOS all involved in the immune response. Consequently, this association could be due to another marker in linkage disequilibrium with CTLA4. Our method allows us to detect the association with CTLA4's polymorphism and also to provide us with a new candidate to explore : a CD28 polymorphism which could be involved in multiple sclerosis in interaction with the CTLA4 polymorphism
5

Héraud, Bousquet Vanina. "Traitement des données manquantes en épidémiologie : Application de l'imputation multiple à des données de surveillance et d'enquêtes." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00713926.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d'intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L'objectif de ce travail a été d'investiguer et d'appliquer une méthode d'imputation multiple à des données transversales d'enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l'application d'une méthode d'imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l'infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d'une base de données de surveillance de l'hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind'identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d'application d'une analyse de sensibilité aux hypothèses sous-jacentes àl'imputation multiple. Enfin, nous avons décrit l'élaboration d'un processus d'imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d'évaluation et devalidation.Les applications pratiques présentées nous ont permis d'élaborer une stratégie de traitement des données manquantes, incluant l'examen approfondi de la base de données incomplète, la construction du modèle d'imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses.
6

Lorga, Da Silva Ana. "Tratamento de dados omissos e métodos de imputação em classificação." Doctoral thesis, Instituto Superior de Economia e Gestão, 2005. http://hdl.handle.net/10400.5/3849.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Doutoramento em Matemática Aplicada à Economia e à Gestão
Neste trabalho, pretende-se estudar o efeito dos dados omissos em classificação de variáveis, principalmente em classificação hierárquica ascendente, de acordo com.òs seguintes factores: percentagens de dados omissos, métodos de imputação, coeficientes de semelhança-e métodos de classificação. Supõe-se que os dados omissos são do tipo MAR ("missing at random"), isto é, a presença de dados omissos não depende dos valores omissos, nem das variáveis com dados omissos, mas depende de valores observados sobre outras variáveis da matriz de dados. Os dados omissos satisfazem um padrão maioritariamente monótono. Utilizaram-se as técnicas, em presença de dados omissos "listwise" e "pairwise"; como métodos de imputação simples: o algoritmo EM, o modelo de regressão OLS, o algoritmo MPALS e um método de regressão PLS. Como métodos de imputação múltipla, adoptou-se um método baseado sobre o modelo de regressão OLS associado a técnicas bayesianas; propôs-se também um novo método de imputação múltipla baseado sobre os métodos de regressão PLS. Como métodos de classificação hierárquica utilizaram-se classificações clássicas e probabilísticas, estas últimas baseadas na família de métodos VL (validade da ligação). Os métodos de classificação hierárquica utilizados foram, "single", "complete" e "average" "linkage", AVL e AYB. Para as matrizes de semelhança utilizou-se o coeficiente de afinidade básico (para dados contínuos) - que corresponde ao índice d'Ochiai para dados binários; o coeficiente de correlação de Pearson e a aproximação probabilística do coeficiente de afinidade centrado e reduzido pelo método-W. O estudo foi baseado em dados simulados e reais. Utilizou-se o coeficiente de Spearman, para comparar as estruturas de classificação hierárquicas e para as classificações não hierárquicas o índice de Rand.
Le but de ce travail est d'étudier l’effet des données manquantes en classification de variables, principalement en classification hiérarchique ascendante, et aussi en classification non hiérarchique (ou partitionnement). L'étude est effectuée en considérant les facteurs suivants: pourcentage de données manquantes, méthodes d'imputation, coefficients de ressemblance et critères de classification. On suppose que les données manquantes sont du type MAR («missing at random») données manquantes au hasard, mais pas. complètement au hasard.. Les données manquantes satisfont un schéma majoritairement monotone. Nous avons utilisé comme techniques sans imputation les méthodes lisîwise et pairwise et comme méthodes d'imputation simple: l'algorithme EM, le modèle de régression OLS, l’algorithme NIPALS et une méthode de régression PLS., Comme méthodes d'imputation multiple nous avons adopté une méthode basée sur le modèle de régression OLS associé à des techniques bayesiennes; on a aussi proposé un nouveau modèle d'imputation multiple basé sur les méthodes de régression PLS. Pour combiner les structures de classification résultant des méthodes d'imputation multiple nous avons proposé une combinaison par la moyenne des matrices de similarité et deux méthodes de consensus. Nous avons utilisé comme méthodes de classification hiérarchique des méthodes classiques et probabilistes, ces dernières basées sur la famille de méthodes VL (Vraisemblance du Lien), comme méthodes de classification hiérarchique, le saut minimal, le saut maximal, la moyenne parmi les groupes et aussi les AVL et AVB; pour les matrices de ressemblance, le coefficient d'affinité basique (pour les données continues) - qui correspond à l'indice d'Ochiai; pour les données binaires, le coefficient de corrélation de Bravais-Pearson et l'approximation probabiliste du coefficient d'affinité centré et réduit par la méthode-W. L'étude est basée principalement sur des données simulées et complétée par des applications à des données réelles. Nous avons travaillé sur des données continues et binaires. Le coefficient de Spearman est utilisé pour comparer les structures hiérarchiques obtenues sur des matrices complètes avec les structures obtenues à partir des matrices ; où les données sont «effacées» puis imputées. L'indice de Rand est utilisé pour comparer les structures non hiérarchiques. Enfin, nous avons aussi proposé une méthode non hiérarchique qui «s'adapte» aux données manquantes. Sur un cas réel la méthode de Ward est utilisée dans les mêmes conditions que pour les simulations; mais aussi sans satisfaire un schéma monotone; une méthode de Monte Carlo par chaînes de Markov sert pour l'imputation multiple.
In this work we aimed to study the effect of missing data in classification of variables; mainly in ascending hierarchical classification, according to the following factors: amount of missing data, imputation techniques, similarity coefficient and classification-criterion. We used as techniques in presence of missing data, listwise and pairwise; as simple imputation methods, an EM algorithm, the OLS regression method, the NIPALS algorithm and a PLS regression method. As multiple imputation, we used a method based on the OLS regression and a new one based on PLS, combined by the mean value of the similarity matrices and an ordinal consensus. As hierarchical methods we used classical and. probabilistic approaches, the latter based on the VL-family. The hierarchical methods used were single, complete and average linkage, AVL and AVB. For the similarity matrices we used the basic affinity coefficient (for continuous data) - that corresponds to the Ochiai index for binary data; the Pearson's correlation coefficient and the probabilistic approach of the affinity coefficient, centered and reduced by the W-method.. The study was based mainly on simulated data, complemented by real ones. We used the Spearman.coefficient between the associated ultrametrics to compare the structures of the hierarchical classifications and, for the non hierarchical classifications, the Rand's index.
7

Marti, soler Helena. "Modélisation des données d'enquêtes cas-cohorte par imputation multiple : Application en épidémiologie cardio-vasculaire." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00779739.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les estimateurs pondérés généralement utilisés pour analyser les enquêtes cas-cohorte ne sont pas pleinement efficaces. Or, les enquêtes cas-cohorte sont un cas particulier de données incomplètes où le processus d'observation est contrôlé par les organisateurs de l'étude. Ainsi, des méthodes d'analyse pour données manquant au hasard (MA) peuvent être pertinentes, en particulier, l'imputation multiple, qui utilise toute l'information disponible et permet d'approcher l'estimateur du maximum de vraisemblance partielle.Cette méthode est fondée sur la génération de plusieurs jeux plausibles de données complétées prenant en compte les différents niveaux d'incertitude sur les données manquantes. Elle permet d'adapter facilement n'importe quel outil statistique disponible pour les données de cohorte, par exemple, l'estimation de la capacité prédictive d'un modèle ou d'une variable additionnelle qui pose des problèmes spécifiques dans les enquêtes cas-cohorte. Nous avons montré que le modèle d'imputation doit être estimé à partir de tous les sujets complètement observés (cas et non-cas) en incluant l'indicatrice de statut parmi les variables explicatives. Nous avons validé cette approche à l'aide de plusieurs séries de simulations: 1) données complètement simulées, où nous connaissions les vraies valeurs des paramètres, 2) enquêtes cas-cohorte simulées à partir de la cohorte PRIME, où nous ne disposions pas d'une variable de phase-1 (observée sur tous les sujets) fortement prédictive de la variable de phase-2 (incomplètement observée), 3) enquêtes cas-cohorte simulées à partir de la cohorte NWTS, où une variable de phase-1 fortement prédictive de la variable de phase-2 était disponible. Ces simulations ont montré que l'imputation multiple fournissait généralement des estimateurs sans biais des risques relatifs. Pour les variables de phase-1, ils approchaient la précision obtenue par l'analyse de la cohorte complète, ils étaient légèrement plus précis que l'estimateur calibré de Breslow et coll. et surtout que les estimateurs pondérés classiques. Pour les variables de phase-2, l'estimateur de l'imputation multiple était généralement sans biais et d'une précision supérieure à celle des estimateurs pondérés classiques et analogue à celle de l'estimateur calibré. Les résultats des simulations réalisées à partir des données de la cohorte NWTS étaient cependant moins bons pour les effets impliquant la variable de phase-2 : les estimateurs de l'imputation multiple étaient légèrement biaisés et moins précis que les estimateurs pondérés. Cela s'explique par la présence de termes d'interaction impliquant la variable de phase-2 dans le modèle d'analyse, d'où la nécessité d'estimer des modèles d'imputation spécifiques à différentes strates de la cohorte incluant parfois trop peu de cas pour que les conditions asymptotiques soient réunies.Nous recommandons d'utiliser l'imputation multiple pour obtenir des estimations plus précises des risques relatifs, tout en s'assurant qu'elles sont analogues à celles fournies par les analyses pondérées. Nos simulations ont également montré que l'imputation multiple fournissait des estimations de la valeur prédictive d'un modèle (C de Harrell) ou d'une variable additionnelle (différence des indices C, NRI ou IDI) analogues à celles fournies par la cohorte complète
8

Geronimi, Julia. "Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale." Thesis, Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1114/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps
Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time
9

Mehanna, Souheir. "Data quality issues in mobile crowdsensing environments." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG053.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les environnements de capteurs mobiles sont devenus le paradigme de référence pour exploiter les capacités de collecte des appareils mobiles et recueillir des données variées en conditions réelles. Pour autant, garantir la qualité des données recueillies reste une tâche complexe car les capteurs, souvent à bas coûts et ne fonctionnant pas toujours de façon optimale, peuvent être sujets à des dysfonctionnements, des erreurs, voire des pannes. Comme la qualité des données a un impact direct et significatif sur les résultats des analyses ultérieures, il est crucial de l'évaluer. Dans notre travail, nous nous intéressons à deux problématiques majeures liées à la qualité des données recueillies par les environnements de capteurs mobiles.Nous nous intéressons en premier à la complétude des données et nous proposons un ensemble de facteurs de qualité adapté à ce contexte, ainsi que des métriques permettant de les évaluer. En effet, les facteurs et métriques existants ne capturent pas l'ensemble des caractéristiques associées à la collecte de données par des capteurs. Afin d'améliorer la complétude des données, nous nous sommes intéressés au problème de génération des données manquantes. Les techniques actuelles d'imputation de données génèrent les données manquantes en se reposant sur les données existantes, c'est à dire les mesures déjà réalisées par les capteurs, sans tenir compte de la qualité de ces données qui peut être très variable. Nous proposons donc une approche qui étend les techniques existantes pour permettre la prise en compte de la qualité des données pendant l'imputation. La deuxième partie de nos travaux est consacrée à la détection d'anomalies dans les données de capteurs. Tout comme pour l'imputation de données, les techniques permettant de détecter des anomalies utilisent des métriques sur les données mais ignorent la qualité des ces dernières. Pour améliorer la détection, nous proposons une approche fondés sur des algorithmes de clustering qui intègrent la qualité des capteurs dans le processus de détection des anomalies.Enfin, nous nous sommes intéressés à la façon dont la qualité des données pourrait être prise en compte lors de l'analyse de données issues de capteurs. Nous proposons deux contributions préliminaires: des opérateurs d'agrégation qui considère la qualité des mesures, et une approche pour évaluer la qualité d'un agrégat en fonction des données utilisées dans son calcul
Mobile crowdsensing has emerged as a powerful paradigm for harnessing the collective sensing capabilities of mobile devices to gather diverse data in real-world settings. However, ensuring the quality of the collected data in mobile crowdsensing environments (MCS) remains a challenge because low-cost nomadic sensors can be prone to malfunctions, faults, and points of failure. The quality of the collected data can significantly impact the results of the subsequent analyses. Therefore, monitoring the quality of sensor data is crucial for effective analytics.In this thesis, we have addressed some of the issues related to data quality in mobile crowdsensing environments. First, we have explored issues related to data completeness. The mobile crowdsensing context has specific characteristics that are not all captured by the existing factors and metrics. We have proposed a set of quality factors of data completeness suitable for mobile crowdsensing environments. We have also proposed a set of metrics to evaluate each of these factors. In order to improve data completeness, we have tackled the problem of generating missing values.Existing data imputation techniques generate missing values by relying on existing measurements without considering the disparate quality levels of these measurements. We propose a quality-aware data imputation approach that extends existing data imputation techniques by taking into account the quality of the measurements.In the second part of our work, we have focused on anomaly detection, which is another major problem that sensor data face. Existing anomaly detection approaches use available data measurements to detect anomalies, and are oblivious of the quality of the measurements. In order to improve the detection of anomalies, we propose an approach relying on clustering algorithms that detects pattern anomalies while integrating the quality of the sensor into the algorithm.Finally, we have studied the way data quality could be taken into account for analyzing sensor data. We have proposed some contributions which are the first step towards quality-aware sensor data analytics, which consist of quality-aware aggregation operators, and an approach that evaluates the quality of a given aggregate considering the data used in its computation
10

Chion, Marie. "Développement de nouvelles méthodologies statistiques pour l'analyse de données de protéomique quantitative." Thesis, Strasbourg, 2021. http://www.theses.fr/2021STRAD025.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’analyse protéomique consiste à étudier l’ensemble des protéines exprimées par un système biologique donné, à un moment donné et dans des conditions données. Les récents progrès technologiques en spectrométrie de masse et en chromatographie liquide permettent d’envisager aujourd’hui des études protéomiques à large échelle et à haut débit. Ce travail de thèse porte sur le développement de méthodologies statistiques pour l’analyse des données de protéomique quantitative et présente ainsi trois principales contributions. La première partie propose d’utiliser des modèles de régression par spline monotone pour estimer les quantités de tous les peptides détectés dans un échantillon grâce à l'utilisation de standards internes marqués pour un sous-ensemble de peptides ciblés. La deuxième partie présente une stratégie de prise en compte de l’incertitude induite par le processus d’imputation multiple dans l’analyse différentielle, également implémentée dans le package R mi4p. Enfin, la troisième partie propose un cadre bayésien pour l’analyse différentielle, permettant notamment de tenir compte des corrélations entre les intensités des peptides
Proteomic analysis consists of studying all the proteins expressed by a given biological system, at a given time and under given conditions. Recent technological advances in mass spectrometry and liquid chromatography make it possible to envisage large-scale and high-throughput proteomic studies.This thesis work focuses on developing statistical methodologies for the analysis of quantitative proteomics data and thus presents three main contributions. The first part proposes to use monotone spline regression models to estimate the amounts of all peptides detected in a sample using internal standards labelled for a subset of targeted peptides. The second part presents a strategy to account for the uncertainty induced by the multiple imputation process in the differential analysis, also implemented in the mi4p R package. Finally, the third part proposes a Bayesian framework for differential analysis, making it notably possible to consider the correlations between the intensities of peptides
11

Geronimi, Julia. "Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale." Electronic Thesis or Diss., Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1114.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps
Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time
12

Phan, Thi-Thu-Hong. "Elastic matching for classification and modelisation of incomplete time series." Thesis, Littoral, 2018. http://www.theses.fr/2018DUNK0483/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les données manquantes constituent un challenge commun en reconnaissance de forme et traitement de signal. Une grande partie des techniques actuelles de ces domaines ne gère pas l'absence de données et devient inutilisable face à des jeux incomplets. L'absence de données conduit aussi à une perte d'information, des difficultés à interpréter correctement le reste des données présentes et des résultats biaisés notamment avec de larges sous-séquences absentes. Ainsi, ce travail de thèse se focalise sur la complétion de larges séquences manquantes dans les séries monovariées puis multivariées peu ou faiblement corrélées. Un premier axe de travail a été une recherche d'une requête similaire à la fenêtre englobant (avant/après) le trou. Cette approche est basée sur une comparaison de signaux à partir d'un algorithme d'extraction de caractéristiques géométriques (formes) et d'une mesure d'appariement élastique (DTW - Dynamic Time Warping). Un package R CRAN a été développé, DTWBI pour la complétion de série monovariée et DTWUMI pour des séries multidimensionnelles dont les signaux sont non ou faiblement corrélés. Ces deux approches ont été comparées aux approches classiques et récentes de la littérature et ont montré leur faculté de respecter la forme et la dynamique du signal. Concernant les signaux peu ou pas corrélés, un package DTWUMI a aussi été développé. Le second axe a été de construire une similarité floue capable de prender en compte les incertitudes de formes et d'amplitude du signal. Le système FSMUMI proposé est basé sur une combinaison floue de similarités classiques et un ensemble de règles floues. Ces approches ont été appliquées à des données marines et météorologiques dans plusieurs contextes : classification supervisée de cytogrammes phytoplanctoniques, segmentation non supervisée en états environnementaux d'un jeu de 19 capteurs issus d'une station marine MAREL CARNOT en France et la prédiction météorologique de données collectées au Vietnam
Missing data are a prevalent problem in many domains of pattern recognition and signal processing. Most of the existing techniques in the literature suffer from one major drawback, which is their inability to process incomplete datasets. Missing data produce a loss of information and thus yield inaccurate data interpretation, biased results or unreliable analysis, especially for large missing sub-sequence(s). So, this thesis focuses on dealing with large consecutive missing values in univariate and low/un-correlated multivariate time series. We begin by investigating an imputation method to overcome these issues in univariate time series. This approach is based on the combination of shape-feature extraction algorithm and Dynamic Time Warping method. A new R-package, namely DTWBI, is then developed. In the following work, the DTWBI approach is extended to complete large successive missing data in low/un-correlated multivariate time series (called DTWUMI) and a DTWUMI R-package is also established. The key of these two proposed methods is that using the elastic matching to retrieving similar values in the series before and/or after the missing values. This optimizes as much as possible the dynamics and shape of knowledge data, and while applying the shape-feature extraction algorithm allows to reduce the computing time. Successively, we introduce a new method for filling large successive missing values in low/un-correlated multivariate time series, namely FSMUMI, which enables to manage a high level of uncertainty. In this way, we propose to use a novel fuzzy grades of basic similarity measures and fuzzy logic rules. Finally, we employ the DTWBI to (i) complete the MAREL Carnot dataset and then we perform a detection of rare/extreme events in this database (ii) forecast various meteorological univariate time series collected in Vietnam
13

Moreno, Betancur Margarita. "Regression modeling with missing outcomes : competing risks and longitudinal data." Thesis, Paris 11, 2013. http://www.theses.fr/2013PA11T076/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les données manquantes sont fréquentes dans les études médicales. Dans les modèles de régression, les réponses manquantes limitent notre capacité à faire des inférences sur les effets des covariables décrivant la distribution de la totalité des réponses prévues sur laquelle porte l'intérêt médical. Outre la perte de précision, toute inférence statistique requière qu'une hypothèse sur le mécanisme de manquement soit vérifiée. Rubin (1976, Biometrika, 63:581-592) a appelé le mécanisme de manquement MAR (pour les sigles en anglais de « manquant au hasard ») si la probabilité qu'une réponse soit manquante ne dépend pas des réponses manquantes conditionnellement aux données observées, et MNAR (pour les sigles en anglais de « manquant non au hasard ») autrement. Cette distinction a des implications importantes pour la modélisation, mais en général il n'est pas possible de déterminer si le mécanisme de manquement est MAR ou MNAR à partir des données disponibles. Par conséquent, il est indispensable d'effectuer des analyses de sensibilité pour évaluer la robustesse des inférences aux hypothèses de manquement.Pour les données multivariées incomplètes, c'est-à-dire, lorsque l'intérêt porte sur un vecteur de réponses dont certaines composantes peuvent être manquantes, plusieurs méthodes de modélisation sous l'hypothèse MAR et, dans une moindre mesure, sous l'hypothèse MNAR ont été proposées. En revanche, le développement de méthodes pour effectuer des analyses de sensibilité est un domaine actif de recherche. Le premier objectif de cette thèse était de développer une méthode d'analyse de sensibilité pour les données longitudinales continues avec des sorties d'étude, c'est-à-dire, pour les réponses continues, ordonnées dans le temps, qui sont complètement observées pour chaque individu jusqu'à la fin de l'étude ou jusqu'à ce qu'il sorte définitivement de l'étude. Dans l'approche proposée, on évalue les inférences obtenues à partir d'une famille de modèles MNAR dits « de mélange de profils », indexés par un paramètre qui quantifie le départ par rapport à l'hypothèse MAR. La méthode a été motivée par un essai clinique étudiant un traitement pour le trouble du maintien du sommeil, durant lequel 22% des individus sont sortis de l'étude avant la fin.Le second objectif était de développer des méthodes pour la modélisation de risques concurrents avec des causes d'évènement manquantes en s'appuyant sur la théorie existante pour les données multivariées incomplètes. Les risques concurrents apparaissent comme une extension du modèle standard de l'analyse de survie où l'on distingue le type d'évènement ou la cause l'ayant entrainé. Les méthodes pour modéliser le risque cause-spécifique et la fonction d'incidence cumulée supposent en général que la cause d'évènement est connue pour tous les individus, ce qui n'est pas toujours le cas. Certains auteurs ont proposé des méthodes de régression gérant les causes manquantes sous l'hypothèse MAR, notamment pour la modélisation semi-paramétrique du risque. Mais d'autres modèles n'ont pas été considérés, de même que la modélisation sous MNAR et les analyses de sensibilité. Nous proposons des estimateurs pondérés et une approche par imputation multiple pour la modélisation semi-paramétrique de l'incidence cumulée sous l'hypothèse MAR. En outre, nous étudions une approche par maximum de vraisemblance pour la modélisation paramétrique du risque et de l'incidence sous MAR. Enfin, nous considérons des modèles de mélange de profils dans le contexte des analyses de sensibilité. Un essai clinique étudiant un traitement pour le cancer du sein de stade II avec 23% des causes de décès manquantes sert à illustrer les méthodes proposées
Missing data are a common occurrence in medical studies. In regression modeling, missing outcomes limit our capability to draw inferences about the covariate effects of medical interest, which are those describing the distribution of the entire set of planned outcomes. In addition to losing precision, the validity of any method used to draw inferences from the observed data will require that some assumption about the mechanism leading to missing outcomes holds. Rubin (1976, Biometrika, 63:581-592) called the missingness mechanism MAR (for “missing at random”) if the probability of an outcome being missing does not depend on missing outcomes when conditioning on the observed data, and MNAR (for “missing not at random”) otherwise. This distinction has important implications regarding the modeling requirements to draw valid inferences from the available data, but generally it is not possible to assess from these data whether the missingness mechanism is MAR or MNAR. Hence, sensitivity analyses should be routinely performed to assess the robustness of inferences to assumptions about the missingness mechanism. In the field of incomplete multivariate data, in which the outcomes are gathered in a vector for which some components may be missing, MAR methods are widely available and increasingly used, and several MNAR modeling strategies have also been proposed. On the other hand, although some sensitivity analysis methodology has been developed, this is still an active area of research. The first aim of this dissertation was to develop a sensitivity analysis approach for continuous longitudinal data with drop-outs, that is, continuous outcomes that are ordered in time and completely observed for each individual up to a certain time-point, at which the individual drops-out so that all the subsequent outcomes are missing. The proposed approach consists in assessing the inferences obtained across a family of MNAR pattern-mixture models indexed by a so-called sensitivity parameter that quantifies the departure from MAR. The approach was prompted by a randomized clinical trial investigating the benefits of a treatment for sleep-maintenance insomnia, from which 22% of the individuals had dropped-out before the study end. The second aim was to build on the existing theory for incomplete multivariate data to develop methods for competing risks data with missing causes of failure. The competing risks model is an extension of the standard survival analysis model in which failures from different causes are distinguished. Strategies for modeling competing risks functionals, such as the cause-specific hazards (CSH) and the cumulative incidence function (CIF), generally assume that the cause of failure is known for all patients, but this is not always the case. Some methods for regression with missing causes under the MAR assumption have already been proposed, especially for semi-parametric modeling of the CSH. But other useful models have received little attention, and MNAR modeling and sensitivity analysis approaches have never been considered in this setting. We propose a general framework for semi-parametric regression modeling of the CIF under MAR using inverse probability weighting and multiple imputation ideas. Also under MAR, we propose a direct likelihood approach for parametric regression modeling of the CSH and the CIF. Furthermore, we consider MNAR pattern-mixture models in the context of sensitivity analyses. In the competing risks literature, a starting point for methodological developments for handling missing causes was a stage II breast cancer randomized clinical trial in which 23% of the deceased women had missing cause of death. We use these data to illustrate the practical value of the proposed approaches
14

Faucheux, Lilith. "Learning from incomplete biomedical data : guiding the partition toward prognostic information." Electronic Thesis or Diss., Université Paris Cité, 2021. http://www.theses.fr/2021UNIP5242.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse porte sur l'apprentissage de partitions dans un contexte de données incomplètes. Deux développements méthodologiques sont présentés, ainsi que des applications dans le domaine biomédical. La première méthode développée permet, en présence de données incomplètes, un apprentissage de partitions non supervisé. Deux types de données incomplètes ont été considérés : des données manquantes et des données censurées à gauche (dont la valeur est « inférieure à un seuil de détection »). La problématique des données incomplètes a été prise en compte par imputation multiple (MI). Pour permettre une imputation adaptée au type de données incomplètes de chaque variable la méthode par équations chainées (MICE) a été utilisée. L’apprentissage de partitions non supervisé a ensuite été effectuée sur chaque jeu de données imputé. Pour finir, les partitions obtenues ont été combinées à l’aide d’un clustering par consensus. La deuxième méthode, semi-supervisée, a été développée pour permettre de surcroît l’utilisation d’une composante supervisée, à savoir le délai de survie, tout en permettant l’application à des données incomplètes. Cette méthode a ainsi permis d’identifier des profils de patients qui se distinguent d'une part selon la structure de groupes qui se dégage des données et d'autre part, selon le pronostic des patients. Cette méthode utilise l’optimisation multi-objectifs de Pareto. L’adaptation aux données incomplètes a été traitée de manière similaire au développement précédent, par imputation multiple et clustering par consensus. Enfin, deux propositions d'applications sont incluses. Elles concernent d'une part la composante immunologique du microenvironnement tumoral dans le cancer du sein, et d'autre part l’infection COVID-19 dans le contexte d’une maladie hématologique
The topic of this thesis is partition learning analyses in the context of incomplete data. Two methodological development are presented, with two medical and biomedical applications. The first methodological development concerns the implementation of unsupervised partition learning in the presence of incomplete data. Two types of incomplete data were considered: missing data and left-censored data (that is, values “lower than some detection threshold"), and handled through multiple imputation (MI) framework. Multivariate imputation by chained equation (MICE) was used to perform tailored imputations for each type of incomplete data. Then, for each imputed dataset, unsupervised learning was performed, with a data-based selected number of clusters. Last, a consensus clustering algorithm was used to pool the partitions, as an alternative to Rubin's rules. The second methodological development concerns the implementation of semisupervised partition learning in an incomplete dataset, to combine data structure and patient survival. This aimed at identifying patient profiles that relate both to differences in the group structure extracted from the data, and in the patients' prognosis. The supervised (prognostic value) and unsupervised (group structure) objectives were combined through Pareto multi-objective optimization. Missing data were handled, as above, through MI, with Rubin's rules used to combine the supervised and unsupervised objectives across the imputations, and the optimal partitions pooled using consensus clustering. Two applications are provided, one on the immunological landscape of the breast tumor microenvironment and another on the COVID-19 infection in the context of a hematological disease
15

Nadif, Mohamed. "Classification automatique et données manquantes." Metz, 1991. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/1991/Nadif.Mohamed.SMZ912.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Face à un problème pratique de traitements de données, il arrive souvent qu'un certain nombre desdites données se trouve manquer, et dont l'absence peut être imputable à diverses raisons comme une erreur de saisie ou d'expérimentation ou un refus de répondre. Notre travail a consisté à classifier un ensemble d'individus décrits par des variables binaires ou qualitatives nominales sachant que certaines de ces variables n'ont pas été relevées. Les modèles probabilistes étant notre principal outil pour étudier et proposer des solutions au problème de la classification automatique en présence de données manquantes, nous commencons par rappeler comment la classification peut être vue comme une solution à un problème d'estimation de paramètres d'un modèle de mélanges et comment associer à l'algorithme EM (Estimation, Maximisation) un algorithme CEM (Classification, Estimation, Maximisation). En nous appuyant sur les modèles de Bernoulli et en faisant une hypothèse sur la distribution des données manquantes, nous retenons comme critère, l'espérance de la vraisemblance classifiante. Ensuite, nous utilisons le processus de l'algorithme EM en supposant que les données manquantes suivent le modèle de Bernoulli choisi. De plus, l'extension de cet algorithme est étudiée dans ce travail. Nous nous sommes aussi intéressés à la reconstitution des données non observées. Toutes les méthodes proposées dans cette thèse ont été programmées et intégrées au logiciel d'analyse de données SICLA (système interactif de classification automatique, INRIA) et ont été appliquées sur des données simulées et réelles
16

Silva, Gonçalves da Costa Lorga da Ana Isabel. "Données manquantes et méthodes d'imputation en classification." Paris, CNAM, 2005. http://www.theses.fr/2005CNAM0719.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
In this work we aimed to study the effect of missing data in classification of variables; mainly in ascending hierarchical classification, according to the following factors; amount of missing data, imputation techniques, similarly coefficient and classification criterion. We used as techniques in presence of missing data, listwise and pairwise; as simple imputation methods, an EM algorithm, the OLS regression method, the NIPALS algorithm and a PLS regression method. As mutiple imputation, we used a method based on the OLS regression and a new one based on PLS, combined by the mean value of the similarly matrices and an ordinal consensus. As hierarchical methods we used classical and probabilistic approaches, the latter based on the VL-family. The hierachical methods used were single, complete and average linkage, AVL and AVB. For the similarity matrices we used the basic affinity coefficient (for continuous data)-that corresponds to the Ochiai index for binary data; the Pearson's correlation coefficient and the probabilistic approach of the affinity coefficient, centered and reduced by the W-method. The study was based mainly on simulated data, complemented by reals ones. We used the Spearman coefficient between the associated ultrametrics to compare the structures of the hierarchical classifications and, for the non hierarchical classifications, the Rand's index
Le but de ce travail est d'étudier l'effet des données manquantes en classification de variables, principalement en classification hiérarchique ascendante, et aussi en classification hiérachique ascendante, et aussi en classification non hiérarchique (ou partitionnement). L'étude est effectuée en considérant les facteurs suivants : pourcentage de donnes manquantes, méthodes d'imputation, coefficients de ressemblance et critères de classification. On suppose que les données manquantes au hasard, mais pas complètement au hasard. Les données manquantes satisfont un schéma majoritairement monotone. Nous avons utilisé comme techniques sans imputation les méthodes listwise et pairwise et comme méthodes d'imputation simple. L'algorithme EM, le modèle de régression OLS, l'algorithme NIPALS et une méthode de régression PLS. Comme méthodes d'imputation multiple basé sur les méthodes de régression PLS. Pour combiner les strctures de classification résultant des méthodes d'imputation multiple nous avons proposé une combinaison par la moyenne des matrices de similarité et deux méthodes de consensus. Nous avons utilisé comme méthodes de classification hiérachique, le saut minimal, le saut maximal, la moyenne parmi les groupes et aussi les AVL et AVB ; pour les matrices de ressemblance, le coefficient d'affinité basique (pour les données continues) -qui correspond à l'indice d'Ochiai; pour les données binaires, le coefficient de corrélation de Bravais-Pearson et l'approximation probabiliste du coefficient d'affinité centré et réduit par la méthode-W. L'étude est basée principalemnt sur des données simulées et complétée par des applications à des données réelles
17

Bahamonde, Natalia. "Estimation de séries chronologiques avec données manquantes." Paris 11, 2007. http://www.theses.fr/2007PA112115.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

El-Taib, El-Rafehi Ahmed. "Estimation des données manquantes dans les séries chronologiques." Montpellier 2, 1992. http://www.theses.fr/1992MON20239.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif de la these est de developper, de facon la plus exhaustive possible, la maniere de traiter, statistiquement, le probleme des donnees manquantes dans une collection d'informations chiffrees. En excluant le comportement facile, mais pourtant souvent employe, qui consiste a remplacer la (les) donnee(s) manquante(s) par l'intuition (sondages), le repiquage (series temporelles), ou l'elimination de lignes d'un tableau (statistiques multivariees). Nous proposons au contraire de realiser des choix, les plus pertinents possibles, dans la liste des solutions preconisees par les statisticiens depuis de nombreuses annees. Un schema methodologique est suggere permettant de guider le chercheur dans le labyrinthe de methodes exposees afin de s'y retrouver
19

Barhoumi, Mohamed Adel. "Traitement des données manquantes dans les données de panel : cas des variables dépendantes dichotomiques." Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23619/23619.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
20

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00179506.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
21

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes." Phd thesis, Montpellier 2, 2007. http://www.theses.fr/2007MON20056.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
22

Gu, Co Weila Vila. "Méthodes statistiques et informatiques pour le traitement des données manquantes." Phd thesis, Conservatoire national des arts et metiers - CNAM, 1997. http://tel.archives-ouvertes.fr/tel-00808585.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est consacrée au traitement des données manquantes. Des méthodes descriptives (analyse en composantes principales, analyse des correspondances dont analyse homogène et la classification automatique) sont étudiées dans le cadre des données incomplètes. La seconde partie est consacrée à des problèmes de fusion de fichiers et analyses homogène y est introduite.
23

Ladjouze, Salim. "Problèmes d'estimation dans les séries temporelles stationnaires avec données manquantes." Phd thesis, Université Joseph Fourier (Grenoble ; 1971-2015), 1986. http://tel.archives-ouvertes.fr/tel-00319946.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le problème des données manquantes a été abordé en introduisant les processus modulés en amplitude. Les propriétés de type ergodique (ergodicité au k-ième degré) sont étudiées dans le cadre des processus asymptotiquement stationnaires. Dans le domaine non paramétrique on étudie la consistance de deux estimateurs de la fonction de covariance et la variance asymptotique de l'un deux. On propose ensuite une méthode générale d'estimation de la fonction de densité spectrale du processus étudié. L'estimateur obtenu est étudié du point de vue biais et variance asymptotiques. Des méthodes d'estimation paramétrique, basées sur le périodogramme et du maximum de vraisemblance, sont aussi présentées
24

Demange, Sébastien. "Contributions à la reconnaissance automatique de la parole avec données manquantes." Phd thesis, Université Henri Poincaré - Nancy I, 2007. http://tel.archives-ouvertes.fr/tel-00187953.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce mémoire propose, dans un premier temps, une introduction détaillée de la reconnaissance automatique de la parole avec données manquantes appuyée par de nombreuses références bibliographiques. Il est montré que l'estimation de masques constitue une étape cruciale. En effet, la qualité des masques estimés conditionne les performances du système de reconnaissance. L'amélioration de la fiabilité des masques constitue donc un enjeu important. Dans un second temps, les travaux menés dans le cadre de l'estimation bayésienne des masques de données manquantes sont présentés. D'une part je propose de nouveaux modèles de masques permettant de modéliser les dépendances entre les masques de différents coefficients d'un signal. Ces modèles sont évalués comparativement à un modèle de référence. Les résultats sont présentés en termes d'erreur de masques ainsi qu'en taux de reconnaissance. Les résultats montrent que ces dépendances contribuent à améliorer les taux de reconnaissance et soulignent l'importance du contexte temporel d'un masque. Je présente, dans un second temps, une nouvelle définition de masque: les masques de contribution. Ces nouveaux masques sont évalués comparativement aux masques usuellement utilisés, fondés sur le seuillage du SNR. Je montre que cette nouvelle définition permet d'améliorer l'algorithme de décodage en affinant les intervalles de marginalisation. L'évaluation, dans le cadre de la marginalisation de données et en présence d'un bruit stationnaire, montrent que les intervalles sont considérablement réduits entraînant une nette amélioration des taux de reconnaissance.
25

Resseguier, Noémie. "Méthodes de gestion des données manquantes en épidémiologie. : Application en cancérologie." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM5063.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La problématique de la gestion des données manquantes dans les études épidémiologiques est un sujet qui intéressera tous les chercheurs impliqués dans l’analyse des données recueillies et dans l’interprétation des résultats issus de ces analyses. Et même si la question de la gestion des données manquantes et de leur impact sur la validité des résultats obtenus est souvent discutée, cesont souvent les méthodes de traitement des données manquantes les plus simples mais pas toujours les plus valides qui sont utilisées en pratique. L’utilisation de chacune de ces méthodes suppose un certain nombre d’hypothèses sous lesquelles les résultats obtenus sont valides, mais il n’est pas toujours possible de tester ces hypothèses. L’objectif de ce travail était (i) de proposer une revue des différentes méthodes de traitement des données manquantes utilisées en épidémiologie en discutant les avantages et les limites de chacune de ces méthodes, (ii) de proposer une stratégie d’analyse afin d’étudier la robustesse des résultats obtenues via les méthodes classiques de traitement des données manquantes à l’écart aux hypothèses qui, bien que non testables, sont nécessaires à la validité de ces résultats, et (iii) de proposer quelques applications sur des données réelles des différents point discutés dans les deux premières parties
The issue of how to deal with missing data in epidemiological studies is a topic which concerns every researcher involved in the analysis of collected data and in the interpretation of the results produced by these analyses. And even if the issue of the handling of missing data and of their impact on the validity of the results is often discussed, simple, but not always appropriate methods to deal with missing data are commonly used. The use of each of these methods is based on some hypotheses under which the obtained results are valid, but it is not always possible to test these hypotheses. The objective of this work was (i) to propose a review of various methods to handle missing data used in the field of epidemiology, and to discuss the advantages and disadvantages of each of these methods, (ii) to propose a strategy of analysis in order to study the robustness of the results obtained via classical methods to handle missing data to the departure from hypotheses which are required for the validity of these results, although they are not testable, and (iii) to propose some applications on real data of the issues discussed in the first two sections
26

Vidal, Vincent. "Échantillonnage de Gibbs avec augmentation de données et imputation multiple." Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23906/23906.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
27

Dellagi, Hatem. "Estimations paramétrique et non paramétrique des données manquantes : application à l'agro-climatologie." Paris 6, 1994. http://www.theses.fr/1994PA066546.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans ce travail nous proposons deux méthodes d'estimation des données manquantes. Dans le cas de l'estimation paramétrique et afin de résoudre le problème par la prévision, nous exploitons l'estimateur décale (E. D) de la partie autorégressive d'un modèle ARMA scalaire pour estimer la matrice de covariance In dont la consistance forte est prouvée sous des conditions ayant l'avantage de s'exprimer en fonction des trajectoires et identifier les coefficients de la partie moyenne mobile et la variance du bruit blanc. En analyse des correspondances et afin d'estimer les données manquantes d'un tableau de correspondance, le problème se résout complètement dans le cas d'une seule donnée manquante. L'existence est prouvée dans le cas où il y en a plusieurs, par contre l'unicité étant délicate, une combinaison linéaire entre les données manquantes est obtenue à partir de la formule de la trace dont la minimisation assure l'homogénéité du tableau de correspondance, nous établirons sous le même critère la reconstitution d'une donnée d'origine à partir du codage linéaire par morceaux
28

Ben, Othman Amroussi Leila. "Conception et validation d’une méthode de complétion des valeurs manquantes fondée sur leurs modèles d’apparition." Caen, 2011. http://www.theses.fr/2011CAEN2067.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de connaissances à partir de données incomplètes constitue un axe de recherche en plein essor. Dans cette thèse, nous y contribuons par la proposition d'une méthode de complétion des valeurs manquantes. Nous commençons par aborder cette problématique par la définition de modèles d'apparition des valeurs manquantes. Nous en proposons une nouvelle typologie en fonction des données connues et nous les caractérisons de façon non redondante grâce à la base d'implications propres. Un algorithme de calcul de cette base de règles, formalisé à partir de la théorie des hypergraphes, est également proposé dans cette thèse. Ensuite, nous exploitons les informations fournies lors de l'étape de caractérisation afin de proposer une méthode de complétion contextualisée, qui complète les valeurs manquantes selon le type aléatoire/non-aléatoire et selon le contexte. La complétion des valeurs manquantes non aléatoires est effectuée par des valeurs spéciales, renfermant intrinsèquement les origines des valeurs manquantes et déterminées grâce à des schémas de caractérisation. Finalement, nous nous intéressons aux techniques d'évaluation des méthodes de complétion et nous proposons une nouvelle technique fondée sur la stabilité d'un clustering entre les données de référence et les données complétées
Knowledge Discovery from incomplete databases is a thriving research area. In this thesis, the main focus is put on the proposal of a missing values completion method. We start approaching this issue by defining the appearing models of the missing values. We thus propose a new typology according to the given data and we characterize these missing values in a non-redundant manner defined by means of the basis of proper implications. An algorithm computing this basis of rules, heavily relying on the hypergraph theory battery of results, is also introduced in this thesis. We then explore the information provided during the characterization stage in order to propose a new contextual completion method. The latter completes the missing values with respect to their type as well as to their appearance context. The non-random missing values are completed with special values intrinsically containing the explanation defined by the characterization schemes. Finally, we investigate the evaluation techniques of the missing values completion methods and we introduce a new technique based on the stability of a clustering, when applied on reference data and completed ones
29

Yuan, Shuning. "Méthodes d'analyse de données GPS dans les enquêtes sur la mobilité des personnes : les données manquantes et leur estimation." Paris 1, 2010. http://www.theses.fr/2010PA010074.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Améliorer l'observation des comportements de déplacement est maintenant possible: d’une part, les méthodologies d’enquête ont évolué : nous sommes passés de l’ère PAPI (Paper And Pencil Interview) à l’ère CATI ou CAPI (Computer Assisted Telephon Interview ou Personal Interview) ; d’autre part, les nouvelles technologies (localisation automatique par satellite, téléphonie mobile, etc. ) permettent d’améliorer considérablement la précision du cadre temporel (heures de départ, d’arrivée. . . ) et spatial (distances et lieux d’activité) des déplacements. Le relevé des traces GPS apporte, avec une précision bien supérieure, des informations qu’il ne serait pas envisageable de collecter à l’aide d’une méthode classique, par exemple : - les trajets courts autour d’un lieu de résidence non habituel (vacances, congrès, etc. ), - la description des trajets très courts et des parcours terminaux, - plus de précision sur les temps terminaux, les temps d’attente, les correspondances entre modes, - le choix de l’itinéraire, - les vitesses. Un défi dans le traitement à posteriori des données collectées, qui constituera le coeur de cette thèse, est la mise au point de méthodes permettant de combler ces données manquantes et de reconstituer de manière automatisée des séquences continues, à la fois dans l’espace et dans le temps.
30

Nguyen, Dinh Tuan. "Propriétés asymtpotiques et inférence avec des données manquantes pour les modèles de maintenance imparfaite." Thesis, Troyes, 2015. http://www.theses.fr/2015TROY0034/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est consacrée à la modélisation de la maintenance imparfaite par les modèles statistiques. La maintenance imparfaite est le cas intermédiaire de deux situations extrêmes : la maintenance minimale où le système est remis en état qu’il se trouve juste avant la défaillance, et la maintenance parfaite où le système est remplacé à neuf. Dans ce cadre, les expressions analytiques des grandeurs de fiabilité d’un modèle de maintenance imparfaite sont développées. La convergence du modèle est soulignée, et les lois asymptotiques dans le régime stationnaire sont proposées. Ensuite, les lois sont appliquées pour proposer des politiques de maintenance préventive avec des maintenances imparfaites. Le deuxième thème consiste à proposer une adaptation de procédure d’estimation pour les fenêtres d’observation. Seuls les événements pendant ces périodes sont observés. La modélisation et l’inférence s’appuient sur la convergence de modèles vers leurs régimes stationnaires, ou sur la modélisation de l’âge du système au début des fenêtres. Enfin, l’inférence bayésienne d’un modèle de maintenance imparfaite y est présentée. On étudie l’impact des choix des lois a priori sur la qualité des estimations par des simulations numériques. La sélection des modèles de maintenance imparfaite par le facteur de Bayes est proposée. Dans chaque partie, les modélisations statistiques sont appliquées à des données issues de l’industrie
The thesis analyses imperfect maintenance processes of industrial systems by statistical models. Imperfect maintenance is an intermediate situation of two extremes ones: minimal maintenance where the system is restored to the state immediately prior to failure, and perfect maintenance where the system is renewed after the failure. Analytical expressions of reliability quantities of an imperfect maintenance model are developed. The convergence of the model is highlighted and the asymptotic expressions are proposed. The results are applied to build some preventive maintenance policies that contain only imperfect maintenances. The second part of the thesis consists of analyzing failure data contained in observation windows. An observation window is a period of the entire functioning history that only the events occurring in this period are recorded. The modelling and the inference are based on the convergence property or the modelling of initial age. Finally, Bayesian inference of an imperfect maintenance model is presented. The impact of the choices of a priori distributions is analyzed by numerical simulations. A selection method of imperfect maintenance models using the Bayes factor is also introduced.The statistical modelling in each section is applied to real data
31

Rioult, François. "Extraction de connaissances dans les bases de données comportant des valeurs manquantes ou un grand nombre d'attributs." Caen, 2005. http://www.theses.fr/2005CAEN2035.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de motifs est une tâche centrale pour l'extraction de connaissances dans les bases de données et cette thèse traite de deux cas génériques et particulièrement utiles dans de nombreuses applications : les bases de données entachées de valeurs manquantes ou comportant un grand nombre d'attributs. Sans traitement particulier, les valeurs manquantes sont source de graves dommages dans les connaissances extraites. Nous proposons un mécanisme de désactivation temporaire des objets incomplets, qui permet par des calculs dans une base incomplète de mettre en évidence des propriétés compatibles avec la base complète. Ces propriétés sont exploitées avec celles de la base opposée pour proposer une méthode originale de construction de règles d'association informatives généralisées. De nombreuses applications concernent des données comportant un grand nombre d'attributs, comme l'analyse du génome qui produit des données sur des dizaines de milliers de gènes, mais les expériences biologiques sont coûteuses donc peu nombreuses. En utilisant un principe de transposition et les propriétés de la connexion de Galois, nous avons développé un cadre formel pour l'extraction de motifs contraints dans ces données, qui permet de choisir l'orientation de la base de données la plus favorable pour les algorithmes d'extraction. Les contraintes de recherche sont également transposables et permettent d'obtenir les motifs contraints en menant les extractions dans le contexte transposée. Enfin, l'utilisation de règles d'association généralisées à des fins d'apprentissage supervisé et de motifs émergents forts complète ces travaux pour des applications médicales et génomiques.
32

El, Abed Abir. "Suivi multi-objets par filtrage particulaire dans un contexte de données incomplètes et/ou manquantes." Paris 6, 2008. http://www.theses.fr/2008PA066304.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le présent travail aborde le sujet de suivi multi-objets. L'objectif principal est d'associer les données fournies aux objets présents dans un vidéo afin de pouvoir suivre leur évolution temporel par un algorithme de filtrage. L'étude décrite est soumise aux contraintes de modèles dynamiques non linéaires et complexes, avec données manquantes et présence de fausses alarmes. La principale contribution apportée est le développement d'un nouveau filtre d'association de données permettant de déterminer la probabilité d'association mesure-objet, sans connaissance a priori du vrai modèle dynamique des objets. Notre filtre d'association EAF permet de gérer de manière robuste les problèmes de données manquantes et fausses alarmes, et d'intervalle de temps significatif entre deux observations successives. Ses principaux avantages sont qu'il n'a besoin d'aucun paramètre et qu'il est peu consommateur en temps de calcul. Nous avons construit le nouveau filtre EPF dans le cadre de filtrage non-linéaire multi-objets qui ne nécessite que de peu d'informations a priori. Il peut estimer en ligne les paramètres du modèle dynamique à partir de l'association mesure-objet donnée par EAF, ceci pour modéliser de manière plus adéquate les mouvements complexes difficiles à apprendre a priori. Nous avons proposé le filtre PF-DO permettant d'estimer la déformation locale d'un objet ainsi que son mouvement à partir du EPF et des coefficients de Fourier. Nous avons ajouté au EPF un algorithme de détection de zones de mouvement QNMI, qui utilise l'information mutuelle normalisée pour pouvoir prendre en compte différentes modalités. Le modèle obtenu est dénommé ENMIM
33

Morisot, Adeline. "Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application aux décès par cancer de la prostate." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTT010/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le terme analyse de survie fait référence aux méthodes utilisées pour modéliser le temps d'apparition d'un ou plusieurs événements en tenant compte de la censure. L'événement d’intérêt peut être l'apparition, la récidive d'une maladie, ou le décès. Les causes de décès peuvent présenter des valeurs absentes, une situation qui peut être modélisée par des méthodes d’imputation. Dans la première partie de cette thèse nous avons passer en revue les méthodes de gestion des données manquantes. Puis nous avons détaillé les procédures qui permettent une imputation multiple des causes de décès. Nous avons développé ces méthodes dans une cohorte issue d’une étude européenne, l’ERSPC (European Randomized Study of Screening for Prostate Cancer), qui étudiait le dépistage et la mortalité par cancer de la prostate. Nous avons proposé une formulation théorique des règles de Rubin après transformation log-log complémentaire afin de combiner les estimations de survie. De plus, nous mettons à disposition le code R afférent. Dans la deuxième partie, nous présentons les méthodes d'analyse de survie, en proposant une écriture unifiée basée sur les définitions des survies brute et nette, que l’on s'intéresse à toutes les causes de décès ou à une seule cause. Cela implique la prise en compte de la censure qui peut alors être informative. Nous avons considéré les méthodes dites classiques (Kaplan-Meier, Nelson-Aalen, Cox et paramétriques), les méthodes des risques compétitifs (en considérant un modèle multi-états ou un modèle de temps latents), les méthodes dites spécifiques avec correction IPCW (Inverse Ponderation Censoring Weighting) et les méthodes de survie relative. Les méthodes dites classiques reposent sur l'hypothèse de censure non informative. Quand on s'intéresse aux décès de toutes causes, cette hypothèse est souvent valide. En revanche, pour un décès de cause particulière, les décès d'autres causes sont considérés comme une censure, et cette censure par décès d'autres causes est en général informative. Nous introduisons une approche basée sur la méthode IPCW afin de corriger cette censure informative, et nous fournissons une fonction R qui permet d’appliquer cette approche directement. Toutes les méthodes présentées dans ce chapitre sont appliquées aux bases de données complétées par imputation multiple.Enfin, dans une dernière partie nous avons cherché à déterminer le pourcentage de décès expliqué par une ou plusieurs variables en utilisant les fractions attribuables. Nous présentons les formulations théoriques des fractions attribuables, indépendantes du temps puis dépendantes du temps qui s’expriment sous la forme de survie. Nous illustrons ces concepts en utilisant toutes les méthodes de survie de la partie précédente et comparons les résultats. Les estimations obtenues avec les différentes méthodes sont très proches
The term survival analysis refers to methods used for modeling the time of occurrence of one or more events taking censoring into account. The event of interest may be either the onset or the recurrence of a disease, or death. The causes of death may have missing values, a status that may be modeled by imputation methods. In the first section of this thesis we made a review of the methods used to deal with these missing data. Then, we detailed the procedures that enable multiple imputation of causes of death. We have developed these methods in a subset of the ERSPC (European Randomized Study of Screening for Prostate Cancer), which studied screening and mortality for prostate cancer. We proposed a theoretical formulation of Rubin rules after a complementary log-log transformation to combine estimates of survival. In addition, we provided the related R code. In a second section, we presented the survival analysis methods, by proposing a unified writing based on the definitions of crude and net survival, while considering either all-cause or specific cause of death. This involves consideration of censoring which can then be informative. We considered the so-called traditional methods (Kaplan-Meier, Nelson-Aalen, Cox and parametric) methods of competing risks (considering a multistate model or a latent failure time model), methods called specific that are corrected using IPCW (Inverse Ponderation Censoring Weighting) and relative survival methods. The classical methods are based on a non-informative censoring assumption. When we are interested in deaths from all causes, this assumption is often valid. However, for a particular cause of death, other causes of death are considered as a censoring. In this case, censoring by other causes of death is generally considered informative. We introduced an approach based on the IPCW method to correct this informative censoring, and we provided an R function to apply this approach directly. All methods presented in this chapter were applied to datasets completed by multiple imputation. Finally, in a last part we sought to determine the percentage of deaths explained by one or more variables using attributable fractions. We presented the theoretical formulations of attributable fractions, time-independent and time-dependent that are expressed as survival. We illustrated these concepts using all the survival methods presented in section 2, and compared the results. Estimates obtained with the different methods were very similar
34

Tzompanaki, Aikaterini. "Réponses manquantes : Débogage et Réparation de requêtes." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS223/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La quantité croissante des données s’accompagne par l’augmentation du nombre de programmes de transformation de données, généralement des requêtes, et par la nécessité d’analyser et comprendre leurs résultats : (a) pourquoi telle réponse figure dans le résultat ? ou (b) pourquoi telle information n’y figure pas ? La première question demande de trouver l’origine ou la provenance des résultats dans la base, un problème très étudié depuis une 20taine d’années. Par contre, expliquer l’absence de réponses dans le résultat d’une requête est un problème peu exploré jusqu’à présent. Répondre à une question Pourquoi-Pas consiste à fournir des explications quant à l’absence de réponses. Ces explications identifient pourquoi et comment les données pertinentes aux réponses manquantes sont absentes ou éliminées par la requête. Notre travail suppose que la base de données n’est pas source d’erreur et donc cherche à fournir des explications fondées sur (les opérateurs de) la requête qui peut alors être raffinée ultérieurement en modifiant les opérateurs "fautifs". Cette thèse développe des outils formels et algorithmiques destinés au débogage et à la réparation de requêtes SQL afin de traiter des questions de type Pourquoi-Pas. Notre première contribution, inspirée par une étude critique de l’état de l’art, utilise un arbre de requête pour rechercher les opérateurs "fautifs". Elle permet de considérer une classe de requêtes incluant SPJA, l’union et l’agrégation. L’algorithme NedExplain développé dans ce cadre, a été validé formellement et expérimentalement. Il produit des explications de meilleure qualité tout en étant plus efficace que l’état de l’art.L’approche précédente s’avère toutefois sensible au choix de l’arbre de requête utilisé pour rechercher les explications. Notre deuxième contribution réside en la proposition d’une notion plus générale d’explication sous forme de polynôme qui capture toutes les combinaisons de conditions devant être modifiées pour que les réponses manquantes apparaissent dans le résultat. Cette méthode s’applique à la classe des requêtes conjonctives avec inégalités. Sur la base d’un premier algorithme naïf, Ted, ne passant pas à l’échelle, un deuxième algorithme, Ted++, a été soigneusement conçu pour éliminer entre autre les calculs itérés de sous-requêtes incluant des produits cartésien. Comme pour la première approche, une évaluation expérimentale a prouvé la qualité et l’efficacité de Ted++. Concernant la réparation des requêtes, notre contribution réside dans l’exploitation des explications polynômes pour guider les modifications de la requête initiale ce qui permet la génération de raffinements plus pertinents. La réparation des jointures "fautives" est traitée de manière originale par des jointures externes. L’ensemble des techniques de réparation est mis en oeuvre dans FixTed et permet ainsi une étude de performance et une étude comparative. Enfin, Ted++ et FixTed ont été assemblés dans une plate-forme pour le débogage et la réparation de requêtes relationnelles
With the increasing amount of available data and data transformations, typically specified by queries, the need to understand them also increases. “Why are there medicine books in my sales report?” or “Why are there not any database books?” For the first question we need to find the origins or provenance of the result tuples in the source data. However, reasoning about missing query results, specified by Why-Not questions as the latter previously mentioned, has not till recently receivedthe attention it is worth of. Why-Not questions can be answered by providing explanations for the missing tuples. These explanations identify why and how data pertinent to the missing tuples were not properly combined by the query. Essentially, the causes lie either in the input data (e.g., erroneous or incomplete data) or at the query level (e.g., a query operator like join). Assuming that the source data contain all the necessary relevant information, we can identify the responsible query operators formingquery-based explanations. This information can then be used to propose query refinements modifying the responsible operators of the initial query such that the refined query result contains the expected data. This thesis proposes a framework targeted towards SQL query debugging and fixing to recover missing query results based on query-based explanations and query refinements.Our contribution to query debugging consist in two different approaches. The first one is a tree-based approach. First, we provide the formal framework around Why-Not questions, missing from the state-of-the-art. Then, we review in detail the state-of-the-art, showing how it probably leads to inaccurate explanations or fails to provide an explanation. We further propose the NedExplain algorithm that computes correct explanations for SPJA queries and unions there of, thus considering more operators (aggregation) than the state of the art. Finally, we experimentally show that NedExplain is better than the both in terms of time performance and explanation quality. However, we show that the previous approach leads to explanations that differ for equivalent query trees, thus providing incomplete information about what is wrong with the query. We address this issue by introducing a more general notion of explanations, using polynomials. The polynomial captures all the combinations in which the query conditions should be fixed in order for the missing tuples to appear in the result. This method is targeted towards conjunctive queries with inequalities. We further propose two algorithms, Ted that naively interprets the definitions for polynomial explanations and the optimized Ted++. We show that Ted does not scale well w.r.t. the size of the database. On the other hand, Ted++ is capable ii of efficiently computing the polynomial, relying on schema and data partitioning and advantageous replacement of expensive database evaluations by mathematical calculations. Finally, we experimentally evaluate the quality of the polynomial explanations and the efficiency of Ted++, including a comparative evaluation.For query fixing we propose is a new approach for refining a query by leveraging polynomial explanations. Based on the input data we propose how to change the query conditions pinpointed by the explanations by adjusting the constant values of the selection conditions. In case of joins, we introduce a novel type of query refinements using outer joins. We further devise the techniques to compute query refinements in the FixTed algorithm, and discuss how our method has the potential to be more efficient and effective than the related work.Finally, we have implemented both Ted++ and FixTed in an system prototype. The query debugging and fixing platform, short EFQ allows users to nteractively debug and fix their queries when having Why- Not questions
35

Bouges, Pierre. "Gestion de données manquantes dans des cascades de boosting : application à la détection de visages." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2012. http://tel.archives-ouvertes.fr/tel-00840842.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe ISPR (ImageS, Perception systems and Robotics) de l'Institut Pascal au sein de l'équipe ComSee (Computers that See). Ces travaux s'inscrivent dans le cadre du projet Bio Rafale initié par la société clermontoise Vesalis et financé par OSEO. Son but est d'améliorer la sécurité dans les stades en s'appuyant sur l'identification des interdits de stade. Les applications des travaux de cette thèse concernent la détection de visages. Elle représente la première étape de la chaîne de traitement du projet. Les détecteurs les plus performants utilisent une cascade de classifieurs boostés. La notion de cascade fait référence à une succession séquentielle de plusieurs classifieurs. Le boosting, quant à lui, représente un ensemble d'algorithmes d'apprentissage automatique qui combinent linéairement plusieurs classifieurs faibles. Le détecteur retenu pour cette thèse utilise également une cascade de classifieurs boostés. L'apprentissage d'une telle cascade nécessite une base d'apprentissage ainsi qu'un descripteur d'images. Cette description des images est ici assurée par des matrices de covariance. La phase d'apprentissage d'un détecteur d'objets détermine ces conditions d'utilisation. Une de nos contributions est d'adapter un détecteur à des conditions d'utilisation non prévues par l'apprentissage. Les adaptations visées aboutissent à un problème de classification avec données manquantes. Une formulation probabiliste de la structure en cascade est alors utilisée pour incorporer les incertitudes introduites par ces données manquantes. Cette formulation nécessite l'estimation de probabilités a posteriori ainsi que le calcul de nouveaux seuils à chaque niveau de la cascade modifiée. Pour ces deux problèmes, plusieurs solutions sont proposées et de nombreux tests sont effectués pour déterminer la meilleure configuration. Enfin, les applications suivantes sont présentées : détection de visages tournés ou occultés à partir d'un détecteur de visages de face. L'adaptation du détecteur aux visages tournés nécessite l'utilisation d'un modèle géométrique 3D pour ajuster les positions des sous-fenêtres associées aux classifieurs faibles.
36

Bock, Dumas Élodie de. "Identification de stratégies d’analyse de variables latentes longitudinales en présence de données manquantes potentiellement informatives." Nantes, 2014. http://archive.bu.univ-nantes.fr/pollux/show.action?id=ed3dcb7e-dec1-4506-b99d-50e3448d1ce4.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le but de cette étude était d'identifier des stratégies pour analyser des variables latentes longitudinales (patient reported outcomes – PRO) en présence de données manquantes potentiellement informatives. Des modèles, issus de la thérorie classique des tests et de la famille des modèles de Rasch, ont été comparés. Dans le but d'obtenir une comparaison objective de ces méthodes, des études de simulation ont été mises en place. De plus, des exemples illustratifs ont été analysés. Ce travail de recherche a montré que la méthode issue des modèles de la famille de Rasch donne de meilleurs résultats que l'autre méthode dans certaines conditions, surtout du point de vue de la puissance. Cependant, des limites ont été mises en évidence. De plus, des résultats ont été obtenus concernant les conditions d'utilisation de l'imputation par la moyenne
The purpose of this study was to identify the most adequate strategy to analyse longitudinal latent variables (patient reported outcomes) when potentially informative missing data are observed. Models coming from classical test theory and Rasch-family were compared. In order to obtain an objective comparison of these methods, simulation studies were used. Moreover, illustrative examples were analysed. This research work showed that the method that comes from Rasch-family models performs better than the other in some circumstances, mainly for power. However, limitations were highlighted. Moreover, some results were obtained about personal mean score imputation
37

Imbert, Alyssa. "Intégration de données hétérogènes complexes à partir de tableaux de tailles déséquilibrées." Thesis, Toulouse 1, 2018. http://www.theses.fr/2018TOU10022/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les avancées des nouvelles technologies de séquençage ont permis aux études cliniques de produire des données volumineuses et complexes. Cette complexité se décline selon diverses modalités, notamment la grande dimension, l’hétérogénéité des données au niveau biologique (acquises à différents niveaux de l’échelle du vivant et à divers moments de l’expérience), l’hétérogénéité du type de données, le bruit (hétérogénéité biologique ou données entachées d’erreurs) dans les données et la présence de données manquantes (au niveau d’une valeur ou d’un individu entier). L’intégration de différentes données est donc un défi important pour la biologie computationnelle. Cette thèse s’inscrit dans un projet de recherche clinique sur l’obésité, DiOGenes, pour lequel nous avons fait des propositions méthodologiques pour l’analyse et l’intégration de données. Ce projet est basé sur une intervention nutritionnelle menée dans huit pays européens et vise à analyser les effets de différents régimes sur le maintien pondéral et sur certains marqueurs de risque cardio-vasculaire et de diabète, chez des individus obèses. Dans le cadre de ce projet, mes travaux ont porté sur l’analyse de données transcriptomiques (RNA-Seq) avec des individus manquants et sur l’intégration de données transcriptomiques (nouvelle technique QuantSeq) avec des données cliniques. La première partie de cette thèse est consacrée aux données manquantes et à l’inférence de réseaux à partir de données d’expression RNA-Seq. Lors d’études longitudinales transcriptomiques, il arrive que certains individus ne soient pas observés à certains pas de temps, pour des raisons expérimentales. Nous proposons une méthode d’imputation multiple hot-deck (hd-MI) qui permet d’intégrer de l’information externe mesurée sur les mêmes individus et d’autres individus. hd-MI permet d’améliorer la qualité de l’inférence de réseau. La seconde partie porte sur une étude intégrative de données cliniques et transcriptomiques (mesurées par QuantSeq) basée sur une approche réseau. Nous y montrons l’intérêt de cette nouvelle technique pour l’acquisition de données transcriptomiques et l’analysons par une approche d’inférence de réseau en lien avec des données cliniques d’intérêt
The development of high-throughput sequencing technologies has lead to a massive acquisition of high dimensional and complex datasets. Different features make these datasets hard to analyze : high dimensionality, heterogeneity at the biological level or at the data type level, the noise in data (due to biological heterogeneity or to errors in data) and the presence of missing data (for given values or for an entire individual). The integration of various data is thus an important challenge for computational biology. This thesis is part of a large clinical research project on obesity, DiOGenes, in which we have developed methods for data analysis and integration. The project is based on a dietary intervention that was led in eight Europeans centers. This study investigated the effect of macronutrient composition on weight-loss maintenance and metabolic and cardiovascular risk factors after a phase of calorie restriction in obese individuals. My work have mainly focused on transcriptomic data analysis (RNA-Seq) with missing individuals and data integration of transcriptomic (new QuantSeq protocol) and clinic datasets. The first part is focused on missing data and network inference from RNA-Seq datasets. During longitudinal study, some observations are missing for some time step. In order to take advantage of external information measured simultaneously to RNA-Seq data, we propose an imputation method, hot-deck multiple imputation (hd-MI), that improves the reliability of network inference. The second part deals with an integrative study of clinical data and transcriptomic data, measured by QuantSeq, based on a network approach. The new protocol is shown efficient for transcriptome measurement. We proposed an analysis based on network inference that is linked to clinical variables of interest
38

Gouba, Elisée. "Identification de paramètres dans les systèmes distribuées à données manquantes : modèles mathématiques de la performance en sport." Antilles Guyane, 2010. http://www.theses.fr/2010AGUY0330.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Deux thèmes ont été abordés dans cette thèse: Identification de paramètres dans les systèmes distribués à données manquantes en première partie et modèles mathématiques de la performance en sport en seconde partie. La première partie concerne donc l'identification de la perméabilité d'un réservoir pétrolier en écoulement monophasique. Le modèle non linèaire dont nous disposons est incomplet dans le sens où la condition initiale, la condition aux limites et certains paramètres pétrophysiques du modèle ne sont que partiellement connus. Deux approches sont possibles, l'une classique utilisant la méthode des moindres carrés et l'autre plus ciblée utilisant la méthode des sentinelles développée par J. L. Lions. Dans ce travail, nous montrons d'abord que le problème de la sentinelle est équivalent à un problème de contrôlabilité à zéro. Nous résolvons ensuite ce problème de contrôlabilité par la méthode variationnelle rendue possible grâce aux inégalités de Carleman. La seconde partie de cette thèse est consacrée au modèle mathématique de la performance en sport proposé par Banister en 1975. Nous appliquons ce modèle pour la première fois aux données physiologiques d'une nageuse monopalme puis nous proposons un modèle qui améliore celui de Banister
Two topics were studied in this thesis: parameter's identification in distributed systems with missing data in first part and mathematical models of performance in sports in second part. The aim of the first part of this thesis is to identify the permeability parameter of an oil tanks in monophasic flow. The nonlinear model w have is a system with incomplete data in the sense that the initial condition, the boundary conditions and some petro-physical parameters of the model are partially known. Two approaches are possible, one using the classical method of least squares and the other more targeted using the sentinel method developed by J. L. Lions. Ln this work, we first show that the sentinel problem is equivalent to a null controllability problem. And we solves the problem of null controllability by the variational method made possible by the Carleman inequalities. The second part of this thesis is devoted to the mathematical model of performance in sports proposed by Banister in 1975. We firstly apply this model at physiological data of monofin swimmer and we propose a model that improves Banister's mode/
39

Kezouit, Omar Abdelaziz. "Bases de données relationnelles et analyse de données : conception et réalisation d'un système intégré." Paris 11, 1987. http://www.theses.fr/1987PA112130.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les utilisateurs de bases de données relationnelles ont de plus en plus souvent tendance à attendre des Systèmes de Gestion de Bases de Données (SGBD) des fonctionnalités qui aillent plus loin que l'organisation le stockage et la restitution d'un ensemble de données. D'un autre côté, les utilisateurs de l'analyse statistique multidimensionnelle, qui traitent des tableaux de données rectangulaires, ont de gros problèmes de gestion de leurs données et les outils dont ils disposaient jusqu'à présent manquaient souvent de souplesse, voire de possibilités. Pour répondre à cette préoccupation, cette thèse propose de rapprocher bases de données relationnelles et analyse statistique multidimensionnelle à travers la réalisation d'un système intégrant un SGBD relationnel et un système d'analyse de données, et de montrer par là même tout le bénéfice qui peut en être tiré du point de vue de l'interrogation des données. La première partie se propose de présenter les problèmes généraux naissant de l'intégration. Après une présentation des deux domaines et de certains travaux en bases de données statistiques, nous proposons une synthèse des notions de l'analyse statistique multidimensionnelle et des bases de données relationnelles. Ceci permettra de déboucher sur les spécifications d'un outil intégré de gestion et d'analyse des données et également de mettre en évidence un problème de cohérence particulier. Outre l'apport provenant de chaque part (gestion des données plus performante grâce au SGBD, interrogation statistique grâce au système d'analyse des données), des possibilités nouvelles naissent de l'intégration. Il s'agit principalement de la capacité d'effectuer des requêtes approximatives, que nous défroissons à cette occasion, sur une base de données et de la résolution dans certains cas du problème des données manquantes. La seconde partie est consacrée à la présentation d'une réalisation particulière. Nous avons pour cela intégré le SGBD relationnel PEPIN et le Système de classification automatique SICLA. Le prototype opérationnel permet ainsi de gérer une base de données relationnelle et de l'interroger statistiquement. Un exemple d'utilisation pour le traitement d'une enquête est donné.
40

Ben, Othman Leila. "Conception et validation d'une méthode de complétion des valeurs manquantes fondée sur leurs modèles d'apparition." Phd thesis, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-01017941.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de connaissances à partir de données incomplètes constitue un axe de recherche en plein essor. Dans cette thèse, nous y contribuons par la proposition d'une méthode de complétion des valeurs manquantes. Nous commençons par aborder cette problématique par la définition de modèles d'apparition des valeurs manquantes. Nous en proposons une nouvelle typologie en fonction des données connues et nous les caractérisons de façon non redondante grâce à la base d'implications propres. Un algorithme de calcul de cette base de règles, formalisé à partir de la théorie des hypergraphes, est également proposé dans cette thèse. Ensuite, nous exploitons les informations fournies lors de l'étape de caractérisation afin de proposer une méthode de complétion contextualisée, qui complète les valeurs manquantes selon le type aléatoire/non-aléatoire et selon le contexte. La complétion des valeurs manquantes non aléatoires est effectuée par des valeurs spéciales, renfermant intrinsèquement les origines des valeurs manquantes et déterminées grâce à des schémas de caractérisation. Finalement, nous nous intéressons aux techniques d'évaluation des méthodes de complétion et nous proposons une nouvelle technique fondée sur la stabilité d'un clustering entre les données de référence et les données complétées.
41

Picard, Jacques. "Structure, classification et discrimination des profils évolutifs incomplets et asynchrones." Lyon 1, 1987. http://www.theses.fr/1987LYO19044.

Full text
APA, Harvard, Vancouver, ISO, and other styles
42

Peng, Tao. "Analyse de données loT en flux." Electronic Thesis or Diss., Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0649.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Depuis l'avènement de l'IoT (Internet of Things), nous assistons à une augmentation sans précédent du volume des données générées par des capteurs. Pour l'imputation des données manquantes d'un capteur f, nous proposons le modèle ISTM (Incremental Space-Time Model), qui utilise la régression linéaire multiple incrémentale adaptée aux données en flux non-stationnaires. ISTM met à jour son modèle en sélectionnant : 1) les données des capteurs voisins géographiquement du capteur f, et 2) les données les plus récentes retournées par f. Pour mesurer la confiance, nous proposons un modèle générique de prédiction DTOM (Data Trustworthiness Online Model) qui s'appuie sur des méthodes ensemblistes de régression en ligne comme AddExp et BNNRW . DTOM permet de prédire des valeurs de confiance en temps réel et comporte trois phases : 1) une phase d'initialisation du modèle, 2) une phase d'estimation du score de confiance, et 3) une phase de mise à jour heuristique du régresseur. Enfin, nous nous intéressons à la prédiction dans une STS avec des sorties multiples en présence de déséquilibre, c'est à dire lorsqu'il y a plus d'instances dans un intervalle de valeurs que dans un autre. Nous proposons MORSTS, une méthode de régression ensembliste en ligne, avec les caractéristiques suivantes : 1) les sous-modèles sont à sorties multiples, 2) l'utilisation de la stratégie sensible aux coûts c'est à dire que l'instance incorrectement prédite a un poids plus élevé, et 3) le contrôle du sur-apprentissage des sous-modèles naissants par la méthode de validation croisée k-fold. Des expérimentations avec des données réelles ont été effectuées et comparées avec des techniques connues
Since the advent of the IoT (Internet of Things), we have witnessed an unprecedented growth in the amount of data generated by sensors. To exploit this data, we first need to model it, and then we need to develop analytical algorithms to process it. For the imputation of missing data from a sensor f, we propose ISTM (Incremental Space-Time Model), an incremental multiple linear regression model adapted to non-stationary data streams. ISTM updates its model by selecting: 1) data from sensors located in the neighborhood of f, and 2) the near-past most recent data gathered from f. To evaluate data trustworthiness, we propose DTOM (Data Trustworthiness Online Model), a prediction model that relies on online regression ensemble methods such as AddExp (Additive Expert) and BNNRW (Bagging NNRW) for assigning a trust score in real time. DTOM consists: 1) an initialization phase, 2) an estimation phase, and 3) a heuristic update phase. Finally, we are interested predicting multiple outputs STS in presence of imbalanced data, i.e. when there are more instances in one value interval than in another. We propose MORSTS, an online regression ensemble method, with specific features: 1) the sub-models are multiple output, 2) adoption of a cost sensitive strategy i.e. the incorrectly predicted instance has a higher weight, and 3) management of over-fitting by means of k-fold cross-validation. Experimentation with with real data has been conducted and the results were compared with reknown techniques
43

Tabouy, Timothée. "Impact de l’échantillonnage sur l’inférence de structures dans les réseaux : application aux réseaux d’échanges de graines et à l’écologie." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS289/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse nous nous intéressons à l’étude du modèle à bloc stochastique (SBM) en présence de données manquantes. Nous proposons une classification des données manquantes en deux catégories Missing At Random et Not Missing At Random pour les modèles à variables latentes suivant le modèle décrit par D. Rubin. De plus, nous nous sommes attachés à décrire plusieurs stratégies d’échantillonnages de réseau et leurs lois. L’inférence des modèles de SBM avec données manquantes est faite par l’intermédiaire d’une adaptation de l’algorithme EM : l’EM avec approximation variationnelle. L’identifiabilité de plusieurs des SBM avec données manquantes a pu être démontrée ainsi que la consistance et la normalité asymptotique des estimateurs du maximum de vraisemblance et des estimateurs avec approximation variationnelle dans le cas où chaque dyade (paire de nœuds) est échantillonnée indépendamment et avec même probabilité. Nous nous sommes aussi intéressés aux modèles de SBM avec covariables, à leurs inférence en présence de données manquantes et comment procéder quand les covariables ne sont pas disponibles pour conduire l’inférence. Finalement, toutes nos méthodes ont été implémenté dans un package R disponible sur le CRAN. Une documentation complète sur l’utilisation de ce package a été écrite en complément
In this thesis we are interested in studying the stochastic block model (SBM) in the presence of missing data. We propose a classification of missing data into two categories Missing At Random and Not Missing At Random for latent variable models according to the model described by D. Rubin. In addition, we have focused on describing several network sampling strategies and their distributions. The inference of SBMs with missing data is made through an adaptation of the EM algorithm : the EM with variational approximation. The identifiability of several of the SBM models with missing data has been demonstrated as well as the consistency and asymptotic normality of the maximum likelihood estimators and variational approximation estimators in the case where each dyad (pair of nodes) is sampled independently and with equal probability. We also looked at SBMs with covariates, their inference in the presence of missing data and how to proceed when covariates are not available to conduct the inference. Finally, all our methods were implemented in an R package available on the CRAN. A complete documentation on the use of this package has been written in addition
44

Rioult, François. "Extraction de connaissances dans les bases de donn'ees comportant des valeurs manquantes ou un grand nombre d'attributs." Phd thesis, Université de Caen, 2005. http://tel.archives-ouvertes.fr/tel-00252089.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de connaissances dans les bases de données est une discipline récente visant à la découverte de nouvelles connaissances. L'extraction de motifs y est une tâche centrale et cette thèse traite de deux cas présentant un caractère générique et particulièrement utile dans de nombreuses applications : celui des bases de données entachées de valeurs manquantes ou comportant un grand nombre d'attributs. Le premier cas est un problème ancien concernant les données issues du monde réel. Sans traitement particulier, les valeurs manquantes sont sources de graves dommages dans les connaissances extraites. Pour faire face à ce problème, nous proposons un mécanisme de désactivation temporaire des objets incomplets. Il permet d'effectuer des calculs dans une base incomplète, qui mettent en évidence des propriétés des données qui sont compatibles avec les propriétés de la base complète. Nous montrons un résultat de consistance des motifs k-libres extraits dans la base avec des valeurs manquantes. Ces propriétés sont exploitées avec celles issues de la base opposée pour proposer une méthode originale de construction de règles d'association informatives généralisées. Un outil logiciel a été développé pour l'extraction des motifs k-libres en présence de données incomplètes. Le deuxième cas concerne les bases de données aux dimensions inhabituelles, comportant nettement plus d'attributs que d'objets, configuration rendant difficile voire impossible l'application des algorithmes classiques. De nombreuses applications sont caractérisées par des données de ce type. Par exemple le domaine scientifique émergent de l'analyse du génome produit des données sur des dizaines de milliers de gènes, mais les expériences biologiques qui déterminent la séquence de gènes sont coûteuses et donc peu nombreuses. Nous avons développé un cadre formel pour l'extraction de motifs contraints dans ces données, en utilisant un principe de transposition et les propriétés de la connexion de Galois. Ce cadre permet de choisir l'orientation de la base de données qui est la plus favorable pour les algorithmes d'extraction. Les contraintes de recherche sont également transposables, et permettent d'obtenir les motifs contraints en menant les extractions dans le contexte transposée. Enfin, à partir des contributions précédentes, l'utilisation de règles d'association généralisées à des fins d'apprentissage supervisé et de motifs émergents forts complète ces travaux dans le cadre d'applications concernant des données médicales et génomiques.
45

Badran, Hussein. "Contribution à la mesure en analyse factorielle des données et applications." Aix-Marseille 3, 2001. http://www.theses.fr/2001AIX30035.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse regroupe un certain nombre de travaux pour la plupart sous forme d'articles classés en deux grandes parties. La première partie, plus théorique, concerne certaines études attachées au contexte de l'analyse factorielle. Dans un premier travail, sont abordées des questions liées aux lois de probabilités intervenant en analyse factorielle et d'abord l'évaluation et la caractérisation des données manquantes. On donne ensuite quelques résultats nouveaux sur les transformations projectives permettant d'approcher des lois de probabilités données sur des compacts. Enfin est proposé un résultat sur la mesure de deux parties complémentaires d'un convexe définies par un hyperplan passant par son centre de gravité au sens d'une distribution de masse donnée. La deuxième partie rassemble un certain nombre d'applications de l'analyse factorielle montrant d'une part la diversité des domaines d'application mais aussi les problèmes spécifiques que l'on peut découvrir au fur et à mesure
This thesis presents under a same cover a certain number of articles and studies that are regrouped into two parts. The first part, mostly theoretical, concerns some studies in the framework of factorial analysis. In the beginning several questions related to probability distribution functions appearing in factorial analysis are considereed, mainly about the evaluation and characterization of missing data. Then new results are given on projective transformations that allow to approach probability laws on compact sets. Finally another result on measureness (under the meaning of a given mass distribution) of two complementary subsets of convex sets defined by hyperplanes going through the gravity center. The second part aims at presenting a certain number of applications of Correspondence Factorial Analysis showing the diversity of concrete problems that can be invoked. It offers results of many studies conducted in France as in Lebanon in the framework of several researches that have facilitated the discovery of new information in very different sectors from experimental sciences going from earth science to economical, political and social sciences
46

Ly, Birama Apho. "Prévalence et facteurs associés aux données manquantes des registres de consultations médicales des médecins des centres de santé communautaires de Bamako." Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/28555/28555.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Objectifs Cette étude avait pour but d’estimer la prévalence des données manquantes dans les registres de consultations médicales tenus par les médecins des Centres de santé communautaire (CSCOM) de Bamako et d’identifier, à partir de la théorie du comportement planifié, les facteurs qui prédisent l’intention des médecins de faire la collecte exhaustive des données dans leurs registres. Méthode Une étude transversale exploratoire a été conduite, incluant 3072 consultations médicales et 32 médecins aléatoirement choisis. Les données ont été collectées entre janvier et février 2011 à travers une fiche de dépouillement et un questionnaire portant sur les caractéristiques sociodémographiques et professionnelles des médecins et sur les construits de la théorie du comportement planifié. Des statistiques descriptives, des corrélations et des analyses de régression ont été effectuées. Résultats Toutes les variables contenues dans les registres de consultations médicales comportent des données manquantes. Toutefois, seules quatre variables (symptôme, diagnostic, traitement et observation) ont des prévalences élevées de données manquantes. La variable observation a la prévalence la plus élevée avec 95,6 % de données manquantes. Par ailleurs, l’intention des médecins de faire la collecte exhaustive des données est prédite par la norme subjective et le nombre d’années de service. Conclusion Les résultats de cette étude contribueront à faire avancer les connaissances sur les données manquantes en identifiant les stratégies possibles à mettre en œuvre pour améliorer la qualité de l’information sanitaire recueillie au niveau des CSCOM. Ils permettront, aussi, de mieux informer les décisions concernant l’allocation des ressources.
Objective This study aims to estimate the prevalence of missing data in the medical consultation registries held by physicians working in Bamako community health Centers (COMHC) and to identify the factors which predict physicians’ intention to collect completely the data in their registries, based on the Theory of Planned Behaviour (TPB). Method A exploratory cross-sectional study was conducted, including a random sample of 3072 medical consultations and 32 physicians. Data were collected between January and February 2011 through a standardized extraction form and a questionnaire measuring physicians’ sociodemographic and professional characteristics as well as constructs from the Theory of Planned Behaviour (TPB). Descriptive statistics, correlations and linear regression were performed. Results All the variables contained in the medical consultations registries have missing data. However, only four variables (symptom, diagnosis, treatment and observation) have a high prevalence of missing data. The variable observation has the highest prevalence with 95.6% of missing data. Physician’s intention to collect completely the data is predicted by their subjective norm and the number of years of practice. Conclusion The results of this study should contribute to advance knowledge on the prevalence of missing data and possible strategies to improve the quality of health information collected from the CSCOM. This information can possibly allow to better inform the decisions concerning resource allocation.
47

Jebri, Mohamed Ali. "Estimation des données manquantes par la métrologie virtuelle pour l'amélioration du régulateur Run-To-Run dans le domaine des semi-conducteurs." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0028.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La thématique abordée porte sur la métrologie virtuelle (VM) pour estimer les données manquantes durant les processus de fabrications des semi-conducteurs. L'utilisation de la métrologie virtuelle permet également de fournir les mesures logicielles (estimations) des sorties pour alimenter les régulateurs run-to-run (R2R) mis en place pour le contrôle de la qualité des produits fabriqués. Pour remédier aux problèmes liés au retard de mesures causé par l'échantillonnage statique imposé par la stratégie et les équipements mis en place, notre contribution dans cette thèse est d'introduire la notion de l'échantillonnage dynamique intelligent. Cette stratégie est basée sur un algorithme qui prend en compte la condition de voisinage permettant d'éviter la mesure réelle même si l'échantillonnage statique l'exige. Cela permet de réduire le nombre de mesures réelles, le temps du cycle et le coût de production. Cette approche est assurée par un module de métrologie virtuelle (VM) que nous avons développé et qui peut être intégré dans une boucle de régulation R2R. Les résultats obtenus ont été validés sur des exemples académiques et sur des données réelles fournies par notre partenaire STMicroelectronics de Rousset concernant un processus chemical mechanical planarization (CMP). Ces données réelles ont permis également de valider les résultats obtenus de la métrologie virtuelle pour les fournir ensuite aux régulateurs R2R (ayant besoin de l'estimation de ces données)
The addressed work is about the virtual metrology (VM) for estimating missing data during semiconductor manufacturing processes. The use of virtual metrology tool also makes it possible to provide the software measurements (estimations) of the outputs to feed the run-to-run (R2R) controllers set up for the quality control of the manufactured products.To address these issues related to the delay of measurements caused by the static sampling imposed by the strategy and the equipments put in place, our contribution in this thesis is to introduce the notion of the dynamic dynamic sampling. This strategy is based on an algorithm that considers the neighborhood condition to avoid the actual measurement even if the static sampling requires it. This reduces the number of actual measurements, the cycle time and the cost of production. This approach is provided by a virtual metrology module (VM) that we have developed and which can be integrated into an R2R control loop. The obtained results were validated on academic examples and on real data provided by our partner STMicroelectronics of Rousset from a chemical mechanical planarization (CMP) process. This real data also enabled the results obtained from the virtual metrology to be validated and then supplied to the R2R regulators (who need the estimation of these data)
48

Dantan, Etienne. "Modèles conjoints pour données longitudinales et données de survie incomplètes appliqués à l'étude du vieillissement cognitif." Thesis, Bordeaux 2, 2009. http://www.theses.fr/2009BOR21658/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans l'étude du vieillissement cérébral, le suivi des personnes âgées est soumis à une forte sélection avec un risque de décès associé à de faibles performances cognitives. La modélisation de l'histoire naturelle du vieillissement cognitif est complexe du fait de données longitudinales et données de survie incomplètes. Par ailleurs, un déclin accru des performances cognitives est souvent observé avant le diagnostic de démence sénile, mais le début de cette accélération n'est pas facile à identifier. Les profils d'évolution peuvent être variés et associés à des risques différents de survenue d'un événement; cette hétérogénéité des déclins cognitifs de la population des personnes âgées doit être prise en compte. Ce travail a pour objectif d'étudier des modèles conjoints pour données longitudinales et données de survie incomplètes afin de décrire l'évolution cognitive chez les personnes âgées. L'utilisation d'approches à variables latentes a permis de tenir compte de ces phénomènes sous-jacents au vieillissement cognitif que sont l'hétérogénéité et l'accélération du déclin. Au cours d'un premier travail, nous comparons deux approches pour tenir compte des données manquantes dans l'étude d'un processus longitudinal. Dans un second travail, nous proposons un modèle conjoint à état latent pour modéliser simultanément l'évolution cognitive et son accélération pré-démentielle, le risque de démence et le risque de décès
In cognitive ageing study, older people are highly selected by a risk of death associated with poor cognitive performances. Modeling the natural history of cognitive decline is difficult in presence of incomplete longitudinal and survival data. Moreover, the non observed cognitive decline acceleration beginning before the dementia diagnosis is difficult to evaluate. Cognitive decline is highly heterogeneous, e.g. there are various patterns associated with different risks of survival event. The objective is to study joint models for incomplete longitudinal and survival data to describe the cognitive evolution in older people. Latent variable approaches were used to take into account the non-observed mechanisms, e.g. heterogeneity and decline acceleration. First, we compared two approaches to consider missing data in longitudinal data analysis. Second, we propose a joint model with a latent state to model cognitive evolution and its pre-dementia acceleration, dementia risk and death risk
49

Thiebaut, Rodolphe. "Modélisation longitudinales de marqueur du VIH." Phd thesis, Université Victor Segalen - Bordeaux II, 2002. http://tel.archives-ouvertes.fr/tel-00121899.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'étude de l'évolution et de la valeur pronostique des marqueurs est très fréquente en
épidémiologie. Le taux de lymphocytes T CD4+ et la charge virale plasmatique sont des
marqueurs très important de l'infection par le virus de l'immunodéficience humaine (VIH).
La modélisation de l'évolution de ces marqueurs présente plusieurs difficultés
méthodologiques. D'une part, il s'agit de données répétées incomplètes c'est à dire pouvant
être manquantes du fait de la sortie d'étude de certains sujets et de la censure de la charge
virale liée à une limite de détection inférieure des techniques de mesure. D'autre part, ces
deux marqueurs étant corrélés, il est important de prendre en compte cette information dans le
modèle. Nous avons proposé des méthodes basées sur le maximum de vraisemblance pour
estimer les paramètres de modèles linéaires mixtes prenant en compte l'ensemble de ces
difficultés. Nous avons montré l'impact significatif de ces méthodes biostatistiques sur les
estimations et donc nous avons souligné l'importance de leur utilisation dans le cadre des
marqueurs du VIH. Pour promouvoir leur diffusion, nous avons présenté des possibilités
d'implémentation de certaines des méthodes proposées dans des logiciels statistiques
communs.
50

Cottrell, Gilles. "Paludisme gestationnel en Afrique subsaharienne : l'infection périphérique aux différentes périodes de la grossesse et ses conséquences sur l'infection placentaire et le poids de naissance du nouveau-né." Paris 6, 2007. http://www.theses.fr/2007PA066067.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le paludisme gestationnel est un problème de santé publique en Afrique. L’infection placentaire (IP) en est l’indicateur standard. On connaît mal l’information donnée par cette mesure sur le statut palustre de la femme enceinte pendant la grossesse, et l’effet de l’infection aux différentes périodes de la grossesse sur le poids de naissance (PN) du nouveau-né. Notre analyse de données d’une cohorte de femmes enceintes au Burkina Faso a montré que l’IP, associée à l’infection en fin mais aussi en début de grossesse est un bon indicateur des infections pendant la grossesse. L’infection en fin de grossesse est associée à une baisse du PN moyen et à un risque accru de faible PN. Le début de grossesse pourrait occasionner une diminution du PN moyen. Actuellement le traitement préventif intermittent (TPI) pendant la grossesse est proscrit au premier trimestre. L’utilisation précoce de moustiquaires imprégnées d’insecticide complémentaire au TPI est souhaitable.

To the bibliography