To see the other types of publications on this topic, follow the link: Analyse multivariée statistique.

Dissertations / Theses on the topic 'Analyse multivariée statistique'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Analyse multivariée statistique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Larrere, Guy. "Contribution à l'étude asymptotique en analyse statistique multivariée." Pau, 1994. http://www.theses.fr/1994PAUU3026.

Full text
Abstract:
Ce travail est composé de cinq articles qui se répartissent en deux parties. On considère d'abord l'étude asymptotique des éléments propres associés à la valeur propre limite nulle en analyse canonique linéaire. Les lois limites sont complètement explicitées et permettent de généraliser le test de Bartlett de nullité des derniers coefficients canoniques. On montre ensuite que les résultats sont radicalement différents en analyse en composantes principales. Dans ce cas, on obtient, à partir d'une certaine taille d'échantillon et de l'analyse par échantillonnage, les éléments propres associés à la valeur propre limite zéro. Ces résultats sont obtenus sans faire d'hypothèses sur les lois des variables étudiées. La seconde partie est consacrée à l'étude asymptotique des modèles structurels. On réalise d'abord l'étude asymptotique du modèle structurel usuel dans le cadre de l'estimation selon les moindres carres des paramètres du modèle. On propose ensuite un modèle structurel mixte qui permet de généraliser les modèles fonctionnels et structurels usuels. On réalise l'étude asymptotique de ce modèle.
APA, Harvard, Vancouver, ISO, and other styles
2

Pavoine, Sandrine. "Méthodes statistiques pour la mesure de la biodiversité." Lyon 1, 2005. http://www.theses.fr/2005LYO10230.

Full text
Abstract:
Face à l'accumulation des indices développés pour mesurer la biodiversité, la détermination de schémas fondamentaux est devenue nécessaire. Cette thèse démontre que : 1) l'axiomatisation de Rao constitue un schéma statistique pour l'analyse de la variation, en particulier variance et diversité; 2) au cœur de ce schéma, un indice, l'entropie quadratique, basé sur une matrice de dissimilarités est défini sur l'ensemble des distributions de fréquences; 3) la décomposition de cet indice généralise des méthodes utilisées pour l'analyse de la variation en statistique (ANOVA), génétique (AMOVA) et écologie, et est égale à la décomposition de l'inertie d'un nuage de points dans un espace euclidien déterminé; 4) l'entropie quadratique appliquée à des dissimilarités ultramétriques présente trois propriétés qui sont fondamentales pour un indice de biodiversité. Cette thèse analyse l'unité de ce schéma qui réunit les concepts de diversité, inertie, dissimilarité, ordination et originalité
APA, Harvard, Vancouver, ISO, and other styles
3

Goulard, Michel. "Champs spatiaux et statistique multidimensionnelle." Grenoble 2 : ANRT, 1988. http://catalogue.bnf.fr/ark:/12148/cb376138909.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Mbuyi, Mukendi. "Contributions au codage en analyse multidimensionnelle : pondération, études simultanées de plusieurs groupes de variables." Paris 6, 1987. http://www.theses.fr/1987PA066093.

Full text
Abstract:
L'application des méthodes d'analyse multidimensionnelle à des tableaux de grande dimension et à des données hétérogènes pose de nouveaux problèmes d'ordre pratique qui font l'objet de notre thèse. Le 1er problème abordé concerne le traitement d'un tableau des correspondances multiples ayant de grandes dimensions. L'enquête sur les habitudes de lecture des titres de presse en France portait sur 15. 000 personnes représentant 39. 200. 000 français âgés de 15 ans. Chaque individu interrogé est caractérisé par une série de 700 réponses. Nous proposons quelques techniques de calculs : construction de sous-tableaux de Burt pondéré, croisement des partitions d'une CAH, combinaisons des modalités du signalement dans le cas d'un groupe de variables. Ces différentes techniques permettent en gardant le maximum d'informations, d'analyser d'énormes fichiers, qui à cause de la taille de l'ordinateur restaient inabordables jusqu'à présent. Le 2ème problème concerne l'analyse d'un tableau de données hétérogènes mettant en correspondance 60 types d'huiles brutes obtenues dans différents gisements du monde et 11 paramètres caractérisant chaque type d'huiles brutes. On effectue un codage disjonctif complet en découpant les paramètres en classes d'égal effectif. Nous calculons ensuite deux tableaux de Burt : le 1er pondéré par le coefficient représentant l'importance du gisement et le 2ème sans pondération. Nous montrons ensuite que cette transormation (pondération) laisse invariants les facteurs issus de l'analyse des correspondances. Nous apportons également une contribution au problème de la discrimination par affectation barycentrique
APA, Harvard, Vancouver, ISO, and other styles
5

Girard, Stéphane. "Construction et apprentissage statistique de modèles auto-associatifs non-linéaires : application à l'identification d'objets déformables en radiographie." Paris, CNAM, 1996. http://biblioweb.u-cergy.fr/theses/96CERG0015.pdf.

Full text
Abstract:
En radiographie numérique la comparaison de l'image d'une pièce à un ensemble d'images de références est une technique permettant de pallier le problème de superposition ou de détecter des défauts de fabrication. Lorsque l'objet observé n'est pas de géométrie fixe, la comparaison demande de construire un modèle capable de représenter l'objet et ses éventuelles déformations. Nous présentons dans cette thèse une méthode originale pour construire un modèle à partir d'un jeu d'exemples. Le problème est considéré du point de vue de l'analyse des données multidimensionnelles, ce qui assure un apprentissage des déformations applicable à une grande classe de problèmes. Dans une première partie, nous traitons un exemple de contrôle par radiographie de soudures de circuits imprimés. Nous montrons comment un modèle linéaire des déformations d'une patte de circuit imprimé permet de construire une image caractéristique des soudures. Dans une seconde partie, nous montrons les limites du modèle linéaire sur des simulations de déformation de courbes, et nous proposons une méthode innovante de construction de modèles non-linéaires. Ces modèles, que nous appelons modèles composés, se placent dans le cadre des méthodes Auto-Associatives et s'appuient sur les techniques de Poursuite de Projection en Régression. En effet, nous prouvons d'une part que les modèles composés étendent les propriétés d'approximation des méthodes Auto-Associatives classiques et, d'autre part, nous adoptons une mise en œuvre par un algorithme itératif inspiré de la Poursuite de Projection. La convergence de cet algorithme vers la solution exacte en un temps fini est démontrée
APA, Harvard, Vancouver, ISO, and other styles
6

Ferreira, Porto Rosa Ariane. "Maîtrise statistique de procédés par lots à temps variable." Nantes, 2005. http://www.theses.fr/2005NANT2088.

Full text
Abstract:
L'utilisation des procédés par lots dans la production et le traitement des matières premières a montré une croissance significative pendant les dernières décennies. Elle représente une alternative au mode continu de production, un nouveau mode de production discontinu et diversifié en petites ou moyennes séries. Les procédés par lots ont des points de début et d'arrêts prédéterminés, les matières premières sont introduites dans le procédé en quantités prédéfinies, dans un ordre spécifique. Les méthodes statistiques qui ont été développées pour la surveillance des procédés par lots consistent en l'application des cartes de contrôle multivariables, l'utilisation de l'analyse multidimensionnelle des données, la détection et le diagnostic des défauts. Cependant, dans beaucoup de procédés industriels, les différents profils du même procédé par lots peuvent ne pas avoir le même temps total de durée. Dans ce cas, l'analyse des données du procédé pour effectuer le contrôle statistique multivariable peut être difficile. Cette thèse propose des nouvelles méthodes pour la surveillance hors-ligne et en-ligne des procédés par lots à temps variable basées sur la distance de Hausdorff. Les méthodes proposées ont été appliquées dans une étude de cas simulé et dans une étude de cas industriel. La conclusion est que les méthodes proposées peuvent distinguer efficacement entre les lots nominaux et non nominaux après et avant leur accomplissement<br>The use of batch processes in the production and the treatment of the raw materials showed a significant growth during the last decades. A batch process is a discontinuous system of production usually met in the processing of the matter industries such as, for example, chemical and pharmaceutical. It represents an alternative to the continuous mode of production diversified in small or average series. Batch processes have predetermined starting and stopping points and raw materials are introduced into the process a predefined amounts, in a specific sequence. The methods developed for the monitoring of batch processes consist in the application of multivariate control charts, in the use of multivariate statistical projection methods, fault detection and process diagnosis. However, in many industries, different runs of the same batch process have a different duration or the duration of various stages within the batches is not the same. In these cases, data analysis from process for performing the multivariate statistical process control can be difficult. This thesis proposes new methods for off-line and on-line monitoring of batch processes with varying duration based on the Hausdorff Distance. These new methods have been successfully tested on a simulated example and on a industrial case example. The conclusion is that these methods are able to efficiently discriminate between nominal and non-nominal batches after and before their completion
APA, Harvard, Vancouver, ISO, and other styles
7

Corouge, Isabelle. "Modélisation statistique de formes en imagerie cérébrale." Rennes 1, 2003. https://tel.archives-ouvertes.fr/tel-00003647.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Tramini, Paul. "Analyse par microspectrométrie Raman des tissus dentaires minéralisés et leur relation avec l'âge : étude statistique multivariée." Montpellier 1, 1999. http://www.theses.fr/1999MON1T021.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Lambert, Thierry. "Réalisation d'un logiciel d'analyse de données." Paris 11, 1986. http://www.theses.fr/1986PA112274.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Nzobounsana, Victor. "Analyse canonique généralisée : méthodes, applications, extensions et choix des variables dans les groupes." Rennes 2, 2001. http://www.theses.fr/2001REN20007.

Full text
Abstract:
Le travail de cette thèse se rapporte aux extensions de l'Analyse Canonique, A. C. (méthode qui permet d'étudier les relations linéaires entre deux groupes de variables, HOTELLING) lorsqu'on a plus de deux groupes de variables. Après l'introduction, le chapitre 2 fait la synthèse des méthodes classiques d'extension de l'A. C (méthodes MAXVAR, MINVAR, SSQCOR, GENVAR, SUMCOR, de CARROLL etc. . . ) appelées Analyse canonique généralisée (ACG) et donne aussi, une comparaison théorique de ces méthodes. Les méthodes précédentes qui se réduisent toutes à l'AC, lorsqu'on n'a que deux groupes, optimisent des critères qui ne dépendent que des valeurs propres de la matrice de corrélations des variables canoniques d'où l'idée de fournir d'autres extensions de l'AC en considérant deux critères plus généraux englobant les critères déjà proposés dans le chapitre 2. C'est ce que nous faisons dans les chapitres 4 et 5. Dans le chapitre 4, à partir de notre premier critère général, nous étudions l'influence du critère sur les solutions des méthodes usuelles et non usuelles d'ACG tandis que dans le chapitre 5, avec notre deuxième critère général nous proposons trois nouvelles méthodes d'ACG. Dans le chapitre 6, nous rappelons les résultats relatifs à la comparaison et à l'équivalence de deux AC au sens d'HOTELLING, lorsqu'on élimine des variables dans les deux groupes, puis nous adaptons les propriétés précédentes au cas de l'équivalence entre deux ACG au sens de CARROLL. Nous donnons ensuite des conditions nécessaires et suffisantes (CNS) pour que deux ACG soient équivalentes. Enfin, à partir de ces CNS, nous proposons quatre critères qui permettent de faire le choix des variables pertinentes dans les groupes. Toutes les méthodes décrites dans cette thèse sont appliquées et comparées sur des données sensorielles (chapitre 3)<br>The work of this thesis is based on the method which generalize canonical correlation analysis, cca, proposed by HOTELING. Canonical correlation analysis, CA, measures and represents the linear relationship between two subsets of variables in an unambiguous way. It seeks to find a small number of linear combinations of each set of variables in order to explain or summarise the relationships of them. Many procedures have been proposed to generalize Canonical correlation analysis, GCCA, to three or more sets of variables : Steel (1951), Horst (1961), Carroll (1968), Kettenring (1971), Lafosse (1989). All of those procedures are based on the principle of optimizing some functions of the eigenvalues of the correlation matrix of linear combinations. The solution of such analysis depends therefore on a criterion used by the procedures. After the chapter of introduction (chapter 1), the chapter 2 propose a synthesis of usual technique that generalize the CA. In chapter 4 and 5, two general class of criteria that depends on the eigenvalues of the correlation matrix of linear combinations are proposed. The first class of criteria is used to study the sensitivity to the criterion of canonical variables in GCCA (chapter 4) and, the second class of criteria is used to propose three news methods of GCCA (chapter 5). In chapter 6, we study the necessary and sufficient conditions, NSC, for the equivalience between two GCCA. With these NSC, we propose four criterions to choose the best variables in the groups. All of these methods of GCCA are applied to the real data in chapter 3
APA, Harvard, Vancouver, ISO, and other styles
11

Lhéritier, Alix. "Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4072/document.

Full text
Abstract:
Cette thèse présente trois contributions en lien avec l'apprentissage et la détection de dissimilarité statistique multivariée, problématique d'importance primordiale pour de nombreuses méthodes d'apprentissage utilisées dans un nombre croissant de domaines. La première contribution introduit la notion de taille d'effet multivariée non-paramétrique, éclairant la nature de la dissimilarité détectée entre deux jeux de données, en deux étapes. La première consiste en une décomposition d'une mesure de dissimilarité (divergence de Jensen-Shannon) visant à la localiser dans l'espace ambiant, tandis que la seconde génère un résultat facilement interprétable en termes de grappes de points de forte discrépance et en proximité spatiale. La seconde contribution présente le premier test non-paramétrique d'homogénéité séquentiel, traitant les données issues de deux jeux une à une--au lieu de considérer ceux-ci- in extenso. Le test peut ainsi être arrêté dès qu'une évidence suffisamment forte est observée, offrant une flexibilité accrue tout en garantissant un contrôle del'erreur de type I. Sous certaines conditions, nous établissons aussi que le test a asymptotiquement une probabilité d'erreur de type II tendant vers zéro. La troisième contribution consiste en un test de détection de changement séquentiel basé sur deux fenêtres glissantes sur lesquelles un test d'homogénéité est effectué, avec des garanties sur l'erreur de type I. Notre test a une empreinte mémoire contrôlée et, contrairement à des méthodes de l'état de l'art qui ont aussi un contrôle sur l'erreur de type I, a une complexité en temps constante par observation, le rendant adapté aux flux de données<br>In this thesis, we study problems related to learning and detecting multivariate statistical dissimilarity, which are of paramount importance for many statistical learning methods nowadays used in an increasingly number of fields. This thesis makes three contributions related to these problems. The first contribution introduces a notion of multivariate nonparametric effect size shedding light on the nature of the dissimilarity detected between two datasets. Our two step method first decomposes a dissimilarity measure (Jensen-Shannon divergence) aiming at localizing the dissimilarity in the data embedding space, and then proceeds by aggregating points of high discrepancy and in spatial proximity into clusters. The second contribution presents the first sequential nonparametric two-sample test. That is, instead of being given two sets of observations of fixed size, observations can be treated one at a time and, when strongly enough evidence has been found, the test can be stopped, yielding a more flexible procedure while keeping guaranteed type I error control. Additionally, under certain conditions, when the number of observations tends to infinity, the test has a vanishing probability of type II error. The third contribution consists in a sequential change detection test based on two sliding windows on which a two-sample test is performed, with type I error guarantees. Our test has controlled memory footprint and, as opposed to state-of-the-art methods that also provide type I error control, has constant time complexity per observation, which makes our test suitable for streaming data
APA, Harvard, Vancouver, ISO, and other styles
12

Ollier, Sébastien. "Des outils pour l'intégration des contraintes spatiales, temporelles et évolutives en analyse des données écologiques." Lyon 1, 2004. http://www.theses.fr/2004LYO10293.

Full text
Abstract:
Au cours de cette thèse, on revient dans une première partie sur la question théorique de l'ordination sous contraintee spatiales par une revue des objets permettant l'intégration des proximités spatiales. On introduit ensuite une nouvelle procédure qui généralise, à l'interface des programmathèques "spdep" et "ade4" du logiciel R, l'ACP sous contrainte de Wartenberg. On aborde ensuite le problème de la typologie de structures multiéchelles. On propose une solution à la normalisation des échelles. Les illustrations portent sur des données d'altimétrie laser. Enfin, à partir d'une critique des procédures ad hoc rencontrées dans la littérature, on définit des procédures canoniques permettant la prise en compte des proximités évolutives en analyse des données. La conclusion porte sur la pratique de la biométrie et les relations qui s'établissent entre donnée expérimentale, langage mathématique et mise en oeuvre informatique
APA, Harvard, Vancouver, ISO, and other styles
13

Botte-Lecocq, Claudine. "L'analyse de données multidimensionnelles par transformations morphologiques binaires." Lille 1, 1991. http://www.theses.fr/1991LIL10142.

Full text
Abstract:
Le travail présenté concerne une nouvelle approche pour la classification automatique, basée sur la théorie de la morphologie mathématique. Comme le langage de la morphologie mathématique est celui de la théorie des ensembles, nous montrons comment un ensemble d'observations multidimensionnelles à valeurs réelles peut être transformé en un ensemble discret d'éléments à valeurs binaires. La méthodologie de classification que nous présentons dans ce mémoire peut être décomposée en deux étapes successives: une étape de détection des modes et une étape de classification des observations s'appuyant sur les modes détectés. Dans la deuxième partie du mémoire, nous présentons quatre méthodes distinctes de détection des modes. Les deux premières ont pour but d'extraire les modes par une analyse morphologique des données à classer en combinant deux opérateurs morphologiques de base, les deux dernières sont basées sur l'analyse morphologique de la connexité des points de l'ensemble discret. Dans la dernière partie de ce mémoire, nous définissons et comparons plusieurs procédures de classification à partir des modes extraits, qui aboutissent à des partitions de l'ensemble des observations. Nous illustrons enfin cette approche morphologique à l'aide d'ensembles de données générées artificiellement. Une comparaison des différents résultats obtenus avec ceux obtenus par deux méthodes bien établies en classification automatique permet de mettre en évidence l'intérêt des outils de la morphologie mathématique en analyse de données
APA, Harvard, Vancouver, ISO, and other styles
14

Lanzini, Justine. "Recherche de biomarqueurs et études lipidomiques à travers diverses applications en santé." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB126.

Full text
Abstract:
La notion de biomarqueurs est définie comme « une caractéristique mesurée objectivement et évaluée comme indicateur de processus biologiques normaux ou pathologiques, ou de réponses pharmacologiques à une intervention thérapeutique ». L'intérêt scientifique pour les biomarqueurs est de plus en plus important. Ils permettent, entre autres,une meilleure compréhension des processus pathologiques et de diagnostiquer, voire pronostiquer ces pathologies. Les études « omiques » telles que la lipidomique jouent un rôle essentiel dans la découverte de nouveaux biomarqueurs. La lipidomique consiste à explorer le lipidome d'un échantillon biologique et à déceler l'impact de la pathologie sur ce dernier. Les lipides constituent une vaste et importante famille de métabolites retrouvés dans toutes les cellules vivantes, dont leur nombre est estimé à plus de 100 000 espèces chez les mammifères. Ils sont impliqués, notamment, dans le stockage d'énergie et la transduction de signal. Mon travail de thèse a reposé sur la réalisation d'approches lipidomiques en LC-MS sur diverses applications en santé telles que le syndrome de déficit immunitaire combiné sévère associé à une alopécie et une dystrophie des ongles, le syndrome du nystagmus infantile et le rejet de greffe rénale. A cette fin, des analyses statistiques multivariées et univariées ont été employées pour déceler des potentiels lipides biomarqueurs<br>Biomarker was defined as "a characteristic that is objectively measured and evaluated as an indicator of normal biological processes, pathogenic processes, or pharmacological responses to therapeutic intervention". The scientific interest in biomarkers is more and more important. They allow, in particular, to better understand pathogenic processes and to diagnose, even to predict pathologies. "Omics" studies, such as lipidomics, play an essential role in the new biomarkers discovery. Lipidomics consist in exploring biological samples lipidome and in detecting pathogenic impact on this latter. Lipids are a large and important metabolite family found in all living cells. Their quantity is estimated to more than 100,000 species in mammals. They are involved, in particular, in the energy storage and the signal transduction. My PhD thesis involved carrying out lipidomics approaches with LC-MS through various health applications such as severe combined immunodeficiency associated with alopecia syndrome, infantile nystagmus syndrome and renal graft rejection. For this purpose, multivariate and univariate statistical analyses were carried out in order to detect potential lipid biomarkers
APA, Harvard, Vancouver, ISO, and other styles
15

Lazar, Cosmin. "Méthodes non supervisées pour l’analyse des données multivariées." Reims, 2008. http://theses.univ-reims.fr/exl-doc/GED00000846.pdf.

Full text
Abstract:
Tous les domaines de la science nécessitent d’analyser des données qu’il s’agisse des sciences humaines ou des sciences exactes et naturelles. Ces données peuvent être de nature différente et dans des nombreuses situations elles représentent plusieurs enregistrements du même phénomène physique, elles sont regroupées dans des bases des données multivariées que l’on cherche à interpréter. Leur interprétation requiert la connaissance du domaine d’application qui sert de guide afin d’extraire l’information utile pour la compréhension des phénomènes étudiés. Une étape essentielle dans ce processus est le regroupement des données ayant des caractéristiques similaires dans des classes ; cette étape est appelée classification non supervisée (ou automatique) ou clustering. Concernant ce domaine d’analyse, des questions restent ouvertes comme la dimension intrinsèque et la réduction de dimension des données multivariées, le choix de la mesure de similarité ou la validation du nombre de classes. Ce travail apporte des contributions aux deux questions précédentes : le choix de la mesure de similarité pour la classification non supervisée et la réduction de dimension de données multivariées. Le phénomène de concentration des métriques est étudié et la pertinence de métriques non euclidiennes comme mesure de similarité dans de problèmes de classification est testée. Des indices prenant en compte la distance interclasse sont proposés pour choisir la métrique optimale si les classes sont gaussiennes. Les méthodes de séparation aveugle de sources sont étudiées dans le contexte de la réduction de dimension ; une méthode de SAS basée sur une interprétation géométrique du modèle de mélange linéaire est proposée. Des méthodes de SAS prenant en compte les contraintes des applications sont utilisées pour la réduction de dimension dans deux applications en imagerie multivariée. Celles-ci permettent la mise en évidence de facteurs physiquement interprétables ainsi que la réduction de la complexité des algorithmes de classification utilisés pour l’analyse. Les travaux sont illustrés sur deux applications sur des données réelles<br>Many scientific disciplines deal with multivariate data. Different recordings of the same phenomenon are usually embedded in a multivariate data set. Multivariate data analysis gathers efficient tools for extracting relevant information in order to comprehend the phenomenon in study. Gathering data into groups or classes according to some similarity criteria is an essential step in the analysis. Intrinsic dimension or dimension reduction of multivariate data, the choice of the similarity criterion, cluster validation are problems which still let open questions. This work tries to make a step further concerning two of the problems mentioned above: the choice of the similarity measure for data clustering and the dimension reduction of multivariate data. The choice of the similarity measure for data clustering is investigated from the concentration phenomenon of metrics point of view. Non Euclidean metrics are tested as alternative to the classical Euclidian distance as similarity measure. We tested if less concentrated metrics are more discriminative for multivariate data clustering. We also proposed indices which take into account the inter-classes distance (e. G. Davies-Bouldin index) in order to find the optimal metric when the classes are supposed to be Gaussian. Blind Source Separation (BSS) methods are also investigated for dimension reduction of multivariate data. A BSS method based on a geometrical interpretation of the linear mixing model is proposed. BSS methods which take into account application constraints are used for dimension reduction in two different applications of multivariate imaging. These methods allow the extraction of meaningful factors from the whole data set; they also allow reducing the complexity and the computing time of the clustering algorithms which are used further in analysis. Applications on multivariate image analysis are also presented
APA, Harvard, Vancouver, ISO, and other styles
16

Dufour, Amélie. "Multivariate statistical modeling of an anode backing furnace : Modélisation statistique multivariée du four à cuisson des anodes utilisées dans la fabrication d'aluminium primaire." Master's thesis, Université Laval, 2016. http://hdl.handle.net/20.500.11794/26844.

Full text
Abstract:
La stratégie actuelle de contrôle de la qualité de l’anode est inadéquate pour détecter les anodes défectueuses avant qu’elles ne soient installées dans les cuves d’électrolyse. Des travaux antérieurs ont porté sur la modélisation du procédé de fabrication des anodes afin de prédire leurs propriétés directement après la cuisson en utilisant des méthodes statistiques multivariées. La stratégie de carottage des anodes utilisée à l’usine partenaire fait en sorte que ce modèle ne peut être utilisé que pour prédire les propriétés des anodes cuites aux positions les plus chaudes et les plus froides du four à cuire. Le travail actuel propose une stratégie pour considérer l’histoire thermique des anodes cuites à n’importe quelle position et permettre de prédire leurs propriétés. Il est montré qu’en combinant des variables binaires pour définir l’alvéole et la position de cuisson avec les données routinières mesurées sur le four à cuire, les profils de température des anodes cuites à différentes positions peuvent être prédits. Également, ces données ont été incluses dans le modèle pour la prédiction des propriétés des anodes. Les résultats de prédiction ont été validés en effectuant du carottage supplémentaire et les performances du modèle sont concluantes pour la densité apparente et réelle, la force de compression, la réactivité à l’air et le Lc et ce peu importe la position de cuisson.<br>The aluminum manufacturing process is highly influenced by the anode quality. Several factors affect the anode quality and the actual quality control strategy is inadequate to detect faulty anodes before setting them in the electrolytic cells. A soft-sensor model developed from historical carbon plant data and multivariate statistical methods was proposed in past work to obtain quick predictions of individual anode properties right after baking for quality control purposes. It could only be used for anodes baked at the coldest and hottest positions within the furnace due to the core sampling strategy used at the partner’s plant. To complement the soft-sensor, this work proposes a method for taking into account the thermal history of anodes baked at eventually any position and to allowing for the prediction of properties for all anodes. It is shown that combining categorical variables for pit and baking positions and routinely available firing equipment data is sufficient for predicting the temperature profiles of anodes baked in different positions (measured during pit surveys) and account for its impact on anode properties. Prediction results were validated using core sampling and good performance was obtained for LC, apparent and real density, compressive strength and air reactivity.
APA, Harvard, Vancouver, ISO, and other styles
17

Cornillon, Pierre-André. "Prise en compte de proximites en analyse factorielle et comparative." Montpellier, ENSA, 1998. http://www.theses.fr/1998ENSA0012.

Full text
Abstract:
La non independance des observations est un phenomene souvent rencontre en statistique. Ce travail, dans le cadre des analyses factorielles quelques methodes pour tenir compte de ces liaisons entre observations. Le cadre des analyses locales est ainsi etendu a l'analyse en composantes principales sur variables instrumentales et a la regression partial least squares. D'autres metriques permettant par exemple la reconstitution des donnees sont aussi envisagees. La seconde partie de ce travail traite de l'extension de ces criteres de prise en compte de proximites a l'analyse conjointe de tableaux. Des tests de non independance et leurs proprietes d'optimalite sont exposes dans le troisieme chapitre. Enfin, des modeles prenant en compte la non independance dans le cadre plus complexe d'analyse comparative sur des populations de poissons teleosteens sont presentes. L'estimation des coefficients des differents modeles est realisee par des procedures iteratives sur la vraisemblance (methode em) ou sur la vraisemblance concentree.
APA, Harvard, Vancouver, ISO, and other styles
18

Meot, Alain. "Explicitation de contraintes de voisinage en analyse multivariée : applications dans le cadre de problématiques agronomiques." Lyon 1, 1992. http://www.theses.fr/1992LYO10241.

Full text
Abstract:
Nous proposons dans ce memoire une solution simple a l'etude du lien entre une information multivariee et l'existence de proximites, generalement temporelles ou spatiales, entre les individus etudies. Le premier chapitre consiste en une revue non exhaustive des solutions proposees dans la litterature pour incorporer au cours d'une ordination une information spatiale. Dans un second chapitre nous examinons le cas ou, sur un ensemble d'individus, est definie une relation de voisinage notee sous la forme d'un graphe symetrique non value. Sont introduits dans la decomposition de la variance a partir du graphe deux operateurs, appeles operateurs de voisinage, dont les vecteurs propres possedent des proprietes extremales d'autocorrelation. Ces proprietes suggerent d'utiliser ces vecteurs propres en tant que variables instrumentales plutot que sur la base de leur definition de la variance comme le fait lebart (1969) pour les analyses locales. Les acp resultantes sont appelees analyses en composantes de voisinage (acv). Au cours du troisieme chapitre nous proposons deux illustrations pedagogiques de la demarche proposee. L'influence de proximites temporelles entre individus est en premier lieu illustree a partir de courbes de production annuelle de mandariniers. L'aspect spatial est ensuite aborde au travers de la description d'une grille de denombrement definie par l'observation de vaches paturant librement sur une grande parcelle. Le quatrieme chapitre est l'aboutissement d'une recherche pluridisciplinaire au sujet des pratiques d'organisation d'un territoire pature par un eleveur d'ovins. L'ordination sert a representer les trajectoires vegetales multivariees des divers elements spatiaux composant le territoire. Autour de cette description viennent s'agencer d'autres elements explicatifs du fonctionnement technique de cette exploitation. Les methodes proposees dans le second chapitre servent a entrer plus finement dans le jeu de donnees descriptif des trajectoires vegetales
APA, Harvard, Vancouver, ISO, and other styles
19

Chevenet, François. "Un environnement coopératif de résolution de problèmes pour l'analyse statistique en écologie." Lyon 1, 1994. http://www.theses.fr/1994LYO10074.

Full text
Abstract:
En ecologie, les problemes d'analyse statistique des relations especes-environnement augmentent en quantite et en qualite (complexite). Malgre une diffusion importante de nombreux programmes, il persiste un desequilibre entre d'une part un flot intense et un niveau de complexite eleve des problemes biometriques, et d'autre part la productivite creative d'un corps limite d'experts en statistiques. Pour tenter de reduire ce desequilibre, nous abordons la gestion et l'exploitation des strategies statistiques, c'est-a-dire la modelisation des connaissances methodologiques dans les processus d'analyse statistique. Nous apprecions ce probleme a la lumiere du concept d'environnement cooperatif de resolution de problemes. D'une part il s'agit d'integrer de multiples composantes specialisees, complementaires et inter-communicantes. D'autre part il s'agit d'integrer des capacites de cooperation homme-ordinateur afin de permettre l'exploration des nuances entre le tout automatique et le tout manuel. Nous proposons un environnement, denomme carol, integrant trois composantes : (i) coleoptera, une base de connaissances relatives au domaine d'application. Elle est implantee en shirka. Nous presentons un modele de representation des strategies ecologiques des coleopteres aquatiques de france (ii) slot, une base de connaissances relatives aux methodes factorielles de la statistique descriptive. Cette composante est une interface intelligente entre l'utilisateur et des programmes externes. Implantes en scarp, elle utilise un modele de taches et les methodes du dialogue a initiative mixte dans l'exploitation d'une bibliotheque organisee des methodes statistiques ou dans son utilisation comme plate-forme de programmation (iii) digit, un logiciel qui aborde l'aspect graphique de la modelisation en couplant des methodes du graphisme dynamique a ces bases de connaissances. L'environnement carol, participe a l'effort de definition d'un dictionnaire virtuel des pratiques statistiques en ecologie
APA, Harvard, Vancouver, ISO, and other styles
20

Boly, Aliou. "Fonctions d'oubli et résumés dans les entrepôts de données." Paris, ENST, 2006. http://www.theses.fr/2006ENST0049.

Full text
Abstract:
Les entrepôts de données stockent des quantités de données de plus en plus massives et arrivent vite à saturation. La solution qui est appliquée en général est d'assurer un archivage périodique des données les plus anciennes. Cette solution n'est pas satisfaisante car l'archivage et la remise en ligne des données sont des opérations coûteuses au point que l'on peut considérer que des données archivées sont des données perdues du point de vue de leur utilisation dans le cadre d'une analyse des données. Dans cette thèse, nous proposons une solution pour résoudre ce problème : un langage de spécifications de fonctions d'oubli est défini pour déterminer les données qui doivent être présentes dans l'entrepôt de données à chaque instant. Ces spécifications de fonctions d'oubli conduisent à supprimer de façon mécanique les données 'oublier', tout en conservant un résumé de celles-ci par agrégation et par échantillonnage. L'objectif est de mettre à disposition de l'administrateur de l'entrepôt de données des outils permettant de maîtriser la taille de l'entrepôt et d'automatiser au maximum le processus d'archivage des données anciennes en fonction de stratégies prédéfinies. Dans cette thèse, nous nous plaçons dans le cadre du modèle relationnel et nous définissons un langage de spécifications de fonctions d'oubli ainsi que les principes et les algorithmes pour mettre à jour le contenu de l'entrepôt conformément aux spécifications de fonctions d'oubli. Des mécanismes de consultation et d'analyse des résumés constitués sont également proposés<br>The amount of data stored in data warehouses grows very quickly so that they get saturated. To overcome this problem, the solution is generally to archive older data when new data arrive if there is no space left. This solution is not satisfactory because data mining analyses based on long term historical data become impossible. As a matter of fact data mining analysis cannot be done on archived data without re-loading them in the data warehouse; and the cost of loading back a large dataset of archived data is too high to be operated just for one analysis. So, archived data must be considered as lost data regarding to data mining applications. In this thesis, we propose a solution for solving this problem: a language is defined to specify forgetting functions on older data. The specifications include the definition of some summaries of deleted data to define what data should be present in the data warehouse at each step of time. These summaries are aggregates and samples of deleted data and will be kept in the data warehouse. The goal of these forgetting functions is to control the size of the data warehouse. This control is provided both for the aggregate summaries and the samples. The specification language for forgetting function is defined in the context of relational databases. Once forgetting functions have been specified, the data warehouse is automatically updated in order to follow the specifications. This thesis presents both the language for specifications, the structure of the summaries, the algorithms to update the data warehouse and the possibility of performing interesting analyses of historical data
APA, Harvard, Vancouver, ISO, and other styles
21

Gonzalez, Ignacio. "Analyse canonique régularisée pour des données fortement multidimensionnelles." Toulouse 3, 2007. http://thesesups.ups-tlse.fr/99/.

Full text
Abstract:
Motivé par la mise en évidence des relations entre l'expression de gènes et d'autres variables biologiques, notre travail consiste à présenter et développer une méthodologie répondant à ce problème. Parmi les méthodes statistiques abordant ce sujet, l'Analyse Canonique (AC) semblait bien appropriée, mais la haute dimensionalité est actuellement l'un des obstacles majeurs pour les techniques statistiques d'analyse de données issues de biopuces. Naturellement l'axe de ce travail a été la recherche de solutions tenant compte de cet aspect crucial dans la mise en oeuvre de l'AC. Parmi les approches envisagées pour contourner ce problème, nous nous sommes intéressés à des méthodes de régularisation. Ainsi, la méthode développée ici, appelée Analyse Canonique Régularisée (ACR), est basée sur le principe de régularisation ridge introduit initialement en régression linéaire multiple. L'ACR nécessitant le choix de deux paramètres de réglage pour sa mise en oeuvre, nous avons proposé la méthode de validation croisée par sous-groupes pour traiter ce problème. Nous avons présenté en détail des applications de l'ACR à des données fortement multidimensionnelles provenant d'études génomiques ainsi qu'à des données provenant d'autres domaines. Sur ce point on s'est intéressé à une visualisation des données aidant à l'interprétation des résultats obtenus. À cet effet, nous avons proposé un certaine nombre de méthodes graphiques : représentations des variables (graphiques des corrélations), représentations des individus ainsi que des représentations alternatives comme les graphiques de réseaux et les cartes de double classification (heatmaps). Pour la mise en oeuvre de l'AC, nous avons développé le package CCA (disponible en ligne sur le site cran. R-project. Org). Ce package permet le traitement de données avec plus de variables que d'unités expérimentales par l'ACR, la manipulation des valeurs manquantes et la réalisation des graphiques aidant à l'interprétation des résultats. .<br>Motivated by the study of relationships between gene expressions and other biological variables, our work consists in presenting and developing a methodology answering this problem. Among the statistical methods treating this subject, Canonical Analysis (CA) seemed well adapted, but the high dimension is at present one of the major obstacles for the statistical techniques of analysis data coming from microarrays. Typically the axis of this work was the research of solutions taking into account this crucial aspect in the implementation of the CA. Among the approaches considered to handle this problem, we were interested in the methods of regularization. The method developed here, called Regularised Canonical Analysis (RCA), is based on the principle of ridge regularization initially introduced in multiple linear regression. RCA needing the choice of two parameters of regulation for its implementation, we proposed the method of M-fold cross-validation to handle this problem. We presented in detail RCA applications to high multidimensional data coming from genomic studies as well as to data coming from other domains. Among other we were interested in a visualization of the data in order to facilitate the interpretation of the results. For that purpose, we proposed some graphical methods: representations of variables (correlations graphs), representations of individuals as well as alternative representations as networks and heatmaps. .
APA, Harvard, Vancouver, ISO, and other styles
22

Guinand, Bruno. "Rôles d'éléments de statistique multivariée dans la mise en évidence de la différenciation populationnelle : exemples et potentialités." Lyon 1, 1996. http://www.theses.fr/1996LYO10172.

Full text
Abstract:
La differenciation d'entites biologiques ou de populations chez les organismes aquatiques, ainsi que la mise en evidence de leur fonctionnement ou de leur evolution au sein d'un ou entre differents hydrosystemes est une idee forte de l'ecologie aquatique dont la resolution ne peut passer que par l'utilisation de concepts d'autres disciplines (genetique des populations, biologie evolutive). Nous essayons de rendre compte de ces problematiques sur des modeles biologiques divers, dans des situations ecologiques constrastees et a differentes echelles d'espace. Le point central liant ces disciplines se situe dans le domaine de la statistique multivariee. La premiere partie propose et illustre sur quatre modeles biologiques le role d'un modele multivariee baptise dans le champ de la genetique des populations constant row total-multiple correspondence analysis permettant l'estimation multivariee de f#s#t, quantite exprimant la differenciation genetique. L'utilisation de ce modele evite un certain nombre de desagrements de certaines methodes classiques. La seconde partie entreprend a l'aide de procedures d'analyse d'images, d'approximations splines et d'analyse en composantes principales sur des fonctions, d'exprimer la differenciation inter- et intra-populationnelle sur des patrons de coloration d'une larve d'insecte aquatique (hydropsyche contubernalis, trichoptere). Cette etude porte sur le patron de coloration general de la capsule cephalique de l'animal, puis sur un patron de coloration (a)symetrique. Coloration et asymetrie sont deux sujets essentiels de la biologie evolutive et de la genetique des populations. Nous montrons qu'il est possible d'etablir des differenciations significatives entre stations et de rendre compte de structures populationnelles variees. Dans la conclusion, nous etendons le debat pour qu'un lien plus important s'etablisse entre les disciplines que sont l'ecologie aquatique et la biologie evolutive d'une part, entre la biologie evolutive et la statistique multivariee d'autre part
APA, Harvard, Vancouver, ISO, and other styles
23

Kortbi, Othmane. "Sur l'estimation d'un vecteur moyen sous symétrie sphérique et sous contrainte." Thèse, Université de Sherbrooke, 2011. http://savoirs.usherbrooke.ca/handle/11143/5158.

Full text
Abstract:
Ce travail est essentiellement centré sur l'estimation, du point de vue de la théorie de la décision, de la moyenne d'une distribution multidimensionnelle à symétrie sphérique. Sous coût quadratique, nous nous sommes concentrés à développer des classes d'estimateurs au moins aussi bons que les estimateurs usuels, puisque ces derniers tendent à perdre leur performance en dimension élevée et en présence de contraintes sur les paramètres. Dans un premier temps, nous avons considéré les distributions de mélange (par rapport à [sigma][indice supérieur 2]) de lois normales multidimensionnelles N ([théta], [sigma][indice supérieur 2]I[indice inférieur p]), en dimension p supérieure ou égale à 3. Nous avons trouvé une grande classe de lois a priori (généralisées), aussi dans la classe des distributions de mélange de lois normales, qui génèrent des estimateurs de Bayes minimax. Ensuite, pour étendre nos résultats, nous avons considéré les distributions à symétrie sphérique (pas nécessairement mélange de lois normales) avec paramètre d'échelle connu, en dimension supérieure ou égale à 3 et en présence d'un vecteur résiduel. Nous avons obtenu une classe d'estimateurs de Bayes généralisés minimax pour une grande classe de distributions sphériques incluant certaines distributions mélange de lois normales. Dans l'estimation de la moyenne [théta] d'une loi N[indice inférieur p]([théta], I[indice inférieur p]) sous la contrainte [double barre verticale][théta][double barre verticale] [inférieur ou égal] m avec m > 0, une analyse en dimension finie pour comparer les estimateurs linéaires tronqués [delta][indice inférieur a] (0 [plus petit ou égal] a < 1) avec l'estimateur du maximum de vraisemblance [delta][indice inférieur emv] est donnée. Un cadre asymptotique est développé, ceci nous permet de déduire la sous-classe des estimateurs [delta][indice inférieur a] qui dominent [delta][indice inférieur emv] et de mesurer avec précision le degré d'amélioration relative en risque. Enfin, dans l'estimation de la moyenne [théta] d'une loi N[indice inférieur p]([théta], [sigma][indice supérieur 2]I[indice inférieur p]) où [sigma] est inconnu et sous la contrainte [Special characters omitted.] [plus petit ou égal] m avec m > 0, des résultats de dominance de l'estimateur X et de l'estimateur du maximum de vraisemblance [delta][indice inférieur emv] sont développés. En particulier, nous avons montré que le meilleur estimateur équivariant [delta][indice inférieur m] (x , s) = h[indice inférieur m] ([Special characters omitted.]) x pour = [Special characters omitted.] = m domine [delta][indice inférieur emv] lorsque m [plus petit ou égal] [racine carrée]p et que sa troncature [delta][Special characters omitted.] domine [delta][indice inférieur emv] pour tout (m , p).
APA, Harvard, Vancouver, ISO, and other styles
24

Kezouit, Omar Abdelaziz. "Bases de données relationnelles et analyse de données : conception et réalisation d'un système intégré." Paris 11, 1987. http://www.theses.fr/1987PA112130.

Full text
Abstract:
Les utilisateurs de bases de données relationnelles ont de plus en plus souvent tendance à attendre des Systèmes de Gestion de Bases de Données (SGBD) des fonctionnalités qui aillent plus loin que l'organisation le stockage et la restitution d'un ensemble de données. D'un autre côté, les utilisateurs de l'analyse statistique multidimensionnelle, qui traitent des tableaux de données rectangulaires, ont de gros problèmes de gestion de leurs données et les outils dont ils disposaient jusqu'à présent manquaient souvent de souplesse, voire de possibilités. Pour répondre à cette préoccupation, cette thèse propose de rapprocher bases de données relationnelles et analyse statistique multidimensionnelle à travers la réalisation d'un système intégrant un SGBD relationnel et un système d'analyse de données, et de montrer par là même tout le bénéfice qui peut en être tiré du point de vue de l'interrogation des données. La première partie se propose de présenter les problèmes généraux naissant de l'intégration. Après une présentation des deux domaines et de certains travaux en bases de données statistiques, nous proposons une synthèse des notions de l'analyse statistique multidimensionnelle et des bases de données relationnelles. Ceci permettra de déboucher sur les spécifications d'un outil intégré de gestion et d'analyse des données et également de mettre en évidence un problème de cohérence particulier. Outre l'apport provenant de chaque part (gestion des données plus performante grâce au SGBD, interrogation statistique grâce au système d'analyse des données), des possibilités nouvelles naissent de l'intégration. Il s'agit principalement de la capacité d'effectuer des requêtes approximatives, que nous défroissons à cette occasion, sur une base de données et de la résolution dans certains cas du problème des données manquantes. La seconde partie est consacrée à la présentation d'une réalisation particulière. Nous avons pour cela intégré le SGBD relationnel PEPIN et le Système de classification automatique SICLA. Le prototype opérationnel permet ainsi de gérer une base de données relationnelle et de l'interroger statistiquement. Un exemple d'utilisation pour le traitement d'une enquête est donné.
APA, Harvard, Vancouver, ISO, and other styles
25

Salahouelhadj, Abdellah. "Prévision par éléments finis des champs mécaniques locaux dans les polycristaux élasto-viscoplastiques : tests numériques et application au zirconium et au Fe-Si." Paris 13, 2007. http://www.theses.fr/2007PA132020.

Full text
Abstract:
Cette étude présente la fiabilisation et l'application d'un code de calcul par éléments finis appelé Meso3D, pour la prévision des champs mécaniques locaux (déformations et contraintes) dans les matériaux métalliques polycristallin. La validation du code de calcul a été faite par la simulation de cas tests de la littérature. Des tests numériques on été fait sur des agrégats modèles de plusieurs centaines de grains de forme cubique. Ensuite, une étude sur le concept mésoscope numérique a montré qu’il présente un meilleur compromis "précision/ temps de calcul" dans la prise en compte des conditions aux limites. Des confrontations de simulations numériques sur des agrégats polycristallins avec des résultats expérimentaux (courbes de traction et champs de déformation) ont été effectuées sur du zirconium grade 702 étudié et du fer-Silicium. Dans les deux cas, un bon accord est obtenu sur la courbe de traction, mais la prévision des champs de déformation est à améliorer<br>This study presents the fiabilisation and the application of a finite elements code called Meso3D, for the prediction of the local mechanical fields (strain and stress) in metallic polycrystalline materials. The validation of the computer code was made by the simulation of case tests of the literature. Numerical tests were made on model aggregates containing several hundreds of grains of cubic form. Then, a study on the concept numerical mésoscope showed that it presents a better compromise "precision/CPU time" in the taking into account of the boundary conditions. Confrontations of simulations on polycrystalline aggregates with experimental results (stress-strain curve and strain fields) were carried out on zirconium 702 and iron-Silicon. In both cases, a good agreement is obtained on the stress-strain curve, but the prediction of the strain fields is to be improved
APA, Harvard, Vancouver, ISO, and other styles
26

Adjakossa, Eric Houngla. "Analyse longitudinale multivariée par modèles mixtes et application à l'épidémie de la malaria." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066014.

Full text
Abstract:
Dans cette thèse, nous nous sommes focalisés sur le modèle statistique linéaire à effets mixtes. Nous nous sommes d'abord intéressés à l'estimation consistante des paramètres du modèle dans sa version multidimensionnelle, puis à de la sélection d'effets fixes en dimension un. En ce qui concerne l'estimation des paramètres du modèle linéaire à effets mixtes multidimensionnel, nous avons proposé des estimateurs du maximum de vraisemblance par utilisation de l'algorithme EM, mais avec des expressions plus générales que celles de la littérature classique, permettant d'analyser non seulement des données longitudinales multivariées mais aussi des données multidimensionnelles multi-niveaux. Ici, en s'appuyant sur ces EM-estimateurs, nous avons introduit un test de rapport de vraisemblance permettant de tester la significativité globale des corrélations entre les effets aléatoires de deux dimensions du modèle. Ce qui permettrait de construire un modèle multidimensionnel plus parcimonieux en terme de paramètres de variance des effets aléatoires, par une procédure de selection pas-à-pas ascendante. Cette démarche a été suscitée par le fait que la dimension du vecteur de tous les effets aléatoires du modèle peut très rapidement croitre avec le nombre de variables à analyser, entrainant facilement des problèmes numériques dans l'optimisation du critère choisi (ML ou REML). Nous avons ensuite proposé une procédure d'estimation consistante des paramètres du modèle qui passe par la résolution d'un problème de moindres carrés pénalisés pour fournir une expression explicite de la déviance à minimiser. La procédure de sélection d'effets fixes proposée ici est de type adaptive ridge itérative et permet d'approximer les performances de sélection d'une pénalité de type L0 de la vraisemblance des paramètres du modèle. Nos résultats ont été appuyés par des études de simulation à plusieurs niveaux, mais aussi par l'analyse de plusieurs jeux de données réelles<br>This thesis focuses on the statistical linear mixed-effects model, where we have been interested in its multivariate version's parameters estimation but also in the unidimensional selection of fixed effects. Concerning the parameters estimation of the multivariate linear mixed-effects model, we have first introduced more general expressions of the EM algorithm-based estimators which fit the multivariate longitudinal data analysis framework but also the framework of the multivariate multilevel data analysis. Since the dimensionality of the total vector of random effects in the multivariate model can grow with the number of the outcome variables leading often to computational problems in the likelihood optimization, we introduced a likelihood ratio test for testing the global effect of the correlations between the random effects of two dimensions of the model. This bivariate correlation test is intended to help in constructing a more parsimonious model regarding the variance components of the random effects, using a stepwise procedure. Secondly, we have introduced another estimation procedure that yields to consistent estimates for all the model parameters. This procedure is based on the Cholesky factorization of the random effects covariance matrix and the resolution of a preliminary penalized means square problem, and leads to an explicite expression of the profiled deviance of the model. For selecting fixed effects in the one dimensional mixed-effects model, we introduce an iterative adaptive ridge procedure for approximating sL0 penalty selection performances. All the results in this manuscript have been accompanied by extensive simulation studies along with real data analysis examples
APA, Harvard, Vancouver, ISO, and other styles
27

Archimbaud, Aurore. "Méthodes statistiques de détection d’observations atypiques pour des données en grande dimension." Thesis, Toulouse 1, 2018. http://www.theses.fr/2018TOU10001/document.

Full text
Abstract:
La détection d’observations atypiques de manière non-supervisée est un enjeu crucial dans la pratique de la statistique. Dans le domaine de la détection de défauts industriels, cette tâche est d’une importance capitale pour assurer une production de haute qualité. Avec l’accroissement exponentiel du nombre de mesures effectuées sur les composants électroniques, la problématique de la grande dimension se pose lors de la recherche d’anomalies. Pour relever ce challenge, l’entreprise ippon innovation, spécialiste en statistique industrielle et détection d’anomalies, s’est associée au laboratoire de recherche TSE-R en finançant ce travail de thèse. Le premier chapitre commence par présenter le contexte du contrôle de qualité et les différentes procédures déjà mises en place, principalement dans les entreprises de semi-conducteurs pour l’automobile. Comme ces pratiques ne répondent pas aux nouvelles attentes requises par le traitement de données en grande dimension, d’autres solutions doivent être envisagées. La suite du chapitre résume l’ensemble des méthodes multivariées et non supervisées de détection d’observations atypiques existantes, en insistant tout particulièrement sur celles qui gèrent des données en grande dimension. Le Chapitre 2 montre théoriquement que la très connue distance de Mahalanobis n’est pas adaptée à la détection d’anomalies si celles-ci sont contenues dans un sous-espace de petite dimension alors que le nombre de variables est grand.Dans ce contexte, la méthode Invariant Coordinate Selection (ICS) est alors introduite comme une alternative intéressante à la mise en évidence de la structure des données atypiques. Une méthodologie pour sélectionner seulement les composantes d’intérêt est proposée et ses performances sont comparées aux standards habituels sur des simulations ainsi que sur des exemples réels industriels. Cette nouvelle procédure a été mise en oeuvre dans un package R, ICSOutlier, présenté dans le Chapitre 3 ainsi que dans une application R shiny (package ICSShiny) qui rend son utilisation plus simple et plus attractive.Une des conséquences directes de l’augmentation du nombre de dimensions est la singularité des estimateurs de dispersion multivariés, dès que certaines variables sont colinéaires ou que leur nombre excède le nombre d’individus. Or, la définition d’ICS par Tyler et al. (2009) se base sur des estimateurs de dispersion définis positifs. Le Chapitre 4 envisage différentes pistes pour adapter le critère d’ICS et investigue de manière théorique les propriétés de chacune des propositions présentées. La question de l’affine invariance de la méthode est en particulier étudiée. Enfin le dernier chapitre, se consacre à l’algorithme développé pour l’entreprise. Bien que cet algorithme soit confidentiel, le chapitre donne les idées générales et précise les challenges relevés, notamment numériques<br>The unsupervised outlier detection is a crucial issue in statistics. More specifically, in the industrial context of fault detection, this task is of great importance for ensuring a high quality production. With the exponential increase in the number of measurements on electronic components, the concern of high dimensional data arises in the identification of outlying observations. The ippon innovation company, an expert in industrial statistics and anomaly detection, wanted to deal with this new situation. So, it collaborated with the TSE-R research laboratory by financing this thesis work. The first chapter presents the quality control context and the different procedures mainly used in the automotive industry of semiconductors. However, these practices do not meet the new expectations required in dealing with high dimensional data, so other solutions need to be considered. The remainder of the chapter summarizes unsupervised multivariate methods for outlier detection, with a particular emphasis on those dealing with high dimensional data. Chapter 2 demonstrates that the well-known Mahalanobis distance presents some difficulties to detect the outlying observations that lie in a smaller subspace while the number of variables is large. In this context, the Invariant Coordinate Selection (ICS) method is introduced as an interesting alternative for highlighting the structure of outlierness. A methodology for selecting only the relevant components is proposed. A simulation study provides a comparison with benchmark methods. The performance of our proposal is also evaluated on real industrial data sets. This new procedure has been implemented in an R package, ICSOutlier, presented in Chapter 3, and in an R shiny application (package ICSShiny) that makes it more user-friendly. When the number of dimensions increases, the multivariate scatter matrices turn out to be singular as soon as some variables are collinear or if their number exceeds the number of individuals. However, in the presentation of ICS by Tyler et al. (2009), the scatter estimators are defined as positive definite matrices. Chapter 4 proposes three different ways for adapting the ICS method to singular scatter matrices and theoretically investigates their properties. The question of affine invariance is analyzed in particular. Finally, the last chapter is dedicated to the algorithm developed for the company. Although the algorithm is confidential, the chapter presents the main ideas and the challenges, mostly numerical, encountered during its development
APA, Harvard, Vancouver, ISO, and other styles
28

Gloaguen, Arnaud. "A statistical and computational framework for multiblock and multiway data analysis." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG016.

Full text
Abstract:
L'étude des relations entre plusieurs ensembles de variables mesurées sur un même groupe d'individus est un défi majeur en statistique. La littérature fait référence à ce paradigme sous plusieurs termes : "analyse de données multimodales", "intégration de données", "fusion de données" ou encore "analyse de données multibloc". Ce type de problématique se retrouve dans des domaines aussi variés que la biologie, la chimie, l'analyse multi-capteurs, le marketing, la recherche agro-alimentaire, où l'objectif commun est d'identifier les variables de chaque bloc intervenant dans les intéractions entre blocs. Par ailleurs, il est possible que chaque bloc soit composé d'un très grand nombre de variables (~1M), nécessitant le calcul de milliards d'associations. L'élaboration d'un cadre statistique épousant la complexité et l'hétérogénéité des données est donc primordial pour mener une analyse pertinente.Le développement de méthodes d'analyse de données hétérogènes, potentiellement de grande dimension, est au coeur de ce travail. Ces développements se basent sur l'Analyse Canonique Généralisée Régularisée (RGCCA), un cadre général pour l'analyse de données multiblocs. Le coeur algorithmique de RGCCA se résume à un unique "update", répété jusqu'à convergence. Si cet update possède certaines "bonnes" propriétés, la convergence globale de l'algorithme est garantie. Au cours de ces travaux, le cadre algorithmique de RGCCA a été étendu dans plusieurs directions :(i) Du séquentiel au global. Plutôt que d'extraire de chaque bloc les composantes de manière séquentielle, un problème d'optimisation globale permettant de construire ces composantes simultanément a été proposé.(ii) De la matrice au tenseur. L'Analyse Canonique Généralisée Multivoie (MGCCA) étend RGCCA à l'analyse conjointe d'un ensemble de tenseurs. Des versions séquentielle et globale de MGCCA ont été proposées. La convergence globale de ces algorithmes est montrée.(iii) De la parcimonie à la parcimonie structurée. Le coeur de l'algorithme d'Analyse Canonique Généralisée Parcimonieuse (SGCCA) a été amélioré en fournissant un algorithme à convergence globale beaucoup plus rapide. Des contraintes de parcimonie structurée ont également été ajoutées à SGCCA.Dans une seconde partie, l'analyse de plusieurs jeux de données est menée à l'aide de ces nouvelles méthodes. La polyvalence des ces outils est démontrée sur (i) deux études en imagerie-génétique, (ii) deux études en électroencéphalographie ainsi (iii) qu'une étude en microscopie Raman. L'accent est mis sur l'interprétation des résultats facilitée par la prise en compte des structures multiblocs, tensorielles et/ou parcimonieuses<br>A challenging problem in multivariate statistics is to study relationships between several sets of variables measured on the same set of individuals. In the literature, this paradigm can be stated under several names as “learning from multimodal data”, “data integration”, “data fusion” or “multiblock data analysis”. Typical examples are found in a large variety of fields such as biology, chemistry, sensory analysis, marketing, food research, where the common general objective is to identify variables of each block that are active in the relationships with other blocks. Moreover, each block can be composed of a high number of measurements (~1M), which involves the computation of billion(s) of associations. A successful investigation of such a dataset requires developing a computational and statistical framework that fits both the peculiar structure of the data as well as its heterogeneous nature.The development of multivariate statistical methods constitutes the core of this work. All these developments find their foundations on Regularized Generalized Canonical Correlation Analysis (RGCCA), a flexible framework for multiblock data analysis that grasps in a single optimization problem many well known multiblock methods. The RGCCA algorithm consists in a single yet very simple update repeated until convergence. If this update is gifted with certain conditions, the global convergence of the procedure is guaranteed. Throughout this work, the optimization framework of RGCCA has been extended in several directions:(i) From sequential to global. We extend RGCCA from a sequential procedure to a global one by extracting all the block components simultaneously with a single optimization problem.(ii) From matrix to higher order tensors. Multiway Generalized Canonical Correlation Analysis (MGCCA) has been proposed as an extension of RGCCA to higher order tensors. Sequential and global strategies have been designed for extracting several components per block. The different variants of the MGCCA algorithm are globally convergent under mild conditions.(iii) From sparsity to structured sparsity. The core of the Sparse Generalized Canonical Correlation Analysis (SGCCA) algorithm has been improved. It provides a much faster globally convergent algorithm. SGCCA has been extended to handle structured sparse penalties.In the second part, the versatility and usefulness of the proposed methods have been investigated on various studies: (i) two imaging-genetic studies, (ii) two Electroencephalography studies and (iii) one Raman Microscopy study. For these analyses, the focus is made on the interpretation of the results eased by considering explicitly the multiblock, tensor and sparse structures
APA, Harvard, Vancouver, ISO, and other styles
29

Lointier, Guillaume. "Vers une surveillance en temps réel des régions magnétosphériques à partir des radars cohérents HF SuperDARN." Phd thesis, Université d'Orléans, 2008. http://tel.archives-ouvertes.fr/tel-00294447.

Full text
Abstract:
L'un des enjeux dans la compréhension des relations Soleil-Terre est l'étude de la dynamique des régions internes de la magnétosphère. Dans ce contexte, l'objectif de mon travail a été de poser les bases d'un modèle opérationnel de détection et de suivi des régions frontières de la magnétosphère à partir du réseau de radars SuperDARN, qui sonde l'ionosphère à haute latitude. L'élaboration d'un tel modèle requiert une réduction de données. Pour cela, une méthode de décomposition en valeurs singulières (SVD) a été appliquée sur la mesure brute (une fonction d'autocorrélation) afin de définir trois nouveaux paramètres statistiques. L'interprétation de ces trois nouveaux paramètres montre que cette approche, bien qu'empirique, offre une description bien plus complète des échos radar que les modèles physiques habituellement utilisés. L'utilisation de ces paramètres avec une méthode de décision Bayésienne permet d'améliorer la détection de la frontière des lignes de champ géomagnétiques ouvertes/fermées. L'introduction d'un formalisme Bayésien comporte plusieurs avantages : il permet de valider le résultat en estimant une erreur sur la localisation, et de plus, il facilite l'introduction de nouvelles connaissances provenant de différents instruments. Ceci est loin d'être négligeable pour compléter les observations des radars SuperDARN. Par ailleurs, les propriétés de ce nouveau modèle ont permis l'élaboration d'un nouvel algorithme de prétraitement et d'analyse des mesures brutes.
APA, Harvard, Vancouver, ISO, and other styles
30

Yang, Gen. "Modèles prudents en apprentissage statistique supervisé." Thesis, Compiègne, 2016. http://www.theses.fr/2016COMP2263/document.

Full text
Abstract:
Dans certains champs d’apprentissage supervisé (e.g. diagnostic médical, vision artificielle), les modèles prédictifs sont non seulement évalués sur leur précision mais également sur la capacité à l'obtention d'une représentation plus fiable des données et des connaissances qu'elles induisent, afin d'assister la prise de décisions de manière prudente. C'est la problématique étudiée dans le cadre de cette thèse. Plus spécifiquement, nous avons examiné deux approches existantes de la littérature de l'apprentissage statistique pour rendre les modèles et les prédictions plus prudents et plus fiables: le cadre des probabilités imprécises et l'apprentissage sensible aux coûts. Ces deux domaines visent tous les deux à rendre les modèles d'apprentissage et les inférences plus fiables et plus prudents. Pourtant peu de travaux existants ont tenté de les relier, en raison de problèmes à la fois théorique et pratique. Nos contributions consistent à clarifier et à résoudre ces problèmes. Sur le plan théorique, peu de travaux existants ont abordé la manière de quantifier les différentes erreurs de classification quand des prédictions sous forme d'ensembles sont produites et quand ces erreurs ne se valent pas (en termes de conséquences). Notre première contribution a donc été d'établir des propriétés générales et des lignes directrices permettant la quantification des coûts d'erreurs de classification pour les prédictions sous forme d'ensembles. Ces propriétés nous ont permis de dériver une formule générale, le coût affaiblie généralisé (CAG), qui rend possible la comparaison des classifieurs quelle que soit la forme de leurs prédictions (singleton ou ensemble) en tenant compte d'un paramètre d'aversion à la prudence. Sur le plan pratique, la plupart des classifieurs utilisant les probabilités imprécises ne permettent pas d'intégrer des coûts d'erreurs de classification génériques de manière simple, car la complexité du calcul augmente de magnitude lorsque des coûts non unitaires sont utilisés. Ce problème a mené à notre deuxième contribution, la mise en place d'un classifieur qui permet de gérer les intervalles de probabilités produits par les probabilités imprécises et les coûts d'erreurs génériques avec le même ordre de complexité que dans le cas où les probabilités standards et les coûts unitaires sont utilisés. Il s'agit d'utiliser une technique de décomposition binaire, les dichotomies emboîtées. Les propriétés et les pré-requis de ce classifieur ont été étudiés en détail. Nous avons notamment pu voir que les dichotomies emboîtées sont applicables à tout modèle probabiliste imprécis et permettent de réduire le niveau d'indétermination du modèle imprécis sans perte de pouvoir prédictif. Des expériences variées ont été menées tout au long de la thèse pour appuyer nos contributions. Nous avons caractérisé le comportement du CAG à l’aide des jeux de données ordinales. Ces expériences ont mis en évidence les différences entre un modèle basé sur les probabilités standards pour produire des prédictions indéterminées et un modèle utilisant les probabilités imprécises. Ce dernier est en général plus compétent car il permet de distinguer deux sources d'indétermination (l'ambiguïté et le manque d'informations), même si l'utilisation conjointe de ces deux types de modèles présente également un intérêt particulier dans l'optique d'assister le décideur à améliorer les données ou les classifieurs. De plus, des expériences sur une grande variété de jeux de données ont montré que l'utilisation des dichotomies emboîtées permet d'améliorer significativement le pouvoir prédictif d'un modèle imprécis avec des coûts génériques<br>In some areas of supervised machine learning (e.g. medical diagnostics, computer vision), predictive models are not only evaluated on their accuracy but also on their ability to obtain more reliable representation of the data and the induced knowledge, in order to allow for cautious decision making. This is the problem we studied in this thesis. Specifically, we examined two existing approaches of the literature to make models and predictions more cautious and more reliable: the framework of imprecise probabilities and the one of cost-sensitive learning. These two areas are both used to make models and inferences more reliable and cautious. Yet few existing studies have attempted to bridge these two frameworks due to both theoretical and practical problems. Our contributions are to clarify and to resolve these problems. Theoretically, few existing studies have addressed how to quantify the different classification errors when set-valued predictions are produced and when the costs of mistakes are not equal (in terms of consequences). Our first contribution has been to establish general properties and guidelines for quantifying the misclassification costs for set-valued predictions. These properties have led us to derive a general formula, that we call the generalized discounted cost (GDC), which allow the comparison of classifiers whatever the form of their predictions (singleton or set-valued) in the light of a risk aversion parameter. Practically, most classifiers basing on imprecise probabilities fail to integrate generic misclassification costs efficiently because the computational complexity increases by an order (or more) of magnitude when non unitary costs are used. This problem has led to our second contribution, the implementation of a classifier that can manage the probability intervals produced by imprecise probabilities and the generic error costs with the same order of complexity as in the case where standard probabilities and unitary costs are used. This is to use a binary decomposition technique, the nested dichotomies. The properties and prerequisites of this technique have been studied in detail. In particular, we saw that the nested dichotomies are applicable to all imprecise probabilistic models and they reduce the imprecision level of imprecise models without loss of predictive power. Various experiments were conducted throughout the thesis to illustrate and support our contributions. We characterized the behavior of the GDC using ordinal data sets. These experiences have highlighted the differences between a model based on standard probability framework to produce indeterminate predictions and a model based on imprecise probabilities. The latter is generally more competent because it distinguishes two sources of uncertainty (ambiguity and the lack of information), even if the combined use of these two types of models is also of particular interest as it can assist the decision-maker to improve the data quality or the classifiers. In addition, experiments conducted on a wide variety of data sets showed that the use of nested dichotomies significantly improves the predictive power of an indeterminate model with generic costs
APA, Harvard, Vancouver, ISO, and other styles
31

Bruned, Vianney. "Analyse statistique et interprétation automatique de données diagraphiques pétrolières différées à l’aide du calcul haute performance." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS064.

Full text
Abstract:
Dans cette thèse, on s'intéresse à l’automatisation de l’identification et de la caractérisation de strates géologiques à l’aide des diagraphies de puits. Au sein d’un puits, on détermine les strates géologiques grâce à la segmentation des diagraphies assimilables à des séries temporelles multivariées. L’identification des strates de différents puits d’un même champ pétrolier nécessite des méthodes de corrélation de séries temporelles. On propose une nouvelle méthode globale de corrélation de puits utilisant les méthodes d’alignement multiple de séquences issues de la bio-informatique. La détermination de la composition minéralogique et de la proportion des fluides au sein d’une formation géologique se traduit en un problème inverse mal posé. Les méthodes classiques actuelles sont basées sur des choix d’experts consistant à sélectionner une combinaison de minéraux pour une strate donnée. En raison d’un modèle à la vraisemblance non calculable, une approche bayésienne approximée (ABC) aidée d’un algorithme de classification basé sur la densité permet de caractériser la composition minéralogique de la couche géologique. La classification est une étape nécessaire afin de s’affranchir du problème d’identifiabilité des minéraux. Enfin, le déroulement de ces méthodes est testé sur une étude de cas<br>In this thesis, we investigate the automation of the identification and the characterization of geological strata using well logs. For a single well, geological strata are determined thanks to the segmentation of the logs comparable to multivariate time series. The identification of strata on different wells from the same field requires correlation methods for time series. We propose a new global method of wells correlation using multiple sequence alignment algorithms from bioinformatics. The determination of the mineralogical composition and the percentage of fluids inside a geological stratum results in an ill-posed inverse problem. Current methods are based on experts’ choices: the selection of a subset of mineral for a given stratum. Because of a model with a non-computable likelihood, an approximate Bayesian method (ABC) assisted with a density-based clustering algorithm can characterize the mineral composition of the geological layer. The classification step is necessary to deal with the identifiability issue of the minerals. At last, the workflow is tested on a study case
APA, Harvard, Vancouver, ISO, and other styles
32

Vandal, Nathalie. "La régression non paramétrique multidimensionnelle. Théorie et application à une étude portant sur la densité mammaire." Thesis, Université Laval, 2005. http://www.theses.ulaval.ca/2005/23252/23252.pdf.

Full text
Abstract:
La régression non paramétrique est un outil statistique permettant de décrire la relation entre une variable dépendante et une ou plusieurs variables explicatives, sans spécifier de forme stricte pour cette relation. Dans ce mémoire, on présente d'abord la théorie entourant la régression non paramétrique univariée ainsi que différentes méthodes d'estimation, en mettant l'accent sur les fonctions de lissage loess et les splines de régression. On traite ensuite de l'ajustement de relations multidimensionnelles, en s'intéressant plus particulièrement aux méthodes GAM, polyMARS et MARS. On ap- plique finalement ces dernières à une étude portant sur la relation entre la densité mammaire et deux facteurs de croissance analogues à l'insuline, IGF-I et IGFBP-3, ce qui permet de mettre en évidence les avantages de la régression non paramétrique, mais aussi les difficultés rencontrées lors de son application.<br>Inscrite au Tableau d'honneur de la Faculté des études supérieures
APA, Harvard, Vancouver, ISO, and other styles
33

Chevalier, Jérôme-Alexis. "Statistical control of sparse models in high dimension." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG051.

Full text
Abstract:
Cette thèse s’intéresse au problème de l’inférence statistique multivariée en grande dimension en présence de données structurées. Plus précisément, étant données une variable cible et un ensemble de variables explicatives, nous souhaitons déterminer les variables explicatives qui sont prédictives conditionnellement aux autres, i.e., nous cherchons à identifier le support dans le modèle prédictif linéaire. Comme nous désirons avoir un contrôle sur l’occurrence de faux positifs, nous nous concentrons sur les méthodes donnant des garanties statistiques. Cette étude s’applique notamment aux problèmes d’inférence sur des images haute-résolution dans lesquels le signal de chaque pixel ou voxel est considéré comme une variable explicative, c’est par exemple le cas en neuro-imagerie ou en astronomie. Cela peut également s’appliquer à d’autres problèmes dans lesquels les variables explicatives sont spatialement structurées comme en génomique par exemple. Pour ce type de données, les méthodes existantes destinées à l’identification de support ne sont pas satisfaisantes car elles manquent de puissance et ont généralement un coût computationnel trop élevé. Par conséquent, le problème est difficile en terme de modélisation statistique mais aussi du point de vue computationnel. Dans ce type de problème, les variables explicatives détiennent une structure spatiale qui peut être exploitée. Par exemple, en neuro-imagerie, une image de cerveau possède une représentation 3D dans laquelle un voxel est très corrélé à ses voisins. Nous proposons notamment la méthode ”ensemble of clustered desparsified Lasso” qui combine trois éléments: i) une procédure de clustering avec contraintes spatiales pour réduire la dimension du problème en tenant compte de la structure de la donnée; ii) une méthode d’inférence statistique appelée ”desparsified Lasso” qui peut être déployée sur le problème réduit; et iii) une méthode d’ensembling qui agrège les solutions obtenues sur les différents problèmes réduits afin d’éviter de dépendre d’un choix de clustering nécessairement imparfait et arbitraire. Nous proposons également une nouvelle façon de contrôler l’occurrence de faux positifs en intégrant une tolérance spatiale dans ce contrôle. Dans cette étude, nous nous focalisons sur des jeux de donnée de neuro-imagerie, mais les méthodes que nous présentons sont applicables à d’autres domaines qui partagent une configuration semblable<br>In this thesis, we focus on the multivariate inference problem in the context of high-dimensional structured data. More precisely, given a set of explanatory variables (features) and a target, we aim at recovering the features that are predictive conditionally to others, i.e., recovering the support of a linear predictive model. We concentrate on methods that come with statistical guarantees since we want to have a control on the occurrence of false discoveries. This is relevant to inference problems on high-resolution images, where one aims at pixel- or voxel-level analysis, e.g., in neuroimaging, astronomy, but also in other settings where features have a spatial structure, e.g., in genomics. In such settings, existing procedures are not helpful for support recovery since they lack power and are generally not tractable. The problem is then hard both from the statistical modeling point of view, and from a computation perspective. In these settings, feature values typically reflect the underlying spatial structure, which can thus be leveraged for inference. For example, in neuroimaging, a brain image has a 3D representation and a given voxel is highly correlated with its neighbors. We notably propose the ensemble of clustered desparsified Lasso (ecd-Lasso) estimator that combines three steps: i) a spatially constrained clustering procedure that reduces the problem dimension while taking into account data structure, ii) the desparsified Lasso (d-Lasso) statistical inference procedure that is tractable on reduced versions of the original problem, and iii) an ensembling method that aggregates the solutions of different compressed versions of the problem to avoid relying on only one arbitrary data clustering choice. We consider new ways to control the occurrence of false discoveries with a given spatial tolerance. This control is well adapted to spatially structured data. In this work, we focus on neuroimaging datasets but the methods that we present can be adapted to other fields which share similar setups
APA, Harvard, Vancouver, ISO, and other styles
34

Zhang, Xiaoxia. "Incipient anomaly detection and estimation for complex system health monitoring." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG025.

Full text
Abstract:
La détection et le diagnostic des défauts naissants pour les systèmes d’ingénierie ou industriels multivariés à bruit élevé sont abordés dans ce travail de thèse par l’intermédiare d’une approche statistique non paramétrique ’globale’.Un défaut naissant induit un changement anormal dans les valeurs mesurées de la variable du système. Cependant, un tel changement est faible, et tend à ne pas causer de changements évidents dans les paramètres des distributions des signaux du système. En particulier dans un environnement bruité, les caractéristiques de ces défaults faible peuvent être masquées par le bruit et rend celui-ci difficile à évaluer. Dans une telle situation, l’utilisation de méthodes paramétriques traditionnelles pour la détection échouent. Pour faire face à ces difficultés et effectuer la détection et le diagnostic des défauts, une approche’globale’ qui peut prendre en compte la signature totale des défauts est nécessaire. La détection de défauts naissants peut être obtenue par la mesure des différences entre les distributions avant et après l’apparition du défaut. Certaines méthodes basées sur la distribution (dites ’globales’) ont été proposées, mais les performances de détection de ces approches existantes dans un environnement à haut niveau de bruit devraient être améliorées. Dans ce contexte, la divergence de Jensen-Shannon est considérée comme un indicateur de défaut ’global’ pour effectuer la détection et le diagnostic de défaut naissant dans un environnement à haut niveau de bruit. Ses performances de détection pour de petites variations anormales noyées dans le bruit sont validés en simulation. En outre, le problème de l’estimation des défauts est également étudié dans ce travail. Un modèle théorique d’estimation de la sévérité des défauts à parti dépend de la valeur de la divergence pour des conditions Gaussiennes est établi. La précision du modèle d’estimation est évaluée sur des modèles numériques par le biais de simulations. Ensuite, l’approche statistique ’globale’ est mise en oeuvre pour à deux applications dans le domaine de l’ingénierie. La première concerne la détection de fissures naissantes dans un matériau conducteur. La divergence de Jensen-Shannon combinée à l’analyse en composantes indépendantes et à la décomposition on ondelettes a été appliquée à la détection et à la caractérisation de fissures mineures dans des structures conductrices avec des perturbations bruit sur la base de signaux d’impédance expérimentaux. La deuxième application concerne le diagnostic de défauts naissants dans un processus non linéaire multivarié avec un bruit élevé. Le ’Tennessee Eastman Process’ (TEP) est un processus non linéaire multivarié typique pour lequel nous avons appliqué, la divergence de Jensen-Shannon combinée à l’analyse en composantes principales à noyau (ACPN) est pour étudier la détection de défauts naissants dont les difficultés de sont largement décrites dans la littérature<br>Incipient fault detection and diagnosis in engineering and multivariate industrial systems with a high-level noise are addressed in this Ph.D. thesis by a ’global’ non-parametric statistical approach. An incipient fault is supposed to induce an abnormal change in the measured value of the system variable. However, such change is weak, and it tends not to cause obvious changes in the signal distribution’s parameters. Especially in high noise level environment, the weak fault feature can be masked by the noise and becomes unpredictable. In such a condition, using traditional parametric-based methods generally fails in the fault detection. To cope with incipient fault detection and diagnosis, a ’global’ approach that can consider the total faults signature is needed. The incipient fault detection can be obtained by measuring the differences between the signal distributions before and after the fault occurrence. Some distribution-based ’global’ methods have been proposed, however, the detection capabilities of these existed approaches in high noise level environment should be improved. In this context, Jensen-Shannon divergence is considered a ’global’ fault indicator to deal with the incipient fault detection and diagnosis in a high noise level environment. Its detection performance for small abnormal variations hidden in noise is validated through simulation. In addition, the fault estimation problem is also considered in this work. A theoretical fault severity estimation model depending on the divergence value for the Gaussian condition is derived. The accuracy of the estimation model is evaluated on numerical models through simulations. Then, the ’global’ statistical approach is applied to two applications in engineering. The first one relates to non- destruction incipient cracks detection. The Jensen-Shannon divergence combined with Noisy Independent Component Analysis and Wavelet analysis was applied for detection and characterization of minor cracks in conductive structures with high-level perturbations based on experimental impedance signals. The second application addresses the incipient fault diagnosis in a multivariate non-linear process with a high-level noise. Tennessee Eastman Process (TEP) is one typical multivariate non-linear process, the Jensen-Shannon divergence in the Kernel Principal Component Analysis (KPCA) is developed for coping with incipient fault detection in this process
APA, Harvard, Vancouver, ISO, and other styles
35

PERIRA, Fernando. "Analyse spatio-temporelle du champ géomagnétique et des processus d'accélération solaires observés en émission radio." Phd thesis, Université d'Orléans, 2004. http://tel.archives-ouvertes.fr/tel-00006128.

Full text
Abstract:
L'étude des relations Soleil--Terre requiert fréquemment l'analyse de données multivariées, qui dépendent de plusieurs variables (le temps, l'espace, ...). Pour caractériser les processus physiques, nous proposons d'utiliser des méthodes statistiques multivariées (la SVD, l'ICA, ...). De telles méthodes permettent de projeter les données sur un nombre restreint de modes qui en captent les traits de comportement saillants et auxquels il faudra ensuite donner une interprétation physique. Nous les appliquons à deux exemples ; (1) le champ géomagnétique, mesuré en différents endroits du globe, et (2) les processus d'accélération de la couronne solaire observés par le radiohéliographe de Nançay. À partir de modes purement statistiques, nous montrons qu'il est possible de mettre en évidence des processus physiquement connus et de mieux isoler des perturbations très faibles telles que les soubresauts géomagnétiques.
APA, Harvard, Vancouver, ISO, and other styles
36

Liska, Roman. "Three essays on spectral analysis and dynamic factors." Doctoral thesis, Universite Libre de Bruxelles, 2008. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/210438.

Full text
Abstract:
The main objective of this work is to propose new procedures for the general dynamic factor analysis<p>introduced by Forni et al. (2000). First, we develop an identification method for determining the number of common shocks in the general dynamic factor model. Sufficient conditions for consistency of the criterion are provided for large n (number of series) and T (the series length). We believe that our procedure can shed<p>light on the ongoing debate on the number of factors driving the US or Eurozone economy. Second, we show how the dynamic factor analysis method proposed in Forni et al. (2000), combined with our identification method, allows for identifying and estimating joint and block-specific common factors. This leads to a more<p>sophisticated analysis of the structures of dynamic interrelations within and between the blocks in suchdatasets.<p>Besides the framework of the general dynamic factor model we also propose a consistent lag window spectral density estimator based on multivariate M-estimators by Maronna (1976) when the underlying data are coming from the alpha mixing stationary Gaussian process.<br>Doctorat en Sciences<br>info:eu-repo/semantics/nonPublished
APA, Harvard, Vancouver, ISO, and other styles
37

Mtalai, Itre. "Modélisation de la dépendance à l'aide des mélanges communs et applications en actuariat." Doctoral thesis, Université Laval, 2018. http://hdl.handle.net/20.500.11794/32983.

Full text
Abstract:
Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2018-2019<br>La modélisation de la dépendance entre les risques pour un portefeuille d’une assurance ou d’une entité financière est devenue de plus en plus importante pour la solvabilité des institutions financières et l’examen de solvabilité dynamique et l’analyse financière dynamique des compagnies d’assurance. L’hypothèse d’indépendance entre les risques est parfois réaliste et facilite l’évaluation, l’agrégation et l’allocation des risques. Cependant, dans la majorité des cas, les risques individuels sont influencés par un ou plusieurs facteurs communs, tels que l’environnement économique, les régions géographiques ou les conditions climatiques et il est donc moins réaliste, voire dangereux, de supposer l’indépendance entre les risques d’un même portefeuille. Dans la littérature, un tel cas peut être modélisé par des modèles avec mélange commun. Ces modèles ont de nombreuses applications en assurance et en finance. L’objectif de cette thèse est donc d’explorer les modèles de dépendance construits à l’aide des mélanges communs et de faire sortir, à l’aide de plusieurs applications, la dangerosité de considérer l’indépendance entre les risques au sein d’un portefeuille. En particulier, la focalisation est mise sur un modèle souvent considéré pour modéliser le montant de sinistres, notamment la loi exponentielle mélange. Cette thèse considère les modèles de risque basés sur la loi exponentielle mélange. Le premier chapitre constitue une introduction générale aux modèles avec mélanges communs et introduit les notions qui seront utilisées dans les autres chapitres. Dans le deuxième chapitre, nous considérons un portefeuille de risques représentés par un vecteur de variables aléatoires dont la fonction de répartition conjointe est définie par une copule Archimédienne ou une copule Archimédienne imbriquée. Nous examinons le calcul de la fonction de répartition de la somme ou une variété de fonctions de ces variables aléatoires. En nous basant sur la méthodologie computationnelle présentée dans ce chapitre, nous examinons plusieurs problèmes reliés à différents modèles de risque en actuariat, tels que l’agrégation et l’allocation du capital. De plus, en utilisant une telle structure de dépendance avec des marginales spécifiques, nous obtenons des expressions explicites pour plusieurs quantités relatives au risque agrégé telles que sa fonction de masse de probabilité, sa fonction de répartition, sa TVaR, etc. L’échangeabilité des copules Archimédiennes implique que toutes les marginales sont égales. Afin de généraliser les copules Archimédiennes pour permettre les asymétries, plusieurs chercheurs utilisent une structure hiérarchique obtenue en imbriquant plusieurs copules Archimédiennes. Toutefois, il est difficile de valider la condition d’imbrication permettant d’assurer que la structure résultante est une copule, lorsque les copules impliquées appartiennent à des familles Archimédiennes différentes. Afin de remédier à ce problème, nous présentons, au troisième chapitre, une nouvelle méthode d’imbrication basée sur la construction des lois composées multivariées exponentielles mélange. En introduisant plusieurs paramètres, un large spectre de structures de dépendance peut être couvert par cette nouvelle construction, ce qui semble être très intéressant pour des applications pratiques. Des algorithmes efficients de simulation et d’agrégation sont également présentés. En nous inspirant à la fois des chapitres 2 et 3, nous proposons et examinons en détail au quatrième chapitre une nouvelle extension au modèle collectif de risque en supposant une certaine dépendance entre la fréquence et la sévérité des sinistres. Nous considérons des modèles collectifs de risque avec différentes structures de dépendance telles que des modèles impliquant des lois mélanges d’Erlang multivariées ou, dans un cadre plus général, des modèles basés sur des copules bivariées ou multivariées. Nous utilisons également les copules Archimédiennes et Archimédiennes hiérarchiques afin de modéliser la dépendance entre les composantes de la somme aléatoire représentant le montant de sinistre global. En nous basant encore une fois sur la représentation de notre modèle sous forme d’un mélange commun, nous adaptons la méthodologie computationnelle présentée au chapitre 2 pour calculer la fonction de masse de probabilité d’une somme aléatoire incorporant une dépendance hiérarchique. Finalement, dans le cinquième chapitre, nous soulignons l’utilité des modèles avec mélange commun et nous étudions plus en détail les lois exponentielles mélange dans leurs versions univariée et multivariée et nous expliquons leur lien étroit avec les copules Archimédiennes et Archimédiennes hiérarchiques. Nous proposons également plusieurs nouvelles distributions et nous établissons leurs liens avec des distributions connues.<br>Risk dependence modelling has become an increasingly important task for the solvency of financial institutions and insurance companies. The independence assumption between risks is sometimes realistic and facilitates risk assessment, aggregation and allocation. However, in most cases individual risks are influenced by at least one common factor, such as the economic environment, geographical regions or climatic conditions, and it is therefore less realistic or even dangerous to assume independence between risks. In the literature, such a case can be modelled by common mixture models. These models have many applications in insurance and finance. The aim of this thesis is to explore the dependence models constructed using common mixtures and to bring out, with the use of several applications, the riskiness of considering the independence between risks within an insurance company or a financial institution. In particular, the focus is on the exponential mixture. Exponential mixture distributions are on the basis of this thesis. The first chapter is a general introduction to models with common mixtures and introduces the concepts that will be used in the other chapters. In the second chapter, we consider a portfolio of risks represented by a vector of random variables whose joint distribution function is defined by an Archimedean copula or a nested Archimedean copula. We examine the computation of the distribution of the sum function or a variety of functions of these random variables. Based on the computational methodology presented in this chapter, we examine risk models regarding aggregation, capital allocation and ruin problems. Moreover, by using such a dependency structure with specific marginals, we obtain explicit expressions for several aggregated risk quantities such as its probability mass function, its distribution function, and its TVaR. The exchangeability of the Archimedean copulas implies that all margins are equal. To generalize Archimedean copulas to allow asymmetries, several researchers use a hierarchical structure obtained by nesting several Archimedean copulas. However, it is difficult to validate the nesting condition when the copulas involved belong to different Archimedean families. To solve this problem, we present, in the third chapter, a new imbrication method via the construction of the multivariate compound distributions. By introducing several parameters, a large spectrum of dependency structures can be achieved by this new construction, which seems very interesting for practical applications. Efficient sampling and aggregation algorithms are also presented. Based on both Chapters 2 and 3, we propose and examine in detail, in the fourth chapter, a new extension to the collective risk model assuming a certain dependence between the frequency and the severity of the claims. We consider collective risk models with different dependence structures such as models based on multivariate mixed Erlang distributions, models involving bivariate or multivariate copulas, or in a more general setting, Archimedean and hierarchical Archimedean copulas. Once again, based on the common mixture representation, we adapt the computational methodology presented in Chapter 2 to compute the probability mass function of a random sum incorporating a hierarchical Archimedean dependency. Finally, in the last chapter, we study, in more details, the exponential mixture distributions in their univariate and multivariate versions and we explain their close relationship to Archimedean and hierarchical Archimedean copulas. We also derive several new distributions, and we establish their links with pre-existent distributions. Keywords : Common mixture models, Exponential mixture, Bernoulli mixture, Archimedean copulas, Nested Archimedean copulas, Compounding, Marshall-Olkin, Hierarchical dependence structures.
APA, Harvard, Vancouver, ISO, and other styles
38

Rambaud, Fabienne. "Caractérisation, Analyse et Modélisation statistiques de fragments osseux crâniens pour la prédiction de paramètres mécaniques lésionnels." Phd thesis, Université de Valenciennes et du Hainaut-Cambresis, 2007. http://tel.archives-ouvertes.fr/tel-00290942.

Full text
Abstract:
Les accidents de la circulation, fléau de la société, représentent un sérieux problème de santé. En France, 105980 usagers de la route ont été blessés au cours de l'année 2006, et 4942 tués. La tête représente un des segments corporels les plus vulnérables. <br />Cette thèse est une contribution à l'amélioration de la connaissance du comportement mécanique des os crâniens, en particulier dans le contexte accidentologique. <br />Les mécanismes de fractures du crâne ont été étudiés par un grand nombre de chercheurs. De multiples techniques et approches ont été élaborées pour la modélisation du comportement mécanique des os crâniens ; ces modèles ne permettent cependant pas de pallier aux problèmes de dispersions inter et intra individuelles propres aux sujets humains.<br />Dans un premier temps, selon un protocole expérimental, 289 éprouvettes prélevées sur différentes zones osseuses de 17 calottes crâniennes humaines sont testées en essais de flexion trois points quasi-statiques. La force de rupture obtenue à partir des courbes effort/déplacement représente le paramètre mécanique à prédire dans nos modèles statistiques. A partir de mesures morphométriques obtenues par analyse d'images et tests expérimentaux, 15 paramètres morphométriques et densitométriques sont définis pour chaque éprouvette.<br /> Ensuite, une analyse de données exploratoire multidimensionnelle est réalisée sur le tableau de données préalablement fuzzifiées. Cette analyse a permis de nous orienter sur les liaisons linéaires et non linéaires existant entre les paramètres. Des régressions multiples linéaires et curvilinéaires sont réalisées par ajustement des paramètres jugés pertinents. Les modèles sont choisis par la méthode de validation croisée, et par une étude complète de diagnostic des résidus.<br />L'élaboration de modèles statistiques a permis, selon un sexe et une classe d'âge, de prédire le comportement mécanique de fragments osseux crâniens soumis à des sollicitations de flexion quasi-statique de manière personnalisée.
APA, Harvard, Vancouver, ISO, and other styles
39

Yélou, Clément. "Tests exacts de stabilité structurelle et estimation ensembliste des élasticités dans les systèmes de demande avec applications en économie de l'énergie et du transport." Doctoral thesis, Université Laval, 2006. http://hdl.handle.net/20.500.11794/18285.

Full text
APA, Harvard, Vancouver, ISO, and other styles
40

Gégout, Jean-Claude. "Etude des relations entre les ressources minérales du sol et la végétation forestière dans les Vosges." Nancy 1, 1995. http://docnum.univ-lorraine.fr/public/SCD_T_1995_0162_GEGOUT.pdf.

Full text
Abstract:
L'objectif de ce travail est de déterminer le comportement de 157 espèces forestières du massif vosgien vis-à-vis des paramètres suivants de la nutrition minérale : bases échangeables, cations de l'acidité d'échange, taux de saturation, pH, carbone, azote et rapport C/N. Les variations de comportement nutritionnel de ces espèces herbacées et arborescentes sont également étudiées en fonction de quelques grands facteurs du milieu. Enfin, la qualité du caractère bio-indicateur de la végétation constitue la dernière problématique abordée. L'étude repose sur l'utilisation de 473 relevés phytoécologiques répartis selon un plan d'échantillonnage stratifié suivant le type d'humus, l'altitude et le substrat géologique. Plusieurs méthodes de traitement sont utilisées pour analyser l'ensemble des données. La principale, la méthode de la fenêtre mobile, est une approche récente qui permet de calculer la fréquence des espèces pour n'importe quelle valeur d’une ou deux variables de milieu. Les variations de fréquence sont visualisées sous la forme de profils écologiques qui montrent les différentes classes d'abondance des espèces. Les concepts d'optimum et d'amplitude écologiques sont reformulés pour tenir compte de cette approche particulière. Les résultats permettent d'établir le signalement écologique complet (distribution et résumés numériques) de chaque espèce vis-à-vis de toutes les variables étudiées. Ils montrent également un effet toxique de l'aluminium pour les espèces acidiclines et neutrophiles. L'analyse met d'autre part en évidence un effet similaire de la plupart des variables minérales étudiées sur la végétation. Il permet la création d'un paramètre nutritionnel synthétique. Le comportement des espèces vis-à-vis de celui-ci varie avec les ressources minérales situées en profondeur, l'altitude et la situation géographique des relevés. L'ensemble des analyses réalisées démontre une sensibilité marquée des espèces aux facteurs trophiques, qui justifie l'étude de leur caractère bio-indicateur. La comparaison de plusieurs méthodes de prédiction révèle la qualité de l'approche par la régression logistique pour estimer le pH d'une station à partir de sa composition floristique.
APA, Harvard, Vancouver, ISO, and other styles
41

Lechuga, lopez Olga. "Contributions a l’analyse de données multivoie : algorithmes et applications." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLC038/document.

Full text
Abstract:
Nous proposons d’étendre des méthodes statistiques classiques telles que l’analyse discriminante, la régression logistique, la régression de Cox, et l’analyse canonique généralisée régularisée au contexte des données multivoie, pour lesquelles, chaque individu est décrit par plusieurs instances de la même variable. Les données ont ainsi naturellement une structure tensorielle. Contrairement à leur formulation standard, une contrainte structurelle est imposée. L’intérêt de cette contrainte est double: d’une part elle permet une étude séparée de l’influence des variables et de l’influence des modalités, conduisant ainsi à une interprétation facilitée des modèles. D’autre part, elle permet de restreindre le nombre de coefficients à estimer, et ainsi de limiter à la fois la complexité calculatoire et le phénomène de sur-apprentissage. Des stratégies pour gérer les problèmes liés au grande dimension des données sont également discutées. Ces différentes méthodes sont illustrées sur deux jeux de données réelles: (i) des données de spectroscopie d’une part et (ii) des données d’imagerie par résonance magnétique multimodales d’autre part, pour prédire le rétablissement à long terme de patients ayant souffert d’un traumatisme cranien. Dans ces deux cas les méthodes proposées offrent de bons résultats quand ont compare des résultats obtenus avec les approches standards<br>In this thesis we develop a framework for the extension of commonly used linear statistical methods (Fisher Discriminant Analysis, Logistical Regression, Cox regression and Regularized Canonical Correlation Analysis) to the multiway context. In contrast to their standard formulation, their multiway generalization relies on structural constraints imposed to the weight vectors that integrate the original tensor structure of the data within the optimization process. This structural constraint yields a more parsimonious and interpretable model. Different strategies to deal with high dimensionality are also considered. The application of these algorithms is illustrated on two real datasets: (i) serving for the discrimination of spectroscopy data for which all methods where tested and (ii) to predict the long term recovery of patients after traumatic brain injury from multi-modal brain Magnetic Resonance Imaging. In both datasets our methods yield valuable results compared to the standard approach
APA, Harvard, Vancouver, ISO, and other styles
42

Tournoud, Marie-George. "Analyse du comportement d'un écosystème lagunaire à diverses échelles de temps et d'espace : application à l'étang de Thau." Montpellier 2, 1991. http://www.theses.fr/1991MON20036.

Full text
Abstract:
On tente, sur l'exemple de l'etang de thau, de definir les echelles spatiales et temporelles de variabilite maximale des phenomenes physiques, qui permettront d'analyser le fonctionnement d'un milieu lagunaire a une echelle compatible avec celle des observations. La demarche adoptee comporte trois etapes: l'etude du comportement hydrodynamique du milieu, a l'aide du modele numerique bidimensionnel de leendertse (1971), sous le seul effet du vent. On met en evidence des organisations cellulaires, qui constituent l'echelle horizontale de variabilite maximale des processus de convection. On critique l'influence des diverses hypotheses de la modelisation sur la zonation. La modelisation des phenomenes de dispersion, par une approche de type pseudo-lagrangien, permet d'une part de verifier la validite du decoupage spatial du systeme et d'autre part d'evaluer les impacts de rejets cotiers polluants sur les zones sensibles de l'etang, dans diverses situations de vent. La modelisation des phenomenes de melange a l'echelle spatiale des organisations cellulaires et a l'echelle temporelle de la maree montre l'interet d'une analyse physique prealable du milieu, mais la necessite d'une connaissance tres complete des phenomenes physiques autant a l'interieur du milieu qu'a ses interfaces avec la mer et le bassin versant
APA, Harvard, Vancouver, ISO, and other styles
43

Francq, Christian. "Identification et minimalité dans les séries chronologiques." Montpellier 2, 1989. http://www.theses.fr/1989MON20210.

Full text
Abstract:
Pour un processus arma multivarie donne, il existe de multiples representations et les degres ne sont pas uniques. Les causes de la multiplicite des representations sont plus nombreuses et compliquees que dans le cas scalaire et il est necessaire de definir plusieurs types de representation minimale, c'est-a-dire de representation dont les degres sont, en un certain sens, les plus petits possibles. Dans le chapitre 1, nous caracterisons les degres des representations identifiables, a l'aide de la fonction d'autocovariance. Le chapitre 2 est consacre a l'estimation des degres d'un arma univarie a partir d'un estimateur de l'autocorrelation. Le chapitre 3 traite l'estimation des degres dans le cas multivarie. Dans le chapitre 4, nous abordons l'identification des modeles non lineaires par l'etude d'une sous-classe de processus bilineaires. En annexe, nous presentons une methode de generation rapide d'echantilons ordonnes d'une variable reelle permettant de fixer une qualite a priori pour la realisation obtenue
APA, Harvard, Vancouver, ISO, and other styles
44

Paraschivescu, Cristina. "Le rôle régulateur des cytokines dans le neurodéveloppement et le comportement au début de la période postnatale : Étude de l'impact du TNF sur le comportement de la souris au début de la période postnatale et une nouvelle approche d'analyse de données appliquée au modèle murin de l'autisme basée sur l'activation de l’immunité maternelle." Electronic Thesis or Diss., Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR6027.

Full text
Abstract:
Plusieurs études ont montré que l’activation du système immunitaire maternel (MIA) pendant la grossesse augmentait le risque de troubles neurologiques et d’anomalies du comportement dans la descendance. Afin d’étudier les mécanismes impliqués, plusieurs auteurs ont comparé le comportement de souris nées de mères injectées pendant la grossesse avec du poly(I:C), une molécule mimant une infection par le virus de la grippe, et celui de souris nées de mères injectées avec une solution saline. Bien que ces études aient permis de confirmer que l’activation du système immunitaire maternel pouvait induire des troubles du comportement, la majorité d’entre elles se sont fondées sur des tests comportementaux effectués chez la souris adulte. Ainsi, il reste à déterminer si la modification des niveaux d’autres cytokines pendant la période périnatale peut avoir une incidence sur le neurodéveloppement précoce et sur le comportement de la jeune souris. Pour répondre à cette question, nous avons caractérisé la descendance de plusieurs cohortes de mères injectées avec du poly(I:C) ou avec une solution saline, pour leur comportement entre 5 et 15 jours après la naissance et pour la concentration de plusieurs cytokines dans le sérum. Parce que le neurodéveloppement et la production de cytokines sont affectés par plusieurs variables, nous avons utilisé une analyse multivariée pour identifier les variables environnementales et biologiques associées au fait d’être le descendant d’une mère injectée avec du poly(I :C) (par opposition au fait d’être le descendant d’une mère injectée avec une solution saline). Nous avons constaté que la diminution du poids et de la température corporelle de la mère après injection de poly(I:C), la taille de la portée, le poids de la souris à 15 jours, le nombre de vocalisations ultrasonores (USV) émises par la souris à 6 jours, la distance parcourue par le souris et le temps passé immobile à 13 jours, ainsi que les concentrations sériques de TNF, IL-5, IL-15 et CXCL10 à 15 jours étaient associés au fait d’être le descendant d’une mère injectée avec du poly(I :C). Pour continuer à explorer le rôle régulateur du TNF, nous avons injecté quotidiennement du TNF recombinant à des souris nouveau-nées entre le jour 1 et le jour 5 après leur naissance, et nous avons étudié leur développement et leur comportement entre le jour 8 et le jour 15. Contrairement à nos attentes, l’injection de TNF à des souris nouveau-nées n’a pas d’impact négatif sur le développement, mais favorise plutôt l’acquisition de réflexes sensorimoteurs et le comportement exploratoire. Pris dans leur l’ensemble, nos résultats confirment que les cytokines jouent un rôle crucial dans le neurodéveloppement et que des variations dans l’abondance de certaines d’entre elles, et notamment du TNF, ont un impact sur l’acquisition de certains réflexes et comportement pendant les premiers jours de la vie. Bien que nos études ne nous aient pas permis d’explorer les mécanismes par lesquels cytokines influent sur le neurodéveloppement, les protocoles que nous avons élaborés et les résultats que nous avons obtenus fournissent un cadre pour d’autres études visant à mieux comprendre ces mécanismes<br>Both preclinical and clinical studies have shown that immune activation and inflammation during the early stages of neurodevelopment increase the risk of neurodevelopment disorders and behaviour abnormalities in adults. While the underlying mechanisms have only been partially elucidated, experiments in the maternal immune activation mouse model (MIA) – in which pregnant dams are injected with the viral mimic poly(I:C) – have demonstrated the critical role of two cytokines: interleukin (IL)-6 and IL-17A. However, the vast majority of the studies performed to date have used behavioural tests in adult mice as a read out to study the impact of cytokines on neurodevelopment. Therefore, it is not clear whether altered levels of other cytokines during the perinatal period could impact neurodevelopment and behaviour in infant mice. To address this issue, we have analysed the progeny of several cohorts of poly(I:C)- and saline-injected mothers for behaviour between postnatal day 5 (P5) and P15 and serum cytokine levels at P15. Because both perinatal neurodevelopment and cytokine production are known or believed to be impacted by many environmental variables, we analysed our data using a multivariable statistical model to identify features associated with being born to a poly(I:C)-injected mother (as opposed to being born to a saline-injected mother). We found that the drop of body weight and temperature of the mother after poly(I:C) injection, the litter size, the pup weight at P15, the number of ultrasonic vocalizations (USV) emitted by the pup at P6, the distance travelled by the pup and the time it spent mobile at P13, as well as serum levels of Tumour Necrosis Factor (TNF), IL-5, IL-15 and C-X-C motif chemokine (CXCL)10 were all associated with altered odds of being born to a poly(I:C)-injected mother. To further explore the role of TNF during the early postnatal period, we injected mouse pups daily from P1 to P5 and assessed these animals for both developmental milestones and behaviour from P8 to P15. Unexpectedly, injection of recombinant TNF did not have a detrimental impact on neurodevelopment but rather promoted sensorimotor reflexes acquisition and exploratory behaviour. Altogether, our results confirm that cytokines play a critical role during neurodevelopment and that altered levels of specific cytokines, and in particular TNF, could regulate the acquisition of developmental milestones and behaviour in infant mice. While we have only obtained preliminary insights into underlying mechanisms, the protocols that we have developed provide a framework for further studies
APA, Harvard, Vancouver, ISO, and other styles
45

Liang, Ci. "Contributions to risk modeling and analysis at railway level crossings." Thesis, Lille 1, 2018. http://www.theses.fr/2018LIL1I017/document.

Full text
Abstract:
L’objet de cette thèse porte sur l'analyse quantitative des risques et les techniques de modélisation dans le but d'améliorer la sécurité aux PN. Les différentes contributions de ce travail peuvent être présentées selon quatre volets : Sur le premier volet, nous présentons une analyse quantitative de l'impact de divers facteurs (mode de transport, région géographique et moment de trafic) sur le niveau de risque aux PN. Sur le deuxième volet, et en se basant sur des données expérimentales fines obtenues à partir de l’instrumentation de 12 PN à différents endroits en France, une analyse quantitative du comportement des automobilistes est réalisée pour explorer les mécanismes de violation des automobilistes lors de la traversée d’un PN. Sur le troisième volet, nous proposons un modèle statistique multi-facteurs de prévision des accidents. Un tel modèle, en plus de la prise en compte d’une multitude de facteurs, nous fournit une estimation de la fréquence des accidents avec une précision considérablement élevée par rapport aux modèles existants. Sur le dernier volet, nous proposons un cadre de modélisation efficace et complet basé sur des réseaux Bayésiens (RB) pour le raisonnement causal. Les résultats de la phase de validation indiquent que ce modèle de risque présente une bonne performance d'estimation. En résumé, les contributions de cette thèse offrent une réponse directe à l’insuffisante connaissance sur les divers mécanismes qui sous-tendent les accidents PN. De telles contributions sont un nouveau pas vers l'identification de mesures de conception pratiques et de solutions techniques ciblées, afin d'améliorer la sécurité des PN<br>This PhD thesis deals with advanced quantitative risk analysis and modeling techniques with the aim to improve the safety of LXs. The contributions of the work reported in this thesis are four-fold:Firstly, we analyze the impact of various factors (transport mode, geographical region and traffic moment) on the risk level at LXs quantitatively. Then, based on the field experiments carried out at 12 LXs throughout France, through quantitative analysis of motorist behavior is performed to acquire the knowledge of motorist violation mechanism causing train-car collisions. Moreover, an advanced statistical accident prediction model which takes into account a variety of impacting factors, i.e., the average daily road traffic, the average daily railway traffic, the annual road accidents, the vertical road profile, the horizontal road alignment, the road width, the crossing length, the railway speed limit and the geographic region, is further developed. This model allows for estimating accident frequency with a considerably high accuracy and has a more appropriate form compared with the existing models pertaining to LX accident prediction. Subsequently, an effective and comprehensive modeling framework based on Bayesian networks (BNs) for risk reasoning is proposed. The performance validation results indicate that our BN risk model has sound estimation performance. In summary, the aforementioned contributions are a direct response to the key knowledge gap about various mechanisms underlying LX accidents. Such contributions pave the way for identifying practical design measures and targeted technical solutions, so as to improve LX safety
APA, Harvard, Vancouver, ISO, and other styles
46

Blanchard, Frédéric. "Visualisation et classification de données multidimensionnelles : Application aux images multicomposantes." Reims, 2005. http://theses.univ-reims.fr/exl-doc/GED00000287.pdf.

Full text
Abstract:
L'analyse des images multicomposantes est un problème crucial. Les questions de la visualisation et de la classification pour ces images sont importantes. Nous nous sommes intéressés à ces deux problèmes en nous plaçant dans le cadre plus général de l'analyse des données multidimensionnelles, et avons apporté deux éléments de réponses. Avant de traiter ces questions, nous nous sommes intéressés aux problèmes pratiques et théoriques liés à la dimensionnalité et étudions quelques unes des techniques courantes de réduction de dimensionnalité. La question de la visualisation est alors exposée et une nouvelle méthode utilisant l'image couleur est proposée. Cette technique permet une visualisation immédiate et synthétique des données, sans connaissance a priori. Elle est illustrée par des applications. Nous présentons également une contribution à la classification non supervisée de données qui se situe en amont du processus de classification proprement dit. Nous avons conçu une nouvelle façon de représenter les données et leurs liens à l'aide de la théorie des ensembles flous. Cette méthode permet, en classification, de traiter avec succès des échantillons de données dont les classes sont d'effectifs et de densités différents, sans faire d'a priori sur leur forme. Un algorithme de classification et des exemples de son application sont proposés. Ce travail présente deux contributions importantes aux problématiques de la visualisation et la classification, et fait intervenir des concepts issus de thématiques diverses comme l'analyse de données ou la théorie des ensembles flous. Il peut ainsi être utilisé dans d'autres contextes que celui de l'analyse d'images multicomposantes<br>The analysis of multicomponent images is a crucial problem. Visualization and clustering problem are two relevant questions about it. We decided to work in the more general frame of data analysis to answer to these questions. The preliminary step of this work is describing the problems induced by the dimensionality and studying the current dimensionality reduction methods. The visualization problem is then considered and a contribution is exposed. We propose a new method of visualization through color image that provides an immediate and sythetic image od data. Applications are presented. The second contribution lies upstream with the clustering procedure strictly speaking. We etablish a new kind of data representation by using rank transformation, fuzziness and agregation procedures. Its use inprove the clustering procedures by dealing with clusters with dissimilar density or variant effectives and by making them more robust. This work presents two important contributions to the field of data analysis applied to multicomponent image. The variety of the tools involved (originally from decision theory, uncertainty management, data mining or image processing) make the presented methods usable in many diversified areas as well as multicomponent images analysis
APA, Harvard, Vancouver, ISO, and other styles
47

Alawieh, Hiba. "Fitting distances and dimension reduction methods with applications." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10018/document.

Full text
Abstract:
Dans la plupart des études, le nombre de variables peut prendre des valeurs élevées ce qui rend leur analyse et leur visualisation assez difficile. Cependant, plusieurs méthodes statistiques ont été conçues pour réduire la complexité de ces données et permettant ainsi une meilleure compréhension des connaissances disponibles dans ces données. Dans cette thèse, notre objectif est de proposer deux nouvelles méthodes d’analyse des données multivariées intitulées en anglais : " Multidimensional Fitting" et "Projection under pairwise distance control". La première méthode est une dérivée de la méthode de positionnement multidimensionnelle dont l’application nécessite la disponibilité des deux matrices décrivant la même population : une matrice de coordonnées et une matrice de distances et l’objective est de modifier la matrice des coordonnées de telle sorte que les distances calculées sur cette matrice soient les plus proches possible des distances observées sur la matrice de distances. Nous avons élargi deux extensions de cette méthode : la première en pénalisant les vecteurs de modification des coordonnées et la deuxième en prenant en compte les effets aléatoires qui peuvent intervenir lors de la modification. La deuxième méthode est une nouvelle méthode de réduction de dimension basée sur la projection non linéaire des données dans un espace de dimension réduite et qui tient en compte la qualité de chaque point projeté pris individuellement dans l’espace réduit. La projection des points s’effectue en introduisant des variables supplémentaires, qui s’appellent "rayons", et indiquent dans quelle mesure la projection d’un point donné est précise<br>In various studies the number of variables can take high values which makes their analysis and visualization quite difficult. However, several statistical methods have been developed to reduce the complexity of these data, allowing a better comprehension of the knowledge available in these data. In this thesis, our aim is to propose two new methods of multivariate data analysis called: " Multidimensional Fitting" and "Projection under pairwise distance control". The first method is a derivative of multidimensional scaling method (MDS) whose the application requires the availability of two matrices describing the same population: a coordinate matrix and a distance matrix and the objective is to modify the coordinate matrix such that the distances calculated on the modified matrix are as close as possible to the distances observed on the distance matrix. Two extensions of this method have been extended: the first by penalizing the modification vectors of the coordinates and the second by taking into account the random effects that may occur during the modification. The second method is a new method of dimensionality reduction techniques based on the non-linearly projection of the points in a reduced space by taking into account the projection quality of each projected point taken individually in the reduced space. The projection of the points is done by introducing additional variables, called "radii", and indicate to which extent the projection of each point is accurate
APA, Harvard, Vancouver, ISO, and other styles
48

Zhao, Yongli. "Etude de la microstructure et des performances des revêtements céramiques YSZ finement structurés obtenus par projection plasma de suspension." Thesis, Bourgogne Franche-Comté, 2018. http://www.theses.fr/2018UBFCA022/document.

Full text
Abstract:
Grâce à l'utilisation d'un porteur liquide, la projection plasma de suspension (SPS) permet la fabrication de revêtements finement structurés. Comme pour la projection plasma conventionnelle (APS), les microstructures des revêtements SPS peuvent être adaptées en contrôlant les conditions de projection. Cependant, le procédé SPS est plus compliqué que le procédé APS par son nombre de paramètres modifiables.Cette thèse vise à apporter une compréhension plus fondamentale de la relation entre les paramètres du procédé SPS et les propriétés des revêtements YSZ en identifiant des modèles génériques basés sur l’utilisation de méthodes statistiques mathématiques pour l'étude de l'influence et de la sensibilité de paramètres individuels.Des expériences systématiques ont été menées pour étudier l'influence de six paramètres (puissance du plasma, charge massique de suspension, taille de la poudre, distance de projection, pas de projection et rugosité du substrat) sur la microstructure des revêtements qui ont aussi été analysés en terme de propriétés d’usage (mécanique, thermique, tribologique, etc.). La porosité des revêtements a fait l’objet d’une étude approfondie et les mesures ont été réalisées par trois techniques différentes : la méthode par analyse d’images, la transmission RX et la méthode USAXS (Ultra-Small Angle X-ray Scattering). Des analyses multivariées sur les données expérimentales recueillies ont été effectuées et plusieurs modèles mathématiques ont été proposés afin de prédire les propriétés des revêtements et guider ensuite vers une optimisation de la microstructure du revêtement en vu d'applications spécifiques.Dans ce contexte d'optimisation des performances mécaniques et tribologiques de ces revêtements céramiques, différentes quantités et tailles de poudre h-BN ont été ajoutées dans la suspension YSZ. Les revêtements composites YSZ / h-BN ont été fabriqués et leur analyse a montré une nette réduction du coefficient de frottement et du taux d'usure lorsque la taille et la quantité de poudre d’ajout sont optimisées l'une avec l'autre. Trois mécanismes d’usure ont finalement été identifiés et seront discutés<br>Thanks to the using of liquid carrier, suspension plasma spray (SPS) enables the manufacture of finely structured coatings. As for conventional plasma spraying (APS), the microstructures of SPS coatings can be tailored by controlling the spray conditions. However, SPS is more complicated than APS due to its number of modifiable parameters.This thesis aims to provide a more fundamental understanding of the relationship between SPS process parameters and the properties of YSZ coatings by identifying generic models based on the use of mathematical statistical methods for the study of influence and sensitivity of the individual parameters.Systematic experiments were carried out to study the influence of six parameters (plasma power, suspension mass load, powder size, projection distance, projection step and substrate roughness) on the microstructure of coatings which were also analyzed in terms of the properties (mechanical, thermal, tribological, etc.). The porosity of the coatings was studied in detail and the measurements were carried out using three different techniques: the image analysis method, the X-ray transmission and the USAXS (Ultra-Small Angle X-ray Scattering) method. Multivariate analyzes of the collected experimental data were performed and several mathematical models were proposed to predict the properties of the coatings and then guide towards an optimization of the microstructure of the coating for specific applications.In this context of optimizing the mechanical and tribological performance of ceramic coatings, different amounts and sizes of h-BN powder have been added in the YSZ suspension. The YSZ/h-BN composite coatings were manufactured by SPS process and their analysis showed a clear reduction in the coefficient of friction and the wear rate when the size and the amount of addition powder are optimized together. Three wear mechanisms have finally been identified and been discussed
APA, Harvard, Vancouver, ISO, and other styles
49

Hoang, Vy-Thuy-Lynh. "Models and estimation algorithms for nonparametric finite mixtures with conditionally independent multivariate component densities." Thesis, Orléans, 2017. http://www.theses.fr/2017ORLE2012/document.

Full text
Abstract:
Plusieurs auteurs ont proposé récemment des modèles et des algorithmes pour l'estimation nonparamétrique de mélanges multivariés finis dont l'identifiabilité n'est pas toujours assurée. Entre les modèles considérés, l'hypothèse des coordonnées indépendantes conditionnelles à la sous-population de provenance des individus fait l'objet d'une attention croissante, en raison des développements théoriques et pratiques envisageables, particulièrement avec la multiplicité des variables qui entrent en jeu dans le framework statistique moderne. Dans ce travail, nous considérons d'abord un modèle plus général supposant l'indépendance, conditionnellement à la composante, de blocs multivariés de coordonnées au lieu de coordonnées univariées, permettant toute structure de dépendance à l'intérieur de ces blocs. Par conséquent, les fonctions de densité des blocs sont complètement multivariées et non paramétriques. Nous présentons des arguments d'identifiabilité et introduisons pour l'estimation dans ce modèle deux algorithmes méthodologiques dont les procédures de calcul ressemblent à un véritable algorithme EM mais incluent une étape additionnelle d'estimation de densité: un algorithme rapide montrant l'efficacité empirique sans justification théorique, et un algorithme lissé possédant une propriété de monotonie comme certain algorithme EM, mais plus exigeant en terme de calcul. Nous discutons également les méthodes efficaces en temps de calcul pour l'estimation et proposons quelques stratégies. Ensuite, nous considérons une extension multivariée des modèles de mélange utilisés dans le cadre de tests d'hypothèses multiples, permettant une nouvelle version multivariée de contrôle du False Discovery Rate. Nous proposons une version contrainte de notre algorithme précédent, adaptée spécialement à ce modèle. Le comportement des algorithmes de type EM que nous proposons est étudié numériquement dans plusieurs expérimentations de Monte Carlo et sur des données réelles de grande dimension et comparé avec les méthodes existantes dans la littérature. En n, les codes de nos nouveaux algorithmes sont progressivement ajoutés sous forme de nouvelles fonctions dans le package en libre accès mixtools pour le logiciel de statistique R<br>Recently several authors have proposed models and estimation algorithms for finite nonparametric multivariate mixtures, whose identifiability is typically not obvious. Among the considered models, the assumption of independent coordinates conditional on the subpopulation from which each observation is drawn is subject of an increasing attention, in view of the theoretical and practical developments it allows, particularly with multiplicity of variables coming into play in the modern statistical framework. In this work we first consider a more general model assuming independence, conditional on the component, of multivariate blocks of coordinates instead of univariate coordinates, allowing for any dependence structure within these blocks. Consequently, the density functions of these blocks are completely multivariate and nonparametric. We present identifiability arguments and introduce for estimation in this model two methodological algorithms whose computational procedures resemble a true EM algorithm but include an additional density estimation step: a fast algorithm showing empirical efficiency without theoretical justification, and a smoothed algorithm possessing a monotony property as any EM algorithm does, but more computationally demanding. We also discuss computationally efficient methods for estimation and derive some strategies. Next, we consider a multivariate extension of the mixture models used in the framework of multiple hypothesis testings, allowing for a new multivariate version of the False Discovery Rate control. We propose a constrained version of our previous algorithm, specifically designed for this model. The behavior of the EM-type algorithms we propose is studied numerically through several Monte Carlo experiments and high dimensional real data, and compared with existing methods in the literature. Finally, the codes of our new algorithms are progressively implemented as new functions in the publicly-available package mixtools for the R statistical software
APA, Harvard, Vancouver, ISO, and other styles
50

Puradimaja, Deny Juanda. "Différenciation hydrochimique et isotopique des émergences karstiques du Languedoc-Roussillon (France)." Montpellier 2, 1991. http://www.theses.fr/1991MON20254.

Full text
Abstract:
Ce travail est une approche globale de la caracterisation hydrochimique des emergences karstiques du languedoc-roussillon (sud de la france) dont environ 50% de la superficie totale est constituee de terrains carbonates notamment paleozoiques et mesozoiques, karstifies et tectonises en plusieurs episodes. Base sur 650 sources karstiques fournissant une ou plusieurs analyses chimiques des eaux, l'application, d'une part, des methodes statistiques telles que analyses multivariables, matrices de correlation, regressions, d'autre part, les calculs hydrochimiques, permet de regrouper des sources karstiques a caracteres chimiques similaires, d'etudier les relations entre les parametres observees et d'etablir des cartes thematiques. On interprete globalement les resultats obtenus ci-dessus, en se servant des donnees climatologiques et geologiques, afin: de mettre en evidence les principales anomalies hydrochimiques des eaux, d'etablir des relations entre les parametres physico-chimiques des eaux et leur environnement physique et geologique. On traite ensuite de facon plus detaillee les anomalies en ions sulfates et bicarbonates, avec notamment, l'utilisation de donnees isotopiques (#2h, #1#8o, #1#3c#t, #3#4s). En conclusion, on propose une typologie sommaire des sources karstiques adoptee au contexte regionale
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography