Log in

Relevant bibliographies by topics / Arbres de données / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Arbres de données.

Dissertations / Theses on the topic 'Arbres de données'

Author: Grafiati

Published: 4 June 2021

Last updated: 15 February 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Arbres de données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Brossier, Gildas. "Problèmes de représentation de données par des arbres." Rennes 2, 1986. http://www.theses.fr/1986REN20014.

Full text

Abstract:

Dans un premier temps, on étudie les propriétés des tableaux de distance associés, aux différentes représentations arborées et les relations entre ces distances. Ensuite, on définit les représentations ordonnées, on construit une classe d'algorithmes d'ordonnancement et on étudie leurs propriétés d'optimalité dans différentes conditions. Les propriétés de décomposition des tableaux de distances quadrangulaires nous permettent alors de construire des algorithmes rapides de représentations, possédant certaines propriétés d'optimalité. On étend ces résultats au cas où la donnée est une matrice non symétrique. Enfin dans le cas où la matrice de données est rectangulaire, on dégage les conditions nécessaires et suffisantes à une représentation simultanée de deux ensembles de données. Quand les conditions ne sont pas satisfaites on propose des algorithmes d'approximation
First, we begin by studying the properties of distance tables associated with tree-representations, and the relation between these distances. Then we define ordered representations, construct a class of ordering algorithms and study their optimal properties under different conditions. The decomposition properties of distance tables allow us to construct fast algorithms for representations with some optimal properties we extend results when data are asymmetry matrices. Last of all we show in the case of rectangular matrices the necessary and sufficient conditions for the simultaneous representations of two sets of data. When conditions are not satisfied we propose some approximation algorithms

APA, Harvard, Vancouver, ISO, and other styles

2

Acosta, Francisco. "Les arbres balances : spécification, performances et contrôle de concurrence." Montpellier 2, 1991. http://www.theses.fr/1991MON20201.

Full text

Abstract:

Dans le cadre de la gestion d'une base de donnees, nous etudions les problemes relatifs a la specification, aux performances des operations d'acces et au partage des donnees. Dans la premiere partie de l'etude nous introduisons les notions de base pour la specification de donnees et nous etudions les methodes classiques d'acces aux donnees; cette etude montre que les arbres balances (les b-arbres et leurs variations) sont une solution interessante pour la gestion de donnees stockees sur disque. Nous etudions ensuite la specification algebrique des arbres balances, afin de degager leurs caracteristiques intrinseques. Nous definissons les classes b(k, m) des b-arbres, dans lesquelles les parametres k et m permettent de controler de facon simple le rapport espace-temps de leur complexite. Cette proposition generalise, a l'aide du parametre k, les variations les plus classiques de ces arbres, telles que les arbres b*. Dans la seconde partie de l'etude, nous exposons les concepts de base du controle de concurrence. Nous etudions par la suite le modele d'execution concurrente sur les arbres de recherche de shasha et goodman, puis les methodes de controle de concurrence pour ces arbres. Finalement, nous degageons les principes d'une methode originale dans laquelle le controle s'exerce au meilleur moment de l'execution des operations

APA, Harvard, Vancouver, ISO, and other styles

3

Dufort, Julie. "Estimation automatisée de la hauteur des arbres à partir de données d'altimétrie laser." Mémoire, École de technologie supérieure, 2000. http://espace.etsmtl.ca/855/1/DUFORT_Julie.pdf.

Full text

Abstract:

Ce projet étudie la possibilité de calculer la hauteur des arbres de la forêt boréale de façon précise et automatique. Les données utilisées sont des images produites à partir de mesures d'altimétrie laser, ainsi qu'une image multispectrale de la région étudiée. En séparant tout le processus de calcul de hauteurs et étapes intermédiaires, exécutées sur ordinateur de façon autonome, nous voulons aussi montrer que le processus est automatisable. Les étapes du projet sont les suivantes: l'acquisition des données, la conversion des données, l'extraction des contours des arbres, l'identification des arbres valides, l'extraction des données pour chacun des arbres et finalement le calcul de la hauteur de chacun des arbres identifiés. L'intervention humaine est cependant encore nécessaire entre l'identification de l'arbre et l'extraction de ses données, entre l'extraction des données et le calcul des hauteurs et à certains points du calcul des hauteurs. Les résultats obtenus répondent en partie aux objectifs fixés. Le filtrage donne des résultats très encourageants quant à la délimitation des couronnes, même si certaines d'elles sont encore confondues avec des voisines. De plus, pour la majorité des arbres, la hauteur calculée s'approche de la valeur réelle.

APA, Harvard, Vancouver, ISO, and other styles

4

Germain, Christian. "Etude algébrique, combinatoire et algorithmique de certaines structures non associatives (magmas, arbres, parenthésages)." Dijon, 1996. http://www.theses.fr/1996DIJOS018.

Full text

Abstract:

Dans des structures non associatives du type arbres binaires, parenthésages, magmas binaires, on étudie un certain nombre de transformations définies par des règles de réécriture, d'un point de vue combinatoire (caractérisation, dénombrements), d'un point de vue algébrique (structure d'ordre engendrée, métrique) et d'un point de vue algorithmique (calcul effectif de certains objets et de la métrique). Dans une certaine famille de magmas binaires dits exponentiatifs, on aborde des problèmes du mot. Enfin on propose deux modelés permettant de résoudre rationnellement de façon virtuelle des systèmes linéaires de séries formelles définies dans un cadre non associatif ; l'un de ces modèles procède par plongement dans un magma pseudo-associatif

APA, Harvard, Vancouver, ISO, and other styles

5

Flitti, Farid. "Techniques de réduction de données et analyse d'images multispectrales astronomiques par arbres de Markov." Phd thesis, Université Louis Pasteur - Strasbourg I, 2005. http://tel.archives-ouvertes.fr/tel-00156963.

Full text

Abstract:

Le développement de nouveaux capteurs multispectraux en imagerie astronomique permet l'acquisition de données d'une grande richesse. Néanmoins, la classification d'images multidimensionnelles se heurte souvent au phénomène de Hughes : l'augmentation de la dimensionnalité s'accompagne d'un accroissement du nombre de paramètres du modèle et donc inévitablement une baisse de précision de leur estimation entrainant une dégradation de la qualité de la segmentation. Il est donc impératif d'écarter l'information redondante afin de réaliser des opérations de segmentation ou de classification robustes. Dans le cadre de cette thèse, nous avons propose deux méthodes de réduction de la dimensionnalité pour des images multispectrales : 1) le regroupement de bandes suivis de projections locales ; 2) la réduction des cubes radio par un modèle de mélange de gaussiennes. Nous avons également propose un schéma de réduction/segmentation jointe base sur la régularisation du mélange d'analyseurs en composantes principales probabilistes (MACPP). En se qui concerne la tâche de segmentation, nous avons choisie une approche bayésienne s'appuyant sur des modèles hiérarchiques récents a base d'arbres de Markov cache et couple. Ces modèles permettent en effet un calcul rapide et exact des probabilités a posteriori. Pour le terme d'attache aux données, nous avons utilisée la loi gaussienne multidimensionnelle classique, la loi gaussienne généralisée multidimensionnelles formulée grâce à la théorie des copules et la vraisemblance par rapport au modèle de l'ACP probabiliste (dans le cadre de la MACPP régularisée). L'apport majeur de ce travail consiste donc a proposer différents modèles markoviens hiérarchiques de segmentation adaptés aux données multidimensionnelles multirésolutions. Leur exploitation pour des données issues d'une analyse par ondelettes adaptée au contexte astronomique nous a permis de développer des techniques de débruitage et de fusion d'images astronomiques multispectrales nouvelles. Tous les algorithmes sont non supervises et ont été valides sur des images synthétiques et réelles.

APA, Harvard, Vancouver, ISO, and other styles

6

Flitti, Farid. "Techniques de réduction de données et analyse d'images multispéctrales astronomiques par arbres de Markov." Université Louis Pasteur (Strasbourg) (1971-2008), 2005. https://publication-theses.unistra.fr/public/theses_doctorat/2005/FLITTI_Farid_2005.pdf.

Full text

Abstract:

Le développement des capteurs multispectraux en imagerie astronomique permet l'acquisition de données très riches. Néanmoins, la classification d'images multidimensionnelles se heurte souvent au phénomène de Hughes : l'augmentation de la dimensionalité induit l’accroissement du nombre de paramètres du modèle ce qui cause la baisse de précision de leur estimation entraînant une dégradation de la qualité de la segmentation. Il est donc impératif d'écarter l'information redondante pour réaliser des opérations de segmentation ou de classification robustes. Dans ce travail, nous avons proposé deux méthodes de réduction de la dimensionnalité pour des images multispectrales : 1) le regroupement de bandes suivis de projections locales ; 2) la réduction des cubes radio par un modèle de mélange de gaussiennes. Nous avons également proposé un schéma de réduction/segmentation jointe basé sur la régularisation du mélange d'analyseurs en composantes principales probabilistes (MACPP). Pour la tâche de segmentation, nous avons choisie une approche bayésienne s'appuyant sur des modèles hiérarchiques récents à base d'arbres de Markov caché et couple. Ces modèles permettent un calcul rapide et exact des probabilités a posteriori. Pour le terme d'attache aux données, nous avons utilisée la loi gaussienne multidimensionnelle, la loi gaussienne généralisée multidimensionnelle formulée grâce à la théorie des copules et la vraisemblance par rapport au modèle de l'ACP probabiliste (MACPP régularisée). L'apport majeur de ce travail consiste à proposer différents modèles markoviens hiérarchiques de segmentation adaptés aux données multidimensionnelles et multirésolutions. Leur exploitation pour des données issues d'une analyse par ondelettes adaptée au contexte astronomique nous a permis de développer des techniques de débruitage et de fusion d'images astronomiques multispectrales nouvelles. Tous les algorithmes sont non supervisés et ont été validés sur des images synthétiques et réelles
The development of astronomical multispectral sensors allows data of a great richness. Nevertheless, the classification of multidimensional images is often limited by Hughes phenomenon: when dimensionality increases the number of parameters of the model grows and the precision of their estimates falls inevitably, therefore the quality of the segmentation dramatically decreases. It is thus imperative to discard redundant information in order to carry out robust segmentation or classification. In this thesis, we have proposed two methods for multispectral image dimensionnality reduction: 1) bands regrouping followed by local projections; 2) radio cubes reduction by a mixture of Gaussians model. We have also proposed joint reduction/segmentation scheme based on the regularization of the mixture of probabilistic principal components analyzers (MPPCA). For the segmentation task, we have used a Bayesian approach based on hierarchical Markov models namely the hidden Markov tree and the pairwise Markov tree. These models allow fast and exact computation of the a posteriori probabilities. For the data driven term, we have used three formulations: 1) the classical multidimensional Gaussian distribution 2) the multidimensional generalized Gaussian distribution formulated using copulas theory 3) the likelihood of the probabilistic PCA model (within the framework of the regularized MPPCA). The major contribution of this work consists in introducing various hierarchical Markov models for multidimensional and multiresolution data segmentation. Their exploitation for data issued from wavelets analysis, adapted to the astronomical context, enabled us to develop new denoising and fusion techniques of multispectral astronomical images. All our algorithms are unsupervised and were validated on synthetic and real images

APA, Harvard, Vancouver, ISO, and other styles

7

Galluccio, Laurent. "Analyse et segmentation de données non supervisées à l'aide de graphe." Nice, 2010. http://www.theses.fr/2010NICE4022.

Full text

Abstract:

Cette thèse présente de nouvelles méthodes de segmentation et classification non supervisées de données appliquées dans un contexte astrophysique. Les informations a priori telles que le nombre de classes ou la distribution sous-jacente des données ne sont pas toujours connues. Beaucoup de méthodes de classification existantes en astrophysique sont basées sur des connaissances a priori ou sur des observations déjà réalisées sur les données. Les classifications obtenues dépendront donc de ces informations et seront limitées par les connaissances des experts. L'intérêt de développer des algorithmes de classification non supervisées est de s'affranchir de ces limitations afin de détecter potentiellement de nouvelles classes. L'approche principale adoptée dans cette thèse est l'utilisation d'un graphe construit sur les données : l'arbre de recouvrement minimal (Minimal Spanning Tree : MST). En connectant les points par des segments on construit une structure qui capture les relations existantes entre chaque paire de points. Nous proposons d'estimer le nombre et la position des classes présentes dans les données en explorant les connexions du MST construit. Ces informations servent d'initialisation fia des algorithmes de classification. Une nouvelle classe de MSTs multi-enracinés est présentée. De leur construction, des mesures de distances permettant la prise en compte du voisinage local et global des points sont dérivées. Une méthode de classification non supervisée qui combine les résultats de multiples partitionnements effectués sur les MSTs multi-enracinées est également proposée. Les méthodes proposées sont validées sur des benchmark et appliquées fia des données astrophysiques
This thesis presents new data segmentation and data clustering methods applied to astrophysical data. A priori information such as the number of classes or the underlying data distribution is not necessarily known. Many classification methods in astrophysics community are based on a priori knowledges or on observations already realized on data. Classifications obtained will depend on these information and will be limited by the experts knowledge. The goal of developing clustering algorithms is to get rid of these limitations, to be able to potentially detect new classes. The main approach chosen in this thesis is the use of a graph built on the data : the Minimal Spanning Tree (MST). By connecting the points by segments we build a structure which encapsulates the being relations between each pair of points. We propose a method to estimate both the number and the position of clusters by exploring the connections of the MST built. A data partition is obtained by using this information to initialize some clustering algorithms. A new class of multi-rooted MSTs is introduced. From their construction, new distance measures are derived allowing to take into account both the local and global data neighborhood. A clustering method which combines results of multiple partitionments realized on the multi-rooted trees is also exposed. The methods proposed are validated on benchmarks and applied to astrophysical datasets

APA, Harvard, Vancouver, ISO, and other styles

8

Fournier, Dominique. "Etude de la qualité de données à partir de l'apprentissage automatique : application aux arbres d'induction." Caen, 2001. http://www.theses.fr/2001CAEN2048.

Full text

Abstract:

Thèse entrant dans le domaine d'activité de la découverte de connaissances à partir des données. En classification, la plupart des stratégies d'évaluation se focalisent sur la précision du modèle prédictif construit. L'objectif est de mettre en relief l'apport des explications fournies par les classifieurs à l'aide de leurs capacités prédictives afin d'étudier la qualité de données. Une approche générale est proposée, appropriée à toute méthode procédant par restructuration de l'ensemble d'apprentissage en une hiérarchie de partitions. A partir de cette dernière, nous proposons à l'utilisateur une quantification de la qualité du modèle, élaborée en fonction de l'explication fournie. Nous mettons en oeuvre une approche avec les arbres de décision. Nous avons ainsi mis au point IQN, IQA et IQR, des indices de qualité qui résument la valeur spécifique et globale des arbres. Ces indices estiment la généralité, la complexité et la précision du résultat. IQN évalue la qualité des noeuds alors que IQA et IQR synthétisent la qualité des arbres et sous-arbres à partir de celles de leurs feuilles. Ainsi, nous sommes en mesure de déterminer les éléments qui influencent le plus la qualité des arbres. Nous montrons l'intérêt de ces techniques d'évaluation de la qualité appliquées à l'explication et àla restructuration des données en les illustrant sur deux problèmes médicaux pour lesquels les performances en classification sont opposées. Dans un cas, l'explication des données est satisfaisante alors que dans l'autre elle demeure incertaine.

APA, Harvard, Vancouver, ISO, and other styles

9

Boneva, Iovka. "Expressivité, satisfiabilité et model checking d'une logique spatiale pour arbres non ordonnés." Lille 1, 2006. https://ori-nuxeo.univ-lille1.fr/nuxeo/site/esupversions/dffac6b2-50d6-4e6d-9e4c-f8f5731c75e2.

Full text

Abstract:

Les structures arborescentes (arbres) sont largement étudiées en informatique. Les données semi-structurées en sont un récent champ d'application : il est admis que les arbres ordonnés d'arité non bornée sont un bon modèle pour ces données. Dans certains cas il est intéressant de considérer des arbres non ordonnés. Des formalismes logiques (logiques) sont utilisés pour décrire des requêtes ou vérifier des propriétés sur des données semi-structurées. Il est important d'identifier des logiques représentant un compromis entre expressivité et praticabilité des algorithmes. Des critères pertinents sont la satisfiabilité et la complexité du model checking de la logique. Nous étudions une logique spatiale, LS, qui est à la base d'un langage de requètes pour données semi-structurées modélisées par des arbres non ordonnés. La logique LS est très expressive, incluant des opérateurs spatiaux pour décrire localement la structure d'un arbre, un opérateur de point fixe et permettant de quantifier sur des étiquettes et sur des arbres. Nous établissons des résultats sur la satisfiabilité et la complexité du model checking pour différents fragments de LS. Nous identifions deux fragments syntaxiques de LS à satisfiabilité décidable, montrons que ces fragments sont équivalents aux logiques MSO et PMSO respectivement, et introduisons des classes d'automates d'arbres qui capturent ces deux fragments. Nous montrons que la complexité du mode! checking de LS est dans PSPACE-complet. Si seule la taille de l'arbre est prise en compte, la complexité du model checking va de linéaire à PSP ACE-complet pour les différents fragments de la logique.

APA, Harvard, Vancouver, ISO, and other styles

10

Jabbour-Hattab, Jean. "Une approche probabiliste du profil des arbres binaires de recherche." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS002V.

Full text

Abstract:

Le sujet principal de cette thèse est l'étude asymptotique du profil des arbres binaires de recherche, c'est à dire la répartition des nuds de ces arbres par niveau de profondeur. Les résultats sont atteints en utilisant conjointement des techniques analytiques et probabilistes et s'étendent au cas des arbres binaires associés à l'algorithme classique de gestion d'équivalence" Union Find". Une étude porte également sur les arbres binaires de recherche multidimensionnels ou k-d arbres ; elle concerne une nouvelle méthode de choix des clés, imaginé par L. Devroye. Nous montrons que, avec cette méthode, le temps moyen mis par l'algorithme de Bentley pour répondre à une recherche d'orthogonale ou à une recherche de correspondances partielles est asymptotiquement optimal.

APA, Harvard, Vancouver, ISO, and other styles

11

Auber, David. "Outils de visualisation de larges structures de données." Bordeaux 1, 2002. http://www.theses.fr/2002BOR12607.

Full text

Abstract:

Cette thèse présente un ensemble de résultats théoriques et pratiques, applicables dans le cadre de la visualisation d'informations. La première partie présente l'étude précise d'une structure de données performante. Dans la deuxième partie, nous présentons une amélioration de l'algorithme de Carriere et Kazman dédié au dessin d'arbres en 3D. Puis, nous présentons un algorithme, de complexité mémoire linéaire, permettant la représentation hiérarchique de grands graphes. Dans la troisième partie, nous donnons une méthode de simplification de graphes que npous utilisons pour respecter les contraintes temporelles imposées par le système de perception humain. Nous démontrons certaines propriétés combinatoires du paramètre Strahler et nous en proposons une extension aux cartes pointées. La quatrième partie se consacre à l'étude de deux algorithmes de fragmentation de graphes. Le premier est dédié aux arbres et améliore les résultats obtenus par Herman et al. Le deuxième est consacré aux graphes généraux. Il permet, par exemple, dans le cadre de l'analyse de programmes informatiques d'extraire automatiquement des composants logiciels. L'originalité des deux algorithmes proposés est qu'ils reposent sur des paramètres combinatoires et sont ainsi utilisables sur de grandes structures. Enfin, nous concluons par une brève description de la plate-forme logicielle que nous avons élaborée pour permettre l'expérimentation de nos résultats.

APA, Harvard, Vancouver, ISO, and other styles

12

Haddad, Raja. "Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLED028/document.

Full text

Abstract:

Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes
This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods

APA, Harvard, Vancouver, ISO, and other styles

13

Travers, Nicolas. "Optimisation extensible dans un médiateur de données semi-structurées." Versailles-St Quentin en Yvelines, 2006. http://www.theses.fr/2006VERS0049.

Full text

Abstract:

Cette thèse propose un cadre d'évaluation pour des requêtes XQuery dans un contexte de médiation de données XML. Un médiateur doit fédérer des sources de données distribuées et hétérogènes. A cette fin, un modèle de représentation des requêtes est nécessaire. Ce modèle doit intégrer les problèmes de médiation et permettre de définir un cadre d'optimisation pour améliorer les performances. Le modèle des motifs d'arbres est souvent utilisé pour représenter les requêtes Xquery, mais il ne reconnait pas toutes les spécifications du langage. La complexité du langage XQuery fait qu'aucun modèle de représentation complet n'a été proposé pour reconnaitre toutes les spécifications. Ainsi, nous proposons un nouveau modèle de représentation pour toutes les requêtes XQuery non typées que nous appelons TGV. Avant de modéliser une requête, un étape de canonisation permet de produire une forma canonique pour ces requêtes, facilitant l'étape de traduction vers le modèle TGV. Ce modèle prend en compte le contexte de médiation et facilite l'étape d'optimisation. Les TGV définis sous forme de types abstraits de données facilitent l'intégration du modèle dans tout sytème en fonction du modèle de données. De plus, une algèbre d'évaluation est définie pour les TGV. Grâce à l'intégration d'annotations et d'un cadre pour règles de transformation, un optimisateur extensible manipule les TGV. Celui-ci repose sur des règles de transformations, un modèle de coût générique et une stratégie de recherche. Les TGV et l'optimisateur extensible sont intégrés dans le médiateur XLive, développé au laboratoire PRISM
This thesis proposes to evaluate XQuery queries into a mediation context. This mediator must federate several heterogeneous data sources with an appropriate query model. On this model, an optimization framework must be defined to increase performance. The well-known tree pattern model can represent a subset of XPath queries in a tree form. Because of the complexity of XQuery, no model has been proposed that is able to represent all the structural components of the language. Then, we propose a new logical model for XQuery queries called TGV. It aims at supporting the whole XQuery into a canonical form in order to check more XQuery specifications. This form allows us to translate in a unique way queries into our TGV model. This model takes into account a distributed heterogenous context and eases the optimization process. It integrates transformation rules, cost evaluation, and therefore, execution of XQuery queries. The TGV can be used as a basis for processing XQuery queries, since it is flexible, it provides abstracts data types wich can be implemented according to the underneath data model. Moreover, it allows user-defined annotating ans also cost-related annotating for cost estimation. Althouogh the model will be useful, it relies on XQuery complicates specifications. TGV are illustrated in this thesis with several figures on W3C's uses cases. Finally, a framework to define transformation rules is added to the extensible optimizer to increase the XLive mediator performances. The XLive mediation system has been developped at the PRISM laboratory

APA, Harvard, Vancouver, ISO, and other styles

14

Vera, Carine. "Modèles linéaires mixtes multiphasiques pour l'analyse de données longitudinales : Application à la croissance des plantes." Montpellier 2, 2004. http://www.theses.fr/2004MON20161.

Full text

APA, Harvard, Vancouver, ISO, and other styles

15

Fayad, Ibrahim. "Estimation de la hauteur des arbres à l'échelle régionale : application à la Guyane Française." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS143/document.

Full text

Abstract:

La télédétection contribue à la cartographie et la modélisation des paramètres forestiers. Ce sont les systèmes optiques et radars qui sont le plus généralement utilisés pour extraire des informations utiles à la caractérisation de ces paramètres. Ces systèmes ont montré des bons résultats pour estimer la biomasse dans certains biomes. Cependant, ils présentent des limitations importantes pour des forêts ayant un niveau de biomasse élevé. En revanche, la télédétection LiDAR s’est avérée être une bonne technique pour l'estimation des paramètres forestiers tels que la hauteur de la canopée et la biomasse. Alors que les LiDAR aéroportés acquièrent en général des données avec une forte densité de points mais sur des petites zones en raison du coût de leurs acquisitions, les données LiDAR satellitaires acquises par le système spatial (GLAS) ont une densité d'acquisition faible mais avec une couverture géographique mondiale. Il est donc utile d'analyser la pertinence de l'intégration des hauteurs estimées à partir des capteurs LiDAR et des données auxiliaires afin de proposer une carte de la hauteur des arbres avec une bonne précision et une résolution spatiale élevée. En outre, l'estimation de la hauteur des arbres à partir du GLAS est difficile compte tenu de l'interaction complexe entre les formes d'onde LiDAR, le terrain et la végétation, en particulier dans les forêts denses. Par conséquent, la recherche menée dans cette thèse vise à: 1) Estimer et valider la hauteur des arbres en utilisant des données acquises par le LiDAR aéroportés et GLAS. 2) évaluer le potentiel de la fusion des données LiDAR (avec les données aéroportées ou satellitaires) et des données auxiliaires pour l'estimation de la hauteur des arbres à une échelle régionale (Guyane française). L'estimation de la hauteur avec le LiDAR aéroporté a montré une EQM sur les estimations de 1,6 m. Ensuite, le potentiel de GLAS pour l'estimation de la hauteur a été évalué en utilisant des modèles de régression linéaire (ML) ou Random Forest (RF) avec des métriques provenant de la forme d'onde et de l'ACP. Les résultats ont montré que les modèles d’estimation des hauteurs avaient des précisions semblables en utilisant soit les métriques de GLAS ou les composantes principales (PC) obtenues à partir des formes d’onde GLAS (EQM ~ 3,6 m). Toutefois, un modèle de régression (ML ou RF) basé sur les PCs est une alternative pour l'estimation de la hauteur, car il ne nécessite pas l'extraction de certaines métriques de GLAS qui sont en général difficiles à dériver dans les forêts denses.Finalement, la hauteur extraite à la fois des données LiDAR aéroporté et GLAS a servi tout d'abord à spatialiser la hauteur en utilisant les données environnementales cartographiées. En utilisant le RF, la spatialisation de la hauteur des arbres a montré une EQM sur les estimations de la hauteur de 6,5 m à partir de GLAS et de 5,8 m à partir du LiDAR aéroporté. Ensuite, afin d'améliorer la précision de la spatialisation de la hauteur, la technique régression-krigeage (krigeage des résidus de la régression du RF) a été utilisée. Les résultats de la régression-krigeage indiquent une diminution de l'erreur quadratique moyenne de 6,5 à 4,2 m pour les cartes de la hauteur de la canopée à partir de GLAS, et de 5,8 à 1,8 m pour les cartes de la hauteur de la canopée à partir des données LiDAR aéroporté. Enfin, afin d'étudier l'impact de l'échantillonnage spatial des futures missions LiDAR sur la précision des estimations de la hauteur de la canopée, six sous-ensembles ont été extraits de de la base LiDAR aéroporté. Ces six sous-ensembles de données LiDAR ont respectivement un espacement des lignes de vol de 5, 10, 20, 30, 40 et 50 km. Finalement, en utilisant la technique régression-krigeage, l’EQM sur la carte des hauteurs était de 1,8 m pour le sous-ensemble ayant des lignes de vol espacés de 5 km, et a augmentée jusqu’à 4,8 m pour le sous-ensemble ayant des lignes de vol espacés de 50 km
Remote sensing has facilitated the techniques used for the mapping, modelling and understanding of forest parameters. Remote sensing applications usually use information from either passive optical systems or active radar sensors. These systems have shown satisfactory results for estimating, for example, aboveground biomass in some biomes. However, they presented significant limitations for ecological applications, as the sensitivity from these sensors has been shown to be limited in forests with medium levels of aboveground biomass. On the other hand, LiDAR remote sensing has been shown to be a good technique for the estimation of forest parameters such as canopy heights and above ground biomass. Whilst airborne LiDAR data are in general very dense but only available over small areas due to the cost of their acquisition, spaceborne LiDAR data acquired from the Geoscience Laser Altimeter System (GLAS) have low acquisition density with global geographical cover. It is therefore valuable to analyze the integration relevance of canopy heights estimated from LiDAR sensors with ancillary data (geological, meteorological, slope, vegetation indices etc.) in order to propose a forest canopy height map with good precision and high spatial resolution. In addition, estimating forest canopy heights from large-footprint satellite LiDAR waveforms, is challenging given the complex interaction between LiDAR waveforms, terrain, and vegetation, especially in dense tropical and equatorial forests. Therefore, the research carried out in this thesis aimed at: 1) estimate, and validate canopy heights using raw data from airborne LiDAR and then evaluate the potential of spaceborne LiDAR GLAS data at estimating forest canopy heights. 2) evaluate the fusion potential of LiDAR (using either sapceborne and airborne data) and ancillary data for forest canopy height estimation at very large scales. This research work was carried out over the French Guiana.The estimation of the canopy heights using the airborne showed an RMSE on the canopy height estimates of 1.6 m. Next, the potential of GLAS for the estimation of canopy heights was assessed using multiple linear (ML) and Random Forest (RF) regressions using waveform metrics and principal component analssis (PCA). Results showed canopy height estimations with similar precisions using either LiDAR metrics or the principal components (PCs) (RMSE ~ 3.6 m). However, a regression model (ML or RF) based on the PCA of waveform samples is an interesting alternative for canopy height estimation as it does not require the extraction of some metrics from LiDAR waveforms that are in general difficult to derive in dense forests, such as those in French Guiana. Next, canopy heights extracted from both airborne and spaceborne LiDAR were first used to map canopy heights from available mapped environmental data (geological, meteorological, slope, vegetation indices etc.). Results showed an RMSE on the canopy height estimates of 6.5 m from the GLAS dataset and of 5.8 m from the airborne LiDAR dataset. Then, in order to improve the precision of the canopy height estimates, regression-kriging (kriging of random forest regression residuals) was used. Results indicated a decrease in the RMSE from 6.5 to 4.2 m for the regression-kriging maps from the GLAS dataset, and from 5.8 to 1.8 m for the regression-kriging map from the airborne LiDAR dataset. Finally, in order to study the impact of the spatial sampling of future LiDAR missions on the precision of canopy height estimates, six subsets were derived from the airborne LiDAR dataset with flight line spacing of 5, 10, 20, 30, 40 and 50 km (corresponding to 0.29, 0.11, 0.08, 0.05, 0.04, and 0.03 points/km², respectively). Results indicated that using the regression-kriging approach, the precision on the canopy height map was 1.8 m with flight line spacing of 5 km and decreased to an RMSE of 4.8 m for the configuration for the 50 km flight line spacing

APA, Harvard, Vancouver, ISO, and other styles

16

Seck, Djamal. "Arbres de décisions symboliques, outils de validations et d'aide à l'interprétation." Thesis, Paris 9, 2012. http://www.theses.fr/2012PA090067.

Full text

Abstract:

Nous proposons dans cette thèse la méthode STREE de construction d'arbres de décision avec des données symboliques. Ce type de données permet de caractériser des individus de niveau supérieur qui peuvent être des classes ou catégories d’individus ou des concepts au sens des treillis de Galois. Les valeurs des variables, appelées variables symboliques, peuvent être des ensembles, des intervalles ou des histogrammes. Le critère de partitionnement récursif est une combinaison d'un critère par rapport aux variables explicatives et d'un critère par rapport à la variable à expliquer. Le premier critère est la variation de la variance des variables explicatives. Quand il est appliqué seul, STREE correspond à une méthode descendante de classification non supervisée. Le second critère permet de construire un arbre de décision. Il s'agit de la variation de l'indice de Gini si la variable à expliquer est nominale et de la variation de la variance si la variable à expliquer est continue ou bien est une variable symbolique. Les données classiques sont un cas particulier de données symboliques sur lesquelles STREE peut aussi obtenir de bons résultats. Il en ressort de bonnes performances sur plusieurs jeux de données UCI par rapport à des méthodes classiques de Data Mining telles que CART, C4.5, Naive Bayes, KNN, MLP et SVM. STREE permet également la construction d'ensembles d'arbres de décision symboliques soit par bagging soit par boosting. L'utilisation de tels ensembles a pour but de pallier les insuffisances liées aux arbres de décisions eux-mêmes et d'obtenir une décision finale qui est en principe plus fiable que celle obtenue à partir d'un arbre unique
In this thesis, we propose the STREE methodology for the construction of decision trees with symbolic data. This data type allows us to characterize individuals of higher levels which may be classes or categories of individuals or concepts within the meaning of the Galois lattice. The values of the variables, called symbolic variables, may be sets, intervals or histograms. The criterion of recursive partitioning is a combination of a criterion related to the explanatory variables and a criterion related to the dependant variable. The first criterion is the variation of the variance of the explanatory variables. When it is applied alone, STREE acts as a top-down clustering methodology. The second criterion enables us to build a decision tree. This criteron is expressed as the variation of the Gini index if the dependant variable is nominal, and as the variation of the variance if thedependant variable is continuous or is a symbolic variable. Conventional data are a special case of symbolic data on which STREE can also get good results. It has performed well on multiple sets of UCI data compared to conventional methodologies of Data Mining such as CART, C4.5, Naive Bayes, KNN, MLP and SVM. The STREE methodology also allows for the construction of ensembles of symbolic decision trees either by bagging or by boosting. The use of such ensembles is designed to overcome shortcomings related to the decisions trees themselves and to obtain a finaldecision that is in principle more reliable than that obtained from a single tree

APA, Harvard, Vancouver, ISO, and other styles

17

Tallieu, Clara. "État sanitaire et croissance radiale des arbres : Analyse spatiale et temporelle des données du réseau systématique de suivi des dommages forestiers." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0185.

Full text

Abstract:

Depuis 30 ans, les mesures annuelles de déficit foliaire des arbres sur la partie française du réseau européen de suivi des dommages forestiers (ICP Forests, niveau 1), constituent la base du suivi de l’état de santé des forêts. Pourtant, l’utilisation du déficit foliaire comme indicateur de l’état de santé de l’arbre est régulièrement remise en cause pour des raisons méthodologiques mais aussi en raison du manque de connaissances sur le déterminisme du déficit foliaire et de son impact fonctionnel sur l’arbre. Dans ce contexte, au travers des notations de déficit foliaire de 9 essences (feuillues et résineuses) réparties sur plus de 300 placettes en France, nous avons 1) décrit et interprété les variations spatiales et interannuelles de déficit foliaire, en plus de 2) discuté de l’utilisation du déficit foliaire comme indicateur de l’état sanitaire des arbres à partir de l’analyse conjointe des variations interannuelles de déficit foliaire et de croissance radiale. L’analyse des variations géographiques du déficit foliaire a montré de multiples relations avec les facteurs édaphiques et climatiques, mais avec un pouvoir explicatif relativement modéré. L’analyse des variations interannuelles de déficit foliaire a permis de confirmer que les facteurs climatiques de l'année précédente contrôlent les variations interannuelles de déficit foliaire. Cependant, comparativement à la croissance radiale, le déficit foliaire présente une réponse au climat moins dynamique et peu cohérente entre arbres d’une même placette. L’analyse conjointe des deux signaux a montré l’existence d’un lien ténu entre la croissance et le déficit foliaire. Nous avons pu mettre en évidence une diminution de la croissance de l’arbre dans le cas de déficit foliaires importants lors d’années d’aléas climatiques extrêmes (sec ou froid). Cependant, l’introduction du déficit foliaire en tant que prédicteur de la croissance radiale n’a eu que peu ou pas d’effet significatif pour le hêtre et le sapin. Enfin, la mise en évidence de l’influence majeure de l’âge sur la notation du déficit foliaire empêche l’interprétation de déficit foliaire brut comme indicateur de la santé de l’arbre
For the past 30 years, annual visual assessments of crown condition, on the French part of the transnational monitoring network (ICP Forests, level 1), was essential for monitoring forest health. However, the use of crown condition as an indicator of tree health is regularly questioned for methodological reasons but also because of the lack of knowledge on the determinism of crown condition and its functional impact on the tree. In this context, and through the records of 9 tree species’ crown condition (deciduous and coniferous) spread over more than 300 plots in France, we have 1) described and interpreted the spatial and inter-annual variations of leaf loss, in addition to 2) discussing the use of crown condition as an indicator of tree health status based on the joint analysis of inter-annual variations of leaf loss and radial growth. The analysis of spatial variations in crown condition between plots showed multiple relationships with edaphic and climatic factors, but with relatively moderate explanatory power. The study of inter-annual variations in crown condition confirmed that the climatic factors of the previous year control crown condition of the current year. However, compared to radial growth, crown condition presents a less dynamic and inconsistent response to climate between trees in the same plot. The joint analysis of the two signals showed the existence of a weak link between growth and crown condition. We only observed a decrease in tree growth in the case of important leaf loss during years of extreme climatic hazards (dry or cold). However, the introduction of leaf loss as a predictor of radial growth had little or no significant effect for beech and fir. Finally, the evidence of the major influence of age on leaf loss precludes the interpretation of raw crown condition as an indicator of tree health

APA, Harvard, Vancouver, ISO, and other styles

18

Daniel-Vatonne, Marie-Christine. "Les termes : un modèle de représentation et structuration de données symboliques." Montpellier 2, 1993. http://www.theses.fr/1993MON20031.

Full text

Abstract:

Nos travaux se situent dans le cadre de l'analyse conceptuelle des donnees. Notre objectif est de generaliser les representations par variables binaires ou nominales en y adjoignant la modelisation de structures internes. Le probleme est de ne pas perdre en complexite algorithmique ce qui est gagne en puissance de representation. Selon ces considerations, decrire les donnees et les classes de donnees par des structures arborescentes est un bon compromis. Le systeme de representation que nous proposons s'appuie sur un modele algebrique: les magmas. Il permet de construire des termes assimilables a des arborescences finies, etiquetees et typees. Leur interpretation est intuitive et ils autorisent les descriptions recursives. Une relation d'ordre naturel, la generalisation, induit un treillis sur les termes. Nous etudions ce treillis et montrons qu'il possede des proprietes proches de celles d'un treillis booleen. En particulier, nous montrons que l'on peut construire un treillis de galois mettant en correspondance des ensembles d'objets et leur description par des termes

APA, Harvard, Vancouver, ISO, and other styles

19

Tournier, Nicolas. "Synchronisation pour l'insertion de données dans des maillages 3D." Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20221/document.

Full text

Abstract:

De nos jours la protection des données numériques est un problème très important. Que ce soit pour des applications de confidentialité, de communication, de traçabilité ou d'identification par exemple, il est nécessaire de développer des techniques adaptées. Dans le cadre de cette thèse en collaboration avec la société STRATEGIES S.A., la méthode choisie pour la protection de maillages 3D est l'insertion de données cachées, également appelée tatouage numérique. Pour des données 3D, un des problèmes les plus importants est la phase de synchronisation qui intervient dans les algorithmes d'insertion et d'extraction des données. Cette phase permet de repérer, de sélectionner et d'ordonner les « zones » qui sont privilégiées pour la dissimulation d'information. Nous avons choisi d'orienter le manuscrit sur cette phase. Ainsi, nous proposons une classification des méthodes de tatouages en fonction de leur méthode de synchronisation. Puis en se basant sur des techniques de synchronisation par des structures de données, telle que les arbres couvrants de poids minimum, nous proposons une analyse théorique de cette structure. Dans un premier temps nous expliquons les raisons de la sensibilité des arbres à la mobilité des points. Puis connaissant ses faiblesses, nous proposons une autre technique de synchronisation toujours basée sur les arbres couvrants de poids minimum
Data security is one of the main issue in computer science. We need to develop solutions for confidentiality, communication, fingerprinting or identification applications for exemple. In this thesis made with STRATEGIES S.A., the chosen method to protect 3D meshes is watermarking.Watermarking is divided in two steps, the embedding and the extraction. In both of them a synchronization phase is needed. It is one of the most important step for 3D mesh because it permits to look for areas available to embed information, and order them. All the thesis is devoted to the synchronization step. First of all, we propose a classification of watermarking techniques based on the type of synchronization method instead of evaluation criterions such as robustness or capacity.Then, from methods based on Euclidean minimum spanning tree, we propose a theoritical analysis of the mobility of the vertices in that kind of structure. First, we explain the reasons of the sensibility of the structure. Secondly, we propose another scheme based on the Euclidean minimum spanning tree knowing its fragility

APA, Harvard, Vancouver, ISO, and other styles

20

Albert, Isabelle. "Inférence bayesienne par les methodes de Monte Carlo par chaînes de Markov et arbres de régression pour l'analyse statistique des données corrélées." Paris 11, 1998. http://www.theses.fr/1998PA11T020.

Full text

Abstract:

L’analyse statistique des données corrélées permet l'étude des schémas d'échantillonnage comportan une structure de groupe. Les modèles marginaux et à effets mixtes, qui constituent des extensions des modèles linéaires généralisés, ont été proposés dans ce contexte pour prendre en compte la non indépendance des observations. Nous considérons deux approches : une inférence bayésienne des modèles à effets mixtes par les méthodes de Monte Carlo par chaînes de Markov (MCMC) et une méthode de régression arborescente (CART) pour l'analyse des données censurées corrélées. La première partie est consacrée à l'étude de l’approche bayésienne par les méthodes MCMC. Les principes de l'inférence bayésienne, des méthodes MCMC et leurs apports lors des étapes-clés d'une analyse de régression (estimation, comparaison, adéquation des modèles et étude de prédiction) sont étudiés. Cette méthode d'estimation est utilisée pour l'étude des accidents allergiques survenant au cours d'échanges plasmatiques. Nous proposons dans la seconde partie une nouvelle méthode de type CART pour l'analyse des données censurées corrélées. Cette méthode utilise des tests du log-rank robustes à une spécification inadéquate de la structure de corrélation des données, et un critère BIC corrigé pour le choix de l'arbre final. La méthode développée a été étudiée par simulation et appliquée à des données réelles concernant une maladie génétique, le Syndrome d'Alport.

APA, Harvard, Vancouver, ISO, and other styles

21

Syla, Burhan. "Relais de perte de synchronisme par exploration de données." Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/29102/29102.pdf.

Full text

Abstract:

Le but de ce document est de vérifier la faisabilité d’un relais de protection de synchronisme en utilisant la fouille de données et les arbres de décisions. En utilisant EMTP-RV, 180 simulations ont été effectuées sur le réseau Anderson en variant l’endroit auquel survient le court-circuit, la durée, le type, ainsi que le load-flow. Pour chacune de ces simulations, 39 mesures électriques ainsi que huit mesures mécaniques sont sauvegardées. Ces simulations sont ensuite classées stables et instables en utilisant le centre d’inertie d’angle et de vitesse. Trente-trois nouvelles autres variables sont déduites des 39 premières et sont ajoutées en utilisant MATLAB. Avec le logiciel KNIME, les arbres de décision de type C4.5, CART, ADABoost, ADTree et les forêts aléatoires sont modélisées et leurs performances en fonction de la période d’échantillonnage sont comparées. Une réduction de variable par filtre de type Consistency Subset Eval, Symmetrical Uncert Attribute Set Eval et Correlation-based Feature Subset Selection est ensuite appliquée. Les simulations sont visualisées en utilisant l’ensemble de validation. Les résultats montrent que l’utilisation d’une fréquence de 240 [Hz] et 28 variables est suffisante pour obtenir, en moyenne, une aire sous la courbe de 0.9591 pour l’ensemble de test et de validation des 4 générateurs.
The goal of this document is to verify the feasability of an out-of-step relay using data mining and decision trees. Using EMTP-RV and the Anderson network, 180 simulations were done while changing the place of the short circuit, the length, the type and the load-flow. For these simulations, 39 electrical measures and 8 mechanical measures were made. These simulations were then classified as stable or instable using the center of inertia of angle and speed. With MATLAB, 33 new other variables were created by using the first 39, and then with KNIME, decisions trees such as C4.5, CART, ADABoost, ADTree and random forest were simulated and the sampling time versus the performances were compared. Using Consistency Subset Eval, Symmetrical Uncert Attribute Set Eval and Correlation-based Feature Subset Selection, the features were reduced and the simulations were visualised using the validation set. Results show that with a sampling frequency of 240 [Hz] and 28 variables is enough to obtain a mean area under the curve of 0.9591 for the training and the validation set of the 4 generators.

APA, Harvard, Vancouver, ISO, and other styles

22

Gardy, Danièle. "Bases de données, allocations aléatoires : quelques analyses de performances." Paris 11, 1989. http://www.theses.fr/1989PA112221.

Full text

Abstract:

Cette thèse est consacrée à l'étude de divers paramètres des tiques, entre autres des bases de données, qui ont pour point commun de se prêter naturellement à une modélisation en termes de phénomènes d'allocation aléatoire. Leur étude utilise les techniques classiques de l'analyse en moyenne des algorithmes, à savoir les séries génératrices et l'approximation asymptotique de leurs cœfficients. Le problème initialement posé concerne l'étude des tailles de relations dérivées dans l’algèbre relationnelle. Il admet une modélisation en termes de problèmes probabilistes d’allocation aléatoire, du type "modèles d'urnes". Nous donnons des résultats sur les lois de probabilité conditionnelles des tailles de relations obtenues par application des opérateurs de projection et jointure à une ou plusieurs relations de taille connue. En particulier, nous obtenons divers théorèmes sur les distributions limites de ces tailles, et montrons que, sous des hypothèses assez peu contraignantes, ces distributions limites sont fréquemment normales. Une extension naturelle est ensuite de regarder comment implémenter les relations "logiques", définies à un niveau abstrait ; nous étudions ici les arbres multi-attributs ou doublement chaînés. Les mêmes méthodes permettent enfin de traiter certains phénomènes d'allocation aléatoire de caractère plus dynamique, par exemple le classique "paradoxe des anniversaires" (qui modélise la fréquence d'apparition des collisions dans une table de hachage) ou l'algorithme de gestion mémoire "Least Recently Used"
This thesis is devoted to the analysis of some parameters of interest for estimating the performance of computer systems, most notably database systems. The unifying features are the description of the phenomena to be studied in terms of random allocations and the systematic use of methods from the average-case analysis of algorithms. We associate a generating function with each parameter of interest, which we use to derive an asymptotic expression of this parameter. The main problem studied in this work is the estimation of the sizes of derived relations in a relational database framework. We show that this is closely related to the so-called "occupancy problem" in urn models, a classical tool of discrete probability theory. We characterize the conditional distribution of the size of a relation derived from relations whose sizes are known, and give conditions which ensure the a. Symptotic normality of the limiting distribution. We next study the implementation of "logical" relations by multi-attribute or doubly chained trees, for which we give results on the complexity of a random orthogonal range query. Finally, we study some "dynamic" random allocation phenomena, such as the birthday problem, which models the occurrence of collisions in hashing, and a model of the Least Recently Used cache memory algorithm

APA, Harvard, Vancouver, ISO, and other styles

23

Verma, Kumar Neeraj. "Automates d'arbres bidirectionnels modulo théories équationnelles." Cachan, Ecole normale supérieure, 2003. http://www.theses.fr/2003DENS0027.

Full text

APA, Harvard, Vancouver, ISO, and other styles

24

Blin, Lélia. "K-partionnement de graphes du séquentiel au distribué." Paris 8, 2001. http://www.theses.fr/2001PA081993.

Full text

Abstract:

Nous présentons ici un travail sur le k-partitionnement. Ce domaine a été largement étudié depuis le premier article de Kernighan et Lin [KL70] en 1970. Le problème du k-partitionnement est un problème classique de la théorie des graphes, dont les applications pratiques sont multiples, avec par exemple, la décomposition en domaines des réseaux de communications, pour la conception des circuits VLSI, pour l'exploitation de données. La difficulté de résolution du problème de k-partitionnement vient pour l'essentiel du fait que l'espace des solutions n'est pas convexe et présente par conséquent des optima locaux. Nos solutions à ce problème se basent sur la construction d'arbres couvrants de poids maximum. La procédure ascendante procède par agrégat de fragments. Au départ, chaque noeud forme à lui seul un tel fragment. Par conséquent, la fonction poids d'un fragment étant convexe (c'est une somme d'entiers naturels), on est fondé à optimiser "à la marge". . .

APA, Harvard, Vancouver, ISO, and other styles

25

Tusa, jumbo Eduardo Alejandro. "Apport de la fusion LiDAR - hyperspectral pour la caractérisation géométrique et radiométrique des arbres." Thesis, Université Grenoble Alpes, 2020. https://tel.archives-ouvertes.fr/tel-03212453.

Full text

Abstract:

Les forêts de montagne fournissent des services écosystémiques environnementaux (SEE) aux communautés: fourniture de paysages récréatifs, protection contre les risques naturels, soutien à la conservation de la biodiversité, entre autres. La préservation de ces SEE dans l'espace et dans le temps nécessite une bonne caractérisation des ressources. Surtout en montagne, les peuplements sont très hétérogènes et la récolte du bois est économiquement possible grâce à des arbres de plus grande valeur. C'est pourquoi nous voulons pouvoir cartographier chaque arbre et estimer ses caractéristiques, dont la qualité, qui est liée à sa forme et ses conditions de croissance. Les inventaires de terrain ne sont pas en mesure de fournir une couverture mur à mur d'informations détaillées au niveau des arbres à grande échelle. D'un autre côté, les outils de télédétection semblent être une technologie prometteuse en raison de la rapidité et des coûts abordables pour l'étude des zones forestières. Les données LiDAR fournissent des informations détaillées sur la distribution verticale et l'emplacement des arbres, mais elles sont limitées pour la cartographie des espèces. Les données hyperspectrales sont associées aux caractéristiques d'absorption dans le spectre de réflectance du couvert, mais ne sont pas efficaces pour caractériser la géométrie des arbres. Les systèmes hyperspectraux et LiDAR fournissent des données indépendantes et complémentaires qui sont pertinentes pour l'évaluation des attributs biophysiques et biochimiques des zones forestières. Cette thèse de doctorat porte sur la fusion de LiDAR et de données hyperspectrales pour caractériser les arbres forestiers individuels. L'idée maîtresse est d'améliorer les méthodes pour obtenir des informations forestières au niveau de l'arbre en extrayant des caractéristiques géométriques et radiométriques. Les contributions de ce travail de recherche reposent sur: i) un examen mis à jour des méthodes de fusion de données de LiDAR et des données hyperspectrales pour la surveillance des forêts, ii) un algorithme de segmentation 3D amélioré pour délimiter les couronnes d'arbres individuelles basé sur Adaptive Mean Shift (AMS3D) et un ellipsoïde modèle de forme de couronne, iii) un critère de sélection des caractéristiques basé sur le score aléatoire des forêts, cross-validation à 5 folds et une fonction d'erreur cumulative pour la classification des espèces d'arbres forestiers. Les deux principales méthodes utilisées pour obtenir des informations forestières au niveau des arbres sont testées avec des données de télédétection acquises dans les Alpes françaises
Mountain forests provide environmental ecosystem services (EES) to communities: supplying of recreational landscapes, protection against natural hazards, supporting biodiversity conservation, among others. The preservation of these EES through space and time requires a good characterization of the resources. Especially in mountains, stands are very heterogeneous and timber harvesting is economically possible thanks to trees of higher value. This is why we want to be able to map each tree and estimate its characteristics, including quality, which is related to its shape and growth conditions. Field inventories are not able to provide a wall to wall cover of detailed tree-level information on a large scale. On the other hand, remote sensing tools seem to be a promising technology because of the time efficient and the affordable costs for studying forest areas. LiDAR data provide detailed information from the vertical distribution and location of the trees, but it is limited for mapping species. Hyperspectral data are associated to absorption features in the canopy reflectance spectrum, but is not effective for characterizing tree geometry. Hyperspectral and LiDAR systems provide independent and complementary data that are relevant for the assessment of biophysical and biochemical attributes of forest areas. This PhD thesis deals with the fusion of LiDAR and hyperspectral data to characterize individual forest trees. The leading idea is to improve methods to derive forest information at tree-level by extracting geometric and radiometric features. The contributions of this research work relies on: i) an updated review of data fusion methods of LiDAR and hyperspectral data for forest monitoring, ii) an improved 3D segmentation algorithm for delineating individual tree crowns based on Adaptive Mean Shift (AMS3D) and an ellipsoid crown shape model, iii) a criterion for feature selection based on random forests score, $5$-fold cross validation and a cumulative error function for forest tree species classification. The two main methods used to derive forest information at tree level are tested with remote sensing data acquired in the French Alps

APA, Harvard, Vancouver, ISO, and other styles

26

Del, Razo Lopez Federico. "Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00203608.

Full text

Abstract:

La recherche de structures arborescentes fréquentes, également appelée fouille d'arbres, au sein de bases de données composées de documents semi-structurés (e.g. XML) est une problématique actuellement très active. Ce processus trouve de nombreux intérêts dans le contexte de la fouille de données comme par exemple la construction automatique d'un schéma médiateur à partir de schémas XML, ou bien l'analyse des structures des sites Web afin d'étudier son usage ou modifier son contenu.

L'objectif de cette thèse est de proposer une méthode d'extraction d'arborescences fréquentes. Cette approche est basée sur une représentation compacte des arborescences cherchant à diminuer la consommation de mémoire dans le processus de fouille. En particulier, nous présentons une nouvelle technique de génération d'arborescences candidates visant à réduire leur nombre. Par ailleurs, nous proposons différents algorithmes pour valider le support des arborescences candidates dans une base de données selon divers types de contraintes d'inclusion d'arbres : induite, incrustée et floue. Finalement nous appliquons nos algorithmes à des jeux de données synthétiques et réels et nous présentons les résultats obtenus.

APA, Harvard, Vancouver, ISO, and other styles

27

Jabiri, Fouad. "Applications de méthodes de classification non supervisées à la détection d'anomalies." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67914.

Full text

Abstract:

Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux.
In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.

APA, Harvard, Vancouver, ISO, and other styles

28

Amri, Anis. "Autour de quelques statistiques sur les arbres binaires de recherche et sur les automates déterministes." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0301.

Full text

Abstract:

Cette thèse comporte deux parties indépendantes. Dans la première partie, nous nous intéressons à l’analyse asymptotique de quelques statistiques sur les arbres binaires de recherche (ABR). Dans la deuxième partie, nous nous intéressons à l’étude du problème du collectionneur de coupons impatient. Dans la première partie, en suivant le modèle introduit par Aguech, Lasmar et Mahmoud [Probab. Engrg. Inform. Sci. 21 (2007) 133—141], on définit la profondeur pondérée d’un nœud dans un arbre binaire enraciné étiqueté comme la somme de toutes les clés sur le chemin qui relie ce nœud à la racine. Nous analysons alors dans ABR, les profondeurs pondérées des nœuds avec des clés données, le dernier nœud inséré, les nœuds ordonnés selon le processus de recherche en profondeur, la profondeur pondérée des trajets, l’indice de Wiener pondéré et les profondeurs pondérées des nœuds avec au plus un enfant. Dans la deuxième partie, nous étudions la forme asymptotique de la courbe de la complétion de la collection conditionnée à T_n≤ (1+Λ), Λ>0, où T_n≃n ln⁡n désigne le temps nécessaire pour compléter la collection. Puis, en tant qu’application, nous étudions les automates déterministes et accessibles et nous fournissons une nouvelle dérivation d’une formule due à Korsunov [Kor78, Kor86]
This Phd thesis is divided into two independent parts. In the first part, we provide an asymptotic analysis of some statistics on the binary search tree. In the second part, we study the coupon collector problem with a constraint. In the first part, following the model introduced by Aguech, Lasmar and Mahmoud [Probab. Engrg. Inform. Sci. 21 (2007) 133—141], the weighted depth of a node in a labelled rooted tree is the sum of all labels on the path connecting the node to the root. We analyze the following statistics : the weighted depths of nodes with given labels, the last inserted node, nodes ordered as visited by the depth first search procees, the weighted path length, the weighted Wiener index and the weighted depths of nodes with at most one child in a random binary search tree. In the second part, we study the asymptotic shape of the completion curve of the collection conditioned to T_n≤ (1+Λ), Λ>0, where T_n≃n ln⁡n is the time needed to complete accessible automata, we provide a new derivation of a formula due to Korsunov [Kor78, Kor86]

APA, Harvard, Vancouver, ISO, and other styles

29

Gauwin, Olivier. "Flux XML, Requêtes XPath et Automates." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. http://tel.archives-ouvertes.fr/tel-00421911.

Full text

Abstract:

Ces dernières années, XML est devenu le format standard pour l'échange de données. Les documents XML sont généralement produits à partir de bases de données, durant le traitement de documents, ou au sein d'applications Web. L'échange de données en flux est fréquemment utilisé lors de l'envoi de données volumineuses par le réseau. Ainsi le transfert par flux est adéquat pour de nombreux traitements XML.

Dans cette thèse, nous étudions des algorithmes d'évaluation de requêtes sur des flux XML. Notre objectif est de gérer efficacement la mémoire, afin de pouvoir évaluer des requêtes sur des données volumineuses, tout en utilisant peu de mémoire. Cette tâche s'avère complexe, et nécessite des restrictions importantes sur les langages de requêtes. Nous étudions donc les requêtes définies par des automates déterministes ou par des fragments du standard W3C XPath, plutôt que par des langages plus puissants comme les standards W3C XQuery et XSLT.

Nous définissons tout d'abord les Streaming Tree Automata (STAs), qui opèrent sur les arbres d'arité non bornée dans l'ordre du document. Nous prouvons qu'ils sont équivalents aux Nested Word Automata et aux Pushdown Forest Automata. Nous élaborons ensuite un algorithme d'évaluation au plus tôt, pour les requêtes définies par des STAs déterministes. Bien qu'il ne stocke que les candidats nécessaires, cet algorithme est en temps polynomial à chaque événement du flux, et pour chaque candidat. Par conséquent, nous obtenons des résultats positifs pour l'évaluation en flux des requêtes définies par des STAs déterministes. Nous mesurons une telle adéquation d'un langage de requêtes à une évaluation en flux via un nouveau modèle de machines, appelées Streaming Random Access Machines (SRAMs), et via une mesure du nombre de candidats simultanément vivants, appelé concurrence. Nous montrons également qu'il peut être décidé en temps polynomial si la concurrence d'une requête définie par un STA déterministe est bornée. Notre preuve est basée sur une réduction au problème de la valuation bornée des relations reconnaissables d'arbres.

Concernant le standard W3C XPath, nous montrons que même de petits fragments syntaxiques ne sont pas adaptés à une évaluation en flux, sauf si P=NP. Les difficultés proviennent du non-déterminisme de ce langage, ainsi que du nombre de conjonctions et de disjonctions. Nous définissons des fragments de Forward XPath qui évitent ces problèmes, et prouvons, par compilation vers les STAs déterministes en temps polynomial, qu'ils sont adaptés à une évaluation en flux.

APA, Harvard, Vancouver, ISO, and other styles

30

Hawarah, Lamis. "Une approche probabiliste pour le classement d'objets incomplètement connus dans un arbre de décision." Phd thesis, Université Joseph Fourier (Grenoble), 2008. http://tel.archives-ouvertes.fr/tel-00335313.

Full text

Abstract:

Nous présentons dans cette thèse une approche probabiliste pour déterminer les valeurs manquantes des objets incomplets pendant leur classement dans les arbres de décision. Cette approche est dérivée de la méthode d'apprentissage supervisé appelée Arbres d'Attributs Ordonnées (AAO) proposée par Lobo et Numao en 2000, qui construit un arbre de décision pour chacun des attributs, selon un ordre croissant en fonction de l'Information Mutuelle entre chaque attribut et la classe. Notre approche étend la méthode de Lobo et Numao, d'une part en prenant en compte les dépendances entre les attributs pour la construction des arbres d'attributs, et d'autre part en fournissant un résultat de classement d'un objet incomplet sous la forme d'une distribution de probabilités (au lieu de la classe la plus probable).
Nous expliquons notre méthode et nous la testons sur des bases de données réelles. Nous comparons nos résultats avec ceux donnés par la méthode C4.5 et AAO.

Nous proposons également un algorithme basé sur la méthode des k plus proches voisins qui calcule pour chaque objet de la base de test sa fréquence dans la base d'apprentissage. Nous comparons ces fréquences avec les résultats de classement données par notre approche, C4.5 et AAO. Finalement, nous calculons la complexité de construction des arbres d'attributs ainsi que la complexité de classement d'un objet incomplet en utilisant notre approche, C4.5 et AAO.

APA, Harvard, Vancouver, ISO, and other styles

31

Nguyen, Kim. "Langage de combinateurs pour XML : conception, typage, implantation." Paris 11, 2008. http://www.theses.fr/2008PA112071.

Full text

Abstract:

Cette thèse détaille l'étude théorique et pratique d'un langage de combinateurs pour XML. Les documents XML, standard de fait permettant de représenter des données hétérogènes de manière structurée et uniforme de manière à ce qu'elles soient réutilisable par plusieurs programmes, sont traditionnellement manipulés par des langages généralistes (JAVA, C,. . . ). Parallèlement à ces langages généralistes existent des langages spécialisés, dont le seul but est le traitement de document XML (récupération d'information dans un document, transformation d'un format de document vers un autre. . . ). On s'intéresse plus particulièrement aux langages spécialisés à typage statique. En effet, il est possible de spécifié précisément la « forme » d'un document XML (balises qu'il contient, ordre,. . . ) au moyen d'un schéma. Les langages statiquement typés effectuent une analyse statique du code du programme pour vérifier qu'aucune opération ne viole les contraintes spécifiées dans le schéma d'un document traité. L'analyse est dites statique en cela qu'elle ne repose que sur le code du programme et non sur des exemples de documents ou d'informations disponibles lors de l'exécution du programme. Cette thèse présente les fondements théoriques d'un langage de manipulation de document XML, typé statiquement. Elle propose aussi une implantation ainsi qu'une étude de son utilisation en pratique. Elle présente aussi plusieurs cas d'utilisation du typage statique pour l'optimisation d'opérations sur les documents XML (transformation, chargement en mémoire. . . )
This thesis details the theoretical and practical study of a language of combinators for XML. XML documents, which are a de facto standard used to represent heterogeneous data in a structured and generic way so that they can be easily shared by many programs, are usually manipulated by all-purpose languages (JAVA, C,. . . ). Alongside these languages, one finds specialised languages, designs specifically to deal with XML documents (retrieving information from a document, transforming from a document format to another. . . ). We focus on statically typed languages. It is indeed possible to specify the ''shape'' of a document (sets of tags, order,. . . ) by the mean of a schema. Statically typed languages perform a static analysis of the source code of the program to ensure that every operation is valid with respect to the schema of a processed document. The analysis is said to be static because it only relies on the source code of the program, not on any runtime information or document sample. This thesis presents the theoretical foundations of a language for manipulating XML documents, in a statically typed way. It also features a practical study as well as an implementation of the formal language. Lastly, it presents many use case of type based optimisation in the context of XML processing (transformation, loading of a document in memory. . . )

APA, Harvard, Vancouver, ISO, and other styles

32

Tchougong, Ngongang Rodrigue. "Grammaires attribuées comme transducteurs d'arbres et leur composition descriptionnelle." Rennes 1, 2012. http://www.theses.fr/2012REN1S006.

Full text

Abstract:

Attribute coupled grammars and their descriptional composition were advocated by Ganzinger and Giegerich as a modular variant of attribute grammars, a model of syntax-directed semantics orginally introduced by Knuth. Descriptional composition has been related to various techniques of program optimization, in particular to "deforestation", a technique for eliminating intermediate data structures in function composition, In this work, we present a higher-order functional approach to attribute evaluation w. R. T. An attribute grammar based on local dependencies of the synthezised attributes on inherited attributes described by functions. This higher-order functional approach leads to efficient implementations in a higher-order lazy functional language like Haskell, but it fails to achieve deforestation. We present an alternative first-order functional interpretation of attribute grammars where the input tree is replaced by an extended cyclic tree corresponding to cyclic representations of zippers (trees with their context). Then we show that, up to that representation, descriptional composition reduces to the composition of trees transducers
Les grammaires attribuées introduites à l'origine par Knuth pour décrire les sémantiques dirigées parla syntaxe ont été présentées de façon modulaire par Ganzinger et Giegerich sous la forme de grammaires couplées par attributs. La composition de ces grammaires, appelée composition descriptionnelle, s'apparente aux techniques d'optimisation des programmes fonctionnels, telles que la déforestation qui consiste à éliminer des structures de données intermédiaires lors de la composition des fonctions. Dans ce travail, nous présentons une approche fonctionnelle d'ordre supérieure pour l'évaluation des attributs basée sur les dépendances locales entre les attributs synthétisés et les attributs hérités. Cette traduction, de nature non syntaxique et à ce titre non compatible avec les techniques de déforestation, procure néanmoins une implémentation directe des grammaires attribuées dans un langage fonctionnel paresseux d'ordre supérieur. Nous présentons alternativement une traduction fonctionnelle du premier ordre dans laquelle l'arbre d'entrée et son contexte sont représentés simultanéement par un arbre sur une signature étendue. Nous montrons que la composition descriptionnelle des grammaires attribuées se ramène, par cette traduction, en une simple composition de transducteurs d'arbres

APA, Harvard, Vancouver, ISO, and other styles

33

Mondal, Kartick Chandra. "Algorithmes pour la fouille de données et la bio-informatique." Thesis, Nice, 2013. http://www.theses.fr/2013NICE4049.

Full text

Abstract:

L'extraction de règles d'association et de bi-clusters sont deux techniques de fouille de données complémentaires majeures, notamment pour l'intégration de connaissances. Ces techniques sont utilisées dans de nombreux domaines, mais aucune approche permettant de les unifier n'a été proposée. Hors, réaliser ces extractions indépendamment pose les problèmes des ressources nécessaires (mémoire, temps d'exécution et accès aux données) et de l'unification des résultats. Nous proposons une approche originale pour extraire différentes catégories de modèles de connaissances tout en utilisant un minimum de ressources. Cette approche est basée sur la théorie des ensembles fermés et utilise une nouvelle structure de données pour extraire des représentations conceptuelles minimales de règles d'association, bi-clusters et règles de classification. Ces modèles étendent les règles d'association et de classification et les bi-clusters classiques, les listes d'objets supportant chaque modèle et les relations hiérarchiques entre modèles étant également extraits. Cette approche a été appliquée pour l'analyse de données d'interaction protéomiques entre le virus VIH-1 et l'homme. L'analyse de ces interactions entre espèces est un défi majeur récent en bio-informatique. Plusieurs bases de données intégrant des informations hétérogènes sur les interactions et des connaissances biologiques sur les protéines ont été construites. Les résultats expérimentaux montrent que l'approche proposée peut traiter efficacement ces bases de données et que les modèles conceptuels extraits peuvent aider à la compréhension et à l'analyse de la nature des relations entre les protéines interagissant
Knowledge pattern extraction is one of the major topics in the data mining and background knowledge integration domains. Out of several data mining techniques, association rule mining and bi-clustering are two major complementary tasks for these topics. These tasks gained much importance in many domains in recent years. However, no approach was proposed to perform them in one process. This poses the problems of resources required (memory, execution times and data accesses) to perform independent extractions and of the unification of the different results. We propose an original approach for extracting different categories of knowledge patterns while using minimum resources. This approach is based on the frequent closed patterns theoretical framework and uses a novel suffix-tree based data structure to extract conceptual minimal representations of association rules, bi-clusters and classification rules. These patterns extend the classical frameworks of association and classification rules, and bi-clusters as data objects supporting each pattern and hierarchical relationships between patterns are also extracted. This approach was applied to the analysis of HIV-1 and human protein-protein interaction data. Analyzing such inter-species protein interactions is a recent major challenge in computational biology. Databases integrating heterogeneous interaction information and biological background knowledge on proteins have been constructed. Experimental results show that the proposed approach can efficiently process these databases and that extracted conceptual patterns can help the understanding and analysis of the nature of relationships between interacting proteins

APA, Harvard, Vancouver, ISO, and other styles

34

Samuelides, Mathias. "Automates d'arbres à jetons." Phd thesis, Université Paris-Diderot - Paris VII, 2007. http://tel.archives-ouvertes.fr/tel-00255024.

Full text

Abstract:

Le sujet porte sur l'étude de deux modèles d'automates à jetons sur des arbres binaires finis étiquetés par un alphabet fini. Ces automates séquentiels se déplacent le long des arêtes et peuvent utiliser un nombre fixé de jetons pour se repérer dans un arbre. Une discipline de pile est imposé au placement des jetons, de plus, dans le modèle fort un jeton peut être levé à distance alors que dans le modèle faible un jeton peut être levé uniquement s'il est posé sur le n\oe ud courant. Les automates cheminants correspondent au cas des automates d'arbres à 0 jeton. L'étude des automates d'arbres à jetons est motivée par la caractérisation du pouvoir d'expression et de la complexité du langage de requêtes XPATH qui permet de sélectionner des éléments et de définir des chemins dans des documents XML et qui est le noyau de langages de transformation de documents XML tels que XSLT.

Une première contribution a été de prouver que les variantes déterministes des deux modèles d'automates d'arbres à jetons sont fermées par complément. Nous donnons alors une nouvelle présentation de la preuve de la caractérisation du modèle fort des automates d'arbres à jetons qui a été établie par Engelfriet et Hoogeboom.

Une autre contribution a été de montrer que les deux modèles d'automates à jetons sont équivalents, que le pouvoir d'expression des automates d'arbres à jetons augmente avec le nombre de jetons et qu'il n'est pas toujours possible de déterminiser un automate d'arbres cheminant même si on s'autorise à ajouter un nombre fixé de jetons.

Une dernière contribution a été de prouver que les problèmes du vide et de l'inclusion sont n-EXPTIME complets pour les classes d'automates à n jetons avec n supérieur à 1.

APA, Harvard, Vancouver, ISO, and other styles

35

Fournier, Jonathan. "Exploitation de données tridimensionnelles pour la cartographie et l'exploration autonome d'environnements urbains." Thesis, Université Laval, 2007. http://www.theses.ulaval.ca/2007/24421/24421.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

36

Morin, Anne. "Arbres pour donnees multinomiales." Rennes 1, 1989. http://www.theses.fr/1989REN10048.

Full text

Abstract:

Les k valeurs d'une variable dependante qualitative sont generees par une suite d'experiences binomiales ou multinomiales en sequence ou en parallele, independantes, organisees suivant une structure marbre. Chaque observation est caracterisee par des variables independantes x et a chaque nud de l'arbre, la probabilite d'une branche est supposee etre une fonction logistique lineaire de ces variables. Le probleme d'inference est d'identifier la structure en arbre et d'estimer les coefficients de la fonction logistique lineaire, etant donne un echantillon de la variable jointe (y, x). La vraisemblance d'une structure arborescente peut etre calculee comme le produit de vraisemblances a chaque nud. Ces structures en arbre peuvent etre utilisees comme outils de classification bayesienne. Son utilisation dans un probleme de reconnaissance de la parole est proposee

APA, Harvard, Vancouver, ISO, and other styles

37

Saita, Cristian-Augustin. "Groupements d'objets multidimensionnels étendus avec un modèle de coût adaptatif aux requêtes." Versailles-St Quentin en Yvelines, 2006. http://www.theses.fr/2006VERS0007.

Full text

Abstract:

We propose a cost-based query-adaptive clustering solution for multidimensional objects with spatial extents to speed-up execution of spatial range queries (e. G. , intersection, containment). Our work was motivated by the emergence of many SDI applications (Selective Dissemination of Information) bringing out new real challenges for the multidimensional data indexing. Our clustering method aims to meet several application requirements such as scalability (many objects with many dimensions and with spatial extents), search performance (high rates of spatial range queries), update performance (frequent object insertions and deletions), and adaptability (to object and query distributions and to system parameters). In this context, the existing indexing solutions (e. G. , R-trees) do not efficiently cope with most of these requirements. Our object clustering drops many properties of classical tree-based indexing structures (tree height balance, balanced splits, minimum object bounding) in favor of a cost-based clustering strategy. The cost model takes into account the performance characteristics of the execution platform and relies on both data and query distributions to improve the average performance of spatial range queries. Our object clustering is based on grouping spatial objects with similar intervals (positions and extents) in a reduced subset of dimensions, namely the most selective and discriminatory ones relative to the query distribution. The practical relevance of our clustering approach was demonstrated by a series of experiments involving large collections of multidimensional spatial objects and spatial range queries with uniform and skewed distributions
Nous proposons une méthode de groupement en clusters d'objets multidimensionnels étendus, basée sur un modèle de cout adaptatif aux requêtes, pour accélérer l'exécution des requêtes spatiales de type intervalle (e. G. , intersection, inclusion). Notre travail a été motivé par l'émergence de nombreuses applications de dissémination sélective d'informations posant de nouveaux défis au domaine de l'indexation multidimensionnelle. Dans ce contexte, les approches d'indexation existantes (e. G. , R-trees) ne sont pas adaptées aux besoins applicatifs tels que scalabilité (beaucoup d'objets avec des dimensions élevées et des extensions spatiales), performance de recherche (taux élevés de requêtes), performance de mise à jour (insertions et suppressions fréquentes d'objets) et adaptabilité (à la distribution des objets et des requêtes, et aux paramètres systèmes). Dans notre méthode, nous relâchons plusieurs propriétés spécifiques aux structures d'indexation arborescentes classiques (i. E. équilibrage de l'arbre et du partitionnement, englobement minimal des objets) en faveur d'une stratégie de groupement basée sur un modèle de coût adaptatif. Ce modèle de coût tient compte des caractéristiques de la plateforme d'exécution, de la distribution spatiale des objets et surtout de la distribution spatiale des requêtes. Plus précisément, la distribution des requêtes permet de déterminer les dimensions les plus sélectives et discriminantes à utiliser dans le regroupement des objets. Nous avons validé notre approche par des études expérimentales de performance impliquant de grandes collections d'objets et des requêtes d'intervalles avec des distributions uniformes et non-uniformes

APA, Harvard, Vancouver, ISO, and other styles

38

Qureshi, Taimur. "Contributions to decision tree based learning." Thesis, Lyon 2, 2010. http://www.theses.fr/2010LYO20051/document.

Full text

Abstract:

Advances in data collection methods, storage and processing technology are providing a unique challenge and opportunity for automated data learning techniques which aim at producing high-level information, or models, from data. A Typical knowledge discovery process consists of data selection, data preparation, data transformation, data mining and interpretation/validation of the results. Thus, we develop automatic learning techniques which contribute to the data preparation, transformation and mining tasks of knowledge discovery. In doing so, we try to improve the prediction accuracy of the overall learning process. Our work focuses on decision tree based learning and thus, we introduce various preprocessing and transformation techniques such as discretization, fuzzy partitioning and dimensionality reduction to improve this type of learning. However, these techniques can be used in other learning methods e.g. discretization can also be used for naive-bayes classifiers. The data preparation step represents almost 80 percent of the problem and is both time consuming and critical for the quality of modeling. Discretization of continuous features is an important problem that has effects on accuracy, complexity, variance and understandability of the induction models. In this thesis, we propose and develop resampling based aggregation techniques that improve the quality of discretization. Later, we validate by comparing with other discretization techniques and with an optimal partitioning method on 10 benchmark data sets.The second part of our thesis concerns with automatic fuzzy partitioning for soft decision tree induction. Soft or fuzzy decision tree is an extension of the classical crisp tree induction such that fuzzy logic is embedded into the induction process with the effect of more accurate models and reduced variance, but still interpretable and autonomous. We modify the above resampling based partitioning method to generate fuzzy partitions. In addition we propose, develop and validate another fuzzy partitioning method that improves the accuracy of the decision tree.Finally, we adopt a topological learning scheme and perform non-linear dimensionality reduction. We modify an existing manifold learning based technique and see whether it can enhance the predictive power and interpretability of classification
La recherche avancée dans les méthodes d'acquisition de données ainsi que les méthodes de stockage et les technologies d'apprentissage, s'attaquent défi d'automatiser de manière systématique les techniques d'apprentissage de données en vue d'extraire des connaissances valides et utilisables.La procédure de découverte de connaissances s'effectue selon les étapes suivants: la sélection des données, la préparation de ces données, leurs transformation, le fouille de données et finalement l'interprétation et validation des résultats trouvés. Dans ce travail de thèse, nous avons développé des techniques qui contribuent à la préparation et la transformation des données ainsi qu'a des méthodes de fouille des données pour extraire les connaissances. A travers ces travaux, on a essayé d'améliorer l'exactitude de la prédiction durant tout le processus d'apprentissage. Les travaux de cette thèse se basent sur les arbres de décision. On a alors introduit plusieurs approches de prétraitement et des techniques de transformation; comme le discrétisation, le partitionnement flou et la réduction des dimensions afin d'améliorer les performances des arbres de décision. Cependant, ces techniques peuvent être utilisées dans d'autres méthodes d'apprentissage comme la discrétisation qui peut être utilisées pour la classification bayesienne.Dans le processus de fouille de données, la phase de préparation de données occupe généralement 80 percent du temps. En autre, elle est critique pour la qualité de la modélisation. La discrétisation des attributs continus demeure ainsi un problème très important qui affecte la précision, la complexité, la variance et la compréhension des modèles d'induction. Dans cette thèse, nous avons proposes et développé des techniques qui ce basent sur le ré-échantillonnage. Nous avons également étudié d'autres alternatives comme le partitionnement flou pour une induction floue des arbres de décision. Ainsi la logique floue est incorporée dans le processus d'induction pour augmenter la précision des modèles et réduire la variance, en maintenant l'interprétabilité.Finalement, nous adoptons un schéma d'apprentissage topologique qui vise à effectuer une réduction de dimensions non-linéaire. Nous modifions une technique d'apprentissage à base de variété topologiques `manifolds' pour savoir si on peut augmenter la précision et l'interprétabilité de la classification

APA, Harvard, Vancouver, ISO, and other styles

39

Ehrhardt, Adrien. "Formalisation et étude de problématiques de scoring en risque de crédit : inférence de rejet, discrétisation de variables et interactions, arbres de régression logistique." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I051/document.

Full text

Abstract:

Cette thèse se place dans le cadre des modèles d’apprentissage automatique de classification binaire. Le cas d’application est le scoring de risque de crédit. En particulier, les méthodes proposées ainsi que les approches existantes sont illustrées par des données réelles de Crédit Agricole Consumer Finance, acteur majeur en Europe du crédit à la consommation, à l’origine de cette thèse grâce à un financement CIFRE. Premièrement, on s’intéresse à la problématique dite de “réintégration des refusés”. L’objectif est de tirer parti des informations collectées sur les clients refusés, donc par définition sans étiquette connue, quant à leur remboursement de crédit. L’enjeu a été de reformuler cette problématique industrielle classique dans un cadre rigoureux, celui de la modélisation pour données manquantes. Cette approche a permis de donner tout d’abord un nouvel éclairage aux méthodes standards de réintégration, et ensuite de conclure qu’aucune d’entre elles n’était réellement à recommander tant que leur modélisation, lacunaire en l’état, interdisait l’emploi de méthodes de choix de modèles statistiques. Une autre problématique industrielle classique correspond à la discrétisation des variables continues et le regroupement des modalités de variables catégorielles avant toute étape de modélisation. La motivation sous-jacente correspond à des raisons à la fois pratiques (interprétabilité) et théoriques (performance de prédiction). Pour effectuer ces quantifications, des heuristiques, souvent manuelles et chronophages, sont cependant utilisées. Nous avons alors reformulé cette pratique courante de perte d’information comme un problème de modélisation à variables latentes, revenant ainsi à une sélection de modèle. Par ailleurs, la combinatoire associée à cet espace de modèles nous a conduit à proposer des stratégies d’exploration, soit basées sur un réseau de neurone avec un gradient stochastique, soit basées sur un algorithme de type EM stochastique.Comme extension du problème précédent, il est également courant d’introduire des interactions entre variables afin, comme toujours, d’améliorer la performance prédictive des modèles. La pratique classiquement répandue est de nouveau manuelle et chronophage, avec des risques accrus étant donnée la surcouche combinatoire que cela engendre. Nous avons alors proposé un algorithme de Metropolis-Hastings permettant de rechercher les meilleures interactions de façon quasi-automatique tout en garantissant de bonnes performances grâce à ses propriétés de convergence standards. La dernière problématique abordée vise de nouveau à formaliser une pratique répandue, consistant à définir le système d’acceptation non pas comme un unique score mais plutôt comme un arbre de scores. Chaque branche de l’arbre est alors relatif à un segment de population particulier. Pour lever la sous-optimalité des méthodes classiques utilisées dans les entreprises, nous proposons une approche globale optimisant le système d’acceptation dans son ensemble. Les résultats empiriques qui en découlent sont particulièrement prometteurs, illustrant ainsi la flexibilité d’un mélange de modélisation paramétrique et non paramétrique. Enfin, nous anticipons sur les futurs verrous qui vont apparaître en Credit Scoring et qui sont pour beaucoup liés la grande dimension (en termes de prédicteurs). En effet, l’industrie financière investit actuellement dans le stockage de données massives et non structurées, dont la prochaine utilisation dans les règles de prédiction devra s’appuyer sur un minimum de garanties théoriques pour espérer atteindre les espoirs de performance prédictive qui ont présidé à cette collecte
This manuscript deals with model-based statistical learning in the binary classification setting. As an application, credit scoring is widely examined with a special attention on its specificities. Proposed and existing approaches are illustrated on real data from Crédit Agricole Consumer Finance, a financial institute specialized in consumer loans which financed this PhD through a CIFRE funding. First, we consider the so-called reject inference problem, which aims at taking advantage of the information collected on rejected credit applicants for which no repayment performance can be observed (i.e. unlabelled observations). This industrial problem led to a research one by reinterpreting unlabelled observations as an information loss that can be compensated by modelling missing data. This interpretation sheds light on existing reject inference methods and allows to conclude that none of them should be recommended since they lack proper modelling assumptions that make them suitable for classical statistical model selection tools. Next, yet another industrial problem, corresponding to the discretization of continuous features or grouping of levels of categorical features before any modelling step, was tackled. This is motivated by practical (interpretability) and theoretical reasons (predictive power). To perform these quantizations, ad hoc heuristics are often used, which are empirical and time-consuming for practitioners. They are seen here as a latent variable problem, setting us back to a model selection problem. The high combinatorics of this model space necessitated a new cost-effective and automatic exploration strategy which involves either a particular neural network architecture or Stochastic-EM algorithm and gives precise statistical guarantees. Third, as an extension to the preceding problem, interactions of covariates may be introduced in the problem in order to improve the predictive performance. This task, up to now again manually processed by practitioners and highly combinatorial, presents an accrued risk of misselecting a “good” model. It is performed here with a Metropolis Hastings sampling procedure which finds the best interactions in an automatic fashion while ensuring its standard convergence properties, thus good predictive performance is guaranteed. Finally, contrary to the preceding problems which tackled a particular scorecard, we look at the scoring system as a whole. It generally consists of a tree-like structure composed of many scorecards (each relative to a particular population segment), which is often not optimized but rather imposed by the company’s culture and / or history. Again, ad hoc industrial procedures are used, which lead to suboptimal performance. We propose some lines of approach to optimize this logistic regression tree which result in good empirical performance and new research directions illustrating the predictive strength and interpretability of a mix of parametric and non-parametric models. This manuscript is concluded by a discussion on potential scientific obstacles, among which the high dimensionality (in the number of features). The financial industry is indeed investing massively in unstructured data storage, which remains to this day largely unused for Credit Scoring applications. Doing so will need statistical guarantees to achieve the additional predictive performance that was hoped for

APA, Harvard, Vancouver, ISO, and other styles

40

Michel, Pierre. "Sélection d'items en classification non supervisée et questionnaires informatisés adaptatifs : applications à des données de qualité de vie liée à la santé." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM4097/document.

Full text

Abstract:

Un questionnaire adaptatif fournit une mesure valide de la qualité de vie des patients et réduit le nombre d'items à remplir. Cette approche est dépendante des modèles utilisés, basés sur des hypothèses parfois non vérifiables. Nous proposons une approche alternative basée sur les arbres de décision. Cette approche n'est basée sur aucune hypothèse et requiert moins de temps de calcul pour l'administration des items. Nous présentons différentes simulations qui démontrent la pertinence de notre approche. Nous présentons une méthode de classification non supervisée appelée CUBT. CUBT comprend trois étapes pour obtenir une partition optimale d'un jeu de données. La première étape construit un arbre en divisant récursivement le jeu de données. La deuxième étape regroupe les paires de noeuds terminaux de l'arbre. La troisième étape agrège des nœuds terminaux qui ne sont pas issus de la même division. Différentes simulations sont présentés pour comparer CUBT avec d'autres approches. Nous définissons également des heuristiques concernant le choix des paramètres de CUBT. CUBT identifie les variables qui sont actives dans la construction de l'arbre. Cependant, bien que certaines variables peuvent être sans importance, elles peuvent être compétitives pour les variables actives. Il est essentiel de classer les variables en fonction d'un score d'importance pour déterminer leur pertinence dans un modèle donné. Nous présentons une méthode pour mesurer l'importance des variables basée sur CUBT et les divisions binaires compétitives pour définir un score d'importance des variables. Nous analysons l'efficacité et la stabilité de ce nouvel indice, en le comparant à d'autres méthodes
An adaptive test provides a valid measure of quality of life of patients and reduces the number of items to be filled. This approach is dependent on the models used, sometimes based on unverifiable assumptions. We propose an alternative approach based on decision trees. This approach is not based on any assumptions and requires less calculation time for item administration. We present different simulations that demonstrate the relevance of our approach.We present an unsupervised classification method called CUBT. CUBT includes three steps to obtain an optimal partition of a data set. The first step grows a tree by recursively dividing the data set. The second step groups together the pairs of terminal nodes of the tree. The third step aggregates terminal nodes that do not come from the same split. Different simulations are presented to compare CUBT with other approaches. We also define heuristics for the choice of CUBT parameters.CUBT identifies the variables that are active in the construction of the tree. However, although some variables may be irrelevant, they may be competitive for the active variables. It is essential to rank the variables according to an importance score to determine their relevance in a given model. We present a method to measure the importance of variables based on CUBT and competitive binary splis to define a score of variable importance. We analyze the efficiency and stability of this new index, comparing it with other methods

APA, Harvard, Vancouver, ISO, and other styles

41

Candillier, Christophe. "Méthodes d'Extraction de Connaissances à partir de Données (ECD) appliquées aux Systèmes d'Information Géographiques (SIG)." Phd thesis, Université de Nantes, 2006. http://tel.archives-ouvertes.fr/tel-00101491.

Full text

Abstract:

Le travail effectué durant cette thèse concerne l'étude des méthodes d'Extraction de Connaissances à partir de Données (ECD) dans le cadre des Systèmes d'Information Géographiques (SIG). Nous avons non seulement mis en œuvre et amélioré des méthodes d'ECD classique (Classification de Données, Visualisation de Classifications) mais aussi des méthodes d'ECD spatiales liées à des méthodes d'analyse spatiale (Lissage Spatial, Détermination de Pôles, Sectorisation). Nous avons effectué notre travail de recherche au sein de la société GÉOBS spécialisée dans l'analyse des données géographiques (spatiales), et nous avons donc expérimenté, appliqué et vérifié ces méthodes sur des jeux de données fournis par GÉOBS et liés à des problématiques de Développement Économique, de Géomarketing, d'Analyse de Risque, d'Environnement, de Santé, etc. Ce mémoire offre une vision globale concernant un ensemble de problématiques et de méthodes d'analyse. Il met ainsi en avant la complémentarité des méthodes utilisées qui sont souvent connectées entre elles soit du point de vue technique soit du point de vue de leur utilisation. Finalement, ce fut un travail très enrichissant car il a touché à de nombreuses problématiques et à d'aussi nombreuses méthodes d'extraction de connaissances.

APA, Harvard, Vancouver, ISO, and other styles

42

Valero, Mathieu. "Enhancing performance and reliability of tree based P2P overlays." Paris 6, 2011. http://www.theses.fr/2011PA066600.

Full text

APA, Harvard, Vancouver, ISO, and other styles

43

Groz, Benoît. "XML security views : queries, updates and schemas." Thesis, Lille 1, 2012. http://www.theses.fr/2012LIL10143/document.

Full text

Abstract:

Les évolutions technologiques ont consacré l'émergence des services web et du stockage des données en ligne, en complément des bases de données traditionnelles. Ces évolutions facilitent l'accès aux données, mais en contrepartie soulèvent de nouvelles problématiques de sécurité. La mise en œuvre de politiques de contrôle d'accès appropriées est une des approches permettant de réduire ces risques. Nous étudions ici les politiques de contrôle d'accès au niveau d'un document XML, politiques que nous modélisons par des vues de sécurité XML (non matérialisées) à l'instar de Fan et al. Ces vues peuvent être représentées facilement par des alignements d'arbres grâce à l'absence d'opérateurs arithmétiques ou de restructuration. Notre objectif est par conséquent d'examiner comment manipuler efficacement ce type de vues, à l'aide des méthodes formelles, et plus particulièrement des techniques de réécriture de requêtes et la théorie des automates d'arbres. Trois directions principales ont orienté nos recherches: nous avons tout d'abord élaboré des algorithmes pour évaluer l'expressivité d'une vue, en fonction des requêtes qui peuvent être exprimées à travers cette vue. Il s'avère que l'on ne peut décider en général si une vue permet d'exprimer une requête particulière, mais cela devient possible lorsque la vue satisfait des hypothèses générales. En second lieu, nous avons considéré les problèmes soulevés par la mises à jour du document à travers une vue. Enfin, nous proposons des solutions pour construire automatiquement un schéma de la vue. En particulier, nous présentons différentes techniques pour représenter de façon approchée l'ensemble des documents au moyen d'une DTD
The evolution of web technologies and social trends fostered a shift from traditional enterprise databases to web services and online data. While making data more readily available to users, this evolution also raises additional security concerns regarding the privacy of users and more generally the disclosure of sensitive information. The implementation of appropriate access control models is one of the approaches to mitigate the threat. We investigate an access control model based on (non-materialized) XML views, as presented among others by Fan et al. The simplicity of such views, and in particular the absence of arithmetic features and restructuring, facilitates their modelization with tree alignments. Our objective is therefore to investigate how to manipulate efficiently such views, using formal methods, and especially query rewriting and tree automata. Our research follows essentially three directions: we first develop new algorithms to assess the expressivity of views, in terms of determinacy, query rewriting and certain answers. We show that those problems, although undecidable in our most general setting, can be decided under reasonable restrictions. Then we address the problem of handling updates in the security view framework. And last, we investigate the classical issues raised by schemata, focusing on the specific "determinism'' requirements of DTDs and XML Schemata. In particular, we survey some techniques to approximate the set of all possible view documents with a DTD, and we provide new algorithms to check if the content models of a DTD are deterministic

APA, Harvard, Vancouver, ISO, and other styles

44

Chen, Xiao. "Contrôle et optimisation de la perception humaine sur les vêtements virtuels par évaluation sensorielle et apprentissage de données expérimentales." Thesis, Lille 1, 2015. http://www.theses.fr/2015LIL10019/document.

Full text

Abstract:

Dans un contexte économique où les concurrences internationales sont exacerbées, la customisation, ou personnalisation de masse des produits devient aujourd’hui une stratégie très importante des entreprises pour améliorer la valeur perçue de leurs produits. Cependant, les expériences des plateformes de customisations actuelles en ligne ne sont pas pleinement satisfaisantes car les choix personnalisés sont essentiellement limitées à des couleurs et à des motifs. Les dimensions sensorielles des produits, incluant en particulier l’apparence et le toucher des matières tout autant que le bien-aller du vêtement sont rarement proposés.Dans le cadre de ma thèse doctorale, nous avons proposé une plateforme de co-création, permettant aux commerçants, aux créateurs et aux clients d’acquérir conjointement une nouvelle expérience sur le développement de vêtements personnalisés à la valeur ajoutée plus élevée sans entraîner de surcoûts industriels. La construction de cette plateforme consiste en plusieurs parties. Tout à bord, nous avons sélectionné, par une expérience sensorielle, un logiciel de CAO en confection 3D bien adapté en termes de la qualité de rendu du vêtement virtuel. Ensuite, nous avons proposé un plan d’expérience sensorielle par utilisation d’une nouvelle méthode d’apprentissage actif proposée afin d’acquérir, sans mesures physiques, les paramètres techniques de l’étoffe dans un délai très court. Cette méthode est efficace, rapide, facile à réaliser et notamment très significative pour des transactions des textiles en ligne. Puis nous avons caractérisé quantitativement la perception du vêtement virtuel par des notes numériques sur un ensemble de descripteurs sensoriels normalisés. Ces derniers concernent l’apparence et le toucher de la matière, ainsi que le fit du vêtement. Les données sensorielles ont été obtenues respectivement dans deux autres expériences sensorielles. Par apprentissage de ces données, nous avons établi deux modèles. Le premier permet de caractériser la relation entre la perception sur l’apparence et le toucher du matériau virtuel et les paramètres techniques correspondants, constituant une entrée du logiciel de CAO en confection. Le deuxième modèle permet de caractériser la relation entre la perception du fit du vêtement virtuel et les paramètres des patrons. A l'aide des deux modèles précédents, les créateurs et consommateurs peuvent ajuster les éléments initiaux de conception pour les matières et les patrons du vêtement selon leurs attentes au niveau du sensoriel
Under the exacerbated worldwide competition, the mass customization or personalization of products is now becoming an important strategy for companies to enhance the perceived value of their products. However, the current online customization experiences are not fully satisfying for consumers because the choices are mostly limited to colors and motifs. The sensory fields of products, particularly the material’s appearance and hand as well as the garment fit are barely concerned.In my PhD research project, we have proposed a new collaborative design platform. It permits merchants, designers and consumers to have a new experience during the development of highly valued personalized garments without extra industrial costs. The construction of this platform consists of several parts. At first, we have selected, through a sensory experiment, an appropriate 3D garment CAD software in terms of rending quality. Then we have proposed an active leaning-based experimental design in order to find the most appropriate values of the fabric technical parameters permitting to minimize the overall perceptual difference between real and virtual fabrics in static and dynamic scenarios. Afterwards, we have quantitatively characterized the human perception on virtual garment by using a number of normalized sensory descriptors. These descriptors involve not only the appearance and the hand of the fabric but also the garment fit. The corresponding sensory data have been collected through two sensory experiments respectively. By learning from the experimental data, two models have been established. The first model permits to characterize the relationship between the appearance and hand perception of virtual fabrics and corresponding technical parameters that constitute the inputs of the 3D garment CAD software. The second model concerns the relationship between virtual garment fit perception and the pattern design parameters. These two models constitute the main components of the collaborative design platform. Using this platform, we have realized a number of garments meeting consumer’s personalized perceptual requirements

APA, Harvard, Vancouver, ISO, and other styles

45

ARMAND, Stéphane. "Analyse Quantifiée de la Marche : extraction de connaissances à partir de données pour l'aide à l'interprétation clinique de la marche digitigrade." Phd thesis, Université de Valenciennes et du Hainaut-Cambresis, 2005. http://tel.archives-ouvertes.fr/tel-00010618.

Full text

Abstract:

L'Analyse Quantifiée de la Marche (AQM) est un examen permettant d'identifier et de quantifier les défauts de marche d'un patient à partir de données biomécaniques. L'interprétation de cet examen, conduisant à l'explication des défauts de marche, est ardue. Parmi ces défauts, la marche digitigrade est un des plus courants et pour lequel l'identification des causes demeure difficile. Ce travail propose de fournir une aide à l'interprétation des données de l'AQM pour la marche digitigrade. Afin d'atteindre cet objectif, une méthode d'Extraction de Connaissances à partir de Données (ECD) est utilisée en combinant un apprentissage automatique non-supervisé et supervisé, pour extraire objectivement des connaissances intrinsèques et discriminantes des données de l'AQM. L'apprentissage non-supervisé (c-moyennes floues) a permis d'identifier trois patrons de marche digitigrade à partir de la cinématique de la cheville provenant d'une base de données de plus de 2500 AQM (Institut Saint-Pierre, Palavas, 34). L'apprentissage supervisé est utilisé pour expliquer ces trois patrons de marche par des mesures cliniques sous la forme de règles induites à partir d'arbres de décision flous. Les règles les plus significatives et interprétables (12) sont sélectionnées pour créer une base de connaissances qui est validée au regard de la littérature et des experts. Ces règles peuvent servir d'aide à l'interprétation des données de l'AQM pour la marche digitigrade. Ce travail ouvre différentes perspectives de recherche allant de la généralisation de la méthode utilisée à la création d'un simulateur de marche pathologique.

APA, Harvard, Vancouver, ISO, and other styles

46

Gaudel, Romaric. "Paramètres d'ordre et sélection de modèles en apprentissage : caractérisation des modèles et sélection d'attributs." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00549090.

Full text

Abstract:

Nous nous intéressons à la sélection de modèle en apprentissage automatique, sous deux angles différents. La première partie de la thèse concerne les méthodes à noyau relationnel. Les méthodes à noyau permettent en principe de s'affranchir de la représentation des instances, et de combler le fossé entre apprentissage relationnel et apprentissage propositionnel. Cette thèse s'intéresse à la faisabilité de cet objectif dans un cas particulier : les problèmes à instances multiples, qui sont considérés comme un intermédiaire entre les problèmes propositionnels et les problèmes relationnels. Concrètement, nous déterminons sous quelles conditions le noyau-somme, utilisé sur des problèmes à instances multiples, est en mesure de reconstruire le concept-cible. Cette étude suit le schéma standard des études de transition de phase et s'appuie sur un critère nouveau pour caractériser l'efficacité de la propositionnalisation induite par le noyau-somme. La deuxième partie de la thèse porte sur la sélection d'attributs. Une solution pour résoudre les problèmes à instances multiples, tels que présentés en première partie, passe par une propositionnalisation associant un attribut à chaque instance présente dans le problème. Le nombre d'attributs ainsi construits étant gigantesque, il est alors nécessaire de sélectionner un sous-ensemble d'attributs ne contenant que des attributs pertinents. La deuxième partie de la thèse propose donc une nouvelle approche pour la sélection d'attributs. La sélection d'attributs est réécrite comme un problème d'apprentissage par renforcement, conduisant ainsi à une politique de sélection optimale mais non-calculable en un temps raisonnable. Cette politique est approchée en se fondant sur une approche de jeu à un joueur et en utilisant la méthode Monte-Carlo pour les arbres UCT (Upper Confidence bound applied to Trees), qui a été proposée par Kocsis et Szepesvari (2006). L'algorithme FUSE (Feature Uct SElection) étend UCT pour gérer (1) l'horizon fini mais inconnu, et (2) le facteur de branchement élevé de l'arbre de recherche reflétant la taille de l'ensemble d'attributs. Finalement, une fonction de récompense frugale est proposée en tant qu'estimation grossière mais non-biaisée de la pertinence d'un sous-ensemble d'attributs. Une preuve de concept de FUSE est fournie sur des bases de données de référence.

APA, Harvard, Vancouver, ISO, and other styles

47

Costermans, Christian. "Calcul symbolique non commutatif : analyse des constantes d'arbre de fouille." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2008. http://tel.archives-ouvertes.fr/tel-00338482.

Full text

Abstract:

L'étude de certaines variables aléatoires, comme les paramètres additifs sur les arbres hyperquaternaires de points, ou encore le nombre de maxima au sein d'un ensemble de n points indépendants, et uniformément distribués dans [0,1]^d font apparaître des suites particulières, les sommes harmoniques multiples (SHM), extensions des nombres harmoniques classiques à des multi-indices.

Nos travaux visant à appliquer des méthodes symboliques pour l'étude de ces variables aléatoires, nous remplaçons l'utilisation de multi-indices par des codages sur des alphabets distincts, et nous appuyons alors sur des résultats importants en combinatoire des mots pour les appliquer à nos suites de SHM, et aux fonctions polylogarithmes, qui sont des variantes des génératrices ordinaires des SHM. Dans les cas convergents, les deux objets convergent (respectivement lorsque z tend vers 1 et lorsque N tend vers l'infini) vers la même limite, appelée polyzêta. Pour les cas divergents, l'utilisation de séries génératrices non commutatives nous permet d'établir un théorème ``à l'Abel'', faisant apparaître une limite commune. Ce théorème permet de donner une forme explicite aux constantes d'Euler généralisées associées à des SHM divergentes et ainsi d'obtenir un algorithme très efficace pour calculer leur développement asymptotique.

Finalement, nous proposons des applications des sommes harmoniques dans le domaine des structures de données multidimensionnelles, pour lesquelles notre approche donne naissance à des calculs exacts, qui peuvent par la suite être aisément évalués asymptotiquement.

APA, Harvard, Vancouver, ISO, and other styles

48

Huynh, Lê Duy. "Taking into account inclusion and adjacency information in morphological hierarchical representations, with application to the extraction of text in natural images and videos." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS341.

Full text

Abstract:

Les relations d'inclusion et d'adjacence des regions dans l'images comportent des informations contextuelles. Le relation d'adjacence est largement utilisé car il indique comment les régions sont organisées dans l'images. La relation d'inclusion n'est généralement pas prise en compte, bien qu'il assimile la relation d'objet-fond. Il existe plusieurs représentations morphologiques hiérarchiques: l'arbre des formes (AdF) qui représentent l'inclusion de lignes de niveaux d'image, ainsi que les hiérarchies de segmentation (i.e. la hiérarchie des quasi-zones plates) qui est utile dans l'analyse de la relation d'adjacence. Le but de ce travail est de tirer partie à la fois des relations d’inclusion et d’adjacence dans ces representations pour mener à bien des tâches de vision par ordinateur. Nous introduisons le graphe d'alignement spatial (GAS) qui est construit à partir de l'inclusion et de l'arrangement spatial des régions dans l'AdF. Dans un cas simple tel que notre l'AdF de Laplacien, le GAS est réduit à un graphe déconnecté où chaque composant connecté est un groupe sémantique d'objets. Dans d’autres cases, e.g., l'AdF classique, le GAS est plus complexe. Pour résoudre ce problème, nous proposons d'élargir notre raisonnement à la morphologie basée sur la forme. Notre extension permet de manipuler n'importe quel graphe des formes et permet n'importe stratégie de filtrage dans la cadre de opérateurs connexes. Par conséquent, le GAS pourrait être analysé par une hiérarchie des quasi-zones plates. Les résultats de notre méthode dans la reconnaissance de texte montrent l'efficacité et la performance, qui sont attrayantes notablement pour les applications mobiles
The inclusion and adjacency relationship between image regions usually carry contextual information. The later is widely used since it tells how regions are arranged in images. The former is usually not taken into account although it parallels the object-background relationship. The mathematical morphology framework provides several hierarchical image representations. They include the Tree of Shapes (ToS), which encodes the inclusion of level-line, and the hierarchies of segmentation (e.g., alpha-tree, BPT), which is useful in the analysis of the adjacency relationship. In this work, we take advantage of both inclusion and adjacency information in these representations for computer vision applications. We introduce the spatial alignment graph w.r.t inclusion that is constructed by adding a new adjacency relationship to nodes of the ToS. In a simple ToS such as our Tree of Shapes of Laplacian sign, which encodes the inclusion of Morphological Laplacian 0-crossings, the graph is reduced to a disconnected graph where each connected component is a semantic group. In other cases, e.g., classic ToS, the spatial alignment graph is more complex. To address this issue, we expand the shape-spaces morphology. Our expansion has two primary results: 1)It allows the manipulation of any graph of shapes. 2)It allows any tree filtering strategy proposed by the connected operators frameworks. With this expansion, the spatial graph could be analyzed with the help of an alpha-tree. We demonstrated the application aspect of our method in the application of text detection. The experiment results show the efficiency and effectiveness of our methods, which is appealing to mobile applications

APA, Harvard, Vancouver, ISO, and other styles

49

Atighehchi, Kevin. "Contributions à l'efficacité des mécanismes cryptographiques." Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4037.

Full text

Abstract:

Les besoins constants d’innovation en matière de performances et d’économie des ressources nous poussent à effectuer des optimisations dans la conception et l’utilisation des outils cryptographiques. Cela nous amène à étudier plusieurs aspects dans cette thèse : les algorithmes cryptographiques parallèles, les algorithmes cryptographiques incrémentaux et les dictionnaires authentifiés.Dans le cadre de la cryptographie parallèle, nous nous intéressons aux fonctions de hachage basées sur des arbres. Nous montrons en particulier quelles structures arborescentes utiliser pour atteindre un temps d’exécution optimum avec un nombre de processeurs que nous cherchons à minimiser dans un second temps. Nous étudions également d'autres formesd'arborescence favorisant l'équité et la scalabilité.Les systèmes cryptographiques incrémentaux permettent, lorsque nous modifions des documents, de mettre à jour leurs formes cryptographiques efficacement. Nous montrons que les systèmes actuels restreignent beaucoup trop les modifications possibles et introduisons de nouveaux algorithmes s’appuyant sur ces derniers, utilisés comme des boites noires, afin de rendre possible une large gamme de modifications aux documents tout en conservant une propriété de secret de l’opération effectuée.Notre intérêt porte ensuite sur les dictionnaires authentifiés, utilisés pour authentifier les réponses aux requêtes des utilisateurs sur un dictionnaire, en leur fournissant une preuve d’authenticité pour chaque réponse. Nous nous focalisons sur des systèmes basés sur des arbres de hachage et proposons une solution pour amoindrir leur principal inconvénient, celui de la taille des preuves
The need for continuing innovation in terms of performances and resource savings impel us to optimize the design and the use of cryptographic mechanisms. This leads us to consider several aspects in this dissertation: parallel cryptographic algorithms, incremental cryptographic algorithms and authenticated dictionaries.In the context of parallel cryptography we are interested in hash functions. In particular, we show which tree structures to use to reach an optimal running time. For this running time, we show how to decrease the amount of involved processors. We also explore alternative (sub-optimal) tree structures which decrease the number of synchronizations in multithreaded implementations while balancing at best the load of the work among the threads.Incremental cryptographic schemes allow the efficient updating of cryptographic forms when we change some blocks of the corresponding documents. We show that the existing incremental schemes restrict too much the possible modification operations. We then introduce new algorithms which use these ones as black boxes to allow a broad range of modification operations, while preserving a privacy property about these operations.We then turn our attention to authenticated dictionaries which are used to authenticate answers to queries on a dictionary, by providing to users an authentication proof for each answer. We focus on authenticated dictionaries based on hash trees and we propose a solution to remedy their main shortcoming, the size of proofs provided to users

APA, Harvard, Vancouver, ISO, and other styles

50

Laurence, Grégoire. "Normalisation et Apprentissage de Transductions d'Arbres en Mots." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2014. http://tel.archives-ouvertes.fr/tel-01053084.

Full text

Abstract:

Le stockage et la gestion de données sont des questions centrales en infor- matique. La structuration sous forme d'arbres est devenue la norme (XML, JSON). Pour en assurer la pérennité et l'échange efficace des données, il est nécessaire d'identifier de nouveaux mécanismes de transformations automati- sables. Nous nous concentrons sur l'étude de transformations d'arbres en mots représentées par des machines à états finies. Nous définissons les transducteurs séquentiels d'arbres en mots ne pouvant utiliser qu'une et unique fois chaque nœud de l'arbre d'entrée pour décider de la production. En réduisant le problème d'équivalence des transducteurs séquentiels à celui des morphismes appliqués à des grammaires algébriques (Plandowski, 95), nous prouvons qu'il est décidable en temps polynomial. Cette thèse introduit la notion de transducteur travailleur, forme norma- lisée de transducteurs séquentiels, cherchant à produire la sortie le "plus tôt possible" dans la transduction. A l'aide d'un algorithme de normalisation et de minimisation, nous prouvons qu'il existe un représentant canonique, unique transducteur travailleur minimal, pour chaque transduction de notre classe. La décision de l'existence d'un transducteur séquentiel représentant un échantillon, i.e. paires d'entrées et sorties d'une transformation, est prouvée NP-difficile. Nous proposons un algorithme d'apprentissage produisant à par- tir d'un échantillon le transducteur canonique le représentant, ou échouant, le tout en restant polynomial. Cet algorithme se base sur des techniques d'infé- rence grammaticales et sur l'adaptation du théorème de Myhill-Nerode.

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!