To see the other types of publications on this topic, follow the link: Méthode des k plus proches voisins.

Dissertations / Theses on the topic 'Méthode des k plus proches voisins'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 25 dissertations / theses for your research on the topic 'Méthode des k plus proches voisins.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Kanj, Sawsan. "Méthodes d'apprentissage pour la classification multi label." Thesis, Compiègne, 2013. http://www.theses.fr/2013COMP2076.

Full text
Abstract:
La classification multi-label est une extension de la classification traditionnelle dans laquelle les classes ne sont pas mutuellement exclusives, chaque individu pouvant appartenir à plusieurs classes simultanément. Ce type de classification est requis par un grand nombre d’applications actuelles telles que la classification d’images et l’annotation de vidéos. Le principal objectif de cette thèse est la proposition de nouvelles méthodes pour répondre au problème de classification multi-label. La première partie de cette thèse s’intéresse au problème d’apprentissage multi-label dans le cadre des fonctions de croyance. Nous développons une méthode capable de tenir compte des corrélations entre les différentes classes et de classer les individus en utilisant le formalisme de représentation de l’incertitude pour les variables multi-valuées. La deuxième partie aborde le problème de l’édition des bases d’apprentissage pour la classification multi-label. Nous proposons un algorithme basé sur l’approche des k-plus proches voisins qui permet de détecter les exemples erronés dans l’ensemble d’apprentissage. Des expérimentations menées sur des jeux de données synthétiques et réelles montrent l’intérêt des approches étudiées
Multi-label classification is an extension of traditional single-label classification, where classes are not mutually exclusive, and each example can be assigned by several classes simultaneously . It is encountered in various modern applications such as scene classification and video annotation. the main objective of this thesis is the development of new techniques to adress the problem of multi-label classification that achieves promising classification performance. the first part of this manuscript studies the problem of multi-label classification in the context of the theory of belief functions. We propose a multi-label learning method that is able to take into account relationships between labels ant to classify new instances using the formalism of representation of uncertainty for set-valued variables. The second part deals withe the problem of prototype selection in the framework of multi-label learning. We propose an editing algorithm based on the k-nearest neighbor rule in order to purify training dataset and improve the performances of multi-label classification algorithms. Experimental results on synthetic and real-world datasets show the effectiveness of our approaches
APA, Harvard, Vancouver, ISO, and other styles
2

Lallich, Stéphane. "La méthode des plus proches voisins : de la dispersion spatiale à l'analyse multidimensionnelle." Saint-Etienne, 1989. http://www.theses.fr/1989STET4006.

Full text
Abstract:
Notre travail est consacré à la méthode des plus proches voisins, en tant qu'outil d'analyse de la dispersion spatiale, et à sa généralisation multidimensionnelle. Analyser la dispersion d'individus placés dans un domaine-plan est un problème classique des biologistes, des géographes, des économistes ou de l'analyse d'image. Pour ce faire, la méthode des plus proches voisins utilise un échantillon de distances entre un point pris au hasard dans le plan et le plus proche individu d'ordre k. Le modèle de référence est le modèle au hasard, dont le rejet peut se faire en direction d'un modèle régulier, ou d'un modèle agrégatif (agrégativité vraie ou hétérogénéité). A la suite d'une introduction qui formalise la notion de dispersion spatiale, nous étudions les statistiques de distances sous les hypothèses de dispersion évoquées. Le problème du choix de la taille des agrégats, lors de la construction du modèle d'agrégativité vraie, nous a amené à construire un modèle général de loi discrète, fondé sur la notion de loi récurrente, qui intègre les lois usuelles, et qui soit stable par translation et troncature. Puis nous nous intéressons à la mise en oeuvre de la méthode, de la constitution d'un échantillon de distances, aux procédures de test et d'estimation. Enfin, nous procédons à la généralisation multi dimensionnelle des résultats obtenus, et nous abordons divers problèmes, tels que la prise en compte exacte des effets des bords du domaine, ou le recours à une métrique de Minkowski. Nous montrons alors l'intérêt de nos résultats pour la méthode des plus proches voisins utilisée en classification, avec les plus proches voisins réciproques, et en reconnaissance des formes, à travers l'étude de la complexité des algorithmes de recherche de plus proches voisins
APA, Harvard, Vancouver, ISO, and other styles
3

Czesnalowicz, Eric. "Applications de l'estimateur non paramétrique des K plus proches voisins en classification automatique multidimensionnelle." Lille 1, 1992. http://www.theses.fr/1992LIL10137.

Full text
Abstract:
Le but de ce travail concerne la classification automatique de données par analyse de la fonction de densité de probabilité sous-jacente à la distribution des observations disponibles. Cette fonction de densité de probabilité est estimée par la méthode des k plus proches voisins. Toutefois, cette technique est très pénalisante au niveau des temps de calcul et un algorithme d'estimation rapide est proposé. Il est scindé en deux étapes distinctes, à savoir : l'ordonnancement des voisins puis l'estimation de la fonction de densité de probabilité proprement dite. Cette fonction estimée est ensuite soumise à un filtrage de type médian, à pondération binaire, qui permet de faire ressortir les noyaux des classes en présence. Après étiquetage itératif de ces noyaux, les observations sont assignées au noyau le plus proche. Une seconde approche proposée dans ce mémoire consiste non plus à détecter les noyaux des classes mais leurs contours. Pour cela un nouvel opérateur de détection de contours a été développé pour extraire les contours des classes. Après étiquetage itératif de ces contours, les observations sont assignées au contour le plus proche. L'application de ces procédures de classification sur des échantillons multidimensionnels met en évidence l'intérêt d'introduire les notions de voisinages de taille variable pour l'estimation, le filtrage et l'étiquetage des données multidimensionnelles
APA, Harvard, Vancouver, ISO, and other styles
4

Gan, Changquan. "Une approche de classification non supervisée basée sur la notion des K plus proches voisins." Compiègne, 1994. http://www.theses.fr/1994COMP765S.

Full text
Abstract:
La classification non supervisée a pour objectif de définir dans un ensemble de données des classes permettant de caractériser la structure interne des données. C’est une technique très utile dans de nombreux domaines technologiques comme en diagnostic des systèmes complexes (pour la mise en évidence de modes de fonctionnement) et en vision par ordinateur (pour la segmentation d'image). Les méthodes traditionnelles de la classification non supervisée présentent plusieurs problèmes en pratique, par exemple, la nécessité de préfixer le nombre de classes, le manque de stratégie appropriée pour le réglage de paramètres et la difficulté de valider le résultat obtenu. Dans cette thèse nous tentons d'apporter une solution à ces problèmes en développant une nouvelle approche basée sur la notion des K plus proches voisins. Alliant la détection de mode et la recherche de graphe reflétant la proximité des données, cette approche identifie d'abord les centres de classe, puis construit une classe autour de chaque centre. Elle n'emploie aucune connaissance a priori sur les données et ne possède qu'un seul paramètre. Une stratégie de réglage de ce paramètre a été établie après une étude théorique et une analyse expérimentale. L’idée est de rechercher la stabilité du résultat de classification. Des tests présentés dans ce mémoire montrent une bonne performance de l'approche proposée ; elle est libre d'hypothèse sur la nature des données, relativement robuste et facile à utiliser
APA, Harvard, Vancouver, ISO, and other styles
5

Qamar, Ali Mustafa. "Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisins." Phd thesis, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00591988.

Full text
Abstract:
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleurs. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. gCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé.
APA, Harvard, Vancouver, ISO, and other styles
6

Taïleb, Mounira. "NOHIS-tree nouvelle méthode de recherche de plus proches voisins : application à la recherche d'images par le contenu." Paris 11, 2008. http://www.theses.fr/2008PA112164.

Full text
Abstract:
Les tailles des bases d’images ont connu une croissance rapide. Elles peuvent se chiffrer actuellement en millions d’objets ce qui nécessite l’utilisation d’un système de recherche d’images par le contenu. Un tel système consiste tout d’abord en la description automatique des images de la base. Les propriétés visuelles de chaque image sont représentées sous forme de vecteurs multidimensionnels appelés descripteurs. Ensuite, trouver les images similaires à une image requête revient à chercher pour chaque descripteur de l’image requête les descripteurs les plus proches. Dans ce travail de thèse nous proposons une nouvelle méthode d’indexation de bases multidimensionnelles avec une évolution de l’algorithme de recherche de plus proches voisins. L’originalité de notre index multidimensionnel est la création de formes englobantes évitant le chevauchement. En effet, le chevauchement est l’un des principaux inconvénients qui ralentissent la recherche de plus proches voisins. Le nouvel index créé et son algorithme de recherche spécifique permettent d’accélérer la recherche de plus proches voisins tout en effectuant une recherche à l’exact. La méthode que nous avons conçue a été intégrée et évaluée dans un système réel de recherche d’images par le contenu. Les résultats des expérimentations effectuées montrent sa robustesse en termes de précision et de rapidité en temps de recherche
The increasing of image databases requires the use of a content-based image retrieval system (CBIR). A such system consist first to describe automatically the images, visual properties of each image are represented as multidimensional vectors called descriptors. Next, finding similar images to the query image is achieved by searching for the nearest neighbors of each descriptor of the query image. In this thesis, we propose a new method for indexing multidimensional bases with the search algorithm of nearest neighbors adapted. The originality of our multidimensional index is the disposition of the bounding forms avoiding overlapping. Indeed, the overlapping is one of the main drawbacks that slow the search of nearest neighbors search. Our index with its search algorithm speeds the nearest neighbors search while doing an exact search. Our method has been integrated and tested within a real content-based image system. The results of tests carried out show the robustness of our method in terms of accuracy and speed in search time
APA, Harvard, Vancouver, ISO, and other styles
7

Kouahla, Zineddine. "Indexation dans les espaces métriques : index arborescent et parallélisation." Phd thesis, Université de Nantes, 2013. http://tel.archives-ouvertes.fr/tel-00912743.

Full text
Abstract:
L'indexation et la recherche efficiente de données complexes constitue un besoin croissant face à la taille et à la variété des bases de données actuelles. Nous proposons une structure d'index arborescent basée sur un partitionnement d'un espace métrique à base de boules et d'hyper-plans. Les performances de cet index sont évaluées expérimentalement sur des collections de complexités intrinsèques différentes. La parallélisation de l'algorithme de recherche des k plus proches voisins est également effectuée afin d'encore améliorer les performances.
APA, Harvard, Vancouver, ISO, and other styles
8

Tuleau, Christine. "Sélection de variables pour la discrimination en grande dimension et classification de données fonctionnelles." Paris 11, 2005. https://tel.archives-ouvertes.fr/tel-00012008.

Full text
Abstract:
Cette these s'inscrit dans le cadre de la statistique non parametrique et porte sur la classification et la discrimination en grande dimension, et plus particulierement sur la selection de variables. Une premiere partie traite de la selection de variables a travers cart, dans un cadre de regression et de classification binaire. La procedure exhaustive developpee s'appuie sur le principe de la selection de modele qui permet d'obtenir des inegalites " oracle " et de realiser une selection de variables par contraste penalise. Une seconde partie est motivee par un probleme industriel. Il s'agit de determiner parmi les signaux temporels, mesures au cours d'essais, ceux capables d'expliquer le ressenti de confort du conducteur, puis de definir les plages temporelles responsables de cette pertinence. La demarche adoptee s'articule autour du pretraitement des signaux, de la reduction de la dimension par compression dans une base d'ondelettes et de l'extraction de variables en melant cart a une strategie pas a pas. Une derniere partie aborde le theme de la classification de donnees fonctionnelles au moyen des k-plus proches voisins. La procedure consiste a appliquer les k-plus proches voisins sur les coordonnees de la projection des donnees fonctionnelles sur un espace fini-dimensionnel. Cette procedure implique de determiner simultanement la dimension de l'espace de projection et le nombre de voisins. La version usuelle des k-plus proches voisins et une version legerement penalisee sont considerees theoriquement. Un travail sur donnees reelles et simulees semble montrer que l'introduction d'un faible terme de penalite stabilise la selection en conservant de bonnes performances
This thesis deals with nonparametric statistics and is related to classification and discrimination in high dimension, and more particularly on variable selection. A first part is devoted to variable selection through cart, both the regression and binary classification frameworks. The proposed exhaustive procedure is based on model selection which leads to “oracle” inequalities and allows to perform variable selection by penalized empirical contrast. A second part is motivated by an industrial problem. It consists of determining among the temporal signals, measured during experiments, those able to explain the subjective drivability, and then to define the ranges responsible for this relevance. The adopted methodology is articulated around the preprocessing of the signals, dimensionality reduction by compression using a common wavelet basis and selection of useful variables involving cart and a strategy step by step. A last part deals with functional data classification with k-nearest neighbors. The procedure consists of applying k-nearest neighbors on the coordinates of the projections of the data on a suitable chosen finite dimesional space. The procedure involves selecting simultaneously the space dimension and the number of neighbors. The traditional version of k-nearest neighbors and a slightly penalized version are theoretically considered. A study on real and simulated data shows that the introduction of a small penalty term stabilizes the selection while preserving good performance
APA, Harvard, Vancouver, ISO, and other styles
9

Bereau, Martine. "Contribution de la théorie des sous-ensembles flous à la règle de discrimination des K plus proches voisins en mode partiellement supervisé." Grenoble 2 : ANRT, 1986. http://catalogue.bnf.fr/ark:/12148/cb37595968c.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Béreau, Martine. "Contribution de la théorie des sous-ensembles flous à la règle de discrimination des K plus proches voisins en mode partiellement supervisé." Compiègne, 1986. http://www.theses.fr/1986COMPD032.

Full text
Abstract:
La première partie discute le rôle de la règle fondamentale des K plus proches voisins, et des règles étendues, en reconnaissance statistique des formes. La seconde partie présente les principes de la théorie des sous-ensembles flous, et leurs applications en classification automatique. L'algorithme propose, dont la description fait l'objet de la troisième partie, repose sur l'étiquetage flou des individus au moyen d'une fonction d'appartenance. Des résultats obtenus sur des données simulées sont présentes dans la quatrième partie. La cinquième partie est consacrée à l'étude d'un exemple d'application: la détection du défaut de jeu excessif du système soupape-culbuteur sur un moteur diesel.
APA, Harvard, Vancouver, ISO, and other styles
11

Debreuve, Eric. "Mesures de similarité statistiques et estimateurs par k plus proches voisins : une association pour gérer des descripteurs de haute dimension en traitement d'images et de vidéos." Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00457710.

Full text
APA, Harvard, Vancouver, ISO, and other styles
12

Lefèvre, Fabrice. "Estimation de probabilité non-paramétrique pour la reconnaissance markovienne de la parole." Paris 6, 2000. http://www.theses.fr/2000PA066281.

Full text
APA, Harvard, Vancouver, ISO, and other styles
13

Trad, Riadh. "Découverte d'évènements par contenu visuel dans les médias sociaux." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0030/document.

Full text
Abstract:
L’évolution du web, de ce qui était typiquement connu comme un moyen de communication à sens unique en mode conversationnel, a radicalement changé notre manière de traiter l’information. Des sites de médias sociaux tels que Flickr et Facebook, offrent des espaces d’échange et de diffusion de l’information. Une information de plus en plus riche, mais aussi personnelle, et qui s’organise, le plus souvent, autour d’événements de la vie réelle. Ainsi, un événement peut être perçu comme un ensemble de vues personnelles et locales, capturées par différents utilisateurs. Identifier ces différentes instances permettrait, dès lors, de reconstituer une vue globale de l’événement. Plus particulièrement, lier différentes instances d’un même événement profiterait à bon nombre d’applications tel que la recherche, la navigation ou encore le filtrage et la suggestion de contenus. L’objectif principal de cette thèse est l’identification du contenu multimédia, associé à un événement dans de grandes collections d’images. Une première contribution est une méthode de recherche d’événements basée sur le contenu visuel. La deuxième contribution est une approche scalable et distribuée pour la construction de graphes des K plus proches voisins. La troisième contribution est une méthode collaborative pour la sélection de contenu pertinent. Plus particulièrement, nous nous intéresserons aux problèmes de génération automatique de résumés d’événements et suggestion de contenus dans les médias sociaux
The ease of publishing content on social media sites brings to the Web an ever increasing amount of user generated content captured during, and associated with, real life events. Social media documents shared by users often reflect their personal experience of the event. Hence, an event can be seen as a set of personal and local views, recorded by different users. These event records are likely to exhibit similar facets of the event but also specific aspects. By linking different records of the same event occurrence we can enable rich search and browsing of social media events content. Specifically, linking all the occurrences of the same event would provide a general overview of the event. In this dissertation we present a content-based approach for leveraging the wealth of social media documents available on the Web for event identification and characterization. To match event occurrences in social media, we develop a new visual-based method for retrieving events in huge photocollections, typically in the context of User Generated Content. The main contributions of the thesis are the following : (1) a new visual-based method for retrieving events in photo collections, (2) a scalable and distributed framework for Nearest Neighbors Graph construction for high dimensional data, (3) a collaborative content-based filtering technique for selecting relevant social media documents for a given event
APA, Harvard, Vancouver, ISO, and other styles
14

Olivares, Javier. "Scaling out-of-core k-nearest neighbors computation on single machines." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S073/document.

Full text
Abstract:
La technique des K-plus proches voisins (K-Nearest Neighbors (KNN) en Anglais) est une méthode efficace pour trouver des données similaires au sein d'un grand ensemble de données. Au fil des années, un grand nombre d'applications ont utilisé les capacités du KNN pour découvrir des similitudes dans des jeux de données de divers domaines tels que les affaires, la médecine, la musique, ou l'informatique. Bien que des années de recherche aient apporté plusieurs approches de cet algorithme, sa mise en œuvre reste un défi, en particulier aujourd'hui alors que les quantités de données croissent à des vitesses inimaginables. Dans ce contexte, l'exécution du KNN sur de grands ensembles pose deux problèmes majeurs: d'énormes empreintes mémoire et de très longs temps d'exécution. En raison de ces coût élevés en termes de ressources de calcul et de temps, les travaux de l'état de l'art ne considèrent pas le fait que les données peuvent changer au fil du temps, et supposent toujours que les données restent statiques tout au long du calcul, ce qui n'est malheureusement pas du tout conforme à la réalité. Nos contributions dans cette thèse répondent à ces défis. Tout d'abord, nous proposons une approche out-of-core pour calculer les KNN sur de grands ensembles de données en utilisant un seul ordinateur. Nous préconisons cette approche comme un moyen moins coûteux pour faire passer à l'échelle le calcul des KNN par rapport au coût élevé d'un algorithme distribué, tant en termes de ressources de calcul que de temps de développement, de débogage et de déploiement. Deuxièmement, nous proposons une approche out-of-core multithreadée (i.e. utilisant plusieurs fils d'exécution) pour faire face aux défis du calcul des KNN sur des données qui changent rapidement et continuellement au cours du temps. Après une évaluation approfondie, nous constatons que nos principales contributions font face aux défis du calcul des KNN sur de grands ensembles de données, en tirant parti des ressources limitées d'une machine unique, en diminuant les temps d'exécution par rapport aux performances actuelles, et en permettant le passage à l'échelle du calcul, à la fois sur des données statiques et des données dynamiques
The K-Nearest Neighbors (KNN) is an efficient method to find similar data among a large set of it. Over the years, a huge number of applications have used KNN's capabilities to discover similarities within the data generated in diverse areas such as business, medicine, music, and computer science. Despite years of research have brought several approaches of this algorithm, its implementation still remains a challenge, particularly today where the data is growing at unthinkable rates. In this context, running KNN on large datasets brings two major issues: huge memory footprints and very long runtimes. Because of these high costs in terms of computational resources and time, KNN state-of the-art works do not consider the fact that data can change over time, assuming always that the data remains static throughout the computation, which unfortunately does not conform to reality at all. In this thesis, we address these challenges in our contributions. Firstly, we propose an out-of-core approach to compute KNN on large datasets, using a commodity single PC. We advocate this approach as an inexpensive way to scale the KNN computation compared to the high cost of a distributed algorithm, both in terms of computational resources as well as coding, debugging and deployment effort. Secondly, we propose a multithreading out-of-core approach to face the challenges of computing KNN on data that changes rapidly and continuously over time. After a thorough evaluation, we observe that our main contributions address the challenges of computing the KNN on large datasets, leveraging the restricted resources of a single machine, decreasing runtimes compared to that of the baselines, and scaling the computation both on static and dynamic datasets
APA, Harvard, Vancouver, ISO, and other styles
15

Tuleau, Christine. "SELECTION DE VARIABLES POUR LA DISCRIMINATION EN GRANDE DIMENSION ET CLASSIFICATION DE DONNEES FONCTIONNELLES." Phd thesis, Université Paris Sud - Paris XI, 2005. http://tel.archives-ouvertes.fr/tel-00012008.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre de la statistique non paramétrique et porte sur la classification et la discrimination en grande dimension, et plus particulièrement sur la sélection de variables. Une première partie traite de la sélection de variables à travers CART, dans un cadre de régression et de classification binaire. La procédure exhaustive développée s'appuie sur le principe de la sélection de modèle qui permet d'obtenir des inégalités ``oracle'' et de réaliser la sélection de variables par contraste pénalisé. Une seconde partie est motivée par un problème industriel. Il s'agit de déterminer parmi les signaux temporels, mesurés au cours d'essais, ceux capables d'expliquer le ressenti de confort du conducteur, puis d'identifier les pages temporelles responsables de cette pertinence. La démarche adoptée s'articule autour du prétraitement des signaux, de la réduction de la dimension par projection dans une base d'ondelettes commune, et de la sélection de variables en mêlant CART et une stratégie pas à pas. Une dernière partie aborde le thème de la classification de données fonctionnelles au moyen des k-plus proches voisins. La procédure consiste à appliquer les k-plus proches voisins sur les coordonnées de la projection des données dans un espace fini dimensionnel. Cette procédure implique de déterminer simultanément la dimension de l'espace de projection et le nombre de voisins. La version usuelle des k-plus proches voisins et une version légèrement pénalisée sont considérées théoriquement. Un travail sur données réelles et simulées semble montrer qu'un faible terme de pénalité stabilise la sélection en conservant de bonnes performances.
APA, Harvard, Vancouver, ISO, and other styles
16

Marih, Mohamed. "Mise en œuvre de l'approximation diffuse et de la méthode des éléments diffus pour la résolution des problèmes de mécanique." Compiègne, 1994. http://www.theses.fr/1994COMPD767.

Full text
Abstract:
Un premier objectif de cette thèse consiste à préciser les bases et montrer les difficultés d'une nouvelle méthode d'approximation "approximation diffuse" (présentation algébrique, approche statistique, unisolvance, fonctions d'atténuation,. . . ), ainsi que les algorithmes de sa mise en œuvre pratique. On s'appuie ici sur la méthode des plus proches voisins. Des applications aux problèmes mécaniques vont permettre de procéder ensuite à une étude paramétrique, afin d'évaluer l'influence des différents paramètres de cette approximation (nombre de voisins, ordre d'approximation, fonctions d'atténuation,. . . ), tant sur le plan qualitatif que quantitatif. Un deuxième objectif de ce travail consiste à construire un modèle numérique issu de cette approximation, dit "modèle éléments diffus", sans faire de maillage. Nous nous proposons ici de construire une méthode de résolution des équations différentielles de la physique en utilisant l'approximation diffuse pour discrétiser les formulations variation elles correspondantes. Ceci conduit à la "méthode des éléments diffus". Cette méthode conserve la majorité des avantages de la méthode des éléments finis (généralité standardisation, caractère local,. . . ), mais utilise seulement un nuage de points de discrétisation (pas d'élément ou sous domaines explicites), et peut fournir des solutions continues et à dérivées successives continues. Pour une formulation variationelle l'intégration numérique nécessaire se fait sur un découpage simple du domaine de type "quadtrees". Un outil de génération automatique de nuages de points en bidimensionnel a été développé ; il a permis de traiter plusieurs problèmes de mécanique, et d'évaluer l'influence des différents paramètres géométriques (qualité du nuage de points, choix du support d'intégration,. . . ) et numériques (nombre de voisins, ordre d'approximation,. . . ) sur la qualité des résultats. Plusieurs tests ont été effectués afin de vérifier la convergence et la stabilité de la méthode. Des comparaisons avec la méthode des éléments finis feront l'objet d'une partie de ce travail.
APA, Harvard, Vancouver, ISO, and other styles
17

Ahmed, Mohamed Salem. "Contribution à la statistique spatiale et l'analyse de données fonctionnelles." Thesis, Lille 3, 2017. http://www.theses.fr/2017LIL30047/document.

Full text
Abstract:
Ce mémoire de thèse porte sur la statistique inférentielle des données spatiales et/ou fonctionnelles. En effet, nous nous sommes intéressés à l’estimation de paramètres inconnus de certains modèles à partir d’échantillons obtenus par un processus d’échantillonnage aléatoire ou non (stratifié), composés de variables indépendantes ou spatialement dépendantes.La spécificité des méthodes proposées réside dans le fait qu’elles tiennent compte de la nature de l’échantillon étudié (échantillon stratifié ou composé de données spatiales dépendantes).Tout d’abord, nous étudions des données à valeurs dans un espace de dimension infinie ou dites ”données fonctionnelles”. Dans un premier temps, nous étudions les modèles de choix binaires fonctionnels dans un contexte d’échantillonnage par stratification endogène (échantillonnage Cas-Témoin ou échantillonnage basé sur le choix). La spécificité de cette étude réside sur le fait que la méthode proposée prend en considération le schéma d’échantillonnage. Nous décrivons une fonction de vraisemblance conditionnelle sous l’échantillonnage considérée et une stratégie de réduction de dimension afin d’introduire une estimation du modèle par vraisemblance conditionnelle. Nous étudions les propriétés asymptotiques des estimateurs proposées ainsi que leurs applications à des données simulées et réelles. Nous nous sommes ensuite intéressés à un modèle linéaire fonctionnel spatial auto-régressif. La particularité du modèle réside dans la nature fonctionnelle de la variable explicative et la structure de la dépendance spatiale des variables de l’échantillon considéré. La procédure d’estimation que nous proposons consiste à réduire la dimension infinie de la variable explicative fonctionnelle et à maximiser une quasi-vraisemblance associée au modèle. Nous établissons la consistance, la normalité asymptotique et les performances numériques des estimateurs proposés.Dans la deuxième partie du mémoire, nous abordons des problèmes de régression et prédiction de variables dépendantes à valeurs réelles. Nous commençons par généraliser la méthode de k-plus proches voisins (k-nearest neighbors; k-NN) afin de prédire un processus spatial en des sites non-observés, en présence de co-variables spatiaux. La spécificité du prédicteur proposé est qu’il tient compte d’une hétérogénéité au niveau de la co-variable utilisée. Nous établissons la convergence presque complète avec vitesse du prédicteur et donnons des résultats numériques à l’aide de données simulées et environnementales.Nous généralisons ensuite le modèle probit partiellement linéaire pour données indépendantes à des données spatiales. Nous utilisons un processus spatial linéaire pour modéliser les perturbations du processus considéré, permettant ainsi plus de flexibilité et d’englober plusieurs types de dépendances spatiales. Nous proposons une approche d’estimation semi paramétrique basée sur une vraisemblance pondérée et la méthode des moments généralisées et en étudions les propriétés asymptotiques et performances numériques. Une étude sur la détection des facteurs de risque de cancer VADS (voies aéro-digestives supérieures)dans la région Nord de France à l’aide de modèles spatiaux à choix binaire termine notre contribution
This thesis is about statistical inference for spatial and/or functional data. Indeed, weare interested in estimation of unknown parameters of some models from random or nonrandom(stratified) samples composed of independent or spatially dependent variables.The specificity of the proposed methods lies in the fact that they take into considerationthe considered sample nature (stratified or spatial sample).We begin by studying data valued in a space of infinite dimension or so-called ”functionaldata”. First, we study a functional binary choice model explored in a case-controlor choice-based sample design context. The specificity of this study is that the proposedmethod takes into account the sampling scheme. We describe a conditional likelihoodfunction under the sampling distribution and a reduction of dimension strategy to definea feasible conditional maximum likelihood estimator of the model. Asymptotic propertiesof the proposed estimates as well as their application to simulated and real data are given.Secondly, we explore a functional linear autoregressive spatial model whose particularityis on the functional nature of the explanatory variable and the structure of the spatialdependence. The estimation procedure consists of reducing the infinite dimension of thefunctional variable and maximizing a quasi-likelihood function. We establish the consistencyand asymptotic normality of the estimator. The usefulness of the methodology isillustrated via simulations and an application to some real data.In the second part of the thesis, we address some estimation and prediction problemsof real random spatial variables. We start by generalizing the k-nearest neighbors method,namely k-NN, to predict a spatial process at non-observed locations using some covariates.The specificity of the proposed k-NN predictor lies in the fact that it is flexible and allowsa number of heterogeneity in the covariate. We establish the almost complete convergencewith rates of the spatial predictor whose performance is ensured by an application oversimulated and environmental data. In addition, we generalize the partially linear probitmodel of independent data to the spatial case. We use a linear process for disturbancesallowing various spatial dependencies and propose a semiparametric estimation approachbased on weighted likelihood and generalized method of moments methods. We establishthe consistency and asymptotic distribution of the proposed estimators and investigate thefinite sample performance of the estimators on simulated data. We end by an applicationof spatial binary choice models to identify UADT (Upper aerodigestive tract) cancer riskfactors in the north region of France which displays the highest rates of such cancerincidence and mortality of the country
APA, Harvard, Vancouver, ISO, and other styles
18

Alves, do Valle Junior Eduardo. "Local-Descriptor Matching for Image Identification Systems." Cergy-Pontoise, 2008. http://biblioweb.u-cergy.fr/theses/08CERG0351.pdf.

Full text
Abstract:
L'identification d'images (ou la détection des copies) consiste à retrouver l'original d’où est issue une image requête ainsi que les metadonnées associées, telles que titres, auteurs, droits de reproduction, etc. . . La tâche est difficile en raison de la variété des transformations que l'image originale peut avoir subi. Les systèmes d'identification d'images basées sur des descripteurs locaux ont montré une excellente efficacité, mais souffrent souvent des problèmes de rapidité d'exécution car, des centaines, voire des milliers de descripteurs, doivent être appariés afin de trouver une seule image. L'objectif de notre travail est de fournir des méthodes rapides pour l’appariement des descripteurs, basées sur la recherche rapide des k-plus proches voisins dans des espaces de grandes dimensions. De cette façon, nous pouvons gagner les avantages d’efficacité amenés par l'utilisation des descripteurs locaux, pendant qu’on minimise les problèmes d’efficience. Nous proposons trois nouvelles pour la recherche des k-plus proches voisins ; les 3-way trees, qui améliorent les KD-trees travers l’utilisation des noeuds chevauchants redondants ; les projection KD-forests, qui utilisent des multiples KD-trees à dimensionnalité modérée ; et les multicurves, qui utilisent des multiples courbes d’Hilbert remplissantes de l’espace. Ces techniques cherchent à réduire le nombre d’accès aléatoires, pour être bien adaptées à l’implémentation en mémoire secondaire
Image identification (or copy detection) consists in retrieving the original from which a query image possibly derives, as well as any related metadata, such as titles, authors, copyright information, etc. The task is challenging because of the variety of transformations that the original image may have suffered. Image identification systems based on local descriptors have shown excellent efficacy, but often suffer from efficiency issues, since hundreds, even thousands of descriptors, have to be matched in order to find a single image. The objective of our work is to provide fast methods for descriptor matching, by creating efficient ways to perform the k-nearest neighbours search in high-dimensional spaces. In this way, we can gain the advantages from the use of local descriptors, while minimising the efficiency issues. We propose three new methods for the k-nearest neighbours search: the 3-way trees — an improvement over the KD-trees using redundant, overlapping nodes; the projection KD-forests — a technique which uses multiple moderate dimensional KD-trees; and the multicurves, which is based on multiple moderate dimensional Hilbert space-filling curves. Those techniques try to reduce the amount of random access to the data, in order to be well adapted to the implementation in secondary memory
APA, Harvard, Vancouver, ISO, and other styles
19

Zhu, Jie. "Entropic measures of connectivity with an application to intracerebral epileptic signals." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S006/document.

Full text
Abstract:
Les travaux présentés dans cette thèse s'inscrivent dans la problématique de la connectivité cérébrale, connectivité tripartite puisqu'elle sous-tend les notions de connectivité structurelle, fonctionnelle et effective. Ces trois types de connectivité que l'on peut considérer à différentes échelles d'espace et de temps sont bien évidemment liés et leur analyse conjointe permet de mieux comprendre comment structures et fonctions cérébrales se contraignent mutuellement. Notre recherche relève plus particulièrement de la connectivité effective qui permet de définir des graphes de connectivité qui renseignent sur les liens causaux, directs ou indirects, unilatéraux ou bilatéraux via des chemins de propagation, représentés par des arcs, entre les nœuds, ces derniers correspondant aux régions cérébrales à l'échelle macroscopique. Identifier les interactions entre les aires cérébrales impliquées dans la génération et la propagation des crises épileptiques à partir d'enregistrements intracérébraux est un enjeu majeur dans la phase pré-chirurgicale et l'objectif principal de notre travail. L'exploration de la connectivité effective suit généralement deux approches, soit une approche basée sur les modèles, soit une approche conduite par les données comme nous l'envisageons dans le cadre de cette thèse où les outils développés relèvent de la théorie de l'information et plus spécifiquement de l'entropie de transfert, la question phare que nous adressons étant celle de la précision des estimateurs de cette grandeur dans le cas des méthodes développées basées sur les plus proches voisins. Les approches que nous proposons qui réduisent le biais au regard d'estimateurs issus de la littérature sont évaluées et comparées sur des signaux simulés de type bruits blancs, processus vectoriels autorégressifs linéaires et non linéaires, ainsi que sur des modèles physiologiques réalistes avant d'être appliquées sur des signaux électroencéphalographiques de profondeur enregistrés sur un patient épileptique et comparées à une approche assez classique basée sur la fonction de transfert dirigée. En simulation, dans les situations présentant des non-linéarités, les résultats obtenus permettent d'apprécier la réduction du biais d'estimation pour des variances comparables vis-à-vis des techniques connues. Si les informations recueillies sur les données réelles sont plus difficiles à analyser, elles montrent certaines cohérences entre les méthodes même si les résultats préliminaires obtenus s'avèrent davantage en accord avec les conclusions des experts cliniciens en appliquant la fonction de transfert dirigée
The work presented in this thesis deals with brain connectivity, including structural connectivity, functional connectivity and effective connectivity. These three types of connectivities are obviously linked, and their joint analysis can give us a better understanding on how brain structures and functions constrain each other. Our research particularly focuses on effective connectivity that defines connectivity graphs with information on causal links that may be direct or indirect, unidirectional or bidirectional. The main purpose of our work is to identify interactions between different brain areas from intracerebral recordings during the generation and propagation of seizure onsets, a major issue in the pre-surgical phase of epilepsy surgery treatment. Exploring effective connectivity generally follows two kinds of approaches, model-based techniques and data-driven ones. In this work, we address the question of improving the estimation of information-theoretic quantities, mainly mutual information and transfer entropy, based on k-Nearest Neighbors techniques. The proposed approaches we developed are first evaluated and compared with existing estimators on simulated signals including white noise processes, linear and nonlinear vectorial autoregressive processes, as well as realistic physiology-based models. Some of them are then applied on intracerebral electroencephalographic signals recorded on an epileptic patient, and compared with the well-known directed transfer function. The experimental results show that the proposed techniques improve the estimation of information-theoretic quantities for simulated signals, while the analysis is more difficult in real situations. Globally, the different estimators appear coherent and in accordance with the ground truth given by the clinical experts, the directed transfer function leading to interesting performance
APA, Harvard, Vancouver, ISO, and other styles
20

Vincent, Garcia. "Suivi d'objets d'intérêt dans une séquence d'images : des points saillants aux mesures statistiques." Phd thesis, Université de Nice Sophia-Antipolis, 2008. http://tel.archives-ouvertes.fr/tel-00374657.

Full text
Abstract:
Le problème du suivi d'objets dans une vidéo se pose dans des domaines tels que la vision par ordinateur (vidéo-surveillance par exemple) et la post-production télévisuelle et cinématographique (effets spéciaux). Il se décline en deux variantes principales : le suivi d'une région d'intérêt, qui désigne un suivi grossier d'objet, et la segmentation spatio-temporelle, qui correspond à un suivi précis des contours de l'objet d'intérêt. Dans les deux cas, la région ou l'objet d'intérêt doivent avoir été préalablement détourés sur la première, et éventuellement la dernière, image de la séquence vidéo. Nous proposons dans cette thèse une méthode pour chacun de ces types de suivi ainsi qu'une implémentation rapide tirant partie du Graphics Processing Unit (GPU) d'une méthode de suivi de régions d'intérêt développée par ailleurs.
La première méthode repose sur l'analyse de trajectoires temporelles de points saillants et réalise un suivi de régions d'intérêt. Des points saillants (typiquement des lieux de forte courbure des lignes isointensité) sont détectés dans toutes les images de la séquence. Les trajectoires sont construites en liant les points des images successives dont les voisinages sont cohérents. Notre contribution réside premièrement dans l'analyse des trajectoires sur un groupe d'images, ce qui améliore la qualité d'estimation du mouvement. De plus, nous utilisons une pondération spatio-temporelle pour chaque trajectoire qui permet d'ajouter une contrainte temporelle sur le mouvement tout en prenant en compte les déformations géométriques locales de l'objet ignorées par un modèle de mouvement global.
La seconde méthode réalise une segmentation spatio-temporelle. Elle repose sur l'estimation du mouvement du contour de l'objet en s'appuyant sur l'information contenue dans une couronne qui s'étend de part et d'autre de ce contour. Cette couronne nous renseigne sur le contraste entre le fond et l'objet dans un contexte local. C'est là notre première contribution. De plus, la mise en correspondance par une mesure de similarité statistique, à savoir l'entropie du résiduel, d'une portion de la couronne et d'une zone de l'image suivante dans la séquence permet d'améliorer le suivi tout en facilitant le choix de la taille optimale de la couronne.
Enfin, nous proposons une implémentation rapide d'une méthode de suivi de régions d'intérêt existante. Cette méthode repose sur l'utilisation d'une mesure de similarité statistique : la divergence de Kullback-Leibler. Cette divergence peut être estimée dans un espace de haute dimension à l'aide de multiples calculs de distances au k-ème plus proche voisin dans cet espace. Ces calculs étant très coûteux, nous proposons une implémentation parallèle sur GPU (grâce à l'interface logiciel CUDA de NVIDIA) de la recherche exhaustive des k plus proches voisins. Nous montrons que cette implémentation permet d'accélérer le suivi des objets, jusqu'à un facteur 15 par rapport à une implémentation de cette recherche nécessitant au préalable une structuration des données.
APA, Harvard, Vancouver, ISO, and other styles
21

Mittal, Nupur. "Data, learning and privacy in recommendation systems." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S084/document.

Full text
Abstract:
Les systèmes de recommandation sont devenus une partie indispensable des services et des applications d’internet, en particulier dû à la surcharge de données provenant de nombreuses sources. Quel que soit le type, chaque système de recommandation a des défis fondamentaux à traiter. Dans ce travail, nous identifions trois défis communs, rencontrés par tous les types de systèmes de recommandation: les données, les modèles d'apprentissage et la protection de la vie privée. Nous élaborons différents problèmes qui peuvent être créés par des données inappropriées en mettant l'accent sur sa qualité et sa quantité. De plus, nous mettons en évidence l'importance des réseaux sociaux dans la mise à disposition publique de systèmes de recommandation contenant des données sur ses utilisateurs, afin d'améliorer la qualité des recommandations. Nous fournissons également les capacités d'inférence de données publiques liées à des données relatives aux utilisateurs. Dans notre travail, nous exploitons cette capacité à améliorer la qualité des recommandations, mais nous soutenons également qu'il en résulte des menaces d'atteinte à la vie privée des utilisateurs sur la base de leurs informations. Pour notre second défi, nous proposons une nouvelle version de la méthode des k plus proches voisins (knn, de l'anglais k-nearest neighbors), qui est une des méthodes d'apprentissage parmi les plus populaires pour les systèmes de recommandation. Notre solution, conçue pour exploiter la nature bipartie des ensembles de données utilisateur-élément, est évolutive, rapide et efficace pour la construction d'un graphe knn et tire sa motivation de la grande quantité de ressources utilisées par des calculs de similarité dans les calculs de knn. Notre algorithme KIFF utilise des expériences sur des jeux de données réelles provenant de divers domaines, pour démontrer sa rapidité et son efficacité lorsqu'il est comparé à des approches issues de l'état de l'art. Pour notre dernière contribution, nous fournissons un mécanisme permettant aux utilisateurs de dissimuler leur opinion sur des réseaux sociaux sans pour autant dissimuler leur identité
Recommendation systems have gained tremendous popularity, both in academia and industry. They have evolved into many different varieties depending mostly on the techniques and ideas used in their implementation. This categorization also marks the boundary of their application domain. Regardless of the types of recommendation systems, they are complex and multi-disciplinary in nature, involving subjects like information retrieval, data cleansing and preprocessing, data mining etc. In our work, we identify three different challenges (among many possible) involved in the process of making recommendations and provide their solutions. We elaborate the challenges involved in obtaining user-demographic data, and processing it, to render it useful for making recommendations. The focus here is to make use of Online Social Networks to access publicly available user data, to help the recommendation systems. Using user-demographic data for the purpose of improving the personalized recommendations, has many other advantages, like dealing with the famous cold-start problem. It is also one of the founding pillars of hybrid recommendation systems. With the help of this work, we underline the importance of user’s publicly available information like tweets, posts, votes etc. to infer more private details about her. As the second challenge, we aim at improving the learning process of recommendation systems. Our goal is to provide a k-nearest neighbor method that deals with very large amount of datasets, surpassing billions of users. We propose a generic, fast and scalable k-NN graph construction algorithm that improves significantly the performance as compared to the state-of-the art approaches. Our idea is based on leveraging the bipartite nature of the underlying dataset, and use a preprocessing phase to reduce the number of similarity computations in later iterations. As a result, we gain a speed-up of 14 compared to other significant approaches from literature. Finally, we also consider the issue of privacy. Instead of directly viewing it under trivial recommendation systems, we analyze it on Online Social Networks. First, we reason how OSNs can be seen as a form of recommendation systems and how information dissemination is similar to broadcasting opinion/reviews in trivial recommendation systems. Following this parallelism, we identify privacy threat in information diffusion in OSNs and provide a privacy preserving algorithm for the same. Our algorithm Riposte quantifies the privacy in terms of differential privacy and with the help of experimental datasets, we demonstrate how Riposte maintains the desirable information diffusion properties of a network
APA, Harvard, Vancouver, ISO, and other styles
22

Jiao, Lianmeng. "Classification of uncertain data in the framework of belief functions : nearest-neighbor-based and rule-based approaches." Thesis, Compiègne, 2015. http://www.theses.fr/2015COMP2222/document.

Full text
Abstract:
Dans de nombreux problèmes de classification, les données sont intrinsèquement incertaines. Les données d’apprentissage disponibles peuvent être imprécises, incomplètes, ou même peu fiables. En outre, des connaissances spécialisées partielles qui caractérisent le problème de classification peuvent également être disponibles. Ces différents types d’incertitude posent de grands défis pour la conception de classifieurs. La théorie des fonctions de croyance fournit un cadre rigoureux et élégant pour la représentation et la combinaison d’une grande variété d’informations incertaines. Dans cette thèse, nous utilisons cette théorie pour résoudre les problèmes de classification des données incertaines sur la base de deux approches courantes, à savoir, la méthode des k plus proches voisins (kNN) et la méthode à base de règles.Pour la méthode kNN, une préoccupation est que les données d’apprentissage imprécises dans les régions où les classes de chevauchent peuvent affecter ses performances de manière importante. Une méthode d’édition a été développée dans le cadre de la théorie des fonctions de croyance pour modéliser l’information imprécise apportée par les échantillons dans les régions qui se chevauchent. Une autre considération est que, parfois, seul un ensemble de données d’apprentissage incomplet est disponible, auquel cas les performances de la méthode kNN se dégradent considérablement. Motivé par ce problème, nous avons développé une méthode de fusion efficace pour combiner un ensemble de classifieurs kNN couplés utilisant des métriques couplées apprises localement. Pour la méthode à base de règles, afin d’améliorer sa performance dans les applications complexes, nous étendons la méthode traditionnelle dans le cadre des fonctions de croyance. Nous développons un système de classification fondé sur des règles de croyance pour traiter des informations incertains dans les problèmes de classification complexes. En outre, dans certaines applications, en plus de données d’apprentissage, des connaissances expertes peuvent également être disponibles. Nous avons donc développé un système de classification hybride fondé sur des règles de croyance permettant d’utiliser ces deux types d’information pour la classification
In many classification problems, data are inherently uncertain. The available training data might be imprecise, incomplete, even unreliable. Besides, partial expert knowledge characterizing the classification problem may also be available. These different types of uncertainty bring great challenges to classifier design. The theory of belief functions provides a well-founded and elegant framework to represent and combine a large variety of uncertain information. In this thesis, we use this theory to address the uncertain data classification problems based on two popular approaches, i.e., the k-nearest neighbor rule (kNN) andrule-based classification systems. For the kNN rule, one concern is that the imprecise training data in class over lapping regions may greatly affect its performance. An evidential editing version of the kNNrule was developed based on the theory of belief functions in order to well model the imprecise information for those samples in over lapping regions. Another consideration is that, sometimes, only an incomplete training data set is available, in which case the ideal behaviors of the kNN rule degrade dramatically. Motivated by this problem, we designedan evidential fusion scheme for combining a group of pairwise kNN classifiers developed based on locally learned pairwise distance metrics.For rule-based classification systems, in order to improving their performance in complex applications, we extended the traditional fuzzy rule-based classification system in the framework of belief functions and develop a belief rule-based classification system to address uncertain information in complex classification problems. Further, considering that in some applications, apart from training data collected by sensors, partial expert knowledge can also be available, a hybrid belief rule-based classification system was developed to make use of these two types of information jointly for classification
APA, Harvard, Vancouver, ISO, and other styles
23

Viallon, Vivian. "Processus empiriques, estimation non paramétrique et données censurées." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00119260.

Full text
Abstract:
La théorie des processus empiriques joue un rôle central en statistique, puisqu'elle concerne l'ensemble des résultats limites généraux se rapportant aux échantillons aléatoires. En particulier, des lois uniformes du logarithme ont permis d'aborder de manière systématique la convergence en norme sup des estimateurs à noyau. Dans cette thèse, nous obtenons premièrement des lois fonctionnelles uniformes du logarithme pour les incréments du processus des quantiles normé, qui permettent d'établir des propriétés nouvelles des estimateurs basés sur les k-plus proches voisins. Le même type de résultat est ensuite obtenu pour les incréments du processus empirique de Kaplan-Meier, conduisant naturellement à des lois du logarithme uniformes pour des estimateurs de la densité et du taux de mortalité en présence de censure à droite. Dans le cas de la régression multivariée, des lois analogues sont obtenues pour des estimateurs à noyau, notamment dans le cas censuré. Enfin, nous développons un estimateur non paramétrique de la régression sous l'hypothèse du modèle additif dans le cas de censure à droite, permettant de se défaire du fléau de la dimension. Cet estimateur repose essentiellement sur la méthode d'intégration marginale.
APA, Harvard, Vancouver, ISO, and other styles
24

Vincent, Pascal. "Modèles à noyaux à structure locale." Thèse, 2003. http://hdl.handle.net/1866/14543.

Full text
APA, Harvard, Vancouver, ISO, and other styles
25

Vicente, Sergio. "Apprentissage statistique avec le processus ponctuel déterminantal." Thesis, 2021. http://hdl.handle.net/1866/25249.

Full text
Abstract:
Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires et donc moins susceptibles de figurer dans un même sous-ensemble. Contrairement à la sélection aléatoire uniforme, ce processus ponctuel privilégie les sous-ensembles qui contiennent des points diversifiés et hétérogènes. La notion de diversité acquiert une importante grandissante au sein de sciences comme la médecine, la sociologie, les sciences forensiques et les sciences comportementales. Le processus ponctuel déterminantal offre donc une alternative aux traditionnelles méthodes d’échantillonnage en tenant compte de la diversité des éléments choisis. Actuellement, il est déjà très utilisé en apprentissage automatique comme modèle de sélection de sous-ensembles. Son application en statistique est illustrée par trois articles. Le premier article aborde le partitionnement de données effectué par un algorithme répété un grand nombre de fois sur les mêmes données, le partitionnement par consensus. On montre qu’en utilisant le processus ponctuel déterminantal pour sélectionner les points initiaux de l’algorithme, la partition de données finale a une qualité supérieure à celle que l’on obtient en sélectionnant les points de façon uniforme. Le deuxième article étend la méthodologie du premier article aux données ayant un grand nombre d’observations. Ce cas impose un effort computationnel additionnel, étant donné que la sélection de points par le processus ponctuel déterminantal passe par la décomposition spectrale de la matrice de similarité qui, dans ce cas-ci, est de grande taille. On présente deux approches différentes pour résoudre ce problème. On montre que les résultats obtenus par ces deux approches sont meilleurs que ceux obtenus avec un partitionnement de données basé sur une sélection uniforme de points. Le troisième article présente le problème de sélection de variables en régression linéaire et logistique face à un nombre élevé de covariables par une approche bayésienne. La sélection de variables est faite en recourant aux méthodes de Monte Carlo par chaînes de Markov, en utilisant l’algorithme de Metropolis-Hastings. On montre qu’en choisissant le processus ponctuel déterminantal comme loi a priori de l’espace des modèles, le sous-ensemble final de variables est meilleur que celui que l’on obtient avec une loi a priori uniforme.
This thesis presents the determinantal point process, a probabilistic model that captures repulsion between points of a certain space. This repulsion is encompassed by a similarity matrix, the kernel matrix, which selects which points are more similar and then less likely to appear in the same subset. This point process gives more weight to subsets characterized by a larger diversity of its elements, which is not the case with the traditional uniform random sampling. Diversity has become a key concept in domains such as medicine, sociology, forensic sciences and behavioral sciences. The determinantal point process is considered a promising alternative to traditional sampling methods, since it takes into account the diversity of selected elements. It is already actively used in machine learning as a subset selection method. Its application in statistics is illustrated with three papers. The first paper presents the consensus clustering, which consists in running a clustering algorithm on the same data, a large number of times. To sample the initials points of the algorithm, we propose the determinantal point process as a sampling method instead of a uniform random sampling and show that the former option produces better clustering results. The second paper extends the methodology developed in the first paper to large-data. Such datasets impose a computational burden since sampling with the determinantal point process is based on the spectral decomposition of the large kernel matrix. We introduce two methods to deal with this issue. These methods also produce better clustering results than consensus clustering based on a uniform sampling of initial points. The third paper addresses the problem of variable selection for the linear model and the logistic regression, when the number of predictors is large. A Bayesian approach is adopted, using Markov Chain Monte Carlo methods with Metropolis-Hasting algorithm. We show that setting the determinantal point process as the prior distribution for the model space selects a better final model than the model selected by a uniform prior on the model space.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography