To see the other types of publications on this topic, follow the link: Clustering (intelligence artificielle).

Dissertations / Theses on the topic 'Clustering (intelligence artificielle)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 39 dissertations / theses for your research on the topic 'Clustering (intelligence artificielle).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Lévy, Loup-Noé. "Advanced Clustering and AI-Driven Decision Support Systems for Smart Energy Management." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG027.

Full text
Abstract:
Cette thèse aborde le clustering de systèmes énergétiques complexes et hétérogènes au sein d'un système d'aide à la décision (SAD).Dans le chapitre 1, nous explorons d'abord la théorie des systèmes complexes et leur modélisation, reconnaissant les bâtiments comme des Systèmes Complexes Sociotechniques. Nous examinons l'état de l'art des acteurs impliqués dans la performance énergétique, identifiant notre cas d'étude comme le Tiers de Confiance pour la Mesure et la Performance Énergétique (TCMPE). Face à nos contraintes, nous nous focalisons sur le besoin d'un système d'aide à la décision pour fournir des recommandations énergétiques, le comparant aux systèmes de supervision et de recommandation et soulignant l'importance de l'explicabilité dans la prise de décision assistée par IA (XAI). Reconnaissant la complexité et l'hétérogénéité des bâtiments gérés par le TCMPE, nous argumentons que le clustering est une étape initiale cruciale pour développer un SAD, permettant des recommandations sur mesure pour des sous-groupes homogènes de bâtiments.Dans le Chapitre 2, nous explorons l'état de l'art des systèmes semi-automatisés pour la prise de décisions à haut risque, mettant l'accent sur la nécessité de gouvernance dans les SAD. Nous investiguons les régulations européennes, mettant en lumière le besoin d'exactitude, de fiabilité, et d'équité de notre système décisionnel, et identifions des méthodologies pour adresser ces besoins, telles que la méthodologie DevOps et le data lineage. Nous proposons une architecture distribuée du SAD qui répond à ces exigences et aux défis posés par le Big Data, intégrant un datalake pour la manipulation des données hétérogènes et massive, des datamarts pour la sélection et le traitement spécifiques des données, et une ML-Factory pour peupler une bibliothèque de modèles. Différentes méthodes de Machine Learning sont sélectionnées pour les différents besoins spécifiques du SAD.Le Chapitre 3 se concentre sur le clustering comme méthode d'apprentissage automatique primaire dans notre cas d'étude, il est essentiel pour identifier des groupes homogènes de bâtiments. Face à la nature plurielle - numérique, catégorielle, séries temporelles - des données décrivant les bâtiments, nous proposons le concept de clustering complexe. Après avoir examiné l'état de l'art, nous identifions la nécessité d'introduire des techniques de réduction de dimensionnalité, associé à des méthodes de clustering numérique et mixte état de l'art. La Prétopologie est proposée comme approche novatrice pour le clustering de données mixtes et complexes. Nous soutenons qu'elle permet une plus grande explicabilité et interactivité, en permettant un clustering hiérarchique construit sur de règles logiques et de notions de proximité adaptées au contexte. Les défis de l'évaluation du clustering complexe sont abordés, et des adaptations de l'évaluation des jeux de donnée numérique sont proposées.Dans le chapitre 4, nous analysons les performances computationnelles des algorithmes et la qualité des clusters obtenus sur différents jeux de données variant en taille, nombre de clusters, distribution et nombre de dimensions. Ces jeux de donnée sont publique, privées ou généré pour les tests. La Prétopologie et l'utilisation de la réduction de dimensionnalité montrent des résultats prometteurs comparés aux méthodes de clustering de données mixtes de l'état de l'art.En conclusion, nous discutons des limitations de notre système, y compris les limites d'automatisation du SAD à chaque étape du flux de données. Nous mettons l'accent sur le rôle crucial de la qualité des données et les défis de prédire le comportement des systèmes complexes au fil du temps. L'objectivité de nos méthodes d'évaluation de clustering est questionnée en raison de l'absence de vérité terrain. Nous envisageons des travaux futurs, tels que l'automatisation de l'hyperparamètrisation et la continuation du développement du SAD
This thesis addresses the clustering of complex and heterogeneous energy systems within a Decision Support System (DSS).In chapter 1, we delve into the theory of complex systems and their modeling, recognizing buildings as complex systems, specifically as Sociotechnical Complex Systems. We examine the state of the art of the different agents involved in energy performance within the energy sector, identifying our case study as the Trusted Third Party for Energy Measurement and Performance (TTPEMP.) Given our constraints, we opt to concentrate on the need for a DSS to provide energy recommendations. We compare this system to supervision and recommender systems, highlighting their differences and complementarities and introduce the necessity for explainability in AI-aided decision-making (XAI). Acknowledging the complexity, numerosity, and heterogeneity of buildings managed by the TTPEMP, we argue that clustering serves as a pivotal first step in developing a DSS, enabling tailored recommendations and diagnostics for homogeneous subgroups of buildings. This is presented in Chapter 1.In Chapter 2, we explore DSSs' state of the art, emphasizing the need for governance in semi-automated systems for high-stakes decision-making. We investigate European regulations, highlighting the need for accuracy, reliability, and fairness in our decision system, and identify methodologies to address these needs, such as DevOps methodology and Data Lineage. We propose a DSS architecture that addresses these requirements and the challenges posed by big data, featuring a distributed architecture comprising a data lake for heterogeneous data handling, datamarts for specific data selection and processing, and an ML-Factory populating a model library. Different types of methods are selected for different needs based on the specificities of the data and of the question needing answering.Chapter 3 focuses on clustering as a primary machine learning method in our architecture, essential for identifying homogeneous groups of buildings. Given the combination of numerical, categorical and time series nature of the data describing buildings, we coin the term complex clustering to address this combination of data types. After reviewing the state-of-the-art, we identify the need for dimensionality reduction techniques and the most relevant mixed clustering methods. We also introduce Pretopology as an innovative approach for mixed and complex data clustering. We argue that it allows for greater explainability and interactability in the clustering as it enables Hierarchical clustering and the implementation of logical rules and custom proximity notions. The challenges of evaluating clustering are addressed, and adaptations of numerical clustering to mixed and complex clustering are proposed, taking into account the explainability of the methods.In the datasets and results chapter, we present the public, private, and generated datasets used for experimentation and discuss the clustering results. We analyze the computational performances of algorithms and the quality of clusters obtained on different datasets varying in size, number of clusters, distribution, and number of categorical and numerical parameters. Pretopology and Dimensionality Reduction show promising results compared to state-of-the-art mixed data clustering methods.Finally, we discuss our system's limitations, including the automation limits of the DSS at each step of the data flow. We focus on the critical role of data quality and the challenges in predicting the behavior of complex systems over time. The objectivity of our clustering evaluation methods is challenged due to the absence of ground truth and the reliance on dimensionality reduction to adapt state-of-the-art metrics to complex data. We discuss possible issues regarding the chosen elbow method and future work, such as automation of hyperparameter tuning and continuing the development of the DSS
APA, Harvard, Vancouver, ISO, and other styles
2

Rastin, Parisa. "Automatic and Adaptive Learning for Relational Data Stream Clustering." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD052.

Full text
Abstract:
Le travail de recherche exposé dans cette thèse concerne le développement d’approches d’apprentissage non-supervisé adaptés aux grands jeux de données relationnelles et dynamiques. La combinaison de ces trois caractéristiques (taille, complexité et évolution)constitue un défi majeur dans le domaine de l’exploration de données et peu de solutions satisfaisantes existent pour le moment, malgré les besoins de plus en plus manifestes des entreprises. C’est un véritable challenge, car les approches adaptées aux données relationnelle sont une complexité quadratique inadaptée à l’analyse de données dynamiques. Nous proposons ici deux approches complémentaires pour l’analyse de ce type de données. La première approche est capable de détecter des clusters bien séparés à partir d’un signal créé lors d’un réordonnancement incrémental de la matrice de dissimilarité, sans paramètre à choisir (par ex. le nombre de clusters). La seconde propose d’utiliser des points de support parmi les objets afin de construire un espace de représentation permettant de définir des prototypes représentatifs des clusters. Enfin, nous appliquons les approches proposées au profilage en temps réel d’utilisateurs connectés. Les tâches de profilage visent à reconnaître"l’état d’esprit" des utilisateurs à travers leurs navigations sur différents sites
The research work presented in this thesis concerns the development of unsupervised learning approaches adapted to large relational and dynamic data-sets. The combination of these three characteristics (size, complexity and evolution) is a major challenge in the field of data mining and few satisfactory solutions exist at the moment, despite the obvious needs of companies. This is a real challenge, because the approaches adapted to relational data have a quadratic complexity, unsuited to the analysis of dynamic data. We propose here two complementary approaches for the analysis of this type of data. The first approach is able to detect well-separated clusters from a signal created during an incremental reordering of the dissimilarity matrix, with no parameter to choose (e.g., the number of clusters). The second proposes to use support points among the objects in order to build a representation space to define representative prototypes of the clusters. Finally, we apply the proposed approaches to real-time profiling of connected users. Profiling tasks are designed to recognize the "state of mind" of users through their navigations on different web-sites
APA, Harvard, Vancouver, ISO, and other styles
3

Guillon, Arthur. "Opérateurs de régularisation pour le subspace clustering flou." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS121.

Full text
Abstract:
Cette thèse considère une tâche de fouille de données appelée subspace clustering, qui consiste à simultanément identifier des groupes de données similaires et à expliciter cette similarité, notamment en mettant en avant les attributs caractéristiques de ces différents groupes. Nous proposons l'étude d'une famille particulière de modèles de subspace clustering flou, qui reposent sur la minimisation d'une fonction de coût. Nous formulons trois propriétés souhaitables en clustering, dont nous montrons qu'elles sont absentes des minima du modèle que nous étudions. Nous les reformulons sous forme de fonctions de pénalité, que nous rajoutons aux fonctions de coût des algorithmes initiaux. Certaines de ces pénalités étant non différentiables, les techniques d'optimisation usuelles en clustering flou ne sont pas applicables; nous proposons un algorithme de subspace clustering générique qui étend l'approche classique et combine optimisation alternée et descente proximale. Nous appliquons ensuite cet algorithme aux trois pénalités précédentes et montrons que les algorithmes qui en résultent satisfont les propriétés correspondantes
Subspace clustering is a data mining task which consists in simultaneously identifiying groups of similar data and making this similarity explicit, for example by selecting features characteristic of the groups. In this thesis, we consider a specific family of fuzzy subspace clustering models, which are based on the minimization of a cost function. We propose three desirable qualities of clustering, which are absent from the solutions computed by the previous models. We then propose simple penalty terms which we use to encode these properties in the original cost functions. Some of these terms are non-differentiable and the techniques standard in fuzzy clustering cannot be applied to minimize the new cost functions. We thus propose a new, generic optimization algorithm, which extends the standard approach by combining alternate optimization and proximal gradient descent. We then instanciate this algorithm with operators minimizing the three previous penalty terms and show that the resulting algorithms posess the corresponding qualities
APA, Harvard, Vancouver, ISO, and other styles
4

Sarazin, Tugdual. "Apprentissage massivement distribué dans un environnement Big Data." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD050.

Full text
Abstract:
Lors de ces dernières années les volumes de données analysées par les entreprises et les laboratoires de recherches ont fortement augment´es ouvrant ainsi l’`ere du BigData. Cependant ces données brutes sont fréquemment non catégorisées et difficilement exploitables. Cette thèse vise à améliorer et faciliter le pré-traitement et la comprehension de grands volumes de données en fournissant des algorithmes d’apprentissage non supervisés. La première partie de cette thèse est consacrée à un état de l’art des algorithmes de partitionnement et bi-partitionnement ainsi qu’une présentation des technologies du Big Data. La première contribution de cette thèse est dédiée à la conception de l’algorithme de clustering Self-Organizing Map ou carte auto-organisatrice [Kohonen,2001] dans un environnement Big data. Notre algorithme (SOM-MR) fournit les mêmes avantages que l’algorithme de base, à savoir la création de partition de données et leur visualisation sous la forme de carte. De plus il utilise la plateforme Spark, ce qui lui permet à la fois de traiter de grands volumes de données en peu de temps. De part la popularité de cette plateforme il s’intègre facilement dans dans de nombreux environnements de traitement de données. C’est ce que nous avons démontré dans notre projet “Square Predict” réalisé en partenariat avec l’assurance Axa. Ce projet avait pour objectif de fournir une plateforme d’analyse de données en temps r´eel afin d’évaluer la sévérité d’une catastrophe naturelle ou d’améliorer la connaissance des risques résidentiels. Durant ce projet nous avons démontré l’efficacité de notre algorithme pour analyser et fournir des visualisations à partir de grands volumes de données provenant des réseaux sociaux et d’Open data. La deuxième contribution de cette thèse est consacrée à un nouvel algorithme de BiClustering. Le BiClustering consiste `a réaliser un clustering simultanément sur les observations et les variables. Dans cette contribution nous proposons une nouvelle approche de biclustering bas´e sur l’algorithme self-organizing maps capable de passer `a l’échelle sur de grands volumes de données (BiTM-MR). Pour ce faire il est également basé sur la plateforme des technologies Big data. Mais il apporte davantage d’informations que notre algorithme SOM-MR car en plus de produire des groupes d’observations il associe des variables à ces groupes, formant ainsi des bi-groupes d’observations et variables
In recent years, the amount of data analysed by companies and research laboratories increased strongly, opening the era of BigData. However, these raw data are frequently non-categorized and uneasy to use. This thesis aims to improve and ease the pre-treatment and comprehension of these big amount of data by using unsupervised machine learning algorithms.The first part of this thesis is dedicated to a state-of-the-art of clustering and biclustering algorithms and to an introduction to big data technologies. The first part introduces the conception of clustering Self-Organizing Map algorithm [Kohonen,2001] in big data environment. Our algorithm (SOM-MR) provides the same advantages as the original algorithm, namely the creation of data visualisation map based on data clusters. Moreover, it uses the Spark platform that makes it able to treat a big amount of data in a short time. Thanks to the popularity of this platform, it easily fits in many data mining environments. This is what we demonstrated it in our project \Square Predict" carried out in partnership with Axa insurance. The aim of this project was to provide a real-time data analysing platform in order to estimate the severity of natural disasters or improve residential risks knowledge. Throughout this project, we proved the efficiency of our algorithm through its capacity to analyse and create visualisation out of a big volume of data coming from social networks and open data.The second part of this work is dedicated to a new bi-clustering algorithm. BiClustering consists in making a cluster of observations and variables at the same time. In this contribution we put forward a new approach of bi-clustering based on the self-organizing maps algorithm that can scale on big amounts of data (BiTM-MR). To reach this goal, this algorithm is also based on a the Spark platform. It brings out more information than the SOM-MR algorithm because besides producing observation groups, it also associates variables to these groups,thus creating bi-clusters of variables and observations
APA, Harvard, Vancouver, ISO, and other styles
5

Thépaut, Solène. "Problèmes de clustering liés à la synchronie en écologie : estimation de rang effectif et détection de ruptures sur les arbres." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS477/document.

Full text
Abstract:
Au vu des changements globaux actuels engendrés en grande partie par l'être humain, il devient nécessaire de comprendre les moteurs de la stabilité des communautés d'êtres vivants. La synchronie des séries temporelles d'abondances fait partie des mécanismes les plus importants. Cette thèse propose trois angles différents permettant de répondre à différentes questions en lien avec la synchronie interspécifique ou spatiale. Les travaux présentés trouvent des applications en dehors du cadre écologique. Un premier chapitre est consacré à l'estimation du rang effectif de matrices à valeurs dans ℝ ou ℂ. Nous apportons ainsi des outils permettant de mesurer le taux de synchronisation d'une matrice d'observations. Dans le deuxième chapitre, nous nous basons sur les travaux existants sur le problème de détection de ruptures sur les chaînes afin de proposer plusieurs algorithmes permettant d'adapter ce problème au cas des arbres. Les méthodes présentées peuvent être utilisées sur la plupart des données nécessitant d'être représentées sous la forme d'un arbre. Afin d'étudier les liens entre la synchronie interspécifique et les tendances à long termes ou les traits d'espèces de papillons, nous proposons dans le dernier chapitre d'adapter des méthodes de clustering et d'apprentissage supervisé comme les Random Forest ou les Réseaux de Neurones artificiels à des données écologiques
In the view of actual global changes widely caused by human activities, it becomes urgent to understand the drivers of communities' stability. Synchrony between time series of abundances is one of the most important mechanisms. This thesis offers three different angles in order to answer different questions linked to interspecific and spatial synchrony. The works presented find applications beyond the ecological frame. A first chapter is dedicated to the estimation of effective rank of matrices in ℝ or ℂ. We offer tools allowing to measure the synchronisation rate of observations matrices. In the second chapter, we base on the existing work on change-points detection problem on chains in order to offer algorithms which detects change-points on trees. The methods can be used with most data that have to be represented as a tree. In order to study the link between interspecific synchrony and long term tendencies or traits of butterflies species, we offer in the last chapter adaptation of clustering and supervised machine learning methods, such as Random Forest or Artificial Neural Networks to ecological data
APA, Harvard, Vancouver, ISO, and other styles
6

Masmoudi, Nesrine. "Modèle bio-inspiré pour le clustering de graphes : application à la fouille de données et à la distribution de simulations." Thesis, Normandie, 2017. http://www.theses.fr/2017NORMLH26/document.

Full text
Abstract:
Dans ce travail de thèse, nous présentons une méthode originale s’inspirant des comportements des fourmis réelles pour la résolution de problème de classification non supervisée non hiérarchique. Cette approche créée dynamiquement des groupes de données. Elle est basée sur le concept des fourmis artificielles qui se déplacent en même temps de manière complexe avec les règles de localisation simples. Chaque fourmi représente une donnée dans l’algorithme. Les mouvements des fourmis visent à créer des groupes homogènes de données qui évoluent ensemble dans une structure de graphe. Nous proposons également une méthode de construction incrémentale de graphes de voisinage par des fourmis artificielles. Nous proposons deux méthodes qui se dérivent parmi les algorithmes biomimétiques. Ces méthodes sont hybrides dans le sens où la recherche du nombre de classes, de départ, est effectuée par l’algorithme de classification K-Means, qui est utilisé pour initialiser la première partition et la structure de graphe
In this work, we present a novel method based on behavior of real ants for solving unsupervised non-hierarchical classification problem. This approach dynamically creates data groups. It is based on the concept of artificial ants moving complexly at the same time with simple location rules. Each ant represents a data in the algorithm. The movements of ants aim to create homogenous data groups that evolve together in a graph structure. We also propose a method of incremental building neighborhood graphs by artificial ants. We propose two approaches that are derived among biomimetic algorithms, they are hybrid in the sense that the search for the number of classes starting, which are performed by the classical algorithm K-Means classification, it is used to initialize the first partition and the graph structure
APA, Harvard, Vancouver, ISO, and other styles
7

Sublemontier, Jacques-Henri. "Classification non supervisée : de la multiplicité des données à la multiplicité des analyses." Phd thesis, Université d'Orléans, 2012. http://tel.archives-ouvertes.fr/tel-00801555.

Full text
Abstract:
La classification automatique non supervisée est un problème majeur, aux frontières de multiples communautés issues de l'Intelligence Artificielle, de l'Analyse de Données et des Sciences de la Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l'automatiser pour la rendre applicable à un grand nombre d'objets (ou individus) à classer. Des visées plus applicatives s'intéressent à l'organisation automatique de grands ensembles d'objets en différents groupes partageant des caractéristiques communes. La présente thèse propose des méthodes de classification non supervisées applicables lorsque plusieurs sources d'informations sont disponibles pour compléter et guider la recherche d'une ou plusieurs classifications des données. Pour la classification non supervisée multi-vues, la première contribution propose un mécanisme de recherche de classifications locales adaptées aux données dans chaque représentation, ainsi qu'un consensus entre celles-ci. Pour la classification semi-supervisée, la seconde contribution propose d'utiliser des connaissances externes sur les données pour guider et améliorer la recherche d'une classification d'objets par un algorithme quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un environnement collaboratif permettant d'atteindre au choix les objectifs de consensus et d'alternatives pour la classification d'objets mono-représentés ou multi-représentés. Cette dernière contribution ré-pond ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la classification non supervisée, et propose, au sein d'une même plate-forme unificatrice, une proposition répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des Connaissances.
APA, Harvard, Vancouver, ISO, and other styles
8

Falih, Issam. "Attributed Network Clustering : Application to recommender systems." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD011/document.

Full text
Abstract:
Au cours de la dernière décennie, les réseaux (les graphes) se sont révélés être un outil efficace pour modéliser des systèmes complexes. La problématique de détection de communautés est une tâche centrale dans l’analyse des réseaux complexes. La majeur partie des travaux dans ce domaine s’intéresse à la structure topologique des réseaux. Cependant, dans plusieurs cas réels, les réseaux complexes ont un ensemble d’attributs associés aux nœuds et/ou aux liens. Ces réseaux sont dites : réseaux attribués. Mes activités de recherche sont basées principalement sur la détection des communautés dans les réseaux attribués. Pour aborder ce problème, on s’est intéressé dans un premier temps aux attributs relatifs aux liens, qui sont un cas particulier des réseaux multiplexes. Un multiplex est un modèle de graphe multi-relationnel. Il est souvent représenté par un graphe multi-couches. Chaque couche contient le même ensemble de nœuds mais encode une relation différente. Dans mes travaux de recherche, nous proposons une étude comparative des différentes approches de détection de communautés dans les réseaux multiplexes. Cette étude est faite sur des réseaux réels. Nous proposons une nouvelle approche centrée "graine" pour la détection de communautés dans les graphes multiplexes qui a nécessité la redéfinition des métriques de bases des réseaux complexes au cas multiplex. Puis, nous proposons une approche de clustering dans les réseaux attribués qui prend en considération à la fois les attributs sur les nœuds et sur les liens. La validation de mes approches a été faite avec des indices internes et externes, mais aussi par une validation guidée par un système de recommandation que nous avons proposé et dont la détection de communautés est sa tâche principale. Les résultats obtenus sur ces approches permettent d’améliorer la qualité des communautés détectées en prenant en compte les informations sur les attributs du réseaux. De plus, nous offrons des outils d’analyse des réseaux attribués sous le langage de programmation R
In complex networks analysis field, much effort has been focused on identifying graphs communities of related nodes with dense internal connections and few external connections. In addition to node connectivity information that are mostly composed by different types of links, most real-world networks contains also node and/or edge associated attributes which can be very relevant during the learning process to find out the groups of nodes i.e. communities. In this case, two types of information are available : graph data to represent the relationship between objects and attributes information to characterize the objects i.e nodes. Classic community detection and data clustering techniques handle either one of the two types but not both. Consequently, the resultant clustering may not only miss important information but also lead to inaccurate findings. Therefore, various methods have been developed to uncover communities in networks by combining structural and attribute information such that nodes in a community are not only densely connected, but also share similar attribute values. Such graph-shape data is often referred to as attributed graph.This thesis focuses on developing algorithms and models for attributed graphs. Specifically, I focus in the first part on the different types of edges which represent different types of relations between vertices. I proposed a new clustering algorithms and I also present a redefinition of principal metrics that deals with this type of networks.Then, I tackle the problem of clustering using the node attribute information by describing a new original community detection algorithm that uncover communities in node attributed networks which use structural and attribute information simultaneously. At last, I proposed a collaborative filtering model in which I applied the proposed clustering algorithms
APA, Harvard, Vancouver, ISO, and other styles
9

Boudane, Abdelhamid. "Fouille de données par contraintes." Thesis, Artois, 2018. http://www.theses.fr/2018ARTO0403/document.

Full text
Abstract:
Dans cette thèse, nous abordons les problèmes bien connus de clustering et de fouille de règles d’association. Notre première contribution introduit un nouveau cadre de clustering, où les objets complexes sont décrits par des formules propositionnelles. Premièrement, nous adaptons les deux fameux algorithmes de clustering, à savoir, le k-means et l’algorithme hiérarchique ascendant, pour traiter ce type d’objets complexes. Deuxièmement, nous introduisons un nouvel algorithme hiérarchique descendant pour le clustering des objets représentés explicitement par des ensembles de modèles. Enfin, nous proposons un encodage basé sur la satisfiabilité propositionnelle du problème de clustering des formules propositionnelles sans avoir besoin d’une représentation explicite de leurs modèles. Dans une seconde contribution, nous proposons une nouvelle approche basée sur la satisfiabilité pour extraire les règles d’association en une seule étape. La tâche est modélisée comme une formule propositionnelle dont les modèles correspondent aux règles à extraire. Pour montrer la flexibilité de notre cadre, nous abordons également d’autres variantes, à savoir, l’extraction des règles d’association fermées, minimales non redondantes, les plus générales et les indirectes. Les expérimentations sur de nombreux jeux de données montrent que sur la majorité des tâches de fouille de règles d’association considérées, notre approche déclarative réalise de meilleures performances que les méthodes spécialisées
In this thesis, We adress the well-known clustering and association rules mining problems. Our first contribution introduces a new clustering framework, where complex objects are described by propositional formulas. First, we extend the two well-known k-means and hierarchical agglomerative clustering techniques to deal with these complex objects. Second, we introduce a new divisive algorithm for clustering objects represented explicitly by sets of models. Finally, we propose a propositional satisfiability based encoding of the problem of clustering propositional formulas without the need for an explicit representation of their models. In a second contribution, we propose a new propositional satisfiability based approach to mine association rules in a single step. The task is modeled as a propositional formula whose models correspond to the rules to be mined. To highlight the flexibility of our proposed framework, we also address other variants, namely the closed, minimal non-redundant, most general and indirect association rules mining tasks. Experiments on many datasets show that on the majority of the considered association rules mining tasks, our declarative approach achieves better performance than the state-of-the-art specialized techniques
APA, Harvard, Vancouver, ISO, and other styles
10

Boutalbi, Rafika. "Model-based tensor (co)-clustering and applications." Electronic Thesis or Diss., Université Paris Cité, 2020. https://wo.app.u-paris.fr/cgi-bin/WebObjects/TheseWeb.woa/wa/show?t=7172&f=55867.

Full text
Abstract:
La classification non supervisée ou clustering suscite un grand intérêt dans la communauté d’apprentissage machine. Etant donné un ensemble d'objets décrits par un ensemble d'attributs, le clustering vise à partitionner l'ensemble des objets en classes homogènes. Le regroupement ou catégorisation de cet ensemble, est souvent nécessaire pour le traitement de données massives, devenu actuellement un axe de recherche prioritaire. A noter que lorsqu'on s'intéresse au clustering, nous faisons généralement référence au clustering de l'ensemble des objets. Depuis deux décennies, un intérêt est porté à la classification croisée (ou co-clustering) qui permet de regrouper simultanément les lignes et les colonnes d'une matrice de données. Le co-clustering conduit de ce fait à une réorganisation des données en blocs homogènes (après permutations appropriées). Cette approche joue un rôle important dans une grande variété d'applications où les données sont généralement organisées dans des tableaux à double entrées. Cependant si on considère l’exemple du clustering d’articles, nous pouvons collecter plusieurs informations telles que les termes en commun, les co-auteurs et les citations, qui conduisent naturellement à une représentation tensorielle. L'exploitation d'un tel tenseur d'ordre 3 permettrait d'améliorer les résultats de clustering d'un des ensembles. Ainsi, deux articles qui partagent un ensemble important de mots en commun, qui ont des auteurs en commun et qui partagent une bibliographie commune, sont très susceptibles de traiter d'une même thématique. Dans cette thèse nous nous intéressons à de telles structures de données. Malgré le grand intérêt pour le co-clustering et la représentation tensorielle, peu de travaux portent sur le co-clustering de tenseurs. Nous pouvons néanmoins citer le travail basé sur l’information Minimum Bregman (MBI), ou encore la méthode de co-clustering de tenseurs non négatifs GTSC (General Tensor Spectral Co-Clustering). Mais la majorité des travaux considèrent le co-clustering à partir de méthodes de factorisation tensorielles. Dans cette thèse nous proposons de nouvelles approches probabilistes pour le co-clustering de tenseur d'ordre 3. Dès lors plusieurs défis sont à relever dont les suivants. Comment gérer efficacement les données de grande dimension ? Comment gérer la sparsité des données et exploiter les dépendances inter-tranches des données tensorielles ? S'inspirant de la célèbre citation de Jean Paul Benzcri "Le modèle doit suivre les données et non l’inverse", nous avons choisi dans cette thèse de nous appuyer sur des modèles de mélange appropriés. Ainsi, nos contributions sont basées sur le modèle des blocs latents ou (LBM, Latent Block Model) pour le co-clustering, proposé pour la première fois par Govaert et al. Voici une brève description des différentes contributions : a) Extension du formalisme des LBM au co-clustering des données tensorielles et présentation d'un nouveau modèle Tensor LBM (TLBM) comme solution, b) Proposition d'un Sparse TLBM prenant en compte la sparsité et son extension pour la gestion des graphes multiples ou graphes multi-vues, et c) Développement d'une méthode de co-clusterwise qui intègre le co-clustering dans un cadre d'apprentissage supervisé. Ces contributions ont été évaluées avec succès sur des données tensorielles issues de divers domaines allant des systèmes de recommandation, le clustering d'images hyperspectrales, la catégorisation de documents, à l'optimisation de la gestion des déchets. Elles permettent également d'envisager des pistes de recherches futures intéressantes et immédiates. Par exemple, l'extension du modèle proposé au tri-clustering et aux séries temporelles multivariées
Clustering, which seeks to group together similar data points according to a given criterion, is an important unsupervised learning technique to deal with large scale data. In particular, given a data matrix where rows represent objects and columns represent features, clustering aims to partition only one dimension of the matrix at a time, by clustering either objects or features. Although successfully applied in several application domains, clustering techniques are often challenged by certain characteristics exhibited by some datasets such as high dimensionality and sparsity. When it comes to such data, co-clustering techniques, which allow the simultaneous clustering of rows and columns of a data matrix, has proven to be more beneficial. In particular, co-clustering techniques allow the exploitation of the inherent duality between the objects set and features set, which make them more effective even if we are interested in the clustering of only one dimension of our data matrix. In addition, co-clustering turns out to be more efficient since compressed matrices are used at each time step of the process instead of the whole matrix for traditional clustering. Although co-clustering approaches have been successfully applied in a variety of applications, existing approaches are specially tailored for datasets represented by double-entry tables. However, in several real-world applications, two dimensions are not sufficient to represent the dataset. For example, if we consider the articles clustering problem, several information linked to the articles can be collected, such as common words, co-authors and citations, which naturally lead to a tensorial representation. Intuitively, leveraging all this information would lead to a better clustering quality. In particular, two articles that share a large set of words, authors and citations are very likely to be similar. Despite the great interest of tensor co-clustering models, research works are extremely limited in this context and rely, for most of them, on tensor factorization methods. Inspired by the famous statement made by Jean Paul Benzécri "The model must follow the data and not vice versa", we have chosen in this thesis to rely on appropriate mixture models. More explicitly, we propose several new co-clustering models which are specially tailored for tensorial representations as well as robust towards data sparsity. Our contribution can be summarized as follows. First, we propose to extend the LBM (Latent Block Model) formalism to take into account tensorial structures. More specifically, we present Tensor LBM (TLBM), a powerful tensor co-clustering model that we successfully applied on diverse kind of data. Moreover, we highlight that the derived algorithm VEM-T, reveals the most meaningful co-clusters from tensor data. Second, we develop a novel Sparse TLBM taking into account sparsity. We extend its use for the management of multiple graphs (or multi-view graphs), leading to implicit consensus clustering of multiple graphs. As a last contribution of this thesis, we propose a new co-clusterwise method which integrates co-clustering in a supervised learning framework. These contributions have been successfully evaluated on tensorial data from various fields ranging from recommendation systems, clustering of hyperspectral images and categorization of documents, to waste management optimization. They also allow us to envisage interesting and immediate future research avenues. For instance, the extension of the proposed models to tri-clustering and multivariate time series
APA, Harvard, Vancouver, ISO, and other styles
11

Abba, Ari Ado Adamou. "Bio-inspired Solutions for Optimal Management in Wireless Sensor Networks." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLV044.

Full text
Abstract:
Au cours de ces dernières années, les réseaux de capteurs sans fils ont connu un intérêt croissant à la fois au sein de la communauté scientifique et industrielle en raison du large potentiel en terme d’applications offertes. Toutefois, les capteurs sont conçus avec d’extrêmes contraintes en ressources, en particulier la limitation de l’énergie. Il est donc nécessaire de concevoir des protocoles efficaces, évolutifs et moins consommateur d’énergie afin de prolonger la durée de vie de ces réseaux. Le clustering est une approche très populaire, utilisée pour l’optimisation de la consommation d’énergie des capteurs. Cette technique permet d’influencer fortement la performance globale du réseau. En outre, dans de tels réseaux, le routage génère un nombre assez élevé d’opérations non négligeables qui affectent considérablement la durée de vie du réseau ainsi que le débit offert. Dans cette thèse, nous nous sommes intéressés d’une part aux problèmes de clustering et de routage en utilisant des méthodes d’optimisation inspirées de certaines sociétés biologiques fournissant des modèles puissants qui conduisent à l’établissement d’une intelligence globale en se basant sur des comportements individuels très simples. Nous avons proposé une approche de clustering distribuée basée sur le processus de sélection des sites de nidification chez les colonies d’abeilles. Nous avons formulé le problème de clustering distribuée comme un processus social de prise de décision dans lequel les capteurs agissent d’une manière collective pour choisir des représentants au sein de leurs clusters respectifs. Le protocole proposé assure une distribution de l’équilibrage de charge entre les membres de chaque cluster afin de prolonger la durée de vie du réseau en faisant un compromis entre la consommation d’énergie et la qualité du canal de communication. D’autre part, nous avons proposé un protocole de routage basé sur des clusters en utilisant un algorithme inspiré du phénomène de butinage des abeilles. Nous avons formulé le problème de clustring comme un problème de programmation linéaire alors que le problème du routage est résolu par une fonction de coûts. L’algorithme de clustering permet la construction efficace des clusters en faisant un compromis entre la consommation d’énergie et la qualité du canal communication au sein des clusters tandis que le routage est réalisé de manière distribuée. Les protocoles proposés ont été intensivement expérimentés sur plusieurs topologies dans différents scénarios de réseaux et comparés avec des protocoles bien connus de clustering et routage. Les résultats obtenus démontrent l’efficacité des protocoles proposés
During the past few years, wireless sensor networks witnessed an increased interest in both the industrial and the scientific community due to the potential wide area of applications. However, sensors’ components are designed with extreme resource constraints, especially the power supply limitation. It is therefore necessary to design low power, scalable and energy efficient protocols in order to extend the lifetime of such networks. Cluster-based sensor networks are the most popular approach for optimizing the energy consumption of sensor nodes, in order to strongly influence the overall performance of the network. In addition, routing involves non negligible operations that considerably affect the network lifetime and the throughput. In this thesis, we addressed the clustering and routing problems by hiring intelligent optimization methods through biologically inspired computing, which provides the most powerful models that enabled a global intelligence through local and simple behaviors. We proposed a distributed clustering approach based on the nest-sites selection process of a honeybee swarm. We formulated the distributed clustering problem as a social decision-making process in which sensors act in a collective manner to choose their cluster heads. To achieve this choice, we proposed a multi- objective cost-based fitness function. In the design of our proposed algorithm, we focused on the distribution of load balancing among each cluster member in order to extend network lifetime by making a tradeoff between the energy consumption and the quality of the communication link among sensors. Then, we proposed a centralized cluster-based routing protocol for wireless sensor networks by using the fast and efficient searching features of the artificial bee colony algorithm. We formulated the clustering as a linear programming problem and the routing problem is solved by proposing a cost-based function. We designed a multi-objective fitness function that uses the weighted sum approach, in the assignment of sensors to a cluster. The clustering algorithm allows the efficient building of clusters by making a tradeoff between the energy consumption and the quality of the communication link within clusters while the routing is realized in a distributed manner. The proposed protocols have been intensively experimented with a number of topologies in various network scenarios and the results are compared with the well-known cluster-based routing protocols. The results demonstrated the effectiveness of the proposed protocols
APA, Harvard, Vancouver, ISO, and other styles
12

Bubeck, Sébastien. "JEUX DE BANDITS ET FONDATIONS DU CLUSTERING." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2010. http://tel.archives-ouvertes.fr/tel-00845565.

Full text
Abstract:
Ce travail de thèse s'inscrit dans le domaine du machine learning et concerne plus particulièrement les sous-catégories de l'optimisation stochastique, du online learning et du clustering. Ces sous-domaines existent depuis plusieurs décennies mais ils ont tous reçu un éclairage différent au cours de ces dernières années. Notamment, les jeux de bandits offrent aujourd'hui un cadre commun pour l'optimisation stochastique et l'online learning. Ce point de vue conduit a de nombreuses extensions du jeu de base. C'est sur l'étude mathématique de ces jeux que se concentre la première partie de cette thèse. La seconde partie est quant à elle dédiée au clustering et plus particulièrement à deux notions importantes: la consistance asymptotique des algorithmes et la stabilité comme méthode de sélection de modèles.
APA, Harvard, Vancouver, ISO, and other styles
13

Enjalbert, Courrech Nicolas. "Inférence post-sélection pour l'analyse des données transcriptomiques." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES199.

Full text
Abstract:
Dans le domaine de la transcriptomique, les avancées technologiques, telles que les puces à ADN et le séquençage à haut-débit, ont permis de quantifier l'expression génique à grande échelle. Ces progrès ont soulevé des défis statistiques, notamment pour l'analyse d'expression différentielle, visant à identifier les gènes différenciant significativement deux populations. Cependant, les procédures classiques d'inférence perdent leurs garanties de contrôle du taux de faux positifs lorsque les biologistes sélectionnent un sous-ensemble de gènes. Les méthodes d'inférence post hoc surmontent cette limitation en garantissant un contrôle sur le nombre de faux positifs, même pour des ensembles de gènes sélectionnés de manière arbitraire. La première contribution de ce manuscrit démontre l'efficacité de ces méthodes pour les données transcriptomiques de deux conditions biologiques, notamment grâce à l'introduction d'un algorithme de calcul des bornes post hoc à complexité linéaire, adapté à la grande dimension des données. Une application interactive a également été développée, facilitant la sélection et l'évaluation simultanée des bornes post hoc pour des ensembles de gènes d'intérêt. Ces contributions sont présentées dans la première partie du manuscrit. L'évolution technologique vers le séquençage en cellule unique a soulevé de nouvelles questions, notamment l'identification des gènes dont l'expression se distingue d'un groupe cellulaire à un (des) autre(s). Cette problématique est complexe car les groupes cellulaires doivent d'abord être estimés par une méthode de clustering, avant d'effectuer un test comparatif, menant ainsi à une analyse circulaire. Dans la seconde partie de ce manuscrit, nous présentons une revue des méthodes d'inférence post-clustering résolvant ce problème ainsi qu'une comparaison numérique des approches multivariées et marginales de comparaison de classes. Enfin, nous explorons comment l'utilisation des modèles de mélange dans l'étape de clustering peut être exploitée dans les tests post-clustering, et nous discutons de perspectives pour l'application de ces tests aux données transcriptomiques
In the field of transcriptomics, technological advances, such as microarrays and high-throughput sequencing, have enabled large-scale quantification of gene expression. These advances have raised statistical challenges, particularly in differential expression analysis, which aims to identify genes that significantly differentiate between two populations. However, traditional inference procedures lose their ability to control the false positive rate when biologists select a subset of genes. Post-hoc inference methods address this limitation by providing control over the number of false positives, even for arbitrary gene sets. The first contribution of this manuscript demonstrates the effectiveness of these methods for the differential analysis of transcriptomic data between two biological conditions, notably through the introduction of a linear-time algorithm for computing post-hoc bounds, adapted to the high dimensionality of the data. An interactive application was also developed to facilitate the selection and simultaneous evaluation of post-hoc bounds for sets of genes of interest. These contributions are presented in the first part of the manuscript. The technological evolution towards single-cell sequencing has raised new questions, particularly regarding the identification of genes whose expression distinguishes one cellular group from another. This issue is complex because cell groups must first be estimated using clustering method before performing a comparative test, leading to a circular analysis. In the second part of this manuscript, we present a review of post-clustering inference methods addressing this problem, as well as a numerical comparison of multivariate and marginal approaches for cluster comparison. Finally, we explore how the use of mixture models in the clustering step can be exploited in post-clustering tests, and discuss perspectives for applying these tests to transcriptomic data
APA, Harvard, Vancouver, ISO, and other styles
14

Ghesmoune, Mohammed. "Apprentissage non supervisé de flux de données massives : application aux Big Data d'assurance." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCD061/document.

Full text
Abstract:
Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de growing neural gas (GNG) pour le clustering de flux de données massives. Nous proposons trois extensions de l'approche GNG : séquentielle, distribuée et parallèle, et une méthode hiérarchique; ainsi qu'une nouvelle modélisation pour le passage à l'échelle en utilisant le paradigme MapReduce et l'application de ce modèle pour le clustering au fil de l'eau du jeu de données d'assurance. Nous avons d'abord proposé la méthode G-Stream. G-Stream, en tant que méthode "séquentielle" de clustering, permet de découvrir de manière incrémentale des clusters de formes arbitraires et en ne faisant qu'une seule passe sur les données. G-Stream utilise une fonction d'oubli an de réduire l'impact des anciennes données dont la pertinence diminue au fil du temps. Les liens entre les nœuds (clusters) sont également pondérés par une fonction exponentielle. Un réservoir de données est aussi utilisé an de maintenir, de façon temporaire, les observations très éloignées des prototypes courants. L'algorithme batchStream traite les données en micro-batch (fenêtre de données) pour le clustering de flux. Nous avons défini une nouvelle fonction de coût qui tient compte des sous ensembles de données qui arrivent par paquets. La minimisation de la fonction de coût utilise l'algorithme des nuées dynamiques tout en introduisant une pondération qui permet une pénalisation des données anciennes. Une nouvelle modélisation utilisant le paradigme MapReduce est proposée. Cette modélisation a pour objectif de passer à l'échelle. Elle consiste à décomposer le problème de clustering de flux en fonctions élémentaires (Map et Reduce). Ainsi de traiter chaque sous ensemble de données pour produire soit les clusters intermédiaires ou finaux. Pour l'implémentation de la modélisation proposée, nous avons utilisé la plateforme Spark. Dans le cadre du projet Square Predict, nous avons validé l'algorithme batchStream sur les données d'assurance. Un modèle prédictif combinant le résultat du clustering avec les arbres de décision est aussi présenté. L'algorithme GH-Stream est notre troisième extension de GNG pour la visualisation et le clustering de flux de données massives. L'approche présentée a la particularité d'utiliser une structure hiérarchique et topologique, qui consiste en plusieurs arbres hiérarchiques représentant des clusters, pour les tâches de clustering et de visualisation
The research outlined in this thesis concerns the development of approaches based on growing neural gas (GNG) for clustering of data streams. We propose three algorithmic extensions of the GNG approaches: sequential, distributed and parallel, and hierarchical; as well as a model for scalability using MapReduce and its application to learn clusters from the real insurance Big Data in the form of a data stream. We firstly propose the G-Stream method. G-Stream, as a “sequential" clustering method, is a one-pass data stream clustering algorithm that allows us to discover clusters of arbitrary shapes without any assumptions on the number of clusters. G-Stream uses an exponential fading function to reduce the impact of old data whose relevance diminishes over time. The links between the nodes are also weighted. A reservoir is used to hold temporarily the distant observations in order to reduce the movements of the nearest nodes to the observations. The batchStream algorithm is a micro-batch based method for clustering data streams which defines a new cost function taking into account that subsets of observations arrive in discrete batches. The minimization of this function, which leads to a topological clustering, is carried out using dynamic clusters in two steps: an assignment step which assigns each observation to a cluster, followed by an optimization step which computes the prototype for each node. A scalable model using MapReduce is then proposed. It consists of decomposing the data stream clustering problem into the elementary functions, Map and Reduce. The observations received in each sub-dataset (within a time interval) are processed through deterministic parallel operations (Map and Reduce) to produce the intermediate states or the final clusters. The batchStream algorithm is validated on the insurance Big Data. A predictive and analysis system is proposed by combining the clustering results of batchStream with decision trees. The architecture and these different modules from the computational core of our Big Data project, called Square Predict. GH-Stream for both visualization and clustering tasks is our third extension. The presented approach uses a hierarchical and topological structure for both of these tasks
APA, Harvard, Vancouver, ISO, and other styles
15

Morvan, Anne. "Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering." Electronic Thesis or Diss., Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLED033.

Full text
Abstract:
Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées
This thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed
APA, Harvard, Vancouver, ISO, and other styles
16

Darty, Kevin. "Évaluation de la qualité des comportements des agents en simulation : application à un simulateur de conduite en environnement virtuel." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066339/document.

Full text
Abstract:
Cette thèse se situe dans le contexte de la Simulation Multi-Agent et s'intéresse à l'évaluation de la capacité des agents à reproduire des comportements humains. Cette problématique se retrouve dans de nombreux domaines comme la Réalité Virtuelle et les Agents Conversationnels Animés. L'approche dominante s'appuie sur l'utilisation de questionnaires de Sciences Humaines et Sociales (SHS). Il existe peu d'approches exploitant l'analyse automatique de données utilisée en Intelligence Artificielle (IA) à l'échelle microscopique. Nous montrons dans cette thèse que l'évaluation gagne à exploiter conjointement ces deux approches. Nous exposons une méthode d'évaluation de la qualité des comportements des agents qui combine l'approche d'IA et celle de SHS. La première est basée sur la classification de traces de simulation. La seconde évalue les utilisateurs par une annotation des comportements. Nous présentons ensuite un algorithme de comparaison des agents par rapport aux humains afin d'évaluer les capacités, les manques et les erreurs du modèle d'agent et fournissons des métriques. Puis nous explicitons ces comportements en nous appuyant sur les catégories d'utilisateur. Enfin, nous exposons un cycle de calibration automatique des agents et une exploration de l'espace des paramètres. Notre méthode d'évaluation est utilisable dans le but d'analyser un modèle d'agent et de comparer plusieurs modèles d'agent. Nous avons appliqué cette méthodologie sur plusieurs études du comportement de conduite en vue d'analyser la simulation de trafic routier ARCHISIM et nous présentons les résultats obtenus
This thesis is in the context of the Multi-Agents Simulation and is interested in evaluating the ability of agents to reproduce human behaviors. This problem appears in many domains such as Virtual Reality and Embodied Conversational Agents. The dominant approach to evaluate these behaviors uses Social Sciences questionnaires. There are only few approaches based on Artificial Intelligence and automatic data analysis at the microscopic scale. We show in this thesis that the evaluation of behavior can benefit from both approaches when used jointly. First, we present a method for evaluating the agents' behavior quality. It combines the Artificial Intelligence approach and the Social Science approach. The first one is based on simulation logs clustering. The second one evaluates the users by an annotation of the behaviors. We then present an algorithm that compare agents to humans in order to assess the capacities, the lacks, and the errors in the agent model, and provide metrics. We then make these behaviors explicite based on user categories. Finally, we present a cycle for automatic calibration of the agents and an exploration of the parameter space. Our evaluation method is usable for the analysis of an agent model, and for comparing several agent models. We applied this methodology on several driver behavior studies to analyse the road traffic simulation ARCHISIM, and we present the obtained results
APA, Harvard, Vancouver, ISO, and other styles
17

Peignier, Sergio. "Subspace clustering on static datasets and dynamic data streams using bio-inspired algorithms." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEI071/document.

Full text
Abstract:
Une tâche importante qui a été étudiée dans le contexte de données à forte dimensionnalité est la tâche connue sous le nom de subspace clustering. Le subspace clustering est généralement reconnu comme étant plus compliqué que le clustering standard, étant donné que cette tâche vise à détecter des groupes d’objets similaires entre eux (clusters), et qu’en même temps elle vise à trouver les sous-espaces où apparaissent ces similitudes. Le subspace clustering, ainsi que le clustering traditionnel ont été récemment étendus au traitement de flux de données en mettant à jour les modèles de clustering de façon incrémentale. Les différents algorithmes qui ont été proposés dans la littérature, reposent sur des bases algorithmiques très différentes. Parmi ces approches, les algorithmes évolutifs ont été sous-explorés, même si ces techniques se sont avérées très utiles pour traiter d’autres problèmes NP-difficiles. L’objectif de cette thèse a été de tirer parti des nouvelles connaissances issues de l’évolution afin de concevoir des algorithmes évolutifs qui traitent le problème du subspace clustering sur des jeux de données statiques ainsi que sur des flux de données dynamiques. Chameleoclust, le premier algorithme développé au cours de ce projet, tire partie du grand degré de liberté fourni par des éléments bio-inspirés tels qu’un génome de longueur variable, l’existence d’éléments fonctionnels et non fonctionnels et des opérateurs de mutation incluant des réarrangements chromosomiques. KymeroClust, le deuxième algorithme conçu dans cette thèse, est un algorithme de k-medianes qui repose sur un mécanisme évolutif important: la duplication et la divergence des gènes. SubMorphoStream, le dernier algorithme développé ici, aborde le problème du subspace clustering sur des flux de données dynamiques. Cet algorithme repose sur deux mécanismes qui jouent un rôle clef dans l’adaptation rapide des bactéries à des environnements changeants: l’amplification de gènes et l’absorption de matériel génétique externe. Ces algorithmes ont été comparés aux principales techniques de l’état de l’art, et ont obtenu des résultats compétitifs. En outre, deux applications appelées EvoWave et EvoMove ont été développés pour évaluer la capacité de ces algorithmes à résoudre des problèmes réels. EvoWave est une application d’analyse de signaux Wi-Fi pour détecter des contextes différents. EvoMove est un compagnon musical artificiel qui produit des sons basés sur le clustering des mouvements d’un danseur, décrits par des données provenant de capteurs de déplacements
An important task that has been investigated in the context of high dimensional data is subspace clustering. This data mining task is recognized as more general and complicated than standard clustering, since it aims to detect groups of similar objects called clusters, and at the same time to find the subspaces where these similarities appear. Furthermore, subspace clustering approaches as well as traditional clustering ones have recently been extended to deal with data streams by updating clustering models in an incremental way. The different algorithms that have been proposed in the literature, rely on very different algorithmic foundations. Among these approaches, evolutionary algorithms have been under-explored, even if these techniques have proven to be valuable addressing other NP-hard problems. The aim of this thesis was to take advantage of new knowledge from evolutionary biology in order to conceive evolutionary subspace clustering algorithms for static datasets and dynamic data streams. Chameleoclust, the first algorithm developed in this work, takes advantage of the large degree of freedom provided by bio-like features such as a variable genome length, the existence of functional and non-functional elements and mutation operators including chromosomal rearrangements. KymeroClust, our second algorithm, is a k-medians based approach that relies on the duplication and the divergence of genes, a cornerstone evolutionary mechanism. SubMorphoStream, the last one, tackles the subspace clustering task over dynamic data streams. It relies on two important mechanisms that favor fast adaptation of bacteria to changing environments, namely gene amplification and foreign genetic material uptake. All these algorithms were compared to the main state-of-the-art techniques, obtaining competitive results. Results suggest that these algorithms are useful complementary tools in the analyst toolbox. In addition, two applications called EvoWave and EvoMove have been developed to assess the capacity of these algorithms to address real world problems. EvoWave is an application that handles the analysis of Wi-Fi signals to detect different contexts. EvoMove, the second one, is a musical companion that produces sounds based on the clustering of dancer moves captured using motion sensors
APA, Harvard, Vancouver, ISO, and other styles
18

Riverain, Paul. "Integrating prior knowledge into unsupervised learning for railway transportation." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7326.

Full text
Abstract:
Dans un réseau de transport, la supervision joue un rôle essentiel pour assurer le bon déroulement des opérations et la satisfaction des voyageurs. Cela inclut la fourniture d'informations adéquates aux passagers, la gestion de la sécurité des passagers, des actifs fixes, des systèmes de traction et la supervision du trafic en temps réel. Dans cette thèse, nous abordons la conception de nouveaux outils algorithmiques orientés données pour aider les opérateurs des systèmes ferroviaires urbains dans leur tâche de supervision du réseau de transport. Dans la mesure où beaucoup de décisions des opérateurs dépendent de la façon dont les déplacements des usagers sont distribués sur le réseau, nous cherchons donc à fournir aux opérateurs des informations synthétiques sur le flux de passagers actuel et son évolution.Etant données les entrées et sorties des usagers sur le réseau, le flux de passagers peut être vu comme un graphe dynamique en temps discret dont les nœuds sont les stations du réseau et dont les arêtes comptent le nombre de passagers entre deux paires de stations. Nous cherchons donc à résumer ce graphe dynamique en utilisant des techniques de clustering. Les modèles à blocs, dont font partie le modèle à blocs stochastiques et le modèle à blocs latents, sont des approches probabilistes pour le co-clustering qui semblent adéquates pour cette tâche de clustering de graphe. Le clustering ne dépend ici que de la façon dont le flux de passagers est distribué sur le réseau et n'inclut pas les connaissances expertes des opérateurs. Par conséquent, nous cherchons également à prendre en compte des informations contextuelles telles que les caractéristiques des stations, la topologie du réseau ou les actions des opérateurs sur la régulation des trains dans la synthèse du flux de passagers. Nous passons d'abord en revue les principaux concepts sur lesquels nos travaux sont basés ainsi que certains travaux connexes sur l'apprentissage non supervisé pour l'analyse des flux de passagers. Nous proposons ensuite une formalisation du problème opérationnel. Dans notre première contribution, nous présentons une extension du modèle à blocs stochastiques (SBM) pour les graphes dynamiques à temps discret qui prend en compte la variabilité des degrés des nœuds, ce qui nous permet de modéliser une classe plus large de réseaux. Nous dérivons une procédure d'inférence basée sur un algorithme EM variationnel qui fournit également les moyens d'estimer les corrections de degré en fonction du temps. Dans notre deuxième contribution, nous proposons d'exploiter les connaissances préalables sous la forme d'une semi-supervision par paire dans l'espace des lignes et des colonnes afin d'améliorer les performances de classification des algorithmes dérivés du modèle à blocs latents (LBM). Nous introduisons un cadre probabiliste général pour incorporer les relations Must Link et Cannot Link dans le LBM basé sur les champs aléatoires de Markov cachés et présentons deux algorithmes d'inférence basés sur EM variationnel et EM classifiant. Enfin, nous présentons l'application des deux algorithmes précédents sur des données de flux de passagers du monde réel. Nous décrivons ensuite un outil interactif que nous avons créé pour visualiser les clusters obtenus avec un LBM dynamique et les interpréter en utilisant les paramètres estimés du modèle. Ensuite, nous appliquons les algorithmes de co-clustering sur trois échelles de temps différentes. Nous présentons les aspects pratiques liés à l'utilisation de ces algorithmes ainsi que les cas d'utilisation possibles de la supervision par paire. Enfin, nous détaillons les limites des algorithmes proposés et présentons quelques perspectives
In a transportation network, supervision plays a key role to ensure smooth operations and satisfied voyagers. This includes providing adequate passenger information, managing the security of the passengers, the fixed assets, the traction power systems and supervising the traffic in real-time. In this thesis, we address the conception of new data-driven algorithmic tools to help urban railway operators in the task of supervision of the transportation network. As many decisions of the operators depend on how the trips of the users are distributed on the network, we seek to provide synthetic information about the current passenger flow and its evolution to the operators in order to help them in the supervision of the traffic and the fixed assets. Given the entries and exits of the users on the network, the passenger flow can be seen as a discrete-time dynamic graph whose nodes are the stations of the network and whose edges count the number of passengers between any two pairs of stations. We thus aim at summarizing this dynamic graph using clustering techniques. The Block Models, including the Stochastic Block Model and the Latent Block Model, are model-based approaches for co-clustering that appear adequate for this task of graph clustering. The clustering here only depends on how the passenger flow is distributed on the network and does not include the expert knowledge of the operators. Consequently, we also seek to take into account contextual information such as the stations characteristics, the network topology or the actions of the operators on the train regulation in the summarizing of the passenger flow. We first review the main concepts our works are based on as well as some related works on unsupervised learning for passenger flow analysis. We then propose a formalization of the operational problem. In our first contribution, we present an extension of the Stochastic Block Model (SBM) for discrete-time dynamic networks that takes into account the variability in node degrees, allowing us to model a broader class of networks. We derive an inference procedure based on Variational Expectation-Maximization that also provides the means to estimate the time-dependent degree corrections. For our second contribution, we propose to leverage prior knowledge in the form of pairwise semi-supervision in both row and column space to improve the clustering performances of the algorithms derived from the Latent Block Model (LBM). We introduce a general probabilistic framework for incorporating Must Link and Cannot Link relationships in the LBM based on Hidden Markov Random Fields and present two inference algorithms based on Variational and Classification EM. Finally, we present the application of the two previous algorithms on real-world passenger flow data. We then describe an interactive tool that we created to visualize the clusters obtained with the dynamic LBM and interpret them using the estimated parameters of the model. Next, we apply the co-clustering algorithms in three different contexts to analyze the passenger flow on different time scales. We present the practical aspects related to the utilization of these algorithms as well as possible use-cases the pairwise supervision. Finally, we detail the limits of the proposed algorithms and present some perspectives
APA, Harvard, Vancouver, ISO, and other styles
19

Geiler, Louis. "Deep learning for churn prediction." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7333.

Full text
Abstract:
Le problème de la prédiction de l’attrition est généralement réservé aux équipes de marketing. Cependant,grâce aux avancées technologiques, de plus en plus de données peuvent être collectés afin d’analyser le comportement des clients. C’est dans ce cadre que cette thèse s’inscrit, plus particulièrement par l’exploitation des méthodes d’apprentissages automatiques. Ainsi, nous avons commencés par étudier ce problème dans le cadre de l’apprentissage supervisé. Nous avons montré que la combinaison en ensemble de la régression logistique, des forêt aléatoire et de XGBoost offraient les meilleurs résultats en terme d’Aire sous la courbe (Are Under the Curve, AUC). Nous avons également montré que les méthodes du type ré-échantillonage jouent uniquement un rôle local et non pas global.Ensuite, nous avons enrichi nos prédictions en prenant en compte la segmentation des clients. En effet, certains clients peuvent quitter le service à cause d’un coût qu’ils jugent trop élevés ou suite à des difficultés rencontrés avec le service client. Notre approche a été réalisée avec une nouvelle architecture de réseaux de neurones profonds qui exploite à la fois les autoencodeur et l’approche desk-means. De plus, nous nous sommes intéressés à l’apprentissage auto-supervisé dans le cadre tabulaire. Plus précisément, notre architecture s’inspire des travaux autour de l’approche SimCLR en modificant l’architecture mean-teacher du domaine du semi-supervisé. Nous avons montré via la win matrix la supériorité de notre approche par rapport à l’état de l’art. Enfin, nous avons proposé d’appliquer les connaissances acquises au cours de ce travail de thèse dans un cadre industriel, celui de Brigad. Nous avons atténué le problème de l’attrition à l’aide des prédictions issues de l’approche de forêt aléatoire que nous avons optimisés via un grid search et l’optimisation des seuils. Nous avons également proposé une interprétation des résultats avec les méthodes SHAP (SHapley Additive exPlanations)
The problem of churn prediction has been traditionally a field of study for marketing. However, in the wake of the technological advancements, more and more data can be collected to analyze the customers behaviors. This manuscript has been built in this frame, with a particular focus on machine learning. Thus, we first looked at the supervised learning problem. We have demonstrated that logistic regression, random forest and XGBoost taken as an ensemble offer the best results in terms of Area Under the Curve (AUC) among a wide range of traditional machine learning approaches. We also have showcased that the re-sampling approaches are solely efficient in a local setting and not a global one. Subsequently, we aimed at fine-tuning our prediction by relying on customer segmentation. Indeed,some customers can leave a service because of a cost that they deem to high, and other customers due to a problem with the customer’s service. Our approach was enriched with a novel deep neural network architecture, which operates with both the auto-encoders and the k-means approach. Going further, we focused on self-supervised learning in the tabular domain. More precisely, the proposed architecture was inspired by the work on the SimCLR approach, where we altered the architecture with the Mean-Teacher model from semi-supervised learning. We showcased through the win matrix the superiority of our approach with respect to the state of the art. Ultimately, we have proposed to apply what we have built in this manuscript in an industrial setting, the one of Brigad. We have alleviated the company churn problem with a random forest that we optimized through grid-search and threshold optimization. We also proposed to interpret the results with SHAP (SHapley Additive exPlanations)
APA, Harvard, Vancouver, ISO, and other styles
20

Renaud, Jeremy. "Amélioration de la prédiction des commandes des pharmacies auprès de la CERP RRM." Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCD010.

Full text
Abstract:
La CERP Rhin Rhone Méditerranée (CERP RRM) est un grossiste répartiteur qui doit assurer l’approvisionnement de pharmacies. Le secteur du médicament, malgré l'évolution récente de la logistique hospitalière, manque considérablement d'outils d'aide à la décision. Le but de la thèse est de mettre en place un système prédictif pour l’ensemble des clients CERP afin de prévoir les commandes avec la meilleure précision possible. Les données sont essentiellement sous forme de séries temporelles.Dans un premier temps, les travaux de cette thèse ont été de faire un état de l’art des technologies de prédictions de séries temporelles, ainsi que de l'implémentation de systèmes d'IA dans des secteurs industriels liés aux métiers de grossiste répartiteur. La principale contribution de cette thèse a été d'améliorer les prédictions de la CERP RRM à plusieurs niveaux grâce à des techniques de machine learning. Nos résultats montrent une amélioration des prédictions par rapport à la méthode actuelle. La deuxième contribution a été de proposer une nouvelle méthode basée sur l'étude des courbes de ventes pour regrouper les produits entre eux. Cette méthode a été développée pour répondre à une problématique de regroupement des produits de parapharmacie au sein de la CERP RRM. La dernière contribution de cette thèse est une étude comparative de différents modèles de traitement du langage naturel implémentés dans un assistant conversationnel pour le service technique d'un logiciel de gestion d'officine. Cette solution a montré des résultats intéressants en se rapprochant des résultats d'un humain expert
The CERP Rhin Rhone Mediterranée (CERP RRM) is a wholesale distributor responsible for ensuring pharmacies' supply. Despite recent advancements in hospital logistics, the pharmaceutical sector notably lacks decision support tools. The thesis aims to establish a predictive system for all CERP clients to forecast orders with the highest possible accuracy. The data primarily consists of time series.Initially, the thesis focused on conducting a state-of-the-art review of time series prediction technologies, as well as implementing AI systems in industrial sectors related to wholesale distribution professions. The main contribution of this thesis was to enhance CERP RRM predictions at multiple levels using machine learning techniques. Our results demonstrate an improvement in predictions compared to the current method. The second contribution was to propose a new method based on sales curve analysis to group products together. This method was developed to address the issue of grouping parapharmacy products within CERP RRM. The final contribution of this thesis is a comparative study of different natural language processing models implemented in a conversational assistant for the technical service of a pharmacy management software. This solution has shown promising results, approaching those of an expert human
APA, Harvard, Vancouver, ISO, and other styles
21

Makkhongkaew, Raywat. "Semi-supervised co-selection : instances and features : application to diagnosis of dry port by rail." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE1341.

Full text
Abstract:
Depuis la prolifération des bases de données partiellement étiquetées, l'apprentissage automatique a connu un développement important dans le mode semi-supervisé. Cette tendance est due à la difficulté de l'étiquetage des données d'une part et au coût induit de cet étiquetage quand il est possible, d'autre part.L'apprentissage semi-supervisé consiste en général à modéliser une fonction statistique à partir de base de données regroupant à la fois des exemples étiquetés et d'autres non-étiquetés. Pour aborder une telle problématique, deux familles d'approches existent : celles basées sur la propagation de la supervision en vue de la classification supervisée et celles basées sur les contraintes en vue du clustering (non-supervisé). Nous nous intéressons ici à la deuxième famille avec une difficulté particulière. Il s'agit d'apprendre à partir de données avec une partie étiquetée relativement très réduite par rapport à la partie non-étiquetée.Dans cette thèse, nous nous intéressons à l'optimisation des bases de données statistiques en vue de l'amélioration des modèles d'apprentissage. Cette optimisation peut être horizontale et/ou verticale. La première définit la sélection d'instances et la deuxième définit la tâche de la sélection de variables.Les deux taches sont habituellement étudiées de manière indépendante avec une série de travaux considérable dans la littérature. Nous proposons ici de les étudier dans un cadre simultané, ce qui définit la thématique de la co-sélection. Pour ce faire, nous proposons deux cadres unifiés considérant à la fois la partie étiquetée des données et leur partie non-étiquetée. Le premier cadre est basé sur un clustering pondéré sous contraintes et le deuxième sur la préservation de similarités entre les données. Les deux approches consistent à qualifier les instances et les variables pour en sélectionner les plus pertinentes de manière simultanée.Enfin, nous présentons une série d'études empiriques sur des données publiques connues de la littérature pour valider les approches proposées et les comparer avec d'autres approches connues dans la littérature. De plus, une validation expérimentale est fournie sur un problème réel, concernant le diagnostic de transport ferroviaire de l'état de la Thaïlande
We are drowning in massive data but starved for knowledge retrieval. It is well known through the dimensionality tradeoff that more data increase informative but pay a price in computational complexity, which has to be made up in some way. When the labeled sample size is too little to bring sufficient information about the target concept, supervised learning fail with this serious challenge. Unsupervised learning can be an alternative in this problem. However, as these algorithms ignore label information, important hints from labeled data are left out and this will generally downgrades the performance of unsupervised learning algorithms. Using both labeled and unlabeled data is expected to better procedure in semi-supervised learning, which is more adapted for large domain applications when labels are hardly and costly to obtain. In addition, when data are large, feature selection and instance selection are two important dual operations for removing irrelevant information. Both of tasks with semisupervised learning are different challenges for machine learning and data mining communities for data dimensionality reduction and knowledge retrieval. In this thesis, we focus on co-selection of instances and features in the context of semi-supervised learning. In this context, co-selection becomes a more challenging problem as the data contains labeled and unlabeled examples sampled from the same population. To do such semi-supervised coselection, we propose two unified frameworks, which efficiently integrate labeled and unlabeled parts into the co-selection process. The first framework is based on weighting constrained clustering and the second one is based on similarity preserving selection. Both approaches evaluate the usefulness of features and instances in order to select the most relevant ones, simultaneously. Finally, we present a variety of empirical studies over high-dimensional data sets, which are well-known in the literature. The results are promising and prove the efficiency and effectiveness of the proposed approaches. In addition, the developed methods are validated on a real world application, over data provided by the State Railway of Thailand (SRT). The purpose is to propose the application models from our methodological contributions to diagnose the performance of rail dry port systems. First, we present the results of some ensemble methods applied on a first data set, which is fully labeled. Second, we show how can our co-selection approaches improve the performance of learning algorithms over partially labeled data provided by SRT
APA, Harvard, Vancouver, ISO, and other styles
22

Morvan, Anne. "Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLED033/document.

Full text
Abstract:
Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées
This thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed
APA, Harvard, Vancouver, ISO, and other styles
23

Muliukov, Artem. "Étude croisée des cartes auto-organisatrices et des réseaux de neurones profonds pour l'apprentissage multimodal inspiré du cerveau." Electronic Thesis or Diss., Université Côte d'Azur, 2024. https://intranet-theses.unice.fr/2024COAZ4008.

Full text
Abstract:
La plasticité corticale est l'une des principales caractéristiques qui permettent à notre capacité d'apprendre et de s'adapter à notre environnement. En effet, le cortex cérébral a la capacité de s'auto-organiser à travers deux formes distinctes de plasticité: la plasticité structurelle et la plasticité synaptique. Ces mécanismes sont très probablement à la base d'une caractéristique extrêmement intéressante du développement du cerveau humain: l'association multimodale. Le cerveau utilise des corrélations spatio-temporelles entre plusieurs modalités pour structurer les données et créer du sens à partir des observations. De plus, les observations biologiques montrent qu'une modalité peut activer la représentation interne d'une autre modalité lorsque les deux sont corrélées. Pour modéliser un tel comportement, Edelman et Damasio ont proposé respectivement les cadres Reentry et Convergence Divergence Zone où les communications neuronales bidirectionnelles peuvent conduire à la fois à la fusion multimodale (convergence) et à l'activation intermodale (divergence). Néanmoins, ces frameworks ne fournissent pas de modèle de calcul au niveau neuronal, et seuls quelques travaux abordent cette question d'association multimodale bio-inspirée qui est pourtant nécessaire pour une représentation complète de l'environnement notamment en ciblant des systèmes intelligents autonomes et embarqués. Dans ce projet de doctorat, nous proposons de poursuivre l'exploration de modèles informatiques d'auto-organisation inspirés du cerveau pour l'apprentissage multimodal non supervisé dans les systèmes neuromorphiques. Ces architectures neuromorphes tirent leur efficacité énergétique des modèles bio-inspirés qu'elles supportent, et pour cette raison nous ne considérons dans notre travail que des règles d'apprentissage basées sur des traitements locaux et distribués
Cortical plasticity is one of the main features that enable our capability to learn and adapt in our environment. Indeed, the cerebral cortex has the ability to self-organize itself through two distinct forms of plasticity: the structural plasticity and the synaptic plasticity. These mechanisms are very likely at the basis of an extremely interesting characteristic of the human brain development: the multimodal association. The brain uses spatio-temporal correlations between several modalities to structure the data and create sense from observations. Moreover, biological observations show that one modality can activate the internal representation of another modality when both are correlated. To model such a behavior, Edelman and Damasio proposed respectively the Reentry and the Convergence Divergence Zone frameworks where bi-directional neural communications can lead to both multimodal fusion (convergence) and inter-modal activation (divergence). Nevertheless, these frameworks do not provide a computational model at the neuron level, and only few works tackle this issue of bio-inspired multimodal association which is yet necessary for a complete representation of the environment especially when targeting autonomous and embedded intelligent systems. In this doctoral project, we propose to pursue the exploration of brain-inspired computational models of self-organization for multimodal unsupervised learning in neuromorphic systems. These neuromorphic architectures get their energy-efficient from the bio-inspired models they support, and for that reason we only consider in our work learning rules based on local and distributed processing
APA, Harvard, Vancouver, ISO, and other styles
24

Ngo, Ha Nhi. "Apprentissage continu et prédiction coopérative basés sur les systèmes de multi-agents adaptatifs appliqués à la prévision de la dynamique du trafic." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES043.

Full text
Abstract:
Le développement rapide des technologies matérielles, logicielles et de communication des systèmes de transport ont apporté des opportunités prometteuses et aussi des défis importants pour la société humaine. Parallèlement à l'amélioration de la qualité des transports, l'augmentation du nombre de véhicules a entraîné de fréquents embouteillages, en particulier dans les grandes villes aux heures de pointe. Les embouteillages ont de nombreuses conséquences sur le coût économique, l'environnement, la santé mentale des conducteurs et la sécurité routière. Il est donc important de prévoir la dynamique du trafic et d'anticiper l'apparition des embouteillages, afin de prévenir et d'atténuer les situations de trafic perturbées, ainsi que les collisions dangereuses à la fin de la queue d'un embouteillage. De nos jours, les technologies innovatives des systèmes de transport intelligents ont apporté des ensembles de données diverses et à grande échelle sur le trafic qui sont continuellement collectées et transférées entre les dispositifs sous forme de flux de données en temps réel. Par conséquent, de nombreux services de systèmes de transport intelligents ont été développés basé sur l'analyse de données massives, y compris la prévision du trafic. Cependant, le trafic contient de nombreux facteurs variés et imprévisibles qui rendent la modélisation, l'analyse et l'apprentissage de l'évolution historique du trafic difficiles. Le système que nous proposons vise donc à remplir les cinq composantes suivantes d'un système de prévision du trafic : textbf{analyse temporelle, analyse spatiale, interprétabilité, analyse de flux et adaptabilité à plusieurs échelles de données} pour capturer les patterns historiques de trafic à partir des flux de données, fournir une explication explicite de la causalité entrée-sortie et permettre différentes applications avec divers scénarios. Pour atteindre les objectifs mentionnés, nous proposons un modèle d'agent basé sur le clustering dynamique et la théorie des systèmes multi-agents adaptatifs afin de fournir des mécanismes d'apprentissage continu et de prédiction coopérative. Le modèle d'agent proposé comprend deux processus interdépendants fonctionnant en parallèle : textbf{apprentissage local continu} et textbf{prédiction coopérative}. Le processus d'apprentissage vise à détecter, au niveau de l'agent, différents états représentatifs à partir des flux de données reçus. Basé sur le clustering dynamique, ce processus permet la mise à jour continue de la base de données d'apprentissage en s'adaptant aux nouvelles données. Simultanément, le processus de prédiction exploite la base de données apprise, dans le but d'estimer les futurs états potentiels pouvant être observés. Ce processus prend en compte l'analyse de la dépendance spatiale en intégrant la coopération entre les agents et leur voisinage. Les interactions entre les agents sont conçues sur la base de la théorie AMAS avec un ensemble de mécanismes d'auto-adaptation comprenant textbf{l'auto-organisation}, textbf{l'autocorrection} et textbf{l'auto-évolution}, permettant au système d'éviter les perturbations, de gérer la qualité de la prédiction et de prendre en compte les nouvelles informations apprises dans le calcul de la prédiction. Les expériences menées dans le contexte de la prévision de la dynamique du trafic évaluent le système sur des ensembles de données générées et réelles à différentes échelles et dans différents scénarios. Les résultats obtenus ont montré la meilleure performance de notre proposition par rapport aux méthodes existantes lorsque les données de trafic expriment de fortes variations. En outre, les mêmes conclusions retirées de différents cas d'étude renforcent la capacité du système à s'adapter à des applications multi-échelles
Le développement rapide des technologies matérielles, logicielles et de communication des systèmes de transport ont apporté des opportunités prometteuses et aussi des défis importants pour la société humaine. Parallèlement à l'amélioration de la qualité des transports, l'augmentation du nombre de véhicules a entraîné de fréquents embouteillages, en particulier dans les grandes villes aux heures de pointe. Les embouteillages ont de nombreuses conséquences sur le coût économique, l'environnement, la santé mentale des conducteurs et la sécurité routière. Il est donc important de prévoir la dynamique du trafic et d'anticiper l'apparition des embouteillages, afin de prévenir et d'atténuer les situations de trafic perturbées, ainsi que les collisions dangereuses à la fin de la queue d'un embouteillage. De nos jours, les technologies innovatives des systèmes de transport intelligents ont apporté des ensembles de données diverses et à grande échelle sur le trafic qui sont continuellement collectées et transférées entre les dispositifs sous forme de flux de données en temps réel. Par conséquent, de nombreux services de systèmes de transport intelligents ont été développés basé sur l'analyse de données massives, y compris la prévision du trafic. Cependant, le trafic contient de nombreux facteurs variés et imprévisibles qui rendent la modélisation, l'analyse et l'apprentissage de l'évolution historique du trafic difficiles. Le système que nous proposons vise donc à remplir les cinq composantes suivantes d'un système de prévision du trafic : textbf{analyse temporelle, analyse spatiale, interprétabilité, analyse de flux et adaptabilité à plusieurs échelles de données} pour capturer les patterns historiques de trafic à partir des flux de données, fournir une explication explicite de la causalité entrée-sortie et permettre différentes applications avec divers scénarios. Pour atteindre les objectifs mentionnés, nous proposons un modèle d'agent basé sur le clustering dynamique et la théorie des systèmes multi-agents adaptatifs afin de fournir des mécanismes d'apprentissage continu et de prédiction coopérative. Le modèle d'agent proposé comprend deux processus interdépendants fonctionnant en parallèle : textbf{apprentissage local continu} et textbf{prédiction coopérative}. Le processus d'apprentissage vise à détecter, au niveau de l'agent, différents états représentatifs à partir des flux de données reçus. Basé sur le clustering dynamique, ce processus permet la mise à jour continue de la base de données d'apprentissage en s'adaptant aux nouvelles données. Simultanément, le processus de prédiction exploite la base de données apprise, dans le but d'estimer les futurs états potentiels pouvant être observés. Ce processus prend en compte l'analyse de la dépendance spatiale en intégrant la coopération entre les agents et leur voisinage. Les interactions entre les agents sont conçues sur la base de la théorie AMAS avec un ensemble de mécanismes d'auto-adaptation comprenant textbf{l'auto-organisation}, textbf{l'autocorrection} et textbf{l'auto-évolution}, permettant au système d'éviter les perturbations, de gérer la qualité de la prédiction et de prendre en compte les nouvelles informations apprises dans le calcul de la prédiction. Les expériences menées dans le contexte de la prévision de la dynamique du trafic évaluent le système sur des ensembles de données générées et réelles à différentes échelles et dans différents scénarios. Les résultats obtenus ont montré la meilleure performance de notre proposition par rapport aux méthodes existantes lorsque les données de trafic expriment de fortes variations. En outre, les mêmes conclusions retirées de différents cas d'étude renforcent la capacité du système à s'adapter à des applications multi-échelles
APA, Harvard, Vancouver, ISO, and other styles
25

Claeys, Emmanuelle. "Clusterisation incrémentale, multicritères de données hétérogènes pour la personnalisation d’expérience utilisateur." Thesis, Strasbourg, 2019. http://www.theses.fr/2019STRAD039.

Full text
Abstract:
Dans de nombreux domaines (santé, vente en ligne, …) concevoir ex nihilo une solution optimale répondant à un problème défini (trouver un protocole augmentant le taux de guérison, concevoir une page Web favorisant l'achat d'un ou plusieurs produits, ...) est souvent très difficile voire impossible. Face à cette difficulté, les concepteurs (médecins, web designers, ingénieurs de production,...) travaillent souvent de façon incrémentale par des améliorations successives d'une solution existante. Néanmoins, définir les modifications les plus pertinentes reste un problème difficile. Pour tenter d'y répondre, une solution adoptée de plus en plus fréquemment consiste à comparer concrètement différentes alternatives (appelées aussi variations) afin de déterminer celle(s) répondant le mieux au problème via un A/B Test. L'idée est de mettre en oeuvre réellement ces alternatives et de comparer les résultats obtenus, c'est-à-dire les gains respectifs obtenus par chacune des variations. Pour identifier la variation optimale le plus rapidement possible, de nombreuses méthodes de test utilisent une stratégie d'allocation dynamique automatisée. Le principe est d'allouer le plus rapidement possible et automatiquement, les sujets testés à la variation la plus performante, par un apprentissage par renforcement. Parmi les méthodes possibles, il existe en théorie des probabilités les méthodes de bandit manchot. Ces méthodes ont montré leur intérêt en pratique mais également des limites, dont en particulier une temps de latence (c'est-à-dire un délai entre l'arrivée d'un sujet à tester et son allocation) trop important, un déficit d'explicabilité des choix et la non-intégration d’un contexte évolutif décrivant le comportement du sujet avant d’être testé. L'objectif global de cette thèse est de proposer une méthode générique d'A/B test permettant une allocation dynamique en temps réel capable de prendre en compte les caractéristiques des sujets, qu'elles soient temporelles ou non, et interprétable a posteriori
In many activity sectors (health, online sales,...) designing from scratch an optimal solution for a defined problem (finding a protocol to increase the cure rate, designing a web page to promote the purchase of one or more products,...) is often very difficult or even impossible. In order to face this difficulty, designers (doctors, web designers, production engineers,...) often work incrementally by successive improvements of an existing solution. However, defining the most relevant changes remains a difficult problem. Therefore, a solution adopted more and more frequently is to compare constructively different alternatives (also called variations) in order to determine the best one by an A/B Test. The idea is to implement these alternatives and compare the results obtained, i.e. the respective rewards obtained by each variation. To identify the optimal variation in the shortest possible time, many test methods use an automated dynamic allocation strategy. Its allocate the tested subjects quickly and automatically to the most efficient variation, through a learning reinforcement algorithms (as one-armed bandit methods). These methods have shown their interest in practice but also limitations, including in particular a latency time (i.e. a delay between the arrival of a subject to be tested and its allocation) too long, a lack of explicitness of choices and the integration of an evolving context describing the subject's behaviour before being tested. The overall objective of this thesis is to propose a understable generic A/B test method allowing a dynamic real-time allocation which take into account the temporals static subjects’s characteristics
APA, Harvard, Vancouver, ISO, and other styles
26

Grollemund, Vincent. "Exploration et modélisation de données peu ou pas structurées." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS027.

Full text
Abstract:
Les modèles d'apprentissage supervisé sont généralement entraînés sur des données aux contraintes limitées. Malheureusement, les données sont souvent rares, incomplètes et biaisées dans de nombreux cas d’applications, et cela entrave la conception de modèles efficaces. De telles données peuvent et doivent néanmoins être exploitées, car elles demeurent des sources précieuses d’information. Elles permettent de découvrir des corrélations pertinentes et de parvenir à des conclusions significatives. Dans cette thèse, nous étudions une approche d'apprentissage non supervisé pour isoler des échantillons minoritaires compris à l’intérieur d’une population plus large. Notre étude intègre deux contextes applicatifs: le pronostic de la Sclérose Latérale Amyotrophique (SLA) et la recommandation aux entreprises de dispositifs publics de financement de l’innovation. Malgré des différences dans leur objectif, ces contextes sont confrontés à des problèmes similaires: une faible disponibilité des données associée à des échantillons non représentatifs et incomplets. Dans les deux cas, l'objectif est de détecter des échantillons d'une population minoritaire: les patients dont le pronostic à un an est défavorable et les sociétés qui ont plus de chances d'obtenir des financements. Les données sont projetées dans un espace bidimensionnel à l'aide de la méthode d’approximation et de projection de variété uniforme (UMAP), une technique de réduction de dimension non linéaire. Les différences de distribution des données sont exploitées de manière à isoler la population minoritaire cible, à l'aide du partitionnement spatial par densité (DBSCAN) et des formes alpha. Les corrélations entre les caractéristiques d'entrée et d’intérêt, que sont la survie à 1 an et l’obtention de financements, deviennent visibles dans l'espace de projection et les échantillons minoritaires sont isolés du reste des données. En dépit des contraintes sur les données, notre approche se révèle pertinente et informative au regard de patients récemment diagnostiqués avec la SLA et d'entreprises qui postulent pour un financement
Supervised learning models are usually trained on data with limited constraints. Unfortunately, data are generally scarce, incomplete and biased in real-world use cases, which hampers efficient model design. Such data can and should still be leveraged to discover relevant patterns, glean insight and develop meaningful conclusions. In this thesis, we investigate an unsupervised learning approach to isolate minority samples encompassed within a larger population. Our review includes two different use cases: Amyotrophic Lateral Sclerosis prognosis and identification of potential innovation funding recipients. Despite differences in their purpose, these contexts face similar issues: poor data availability of partial and unrepresentative samples. In both cases, the aim is to detect samples from a minority population: patients with a poorer 1-year prognosis and companies that are more likely to be successful funding applicants. Data are projected into a lower-dimensional space using Uniform Manifold Approximation and Projection (UMAP), a nonlinear dimension reduction technique. Differences in data distributions are harnessed and used to isolate the target minority population, using Density Based Clustering of Applications with Noise (DBSCAN) and alpha shapes. Correlations between input and target variables become visible within the projection space and minority samples are isolated from the remaining data. As a result, in spite of poor data quality, we provide additional insight with regard to recently diagnosed patients and potential funding applicants
APA, Harvard, Vancouver, ISO, and other styles
27

Sollenborn, Mikael. "Clustering and case-based reasoning for user stereotypes /." Västerås : Mälardalen University, 2004. http://www.mrtc.mdh.se/publications/0770.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
28

Sîrbu, Adela-Maria. "Dynamic machine learning for supervised and unsupervised classification." Thesis, Rouen, INSA, 2016. http://www.theses.fr/2016ISAM0002/document.

Full text
Abstract:
La direction de recherche que nous abordons dans la thèse est l'application des modèles dynamiques d'apprentissage automatique pour résoudre les problèmes de classification supervisée et non supervisée. Les problèmes particuliers que nous avons décidé d'aborder dans la thèse sont la reconnaissance des piétons (un problème de classification supervisée) et le groupement des données d'expression génétique (un problème de classification non supervisée). Les problèmes abordés sont représentatifs pour les deux principaux types de classification et sont très difficiles, ayant une grande importance dans la vie réelle. La première direction de recherche que nous abordons dans le domaine de la classification non supervisée dynamique est le problème de la classification dynamique des données d'expression génétique. L'expression génétique représente le processus par lequel l'information d'un gène est convertie en produits de gènes fonctionnels : des protéines ou des ARN ayant différents rôles dans la vie d'une cellule. La technologie des micro-réseaux moderne est aujourd'hui utilisée pour détecter expérimentalement les niveaux d'expression de milliers de gènes, dans des conditions différentes et au fil du temps. Une fois que les données d'expression génétique ont été recueillies, l'étape suivante consiste à analyser et à extraire des informations biologiques utiles. L'un des algorithmes les plus populaires traitant de l'analyse des données d'expression génétique est le groupement, qui consiste à diviser un certain ensemble en groupes, où les composants de chaque groupe sont semblables les uns aux autres données. Dans le cas des ensembles de données d'expression génique, chaque gène est représenté par ses valeurs d'expression (caractéristiques), à des points distincts dans le temps, dans les conditions contrôlées. Le processus de regroupement des gènes est à la base des études génomiques qui visent à analyser les fonctions des gènes car il est supposé que les gènes qui sont similaires dans leurs niveaux d'expression sont également relativement similaires en termes de fonction biologique. Le problème que nous abordons dans le sens de la recherche de classification non supervisée dynamique est le regroupement dynamique des données d'expression génique. Dans notre cas, la dynamique à long terme indique que l'ensemble de données ne sont pas statiques, mais elle est sujette à changement. Pourtant, par opposition aux approches progressives de la littérature, où l'ensemble de données est enrichie avec de nouveaux gènes (instances) au cours du processus de regroupement, nos approches abordent les cas lorsque de nouvelles fonctionnalités (niveaux d'expression pour de nouveaux points dans le temps) sont ajoutés à la gènes déjà existants dans l'ensemble de données. À notre connaissance, il n'y a pas d'approches dans la littérature qui traitent le problème de la classification dynamique des données d'expression génétique, définis comme ci-dessus. Dans ce contexte, nous avons introduit trois algorithmes de groupement dynamiques que sont capables de gérer de nouveaux niveaux d'expression génique collectés, en partant d'une partition obtenue précédente, sans la nécessité de ré-exécuter l'algorithme à partir de zéro. L'évaluation expérimentale montre que notre méthode est plus rapide et plus précis que l'application de l'algorithme de classification à partir de zéro sur la fonctionnalité étendue ensemble de données
The research direction we are focusing on in the thesis is applying dynamic machine learning models to salve supervised and unsupervised classification problems. We are living in a dynamic environment, where data is continuously changing and the need to obtain a fast and accurate solution to our problems has become a real necessity. The particular problems that we have decided te approach in the thesis are pedestrian recognition (a supervised classification problem) and clustering of gene expression data (an unsupervised classification. problem). The approached problems are representative for the two main types of classification and are very challenging, having a great importance in real life.The first research direction that we approach in the field of dynamic unsupervised classification is the problem of dynamic clustering of gene expression data. Gene expression represents the process by which the information from a gene is converted into functional gene products: proteins or RNA having different roles in the life of a cell. Modern microarray technology is nowadays used to experimentally detect the levels of expressions of thousand of genes, across different conditions and over time. Once the gene expression data has been gathered, the next step is to analyze it and extract useful biological information. One of the most popular algorithms dealing with the analysis of gene expression data is clustering, which involves partitioning a certain data set in groups, where the components of each group are similar to each other. In the case of gene expression data sets, each gene is represented by its expression values (features), at distinct points in time, under the monitored conditions. The process of gene clustering is at the foundation of genomic studies that aim to analyze the functions of genes because it is assumed that genes that are similar in their expression levels are also relatively similar in terms of biological function.The problem that we address within the dynamic unsupervised classification research direction is the dynamic clustering of gene expression data. In our case, the term dynamic indicates that the data set is not static, but it is subject to change. Still, as opposed to the incremental approaches from the literature, where the data set is enriched with new genes (instances) during the clustering process, our approaches tackle the cases when new features (expression levels for new points in time) are added to the genes already existing in the data set. To our best knowledge, there are no approaches in the literature that deal with the problem of dynamic clustering of gene expression data, defined as above. In this context we introduced three dynamic clustering algorithms which are able to handle new collected gene expression levels, by starting from a previous obtained partition, without the need to re-run the algorithm from scratch. Experimental evaluation shows that our method is faster and more accurate than applying the clustering algorithm from scratch on the feature extended data set
APA, Harvard, Vancouver, ISO, and other styles
29

Darty, Kevin. "Évaluation de la qualité des comportements des agents en simulation : application à un simulateur de conduite en environnement virtuel." Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066339.

Full text
Abstract:
Cette thèse se situe dans le contexte de la Simulation Multi-Agent et s'intéresse à l'évaluation de la capacité des agents à reproduire des comportements humains. Cette problématique se retrouve dans de nombreux domaines comme la Réalité Virtuelle et les Agents Conversationnels Animés. L'approche dominante s'appuie sur l'utilisation de questionnaires de Sciences Humaines et Sociales (SHS). Il existe peu d'approches exploitant l'analyse automatique de données utilisée en Intelligence Artificielle (IA) à l'échelle microscopique. Nous montrons dans cette thèse que l'évaluation gagne à exploiter conjointement ces deux approches. Nous exposons une méthode d'évaluation de la qualité des comportements des agents qui combine l'approche d'IA et celle de SHS. La première est basée sur la classification de traces de simulation. La seconde évalue les utilisateurs par une annotation des comportements. Nous présentons ensuite un algorithme de comparaison des agents par rapport aux humains afin d'évaluer les capacités, les manques et les erreurs du modèle d'agent et fournissons des métriques. Puis nous explicitons ces comportements en nous appuyant sur les catégories d'utilisateur. Enfin, nous exposons un cycle de calibration automatique des agents et une exploration de l'espace des paramètres. Notre méthode d'évaluation est utilisable dans le but d'analyser un modèle d'agent et de comparer plusieurs modèles d'agent. Nous avons appliqué cette méthodologie sur plusieurs études du comportement de conduite en vue d'analyser la simulation de trafic routier ARCHISIM et nous présentons les résultats obtenus
This thesis is in the context of the Multi-Agents Simulation and is interested in evaluating the ability of agents to reproduce human behaviors. This problem appears in many domains such as Virtual Reality and Embodied Conversational Agents. The dominant approach to evaluate these behaviors uses Social Sciences questionnaires. There are only few approaches based on Artificial Intelligence and automatic data analysis at the microscopic scale. We show in this thesis that the evaluation of behavior can benefit from both approaches when used jointly. First, we present a method for evaluating the agents' behavior quality. It combines the Artificial Intelligence approach and the Social Science approach. The first one is based on simulation logs clustering. The second one evaluates the users by an annotation of the behaviors. We then present an algorithm that compare agents to humans in order to assess the capacities, the lacks, and the errors in the agent model, and provide metrics. We then make these behaviors explicite based on user categories. Finally, we present a cycle for automatic calibration of the agents and an exploration of the parameter space. Our evaluation method is usable for the analysis of an agent model, and for comparing several agent models. We applied this methodology on several driver behavior studies to analyse the road traffic simulation ARCHISIM, and we present the obtained results
APA, Harvard, Vancouver, ISO, and other styles
30

Amadou, Kountché Djibrilla. "Localisation dans les bâtiments des personnes handicapées et classification automatique de données par fourmis artificielles." Thesis, Tours, 2013. http://www.theses.fr/2013TOUR4021/document.

Full text
Abstract:
Le concept du « smart » envahit de plus en plus notre vie quotidienne. L’exemple type est sans doute le smartphone. Celui-ci est devenu au fil des ans un appareil incontournable. Bientôt, c’est la ville, la voiture, la maison qui seront « intelligentes ». L’intelligence se manifeste par une capacité d’interaction et de prise de décision entre l’environnement et l’utilisateur. Ceci nécessite des informations sur les changements d’états survenus des deux côtés. Les réseaux de capteurs permettent de collecter ces données, de leur appliquer des pré-traitements et de les transmettre aux applications. Ces réseaux de par certaines de leurs caractéristiques se rapprochent de l’intelligence collective, dans le sens, où des entités de faibles capacités se coordonnent automatiquement, sans intervention humaine, de façon décentralisée et distribuée pour accomplir des tâches complexes. Ces méthodes bio-inspirées ont servi à la résolution de plusieurs problèmes, surtout l’optimisation, ce qui nous a encouragé à étudier la possibilité de les utiliser pour les problèmes liés à l’Ambient Assisted Living ou AAL et à la classification automatique de données. L’AAL est un sous-domaine des services dits basés sur le contexte, et a pour objectifs de faciliter la vie des personnes âgées et handicapées dans leurs défis quotidiens. Pour ce faire, il détermine le contexte et, sur cette base, propose divers services. Deux éléments du contexte nous ont intéressé : le handicap et la position. Bien que la détermination de la position (localisation, positionnement) se fasse à l’extérieur des bâtiments avec des précisions très satisfaisantes, elle rencontre plusieurs difficultés à l’intérieur des bâtiments, liées à la propagation des ondes électromagnétiques dans les milieux difficiles, aux coûts des systèmes, à l’interopérabilité, etc. Nos travaux se sont intéressés au positionnement des personnes handicapées à l’intérieur de bâtiments en utilisant un réseau de capteurs afin de déterminer les caractéristiques de l’onde électromagnétique (puissance, temps, angle) pour estimer la position par méthodes géométriques (triangulation, latération), méthodes de fingerprinting (k plus proches voisins), par des filtres baysiens (filtre de Kalman). L’application est d’offrir des services types AAL tel que la navigation. Nous avons élargi la notion de réseau de capteurs pour prendre en compte tout appareil capable d’émettre et de recevoir une onde électromagnétique et se trouvant dans l’environnement. Nous avons aussi appliqué l’algorithme API sur la classification automatique de données. Enfin, nous avons proposé une architecture à middleware pour la localisation indoor
The concept of « smart » invades more and more our daily life. A typical example is the smartphone, which becames by years an essential device. Soon, it’s the city, the car and the home which will become « smart ». The intelligence is manifested by the ability for the environment to interact and to take decisons in its relationships with users and other environments. This needs information on state changes occurred on both sides. Sensor networks allow to collect these data, to apply on them some pre-processings and to transmit them. Sensor network, towards some of their caracteristics are closed to Swarm Intelligence in the sense that small entities with reduced capababilities can cooperate automatically, in unattended, decentralised and distributed manner in order to accomplish complex tasks. These bio-inspired methods have served as basis for the resolution of many problems, mostly optimization and this insipired us to apply them on problems met in Ambient Assisted Living and on the data clustering problem. AAL is a sub-field of context-aware services, and its goals are to facilitate the everyday life of elderly and disable people. These systems determine the context and then propose different kind of services. We have used two important elements of the context : the position and the disabilty. Although positioning has very good precision outdoor, it faces many challenges in indoor environments due to the electromagnetic wave propagation in harsh conditions, the cost of systems, interoperabilty, etc. Our works have been involved in positioning disabled people in indoor environment by using wireless sensor network for determining the caracteristics of the electromagnetic wave (signal strenght, time, angle) for estimating the position by geometric methods (triangulation, lateration), fingerprinting methods (k-nearest neighbours), baysiens filters (Kalman filter). The application is to offer AAL services like navigation. Therefore we extend the definition of sensor node to take into account any device, in the environment, capable of emiting and receiving a signal. Also, we have studied the possibility of using Pachycondylla Apicalis for data clustering and for indoor localization by casting this last problem as data clustering problem. Finally we have proposed a system based on a middleware architecture
APA, Harvard, Vancouver, ISO, and other styles
31

Ait, Saada Mira. "Unsupervised learning from textual data with neural text representations." Electronic Thesis or Diss., Université Paris Cité, 2023. http://www.theses.fr/2023UNIP7122.

Full text
Abstract:
L'ère du numérique génère des quantités énormes de données non structurées telles que des images et des documents, nécessitant des méthodes de traitement spécifiques pour en tirer de la valeur. Les données textuelles présentent une difficulté supplémentaire car elles ne contiennent pas de valeurs numériques. Les plongements de mots sont des techniques permettant de transformer automatiquement du texte en données numériques, qui permettent aux algorithmes d'apprentissage automatique de les traiter. Les tâches non-supervisées sont un enjeu majeur dans l'industrie car elles permettent de créer de la valeur à partir de grandes quantités de données sans nécessiter une labellisation manuelle coûteuse. Cette thèse explore l'utilisation des modèles Transformeurs pour les tâches non-supervisées telles que la classification automatique, la détection d'anomalies et la visualisation de données. Elle propose également des méthodologies pour exploiter au mieux les modèles Transformeurs multicouches dans un contexte non-supervisé pour améliorer la qualité et la robustesse du clustering de documents tout en s'affranchissant du choix de la couche à utiliser et du nombre de classes. En outre, la thèse examine les méthodes de transfert d'apprentissage pour améliorer la qualité des modèles Transformeurs pré-entraînés sur une autre tâche en les utilisant pour la tâche de clustering. Par ailleurs, nous investiguons plus profondément dans cette thèse les modèles de langage "Transformers" et leur application au clustering en examinant en particulier les méthodes de transfert d'apprentissage qui consistent à réapprendre des modèles pré-entraînés sur une tâche différente afin d'améliorer leur qualité pour de futures tâches. Nous démontrons par une étude empirique que les méthodes de post-traitement basées sur la réduction de dimension sont plus avantageuses que les stratégies de réapprentissage proposées dans la littérature pour le clustering. Enfin, nous proposons un nouveau cadre de détection d'anomalies textuelles en français adapté à deux cas : celui où les données concernent une thématique précise et celui où les données ont plusieurs sous-thématiques. Dans les deux cas, nous obtenons des résultats supérieurs à l'état de l'art avec un temps de calcul nettement inférieur
The digital era generates enormous amounts of unstructured data such as images and documents, requiring specific processing methods to extract value from them. Textual data presents an additional challenge as it does not contain numerical values. Word embeddings are techniques that transform text into numerical data, enabling machine learning algorithms to process them. Unsupervised tasks are a major challenge in the industry as they allow value creation from large amounts of data without requiring costly manual labeling. In thesis we explore the use of Transformer models for unsupervised tasks such as clustering, anomaly detection, and data visualization. We also propose methodologies to better exploit multi-layer Transformer models in an unsupervised context to improve the quality and robustness of document clustering while avoiding the choice of which layer to use and the number of classes. Additionally, we investigate more deeply Transformer language models and their application to clustering, examining in particular transfer learning methods that involve fine-tuning pre-trained models on a different task to improve their quality for future tasks. We demonstrate through an empirical study that post-processing methods based on dimensionality reduction are more advantageous than fine-tuning strategies proposed in the literature. Finally, we propose a framework for detecting text anomalies in French adapted to two cases: one where the data concerns a specific topic and the other where the data has multiple sub-topics. In both cases, we obtain superior results to the state of the art with significantly lower computation time
APA, Harvard, Vancouver, ISO, and other styles
32

Morbieu, Stanislas. "Leveraging textual embeddings for unsupervised learning." Electronic Thesis or Diss., Université Paris Cité, 2020. http://www.theses.fr/2020UNIP5191.

Full text
Abstract:
Les données textuelles constituent un vivier d'information exploitable pour de nombreuses entreprises. En particulier, le web fournit une source quasiment inépuisable de données textuelles qui peuvent être utilisées à profit pour des systèmes de recommandation, de veille, de recherche d'information, etc. Les récentes avancées en traitement du langage naturel ont permit de capturer le sens des mots dans leur contexte afin d'améliorer les systèmes de traduction, de résumés, ou encore le regroupement de documents suivant des catégories prédéfinies. La majorité de ces applications reposent cependant souvent sur une intervention humaine non négligeable pour annoter des corpus : Elle consiste, par exemple, à fournir aux algorithmes des exemples d'affectation de catégories à des documents. L'algorithme apprend donc à reproduire le jugement humain et l'applique pour de nouveaux documents. L'objet de cette thèse est de tirer profit des dernières avancées qui capturent l'information sémantique du texte pour l'appliquer dans un cadre non supervisé. Les contributions s'articulent autour de trois axes principaux. Dans le premier, nous proposons une méthode pour transférer l'information capturée par un réseau neuronal pour de la classification croisée textuelle. Elle consiste à former simultanément des groupes de documents similaires et des groupes de mots cohérents. Ceci facilite l'interprétation d'un grand corpus puisqu'on peut caractériser des groupes de documents par des groupes de mots, résumant ainsi une grande volumétrie de texte. Plus précisément nous entraînons l'algorithme Paragraph Vectors sur un jeu de données augmenté en faisant varier les différents hyperparamètres, classifions les documents à partir des différentes représentations vectorielles obtenues et cherchons un consensus sur des différentes partitions. Une classification croisée contrainte de la matrice de co-occurrences termes-documents est ensuite appliquée pour conserver le partitionnement consensus obtenu. Cette méthode se révèle significativement meilleure en qualité de partitionnement des documents sur des corpus variés et a l'avantage de l'interprétation offerte par la classification croisée. Deuxièmement, nous présentons une méthode pour évaluer des algorithmes de classification croisée en exploitant des représentation vectorielles de mots appelées word embeddings. Il s’agit de vecteurs construits grâce à de gros volumes de textes, dont une caractéristique majeure est que deux mots sémantiquement proches ont des word embeddings proches selon une distance cosinus. Notre méthode permet de mesurer l'adéquation entre les partitions de documents et de mots, offrant ainsi de manière totalement non supervisée un indice de la qualité de la classification croisée. Troisièmement, nous proposons un système qui permet de recommander des petites annonces similaires lorsqu'on en consulte une. Leurs descriptions sont souvent courtes, syntaxiquement incorrectes, et l'utilisation de synonymes font qu'il est difficile pour des systèmes traditionnels de mesurer fidèlement la similarité sémantique. De plus, le fort renouvellement des annonces encore valides (produit non vendu) implique des choix permettant d’avoir un faible temps de calcul. Notre méthode, simple à implémenter, répond à ce cas d'usage et s'appuie de nouveau sur les word embeddings. L'utilisation de ceux-ci présente certains avantages mais impliquent également quelques difficultés : la création de tels vecteurs nécessite de choisir les valeurs de certains paramètres, et la différence entre le corpus sur lequel les word embeddings ont été construit et celui sur lequel ils sont utilisés fait émerger le problème des mots qui n'ont pas de représentation vectorielle. Nous présentons, pour palier ces problèmes, une analyse de l'impact des différents paramètres sur les word embeddings ainsi qu'une étude des méthodes permettant de traiter le problème de « mots en dehors du vocabulaire »
Textual data is ubiquitous and is a useful information pool for many companies. In particular, the web provides an almost inexhaustible source of textual data that can be used for recommendation systems, business or technological watch, information retrieval, etc. Recent advances in natural language processing have made possible to capture the meaning of words in their context in order to improve automatic translation systems, text summary, or even the classification of documents according to predefined categories. However, the majority of these applications often rely on a significant human intervention to annotate corpora: This annotation consists, for example in the context of supervised classification, in providing algorithms with examples of assigning categories to documents. The algorithm therefore learns to reproduce human judgment in order to apply it for new documents. The object of this thesis is to take advantage of these latest advances which capture the semantic of the text and use it in an unsupervised framework. The contributions of this thesis revolve around three main axes. First, we propose a method to transfer the information captured by a neural network for co-clustering of documents and words. Co-clustering consists in partitioning the two dimensions of a data matrix simultaneously, thus forming both groups of similar documents and groups of coherent words. This facilitates the interpretation of a large corpus of documents since it is possible to characterize groups of documents by groups of words, thus summarizing a large corpus of text. More precisely, we train the Paragraph Vectors algorithm on an augmented dataset by varying the different hyperparameters, classify the documents from the different vector representations and apply a consensus algorithm on the different partitions. A constrained co-clustering of the co-occurrence matrix between terms and documents is then applied to maintain the consensus partitioning. This method is found to result in significantly better quality of document partitioning on various document corpora and provides the advantage of the interpretation offered by the co-clustering. Secondly, we present a method for evaluating co-clustering algorithms by exploiting vector representations of words called word embeddings. Word embeddings are vectors constructed using large volumes of text, one major characteristic of which is that two semantically close words have word embeddings close by a cosine distance. Our method makes it possible to measure the matching between the partition of the documents and the partition of the words, thus offering in a totally unsupervised setting a measure of the quality of the co-clustering. Thirdly, we are interested in recommending classified ads. We present a system that allows to recommend similar classified ads when consulting one. The descriptions of classified ads are often short, syntactically incorrect, and the use of synonyms makes it difficult for traditional systems to accurately measure semantic similarity. In addition, the high renewal rate of classified ads that are still valid (product not sold) implies choices that make it possible to have low computation time. Our method, simple to implement, responds to this use case and is again based on word embeddings. The use of these has advantages but also involves some difficulties: the creation of such vectors requires choosing the values of some parameters, and the difference between the corpus on which the word embeddings were built upstream. and the one on which they are used raises the problem of out-of-vocabulary words, which have no vector representation. To overcome these problems, we present an analysis of the impact of the different parameters on word embeddings as well as a study of the methods allowing to deal with the problem of out-of-vocabulary words
APA, Harvard, Vancouver, ISO, and other styles
33

Wang, Kun. "Algorithmes et méthodes pour le diagnostic ex-situ et in-situ de systèmes piles à combustible haute température de type oxyde solide." Phd thesis, Université de Franche-Comté, 2012. http://tel.archives-ouvertes.fr/tel-01017170.

Full text
Abstract:
Le projet Européen " GENIUS " ambitionne de développer les méthodologies génériques pour le diagnostic de systèmes piles à combustible à haute température de type oxyde solide (SOFC). Le travail de cette thèse s'intègre dans ce projet ; il a pour objectif la mise en oeuvre d'un outil de diagnostic en utilisant le stack comme capteur spécial pour détecter et identifierles défaillances dans les sous-systèmes du stack SOFC.Trois algorithmes de diagnostic ont été développés, se basant respectivement sur la méthode de classification k-means, la technique de décomposition du signal en ondelettes ainsi que la modélisation par réseau Bayésien. Le premier algorithme sert au diagnostic ex-situ et est appliqué pour traiter les donnés issues des essais de polarisation. Il permet de déterminer les variables de réponse significatives qui indiquent l'état de santé du stack. L'indice Silhouette a été calculé comme mesure de qualité de classification afin de trouver le nombre optimal de classes dans la base de données.La détection de défaut en temps réel peut se réaliser par le deuxième algorithme. Puisque le stack est employé en tant que capteur, son état de santé doit être vérifié préalablement. La transformée des ondelettes a été utilisée pour décomposer les signaux de tension de la pile SOFC dans le but de chercher les variables caractéristiques permettant d'indiquer l'état desanté de la pile et également assez discriminatives pour différentier les conditions d'opération normales et anormales.Afin d'identifier le défaut du système lorsqu'une condition d'opération anormale s'est détectée, les paramètres opérationnelles réelles du stack doivent être estimés. Un réseau Bayésien a donc été développé pour accomplir ce travail.Enfin, tous les algorithmes ont été validés avec les bases de données expérimentales provenant de systèmes SOFC variés, afin de tester leur généricité.
APA, Harvard, Vancouver, ISO, and other styles
34

Strubel, Nicolas. "Brake squeal : identification and influence of frictional contact localizations." Electronic Thesis or Diss., Université de Lille (2022-....), 2023. http://www.theses.fr/2023ULILN059.

Full text
Abstract:
En tant que radiations acoustiques intenses impliquant de conséquentes nuisances environnementales ainsi que de nombreux retours clients, le crissement des systèmes de freinage est un problème de vibration induite par frottement dépendant indubitablement de problématiques multi-physiques et multi-échelles. Parmi ces dernières, la structure du système, les paramètres opérationnels de freinage, les interfaces de contact frottant, couplés à une dépendance en température, ainsi que les non-linéarités de contact ou les aspects tribologiques, sont des éléments affectant considérablement le crissement, faisant de ce déplaisant bruit un sujet complexe à appréhender. Au sein de ce travail, le système complet de freinage est considéré, et plusieurs tendances principales sont identifiées au regard de l'influence des localisations de contact sur les émissions acoustiques.Des essais NVH sont réalisés, cette analyse implique différentes échelles d'intérêt visant à changer les caractéristiques de contact : les plaquettes de freinage sont modifiées d'une part à l'échelle macroscopique -avec la volonté de varier implicitement les zones de portance-, d'autre part à l'échelle mésoscopique -tendant à impacter l'évolution du circuit tribologique-. Le but inhérent est d'identifier les paramètres patins influençant le crissement, en affectant l'interface tribologique et engageant des différences de signatures acoustiques entre les expériences conduites.Des tests fortement instrumentés sont réalisés à l'échelle du système de frein complet, se focalisant sur différentes formes patins : le développement d'une instrumentation enrichie au travers d'un suivi in-operando des surfaces de contact via mesures thermiques, autorise l'accès à des informations de sollicitation supplémentaires, permettant le suivi des zones de portance supposées. L'emploi de méthodes de clustering est considéré afin d'analyser les données thermiques.Des simulations en stabilité impliquant corrélations expérimental / numérique sont effectuées. Des analyses sous-jacentes sont réalisées, en investiguant l'impact de caractéristiques de chanfreins sur le crissement, l'influence du coefficient de frottement, ou l'implémentation de formes globales d'usures. Qui plus-est, les simulations thermomécaniques sont ici d'intérêt, et l'introduction des zones de contact issues des méthodes de clustering est discutée.Bien que la considération du frein complet puisse impliquer de sévères dispersions expérimentales, des corrélations initiales entre les patins modifiés à différentes échelles -via des formes de patins à l'échelle macroscopique et des traitements thermiques à l'échelle mésoscopique- et les caractéristiques de bruit sont observées. Les essais avec instrumentation enrichie concluent que les localisations de contact peuvent varier pendant les tests NVH, dépendant des paramètres de sollicitation. Un lien particulier entre les conditions opérationnelles de freinage (pression, température), les localisations de contact, et le crissement est établi au travers des méthodes de clustering. Également, les tendances observées en simulation tendent à suivre celles expérimentales, et l'enrichissement des modèles via une description plus précise du contact peut présenter des améliorations quant à la capacité de prédiction du crissement de telles simulations
As intense acoustic radiations implying consequent environmental nuisances and customer complaints, squeal noises in brake systems are friction-induced vibration issues indubitably depending on multiphysics and multiscales problematics. Among these latter, system structure, braking operational parameters, frictional contact interfaces, coupled to temperature dependency, as well as contact non-linearities or tribological aspects, are elements considerably affecting squeal, making from this unpleasant noise a complex problem to apprehend. In this work, the full scale system is considered, and several principal tendencies are identified regarding the influence of contact localizations on acoustic emissions.NVH tests are conducted, this analysis involves several scales of interest aiming at changing contact characteristics: pads are modified either at the macroscopic scale -with the will of implicitly varying load bearing areas-, or at the mesoscopic one -tending to impact evolution of the tribological circuit-. The inherent purpose is to identify pads parameters influencing squeal, by affecting tribolayer as well as engaging noise signature differences between conducted experiments.Heavily instrumented tests are realized on a full scale brake system, focusing on different pad shapes: the development of an enriched instrumentation through in-operando thermal surface tracking allows to access to supplementary solicitation informations, permitting to follow the assumed load bearing area. The employment of clustering methods is considered to manage the analysis of thermal datas.Experimental / numerical correlated stability simulations are conducted. Subsequent analyses are realized, by investigating pads chamfer characteristic impact on squeal, influence of coefficient of friction, or implementation of global pads wear shapes. Furthermore, thermomechanical simulations are of interest, and the introduction of previously clustered-defined contact areas into models is realized.Although the full brake system consideration can involve severe experimental dispersions, initial correlations between modified pads at different scales -via pad shapes for the macroscopic one, and thermal treatments of friction material focusing on the mesoscopic level- and noise characteristics are observed. Enriched instrumented tests lead to the conclusion that contact localizations can evolve during NVH tests, depending on solicitation variables. A particular link between braking operational parameters (pressure, temperature), contact localizations, and squeal features is established through clustering. Finally, observed simulated tendencies tend to follow experimental ones, and model enrichment via a more accurate contact description could present improvements regarding squeal prediction capability of such simulation
APA, Harvard, Vancouver, ISO, and other styles
35

Appert, Gautier. "Information k-means, fragmentation and syntax analysis. A new approach to unsupervised machine learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAG011.

Full text
Abstract:
Le critère de l'information k-means étend le critère des k-means en utilisant la divergence de Kullback comme fonction de perte. La fragmentation est une généralisation supplémentaire permettant l'approximation de chaque signal par une combinaison de fragments. Nous proposons un nouvel algorithme de fragmentation pour les signaux numériques se présentant comme un algorithme de compression avec perte. A l'issue de ce traitement, chaque signal est représenté par un ensemble aléatoires de labels, servant d'entrée à une procédure d'analyse syntaxique, conçue comme un algorithme de compression sans perte. Nous avons testé la méthode sur des images en niveaux de gris sur lesquelles il a été possible de détecter des configurations translatées ou transformées par une rotation. Ceci donne l'espoir d'apporter une réponse à la reconnaissance invariante par transformations fondée sur un critère de compression très général. D'un point de vue mathématique, nous avons prouvé deux types de bornes. Tout d'abord, nous avons relié notre algorithme de compression à un estimateur implicite d'un modèle statistique lui aussi implicite, à travers un lemme, prouvant que le taux de compression et le niveau de distorsion de l'un sont reliés à l'excès de risque de l'autre. Ce résultat contribue à expliquer la pertinence de nos arbres syntaxiques. Ensuite, nous établissons des bornes de généralisation non asymptotiques et indépendantes de la dimension pour les différents critères des k-means et critères de fragmentation que nous avons introduits. Nous utilisons pour cela des inégalités PAC-Bayésiennes appliquées dans des espaces de Hilbert à noyau reproduisant. Par exemple dans le cas des k-means classiques, nous obtenons une borne en O(k log(k) / n)^{1/4}) qui fournit la meilleure condition suffisante de consistance, à savoir que l'excès de risque tend vers zéro quand O(k log(k) / n) tend vers zéro. Grâce à une nouvelle méthode de chaînage PAC-Bayésien, nous prouvons aussi une borne en O(log(n/k) sqrt{k log(k)/n})
Information k-means is a new mathematical framework that extends the classical k-means criterion, using the Kullback divergence as a distortion measure. The fragmentation criterion is an even broader extension where each signal is approximated by a combination of fragments instead of a single center. Using the fragmentation criterion as a distortion measure, we propose a new fragmentation algorithm for digital signals, conceived as a lossy data compression scheme. Our syntax analysis is based on two principles: factorization and relabeling of frequent patterns. It is an iterative scheme, decreasing at each step as much as possible the length of the representation of the training set. It produces for each signal a syntax tree, providing a multi-level classification of the signal components. We tested the method on grey level digital images, where it was possible to label successfully translated patterns and rotated patterns. This lets us hope that transformation invariant pattern recognition could be approached in a flexible way using a general purpose data compression criterion. From a mathematical point of view, we derived two kinds of generalization bounds. First we defined an implicit estimator based on an implicit statistical model, related to our lossy data compression scheme. We proved a lemma relating the data compression rate and the distortion level of the compression algorithm with the excess risk of the statistical estimator. This explains why our syntax trees may be meaningful. Second, combining PAC-Bayesian lemmas with the kernel trick, we proved non asymptotic dimension-free generalization bounds for the various information k-means and information fragmentation criteria we introduced. For instance, in the special case of the classical k-means criterion, we get a non asymptotic dimension free generalization bound of order O( k log(k) / n )^{1/4}) that gives the best sufficient consistency condition, namely that the excess risk goes to zero when (k log(k) / n) goes to zero. Using a new kind of PAC-Bayesian chaining, we also proved a bound of order O( log(n/k) sqrt{k log(k)/n} )
APA, Harvard, Vancouver, ISO, and other styles
36

Navarro, Emmanuel. "Métrologie des graphes de terrain, application à la construction de ressources lexicales et à la recherche d'information." Phd thesis, Institut National Polytechnique de Toulouse - INPT, 2013. http://tel.archives-ouvertes.fr/tel-01020232.

Full text
Abstract:
Cette thèse s'organise en deux parties : une première partie s'intéresse aux mesures de similarité (ou de proximité) définies entre les sommets d'un graphe, une seconde aux méthodes de clustering de graphe biparti. Une nouvelle mesure de similarité entre sommets basée sur des marches aléatoires en temps courts est introduite. Cette méthode a l'avantage, en particulier, d'être insensible à la densité du graphe. Il est ensuite proposé un large état de l'art des similarités entre sommets, ainsi qu'une comparaison expérimentale de ces différentes mesures. Cette première partie se poursuit par la proposition d'une méthode robuste de comparaison de graphes partageant le même ensemble de sommets. Cette méthode est mise en application pour comparer et fusionner des graphes de synonymie. Enfin une application d'aide à la construction de ressources lexicales est présentée. Elle consiste à proposer de nouvelles relations de synonymie à partir de l'ensemble des relations de synonymie déjà existantes. Dans une seconde partie, un parallèle entre l'analyse formelle de concepts et le clustering de graphe biparti est établi. Ce parallèle conduit à l'étude d'un cas particulier pour lequel une partition d'un des groupes de sommets d'un graphe biparti peut-être déterminée alors qu'il n'existe pas de partitionnement correspondant sur l'autre type de sommets. Une méthode simple qui répond à ce problème est proposée et évaluée. Enfin Kodex, un système de classification automatique des résultats d'une recherche d'information est présenté. Ce système est une application en RI des méthodes de clustering vues précédemment. Une évaluation sur une collection de deux millions de pages web montre les avantages de l'approche et permet en outre de mieux comprendre certaines différences entre méthodes de clustering.
APA, Harvard, Vancouver, ISO, and other styles
37

Faucheux, Lilith. "Learning from incomplete biomedical data : guiding the partition toward prognostic information." Electronic Thesis or Diss., Université Paris Cité, 2021. http://www.theses.fr/2021UNIP5242.

Full text
Abstract:
Cette thèse porte sur l'apprentissage de partitions dans un contexte de données incomplètes. Deux développements méthodologiques sont présentés, ainsi que des applications dans le domaine biomédical. La première méthode développée permet, en présence de données incomplètes, un apprentissage de partitions non supervisé. Deux types de données incomplètes ont été considérés : des données manquantes et des données censurées à gauche (dont la valeur est « inférieure à un seuil de détection »). La problématique des données incomplètes a été prise en compte par imputation multiple (MI). Pour permettre une imputation adaptée au type de données incomplètes de chaque variable la méthode par équations chainées (MICE) a été utilisée. L’apprentissage de partitions non supervisé a ensuite été effectuée sur chaque jeu de données imputé. Pour finir, les partitions obtenues ont été combinées à l’aide d’un clustering par consensus. La deuxième méthode, semi-supervisée, a été développée pour permettre de surcroît l’utilisation d’une composante supervisée, à savoir le délai de survie, tout en permettant l’application à des données incomplètes. Cette méthode a ainsi permis d’identifier des profils de patients qui se distinguent d'une part selon la structure de groupes qui se dégage des données et d'autre part, selon le pronostic des patients. Cette méthode utilise l’optimisation multi-objectifs de Pareto. L’adaptation aux données incomplètes a été traitée de manière similaire au développement précédent, par imputation multiple et clustering par consensus. Enfin, deux propositions d'applications sont incluses. Elles concernent d'une part la composante immunologique du microenvironnement tumoral dans le cancer du sein, et d'autre part l’infection COVID-19 dans le contexte d’une maladie hématologique
The topic of this thesis is partition learning analyses in the context of incomplete data. Two methodological development are presented, with two medical and biomedical applications. The first methodological development concerns the implementation of unsupervised partition learning in the presence of incomplete data. Two types of incomplete data were considered: missing data and left-censored data (that is, values “lower than some detection threshold"), and handled through multiple imputation (MI) framework. Multivariate imputation by chained equation (MICE) was used to perform tailored imputations for each type of incomplete data. Then, for each imputed dataset, unsupervised learning was performed, with a data-based selected number of clusters. Last, a consensus clustering algorithm was used to pool the partitions, as an alternative to Rubin's rules. The second methodological development concerns the implementation of semisupervised partition learning in an incomplete dataset, to combine data structure and patient survival. This aimed at identifying patient profiles that relate both to differences in the group structure extracted from the data, and in the patients' prognosis. The supervised (prognostic value) and unsupervised (group structure) objectives were combined through Pareto multi-objective optimization. Missing data were handled, as above, through MI, with Rubin's rules used to combine the supervised and unsupervised objectives across the imputations, and the optimal partitions pooled using consensus clustering. Two applications are provided, one on the immunological landscape of the breast tumor microenvironment and another on the COVID-19 infection in the context of a hematological disease
APA, Harvard, Vancouver, ISO, and other styles
38

Hadouche, Fadila. "Annotation syntaxico-sémantique des actants en corpus spécialisé." Thèse, 2010. http://hdl.handle.net/1866/5032.

Full text
Abstract:
L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.
Semantic role annotation is a process that aims to assign labels such as Agent, Patient, Instrument, Location, etc. to actants or circumstants (also called arguments or adjuncts) of predicative lexical units. This process often requires the use of rich lexical resources or corpora in which sentences are annotated manually by linguists. The automatic approaches (statistical or machine learning) are based on corpora. Previous work was performed for the most part in English which has rich resources, such as PropBank, VerbNet and FrameNet. These resources were used to serve the automated annotation systems. This type of annotation in other languages for which no corpora of annotated sentences are available often use FrameNet by projection. Although a resource such as FrameNet is necessary for the automated annotation systems and the manual annotation by linguists of a large number of sentences is a tedious and time consuming work. We have proposed an automated system to help linguists in this task so that they have only to validate annotations proposed. Our work focuses on verbs that are more likely than other predicative units (adjectives and nouns) to be accompanied by actants realized in sentences. These verbs are specialized terms of the computer science and Internet domains (ie. access, configure, browse, download) whose actantial structures have been annotated manually with semantic roles. The actantial structure is based on principles of Explanatory and Combinatory Lexicology, LEC of Mel’čuk and appeal in part (with regard to semantic roles) to the notion of Frame Element as described in the theory of frame semantics (FS) of Fillmore. What these two theories have in common is that they lead to the construction of dictionaries different from those resulting from the traditional theories. These manually annotated verbal units in several contexts constitute the specialized corpus that our work will use. Our system designed to assign automatically semantic roles to actants is based on rules and classifiers trained on more than 2300 contexts. We are limited to a restricted list of roles for certain roles in our corpus have not enough examples manually annotated. In our system, we addressed the roles Patient, Agent and destination that the number of examples is greater than 300. We have created a class that we called Autre which we bring to gether the other roles that the number of annotated examples is less than 100. We subdivided the annotation task in the identification of participant actants and circumstants and the assignment of semantic roles to actants that contribute to the sense of the verbal lexical unit. We parsed, with Syntex, the sentences of the corpus to extract syntactic informations that describe the participants of the verbal lexical unit in the sentence. These informations are used as features in our learning model. We have proposed two techniques for the task of participant detection: the technique based in rules and machine learning. These same techniques are used for the task of classification of these participants into actants and circumstants. We proposed to the task of assigning semantic roles to the actants, a partitioning method (clustering) semi supervised of instances that we have compared to the method of semantic role classification. We used CHAMELEON, an ascending hierarchical algorithm.
APA, Harvard, Vancouver, ISO, and other styles
39

Martínez, Vargas Danae Mirel. "Régression de Cox avec partitions latentes issues du modèle de Potts." Thèse, 2019. http://hdl.handle.net/1866/22552.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography