Índice

  1. Tesis

Literatura académica sobre el tema "Clustering (intelligence artificielle)"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Clustering (intelligence artificielle)".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Tesis sobre el tema "Clustering (intelligence artificielle)"

1

Lévy, Loup-Noé. "Advanced Clustering and AI-Driven Decision Support Systems for Smart Energy Management". Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG027.

Texto completo
Resumen
Cette thèse aborde le clustering de systèmes énergétiques complexes et hétérogènes au sein d'un système d'aide à la décision (SAD).Dans le chapitre 1, nous explorons d'abord la théorie des systèmes complexes et leur modélisation, reconnaissant les bâtiments comme des Systèmes Complexes Sociotechniques. Nous examinons l'état de l'art des acteurs impliqués dans la performance énergétique, identifiant notre cas d'étude comme le Tiers de Confiance pour la Mesure et la Performance Énergétique (TCMPE). Face à nos contraintes, nous nous focalisons sur le besoin d'un système d'aide à la décision pour fournir des recommandations énergétiques, le comparant aux systèmes de supervision et de recommandation et soulignant l'importance de l'explicabilité dans la prise de décision assistée par IA (XAI). Reconnaissant la complexité et l'hétérogénéité des bâtiments gérés par le TCMPE, nous argumentons que le clustering est une étape initiale cruciale pour développer un SAD, permettant des recommandations sur mesure pour des sous-groupes homogènes de bâtiments.Dans le Chapitre 2, nous explorons l'état de l'art des systèmes semi-automatisés pour la prise de décisions à haut risque, mettant l'accent sur la nécessité de gouvernance dans les SAD. Nous investiguons les régulations européennes, mettant en lumière le besoin d'exactitude, de fiabilité, et d'équité de notre système décisionnel, et identifions des méthodologies pour adresser ces besoins, telles que la méthodologie DevOps et le data lineage. Nous proposons une architecture distribuée du SAD qui répond à ces exigences et aux défis posés par le Big Data, intégrant un datalake pour la manipulation des données hétérogènes et massive, des datamarts pour la sélection et le traitement spécifiques des données, et une ML-Factory pour peupler une bibliothèque de modèles. Différentes méthodes de Machine Learning sont sélectionnées pour les différents besoins spécifiques du SAD.Le Chapitre 3 se concentre sur le clustering comme méthode d'apprentissage automatique primaire dans notre cas d'étude, il est essentiel pour identifier des groupes homogènes de bâtiments. Face à la nature plurielle - numérique, catégorielle, séries temporelles - des données décrivant les bâtiments, nous proposons le concept de clustering complexe. Après avoir examiné l'état de l'art, nous identifions la nécessité d'introduire des techniques de réduction de dimensionnalité, associé à des méthodes de clustering numérique et mixte état de l'art. La Prétopologie est proposée comme approche novatrice pour le clustering de données mixtes et complexes. Nous soutenons qu'elle permet une plus grande explicabilité et interactivité, en permettant un clustering hiérarchique construit sur de règles logiques et de notions de proximité adaptées au contexte. Les défis de l'évaluation du clustering complexe sont abordés, et des adaptations de l'évaluation des jeux de donnée numérique sont proposées.Dans le chapitre 4, nous analysons les performances computationnelles des algorithmes et la qualité des clusters obtenus sur différents jeux de données variant en taille, nombre de clusters, distribution et nombre de dimensions. Ces jeux de donnée sont publique, privées ou généré pour les tests. La Prétopologie et l'utilisation de la réduction de dimensionnalité montrent des résultats prometteurs comparés aux méthodes de clustering de données mixtes de l'état de l'art.En conclusion, nous discutons des limitations de notre système, y compris les limites d'automatisation du SAD à chaque étape du flux de données. Nous mettons l'accent sur le rôle crucial de la qualité des données et les défis de prédire le comportement des systèmes complexes au fil du temps. L'objectivité de nos méthodes d'évaluation de clustering est questionnée en raison de l'absence de vérité terrain. Nous envisageons des travaux futurs, tels que l'automatisation de l'hyperparamètrisation et la continuation du développement du SAD
This thesis addresses the clustering of complex and heterogeneous energy systems within a Decision Support System (DSS).In chapter 1, we delve into the theory of complex systems and their modeling, recognizing buildings as complex systems, specifically as Sociotechnical Complex Systems. We examine the state of the art of the different agents involved in energy performance within the energy sector, identifying our case study as the Trusted Third Party for Energy Measurement and Performance (TTPEMP.) Given our constraints, we opt to concentrate on the need for a DSS to provide energy recommendations. We compare this system to supervision and recommender systems, highlighting their differences and complementarities and introduce the necessity for explainability in AI-aided decision-making (XAI). Acknowledging the complexity, numerosity, and heterogeneity of buildings managed by the TTPEMP, we argue that clustering serves as a pivotal first step in developing a DSS, enabling tailored recommendations and diagnostics for homogeneous subgroups of buildings. This is presented in Chapter 1.In Chapter 2, we explore DSSs' state of the art, emphasizing the need for governance in semi-automated systems for high-stakes decision-making. We investigate European regulations, highlighting the need for accuracy, reliability, and fairness in our decision system, and identify methodologies to address these needs, such as DevOps methodology and Data Lineage. We propose a DSS architecture that addresses these requirements and the challenges posed by big data, featuring a distributed architecture comprising a data lake for heterogeneous data handling, datamarts for specific data selection and processing, and an ML-Factory populating a model library. Different types of methods are selected for different needs based on the specificities of the data and of the question needing answering.Chapter 3 focuses on clustering as a primary machine learning method in our architecture, essential for identifying homogeneous groups of buildings. Given the combination of numerical, categorical and time series nature of the data describing buildings, we coin the term complex clustering to address this combination of data types. After reviewing the state-of-the-art, we identify the need for dimensionality reduction techniques and the most relevant mixed clustering methods. We also introduce Pretopology as an innovative approach for mixed and complex data clustering. We argue that it allows for greater explainability and interactability in the clustering as it enables Hierarchical clustering and the implementation of logical rules and custom proximity notions. The challenges of evaluating clustering are addressed, and adaptations of numerical clustering to mixed and complex clustering are proposed, taking into account the explainability of the methods.In the datasets and results chapter, we present the public, private, and generated datasets used for experimentation and discuss the clustering results. We analyze the computational performances of algorithms and the quality of clusters obtained on different datasets varying in size, number of clusters, distribution, and number of categorical and numerical parameters. Pretopology and Dimensionality Reduction show promising results compared to state-of-the-art mixed data clustering methods.Finally, we discuss our system's limitations, including the automation limits of the DSS at each step of the data flow. We focus on the critical role of data quality and the challenges in predicting the behavior of complex systems over time. The objectivity of our clustering evaluation methods is challenged due to the absence of ground truth and the reliance on dimensionality reduction to adapt state-of-the-art metrics to complex data. We discuss possible issues regarding the chosen elbow method and future work, such as automation of hyperparameter tuning and continuing the development of the DSS
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Rastin, Parisa. "Automatic and Adaptive Learning for Relational Data Stream Clustering". Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD052.

Texto completo
Resumen
Le travail de recherche exposé dans cette thèse concerne le développement d’approches d’apprentissage non-supervisé adaptés aux grands jeux de données relationnelles et dynamiques. La combinaison de ces trois caractéristiques (taille, complexité et évolution)constitue un défi majeur dans le domaine de l’exploration de données et peu de solutions satisfaisantes existent pour le moment, malgré les besoins de plus en plus manifestes des entreprises. C’est un véritable challenge, car les approches adaptées aux données relationnelle sont une complexité quadratique inadaptée à l’analyse de données dynamiques. Nous proposons ici deux approches complémentaires pour l’analyse de ce type de données. La première approche est capable de détecter des clusters bien séparés à partir d’un signal créé lors d’un réordonnancement incrémental de la matrice de dissimilarité, sans paramètre à choisir (par ex. le nombre de clusters). La seconde propose d’utiliser des points de support parmi les objets afin de construire un espace de représentation permettant de définir des prototypes représentatifs des clusters. Enfin, nous appliquons les approches proposées au profilage en temps réel d’utilisateurs connectés. Les tâches de profilage visent à reconnaître"l’état d’esprit" des utilisateurs à travers leurs navigations sur différents sites
The research work presented in this thesis concerns the development of unsupervised learning approaches adapted to large relational and dynamic data-sets. The combination of these three characteristics (size, complexity and evolution) is a major challenge in the field of data mining and few satisfactory solutions exist at the moment, despite the obvious needs of companies. This is a real challenge, because the approaches adapted to relational data have a quadratic complexity, unsuited to the analysis of dynamic data. We propose here two complementary approaches for the analysis of this type of data. The first approach is able to detect well-separated clusters from a signal created during an incremental reordering of the dissimilarity matrix, with no parameter to choose (e.g., the number of clusters). The second proposes to use support points among the objects in order to build a representation space to define representative prototypes of the clusters. Finally, we apply the proposed approaches to real-time profiling of connected users. Profiling tasks are designed to recognize the "state of mind" of users through their navigations on different web-sites
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Guillon, Arthur. "Opérateurs de régularisation pour le subspace clustering flou". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS121.

Texto completo
Resumen
Cette thèse considère une tâche de fouille de données appelée subspace clustering, qui consiste à simultanément identifier des groupes de données similaires et à expliciter cette similarité, notamment en mettant en avant les attributs caractéristiques de ces différents groupes. Nous proposons l'étude d'une famille particulière de modèles de subspace clustering flou, qui reposent sur la minimisation d'une fonction de coût. Nous formulons trois propriétés souhaitables en clustering, dont nous montrons qu'elles sont absentes des minima du modèle que nous étudions. Nous les reformulons sous forme de fonctions de pénalité, que nous rajoutons aux fonctions de coût des algorithmes initiaux. Certaines de ces pénalités étant non différentiables, les techniques d'optimisation usuelles en clustering flou ne sont pas applicables; nous proposons un algorithme de subspace clustering générique qui étend l'approche classique et combine optimisation alternée et descente proximale. Nous appliquons ensuite cet algorithme aux trois pénalités précédentes et montrons que les algorithmes qui en résultent satisfont les propriétés correspondantes
Subspace clustering is a data mining task which consists in simultaneously identifiying groups of similar data and making this similarity explicit, for example by selecting features characteristic of the groups. In this thesis, we consider a specific family of fuzzy subspace clustering models, which are based on the minimization of a cost function. We propose three desirable qualities of clustering, which are absent from the solutions computed by the previous models. We then propose simple penalty terms which we use to encode these properties in the original cost functions. Some of these terms are non-differentiable and the techniques standard in fuzzy clustering cannot be applied to minimize the new cost functions. We thus propose a new, generic optimization algorithm, which extends the standard approach by combining alternate optimization and proximal gradient descent. We then instanciate this algorithm with operators minimizing the three previous penalty terms and show that the resulting algorithms posess the corresponding qualities
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Sarazin, Tugdual. "Apprentissage massivement distribué dans un environnement Big Data". Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD050.

Texto completo
Resumen
Lors de ces dernières années les volumes de données analysées par les entreprises et les laboratoires de recherches ont fortement augment´es ouvrant ainsi l’`ere du BigData. Cependant ces données brutes sont fréquemment non catégorisées et difficilement exploitables. Cette thèse vise à améliorer et faciliter le pré-traitement et la comprehension de grands volumes de données en fournissant des algorithmes d’apprentissage non supervisés. La première partie de cette thèse est consacrée à un état de l’art des algorithmes de partitionnement et bi-partitionnement ainsi qu’une présentation des technologies du Big Data. La première contribution de cette thèse est dédiée à la conception de l’algorithme de clustering Self-Organizing Map ou carte auto-organisatrice [Kohonen,2001] dans un environnement Big data. Notre algorithme (SOM-MR) fournit les mêmes avantages que l’algorithme de base, à savoir la création de partition de données et leur visualisation sous la forme de carte. De plus il utilise la plateforme Spark, ce qui lui permet à la fois de traiter de grands volumes de données en peu de temps. De part la popularité de cette plateforme il s’intègre facilement dans dans de nombreux environnements de traitement de données. C’est ce que nous avons démontré dans notre projet “Square Predict” réalisé en partenariat avec l’assurance Axa. Ce projet avait pour objectif de fournir une plateforme d’analyse de données en temps r´eel afin d’évaluer la sévérité d’une catastrophe naturelle ou d’améliorer la connaissance des risques résidentiels. Durant ce projet nous avons démontré l’efficacité de notre algorithme pour analyser et fournir des visualisations à partir de grands volumes de données provenant des réseaux sociaux et d’Open data. La deuxième contribution de cette thèse est consacrée à un nouvel algorithme de BiClustering. Le BiClustering consiste `a réaliser un clustering simultanément sur les observations et les variables. Dans cette contribution nous proposons une nouvelle approche de biclustering bas´e sur l’algorithme self-organizing maps capable de passer `a l’échelle sur de grands volumes de données (BiTM-MR). Pour ce faire il est également basé sur la plateforme des technologies Big data. Mais il apporte davantage d’informations que notre algorithme SOM-MR car en plus de produire des groupes d’observations il associe des variables à ces groupes, formant ainsi des bi-groupes d’observations et variables
In recent years, the amount of data analysed by companies and research laboratories increased strongly, opening the era of BigData. However, these raw data are frequently non-categorized and uneasy to use. This thesis aims to improve and ease the pre-treatment and comprehension of these big amount of data by using unsupervised machine learning algorithms.The first part of this thesis is dedicated to a state-of-the-art of clustering and biclustering algorithms and to an introduction to big data technologies. The first part introduces the conception of clustering Self-Organizing Map algorithm [Kohonen,2001] in big data environment. Our algorithm (SOM-MR) provides the same advantages as the original algorithm, namely the creation of data visualisation map based on data clusters. Moreover, it uses the Spark platform that makes it able to treat a big amount of data in a short time. Thanks to the popularity of this platform, it easily fits in many data mining environments. This is what we demonstrated it in our project \Square Predict" carried out in partnership with Axa insurance. The aim of this project was to provide a real-time data analysing platform in order to estimate the severity of natural disasters or improve residential risks knowledge. Throughout this project, we proved the efficiency of our algorithm through its capacity to analyse and create visualisation out of a big volume of data coming from social networks and open data.The second part of this work is dedicated to a new bi-clustering algorithm. BiClustering consists in making a cluster of observations and variables at the same time. In this contribution we put forward a new approach of bi-clustering based on the self-organizing maps algorithm that can scale on big amounts of data (BiTM-MR). To reach this goal, this algorithm is also based on a the Spark platform. It brings out more information than the SOM-MR algorithm because besides producing observation groups, it also associates variables to these groups,thus creating bi-clusters of variables and observations
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Thépaut, Solène. "Problèmes de clustering liés à la synchronie en écologie : estimation de rang effectif et détection de ruptures sur les arbres". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS477/document.

Texto completo
Resumen
Au vu des changements globaux actuels engendrés en grande partie par l'être humain, il devient nécessaire de comprendre les moteurs de la stabilité des communautés d'êtres vivants. La synchronie des séries temporelles d'abondances fait partie des mécanismes les plus importants. Cette thèse propose trois angles différents permettant de répondre à différentes questions en lien avec la synchronie interspécifique ou spatiale. Les travaux présentés trouvent des applications en dehors du cadre écologique. Un premier chapitre est consacré à l'estimation du rang effectif de matrices à valeurs dans ℝ ou ℂ. Nous apportons ainsi des outils permettant de mesurer le taux de synchronisation d'une matrice d'observations. Dans le deuxième chapitre, nous nous basons sur les travaux existants sur le problème de détection de ruptures sur les chaînes afin de proposer plusieurs algorithmes permettant d'adapter ce problème au cas des arbres. Les méthodes présentées peuvent être utilisées sur la plupart des données nécessitant d'être représentées sous la forme d'un arbre. Afin d'étudier les liens entre la synchronie interspécifique et les tendances à long termes ou les traits d'espèces de papillons, nous proposons dans le dernier chapitre d'adapter des méthodes de clustering et d'apprentissage supervisé comme les Random Forest ou les Réseaux de Neurones artificiels à des données écologiques
In the view of actual global changes widely caused by human activities, it becomes urgent to understand the drivers of communities' stability. Synchrony between time series of abundances is one of the most important mechanisms. This thesis offers three different angles in order to answer different questions linked to interspecific and spatial synchrony. The works presented find applications beyond the ecological frame. A first chapter is dedicated to the estimation of effective rank of matrices in ℝ or ℂ. We offer tools allowing to measure the synchronisation rate of observations matrices. In the second chapter, we base on the existing work on change-points detection problem on chains in order to offer algorithms which detects change-points on trees. The methods can be used with most data that have to be represented as a tree. In order to study the link between interspecific synchrony and long term tendencies or traits of butterflies species, we offer in the last chapter adaptation of clustering and supervised machine learning methods, such as Random Forest or Artificial Neural Networks to ecological data
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Masmoudi, Nesrine. "Modèle bio-inspiré pour le clustering de graphes : application à la fouille de données et à la distribution de simulations". Thesis, Normandie, 2017. http://www.theses.fr/2017NORMLH26/document.

Texto completo
Resumen
Dans ce travail de thèse, nous présentons une méthode originale s’inspirant des comportements des fourmis réelles pour la résolution de problème de classification non supervisée non hiérarchique. Cette approche créée dynamiquement des groupes de données. Elle est basée sur le concept des fourmis artificielles qui se déplacent en même temps de manière complexe avec les règles de localisation simples. Chaque fourmi représente une donnée dans l’algorithme. Les mouvements des fourmis visent à créer des groupes homogènes de données qui évoluent ensemble dans une structure de graphe. Nous proposons également une méthode de construction incrémentale de graphes de voisinage par des fourmis artificielles. Nous proposons deux méthodes qui se dérivent parmi les algorithmes biomimétiques. Ces méthodes sont hybrides dans le sens où la recherche du nombre de classes, de départ, est effectuée par l’algorithme de classification K-Means, qui est utilisé pour initialiser la première partition et la structure de graphe
In this work, we present a novel method based on behavior of real ants for solving unsupervised non-hierarchical classification problem. This approach dynamically creates data groups. It is based on the concept of artificial ants moving complexly at the same time with simple location rules. Each ant represents a data in the algorithm. The movements of ants aim to create homogenous data groups that evolve together in a graph structure. We also propose a method of incremental building neighborhood graphs by artificial ants. We propose two approaches that are derived among biomimetic algorithms, they are hybrid in the sense that the search for the number of classes starting, which are performed by the classical algorithm K-Means classification, it is used to initialize the first partition and the graph structure
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Sublemontier, Jacques-Henri. "Classification non supervisée : de la multiplicité des données à la multiplicité des analyses". Phd thesis, Université d'Orléans, 2012. http://tel.archives-ouvertes.fr/tel-00801555.

Texto completo
Resumen
La classification automatique non supervisée est un problème majeur, aux frontières de multiples communautés issues de l'Intelligence Artificielle, de l'Analyse de Données et des Sciences de la Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l'automatiser pour la rendre applicable à un grand nombre d'objets (ou individus) à classer. Des visées plus applicatives s'intéressent à l'organisation automatique de grands ensembles d'objets en différents groupes partageant des caractéristiques communes. La présente thèse propose des méthodes de classification non supervisées applicables lorsque plusieurs sources d'informations sont disponibles pour compléter et guider la recherche d'une ou plusieurs classifications des données. Pour la classification non supervisée multi-vues, la première contribution propose un mécanisme de recherche de classifications locales adaptées aux données dans chaque représentation, ainsi qu'un consensus entre celles-ci. Pour la classification semi-supervisée, la seconde contribution propose d'utiliser des connaissances externes sur les données pour guider et améliorer la recherche d'une classification d'objets par un algorithme quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un environnement collaboratif permettant d'atteindre au choix les objectifs de consensus et d'alternatives pour la classification d'objets mono-représentés ou multi-représentés. Cette dernière contribution ré-pond ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la classification non supervisée, et propose, au sein d'une même plate-forme unificatrice, une proposition répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des Connaissances.
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Falih, Issam. "Attributed Network Clustering : Application to recommender systems". Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD011/document.

Texto completo
Resumen
Au cours de la dernière décennie, les réseaux (les graphes) se sont révélés être un outil efficace pour modéliser des systèmes complexes. La problématique de détection de communautés est une tâche centrale dans l’analyse des réseaux complexes. La majeur partie des travaux dans ce domaine s’intéresse à la structure topologique des réseaux. Cependant, dans plusieurs cas réels, les réseaux complexes ont un ensemble d’attributs associés aux nœuds et/ou aux liens. Ces réseaux sont dites : réseaux attribués. Mes activités de recherche sont basées principalement sur la détection des communautés dans les réseaux attribués. Pour aborder ce problème, on s’est intéressé dans un premier temps aux attributs relatifs aux liens, qui sont un cas particulier des réseaux multiplexes. Un multiplex est un modèle de graphe multi-relationnel. Il est souvent représenté par un graphe multi-couches. Chaque couche contient le même ensemble de nœuds mais encode une relation différente. Dans mes travaux de recherche, nous proposons une étude comparative des différentes approches de détection de communautés dans les réseaux multiplexes. Cette étude est faite sur des réseaux réels. Nous proposons une nouvelle approche centrée "graine" pour la détection de communautés dans les graphes multiplexes qui a nécessité la redéfinition des métriques de bases des réseaux complexes au cas multiplex. Puis, nous proposons une approche de clustering dans les réseaux attribués qui prend en considération à la fois les attributs sur les nœuds et sur les liens. La validation de mes approches a été faite avec des indices internes et externes, mais aussi par une validation guidée par un système de recommandation que nous avons proposé et dont la détection de communautés est sa tâche principale. Les résultats obtenus sur ces approches permettent d’améliorer la qualité des communautés détectées en prenant en compte les informations sur les attributs du réseaux. De plus, nous offrons des outils d’analyse des réseaux attribués sous le langage de programmation R
In complex networks analysis field, much effort has been focused on identifying graphs communities of related nodes with dense internal connections and few external connections. In addition to node connectivity information that are mostly composed by different types of links, most real-world networks contains also node and/or edge associated attributes which can be very relevant during the learning process to find out the groups of nodes i.e. communities. In this case, two types of information are available : graph data to represent the relationship between objects and attributes information to characterize the objects i.e nodes. Classic community detection and data clustering techniques handle either one of the two types but not both. Consequently, the resultant clustering may not only miss important information but also lead to inaccurate findings. Therefore, various methods have been developed to uncover communities in networks by combining structural and attribute information such that nodes in a community are not only densely connected, but also share similar attribute values. Such graph-shape data is often referred to as attributed graph.This thesis focuses on developing algorithms and models for attributed graphs. Specifically, I focus in the first part on the different types of edges which represent different types of relations between vertices. I proposed a new clustering algorithms and I also present a redefinition of principal metrics that deals with this type of networks.Then, I tackle the problem of clustering using the node attribute information by describing a new original community detection algorithm that uncover communities in node attributed networks which use structural and attribute information simultaneously. At last, I proposed a collaborative filtering model in which I applied the proposed clustering algorithms
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Boudane, Abdelhamid. "Fouille de données par contraintes". Thesis, Artois, 2018. http://www.theses.fr/2018ARTO0403/document.

Texto completo
Resumen
Dans cette thèse, nous abordons les problèmes bien connus de clustering et de fouille de règles d’association. Notre première contribution introduit un nouveau cadre de clustering, où les objets complexes sont décrits par des formules propositionnelles. Premièrement, nous adaptons les deux fameux algorithmes de clustering, à savoir, le k-means et l’algorithme hiérarchique ascendant, pour traiter ce type d’objets complexes. Deuxièmement, nous introduisons un nouvel algorithme hiérarchique descendant pour le clustering des objets représentés explicitement par des ensembles de modèles. Enfin, nous proposons un encodage basé sur la satisfiabilité propositionnelle du problème de clustering des formules propositionnelles sans avoir besoin d’une représentation explicite de leurs modèles. Dans une seconde contribution, nous proposons une nouvelle approche basée sur la satisfiabilité pour extraire les règles d’association en une seule étape. La tâche est modélisée comme une formule propositionnelle dont les modèles correspondent aux règles à extraire. Pour montrer la flexibilité de notre cadre, nous abordons également d’autres variantes, à savoir, l’extraction des règles d’association fermées, minimales non redondantes, les plus générales et les indirectes. Les expérimentations sur de nombreux jeux de données montrent que sur la majorité des tâches de fouille de règles d’association considérées, notre approche déclarative réalise de meilleures performances que les méthodes spécialisées
In this thesis, We adress the well-known clustering and association rules mining problems. Our first contribution introduces a new clustering framework, where complex objects are described by propositional formulas. First, we extend the two well-known k-means and hierarchical agglomerative clustering techniques to deal with these complex objects. Second, we introduce a new divisive algorithm for clustering objects represented explicitly by sets of models. Finally, we propose a propositional satisfiability based encoding of the problem of clustering propositional formulas without the need for an explicit representation of their models. In a second contribution, we propose a new propositional satisfiability based approach to mine association rules in a single step. The task is modeled as a propositional formula whose models correspond to the rules to be mined. To highlight the flexibility of our proposed framework, we also address other variants, namely the closed, minimal non-redundant, most general and indirect association rules mining tasks. Experiments on many datasets show that on the majority of the considered association rules mining tasks, our declarative approach achieves better performance than the state-of-the-art specialized techniques
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Boutalbi, Rafika. "Model-based tensor (co)-clustering and applications". Electronic Thesis or Diss., Université Paris Cité, 2020. https://wo.app.u-paris.fr/cgi-bin/WebObjects/TheseWeb.woa/wa/show?t=7172&f=55867.

Texto completo
Resumen
La classification non supervisée ou clustering suscite un grand intérêt dans la communauté d’apprentissage machine. Etant donné un ensemble d'objets décrits par un ensemble d'attributs, le clustering vise à partitionner l'ensemble des objets en classes homogènes. Le regroupement ou catégorisation de cet ensemble, est souvent nécessaire pour le traitement de données massives, devenu actuellement un axe de recherche prioritaire. A noter que lorsqu'on s'intéresse au clustering, nous faisons généralement référence au clustering de l'ensemble des objets. Depuis deux décennies, un intérêt est porté à la classification croisée (ou co-clustering) qui permet de regrouper simultanément les lignes et les colonnes d'une matrice de données. Le co-clustering conduit de ce fait à une réorganisation des données en blocs homogènes (après permutations appropriées). Cette approche joue un rôle important dans une grande variété d'applications où les données sont généralement organisées dans des tableaux à double entrées. Cependant si on considère l’exemple du clustering d’articles, nous pouvons collecter plusieurs informations telles que les termes en commun, les co-auteurs et les citations, qui conduisent naturellement à une représentation tensorielle. L'exploitation d'un tel tenseur d'ordre 3 permettrait d'améliorer les résultats de clustering d'un des ensembles. Ainsi, deux articles qui partagent un ensemble important de mots en commun, qui ont des auteurs en commun et qui partagent une bibliographie commune, sont très susceptibles de traiter d'une même thématique. Dans cette thèse nous nous intéressons à de telles structures de données. Malgré le grand intérêt pour le co-clustering et la représentation tensorielle, peu de travaux portent sur le co-clustering de tenseurs. Nous pouvons néanmoins citer le travail basé sur l’information Minimum Bregman (MBI), ou encore la méthode de co-clustering de tenseurs non négatifs GTSC (General Tensor Spectral Co-Clustering). Mais la majorité des travaux considèrent le co-clustering à partir de méthodes de factorisation tensorielles. Dans cette thèse nous proposons de nouvelles approches probabilistes pour le co-clustering de tenseur d'ordre 3. Dès lors plusieurs défis sont à relever dont les suivants. Comment gérer efficacement les données de grande dimension ? Comment gérer la sparsité des données et exploiter les dépendances inter-tranches des données tensorielles ? S'inspirant de la célèbre citation de Jean Paul Benzcri "Le modèle doit suivre les données et non l’inverse", nous avons choisi dans cette thèse de nous appuyer sur des modèles de mélange appropriés. Ainsi, nos contributions sont basées sur le modèle des blocs latents ou (LBM, Latent Block Model) pour le co-clustering, proposé pour la première fois par Govaert et al. Voici une brève description des différentes contributions : a) Extension du formalisme des LBM au co-clustering des données tensorielles et présentation d'un nouveau modèle Tensor LBM (TLBM) comme solution, b) Proposition d'un Sparse TLBM prenant en compte la sparsité et son extension pour la gestion des graphes multiples ou graphes multi-vues, et c) Développement d'une méthode de co-clusterwise qui intègre le co-clustering dans un cadre d'apprentissage supervisé. Ces contributions ont été évaluées avec succès sur des données tensorielles issues de divers domaines allant des systèmes de recommandation, le clustering d'images hyperspectrales, la catégorisation de documents, à l'optimisation de la gestion des déchets. Elles permettent également d'envisager des pistes de recherches futures intéressantes et immédiates. Par exemple, l'extension du modèle proposé au tri-clustering et aux séries temporelles multivariées
Clustering, which seeks to group together similar data points according to a given criterion, is an important unsupervised learning technique to deal with large scale data. In particular, given a data matrix where rows represent objects and columns represent features, clustering aims to partition only one dimension of the matrix at a time, by clustering either objects or features. Although successfully applied in several application domains, clustering techniques are often challenged by certain characteristics exhibited by some datasets such as high dimensionality and sparsity. When it comes to such data, co-clustering techniques, which allow the simultaneous clustering of rows and columns of a data matrix, has proven to be more beneficial. In particular, co-clustering techniques allow the exploitation of the inherent duality between the objects set and features set, which make them more effective even if we are interested in the clustering of only one dimension of our data matrix. In addition, co-clustering turns out to be more efficient since compressed matrices are used at each time step of the process instead of the whole matrix for traditional clustering. Although co-clustering approaches have been successfully applied in a variety of applications, existing approaches are specially tailored for datasets represented by double-entry tables. However, in several real-world applications, two dimensions are not sufficient to represent the dataset. For example, if we consider the articles clustering problem, several information linked to the articles can be collected, such as common words, co-authors and citations, which naturally lead to a tensorial representation. Intuitively, leveraging all this information would lead to a better clustering quality. In particular, two articles that share a large set of words, authors and citations are very likely to be similar. Despite the great interest of tensor co-clustering models, research works are extremely limited in this context and rely, for most of them, on tensor factorization methods. Inspired by the famous statement made by Jean Paul Benzécri "The model must follow the data and not vice versa", we have chosen in this thesis to rely on appropriate mixture models. More explicitly, we propose several new co-clustering models which are specially tailored for tensorial representations as well as robust towards data sparsity. Our contribution can be summarized as follows. First, we propose to extend the LBM (Latent Block Model) formalism to take into account tensorial structures. More specifically, we present Tensor LBM (TLBM), a powerful tensor co-clustering model that we successfully applied on diverse kind of data. Moreover, we highlight that the derived algorithm VEM-T, reveals the most meaningful co-clusters from tensor data. Second, we develop a novel Sparse TLBM taking into account sparsity. We extend its use for the management of multiple graphs (or multi-view graphs), leading to implicit consensus clustering of multiple graphs. As a last contribution of this thesis, we propose a new co-clusterwise method which integrates co-clustering in a supervised learning framework. These contributions have been successfully evaluated on tensorial data from various fields ranging from recommendation systems, clustering of hyperspectral images and categorization of documents, to waste management optimization. They also allow us to envisage interesting and immediate future research avenues. For instance, the extension of the proposed models to tri-clustering and multivariate time series
Los estilos APA, Harvard, Vancouver, ISO, etc.
Más fuentes
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía