Bibliographies: 'Clustering (intelligence artificielle)'

1

Lévy, Loup-Noé. "Advanced Clustering and AI-Driven Decision Support Systems for Smart Energy Management." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG027.

Full text

Abstract:

Cette thèse aborde le clustering de systèmes énergétiques complexes et hétérogènes au sein d'un système d'aide à la décision (SAD).Dans le chapitre 1, nous explorons d'abord la théorie des systèmes complexes et leur modélisation, reconnaissant les bâtiments comme des Systèmes Complexes Sociotechniques. Nous examinons l'état de l'art des acteurs impliqués dans la performance énergétique, identifiant notre cas d'étude comme le Tiers de Confiance pour la Mesure et la Performance Énergétique (TCMPE). Face à nos contraintes, nous nous focalisons sur le besoin d'un système d'aide à la décision pour fournir des recommandations énergétiques, le comparant aux systèmes de supervision et de recommandation et soulignant l'importance de l'explicabilité dans la prise de décision assistée par IA (XAI). Reconnaissant la complexité et l'hétérogénéité des bâtiments gérés par le TCMPE, nous argumentons que le clustering est une étape initiale cruciale pour développer un SAD, permettant des recommandations sur mesure pour des sous-groupes homogènes de bâtiments.Dans le Chapitre 2, nous explorons l'état de l'art des systèmes semi-automatisés pour la prise de décisions à haut risque, mettant l'accent sur la nécessité de gouvernance dans les SAD. Nous investiguons les régulations européennes, mettant en lumière le besoin d'exactitude, de fiabilité, et d'équité de notre système décisionnel, et identifions des méthodologies pour adresser ces besoins, telles que la méthodologie DevOps et le data lineage. Nous proposons une architecture distribuée du SAD qui répond à ces exigences et aux défis posés par le Big Data, intégrant un datalake pour la manipulation des données hétérogènes et massive, des datamarts pour la sélection et le traitement spécifiques des données, et une ML-Factory pour peupler une bibliothèque de modèles. Différentes méthodes de Machine Learning sont sélectionnées pour les différents besoins spécifiques du SAD.Le Chapitre 3 se concentre sur le clustering comme méthode d'apprentissage automatique primaire dans notre cas d'étude, il est essentiel pour identifier des groupes homogènes de bâtiments. Face à la nature plurielle - numérique, catégorielle, séries temporelles - des données décrivant les bâtiments, nous proposons le concept de clustering complexe. Après avoir examiné l'état de l'art, nous identifions la nécessité d'introduire des techniques de réduction de dimensionnalité, associé à des méthodes de clustering numérique et mixte état de l'art. La Prétopologie est proposée comme approche novatrice pour le clustering de données mixtes et complexes. Nous soutenons qu'elle permet une plus grande explicabilité et interactivité, en permettant un clustering hiérarchique construit sur de règles logiques et de notions de proximité adaptées au contexte. Les défis de l'évaluation du clustering complexe sont abordés, et des adaptations de l'évaluation des jeux de donnée numérique sont proposées.Dans le chapitre 4, nous analysons les performances computationnelles des algorithmes et la qualité des clusters obtenus sur différents jeux de données variant en taille, nombre de clusters, distribution et nombre de dimensions. Ces jeux de donnée sont publique, privées ou généré pour les tests. La Prétopologie et l'utilisation de la réduction de dimensionnalité montrent des résultats prometteurs comparés aux méthodes de clustering de données mixtes de l'état de l'art.En conclusion, nous discutons des limitations de notre système, y compris les limites d'automatisation du SAD à chaque étape du flux de données. Nous mettons l'accent sur le rôle crucial de la qualité des données et les défis de prédire le comportement des systèmes complexes au fil du temps. L'objectivité de nos méthodes d'évaluation de clustering est questionnée en raison de l'absence de vérité terrain. Nous envisageons des travaux futurs, tels que l'automatisation de l'hyperparamètrisation et la continuation du développement du SAD
This thesis addresses the clustering of complex and heterogeneous energy systems within a Decision Support System (DSS).In chapter 1, we delve into the theory of complex systems and their modeling, recognizing buildings as complex systems, specifically as Sociotechnical Complex Systems. We examine the state of the art of the different agents involved in energy performance within the energy sector, identifying our case study as the Trusted Third Party for Energy Measurement and Performance (TTPEMP.) Given our constraints, we opt to concentrate on the need for a DSS to provide energy recommendations. We compare this system to supervision and recommender systems, highlighting their differences and complementarities and introduce the necessity for explainability in AI-aided decision-making (XAI). Acknowledging the complexity, numerosity, and heterogeneity of buildings managed by the TTPEMP, we argue that clustering serves as a pivotal first step in developing a DSS, enabling tailored recommendations and diagnostics for homogeneous subgroups of buildings. This is presented in Chapter 1.In Chapter 2, we explore DSSs' state of the art, emphasizing the need for governance in semi-automated systems for high-stakes decision-making. We investigate European regulations, highlighting the need for accuracy, reliability, and fairness in our decision system, and identify methodologies to address these needs, such as DevOps methodology and Data Lineage. We propose a DSS architecture that addresses these requirements and the challenges posed by big data, featuring a distributed architecture comprising a data lake for heterogeneous data handling, datamarts for specific data selection and processing, and an ML-Factory populating a model library. Different types of methods are selected for different needs based on the specificities of the data and of the question needing answering.Chapter 3 focuses on clustering as a primary machine learning method in our architecture, essential for identifying homogeneous groups of buildings. Given the combination of numerical, categorical and time series nature of the data describing buildings, we coin the term complex clustering to address this combination of data types. After reviewing the state-of-the-art, we identify the need for dimensionality reduction techniques and the most relevant mixed clustering methods. We also introduce Pretopology as an innovative approach for mixed and complex data clustering. We argue that it allows for greater explainability and interactability in the clustering as it enables Hierarchical clustering and the implementation of logical rules and custom proximity notions. The challenges of evaluating clustering are addressed, and adaptations of numerical clustering to mixed and complex clustering are proposed, taking into account the explainability of the methods.In the datasets and results chapter, we present the public, private, and generated datasets used for experimentation and discuss the clustering results. We analyze the computational performances of algorithms and the quality of clusters obtained on different datasets varying in size, number of clusters, distribution, and number of categorical and numerical parameters. Pretopology and Dimensionality Reduction show promising results compared to state-of-the-art mixed data clustering methods.Finally, we discuss our system's limitations, including the automation limits of the DSS at each step of the data flow. We focus on the critical role of data quality and the challenges in predicting the behavior of complex systems over time. The objectivity of our clustering evaluation methods is challenged due to the absence of ground truth and the reliance on dimensionality reduction to adapt state-of-the-art metrics to complex data. We discuss possible issues regarding the chosen elbow method and future work, such as automation of hyperparameter tuning and continuing the development of the DSS