To see the other types of publications on this topic, follow the link: Proton Learning Model.

Dissertations / Theses on the topic 'Proton Learning Model'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Proton Learning Model.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Pontes, Miranda James William. "Federation of heterogeneous models with machine learning-assisted model views." Electronic Thesis or Diss., Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2025. http://www.theses.fr/2025IMTA0454.

Full text
Abstract:
L’Ingénierie Dirigée par les Modèles (IDM) promeut les modèles comme un élément clé pour répondre à la complexité croissante du cycle de vie des systèmes logiciel. L’ingénierie de systèmes avec l’IDM implique divers modèles représentant différentes aspects du système. Cette hétérogénéité nécessite des capacités de fédération de modèles pour intégrer des points de vue spécifiques à de multiples domaines. Les solutions de Vues sur les Modèles (Model Views) répondent à ce défi mais manquent encore de support à l’automatisation. Cette thèse explore l’intégration de l’Apprentissage Automatique (AA), notamment les Réseaux de Neurones en Graphes (GNN) et Grands Modèles de Langage (LLM), pour améliorer la définition et construction de telles vues. La solution proposée introduit une approche en deux volets dans la solution technique EMF Views. Cela a permis d’automatiser partiellement la définition des vues sur modèles à la conception, et de calculer dynamiquement les liens inter-modèles à l’exécution. Nos résultats indiquent que l’application de techniques d’apprentissage profond (DL), dans ce contexte spécifique de l’IDM, permet déjà d’atteindre un premier niveau d’automatisation intéressant. Plus globalement, cet effort de recherche contribue au développement actuel de solutions plus intelligentes pour l’IDM<br>Model-driven engineering (MDE) promotes models as a key element in addressing the increasing complexity of the software systems’ lifecycle. Engineering systems with MDE involves various models representing different system aspects. This heterogeneity requires model federation capabilities to integrate viewpoints specific to multiple domains. Model View solutions address this challenge but still lack more automation support. This thesis explores the integration of Machine Learning (ML), notably Graph Neural Networks (GNNs) and Large Language Models (LLMs), in order to improve the definition and building of such views. The proposed solution introduces a twofold approach within the EMF Views technical solution. This allowed to partially automate the definition of model views at design time, and to dynamically compute inter-model links at runtime. Our results indicate that the application of Deep Learning (DL) techniques, in this particular MDE context, already allows to achieve a first relevant level of automation. More globally, this research effort contributes to the ongoing development of more intelligent MDE solutions
APA, Harvard, Vancouver, ISO, and other styles
2

Arige, Abhaya Dhathri. "Simplification of 3D CAD models with deep learning for augmented reality." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS018.

Full text
Abstract:
Dans l'Industrie 4.0, l'utilisation d'appareils de Réalité Augmentée (RA) tels que HoloLens a acquis une acceptation significative pour la formation des opérateurs de ligne d'assemblage dans diverses industries. La simplification des modèles CAO 3D pour la formation en RA est essentielle pour une meilleure performance des applications. Notre recherche se concentre sur le développement de méthodes et de techniques visant à rationaliser des modèles CAO 3D complexes, les rendant adaptés aux applications de RA.Notre recherche met en avant le rôle des modèles 3D en RA, améliorant l'expérience virtuelle en superposant des modèles CAO sur le monde réel. Nous détaillons les applications de la RA dans la formation des opérateurs et comment l'intégration de modèles CAO 3D améliore la compréhension des instructions et des procédures.Nous avons réalisé une revue approfondie de la littérature sur la simplification des modèles CAO pour leur intégration dans des scénarios de réalité augmentée (RA). Nos conclusions indiquent que les techniques de simplification basées sur le maillage excellent dans la préservation des éléments essentiels des modèles CAO, offrant un contrôle précis sur les niveaux de détail.De plus, nous avons effectué quatre types distincts d'évaluations dans notre recherche. Ces évaluations comprenaient des évaluations objectives utilisant des techniques basées sur le maillage issu de la littérature existante, des avis d'experts impliquant un examen approfondi de chaque modèle simplifié pour déterminer le niveau de simplification en fonction des plages de sommets, des tests en conditions réelles assistés par HoloLens2, qui ont révélé des améliorations du taux de rafraîchissement lors de l'utilisation de modèles CAO au lieu de leurs versions originales.Pour conclure nos évaluations, nous avons également réalisé des évaluations par les utilisateurs, en donnant la priorité à l'expérience utilisateur dans notre étude. Ces évaluations ont confirmé que les modèles simplifiés sont hautement capables de remplacer les versions originales. Cependant, il a été observé qu'une simplification supplémentaire est nécessaire, en particulier pour les modèles CAO complexes.La méthodologie principale propose une approche innovante axée sur la segmentation du maillage et la simplification adaptative grâce à l'utilisation de méthodes d'apprentissage profond. Pour réduire la complexité associée à la segmentation et à la simplification 3D, nous avons projeté les données dans le domaine 2D pour effectuer la segmentation et avons ensuite cartographié les résultats dans le domaine 3D. Nous avons illustré ce cadre à l'aide d'une fonction spécifique appelée "chaînes continues" pour expliquer le processus de simplification. Par la suite, nous avons réalisé une analyse comparative par rapport à des techniques de pointe établies, démontrant la performance supérieure de notre méthodologie. Dans nos futures recherches, nous visons à élargir la portée de notre cadre pour englober plusieurs caractéristiques et les régions fonctionnelles à l'intérieur des modèles CAO<br>As a part of Industry 4.0 the use of Augmented Reality (AR) devices like HoloLens has gained significant acceptance for training assembly line operators in various industries. When employing Computer-Aided Design (CAD) models to create assembly line instructions for training purposes, preserving all redundant information becomes unnecessary. Utilizing simplified CAD models leads to improved run-time performance of the applications in which they are employed. This specific research project is tasked with developing methods and techniques to streamline complex 3D CAD models, making them suitable for AR applications.In this research, we explain how 3D models play a significant role in augmented reality (AR) by enriching the virtual experience through the superimposition of computer-aided design (CAD models) onto the real world. The study goes on to offer detailed descriptions of numerous applications of AR in operator training. Furthermore, it elucidates how the integration of 3D CAD models contributes to a deeper understanding of instructions and procedures within these training scenarios.We conducted an in-depth literature review in the field of CAD model simplification to determine which simplification techniques are most suitable for integration into augmented reality (AR) scenarios. Our research revealed that mesh-based simplification techniques are particularly effective in preserving the essential features of CAD models while offering the advantages of precise control over the level of detail.Additionally, we have carried out four distinct types of assessments as part of our research. These assessments encompassed objective evaluations that applied mesh-based techniques from existing literature, subjective assessment involving a thorough examination of each simplified model to determine the level of simplification based on vertex ranges, real-world testing conducted with the assistance of the HoloLens2 that demonstrated framerate enhancements when employing simplified CAD models in place of their original versions. To conclude our evaluations, we conducted user assessments, as user experience holds utmost importance in our study. They demonstrated that the simplified models possess a high degree of capability in substituting the original counterparts. However, it was noted that more simplification is required, particularly for intricate CAD models.An innovative approach centered around segmentation and adaptive simplification through the utilization of deep learning methods is proposed as the main methodology. To illustrate this framework, we employed a specific feature called "continuous chains". We subsequently conducted a comparative analysis against established state-of-the-art techniques, demonstrating that our methodology outperforms existing approaches. In our future research, we intend to expand the scope of our framework to encompass multiple features in CAD model
APA, Harvard, Vancouver, ISO, and other styles
3

Tahoun, Mohamed. "Object Shape Perception for Autonomous Dexterous Manipulation Based on Multi-Modal Learning Models." Electronic Thesis or Diss., Bourges, INSA Centre Val de Loire, 2021. http://www.theses.fr/2021ISAB0003.

Full text
Abstract:
Cette thèse propose des méthodes de reconstruction 3D d’objets basées sur des stratégies multimodales d'apprentissage profond. Les applications visées concernent la manipulation robotique. Dans un premier temps, la thèse propose une méthode de reconstruction visuelle 3D à partir d’une seule vue de l’objet obtenue par un capteur RGB-D. Puis, afin d’améliorer la qualité de reconstruction 3D des objets à partir d’une seule vue, une nouvelle méthode combinant informations visuelles et tactiles a été proposée en se basant sur un modèle de reconstruction par apprentissage. La méthode proposée a été validée sur un ensemble de données visuo-tactiles respectant les contraintes cinématique d’une main robotique. L’ensemble de données visuo-tactiles respectant les propriétés cinématiques de la main robotique à plusieurs doigts a été créé dans le cadre de ce travail doctoral. Cette base de données est unique dans la littérature et constitue également une contribution de la thèse. Les résultats de validation montrent que les informations tactiles peuvent avoir un apport important pour la prédiction de la forme complète d’un objet, en particulier de la partie invisible pour le capteur RGD-D. Ils montrent également que le modèle proposé permet d’obtenir de meilleurs résultats en comparaison à ceux obtenus avec les méthodes les plus performantes de l’état de l’art<br>This thesis proposes 3D object reconstruction methods based on multimodal deep learning strategies. The targeted applications concern robotic manipulation. First, the thesis proposes a 3D visual reconstruction method from a single view of the object obtained by an RGB-D sensor. Then, in order to improve the quality of 3D reconstruction of objects from a single view, a new method combining visual and tactile information has been proposed based on a learning reconstruction model. The proposed method has been validated on a visual-tactile dataset respecting the kinematic constraints of a robotic hand. The visual-tactile dataset respecting the kinematic properties of the multi-fingered robotic hand has been created in the framework of this PhD work. This dataset is unique in the literature and is also a contribution of the thesis. The validation results show that the tactile information can have an important contribution for the prediction of the complete shape of an object, especially the part that is not visible to the RGD-D sensor. They also show that the proposed model allows to obtain better results compared to those obtained with the best performing methods of the state of the art
APA, Harvard, Vancouver, ISO, and other styles
4

Soumm, Michaël. "Refining machine learning evaluation : statistical insights into model performance and fairness." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG094.

Full text
Abstract:
Cette thèse aborde les limitations des méthodologies d’évaluation en apprentissage automatique en introduisant des approches statistiques rigoureuses adaptées de l’économétrie. À travers des applications dans trois domaines distincts de l’apprentissage automatique, nous démontrons comment les outils statistiques peuvent améliorer la robustesse, l’interprétabilité, et l’équité de l’évaluation des modèles. Dans l’apprentissage incrémental de classes, nous examinons l’importance des méthodes de pré-entraînement par rapport au choix de l’algorithme incrémental et montrons que celles-ci sont décisives dans les performance finales ; dans les systèmes de reconnaissance faciale, nous quantifions les biais démographiques et démontrons que des données synthétiques équilibrées démographiquement peuvent réduire significativement les disparités de performance entre les groupes ethniques ; dans les systèmes de recommandation, nous développons de nouvelles mesures basées sur la théorie de l’information pour analyser les variations de performance entre les profils d’utilisateurs, révélant que les méthodes d’apprentissage profond ne surpassent pas systématiquement les approches traditionnelles et soulignant l’importance des schémas comportementaux des utilisateurs. Ces résultats démontrent l’importance de la rigueur statistique dans l’évaluation de l’apprentissage automatique et fournissent des lignes directrices pratiques pour améliorer l’évaluation des modèles dans diverses applications<br>This thesis addresses limitations in machine learning evaluation methodologies by introducing rigorous statistical approaches adapted from econometrics. Through applications in three distinct machine learning do-mains, we demonstrate how statistical tools can enhance model evaluation robustness, interpretability, and fairness. In class incremental learning, we examine the importance of pretraining methods compared to the choice of the incremental algorithm and show that these methods are crucial in determining final performance ; in face recognition systems, we quantify demographic biases and show that demographically-balanced synthetic data can significantly reduce performance disparities across ethnic groups ; in recommender systems, we develop novel information theory-based measures to analyze performance variations across user profiles, revealing that deep learning methods don’t consistently out-perform traditional approaches and highlighting the importance of user behavior patterns. These findings demonstrate the value of statistical rigor in machine learning evaluation and provide practical guidelines for improving model assessment across diverse applications
APA, Harvard, Vancouver, ISO, and other styles
5

Stock, Pierre. "Efficiency and Redundancy in Deep Learning Models : Theoretical Considerations and Practical Applications." Thesis, Lyon, 2021. http://www.theses.fr/2021LYSEN008.

Full text
Abstract:
Les réseaux de neurones profonds sont à l'origine de percées majeures en intelligence artificielle. Ce succès s'explique en partie par un passage à l'échelle en termes de puissance de calcul, d'ensembles de données d'entrainement et de taille des modèles considérés -- le dernier point ayant été rendu possible en construisant des réseaux de plus en plus profonds. Dans cette thèse, partant du constat que de tels modèles sont difficiles à appréhender et à entrainer, nous étudions l'ensemble des réseaux de neurones à travers leurs classes d'équivalence fonctionnelles, ce qui permet de les grouper par orbites et de ne manipuler qu'un représentant bien choisi. Ces considérations théoriques nous ont permis de proposer une variante de l'algorithme de descente de gradient stochastique qui consiste à insérer, au cours des itérations, des étapes permettant de choisir le représentant de la classe d'équivalence courante minimisant une certaine énergie. La redondance des paramètres de réseaux profonds de neurones mise en lumière dans ce premier volet amène naturellement à la question de l'efficience de tels réseaux, et donc de leur compression. Nous développons une nouvelle méthode de compression, appelée iPQ et reposant sur de la quantification vectorielle, prouvant qu'il est possible de réduire considérablement la taille d'un réseau tout en préservant sa capacité de prédiction. En combinant iPQ avec une procédure de pré-conditionnement appelée Quant-Noise qui consiste à injecter du bruit de quantification dans le réseau avant sa compression, nous obtenons des résultats état de l’art en termes de compromis taille/capacité de prédiction. Voulant confronter nos recherches à des contraintes de type produit, nous proposons enfin une application de ces algorithmes permettant un appel vidéo à très faible bande passante, déployée sur un téléphone portable et fonctionnant en temps réel<br>Deep Neural Networks led to major breakthroughs in artificial intelligence. This unreasonable effectiveness is explained in part by a scaling-up in terms of computing power, available datasets and model size -- the latter was achieved by building deeper and deeper networks. In this thesis, recognizing that such models are hard to comprehend and to train, we study the set of neural networks under the prism of their functional equivalence classes in order to group networks by orbits and to only manipulate one carefully selected representant. Based on these theoretical considerations, we propose a variant of the stochastic gradient descent (SGD) algorithm which amounts to inserting, between the SGD iterations, additional steps allowing us to select the representant of the current equivalence class that minimizes a certain energy. The redundancy of the network's parameters highlighted in the first part naturally leads to the question of the efficiency of such networks, hence to the question of their compression. We develop a novel method, iPQ, relying on vector quantization that drastically reduces the size of a network while preserving its accuracy. When combining iPQ with a new pre-conditioning technique called Quant-Noise that injects quantization noise in the network before its compression, we obtain state-of-the-art tradeoffs in terms of size/accuracy. Finally, willing to confront such algorithms to product constraints, we propose an application allowing anyone to make an ultra-low bandwidth video call that is deployed on-device and runs in real time
APA, Harvard, Vancouver, ISO, and other styles
6

Cappuzzo, Riccardo. "Deep learning models for tabular data curation." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS047.

Full text
Abstract:
La conservation des données est un sujet omniprésent et de grande envergure, qui touche tous les domaines, du monde universitaire à l'industrie. Les solutions actuelles reposent sur le travail manuel des utilisateurs du domaine, mais elles ne sont pas adaptées. Nous étudions comment appliquer l'apprentissage profond à la conservation des données tabulaires. Nous concentrons notre travail sur le développement de systèmes de curation de données non supervisés et sur la conception de systèmes de curation qui modélisent intrinsèquement les valeurs catégorielles dans leur forme brute. Nous implémentons d'abord EmbDI pour générer des embeddings pour les données tabulaires, et nous traitons les tâches de résolution d'entités et de correspondance de schémas. Nous passons ensuite au problème de l'imputation des données en utilisant des réseaux neuronaux graphiques dans un cadre d'apprentissage multi-tâches appelé GRIMP<br>Data retention is a pervasive and far-reaching topic, affecting everything from academia to industry. Current solutions rely on manual work by domain users, but they are not adequate. We are investigating how to apply deep learning to tabular data curation. We focus our work on developing unsupervised data curation systems and designing curation systems that intrinsically model categorical values in their raw form. We first implement EmbDI to generate embeddings for tabular data, and address the tasks of entity resolution and schema matching. We then turn to the data imputation problem using graphical neural networks in a multi-task learning framework called GRIMP
APA, Harvard, Vancouver, ISO, and other styles
7

Ben-Younes, Hedi. "Multi-modal representation learning towards visual reasoning." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS173.

Full text
Abstract:
La quantité d'images présentes sur internet augmente considérablement, et il est nécessaire de développer des techniques permettant le traitement automatique de ces contenus. Alors que les méthodes de reconnaissance visuelle sont de plus en plus évoluées, la communauté scientifique s'intéresse désormais à des systèmes aux capacités de raisonnement plus poussées. Dans cette thèse, nous nous intéressons au Visual Question Answering (VQA), qui consiste en la conception de systèmes capables de répondre à une question portant sur une image. Classiquement, ces architectures sont conçues comme des systèmes d'apprentissage automatique auxquels on fournit des images, des questions et leur réponse. Ce problème difficile est habituellement abordé par des techniques d'apprentissage profond. Dans la première partie de cette thèse, nous développons des stratégies de fusion multimodales permettant de modéliser des interactions entre les représentations d'image et de question. Nous explorons des techniques de fusion bilinéaire, et assurons l'expressivité et la simplicité des modèles en utilisant des techniques de factorisation tensorielle. Dans la seconde partie, on s'intéresse au raisonnement visuel qui encapsule ces fusions. Après avoir présenté les schémas classiques d'attention visuelle, nous proposons une architecture plus avancée qui considère les objets ainsi que leurs relations mutuelles. Tous les modèles sont expérimentalement évalués sur des jeux de données standards et obtiennent des résultats compétitifs avec ceux de la littérature<br>The quantity of images that populate the Internet is dramatically increasing. It becomes of critical importance to develop the technology for a precise and automatic understanding of visual contents. As image recognition systems are becoming more and more relevant, researchers in artificial intelligence now seek for the next generation vision systems that can perform high-level scene understanding. In this thesis, we are interested in Visual Question Answering (VQA), which consists in building models that answer any natural language question about any image. Because of its nature and complexity, VQA is often considered as a proxy for visual reasoning. Classically, VQA architectures are designed as trainable systems that are provided with images, questions about them and their answers. To tackle this problem, typical approaches involve modern Deep Learning (DL) techniques. In the first part, we focus on developping multi-modal fusion strategies to model the interactions between image and question representations. More specifically, we explore bilinear fusion models and exploit concepts from tensor analysis to provide tractable and expressive factorizations of parameters. These fusion mechanisms are studied under the widely used visual attention framework: the answer to the question is provided by focusing only on the relevant image regions. In the last part, we move away from the attention mechanism and build a more advanced scene understanding architecture where we consider objects and their spatial and semantic relations. All models are thoroughly experimentally evaluated on standard datasets and the results are competitive with the literature
APA, Harvard, Vancouver, ISO, and other styles
8

Ayed, Ibrahim. "Neural Models for Learning Real World Dynamics and the Neural Dynamics of Learning." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS434.

Full text
Abstract:
Cette thèse se situe à l'intersection de deux domaines : d'une part celui des systèmes dynamiques, et notamment ceux qui peuvent être représentés par des équations différentielles d'évolution, et, d'autre part, celui des l'apprentissage profond. Son objectif est alors double : Il s'agit d'abord de chercher à modéliser, grâce aux techniques modernes de l'apprentissage profond, des phénomènes physiques complexes, dans divers cadres d'intérêt pour les praticiens. Ensuite, nous avons également tenté d'employer des outils issus des théories mathématiques permettant l'étude des équations différentielles afin de mieux comprendre certains aspects des dynamiques induites par l'apprentissage de réseaux de neurones profonds et leur fonctionnement<br>The work presented in this thesis was initially motivated by the discrepancy between the impressive performances of modern neural networks and the lack of applications to scientific problems for which data abounds. Focusing on evolution problems which are classically modelled through ordinary or partial differential equations~(O/PDEs) naturally brought us to consider the more general problem of representing and learning such equations from raw data with neural networks. This was the inception of the first part of our work. The point of view considered in this first part has a natural counterpart: what about the dynamics induced by the trajectories of the NN's weights during training or by the trajectories of data points within them during inference? Can they be usefully modelled? This question was the core of the second part of our work and, while theoretical tools other than O/PDEs happened to be useful in our analysis, our reasoning and intuition were fundamentally driven by considerations stemming from a dynamical viewpoint
APA, Harvard, Vancouver, ISO, and other styles
9

Belilovsky, Eugene. "Apprentissage de graphes structuré et parcimonieux dans des données de haute dimension avec applications à l’imagerie cérébrale." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC027.

Full text
Abstract:
Cette thèse présente de nouvelles méthodes d’apprentissage structuré et parcimonieux sur les graphes, ce qui permet de résoudre une large variété de problèmes d’imagerie cérébrale, ainsi que d’autres problèmes en haute dimension avec peu d’échantillon. La première partie de cette thèse propose des relaxation convexe de pénalité discrète et combinatoriale impliquant de la parcimonie et bounded total variation d’un graphe, ainsi que la bounded `2. Ceux-ci sont dévelopé dansle but d’apprendre un modèle linéaire interprétable et on démontre son efficacacité sur des données d’imageries cérébrales ainsi que sur les problèmes de reconstructions parcimonieux.Les sections successives de cette thèse traite de la découverte de structure sur des modèles graphiques “undirected” construit à partir de peu de données. En particulier, on se concentre sur des hypothèses de parcimonie et autres hypothèses de structures dans les modèles graphiques gaussiens. Deux contributions s’en dégagent. On construit une approche pour identifier les différentes entre des modèles graphiques gaussiens (GGMs) qui partagent la même structure sous-jacente. On dérive la distribution de différences de paramètres sous une pénalité jointe quand la différence des paramètres est parcimonieuse. On montre ensuite comment cette approche peut être utilisée pour obtenir des intervalles de confiances sur les différences prises par le GGM sur les arêtes. De là, on introduit un nouvel algorithme d’apprentissage lié au problème de découverte de structure sur les modèles graphiques non dirigées des échantillons observés. On démontre que les réseaux de neurones peuvent être utilisés pour apprendre des estimateurs efficacaces de ce problèmes. On montre empiriquement que ces méthodes sont une alternatives flexible et performantes par rapport aux techniques existantes<br>This dissertation presents novel structured sparse learning methods on graphs that address commonly found problems in the analysis of neuroimaging data as well as other high dimensional data with few samples. The first part of the thesis proposes convex relaxations of discrete and combinatorial penalties involving sparsity and bounded total variation on a graph as well as bounded `2 norm. These are developed with the aim of learning an interpretable predictive linear model and we demonstrate their effectiveness on neuroimaging data as well as a sparse image recovery problem.The subsequent parts of the thesis considers structure discovery of undirected graphical models from few observational data. In particular we focus on invoking sparsity and other structured assumptions in Gaussian Graphical Models (GGMs). To this end we make two contributions. We show an approach to identify differences in Gaussian Graphical Models (GGMs) known to have similar structure. We derive the distribution of parameter differences under a joint penalty when parameters are known to be sparse in the difference. We then show how this approach can be used to obtain confidence intervals on edge differences in GGMs. We then introduce a novel learning based approach to the problem structure discovery of undirected graphical models from observational data. We demonstrate how neural networks can be used to learn effective estimators for this problem. This is empirically shown to be flexible and efficient alternatives to existing techniques
APA, Harvard, Vancouver, ISO, and other styles
10

Darwaish, Asim. "Adversary-aware machine learning models for malware detection systems." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7283.

Full text
Abstract:
La popularisation des smartphones et leur caractère indispensable les rendent aujourd'hui indéniables. Leur croissance exponentielle est également à l'origine de l'apparition de nombreux logiciels malveillants et fait trembler le prospère écosystème mobile. Parmi tous les systèmes d'exploitation des smartphones, Android est le plus ciblé par les auteurs de logiciels malveillants en raison de sa popularité, de sa disponibilité en tant que logiciel libre, et de sa capacité intrinsèque à accéder aux ressources internes. Les approches basées sur l'apprentissage automatique ont été déployées avec succès pour combattre les logiciels malveillants polymorphes et évolutifs. Au fur et à mesure que le classificateur devient populaire et largement adopté, l'intérêt d'échapper au classificateur augmente également. Les chercheurs et les adversaires se livrent à une course sans fin pour renforcer le système de détection des logiciels malveillants androïd et y échapper. Afin de lutter contre ces logiciels malveillants et de contrer les attaques adverses, nous proposons dans cette thèse un système de détection de logiciels malveillants android basé sur le codage d'images, un système qui a prouvé sa robustesse contre diverses attaques adverses. La plateforme proposée construit d'abord le système de détection des logiciels malveillants android en transformant intelligemment le fichier Android Application Packaging (APK) en une image RGB légère et en entraînant un réseau neuronal convolutif (CNN) pour la détection des logiciels malveillants et la classification des familles. Notre nouvelle méthode de transformation génère des modèles pour les APK bénins et malveillants plus faciles à classifier en images de couleur. Le système de détection ainsi conçu donne une excellente précision de 99,37% avec un Taux de Faux Négatifs (FNR) de 0,8% et un Taux de Faux Positifs (FPR) de 0,39% pour les anciennes et les nouvelles variantes de logiciels malveillants. Dans la deuxième phase, nous avons évalué la robustesse de notre système de détection de logiciels malveillants android basé sur l'image. Pour valider son efficacité contre les attaques adverses, nous avons créé trois nouveaux modèles d'attaques. Notre évaluation révèle que les systèmes de détection de logiciels malveillants basés sur l'apprentissage les plus récents sont faciles à contourner, avec un taux d'évasion de plus de 50 %. Cependant, le système que nous avons proposé construit un mécanisme robuste contre les perturbations adverses en utilisant son espace continu intrinsèque obtenu après la transformation intelligente des fichiers Dex et Manifest, ce qui rend le système de détection difficile à contourner<br>The exhilarating proliferation of smartphones and their indispensability to human life is inevitable. The exponential growth is also triggering widespread malware and stumbling the prosperous mobile ecosystem. Among all handheld devices, Android is the most targeted hive for malware authors due to its popularity, open-source availability, and intrinsic infirmity to access internal resources. Machine learning-based approaches have been successfully deployed to combat evolving and polymorphic malware campaigns. As the classifier becomes popular and widely adopted, the incentive to evade the classifier also increases. Researchers and adversaries are in a never-ending race to strengthen and evade the android malware detection system. To combat malware campaigns and counter adversarial attacks, we propose a robust image-based android malware detection system that has proven its robustness against various adversarial attacks. The proposed platform first constructs the android malware detection system by intelligently transforming the Android Application Packaging (APK) file into a lightweight RGB image and training a convolutional neural network (CNN) for malware detection and family classification. Our novel transformation method generates evident patterns for benign and malware APKs in color images, making the classification easier. The detection system yielded an excellent accuracy of 99.37% with a False Negative Rate (FNR) of 0.8% and a False Positive Rate (FPR) of 0.39% for legacy and new malware variants. In the second phase, we evaluate the robustness of our secured image-based android malware detection system. To validate its hardness and effectiveness against evasion, we have crafted three novel adversarial attack models. Our thorough evaluation reveals that state-of-the-art learning-based malware detection systems are easy to evade, with more than a 50% evasion rate. However, our proposed system builds a secure mechanism against adversarial perturbations using its intrinsic continuous space obtained after the intelligent transformation of Dex and Manifest files which makes the detection system strenuous to bypass
APA, Harvard, Vancouver, ISO, and other styles
11

Tarando, Sebastian Roberto. "Quantitative follow-up of pulmonary diseases using deep learning models." Thesis, Evry, Institut national des télécommunications, 2018. http://www.theses.fr/2018TELE0008/document.

Full text
Abstract:
Les pathologies infiltrantes diffuses recensent un large groupe de désordres pulmonaires et nécessitent un suivi régulier en imagerie tomodensitométrique (TDM). Une évaluation quantitative est nécessaire pour établir la progression (régionale) de la maladie et/ou l’impact thérapeutique. Cela implique le développement d’outils automatiques de diagnostic assisté par ordinateur (DAO) pour la segmentation du tissu pathologique dans les images TDM, problème adressé comme classification de texture. Traditionnellement, une telle classification repose sur une analyse des caractéristiques texturales 2D dans les images TDM axiales selon des critères définis par l’utilisateur. Récemment, des techniques d’intelligence artificielle fondées sur l’apprentissage profond, notamment les réseaux neuronaux convolutionnels (CNN), ont démontré des performances meilleures pour résoudre des tâches visuelles. Toutefois, pour les architectures CNN « classiques » il a été prouvé que les performances étaient moins bonnes en classification de texture par rapport à la reconnaissance d’objets, en raison de la dimensionnalité intrinsèque élevée des données texturales. Dans ce contexte, ce travail propose un système automatique pour l’analyse quantitative des pathologies infiltrantes diffuses du poumon fondé sur une architecture CNN en cascade (conçue spécialement pour l’analyse de texture) et sur un prétraitement spécifique des données d’entrée par filtrage localement connexe (permettant d’atténuer l’intensité des vaisseaux pulmonaires et d’augmenter ainsi le contraste des régions pathologiques). La classification, s’appliquant à l’ensemble du volume pulmonaire, atteint une précision moyenne de 84% (75.8% pour le tissu normal, 90% pour l’emphysème et la fibrose, 81.5% pour le verre dépoli)<br>Infiltrative lung diseases (ILDs) enclose a large group of irreversible lung disorders which require regular follow-up with computed tomography (CT) imaging. A quantitative assessment is mandatory to establish the (regional) disease progression and/or the therapeutic impact. This implies the development of automated computer-aided diagnosis (CAD) tools for pathological lung tissue segmentation, problem addressed as pixel-based texture classification. Traditionally, such classification relies on a two-dimensional analysis of axial CT images by means of handcrafted features. Recently, the use of deep learning techniques, especially Convolutional Neural Networks (CNNs) for visual tasks, has shown great improvements with respect to handcrafted heuristics-based methods. However, it has been demonstrated the limitations of "classic" CNN architectures when applied to texture-based datasets, due to their inherently higher dimension compared to handwritten digits or other object recognition datasets, implying the need of redesigning the network or enriching the system to learn meaningful textural features from input data. This work addresses an automated quantitative assessment of different disorders based on lung texture classification. The proposed approach exploits a cascade of CNNs (specially redesigned for texture categorization) for a hierarchical classification and a specific preprocessing of input data based on locally connected filtering (applied to the lung images to attenuate the vessel densities while preserving high opacities related to pathologies). The classification targeting the whole lung parenchyma achieves an average of 84% accuracy (75.8% for normal, 90% for emphysema and fibrosis, 81.5% for ground glass)
APA, Harvard, Vancouver, ISO, and other styles
12

Ouenniche, Kaouther. "Multimodal deep learning for audiovisual production." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS020.

Full text
Abstract:
Dans le contexte en constante évolution du contenu audiovisuel, la nécessité cruciale d'automatiser l'indexation et l'organisation des archives s'est imposée comme un objectif primordial. En réponse, cette recherche explore l'utilisation de techniques d'apprentissage profond pour automatiser l'extraction de métadonnées diverses dans les archives, améliorant ainsi leur accessibilité et leur réutilisation. La première contribution de cette recherche concerne la classification des mouvements de caméra. Il s'agit d'un aspect crucial de l'indexation du contenu, car il permet une catégorisation efficace et une récupération du contenu vidéo en fonction de la dynamique visuelle qu'il présente. L'approche proposée utilise des réseaux neuronaux convolutionnels 3D avec des blocs résiduels. Une approche semi-automatique pour la construction d'un ensemble de données fiable sur les mouvements de caméra à partir de vidéos disponibles au public est également présentée, réduisant au minimum le besoin d'intervention manuelle. De plus, la création d'un ensemble de données d'évaluation exigeant, comprenant des vidéos de la vie réelle tournées avec des caméras professionnelles à différentes résolutions, met en évidence la robustesse et la capacité de généralisation de la technique proposée, atteignant un taux de précision moyen de 94 %.La deuxième contribution se concentre sur la tâche de Vidéo Question Answering. Dans ce contexte, notre Framework intègre un Transformers léger et un module de cross modalité. Ce module utilise une corrélation croisée pour permettre un apprentissage réciproque entre les caractéristiques visuelles conditionnées par le texte et les caractéristiques textuelles conditionnées par la vidéo. De plus, un scénario de test adversarial avec des questions reformulées met en évidence la robustesse du modèle et son applicabilité dans le monde réel. Les résultats expérimentaux sur MSVD-QA et MSRVTT-QA, valident la méthodologie proposée, avec une précision moyenne de 45 % et 42 % respectivement. La troisième contribution de cette recherche aborde le problème de vidéo captioning. Le travail introduit intègre un module de modality attention qui capture les relations complexes entre les données visuelles et textuelles à l'aide d'une corrélation croisée. De plus, l'intégration de l'attention temporelle améliore la capacité du modèle à produire des légendes significatives en tenant compte de la dynamique temporelle du contenu vidéo. Notre travail intègre également une tâche auxiliaire utilisant une fonction de perte contrastive, ce qui favorise la généralisation du modèle et une compréhension plus approfondie des relations intermodales et des sémantiques sous-jacentes. L'utilisation d'une architecture de transformer pour l'encodage et le décodage améliore considérablement la capacité du modèle à capturer les interdépendances entre les données textuelles et vidéo. La recherche valide la méthodologie proposée par une évaluation rigoureuse sur MSRVTT, atteignant des scores BLEU4, ROUGE et METEOR de 0,4408, 0,6291 et 0,3082 respectivement. Notre approche surpasse les méthodes de l'état de l'art, avec des gains de performance allant de 1,21 % à 1,52 % pour les trois métriques considérées. En conclusion, ce manuscrit offre une exploration holistique des techniques basées sur l'apprentissage profond pour automatiser l'indexation du contenu télévisuel, en abordant la nature laborieuse et chronophage de l'indexation manuelle. Les contributions englobent la classification des types de mouvements de caméra, la vidéo question answering et la vidéo captioning, faisant avancer collectivement l'état de l'art et fournissant des informations précieuses pour les chercheurs dans le domaine. Ces découvertes ont non seulement des applications pratiques pour la recherche et l'indexation de contenu, mais contribuent également à l'avancement plus large des méthodologies d'apprentissage profond dans le contexte multimodal<br>Within the dynamic landscape of television content, the critical need to automate the indexing and organization of archives has emerged as a paramount objective. In response, this research explores the use of deep learning techniques to automate the extraction of diverse metadata from television archives, improving their accessibility and reuse.The first contribution of this research revolves around the classification of camera motion types. This is a crucial aspect of content indexing as it allows for efficient categorization and retrieval of video content based on the visual dynamics it exhibits. The novel approach proposed employs 3D convolutional neural networks with residual blocks, a technique inspired by action recognition methods. A semi-automatic approach for constructing a reliable camera motion dataset from publicly available videos is also presented, minimizing the need for manual intervention. Additionally, the creation of a challenging evaluation dataset, comprising real-life videos shot with professional cameras at varying resolutions, underlines the robustness and generalization power of the proposed technique, achieving an average accuracy rate of 94%.The second contribution centers on the demanding task of Video Question Answering. In this context, we explore the effectiveness of attention-based transformers for facilitating grounded multimodal learning. The challenge here lies in bridging the gap between the visual and textual modalities and mitigating the quadratic complexity of transformer models. To address these issues, a novel framework is introduced, which incorporates a lightweight transformer and a cross-modality module. This module leverages cross-correlation to enable reciprocal learning between text-conditioned visual features and video-conditioned textual features. Furthermore, an adversarial testing scenario with rephrased questions highlights the model's robustness and real-world applicability. Experimental results on benchmark datasets, such as MSVD-QA and MSRVTT-QA, validate the proposed methodology, with an average accuracy of 45% and 42%, respectively, which represents notable improvements over existing approaches.The third contribution of this research addresses the multimodal video captioning problem, a critical aspect of content indexing. The introduced framework incorporates a modality-attention module that captures the intricate relationships between visual and textual data using cross-correlation. Moreover, the integration of temporal attention enhances the model's ability to produce meaningful captions, considering the temporal dynamics of video content. Our work also incorporates an auxiliary task employing a contrastive loss function, which promotes model generalization and a deeper understanding of inter-modal relationships and underlying semantics. The utilization of a transformer architecture for encoding and decoding significantly enhances the model's capacity to capture interdependencies between text and video data. The research validates the proposed methodology through rigorous evaluation on the MSRVTT benchmark,viachieving BLEU4, ROUGE, and METEOR scores of 0.4408, 0.6291 and 0.3082, respectively. In comparison to state-of-the-art methods, this approach consistently outperforms, with performance gains ranging from 1.21% to 1.52% across the three metrics considered.In conclusion, this manuscript offers a holistic exploration of deep learning-based techniques to automate television content indexing, addressing the labor-intensive and time-consuming nature of manual indexing. The contributions encompass camera motion type classification, VideoQA, and multimodal video captioning, collectively advancing the state of the art and providing valuable insights for researchers in the field. These findings not only have practical applications for content retrieval and indexing but also contribute to the broader advancement of deep learning methodologies in the multimodal context
APA, Harvard, Vancouver, ISO, and other styles
13

Douzon, Thibault. "Language models for document understanding." Electronic Thesis or Diss., Lyon, INSA, 2023. http://www.theses.fr/2023ISAL0075.

Full text
Abstract:
Chaque jour, les entreprises du monde entier reçoivent et traitent d'énormes volumes de documents, entraînant des coûts considérables. Pour réduire ces coûts, de grandes entreprises automatisent le traitement documentaire, visant une automatisation complète. Cette thèse se concentre sur l'utilisation de modèles d'apprentissage machine pour extraire des informations de documents. Les progrès récents en matière d'architecture de modèle, en particulier les transformeurs, ont révolutionné le domaine grâce à leur utilisation généralisée de l'attention et à l'amélioration des pré-entraînements auto-supervisés. Nous montrons que les transformeurs, pré-entraînés sur des documents, effectuent des tâches de compréhension de documents avec précision et surpassent les modèles à base de réseaux récurrents pour l'extraction d'informations par classification de mots. Les transformeurs nécessitent également moins de données d'entraînement pour atteindre des performances élevées, soulignant l'importance du pré-entraînement auto-supervisé. Dans la suite, nous introduisons des tâches de pré-entraînement spécifiquement adaptées aux documents d'entreprise, améliorant les performances même avec des modèles plus petits. Cela permet d'atteindre des niveaux de performance similaires à ceux de modèles plus gros, ouvrant la voie à des modèles plus petits et plus économiques. Enfin, nous abordons le défi du coût d'évaluation des transformeurs sur de longues séquences. Nous montrons que des architectures plus efficaces dérivées des transformeurs nécessitent moins de ressources et donnent de meilleurs résultats sur de longues séquences. Cependant, elles peuvent perdre légèrement en performance sur de courtes séquences par rapport aux transformeurs classiques. Cela suggère l'avantage d'utiliser plusieurs modèles en fonction de la longueur des séquences à traiter, ouvrant la possibilité de concaténer des séquences de différentes modalités<br>Every day, an uncountable amount of documents are received and processed by companies worldwide. In an effort to reduce the cost of processing each document, the largest companies have resorted to document automation technologies. In an ideal world, a document can be automatically processed without any human intervention: its content is read, and information is extracted and forwarded to the relevant service. The state-of-the-art techniques have quickly evolved in the last decades, from rule-based algorithms to statistical models. This thesis focuses on machine learning models for document information extraction. Recent advances in model architecture for natural language processing have shown the importance of the attention mechanism. Transformers have revolutionized the field by generalizing the use of attention and by pushing self-supervised pre-training to the next level. In the first part, we confirm that transformers with appropriate pre-training were able to perform document understanding tasks with high performance. We show that, when used as a token classifier for information extraction, transformers are able to exceptionally efficiently learn the task compared to recurrent networks. Transformers only need a small proportion of the training data to reach close to maximum performance. This highlights the importance of self-supervised pre-training for future fine-tuning. In the following part, we design specialized pre-training tasks, to better prepare the model for specific data distributions such as business documents. By acknowledging the specificities of business documents such as their table structure and their over-representation of numeric figures, we are able to target specific skills useful for the model in its future tasks. We show that those new tasks improve the model's downstream performances, even with small models. Using this pre-training approach, we are able to reach the performances of significantly bigger models without any additional cost during finetuning or inference. Finally, in the last part, we address one drawback of the transformer architecture which is its computational cost when used on long sequences. We show that efficient architectures derived from the classic transformer require fewer resources and perform better on long sequences. However, due to how they approximate the attention computation, efficient models suffer from a small but significant performance drop on short sequences compared to classical architectures. This incentivizes the use of different models depending on the input length and enables concatenating multimodal inputs into a single sequence
APA, Harvard, Vancouver, ISO, and other styles
14

Victorino, Cardoso Gabriel. "Generative models for ECG data : theory and application." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAX022.

Full text
Abstract:
Cette thèse apporte des contributions au vaste domaine des modèles génératifs, avec un intérêt particulier pour l'application de tels modèles aux données d'électrocardiogramme (ECG) dans le cadre de l'inférence et de la quantification de l'incertitude.Dans une première partie, nous développons deux méthodes novatrices pour réduire le biais dans les méthodes d'échantillonnage d'importance et de Monte Carlo séquentiel (SMC), qui sont deux outils importants de l'inférence bayésienne. Les algorithmes résultants peuvent être considérés tous deux comme des "enveloppes" autour d'algorithmes existants actuels, offrant une réduction de biais sans grande augmentation du temps de calcul.Nous présentons également de nouvelles bornes de convergence non asymptotiques pour l'utilisation de ces algorithmes dans l'apprentissage de paramètres dans les modèles de Markov cachés (HMM).Dans une deuxième partie, nous nous concentrons sur l'utilisation du SMC pour résoudre des problèmes inverses linéaires bayésiens, avec des modèles génératifs servant de priors informatifs. Cette approche est particulièrement intéressante pour améliorer la résolution des problèmes inverses rencontrés dans divers domaines scientifiques.Enfin, nous appliquons cette méthodologie à plusieurs problèmes inverses basés sur l'ECG, notamment la complétion de pistes manquantes et la détection hors distribution.Les résultats de ces applications démontrent l'efficacité et la polyvalence des modèles génératifs proposés pour relever des défis concrets dans le contexte de l'analyse des données ECG<br>This thesis contributes to the vast domain of Generative models, with a particular interest in applying such models to electrocardiogram (ECG) data for inference and uncertainty quantification.In a first part, we develop two novel methods for reducing bias in Importance Sampling and Sequential Monte Carlo (SMC) methods, which are two important tools of Bayesian inference.The issuing algorithms can both be viewed as a wrapper around current existing algorithms providing effortless bias reduction. We also provide new non-assymptotic convergence bounds for using such algorithms for parameter learning in Hidden Markov Models (HMM).In a second part, we focus on using SMC for solving Bayesian linear inverse problems with generative models serving as informative priors.Finally, we apply this method on several ECG based inverse problems, namely missing lead completion and out-of-distribution detection
APA, Harvard, Vancouver, ISO, and other styles
15

Belkacem, Thiziri. "Neural models for information retrieval : towards asymmetry sensitive approaches based on attention models." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30167.

Full text
Abstract:
Ce travail se situe dans le contexte de la recherche d'information (RI) utilisant des techniques d'intelligence artificielle (IA) telles que l'apprentissage profond (DL). Il s'intéresse à des tâches nécessitant l'appariement de textes, telles que la recherche ad-hoc, le domaine du questions-réponses et l'identification des paraphrases. L'objectif de cette thèse est de proposer de nouveaux modèles, utilisant les méthodes de DL, pour construire des modèles d'appariement basés sur la sémantique de textes, et permettant de pallier les problèmes de l'inadéquation du vocabulaire relatifs aux représentations par sac de mots, ou bag of words (BoW), utilisées dans les modèles classiques de RI. En effet, les méthodes classiques de comparaison de textes sont basées sur la représentation BoW qui considère un texte donné comme un ensemble de mots indépendants. Le processus d'appariement de deux séquences de texte repose sur l'appariement exact entre les mots. La principale limite de cette approche est l'inadéquation du vocabulaire. Ce problème apparaît lorsque les séquences de texte à apparier n'utilisent pas le même vocabulaire, même si leurs sujets sont liés. Par exemple, la requête peut contenir plusieurs mots qui ne sont pas nécessairement utilisés dans les documents de la collection, notamment dans les documents pertinents. Les représentations BoW ignorent plusieurs aspects, tels que la structure du texte et le contexte des mots. Ces caractéristiques sont très importantes et permettent de différencier deux textes utilisant les mêmes mots et dont les informations exprimées sont différentes. Un autre problème dans l'appariement de texte est lié à la longueur des documents. Les parties pertinentes peuvent être réparties de manières différentes dans les documents d'une collection. Ceci est d'autant vrai dans les documents volumineux qui ont tendance à couvrir un grand nombre de sujets et à inclure un vocabulaire variable. Un document long pourrait ainsi comporter plusieurs passages pertinents qu'un modèle d'appariement doit capturer. Contrairement aux documents longs, les documents courts sont susceptibles de concerner un sujet spécifique et ont tendance à contenir un vocabulaire plus restreint. L'évaluation de leur pertinence est en principe plus simple que celle des documents plus longs. Dans cette thèse, nous avons proposé différentes contributions répondant chacune à l'un des problèmes susmentionnés. Tout d'abord, afin de résoudre le problème d'inadéquation du vocabulaire, nous avons utilisé des représentations distribuées des mots (plongement lexical) pour permettre un appariement basé sur la sémantique entre les différents mots. Ces représentations ont été utilisées dans des applications de RI où la similarité document-requête est calculée en comparant tous les vecteurs de termes de la requête avec tous les vecteurs de termes du document, indifféremment. Contrairement aux modèles proposés dans l'état-de-l'art, nous avons étudié l'impact des termes de la requête concernant leur présence/absence dans un document. Nous avons adopté différentes stratégies d'appariement document/requête. L'intuition est que l'absence des termes de la requête dans les documents pertinents est en soi un aspect utile à prendre en compte dans le processus de comparaison. En effet, ces termes n'apparaissent pas dans les documents de la collection pour deux raisons possibles : soit leurs synonymes ont été utilisés ; soit ils ne font pas partie du contexte des documents en questions<br>This work is situated in the context of information retrieval (IR) using machine learning (ML) and deep learning (DL) techniques. It concerns different tasks requiring text matching, such as ad-hoc research, question answering and paraphrase identification. The objective of this thesis is to propose new approaches, using DL methods, to construct semantic-based models for text matching, and to overcome the problems of vocabulary mismatch related to the classical bag of word (BoW) representations used in traditional IR models. Indeed, traditional text matching methods are based on the BoW representation, which considers a given text as a set of independent words. The process of matching two sequences of text is based on the exact matching between words. The main limitation of this approach is related to the vocabulary mismatch. This problem occurs when the text sequences to be matched do not use the same vocabulary, even if their subjects are related. For example, the query may contain several words that are not necessarily used in the documents of the collection, including relevant documents. BoW representations ignore several aspects about a text sequence, such as the structure the context of words. These characteristics are important and make it possible to differentiate between two texts that use the same words but expressing different information. Another problem in text matching is related to the length of documents. The relevant parts can be distributed in different ways in the documents of a collection. This is especially true in large documents that tend to cover a large number of topics and include variable vocabulary. A long document could thus contain several relevant passages that a matching model must capture. Unlike long documents, short documents are likely to be relevant to a specific subject and tend to contain a more restricted vocabulary. Assessing their relevance is in principle simpler than assessing the one of longer documents. In this thesis, we have proposed different contributions, each addressing one of the above-mentioned issues. First, in order to solve the problem of vocabulary mismatch, we used distributed representations of words (word embedding) to allow a semantic matching between the different words. These representations have been used in IR applications where document/query similarity is computed by comparing all the term vectors of the query with all the term vectors of the document, regardless. Unlike the models proposed in the state-of-the-art, we studied the impact of query terms regarding their presence/absence in a document. We have adopted different document/query matching strategies. The intuition is that the absence of the query terms in the relevant documents is in itself a useful aspect to be taken into account in the matching process. Indeed, these terms do not appear in documents of the collection for two possible reasons: either their synonyms have been used or they are not part of the context of the considered documents. The methods we have proposed make it possible, on the one hand, to perform an inaccurate matching between the document and the query, and on the other hand, to evaluate the impact of the different terms of a query in the matching process. Although the use of word embedding allows semantic-based matching between different text sequences, these representations combined with classical matching models still consider the text as a list of independent elements (bag of vectors instead of bag of words). However, the structure of the text as well as the order of the words is important. Any change in the structure of the text and/or the order of words alters the information expressed. In order to solve this problem, neural models were used in text matching
APA, Harvard, Vancouver, ISO, and other styles
16

Zapata, Usandivaras Jose. "Surrogate models based on large eddy simulations and deep learning for coaxial rocket engine injector design." Electronic Thesis or Diss., Toulouse, ISAE, 2024. http://www.theses.fr/2024ESAE0024.

Full text
Abstract:
La conception des fusées est soumise à une pression croissante pour réduire leurs coûts de développement. L’utilisation de la CFD pour la simulation des processus de combustion des moteurs-fusées (LRE) peut constituer une alternative économique aux coûteuses expériences. Pourtant, une approche holistique pour la conception préliminaire avec la CFD n’est pas encore pratique. Des modèles de substitution appropriés peuvent contourner ce dilemme grâce à des temps de restitution rapides, sans perte de précision significative. La conception d’un injecteur a un impact direct sur l’efficacité de la combustion et les charges thermiques. Dans ce travail, nous procédons à l’évaluation des stratégies appelées data-driven pour obtenir des modèles de substitution des injecteurs coaxiaux. Un accent particulier est mis sur les techniques supervisées d’apprentissage profond (DL). Nous commençons par réaliser une validation du concept, en construisant une base de données de ∼3600 simulations 2D axisymétriques RANS (Reynolds Averaged Navier Stokes) d’injecteurs coaxiaux couvrant un espace de paramètres à 9 dimensions, comprenant la géométrie et le régime de combustion. Des modèles de quantités scalaires d’intérêt (QoI), du profil de flux de chaleur de paroi 1D et de champ de température moyen 2D, sont formés et validés. Les modèles utilisent des réseaux neuronaux entièrement connectés (FCNN), et un U-Net adapté pour le cas 2D. Les résultats se comparent bien à d’autres méthodes établies sur l’ensemble des données d’essai. L’approche RANS présente des lacunes évidentes lorsqu’il s’agit d’applications de combustion turbulente. Au lieu de cela, les simulations aux grandes échelles (LES), sont en principe mieux adaptées à la modélisation de la combustion turbulente. La méthodologie déployée sur les données RANS est donc appliquée sur une base de données de ∼100 LES d’injecteurs couvrant un espace de conception 3D, à un coût par échantillon beaucoup plus élevé que RANS. En raison des coûts de calculs élevés, des maillages grossiers ainsi que d’autres simplifications sont adoptés pour la génération de cette base de données LES, qui est ainsi qualifiée de basse fidélité (LF). Les FCNN et les U-Nets sont utilisés pour obtenir des modèles de substitution des QoI scalaires etdes champs stationnaires 2D avec des performances satisfaisantes pour la tâche de prédiction LF. Afin d’améliorer la qualité des modèles obtenus au sens de leur capacité à décrire les phénomènes physiques, sans pour autant devoir les entraîner sur des simulations plus raffinées et coûteuses, une approche multifidélité (MF) est envisagée en tirant parti de l’apprentissage par transfert inductif sur les U-Nets. Les modèles sont réentraînés et validés sur un ensemble plus petit de ∼10 échantillons de haute fidélité (HF). Le modèle MF donne de bons résultats dans la tâche de prédiction HF sur les échantillons de test, avec la topologie de flamme souhaitée, à un coût de calcul bien inférieur à ce qu’aurait coûté uniquement sur des données HF. Par ailleurs, les informations liées au comportement dynamique restituées par la LES sont exploitées pour le développement de modèles d’ordre réduit pour la prédiction spatio-temporelle de l’écoulement réactif. Nous développons des émulateurs d’un injecteur LRE au moyen d’autoencodeurs convolutifs (CNN-AE) et d’un multilayer perceptron (MLP). Le contenu spectral reconstruit du signal surpasse celui d’une POD équivalente, ce qui démontre la capacité de compression supérieure du CNN-AE. Cependant, des problèmes de régularité sont soulevés lors de la propagation de l’émulateur au-delà de l’horizon d’apprentissage. Enfin, ce travail met en évidence les défis et les opportunités de l’utilisation de la DL pour la prédiction des caractéristiques stationnaires et dynamiques des données LES de l’écoulement réactif dans un injecteur de moteur fusée<br>The design of rocket propulsion systems is under growing pressure of reducing development costs. The use of CFD codes for the simulation of rocket engine combustion processes can provide an economical alternative to costly experiments which have traditionally been at the core of liquid rocket engines (LREs) development. Nonetheless, a holistic approach for preliminary design analysis and optimization is not yet practical, as the exploration of the entire engine design space via high-fidelity numerical simulations is intractable. Appropriate surrogate models may circumvent this dilemma through fast restitution times, without significant accuracy loss. The liquid rocket engine injector is a key subsystem within the LRE, whose design directly impacts flame development, combustion efficiency, and thermal loads. The multiscale nature of turbulent, non-premixed combustion, makes the modeling of injection, particularly complex. In this work, we proceed to evaluate data driven strategies for obtaining surrogate models of LRE shear coaxial injectors. A specific emphasis is taken on supervised, deep learning (DL) techniques for regression tasks. The base injector configuration is inspired on an existing experimental rocket combustor from TUM, operating with a GOx/GCH 4 mixture. We begin by conducting a proof-of-concept (PoC), by offline sampling a database of ∼3600 Reynolds Averaged Navier Stokes (RANS), 2D axisymmetric simulations of single element coaxial injectors spanning a 9 dimensional parameter space comprising geometry and combustion regime. Subsequent models of scalar quantities of interest (QoIs),1D wall heat flux profile, and 2D average temperature field are trained and validated. The models use Fully Connected Neural Networks and an adapted U-Net for the 2D case. The results perform well against other established surrogate modeling methods over the test dataset. The RANS approach has evident shortcomings when dealing with turbulent combustion applications. Instead, Large Eddy Simulations (LES), are in principle, better suited to model turbulent combustion, while furnishing information about dynamical flow features. We proceed to replicate the (PoC) efforts, albeit on a database of ∼100 LES of shear coaxial injectors spanning a 3D design space, at a much larger cost per sample than RANS. A dedicated LES data generation pipeline is put in place. Due to the cost, the LES are low-fidelity (LF) in view of the modeling simplifications, i.e. coarse meshes, global chemistry, etc. CNNs and U-Nets are used to obtain surrogate models of scalar QoIs and 2D stationary fields with satisfactory performance over the LF prediction task. To improve the overall fidelity of the surrogate, a multi-fidelity (MF) approach is considered by leveraging inductive transfer learning over our U-Nets. The decoding layers are retrained and validated over a smaller pool of ∼10 of high-fidelity (HF) samples, i.e. finer resolution. The MF surrogate performs well in the HF prediction task over the test samples, with the desired flame topology, at a lower computational cost of the offline sampling stage. The dynamic data of LES, motivates the development of reduced order models (ROMs) for the spatio-temporal prediction of the injector flame. We develop emulators of a LRE injector flame by means of convolutional autoencoders (CNN-AE) and multi-layer perceptron (MLP) for propagating in time the latent vectors. The reconstructed spectral content of the signal outperforms that of a standard POD with equal latent space dimension, demonstrating the superior compression capability of the CNN-AE. However, manifold regularity concerns are raised when propagating the emulator beyond the training horizon. Finally, this work evidences the challenges and opportunities of the use of DL for the prediction of stationary and dynamical features of LES data for a complex reactive flow configuration of a LRE coaxial injector
APA, Harvard, Vancouver, ISO, and other styles
17

Haykal, Vanessa. "Modélisation des séries temporelles par apprentissage profond." Thesis, Tours, 2019. http://www.theses.fr/2019TOUR4019.

Full text
Abstract:
La prévision des séries temporelles est un problème qui est traité depuis de nombreuses années. Dans cette thèse, on s’est intéressé aux méthodes issues de l’apprentissage profond. Il est bien connu que si les relations entre les données sont temporelles, il est difficile de les analyser et de les prévoir avec précision en raison des tendances non linéaires et du bruit présent, spécifiquement pour les séries financières et électriques. A partir de ce contexte, nous proposons une nouvelle architecture de réduction de bruit qui modélise des séries d’erreurs récursives pour améliorer les prévisions. L’apprentissage hybride fusionne simultanément un réseau de neurones convolutifs (CNN) et un réseau récurrent à mémoire long et court termes (LSTM). Ce modèle se distingue par sa capacité à capturer globalement différentes propriétés telles que les caractéristiques locales du signal, d’apprendre les dépendances non linéaires à long terme et de s’adapter également à une résistance élevée au bruit. La seconde contribution concerne les limitations des approches globales en raison des changements de régimes dynamiques dans le signal. Nous présentons donc une modification locale non-supervisée de notre architecture précédente afin d’ajuster les résultats en pilotant le modèle par un modèle de Markov caché (HMM). Enfin, on s’est également intéressé aux techniques de multi-résolutions pour améliorer les performances des couches convolutives, notamment par la méthode de décomposition en mode variationnel (VMD)<br>Time series prediction is a problem that has been addressed for many years. In this thesis, we have been interested in methods resulting from deep learning. It is well known that if the relationships between the data are temporal, it is difficult to analyze and predict accurately due to non-linear trends and the existence of noise specifically in the financial and electrical series. From this context, we propose a new hybrid noise reduction architecture that models the recursive error series to improve predictions. The learning process fusessimultaneouslyaconvolutionalneuralnetwork(CNN)andarecurrentlongshort-term memory network (LSTM). This model is distinguished by its ability to capture globally a variety of hybrid properties, where it is able to extract local signal features, to learn long-term and non-linear dependencies, and to have a high noise resistance. The second contribution concerns the limitations of the global approaches because of the dynamic switching regimes in the signal. We present a local unsupervised modification with our previous architecture in order to adjust the results by adapting the Hidden Markov Model (HMM). Finally, we were also interested in multi-resolution techniques to improve the performance of the convolutional layers, notably by using the variational mode decomposition method (VMD)
APA, Harvard, Vancouver, ISO, and other styles
18

Hosseinkhan-Boucher, Rémy. "On Learning-Based Control of Dynamical Systems." Electronic Thesis or Diss., université Paris-Saclay, 2025. http://www.theses.fr/2025UPASG029.

Full text
Abstract:
Les impératifs environnementaux suscitent un regain d’intérêt pour la recherche sur le contrôle de l’écoulement des fluides afin de réduire la consommation d’énergie et les émissions dans diverses applications telles que l’aéronautique et l’automobile. Les stratégies de contrôle des fluides peuvent optimiser le système en temps réel, en tirant parti des mesures des capteurs et des modèles physiques. Ces stratégies visent à manipuler le comportement d’un système pour atteindre un état souhaité (stabilité, performance, consommation d’énergie). Dans le même temps, le développement d’approches de contrôle pilotées par les données dans des domaines concurrents tels que les jeux et la robotique a ouvert de nouvelles perspectives pour le contrôle des fluides. Cependant, l’intégration du contrôle basé sur l’apprentissage en dynamique des fluides présente de nombreux défis, notamment en ce qui concerne la robustesse de la stratégie de contrôle, l’efficacité de l’échantillon de l’algorithme d’apprentissage, et la présence de retards de toute nature dans le système. Ainsi, cette thèse vise à étudier et à développer des stratégies de contrôle basées sur l’apprentissage en tenant compte de ces défis, dans lesquels deux classes principales de stratégies de contrôle basées sur les données sont considérées : l’apprentissage par renforcement (RL) et la commande prédictive basée sur l’apprentissage (LB-MPC). De multiples contributions sont apportées dans ce contexte. Tout d’abord, un développement étendu sur la connexion entre les domaines du contrôle stochastique (temps continu) et du processus de décision de Markov (temps discret) est fourni pour unifier les deux approches. Deuxièmement, des preuves empiriques sur les propriétés de régularisation de l’algorithme d’apprentissage par renforcement par maximum d’entropie sont présentées à travers des concepts d’apprentissage statistique pour mieux comprendre la caractéristique de robustesse de l’approche par maximum d’entropie. Troisièmement, la notion d’abstraction temporelle est utilisée pour améliorer l’efficacité de l’échantillonnage d’un algorithme de commande prédictive par modèle basé sur l’apprentissage et piloté par une règle d’échantillonnage de la théorie de l’information. Enfin, les modèles différentiels neuronaux sont introduits à travers le concept d’équations différentielles neuronales à retard pour modéliser des systèmes à temps continu avec des retards pour des applications en commande prédictive. Les différentes études sont développées à l’aide de simulations numériques appliquées à des systèmes minimalistes issus des théories des systèmes dynamiques et du contrôle afin d’illustrer les résultats théoriques. Les expériences de la dernière partie sont également menées sur des simulations d’écoulement de fluides en 2D<br>Environmental needs are driving renewed research interest in fluid flow control to reduce energy consumption and emissions in various applications such as aeronautics and automotive industries. Flow control strategies can optimise the system in real time, taking advantage of sensor measurements and physical models. These strategies aim at manipulating the behaviour of a system to reach a desired state (textit{e.g.}, stability, performance, energy consumption). Meanwhile, the development of data-driven control approaches in concurrent areas such as games and robotics has opened new perspectives for flow control. However, the integration of learning-based control in fluid dynamics comes with multiple challenges, including the robustness of the control strategy, the sample efficiency of the learning algorithm, and the presence of delays of any nature in the system. Thus, this thesis aims to study and develop learning-based control strategies with respect to these challenges where two main classes of data-driven control strategies are considered: Reinforcement Learning (RL) and Learning-based Model Predictive Control (LB-MPC). Multiple contributions are made in this context. First, an extended development on the connection between the fields of (continuous-time) Stochastic Control and (discrete-time) Markov Decision Process is provided to bridge the gap between the two approaches. Second, empirical evidence on the regularisation properties of the Maximum Entropy Reinforcement Learning algorithm is presented through statistical learning concepts to further understand the robustness feature of the Maximum Entropy approach. Third, the notion of temporal abstraction is used to improve the sample efficiency of a Learning-based Model Predictive Control algorithm driven by an Information Theoretic sampling rule. Lastly, neural differential models are introduced through the concept of Neural Delay Differential Equations to model continuous-time systems with delays for Model Predictive Control applications. The different studies are developed with numerical simulations applied on minimalistic systems from Dynamical Systems and Control theories to illustrate the theoretical results. The training experiments of the last part are also conducted on 2D fluid flow simulations
APA, Harvard, Vancouver, ISO, and other styles
19

Boucher, Eulalie. "Designing Deep-Learning models for surface and atmospheric retrievals from the IASI infrared sounder." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS145.

Full text
Abstract:
L'observation de la Terre est essentielle pour comprendre et surveiller le comportement complexe de notre planète. Les satellites, équipés d'un certain nombre de capteurs sophistiqués, constituent une plateforme clé à cet égard, offrant une opportunité d'observer la Terre à l'échelle globale et de manière continue. Les techniques d'apprentissage automatique (ML) sont utilisées depuis plusieurs décennies, dans la communauté de la télédétection, pour traiter la grande quantité de données générées quotidiennement par les systèmes d'observation de la Terre. La révolution apportée par les nouvelles techniques de Deep Learning (DL) a toutefois ouvert de nouvelles possibilités pour l'exploitation des observations satellitaires. Cette thèse vise à montrer que des techniques de traitement d'images telles que les réseaux neuronaux convolutifs (CNN), à condition qu'elles soient bien maîtrisées, ont le potentiel d'améliorer l'estimation des paramètres atmosphériques et de surface de la Terre. En considérant les observations à l'échelle de l'image plutôt qu'à l'échelle du pixel, les dépendances spatiales peuvent être prises en compte. De telles techniques sont utilisées dans cette thèse pour l'estimation des températures de surface et atmosphériques, ainsi que pour la détection et la classification des nuages à partir des observations de l'Interféromètre Atmosphérique de Sondage dans l'Infrarouge (IASI). IASI, qui est placé à bord des satellites en orbite polaire Metop, est un sondeur hyperspectral collectant des données sur une large gamme de longueurs d'onde dans l'infrarouge. Chacune est adaptée à l'identification des constituants atmosphériques à différents niveaux de l'atmosphère, ou de paramètres de surface. En plus d'améliorer la qualité des restitutions, de telles méthodes d'Intelligence Artificielle (IA) sont capables de traiter des images contenant des données manquantes, de mieux estimer les événements extrêmes (souvent négligés par les techniques statistiques traditionnelles) et d'estimer les incertitudes des restitutions. Cette thèse montre pourquoi les méthodes d'IA, et en particulier les CNN avec convolutions partielles, devraient constituer l'approche privilégiée pour l'exploitation des observations provenant de nouvelles missions satellitaires telles que IASI-NG ou MTG-S IRS<br>Observing the Earth is vital to comprehend and monitor the complex behaviour of our planet. Satellites, equipped with a number of sophisticated sensors, serve as a key platform for this, offering an opportunity to observe the Earth globally and continuously. Machine Learning (ML) techniques have been used in the remote sensing community for several decades to deal with the vast amount of data generated daily by Earth observation systems. The revolution brought about by novel Deep Learning (DL) techniques has however opened up new possibilities for the exploitation of satellite observations. This research aims to show that image-processing techniques such as Convolutional Neural Networks (CNNs), provided that they are well mastered, have the potential to improve the estimation of the Earth's atmospheric and surface parameters. By looking at the observations at the image scale rather than at the pixel scale, spatial dependencies can be taken into account. Such techniques will be used for the retrieval of surface and atmospheric temperatures, as well as cloud detection and classification from the Infrared Atmospheric Sounding Interferometer (IASI) observations. IASI, onboard the polar orbiting satellites Metop, is a hyperspectral sounder gathering data across a broad range of infrared wavelengths that are suitable to identify atmospheric constituents for a range of atmospheric vertical levels, as well as surface parameters. In addition to improving the quality of the retrievals, such Artificial Intelligence (AI) methods are capable of dealing with images that contain missing data, better estimating extreme events (often overlooked by traditional ML techniques) and estimating retrieval uncertainties. This thesis shows why AI methods should be the preferred approach for the exploitation of observations coming from new satellite missions such as IASI-NG or MTG-S IRS
APA, Harvard, Vancouver, ISO, and other styles
20

Chillet, Alice. "Sensitive devices Identification through learning of radio-frequency fingerprint." Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS051.

Full text
Abstract:
L’identification de dispositifs dits sensibles est soumise à différentes contraintes de sécurité ou de consommation d’énergie, ce qui rend les méthodes d’identification classiques peu adaptées. Pour répondre à ces contraintes, il est possible d’utiliser les défauts intrinsèques de la chaîne de transmission des dispositifs pour les identifier. Ces défauts altèrent le signal transmis et créent alors une signature par nature unique et non reproductible appelée empreinte Radio Fréquence (RF). Pour identifier un dispositif grâce à son empreinte RF, il est possible d’utiliser des méthodes d’estimation d’imperfections pour extraire une signature qui peut être utilisée par un classifieur, ou bien d’utiliser des méthodes d’apprentissage telles que les réseaux de neurones. Toutefois, la capacité d’un réseau de neurones à reconnaître les dispositifs dans un contexte particulier dépend fortement de la base de données d’entraînement. Dans cette thèse, nous proposons un générateur de bases de données virtuelles basé sur des modèles de transmission et d’imperfections RF. Ces bases de données virtuelles permettent de mieux comprendre les tenants et aboutissants de l’identification RF et de proposer des solutions pour rendre l’identification plus robuste. Dans un second temps, nous nous intéressons aux problématiques de complexité de la solution d’identification via deux axes. Le premier consiste à utiliser des graphes programmables intriqués, qui sont des modèles d’apprentissage par renforcement, basés sur des techniques d’évolution génétique moins complexes que les réseaux de neurones. Le second axe propose l’utilisation de l’élagage sur des réseaux de neurones de la littérature pour réduire la complexité de ces derniers<br>Identifying so-called sensitive devices is subject to various security or energy consumption constraints, making conventional identification methods unsuitable. To meet these constraints, it is possible to use intrinsic faults in the device’s transmission chain to identify them. These faults alter the transmitted signal, creating an inherently unique and non-reproducible signature known as the Radio Frequency (RF) fingerprint. To identify a device using its RF fingerprint, it is possible to use imperfection estimation methods to extract a signature that can be used by a classifier, or to use learning methods such as neural networks. However, the ability of a neural network to recognize devices in a particular context is highly dependent on the training database. This thesis proposes a virtual database generator based on RF transmission and imperfection models. These virtual databases allow us to better understand the ins and outs of RF identification and to propose solutions to make identification more robust. Secondly, we are looking at the complexity of the identification solution in two ways. The first involves the use of intricate programmable graphs, which are reinforcement learning models based on genetic evolution techniques that are less complex than neural networks. The second is to use pruning on neural networks found in the literature to reduce their complexity
APA, Harvard, Vancouver, ISO, and other styles
21

Tarando, Sebastian Roberto. "Quantitative follow-up of pulmonary diseases using deep learning models." Electronic Thesis or Diss., Evry, Institut national des télécommunications, 2018. http://www.theses.fr/2018TELE0008.

Full text
Abstract:
Les pathologies infiltrantes diffuses recensent un large groupe de désordres pulmonaires et nécessitent un suivi régulier en imagerie tomodensitométrique (TDM). Une évaluation quantitative est nécessaire pour établir la progression (régionale) de la maladie et/ou l’impact thérapeutique. Cela implique le développement d’outils automatiques de diagnostic assisté par ordinateur (DAO) pour la segmentation du tissu pathologique dans les images TDM, problème adressé comme classification de texture. Traditionnellement, une telle classification repose sur une analyse des caractéristiques texturales 2D dans les images TDM axiales selon des critères définis par l’utilisateur. Récemment, des techniques d’intelligence artificielle fondées sur l’apprentissage profond, notamment les réseaux neuronaux convolutionnels (CNN), ont démontré des performances meilleures pour résoudre des tâches visuelles. Toutefois, pour les architectures CNN « classiques » il a été prouvé que les performances étaient moins bonnes en classification de texture par rapport à la reconnaissance d’objets, en raison de la dimensionnalité intrinsèque élevée des données texturales. Dans ce contexte, ce travail propose un système automatique pour l’analyse quantitative des pathologies infiltrantes diffuses du poumon fondé sur une architecture CNN en cascade (conçue spécialement pour l’analyse de texture) et sur un prétraitement spécifique des données d’entrée par filtrage localement connexe (permettant d’atténuer l’intensité des vaisseaux pulmonaires et d’augmenter ainsi le contraste des régions pathologiques). La classification, s’appliquant à l’ensemble du volume pulmonaire, atteint une précision moyenne de 84% (75.8% pour le tissu normal, 90% pour l’emphysème et la fibrose, 81.5% pour le verre dépoli)<br>Infiltrative lung diseases (ILDs) enclose a large group of irreversible lung disorders which require regular follow-up with computed tomography (CT) imaging. A quantitative assessment is mandatory to establish the (regional) disease progression and/or the therapeutic impact. This implies the development of automated computer-aided diagnosis (CAD) tools for pathological lung tissue segmentation, problem addressed as pixel-based texture classification. Traditionally, such classification relies on a two-dimensional analysis of axial CT images by means of handcrafted features. Recently, the use of deep learning techniques, especially Convolutional Neural Networks (CNNs) for visual tasks, has shown great improvements with respect to handcrafted heuristics-based methods. However, it has been demonstrated the limitations of "classic" CNN architectures when applied to texture-based datasets, due to their inherently higher dimension compared to handwritten digits or other object recognition datasets, implying the need of redesigning the network or enriching the system to learn meaningful textural features from input data. This work addresses an automated quantitative assessment of different disorders based on lung texture classification. The proposed approach exploits a cascade of CNNs (specially redesigned for texture categorization) for a hierarchical classification and a specific preprocessing of input data based on locally connected filtering (applied to the lung images to attenuate the vessel densities while preserving high opacities related to pathologies). The classification targeting the whole lung parenchyma achieves an average of 84% accuracy (75.8% for normal, 90% for emphysema and fibrosis, 81.5% for ground glass)
APA, Harvard, Vancouver, ISO, and other styles
22

Chamma, Ahmad. "Statistical interpretation of high-dimensional complex prediction models for biomedical data." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG028.

Full text
Abstract:
Les grands jeux de données de santé produits, qui représentent les caractéristiques de la population selon de multiples modalités, permettent de prédire et de comprendre les résultats individuels. À mesure que la collecte de données s'étend aux domaines scientifiques, tels que l'imagerie cérébrale, les variables sont liées par des dépendances complexes, éventuellement non linéaires, ainsi que par des degrés élevés de corrélation. Par conséquent, les modèles populaires tels que les techniques linéaires et à base d'arbres de décision ne sont plus efficaces dans ces contextes à haute dimension. De puissants algorithmes d'apprentissage automatique non linéaires, tels que les forêts aléatoires et les réseaux de neurones profonds, sont devenus des outils importants pour caractériser les différences interindividuelles et prédire les résultats biomédicaux, tels que l'âge du cerveau. Il est essentiel d'expliquer le processus de décision des algorithmes d'apprentissage automatique, à la fois pour améliorer les performances d'un modèle et pour faciliter la compréhension. Cet objectif peut être atteint en évaluant l'importance des variables. Traditionnellement, les scientifiques ont privilégié des modèles simples et transparents tels que la régression linéaire, où l'importance des variables peut être facilement mesurée par des coefficients. Cependant, avec l'utilisation de méthodes plus avancées, l'accès direct à la structure interne est devenu limité et/ou ininterprétable d'un point de vue humain. C'est pourquoi ces méthodes sont souvent appelées méthodes "boîte noire". Les approches standard basées sur l'importance par permutation (PI) évaluent l'importance d'une variable en mesurant la diminution du score de perte lorsque la variable d'intérêt est remplacée par sa version permutée. Bien que ces approches augmentent la transparence des modèles de boîte noire et offrent une validité statistique, elles peuvent produire des évaluations d'importance peu fiables lorsque les variables sont corrélées.L'objectif de ce travail est de surmonter les limites de l'importance de permutation standard en intégrant des schémas conditionnels. Par conséquent, nous développons deux cadres génériques, l'importance par permutation conditionnelle (CPI) et l'importance par permutation conditionnelle basée sur des blocs (BCPI), qui prennent efficacement en compte les corrélations entre les variables et surmontent les limites de l'importance par permutation. Nous présentons deux nouveaux algorithmes conçus pour traiter les situations où les variables sont corrélées, qu'elles soient groupées ou non. Nos résultats théoriques et empiriques montrent que CPI fournit des méthodes efficaces sur le plan du calcul et solides sur le plan théorique pour l'évaluation des variables individuelles. Le cadre de CPI garantit le contrôle des erreurs de type-I et produit une sélection concise des variables significatives dans les grands ensembles de données.BCPI présente une stratégie de gestion des variables individuelles et groupées. Elle intègre le regroupement statistique et utilise la connaissance préalable du regroupement pour adapter l'architecture du réseau DNN à l'aide de techniques d'empilement. Ce cadre est robuste et maintient le contrôle de l'erreur de type-I même dans des scénarios avec des groupes de variables fortement corrélées. Il donne de bons résultats sur divers points de référence. Les évaluations empiriques de nos méthodes sur plusieurs jeux de données biomédicales ont montré une bonne validité apparente. Nous avons également appliqué ces méthodes à des données cérébrales multimodales ainsi qu'à des données sociodémographiques, ouvrant la voie à de nouvelles découvertes et avancées dans les domaines ciblés. Les cadres CPI et BCPI sont proposés en remplacement des méthodes conventionnelles basées sur la permutation. Ils améliorent l'interprétabilité de l'estimation de l'importance des variables pour les modèles d'apprentissage à haute performance<br>Modern large health datasets represent population characteristics in multiple modalities, including brain imaging and socio-demographic data. These large cohorts make it possible to predict and understand individual outcomes, leading to promising results in the epidemiological context of forecasting/predicting the occurrence of diseases, health outcomes, or other events of interest. As data collection expands into different scientific domains, such as brain imaging and genomic analysis, variables are related by complex, possibly non-linear dependencies, along with high degrees of correlation. As a result, popular models such as linear and tree-based techniques are no longer effective in such high-dimensional settings. Powerful non-linear machine learning algorithms, such as Random Forests (RFs) and Deep Neural Networks (DNNs), have become important tools for characterizing inter-individual differences and predicting biomedical outcomes, such as brain age. Explaining the decision process of machine learning algorithms is crucial both to improve the performance of a model and to aid human understanding. This can be achieved by assessing the importance of variables. Traditionally, scientists have favored simple, transparent models such as linear regression, where the importance of variables can be easily measured by coefficients. However, with the use of more advanced methods, direct access to the internal structure has become limited and/or uninterpretable from a human perspective. As a result, these methods are often referred to as "black box" methods. Standard approaches based on Permutation Importance (PI) assess the importance of a variable by measuring the decrease in the loss score when the variable of interest is replaced by its permuted version. While these approaches increase the transparency of black box models and provide statistical validity, they can produce unreliable importance assessments when variables are correlated.The goal of this work is to overcome the limitations of standard permutation importance by integrating conditional schemes. Therefore, we investigate two model-agnostic frameworks, Conditional Permutation Importance (CPI) and Block-Based Conditional Permutation Importance (BCPI), which effectively account for correlations between covariates and overcome the limitations of PI. We present two new algorithms designed to handle situations with correlated variables, whether grouped or ungrouped. Our theoretical and empirical results show that CPI provides computationally efficient and theoretically sound methods for evaluating individual variables. The CPI framework guarantees type-I error control and produces a concise selection of significant variables in large datasets.BCPI presents a strategy for managing both individual and grouped variables. It integrates statistical clustering and uses prior knowledge of grouping to adapt the DNN architecture using stacking techniques. This framework is robust and maintains type-I error control even in scenarios with highly correlated groups of variables. It performs well on various benchmarks. Empirical evaluations of our methods on several biomedical datasets showed good face validity. Our methods have also been applied to multimodal brain data in addition to socio-demographics, paving the way for new discoveries and advances in the targeted areas. The CPI and BCPI frameworks are proposed as replacements for conventional permutation-based methods. They provide improved interpretability and reliability in estimating variable importance for high-performance machine learning models
APA, Harvard, Vancouver, ISO, and other styles
23

Zhang, Yifei. "Real-time multimodal semantic scene understanding for autonomous UGV navigation." Thesis, Bourgogne Franche-Comté, 2021. http://www.theses.fr/2021UBFCK002.

Full text
Abstract:
Une analyse sémantique robuste des scènes extérieures est difficile en raison des changements environnementaux causés par l'éclairage et les conditions météorologiques variables, ainsi que par la variation des types d'objets rencontrés. Cette thèse étudie le problème de la segmentation sémantique à l'aide de l'apprentissage profond et avec des d'images de différentes modalités. Les images capturées à partir de diverses modalités d'acquisition fournissent des informations complémentaires pour une compréhension complète de la scène. Nous proposons des solutions efficaces pour la segmentation supervisée d'images multimodales, de même que pour la segmentation semi-supervisée de scènes routières en extérieur. Concernant le premier cas, nous avons proposé un réseau de fusion multi-niveaux pour intégrer des images couleur et polarimétriques. Une méthode de fusion centrale a également été introduite pour apprendre de manière adaptative les représentations conjointes des caractéristiques spécifiques aux modalités et réduire l'incertitude du modèle via un post-traitement statistique. Dans le cas de la segmentation semi-supervisée, nous avons d'abord proposé une nouvelle méthode de segmentation basée sur un réseau prototypique, qui utilise l'amélioration des fonctionnalités multi-échelles et un mécanisme d'attention. Ensuite, nous avons étendu les algorithmes centrés sur les images RGB, pour tirer parti des informations de profondeur supplémentaires fournies par les caméras RGBD. Des évaluations empiriques complètes sur différentes bases de données de référence montrent que les algorithmes proposés atteignent des performances supérieures en termes de précision et démontrent le bénéfice de l'emploi de modalités complémentaires pour l'analyse de scènes extérieures dans le cadre de la navigation autonome<br>Robust semantic scene understanding is challenging due to complex object types, as well as environmental changes caused by varying illumination and weather conditions. This thesis studies the problem of deep semantic segmentation with multimodal image inputs. Multimodal images captured from various sensory modalities provide complementary information for complete scene understanding. We provided effective solutions for fully-supervised multimodal image segmentation and few-shot semantic segmentation of the outdoor road scene. Regarding the former case, we proposed a multi-level fusion network to integrate RGB and polarimetric images. A central fusion framework was also introduced to adaptively learn the joint representations of modality-specific features and reduce model uncertainty via statistical post-processing.In the case of semi-supervised semantic scene understanding, we first proposed a novel few-shot segmentation method based on the prototypical network, which employs multiscale feature enhancement and the attention mechanism. Then we extended the RGB-centric algorithms to take advantage of supplementary depth cues. Comprehensive empirical evaluations on different benchmark datasets demonstrate that all the proposed algorithms achieve superior performance in terms of accuracy as well as demonstrating the effectiveness of complementary modalities for outdoor scene understanding for autonomous navigation
APA, Harvard, Vancouver, ISO, and other styles
24

Romanelli, Michele. "Lois de paroi à apprentissage profond pour simulations aérodynamiques." Electronic Thesis or Diss., Bordeaux, 2024. http://www.theses.fr/2024BORD0358.

Full text
Abstract:
Les simulations aux équations de Navier-Stokes moyennées (RANS) sont largement utilisées dans le domaine industriel. Cependant, leur précision dépend fortement de la solution des écoulements en proche paroi, nécessitant typiquement un maillage très fin pour capturer correctement les forts gradients se développant dans la couche limite. Cela entraîne un impact considérable sur le coût de calcul de la simulation. Les lois de paroi permettent d’alléger ces calculs en remplaçant la résolution coûteuse de la couche limite par une modélisation. Dans ce contexte, des approches basées sur l’apprentissage profond sont explorées et la flexibilité des réseaux de neurones offre un potentiel indéniable dans la modélisation des écoulements pariétaux. Ce travail vise à développer une loi de paroi basée sur l’apprentissage profond qui peut reproduire avec précision l’évolution de la région interne de la couche limite, fournissant ainsi des conditions aux limites valables pour les calculs RANS se déroulant loin de la paroi. Une approche préliminaire consiste à entraîner un réseau de neurones sur des données résolues jusqu’à la paroi pour reconstruire des profils de vitesse adimensionnelle et modéliser l’évolution de la couche limite. Conformément aux lois de paroi analytiques, la vitesse est fonction de la distance à la paroi et du gradient de pression. Ces variables sont adimensionnalisées à l’aide d’une vitesse de frottement caractéristique, qui est estimée de manière itérative à l’aide d’un algorithme de Newton-Raphson. Pour réduire le coût associé à l’estimation itérative de la contrainte visqueuse à la paroi, une nouvelle approche entièrement basée sur l’apprentissage profond a été développée. Elle impose directement le frottement à l’interface entre la région modélisée et le calcul RANS, fixant la dérivée normale du champ de vitesse, qui est estimée à l’aide de deux réseaux de neurones interconnectés : l’un estimant la contrainte de cisaillement à la paroi et l’autre évaluant la dérivée adimensionnelle de la vitesse. Les réseaux de neurones sont entraînés sur des simulations RANS entièrement résolues d’écoulements turbulents sur diverses géométries de bosses bidimensionnelles. Les performances, en termes de précision et coût computationnel, de ce modèle sont ensuite comparées à des calculs résolus jusqu’à la paroi pour des configurations d’écoulements non incluses dans le jeu de données d’entraînement<br>Reynolds-Averaged Navier-Stokes (RANS) simulations are widely used in the industrial domain. However, their accuracy heavily relies on the solution of near-wall flows, typically requiring a very fine mesh to properly capture the steep gradients developing in the boundary layer. This results in a substantial impact on the computational cost of the simulation. Wall laws allow to speed up of these calculations by replacing the costly resolution of the boundary layer with modeling. In this context, deep learning-based approaches are being explored and the flexibility of neural networks offers undeniable potential in modeling near-wall flows. This work aims to develop a wall law based on deep learning that can accurately reproduce the evolution of the internal region of the boundary layer, thereby providing boundary conditions for the RANS calculations occurring far from the wall. A preliminary approach involves training a neural network on wall-resolved data to reconstruct dimensionless velocity profiles and model the evolution of the boundary layer near the wall. In accordance with analytical wall laws, velocity is a function of the distance to the wall and the pressure gradient, with these variables being non-dimensionalized using a characteristic friction velocity, which is iteratively estimated using a Newton-Raphson algorithm. To reduce the cost associated with the iterative estimation of the wall shear stress, a new approach entirely based on deep learning has been developed. It directly imposes the friction at the interface between the modeled region and the RANS calculation, fixing the normal derivative of the velocity field, which is estimated using two interconnected neural networks: one estimating the wall shear stress and the other evaluating the dimensionless normal derivative of the velocity. The neural networks are trained on fully resolved RANS simulations of turbulent flows over various two-dimensional bump geometries. The performance of this wall model, in term of accuracy and computational cost, is then compared to wall-resolved calculations for flow configurations not included in the training dataset
APA, Harvard, Vancouver, ISO, and other styles
25

Bakkali, Souhail. "Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS046.

Full text
Abstract:
Les modèles développés dans cette thèse sont le résultat d'un processus itératif d'analyse et de synthèse entre les théories existantes et nos études réalisées. Plus spécifiquement, nous souhaitons étudier l'apprentissage inter-modal pour la compréhension contextualisée sur les composants des documents à travers le langage et la vision. Cette thèse porte sur l'avancement de la recherche sur l'apprentissage inter-modal et apporte des contributions sur quatre fronts : (i) proposer une approche inter-modale avec des réseaux profonds pour exploiter conjointement les informations visuelles et textuelles dans un espace de représentation sémantique commun afin d'effectuer et de créer automatiquement des prédictions sur les documents multimodaux; (ii) à étudier des stratégies concurrentielles pour s'attaquer aux tâches de classification de documents intermodaux, de récupération basée sur le contenu et de classification few-shot de documents ; (iii) pour résoudre les problèmes liés aux données comme l'apprentissage lorsque les données ne sont pas annotées, en proposant un réseau qui apprend des représentations génériques à partir d'une collection de documents non étiquetés ; et (iv) à exploiter les paramètres d'apprentissage few-shot lorsque les données ne contiennent que peu d’exemples<br>The frameworks developed in this thesis were the outcome of an iterative process of analysis and synthesis between existing theories and our performed studies. More specifically, we wish to study cross-modality learning for contextualized comprehension on document components across language and vision. The main idea is to leverage multimodal information from document images into a common semantic space. This thesis focuses on advancing the research on cross-modality learning and makes contributions on four fronts: (i) to proposing a cross-modal approach with deep networks to jointly leverage visual and textual information into a common semantic representation space to automatically perform and make predictions about multimodal documents (i.e., the subject matter they are about); (ii) to investigating competitive strategies to address the tasks of cross-modal document classification, content-based retrieval and few-shot document classification; (iii) to addressing data-related issues like learning when data is not annotated, by proposing a network that learns generic representations from a collection of unlabeled documents; and (iv) to exploiting few-shot learning settings when data contains only few examples
APA, Harvard, Vancouver, ISO, and other styles
26

Liu, Rongrong. "Multispectral images-based background subtraction using Codebook and deep learning approaches." Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCA013.

Full text
Abstract:
Cette thèse vise à étudier les images multispectrales pour la détection d'objets en mouvement par soustraction d'arrière-plan, à la fois avec des méthodes classiques et d’apprentissage profond. En tant qu'algorithme classique efficace et représentatif pour la soustraction de fond, l’algorithme Codebook traditionnel a d'abord été étendu au cas multispectral. Afin de rendre l'algorithme fiable et robuste, un mécanisme auto-adaptatif pour sélectionner les paramètres optimaux a ensuite été proposé. Dans ce cadre, de nouveaux critères dans le processus d'appariement sont employés et de nouvelles techniques pour construire le modèle d'arrière-plan sont conçues, y compris le Codebook de boîtes, le Codebook dynamique et la stratégie de fusion. La dernière tentative est d'étudier les avantages potentiels de l'utilisation d'images multispectrales via des réseaux de neurones convolutifs. Sur la base de l'algorithme impressionnant FgSegNet_v2, les principales contributions de ce travail reposent sur deux aspects : (1) extraire trois canaux sur sept de l'ensemble des données multispectrales du FluxData FD-1665 pour correspondre au nombre de canaux d'entrée du modèle profond, et (2) proposer un nouvel encodeur convolutionnel pour pouvoir utiliser tous les canaux multispectraux disponibles permettant d’explorer davantage les informations des images multispectrales<br>This dissertation aims to investigate the multispectral images in moving objects detection via background subtraction, both with classical and deep learning-based methods. As an efficient and representative classical algorithm for background subtraction, the traditional Codebook has first been extended to multispectral case. In order to make the algorithm reliable and robust, a self-adaptive mechanism to select optimal parameters has then been proposed. In this frame, new criteria in the matching process are employed and new techniques to build the background model are designed, including box-based Codebook, dynamic Codebook and fusion strategy. The last attempt is to investigate the potential benefit of using multispectral images via convolutional neural networks. Based on the impressive algorithm FgSegNet_v2, the major contributions of this part lie in two aspects: (1) extracting three channels out of seven in the FluxData FD-1665 multispectral dataset to match the number of input channels of the deep model, and (2) proposing a new convolutional encoder to utilize all the multispectral channels available to further explore the information of multispectral images
APA, Harvard, Vancouver, ISO, and other styles
27

Tang, Yuxing. "Weakly supervised learning of deformable part models and convolutional neural networks for object detection." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEC062/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons au problème de la détection d’objets faiblement supervisée. Le but est de reconnaître et de localiser des objets dans les images, n’ayant à notre disposition durant la phase d’apprentissage que des images partiellement annotées au niveau des objets. Pour cela, nous avons proposé deux méthodes basées sur des modèles différents. Pour la première méthode, nous avons proposé une amélioration de l’approche ”Deformable Part-based Models” (DPM) faiblement supervisée, en insistant sur l’importance de la position et de la taille du filtre racine initial spécifique à la classe. Tout d’abord, un ensemble de candidats est calculé, ceux-ci représentant les positions possibles de l’objet pour le filtre racine initial, en se basant sur une mesure générique d’objectness (par region proposals) pour combiner les régions les plus saillantes et potentiellement de bonne qualité. Ensuite, nous avons proposé l’apprentissage du label des classes latentes de chaque candidat comme un problème de classification binaire, en entrainant des classifieurs spécifiques pour chaque catégorie afin de prédire si les candidats sont potentiellement des objets cible ou non. De plus, nous avons amélioré la détection en incorporant l’information contextuelle à partir des scores de classification de l’image. Enfin, nous avons élaboré une procédure de post-traitement permettant d’élargir et de contracter les régions fournies par le DPM afin de les adapter efficacement à la taille de l’objet, augmentant ainsi la précision finale de la détection. Pour la seconde approche, nous avons étudié dans quelle mesure l’information tirée des objets similaires d’un point de vue visuel et sémantique pouvait être utilisée pour transformer un classifieur d’images en détecteur d’objets d’une manière semi-supervisée sur un large ensemble de données, pour lequel seul un sous-ensemble des catégories d’objets est annoté avec des boîtes englobantes nécessaires pour l’apprentissage des détecteurs. Nous avons proposé de transformer des classifieurs d’images basés sur des réseaux convolutionnels profonds (Deep CNN) en détecteurs d’objets en modélisant les différences entre les deux en considérant des catégories disposant à la fois de l’annotation au niveau de l’image globale et l’annotation au niveau des boîtes englobantes. Cette information de différence est ensuite transférée aux catégories sans annotation au niveau des boîtes englobantes, permettant ainsi la conversion de classifieurs d’images en détecteurs d’objets. Nos approches ont été évaluées sur plusieurs jeux de données tels que PASCAL VOC, ImageNet ILSVRC et Microsoft COCO. Ces expérimentations ont démontré que nos approches permettent d’obtenir des résultats comparables à ceux de l’état de l’art et qu’une amélioration significative a pu être obtenue par rapport à des méthodes récentes de détection d’objets faiblement supervisées<br>In this dissertation we address the problem of weakly supervised object detection, wherein the goal is to recognize and localize objects in weakly-labeled images where object-level annotations are incomplete during training. To this end, we propose two methods which learn two different models for the objects of interest. In our first method, we propose a model enhancing the weakly supervised Deformable Part-based Models (DPMs) by emphasizing the importance of location and size of the initial class-specific root filter. We first compute a candidate pool that represents the potential locations of the object as this root filter estimate, by exploring the generic objectness measurement (region proposals) to combine the most salient regions and “good” region proposals. We then propose learning of the latent class label of each candidate window as a binary classification problem, by training category-specific classifiers used to coarsely classify a candidate window into either a target object or a non-target class. Furthermore, we improve detection by incorporating the contextual information from image classification scores. Finally, we design a flexible enlarging-and-shrinking post-processing procedure to modify the DPMs outputs, which can effectively match the approximate object aspect ratios and further improve final accuracy. Second, we investigate how knowledge about object similarities from both visual and semantic domains can be transferred to adapt an image classifier to an object detector in a semi-supervised setting on a large-scale database, where a subset of object categories are annotated with bounding boxes. We propose to transform deep Convolutional Neural Networks (CNN)-based image-level classifiers into object detectors by modeling the differences between the two on categories with both image-level and bounding box annotations, and transferring this information to convert classifiers to detectors for categories without bounding box annotations. We have evaluated both our approaches extensively on several challenging detection benchmarks, e.g. , PASCAL VOC, ImageNet ILSVRC and Microsoft COCO. Both our approaches compare favorably to the state-of-the-art and show significant improvement over several other recent weakly supervised detection methods
APA, Harvard, Vancouver, ISO, and other styles
28

Ndzimbong, William Brice. "Recalage automatique des images echographiques tridimensionnelles et tomodensitométriques du rein." Electronic Thesis or Diss., Strasbourg, 2024. http://www.theses.fr/2024STRAD047.

Full text
Abstract:
Le recalage automatique des images échographiques abdominales et des images tomodensitométriques (scanner) est essentiel pour améliorer le guidage interventionnel en chirurgie rénale. Toutefois, il représente encore un défi de recherche majeur. Une limitation importante est le manque de jeu de données publiques contenant des images des deux modalités pour un même patient (jeu de données appariées). Cette absence freine les avancées méthodologiques et empêche une comparaison systématique des méthodes de pointe. Une autre limitation importante est qu’il existe peu de méthodes robustes capables de réaliser un recalage sans intervention manuelle, notamment en ce qui concerne les méthodes dites « globales ». Cette thèse vise à surmonter ces obstacles par plusieurs contributions de recherche. La première est la création d’un nouveau jeu de données, composé d’images échographiques tridimensionnelles transabdominales et scanner appariées, provenant de reins de 48 patients humains. Ce jeu de données inclut des annotations de segmentation et de points de repère anatomiques, validées par deux radiographes expérimentés. En plus de fournir ces données, la concordance des annotations est analysée, et la valeur du jeu de données est démontrée en évaluant des méthodes qui traitent deux tâches fondamentales : la segmentation automatique des reins et le recalage d’images intermodales. Les résultats montrent que ces deux défis restent ouverts, et ce jeu de données constitue une ressource importante pour faire progresser ces domaines. La seconde contribution principale est une méthode automatique de recalage global pour les images échographiques tridimensionnelles et scanner des reins. Cette méthode surmonte l’ambiguïté de recalage due à la symétrie naturelle de l’organe et, combinée à un algorithme d’affinement, permet un recalage précis, robuste et sans initialisation manuelle. Cette méthode a également d’autres applications importantes, telles que la conversion inter-modale d’images, la synthèse d’images, et le transfert d’annotations entre modalités<br>Automatic registration between abdominal ultrasound (US) and computed tomography (CT) images is needed to enhance interventional guidance in kidney surgery. However, it remains an open research challenge. One striking limitation is the lack of public datasets that comprise images of the same patient in both modalities (paired datasets). This has hindered methodological progress, as well as prevented a systematic comparison of state-of-the-art methods. Another limitation is the lack of robust methods capable of solving registration without manual initialization (’global’ methods). This thesis aims to overcome these challenges with several research contributions. The first contribution is a novel dataset with paired transabdominal 3D US and CT kidney images from 48 human patients that includes segmentation and anatomical landmark annotations from two expert radiographers. In addition to the dataset, annotation consistency is analyzed, and its value assessed by benchmarking methods that tackle two fundamental tasks : automatic kidney segmentation and inter-modal image registration. The findings show that both challenges are still open, and the dataset should serve as an important resource for advancing both topics. As a second main contribution, an automatic method for global registration of kidneys in 3D US and CT images is proposed. This method handles registration ambiguity caused by the organ’s natural symmetry. Combined with a registration refinement algorithm, it achieves robust and accurate kidney registration while avoiding manual initialization. The method has several other important applications, including inter-modal image translation and image synthesis, as well as label transfer between modalities
APA, Harvard, Vancouver, ISO, and other styles
29

Chen, Mickaël. "Learning with weak supervision using deep generative networks." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS024.

Full text
Abstract:
Nombre des succès de l’apprentissage profond reposent sur la disponibilité de données massivement collectées et annotées, exploités par des algorithmes supervisés. Ces annotations, cependant, peuvent s’avérer difficiles à obtenir. La conception de méthodes peu gourmandes en annotations est ainsi un enjeu important, abordé dans des approches semi-supervisées ou faiblement supervisées. Par ailleurs ont été récemment introduit les réseaux génératifs profonds, capable de manipuler des distributions complexes et à l’origine d’avancées majeures, en édition d’image et en adaptation de domaine par exemple. Dans cette thèse, nous explorons comment ces outils nouveaux peuvent être exploités pour réduire les besoins en annotations. En premier lieu, nous abordons la tâche de prédiction stochastique. Il s’agit de concevoir des systèmes de prédiction structurée tenant compte de la diversité des réponses possibles. Nous proposons dans ce cadre deux modèles, le premier pour des données multi-vues avec vues manquantes, et le second pour la prédiction de futurs possibles d'une séquence vidéo. Ensuite, nous étudions la décomposition en deux facteurs latents indépendants dans le cas où un seul facteur est annoté. Nous proposons des modèles qui visent à retrouver des représentations latentes sémantiquement cohérentes de ces facteurs explicatifs. Le premier modèle est appliqué en génération de données de capture de mouvements, le second, sur des données multi-vues. Enfin, nous nous attaquons au problème, crucial en vision par ordinateur, de la segmentation d’image. Nous proposons un modèle, inspiré des idées développées dans cette thèse, de segmentation d’objet entièrement non supervisé<br>Many successes of deep learning rely on the availability of massive annotated datasets that can be exploited by supervised algorithms. Obtaining those labels at a large scale, however, can be difficult, or even impossible in many situations. Designing methods that are less dependent on annotations is therefore a major research topic, and many semi-supervised and weakly supervised methods have been proposed. Meanwhile, the recent introduction of deep generative networks provided deep learning methods with the ability to manipulate complex distributions, allowing for breakthroughs in tasks such as image edition and domain adaptation. In this thesis, we explore how these new tools can be useful to further alleviate the need for annotations. Firstly, we tackle the task of performing stochastic predictions. It consists in designing systems for structured prediction that take into account the variability in possible outputs. We propose, in this context, two models. The first one performs predictions on multi-view data with missing views, and the second one predicts possible futures of a video sequence. Then, we study adversarial methods to learn a factorized latent space, in a setting with two explanatory factors but only one of them is annotated. We propose models that aim to uncover semantically consistent latent representations for those factors. One model is applied to the conditional generation of motion capture data, and another one to multi-view data. Finally, we focus on the task of image segmentation, which is of crucial importance in computer vision. Building on previously explored ideas, we propose a model for object segmentation that is entirely unsupervised
APA, Harvard, Vancouver, ISO, and other styles
30

Arman, Molood. "Machine Learning Approaches for Sub-surface Geological Heterogeneous Sources." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG014.

Full text
Abstract:
Dans le domaine de l'exploration et de la production du pétrole et du gaz, il est essentiel de comprendre les structures géologiques de sous-sol, tels que les diagraphies de puits et les échantillons de roche, afin de fournir des outils de prédiction et d'aide à la décision. Exploiter des données provenant de différentes sources, structurées ou non structurées, telles que des bases de données relationnelles et des rapports numérisés portant sur la géologie du sous-sol, est primordial. Le principal défi pour les données structurées réside dans l'absence d'un schéma global permettant de croiser tous les attributs provenant de différentes sources.Les défis sont autres pour les données non structurées. La plupart des rapports géologiques de sous-sol sont des versions scannées de documents. L'objectif de notre travail de thèse est de fournir une représentation structurée des différentes sources de données, et de construire des modèles de language spécifique au domaine pour l'apprentissage des entités nommées relatives à la géologie du sous-sol<br>In oil and gas exploration and production, understanding subsurface geological structures, such as well logs and rock samples, is essential to provide predictive and decision support tools. Gathering and using data from a variety of sources, both structured and unstructured, such as relational databases and digitized reports on the subsurface geology, are critical. The main challenge for the structured data is the lack of a global schema to cross-reference all attributes from different sources. The challenges are different for unstructured data. Most subsurface geological reports are scanned versions of documents. Our dissertation aims to provide a structured representation of the different data sources and to build domain-specific language models for learning named entities related to subsurface geology
APA, Harvard, Vancouver, ISO, and other styles
31

Besedin, Andrey. "Continual forgetting-free deep learning from high-dimensional data streams." Electronic Thesis or Diss., Paris, CNAM, 2019. http://www.theses.fr/2019CNAM1263.

Full text
Abstract:
Dans cette thèse, nous proposons une nouvelle approche de l’apprentissage profond pour la classification des flux de données de grande dimension. Au cours des dernières années, les réseaux de neurones sont devenus la référence dans diverses applications d’apprentissage automatique. Cependant, la plupart des méthodes basées sur les réseaux de neurones sont conçues pour résoudre des problèmes d’apprentissage statique. Effectuer un apprentissage profond en ligne est une tâche difficile. La principale difficulté est que les classificateurs basés sur les réseaux de neurones reposent généralement sur l’hypothèse que la séquence des lots de données utilisées pendant l’entraînement est stationnaire ; ou en d’autres termes, que la distribution des classes de données est la même pour tous les lots (hypothèse i.i.d.). Lorsque cette hypothèse ne tient pas les réseaux de neurones ont tendance à oublier les concepts temporairement indisponibles dans le flux. Dans la littérature scientifique, ce phénomène est généralement appelé oubli catastrophique. Les approches que nous proposons ont comme objectif de garantir la nature i.i.d. de chaque lot qui provient du flux et de compenser l’absence de données historiques. Pour ce faire, nous entrainons des modèles génératifs et pseudo-génératifs capable de produire des échantillons synthétiques à partir des classes absentes ou mal représentées dans le flux, et complètent les lots du flux avec ces échantillons. Nous testons nos approches dans un scénario d’apprentissage incrémental et dans un type spécifique de l’apprentissage continu. Nos approches effectuent une classification sur des flux de données dynamiques avec une précision proche des résultats obtenus dans la configuration de classification statique où toutes les données sont disponibles pour la durée de l’apprentissage. En outre, nous démontrons la capacité de nos méthodes à s’adapter à des classes de données invisibles et à de nouvelles instances de catégories de données déjà connues, tout en évitant d’oublier les connaissances précédemment acquises<br>In this thesis, we propose a new deep-learning-based approach for online classification on streams of high-dimensional data. In recent years, Neural Networks (NN) have become the primary building block of state-of-the-art methods in various machine learning problems. Most of these methods, however, are designed to solve the static learning problem, when all data are available at once at training time. Performing Online Deep Learning is exceptionally challenging.The main difficulty is that NN-based classifiers usually rely on the assumption that the sequence of data batches used during training is stationary, or in other words, that the distribution of data classes is the same for all batches (i.i.d. assumption).When this assumption does not hold Neural Networks tend to forget the concepts that are temporarily not available in thestream. In the literature, this phenomenon is known as catastrophic forgetting. The approaches we propose in this thesis aim to guarantee the i.i.d. nature of each batch that comes from the stream and compensates for the lack of historical data. To do this, we train generative models and pseudo-generative models capable of producing synthetic samples from classes that are absent or misrepresented in the stream and complete the stream’s batches with these samples. We test our approaches in an incremental learning scenario and a specific type of continuous learning. Our approaches perform classification on dynamic data streams with the accuracy close to the results obtained in the static classification configuration where all data are available for the duration of the learning. Besides, we demonstrate the ability of our methods to adapt to invisible data classes and new instances of already known data categories, while avoiding forgetting the previously acquired knowledge
APA, Harvard, Vancouver, ISO, and other styles
32

Zhang, Jian. "Modèles de Mobilité de Véhicules par Apprentissage Profond dans les Systèmes de Tranport Intelligents." Thesis, Ecole centrale de Lille, 2018. http://www.theses.fr/2018ECLI0015/document.

Full text
Abstract:
Les systèmes de transport intelligents ont acquis un grand intérêt pour la recherche ces dernières années. Alors que la simulation réaliste du trafic joue un rôle important, elle n'a pas reçu suffisamment d'attention. Cette thèse est consacrée à l'étude de la simulation du trafic au niveau microscopique et propose des modèles de mobilité des véhicules correspondants. À l'aide de méthodes d'apprentissage profond, ces modèles de mobilité ont fait leurs preuves avec une crédibilité prometteuse pour représenter les véhicules dans le monde réel. D'abord, un modèle de mobilité basé sur un réseau de neurones piloté par les données est proposé. Ce modèle provient de données de trajectoires du monde réel et permet de mimer des comportements de véhicules locaux. En analysant les performances de ce modèle de mobilité basé sur un apprentissage de base, nous indiquons qu’une amélioration est possible et proposons ses spécifications. Un MMC est alors introduit. La préparation de cette intégration est nécessaire, ce qui comprend un examen des modèles de mobilité traditionnels basés sur la dynamique et l’adaptation des modèles « classiques » à notre situation. Enfin, le modèle amélioré est présenté et une simulation de scénarios sophistiqués est construite pour valider les résultats théoriques. La performance de notre modèle de mobilité est prometteuse et des problèmes de mise en œuvre sont également discutés<br>The intelligent transportation systems gain great research interests in recent years. Although the realistic traffic simulation plays an important role, it has not received enough attention. This thesis is devoted to studying the traffic simulation in microscopic level, and proposes corresponding vehicular mobility models. Using deep learning methods, these mobility models have been proven with a promising credibility to represent the vehicles in real-world. Firstly, a data-driven neural network based mobility model is proposed. This model comes from real-world trajectory data and allows mimicking local vehicle behaviors. By analyzing the performance of this basic learning based mobility model, we indicate that an improvement is possible and we propose its specification. An HMM is then introduced. The preparation of this integration is necessary, which includes an examination of traditional dynamics based mobility models and the adaptation method of “classical” models to our situation. At last, the enhanced model is presented, and a sophisticated scenario simulation is built with it to validate the theoretical results. The performance of our mobility model is promising and implementation issues have also been discussed
APA, Harvard, Vancouver, ISO, and other styles
33

Morales, quinga Katherine Tania. "Generative Markov models for sequential bayesian classification." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAS019.

Full text
Abstract:
Cette thèse vise à modéliser des données séquentielles à travers l'utilisation de modèles probabilistes à variables latentes et paramétrés par des architectures de type réseaux de neurones profonds. Notre objectif est de développer des modèles dynamiques capables de capturer des dynamiques temporelles complexes inhérentes aux données séquentielles tout en étant applicables dans des domaines variés tels que la classification, la prédiction et la génération de données pour n'importe quel type de données séquentielles. Notre approche se concentre sur plusieurs problématiques liés à la modélisation de ce type de données, chacune étant détaillé dans un chapitre de ce manuscrit. Dans un premier temps, nous balayons les principes fondamentaux de l'apprentissage profond et de l'estimation bayésienne. Par la suite, nous nous focalisations sur la modélisation de données séquentielles par des modèles de Markov cachés qui constitueront le socle commun des modèles génératifs développés par la suite. Plus précisément, notre travail s'intéresse au problème de la classification (bayésienne) séquentielle de séries temporelles dans différents contextes : supervisé (les données observées sont étiquetées) ; semi-supervisé (les données sont partiellement étiquetées) ; et enfin non supervisés (aucune étiquette n'est disponible). Pour cela, la combinaison de réseaux de neurones profonds avec des modèles probabilistes markoviens vise à améliorer le pouvoir génératif des modélisations plus classiques mais pose de nombreux défis du point de vue de l'inférence bayésienne : estimation d'un grand nombre de paramètres, estimation de lois à postériori et interprétabilité de certaines variables cachées (les labels). En plus de proposer une solution pour chacun de ces problèmes, nous nous intéressons également à des approches novatrices pour relever des défis spécifiques en imagerie médicale posés par le Groupe Européen de Recherche sur les Prothèses Appliquées à la Chirurgie Vasculaire (GEPROMED)<br>This thesis explores and models sequential data by applying various probabilistic models with latent variables, complemented by deep neural networks. The motivation for this research is the development of dynamic models that adeptly capture the complex temporal dynamics inherent in sequential data. Designed to be versatile and adaptable, these models aim to be applicable across domains including classification, prediction, and data generation, and adaptable to diverse data types. The research focuses on several key areas, each detailedin its respective chapter. Initially, the fundamental principles of deep learning, and Bayesian estimation are introduced. Sequential data modeling is then explored, emphasizing the Markov chain models, which set the stage for thegenerative models discussed in subsequent chapters. In particular, the research delves into the sequential Bayesian classificationof data in supervised, semi-supervised, and unsupervised contexts. The integration of deep neural networks with well-established probabilistic models is a key strategic aspect of this research, leveraging the strengths of both approaches to address complex sequential data problems more effectively. This integration leverages the capabilities of deep neural networks to capture complex nonlinear relationships, significantly improving the applicability and performance of the models.In addition to our contributions, this thesis also proposes novel approaches to address specific challenges posed by the Groupe Européen de Recherche sur les Prothèses Appliquées à la Chirurgie Vasculaire (GEPROMED). These proposed solutions reflect the practical and possible impactful application of this research, demonstrating its potential contribution to the field of vascular surgery
APA, Harvard, Vancouver, ISO, and other styles
34

Rossi, Simone. "Improving Scalability and Inference in Probabilistic Deep Models." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS042.

Full text
Abstract:
Au cours de la dernière décennie, l'apprentissage profond a atteint un niveau de maturité suffisant pour devenir le choix privilégié pour résoudre les problèmes liés à l'apprentissage automatique ou pour aider les processus de prise de décision.En même temps, l'apprentissage profond n'a généralement pas la capacité de quantifier avec précision l'incertitude de ses prédictions, ce qui rend ces modèles moins adaptés aux applications critiques en matière de risque.Une solution possible pour résoudre ce problème est d'utiliser une formulation bayésienne ; cependant, bien que cette solution soit élégante, elle est analytiquement difficile à mettre en œuvre et nécessite des approximations. Malgré les énormes progrès réalisés au cours des dernières années, il reste encore beaucoup de chemin à parcourir pour rendre ces approches largement applicables. Dans cette thèse, nous adressons certains des défis de l'apprentissage profond bayésien moderne, en proposant et en étudiant des solutions pour améliorer la scalabilité et l'inférence de ces modèles.La première partie de la thèse est consacrée aux modèles profonds où l'inférence est effectuée en utilisant l'inférence variationnelle (VI).Plus précisément, nous étudions le rôle de l'initialisation des paramètres variationnels et nous montrons comment des stratégies d'initialisation prudentes peuvent permettre à l'inférence variationnelle de fournir de bonnes performances même dans des modèles à grande échelle.Dans cette partie de la thèse, nous étudions également l'effet de sur-régularisation de l'objectif variationnel sur les modèles sur-paramétrés.Pour résoudre ce problème, nous proposons une nouvelle paramétrisation basée sur la transformée de Walsh-Hadamard ; non seulement cela résout l'effet de sur-régularisation de l'objectif variationnel mais cela nous permet également de modéliser des postérités non factorisées tout en gardant la complexité temporelle et spatiale sous contrôle.La deuxième partie de la thèse est consacrée à une étude sur le rôle des prieurs.Bien qu'étant un élément essentiel de la règle de Bayes, il est généralement difficile de choisir de bonnes prieurs pour les modèles d'apprentissage profond.Pour cette raison, nous proposons deux stratégies différentes basées (i) sur l'interprétation fonctionnelle des réseaux de neurones et (ii) sur une procédure évolutive pour effectuer une sélection de modèle sur les hyper-paramètres antérieurs, semblable à la maximisation de la vraisemblance marginale.Pour conclure cette partie, nous analysons un autre type de modèle bayésien (processus Gaussien) et nous étudions l'effet de l'application d'un a priori sur tous les hyperparamètres de ces modèles, y compris les variables supplémentaires requises par les approximations du inducing points.Nous montrons également comment il est possible d'inférer des a posteriori de forme libre sur ces variables, qui, par convention, auraient été autrement estimées par point<br>Throughout the last decade, deep learning has reached a sufficient level of maturity to become the preferred choice to solve machine learning-related problems or to aid decision making processes.At the same time, deep learning is generally not equipped with the ability to accurately quantify the uncertainty of its predictions, thus making these models less suitable for risk-critical applications.A possible solution to address this problem is to employ a Bayesian formulation; however, while this offers an elegant treatment, it is analytically intractable and it requires approximations.Despite the huge advancements in the last few years, there is still a long way to make these approaches widely applicable.In this thesis, we address some of the challenges for modern Bayesian deep learning, by proposing and studying solutions to improve scalability and inference of these models.The first part of the thesis is dedicated to deep models where inference is carried out using variational inference (VI).Specifically, we study the role of initialization of the variational parameters and we show how careful initialization strategies can make VI deliver good performance even in large scale models.In this part of the thesis we also study the over-regularization effect of the variational objective on over-parametrized models.To tackle this problem, we propose an novel parameterization based on the Walsh-Hadamard transform; not only this solves the over-regularization effect of VI but it also allows us to model non-factorized posteriors while keeping time and space complexity under control.The second part of the thesis is dedicated to a study on the role of priors.While being an essential building block of Bayes' rule, picking good priors for deep learning models is generally hard.For this reason, we propose two different strategies based (i) on the functional interpretation of neural networks and (ii) on a scalable procedure to perform model selection on the prior hyper-parameters, akin to maximization of the marginal likelihood.To conclude this part, we analyze a different kind of Bayesian model (Gaussian process) and we study the effect of placing a prior on all the hyper-parameters of these models, including the additional variables required by the inducing-point approximations.We also show how it is possible to infer free-form posteriors on these variables, which conventionally would have been otherwise point-estimated
APA, Harvard, Vancouver, ISO, and other styles
35

Pinton, Noel Jeffrey. "Reconstruction synergique TEP/TDM à l'aide de l'apprentissage profond." Electronic Thesis or Diss., Brest, 2024. http://www.theses.fr/2024BRES0123.

Full text
Abstract:
L’adoption généralisée des scanners hybrides Tomographie à émission de positons (TEP)/Tomodensitométrie (TDM) a conduit à une augmentation significative de la disponibilité des données d’imagerie combinées TEP/TDM. Cependant, les méthodologies actuelles traitent souvent chaque modalité de manière indépendante, négligeant ainsi le potentiel d’amélioration de la qualité des images grâce à l’exploitation des informations anatomiques et fonctionnelles complémentaires propres à chaque modalité. Exploiter ces informations intermodales pourrait améliorer les reconstructions TEP et TDM en fournissant une vision synergique des détails anatomiques et fonctionnels. Cette thèse propose une méthode innovante de reconstruction synergique d’images médicales via des modèles génératifs multibranches. En exploitant des autoencodeurs variationnels (VAE) multi-branches, notre approche apprend conjointement des images TEP et TDM, assurant un débruitage efficace et une reconstruction haute-fidélité. Ce cadre améliore la qualité des images et ouvre de nouvelles perspectives pour l’imagerie médicale multimodale en contexte clinique et de recherche<br>The widespread adoption of hybrid Positron emission tomography (PET)/Computed tomography (CT) scanners has led to a significant increase in the availability of combined PET/CT imaging data. However, current methodologies often process each modality independently, overlooking the potential to enhance image quality by leveraging the complementary anatomical and functional information intrinsic to each modality. Exploiting intermodal information has the potential to improve both PET and CT reconstructions by providing a synergistic view of anatomical and functional details. This thesis introduces a novel approach for synergistic reconstruction of medical images using multi-branch generative models. By employing variational autoencoders (VAEs) with a multi-branch architecture, our model simultaneously learns from paired PET and CT images,allowing for effective joint denoising and highfidelity reconstruction of both modalities. Beyond improving image quality, this framework also paves the way for future advancements in multi-modal medical imaging, highlighting the transformative potential of integrated approaches for hybrid imaging modalities in clinical and research settings
APA, Harvard, Vancouver, ISO, and other styles
36

Tomashenko, Natalia. "Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems." Thesis, Le Mans, 2017. http://www.theses.fr/2017LEMA1040/document.

Full text
Abstract:
Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire<br>Differences between training and testing conditions may significantly degrade recognition accuracy in automatic speech recognition (ASR) systems. Adaptation is an efficient way to reduce the mismatch between models and data from a particular speaker or channel. There are two dominant types of acoustic models (AMs) used in ASR: Gaussian mixture models (GMMs) and deep neural networks (DNNs). The GMM hidden Markov model (GMM-HMM) approach has been one of the most common technique in ASR systems for many decades. Speaker adaptation is very effective for these AMs and various adaptation techniques have been developed for them. On the other hand, DNN-HMM AMs have recently achieved big advances and outperformed GMM-HMM models for various ASR tasks. However, speaker adaptation is still very challenging for these AMs. Many adaptation algorithms that work well for GMMs systems cannot be easily applied to DNNs because of the different nature of these models. The main purpose of this thesis is to develop a method for efficient transfer of adaptation algorithms from the GMM framework to DNN models. A novel approach for speaker adaptation of DNN AMs is proposed and investigated. The idea of this approach is based on using so-called GMM-derived features as input to a DNN. The proposed technique provides a general framework for transferring adaptation algorithms, developed for GMMs, to DNN adaptation. It is explored for various state-of-the-art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them
APA, Harvard, Vancouver, ISO, and other styles
37

Chali, Samy. "Robustness Analysis of Classifiers Against Out-of-Distribution and Adversarial Inputs." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPAST012.

Full text
Abstract:
De nombreux problèmes traités par l'IA sont des problèmes de classification de données d'entrées complexes qui doivent être séparées en différentes classes. Les fonctions transformant l'espace complexe des valeurs d'entrées en un espace plus simple, linéairement séparable, se font soit par apprentissage (réseaux convolutionels profonds), soit par projection dans un espace de haute dimension afin d'obtenir une représentation non-linéaire 'riche' des entrées puis un appariement linaire entre l'espace de haute dimension et les unités de sortie, tels qu'utilisés dans les Support Vector Machines (travaux de Vapnik 1966-1995). L'objectif de la thèse est de réaliser une architecture optimisée, générique dans un domaine d'application donné, permettant de pré-traiter des données afin de les préparer pour une classification en un minimum d'opérations. En outre, cette architecture aura pour but d'augmenter l'autonomie du modèle en lui permettant par exemple d'apprendre en continu, d'être robuste aux données corrompues ou d'identifier des données que le modèle ne pourrait pas traiter<br>Many issues addressed by AI involve the classification of complex input data that needs to be separated into different classes. The functions that transform the complex input values into a simpler, linearly separable space are achieved either through learning (deep convolutional networks) or by projecting into a high-dimensional space to obtain a 'rich' non-linear representation of the inputs, followed by a linear mapping between the high-dimensional space and the output units, as used in Support Vector Machines (Vapnik's work 1966-1995). The thesis aims to create an optimized, generic architecture capable of preprocessing data to prepare them for classification with minimal operations required. Additionally, this architecture aims to enhance the model's autonomy by enabling continuous learning, robustness to corrupted data, and the identification of data that the model cannot process
APA, Harvard, Vancouver, ISO, and other styles
38

Hassanaly, Ravi. "Pseudo-healthy image reconstruction with deep generative models for the detection of dementia-related anomalies." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS118.

Full text
Abstract:
La neuroimagerie est devenue un outil essentiel dans l'étude des marqueurs de la maladie d'Alzheimer. Cependant, l'analyse de ces images complexes provenant de différentes modalités d'imagerie cérébrale reste un défi majeur pour les cliniciens. Pour surmonter cette difficulté, les méthodes de deep learning ont émergé comme une solution prometteuse pour l'analyse automatique et robuste des données de neuroimagerie. Dans cette thèse, nous explorons l'utilisation de modèles génératifs profonds pour la détection d'anomalies associées à la démence dans les données de tomographie par émission de positons au 18F-fluorodésoxyglucose (TEP au FDG). Notre méthode repose sur le principe de la reconstruction pseudo-saine, où nous entraînons un modèle génératif à reconstruire des images saines à partir de données pathologiques. Cette approche présente l'avantage de ne pas nécessiter de données annotées, qui sont longues et couteuses à acquérir, ainsi que d'être généralisable à différents types d'anomalies. Nous avons choisi d'implémenter un autoencodeur variationnel (VAE), un modèle simple mais qui a fait ses preuves dans le domaine du deep learning. Cependant, analyser la performance de nos modèles génératifs sans disposer de données labellisées ou de cartes d'anomalies mène à une évaluation incomplète. Pour résoudre ce problème, nous avons mis en place un cadre d'évaluation basé sur la simulation d'hypométabolisme dans les images de TEP au FDG. Ainsi, en créant des paires d'images saines et pathologiques, nous sommes en mesure d'évaluer la capacité du modèle à reconstruire des images pseudo-saines. De plus, cette méthodologie nous a permis de définir de nouvelles métriques pour évaluer la qualité des reconstructions générées par les modèles génératifs. Le cadre d'évaluation a rendu possible une étude comparative sur une vingtaine de variantes du VAE dans le contexte de la reconstruction pseudo-saine de TEP au FDG. Cela nous a permis d'identifier les modèles les plus performants pour la détection des anomalies liées à la démence. Enfin, plusieurs contributions significatives ont été apportées à des logiciels open-source. Un pipeline de traitement d'images TEP a été intégré au logiciel Clinica. De plus, cette thèse a donné lieu à de nombreux apports au logiciel ClinicaDL, avec notamment l'amélioration de sa structure, l'ajout de nouvelles fonctionnalités, la maintenance du logiciel, ou encore la participation à la gestion du projet<br>Neuroimaging has become an essential tool in the study of markers of Alzheimer's disease. However, analyzing complex multimodal brain images remains a major challenge for clinicians. To overcome this difficulty, deep learning methods have emerged as a promising solution for the automatic and robust analysis of neuroimaging data. In this thesis, we explore the use of deep generative models for the detection of anomalies associated with dementia in 18F-fluorodesoxyglucose positron emission tomography (FDG PET) data. Our method is based on the principle of pseudo-healthy reconstruction, where we train a generative model to reconstruct healthy images from pathological data. This approach has the advantage of not requiring annotated data, which are time-consuming and costly to acquire, as well as being generalizable to different types of anomalies. We chose to implement a variational autoencoder (VAE), a simple model, but that proved its worth in the field of deep learning. However, assessing the performance of our generative models without labeled data or ground truth anomaly maps leads to an incomplete evaluation. To solve this issue, we have introduced an evaluation framework based on the simulation of hypometabolism on FDG PET images. Thus, by creating pairs of healthy and diseased images, we are able to assess the model's ability to reconstruct pseudo-healthy images. In addition, this methodology has enabled us to define new metrics for assessing the quality of reconstructions obtained from generative models. The evaluation framework allowed us to carry out a comparative study on twenty VAE variants in the context of FDG PET pseudo-healthy reconstruction. The proposed benchmark enabled us to identify the best-performing models for detecting dementia-related anomalies. Finally, several significant contributions have been made to open-source software. A PET image processing pipeline has been integrated into the Clinica software. In addition, this thesis gave rise to numerous contributions to the development of the ClinicaDL software, including its improvement, the addition of new functionalities, software maintenance and participation in project management
APA, Harvard, Vancouver, ISO, and other styles
39

Helwe, Chadi. "Evaluating and Improving the Reasoning Abilities of Language Models." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT021.

Full text
Abstract:
Cette thèse examine les capacités de raisonnement des Petits Modèles de Langage (SLMs) et Grands Modèles de Langage (LLMs) et expose leurs limites. Elle présente LogiTorch, une bibliothèque Python facilitant l’entraînement de modèles sur diverses tâches de raisonnement. La thèse inclut également TINA, une technique d’augmentation de données qui renforce la robustesse des SLMs face à la négation dans les tâches d’implication textuelle. De plus, la thèse explore les capacités des LLMs avec MAFALDA, un nouveau benchmark pour la classification des sophismes, intégrant une métrique d’évaluation quiconsidère la subjectivité. Les résultats montrent que les humains surpassent les modèles dans cette tâche de raisonnement. Nous proposons plusieurs directions de recherche qui méritent une investigation plus approfondie, telles que l’exploration de l’IA Neurosymbolique et l’amélioration des capacités de raisonnement des LLMs à faibles ressources<br>This thesis focuses on evaluating and improving the reasoning abilities of Smaller Language Models (SLMs) and Large Language Models (LLMs). It explores SLMs’ performance on complex tasks and their limitations with simpler ones. This thesis introduces LogiTorch, a Python library that facilitates the training of models on various reasoning tasks with minimal coding.It also presents TINA, a negated data augmentation technique that improves SLMs’ robustness to Negation in textual entailment tasks. Further, this thesis explores LLMs’ capabilities through MAFALDA, a new benchmark for identifying and classifying reasoning fallacies, proposing a new annotation scheme and evaluation metric that considers subjectivity in reasoning. The findings indicate that humans outperform SLMs and LLMs in this reasoning task. We propose several research directions that merit further investigation, such as investigating Neuro-symbolic AI and improving the reasoning abilities of low-resource LLMs
APA, Harvard, Vancouver, ISO, and other styles
40

Deschemps, Antonin. "Apprentissage machine et réseaux de convolutions pour une expertise augmentée en dosimétrie biologique." Electronic Thesis or Diss., Université de Rennes (2023-....), 2023. http://www.theses.fr/2023URENS104.

Full text
Abstract:
La dosimétrie biologique est la branche de la physique de la santé qui se préoccupe de l’estimation de doses de rayonnement ionisants à partir de biomarqueurs. Dans le procédé standard défini par l’AIEA, la dose est calculée en estimant la fréquence d’apparition de chromosomes dicentriques lors de la métaphase des lymphocytes périphériques. La variabilité morphologique des chromosomes, ainsi que celle des conditions d’acquisition des images rend ce problème de détection d’objets complexe. De plus, l’estimation fiable de cette fréquence nécessite le traitement d’un grand nombre d’image. Étant donné les limites du comptage humain (faible nombre de personnes qualifiées, charge cognitive), l’automatisation est une nécessité dans le contexte d’exposition de masse. Dans ce contexte, l’objectif de cette thèse est de tirer parti des progrès récents en vision par ordinateur (et plus spécifiquement en détection d’objets) apportés par l’apprentissage profond. La contribution principale de ce travail est une preuve de concept pour un modèle de détection de chromosomes dicentriques. Ce système repose sur l’agrégation de modèles pour parvenir à un haut niveau de performance, ainsi qu’a une bonne quantification de son incertitude, une exigence essentielle dans un contexte médical<br>Biological dosimetry is the branch of health physics dealing with the estimation of ionizing radiation doses from biomarkers. The current gold standard (defined by the IAEA) relies on estimating how frequently dicentric chromosomes appear in peripheral blood lymphocytes. Variations in acquisition conditions and chromosome morphology makes this a challenging object detection problem. Furthermore, the need for an accurate estimation of the average number of dicentric per cell means that a large number of image has to be processed. Human counting is intrinsically limited, as cognitive load is high and the number of specialist insufficient in the context of a large-scale exposition. The main goal of this PhD is to use recent developments in computer vision brought by deep learning, especially for object detection. The main contribution of this thesis is a proof of concept for a dicentric chromosome detection model. This model agregates several Unet models to reach a high level of performance and quantify its prediction uncertainty, which is a stringent requirement in a medical setting
APA, Harvard, Vancouver, ISO, and other styles
41

Blampey, Quentin. "Deep learning and computational methods on single-cell and spatial data for precision medicine in oncology." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASL116.

Full text
Abstract:
La médecine de précision en oncologie a pour but de personnaliser les traitements en fonction des profils génétiques et moléculaires uniques des tumeurs des patients, et ce afin d'améliorer l'efficacité thérapeutique ou de minimiser les effets secondaires. À mesure que les avancées technologiques produisent des données de plus en plus précises sur le microenvironnement tumoral (TME), la complexité de ces données augmente également. Notamment, les données spatiales — un type récent et prometteur de données omiques — fournissent des informations moléculaires à la résolution de la cellule tout en conservant le contexte spatial des cellules au sein des tissus. Pour exploiter pleinement cette richesse et cette complexité, l'apprentissage profond émerge comme une approche capable de dépasser les limitations des approches traditionnelles. Ce manuscript détaille le développement de nouvelles méthodes de deep learning et computationnelles ayant pour but d'améliorer l'analyse des systèmes complexes des données single-cell et spatial. Trois outils sont décrits: (i) Scyan, pour l'annotation de types cellulaires en cytométrie, (ii) Sopa, une pipeline générale de preprocessing de données spatiales, et (iii) Novae, un modèle de fondation pour données spatiales. Ces méthodes sont appliqués à plusieurs projets de médecine de précision, approfondissant notre compréhension de la biologie du cancer et facilitant la découverte de nouveaux biomarqueurs et l'identification de cibles potentiellement actionnables pour la médecine de précision<br>Precision medicine in oncology customizes treatments based on the unique genetic and molecular profiles of patients' tumors, which is crucial for enhancing therapeutic efficacy and minimizing adverse effects. As technological advancements yield increasingly precise data about the tumor microenvironment (TME), the complexity of this data also grows. Notably, spatial data — a recent and promising type of omics data — provides molecular information at the single-cell level while maintaining the spatial context of cells within tissues. To fully exploit this rich and complex data, deep learning is emerging as a powerful approach that overcomes multiple limitations of traditional approaches. This manuscript details the development of new deep learning and computational methods to enhance our analysis of intricate systems like single-cell and spatial data. Three tools are introduced: (i) Scyan, for cell type annotation in cytometry, (ii) Sopa, a general pipeline for spatial omics, and (iii) Novae, a foundation model for spatial omics. These methods are applied to multiple precision medicine projects, exemplifying how they deepen our understanding of cancer biology, facilitating the discovery of new biomarkers and identifying potentially actionable targets for precision medicine
APA, Harvard, Vancouver, ISO, and other styles
42

Khandoga, Mykola. "Calibration of electron shower shapes, hadronic recoil reconstruction using deep learning algorithms and the measurement of W boson transverse momentum distribution with the ATLAS detector." Thesis, université Paris-Saclay, 2020. https://tel.archives-ouvertes.fr/tel-03143181.

Full text
Abstract:
La première partie de la thèse contient une description de la méthode d'étalonnage du calorimètre électromagnétique, corrigeant les différences entre les données et la simulation pour ce qui concerne le développement des cascades électromagnétiques dans le calorimètre. La méthode améliore l'identification des électrons et réduit l'incertitude systématique associée. La majeure partie de la thèse est consacrée à la mesure précise du spectre en impulsion transverse (pT) du boson W à l'aide des données collectées par l'expérience ATLAS à des énergies dans le centre de masse de 5 et 13 TeV lors de deux prises de données spéciales, à faible taux d’empilement, en 2017 et en 2018. La motivation pour la mesure précise du spectre en impulsion transverse du boson W est double. Premièrement, elle sert de test pour les prédictions théoriques obtenues dans le cadre du Modèle Standard et permet de comparer les performances des générateurs Monte-Carlo (MC). La deuxième raison est que ce spectre est un ingrédient à la mesure de la masse du boson W, qui est un paramètre du Modèle Standard. L'utilisation de données à faible taux d'empilement permet de réduire significativement l'incertitude systématique due au recul hadronique et améliore de ce fait la précision sur la mesure du spectre. La thèse décrit la méthodologie de la mesure du spectre en pT du boson W ainsi que les étalonnages appliqués, les corrections et les incertitudes associées. Le résultat final est obtenu à partir du recul hadronique mesuré à l'aide d'une procédure de déconvolution des effets de détecteur et est comparé aux prédictions théoriques obtenues avec différents générateurs Monte-Carlo. Une méthode alternative pour la reconstruction du recul hadronique, avec l'utilisation de réseaux neuronaux profonds est proposée dans la thèse. Il y est montré que cette méthode améliore la résolution du recul hadronique mesuré d'environ 10% dans la région la plus pertinente, de faible pT. Les observables obtenus par cette approche améliorent la sensibilité à la masse du boson W<br>The initial part of the thesis contains the description of the method for electromagnetic calorimeter calibration, correcting for the Data-MC discrepancy in the development of the electromagnetic showers in the calorimeter. The method improves electron identification and reduces the associated systematic uncertainty.The major part of the thesis is dedicated to the precise measurement of the W boson transverse spectrum using the data, collected by the ATLAS experiment at the energies of 5 and 13 TeV during two special low pile-up runs in 2017 and 2018. The motivation for the precise measurement of the W boson transverse spectrum is twofold. First, it serves as a test for the theoretical predictions obtained within the Standard Model and allows to benchmark the performance of the Monte-Carlo (MC) generators. The second reason is because the W pT spectrum is an input component for the measurement of the W boson mass which is a Standard Model parameter. The use of low pile-up data allows to significantly reduce the hadronic recoil systematic uncertainty improving the precision of the spectrum measurement. The thesis describes the methodology of the W boson pT spectrum measurement as well as the imposed calibrations, corrections and the associated uncertainties. The final result is obtained from the measured hadronic recoil using an unfolding procedure and is compared to the theoretical predictions obtained with different Monte-Carlo generators. An alternative method for the hadronic recoil reconstruction with the use of deep neural networks is proposed in the thesis. The method is shown to improve the resolution of the measured hadronic recoil by about 10% in the most relevant region of low pT. The observables obtained using approach improve the sensitivity to the mass of the W boson
APA, Harvard, Vancouver, ISO, and other styles
43

Robert, Damien. "Efficient learning on large-scale 3D point clouds." Electronic Thesis or Diss., Université Gustave Eiffel, 2024. http://www.theses.fr/2024UEFL2003.

Full text
Abstract:
Au cours de la dernière décennie, l'apprentissage profond a été le moteur des progrès dans l'analyse automatisée de structures de données complexes aussi diverses que le texte, l'image, l'audio et la vidéo. En particulier, les modèles de type transformer et l'apprentissage auto-supervisé ont récemment déclenché une course généralisée visant à apprendre des représentations textuelles et visuelles expressives en entrainant le modèle au plus grand nombre de paramètres, sur le plus gros jeu de données possible, à l'aide des plus grandes ressources de calcul. Cette thèse emprunte un chemin différent en proposant des méthodes d'apprentissage profond économes en ressources, pour l'analyse de nuages de points 3D à grande échelle. L'efficacité des approches présentées se décline sous différentes formes : entrainement rapide, peu de paramètres, faible coût de calcul, économe en mémoire et exploitation de données disponibles de manière réaliste. Ce faisant, nous nous efforçons de concevoir des solutions pouvant être utilisées par les chercheurs et les praticiens avec des exigences matérielles minimales.Nous introduisons d'abord un modèle de segmentation sémantique 3D qui combine l'efficacité des méthodes basées superpoints avec l'expressivité des transformers. Nous construisons une représentation hiérarchique des données qui réduit considérablement la taille du problème d'analyse de nuage de points 3D, facilitant le traitement de scènes de grande échelle.Notre réseau se révèle égaler, voire surpasser, les approches de pointe sur une gamme de capteurs et d'environnements d'acquisition, tout en réduisant le nombre de paramètres et le temps d'entrainement de un à deux ordres de grandeur. Nous étendons ensuite ce cadre à la segmentation panoptique de nuages de points à grande échelle.Les méthodes existantes de segmentation d'instance et panoptique doivent résoudre un problème de correspondance complexe entre les instances prédites et réelles pour calculer leur fonction de coût. Au lieu de cela, nous formulons cette tâche comme un problème de clustering de graphe, qu'un petit réseau est entrainé pour résoudre à partir d'objectifs locaux uniquement, sans nécessiter le calcul d'instances durant l'entraînement. Notre modèle peut traiter des scènes de dix millions de points à la fois sur un seul GPU en quelques secondes, ouvrant la voie à la segmentation panoptique 3D à des échelles sans précédent. Enfin, nous proposons d'exploiter la complémentarité des modalités image et nuage de points pour améliorer l'analyse de scènes 3D. Nous nous plaçons dans un cadre d'acquisition réaliste, où plusieurs images arbitrairement positionnées observent la même scène, avec de potentielles occultations. Contrairement aux approches existantes de fusion 2D-3D, nous apprenons à sélectionner des informations à partir de différentes vues du même objet en fonction de leurs conditions d'observation respectives : distance caméra-objet, taux d'occultation, distorsion optique, etc. Notre implémentation efficace atteint l'état de l'art tant pour des scènes d'intérieur que d'extérieur, avec des exigences minimales : nuages de points bruts, images positionnées de manière arbitraire et les poses de leurs caméras. Dans l'ensemble, cette thèse soutient le principe que, dans des régimes où les données sont rares, exploiter la structure du problème permet de développer des architectures à la fois efficaces et performantes<br>For the past decade, deep learning has been driving progress in the automated understanding of complex data structures as diverse as text, image, audio, and video. In particular, transformer-based models and self-supervised learning have recently ignited a global competition to learn expressive textual and visual representations by training the largest possible model on Internet-scale datasets, with the help of massive computational resources. This thesis takes a different path, by proposing resource-efficient deep learning methods for the analysis of large-scale 3D point clouds.The efficiency of the introduced approaches comes in various flavors: fast training, few parameters, small compute or memory footprint, and leveraging realistically-available data.In doing so, we strive to devise solutions that can be used by researchers and practitioners with minimal hardware requirements.We first introduce a 3D semantic segmentation model which combines the efficiency of superpoint-based methods with the expressivity of transformers. We build a hierarchical data representation which drastically reduces the size of the 3D point cloud parsing problem, facilitating the processing of large point clouds en masse. Our self-attentive network proves to match or even surpass state-of-the-art approaches on a range of sensors and acquisition environments, while boasting orders of magnitude fewer parameters, faster training, and swift inference.We then build upon this framework to tackle panoptic segmentation of large-scale point clouds. Existing instance and panoptic segmentation methods need to solve a complex matching problem between predicted and ground truth instances for computing their supervision loss.Instead, we frame this task as a scalable graph clustering problem, which a small network is trained to address from local objectives only, without computing the actual object instances at train time. Our lightweight model can process ten-million-point scenes at once on a single GPU in a few seconds, opening the door to 3D panoptic segmentation at unprecedented scales. Finally, we propose to exploit the complementarity of image and point cloud modalities to enhance 3D scene understanding.We place ourselves in a realistic acquisition setting where multiple arbitrarily-located images observe the same scene, with potential occlusions.Unlike previous 2D-3D fusion approaches, we learn to select information from various views of the same object based on their respective observation conditions: camera-to-object distance, occlusion rate, optical distortion, etc. Our efficient implementation achieves state-of-the-art results both in indoor and outdoor settings, with minimal requirements: raw point clouds, arbitrarily-positioned images, and their cameras poses. Overall, this thesis upholds the principle that in data-scarce regimes,exploiting the structure of the problem unlocks both efficient and performant architectures
APA, Harvard, Vancouver, ISO, and other styles
44

Dib, Abdelkader. "Estimation of instantaneous pollutant emissions from road transportation through coupling mesoscopic traffic modeling and speed profile generation." Electronic Thesis or Diss., université Paris-Saclay, 2025. http://www.theses.fr/2025UPAST010.

Full text
Abstract:
La pollution de l'air urbain, principalement causée par les émissions des véhicules, reste un problème crucial pour les grandes villes européennes qui s'efforcent de respecter les normes de qualité de l'air ambiant de l'Union européenne. Bien que des politiques environnementales plus strictes soient essentielles, leur mise en œuvre entraîne souvent des coûts économiques et sociaux importants. Par conséquent, des modèles et des simulations fiables sont indispensables pour évaluer l'efficacité de ces stratégies, garantissant qu'elles atteignent les réductions souhaitées des concentrations de polluants sans imposer de charges excessives à la société.Les approches traditionnelles pour estimer les émissions de polluants liés au trafic routier dans des scénarios prospectifs reposent sur des modèles de trafic et d'émissions à différentes échelles, chacun ayant des limites spécifiques en contexte urbain. Les modèles macroscopiques utilisent une approche agrégée qui manque de granularité pour capturer les pics d'émissions au sein du réseau. Les modèles microscopiques, bien qu'ils fournissent des analyses détaillées, sont limités par des exigences de données importantes et une complexité de calcul élevée.Cette thèse présente deux nouvelles méthodologies qui améliorent la modélisation des émissions à grande échelle grâce à l'intégration de l'apprentissage profond dans le flux de travail. La première méthodologie, SPG-M, comble le fossé entre les modèles de trafic mésoscopiques et les modèles d'émissions microscopiques, une combinaison auparavant jugée irréalisable en raison des problèmes de compatibilité des données. L'innovation clé réside dans un générateur de profils de vitesse basé sur l'apprentissage profond, entrainé sur des données de conduite réelles, qui transforme les résultats des modèles de trafic mésoscopiques en profils de vitesse instantanés nécessaires au fonctionnement des modèles d'émissions microscopiques. Cette intégration permet d'estimer les émissions de manière très détaillée au niveau local en prenant en compte toutes les variations de vitesse sur un tronçon, tout en fournissant des estimations globales précises.La deuxième méthodologie combine un modèle de trafic mésoscopique avec un modèle d'émissions mésoscopique basé sur l'apprentissage profond. Ce modèle d'émissions est entrainé sur des données d'émissions synthétiques générées par un modèle d'émissions microscopique. Cette méthodologie offre une précision comparable au SPG-M tout en améliorant considérablement l'efficacité du calcul.Les deux méthodologies ont été appliquées avec succès dans la région Île-de-France, qui compte plus de 12 millions d'habitants, pour prédire les émissions de CO2 et de NOx, démontrant leur capacité de mise à l'échelle et leur aptitude à maintenir une grande granularité dans les grandes zones urbaines. Le processus de validation a consisté à évaluer chaque composant des méthodologies proposées séparément. Enfin, les émissions ont été comparées aux modèles d'émissions macroscopiques bien établis, à savoir HBEFA et COPERT, ainsi qu'aux campagnes de mesure des émissions. Les résultats montrent que, bien que les émissions globales de CO2 soient comparables entre tous les modèles, les émissions de NOx sont sous-estimées par les modèles macroscopiques. Des écarts sont également observés au niveau local, les modèles macroscopiques ne parvenant pas à capturer les zones de fortes et faibles accélérations, responsables respectivement des zones de fortes et faibles émissions<br>Urban air pollution, predominantly caused by vehicular emissions, remains a critical issue for major European cities striving to meet European Union ambient air quality standards. While stricter environmental policies are essential, implementing them often incurs substantial economic and social costs. Therefore, reliable models and simulations are essential to evaluate the effectiveness of these strategies, ensuring they achieve the desired reductions in pollutant concentrations without imposing undue burdens on society.Traditional approaches to estimating road traffic pollutant emissions for prospective scenarios rely on traffic and emission models at various scales, each with distinct limitations in urban contexts. Macroscopic models employ an aggregated approach that lacks the granularity needed to capture emission peaks within the network. Microscopic models, while providing detailed analyses, are constrained by extensive data requirements and high computational complexity.This thesis presents two novel methodologies that enhance large-scale emission modeling by integrating deep learning into the workflow. The first methodology, SPG-M, bridges the gap between mesoscopic traffic models and microscopic emission models, a combination previously considered unfeasible due to data compatibility issues. The key innovation is a deep learning-based speed profile generator, trained on real-world driving data, which transforms mesoscopic traffic model outputs into the instantaneous speed profiles required by microscopic emission models. This integration enables highly detailed emission estimations at the local level by accounting for all speed variations within a link while providing accurate global estimates.The second methodology combines a mesoscopic traffic model with a deep learning-based mesoscopic emission model. The emission model is trained on synthetic emission data generated by a microscopic emission model. This methodology offers accuracy comparable to SPG-M while significantly improving computational efficiency.Both methodologies were successfully applied in the Île-de-France region, home to over 12 million inhabitants, to predict CO2 and NOx emissions, demonstrating their scalability and capacity to maintain high granularity in large urban areas. The validation process involved evaluating each component of the proposed methodologies separately. Finally, emissions were compared to well-established macroscopic emission models, namely HBEFA and COPERT, as well as to data from emission measurement campaigns. Results indicate that while global CO2 emissions are at comparable levels across all models, macroscopic models underestimate NOx emissions. Discrepancies are also observed at local levels, as macroscopic models fail to capture high- and low-acceleration zones, which are responsible for high- and low-emission zones, respectively
APA, Harvard, Vancouver, ISO, and other styles
45

Torregrosa, jordan Sergio. "Approches Hybrides et Méthodes d'Intelligence Artificielle Basées sur la Simulation Numérique pour l'Optimisation des Systèmes Aérodynamiques Complexes." Electronic Thesis or Diss., Paris, HESAM, 2024. http://www.theses.fr/2024HESAE002.

Full text
Abstract:
La conception industrielle d'un composant est un processus complexe, long et coûteux, contraint par des spécifications physiques, stylistiques et de développement précises en fonction de ses conditions et de son environnement d'utilisation futurs. En effet, un composant industriel est défini et caractérisé par de nombreux paramètres qui doivent être optimisés pour satisfaire au mieux toutes ces spécifications. Cependant, la complexité de ce problème d'optimisation multiparamétrique sous contraintes est telle que sa résolution analytique est compromise.Dans le passé, un tel problème était résolu expérimentalement par essais et erreurs, entraînant des processus de conception coûteux et chronophages. Depuis le milieu du 20e siècle, avec l'accès généralisé à des moyens de calcul de plus en plus puissants, les ``jumeaux virtuels'' ou simulations numériques basées sur la physique, sont devenus un outil essentiel pour la recherche, réduisant le besoin de mesures expérimentales. À la fin du XXe siècle, le volume de données augmente et se répands massivement dans la plupart des domaines. Ceci conduit à la prolifération des techniques d'Intelligence Artificielle (IA), ou ``jumeaux numériques'', remplaçant partiellement les ``jumeaux virtuels'' grâce à leur plus faible technicité. Aujourd'hui, ces évolutions ont abouti à un cadre où la théorie, l'expérimentation, la simulation et les données peuvent interagir en synergie et se renforcer mutuellement.Dans ce contexte, Stellantis vise à explorer comment l'IA peut améliorer le processus de conception d'un système complexe. A cette fin, l'objectif principal de cette thèse est de développer un modèle de substitution paramétrique de la géométrie d'un aérateur innovant. Le modèle renvoit la norme du champ de vitesse au niveau du visage du pilote afin d'explorer l'espace des géométries possibles tout en évaluant leurs performances en temps réel. Le développement d'un tel modèle basé sur des données pose plusieurs problèmes conceptuels qui peuvent être résolus par l'IA.L'utilisation de techniques de régression classiques peut conduire à des résultats non physiques dans certains domaines tels que la dynamique des fluides. Ainsi, le modèle de substitution paramétrique proposé est basé sur la théorie du Transport Optimal (OT) qui offre une approche mathématique pour mesurer des distances et interpoler d'une manière novatrice.Le succès d'un modèle basé sur des données dépend de la qualité des données d'entraînement. D'une part, les données expérimentales sont considérées comme les plus réalistes, mais elles sont extrêmement coûteuses et laborieuses. D'autre part, les simulations numériques sont plus accessibles et rapides, mais présentent un écart important par rapport à la réalité. Ainsi, une approche Jumeau Hybride est proposée, basée sur la théorie du OT, afin de combler l'ignorance entre la simulation et la mesure.Le processus d'échantillonnage des données d'entraînement est devenu une charge de travail centrale dans le processus de développement d'un modèle basé sur des données. Une méthodologie d'Apprentissage Actif est donc proposée pour sélectionner de manière itérative et intelligente les points d'entraînement, baséee sur les objectifs industriels attendus du composant étudié, afin de minimiser le nombre d'échantillons nécessaires. Ainsi, cette stratégie d'échantillonnage maximise les performances du modèle tout en convergeant vers la solution optimale du problème industriel.L'exactitude d'un modèle basé sur des données est généralement l’objectif principal lors de son entraînement. Or, la réalité est complexe et imprévisible, ce qui fait que des paramètres d'entrée peuvent être connus avec un certain degré d'incertitude. Par conséquent, une méthodologie de quantification des incertitudes, basée sur les estimateurs de Monte Carlo et l'OT, est proposée pour prendre en compte la propagation des incertitudes dans le modèle et pour quantifier leur impact sur sa précision<br>The industrial design of a component is a complex, time-consuming and costly process constrained to precise physical, styling and development specifications led by its future conditions and environment of use. Indeed, an industrial component is defined and characterized by many parameters which must be optimized to best satisfy all those specifications. However, the complexity of this multi-parametric constrained optimization problem is such that its analytical resolution is compromised.In the recent past, such a problem was solved experimentally, by trial and error, leading to expensive and time-consuming design processes. Since the mid-20th century, with the advancement and widespread access to increasingly powerful computing technologies, the ``virtual twins'', or physics-based numerical simulations, became an essential tool for research and development, significantly diminishing the need for experimental measurements. However, despite the computing power available today, ``virtual twins'' are still limited by the complexity of the problem solved and present some significant deviations from reality due to the ignorance of certain subjacent physics. In the late 20th century, the volume of data has surge enormously, massively spreading in the majority of fields and leading to a wide proliferation of Artificial Intelligence (AI) techniques, or ``digital twins'', partially substituting the ``virtual twins'' thanks to their lower intricacy. Nevertheless, they need an important training stage and can lead to some aversion since they operate as black boxes. Today, these technological evolutions have resulted in a framework where theory, experimentation, simulation and data can interact in synergy and reinforce each other.In this context, Stellantis aims to explore how AI can improve the design process of a complex aerodynamic system: an innovative cockpit air vent. To this purpose, the main goal of this thesis is to develop a parametric surrogate of the aerator geometry which outputs the norm of the velocity field at the pilot's face in order to explore the space of possible geometries while evaluating their performances in real time. The development of such a data-based metamodel entails several conceptual problems which can be addressed with AI.The use of classical regression techniques can lead to unphysical interpolation results in some domains such as fluid dynamics. Thus, the proposed parametric surrogate is based on Optimal Transport (OT) theory which offers a mathematical approach to measure distances and interpolate between general objects in a novel way.The success of a data-driven model relies on the quality of the training data. On the one hand, experimental data is considered as the most realistic but is extremely costly and time-consuming. On the other hand, numerical simulations are cheaper and faster but present a significant deviation from reality. Therefore, a Hybrid Twin approach is proposed based on Optimal Transport theory in order to bridge the ignorance gap between simulation and measurement.The sampling process of training data has become a central workload in the development process of a data-based model. Hence, an Active Learning methodology is proposed to iteratively and smartly select the training points, based on industrial objectives expected from the studied component, in order to minimize the number of needed samples. Thus, this sampling strategy maximizes the performance of the model while converging to the optimal solution of the industrial problem.The accuracy of a data-based model is usually the main concern of its training process. However, reality is complex and unpredictable leading to input parameters known with a certain degree of uncertainty. Therefore, a data-based Uncertainty Quantifcation methodology, based on Monte Carlo estimators and OT, is proposed to take into account the uncertainties propagation into the surrogate and to quantify their impact on its precision
APA, Harvard, Vancouver, ISO, and other styles
46

Zervakis, Georgios. "Enriching large language models with semantic lexicons and analogies." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0039.

Full text
Abstract:
Les progrès récents de l'apprentissage profond et des réseaux de neurones ont permis d'aborder des tâches complexes de traitement du langage naturel, qui sont appliquées à une pléthore de problèmes réels allant des assistants intelligents dans les appareils mobiles à la prédiction du cancer. Néanmoins, les systèmes modernes basés sur ces approches présentent plusieurs limitations qui peuvent compromettre leurs performances et leur fiabilité, les rendre injustes envers les minorités ou exposer des données personnelles. Nous sommes convaincus que l'intégration de connaissances et de raisonnement symboliques dans le cadre de l'apprentissage profond est une étape nécessaire vers la résolution de ces limitations. Par exemple, les ressources lexicales peuvent enrichir les réseaux de neurones profonds avec des connaissances sémantiques ou syntaxiques, et les règles logiques peuvent fournir des mécanismes d'apprentissage et de raisonnement. Par conséquent, l'objectif de cette thèse est de développer et d'évaluer des moyens d'intégrer différents types de connaissances et de raisonnement symboliques dans un modèle de langage largement utilisé, le Bidirectional Encoder R presentations from Transformers (BERT). Dans un premier temps, nous considérons le retrofitting, une technique simple et populaire pour raffiner les plongements lexicaux de mots grâce à des relations provenant d'un lexique sémantique. Nous présentons deux méthodes inspirées par cette technique pour incorporer ces connaissances dans des plongements contextuels de BERT. Nous évaluons ces méthodes sur trois jeux de données biomédicales pour l'extraction de relations et un jeu de données de critiques de films pour l'analyse des sentiments, et montrons qu'elles n'ont pas d'impact substantiel sur les performances pour ces tâches. En outre, nous effectuons une analyse qualitative afin de mieux comprendre ce résultat négatif. Dans un second temps, nous intégrons le raisonnement analogique à BERT afin d'améliorer ses performances sur la tâche de vérification du sens d'un mot, et de le rendre plus robuste. Pour cela, nous reformulons la vérification du sens d'un mot comme une tâche de détection d'analogie. Nous présentons un modèle hybride qui combine BERT pour encoder les données d'entrée en quadruplets et un classifieur neuronal convolutif pour décider s'ils constituent des analogies valides. Nous testons notre système sur un jeu de données de référence et montrons qu'il peut surpasser les approches existantes. Notre étude empirique montre l'importance de l'encodage d'entrée pour BERT, et comment cette dépendance est atténuée en intégrant les propriétés axiomatiques des analogies lors de l'apprentissage, tout en préservant les performances et en améliorant la robustesse<br>Recent advances in deep learning and neural networks have made it possible to address complex natural language processing tasks, which find application in a plethora of real-world problems ranging from smart assistants in mobile devices to the prediction of cancer. Nonetheless, modern systems based on these frameworks exhibit various limitations that may compromise their performance and trustworthiness, render them unfair towards minorities, or subject them to privacy leakage. It is our belief that integrating symbolic knowledge and reasoning into the deep learning framework is a necessary step towards addressing the aforementioned limitations. For example, lexical resources can enrich deep neural networks with semantic or syntactic knowledge, and logical rules can provide learning and reasoning mechanisms. Therefore, the scope of this thesis is to develop and evaluate ways of integrating different types of symbolic knowledge and reasoning into a widely used language model, Bidirectional Encoder Representations from Transformers (BERT). ln a first stage, we consider retrofitting, a simple and popular technique for refining distributional word embeddings based on relations coming from a semantic lexicon. Inspired by this technique, we present two methods for incorporating this knowledge into BERT contextualized embeddings. We evaluate these methods on three biomedical datasets for relation extraction and one movie review dataset for sentiment analysis, and show that they do not substantially impact the performance for these tasks. Furthermore, we conduct a qualitative analysis to provide further insights on this negative result. ln a second stage, we integrate analogical reasoning with BERT as a means to improve its performance on the target sense verification task, and make it more robust. To do so, we reformulate target sense verification as an analogy detection task. We present a hybrid model that combines BERT to encode the input data into quadruples and a convolutional neural classifier to decide whether they constitute valid analogies. We test our system on a benchmark dataset, and show that it can outperform existing approaches. Our empirical study shows the importance of the input encoding for BERT, and how this dependence gets alleviated by integrating the axiomatic properties of analogies during training, while preserving performance and improving robustness
APA, Harvard, Vancouver, ISO, and other styles
47

Meyer, Lucas. "Deep Learning en Ligne pour la Simulation Numérique à Grande Échelle." Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALM001.

Full text
Abstract:
Nombreuses applications d’ingénieries et recherches scientifiques nécessitent la simulation fidèle de phénomènes complexes et dynamiques, transcrits mathématiquement en Équations aux Dérivées Partielles (EDP). Les solutions de ces EDP sont généralement approximées au moyen de solveurs qui effectuent des calculs intenses et génèrent des quantités importantes de données. Les applications requièrent rarement une unique simulation, mais plutôt un ensemble d’exécutions pour différents paramètres afin d’analyser la sensibilité du phénomène ou d’en trouver une configuration optimale. Ces larges ensembles de simulations sont limités par des temps de calcul importants et des capacités de stockage mémoire finies. La problématique du coût de calcul a jusqu’à présent encouragé le développement du calcul haute-performance (HPC) et de techniques de réductions de modèles. Récemment, le succès de l'apprentissage profond a poussé la communauté scientifique à considérer son usage pour accélérer ces ensembles de simulations. Cette thèse s'inscrit dans ce cadre en explorant tout d'abord deux techniques d’apprentissage pour la simulation numérique. La première propose d’utiliser une série de convolutions sur une hiérarchie de graphes pour reproduire le champ de vitesse d’un fluide tel que généré par le solveur à tout pas de temps de la simulation. La seconde hybride des algorithmes de régression avec des techniques classiques de réduction de modèles pour prédire les coefficients de toute nouvelle simulation dans une base réduite obtenue par analyse en composantes principales. Ces deux approches, comme la majorité de celles présentées dans la littérature, sont supervisées. Leur entraînement nécessite de générer a priori de nombreuses simulations. Elles souffrent donc du même problème qui a motivé leur développement : générer un jeu d’entraînement de simulations fidèles à grande échelle est laborieux. Nous proposons un cadre d’apprentissage générique pour l’entraînement de réseaux de neurones artificiels à partir de simulations générées à la volée tirant profit des ressources HPC. Les données sont produites en exécutant simultanément plusieurs instances d’un solveur pour différents paramètres. Le solveur peut lui-même être parallélisé sur plusieurs unités de calcul. Dès qu’un pas de temps est simulé, il est directement transmis pour effectuer l’apprentissage. Aucune donnée générée par le solveur n’est donc sauvegardée sur disque, évitant ainsi les coûteuses opérations d’écriture et de lecture et la nécessité de grands volumes de stockage. L’apprentissage se fait selon une distribution parallèle des données sur plusieurs GPUs. Comme il est désormais en ligne, cela crée un biais dans les données d’entraînement, comparativement à une situation classique où les données sont échantillonnées uniformément sur un ensemble de simulations disponibles a priori. Nous associons alors chaque GPU à une mémoire tampon en charge de mélanger les données produites. Ce formalisme a permis d’améliorer les capacités de généralisation de modèles issus de l’état de l’art, en les exposant à une diversité globale de données simulées plus riches qu’il n’aurait été faisable lors d’un entraînement classique. Des expériences montrent que l’implémentation de la mémoire tampon est cruciale pour garantir un entraînement de qualité à haut débit. Ce cadre d’apprentissage a permis d’entraîner un réseau à reproduire des simulations de diffusion thermique en moins de 2 heures sur 8TB de données générées et traitées in situ, améliorant ainsi les prédictions de 47% par rapport à un entraînement classique<br>Many engineering applications and scientific discoveries rely on faithful numerical simulations of complex phenomena. These phenomena are transcribed mathematically into Partial Differential Equation (PDE), whose solution is generally approximated by solvers that perform intensive computation and generate tremendous amounts of data. The applications rarely require only one simulation but rather a large ensemble of runs for different parameters to analyze the sensitivity of the phenomenon or to find an optimal configuration. Those large ensemble runs are limited by computation time and finite memory capacity. The high computational cost has led to the development of high-performance computing (HPC) and surrogate models. Recently, pushed by the success of deep learning in computer vision and natural language processing, the scientific community has considered its use to accelerate numerical simulations. The present thesis follows this approach by first presenting two techniques using machine learning for surrogate models. First, we propose to use a series of convolutions on hierarchical graphs to reproduce the velocity of fluids as generated by solvers at any time of the simulation. Second, we hybridize regression algorithms with classical reduced-order modeling techniques to identify the coefficients of any new simulation in a reduced basis computed by proper orthogonal decomposition. These two approaches, as the majority found in the literature, are supervised. Their training needs to generate a large number of simulations. Thus, they suffer the same problem that motivated their development in the first instance: generating many faithful simulations at scale is laborious. We propose a generic training framework for artificial neural networks that generate data simulations on-the-fly by leveraging HPC resources. Data are produced by running simultaneously several instances of the solver for different parameters. The solver itself can be parallelized over several processing units. As soon as a time step is computed by any simulation, it is streamed for training. No data is ever written on disk, thus overcoming slow input-output operations and alleviating the memory footprint. Training is performed by several GPUs with distributed data-parallelism. Because the training is now online, it induces a bias in the data compared to classical training, for which they are sampled uniformly from an ensemble of simulations available a priori. To mitigate this bias, each GPU is associated with a memory buffer in charge of mixing the incoming simulation data. This framework has improved the generalization capabilities of state-of-the-art architectures by exposing them during training to a richer diversity of data than would have been feasible with classical training. Experiments show the importance of the memory buffer implementation in guaranteeing generalization capabilities and high throughput training. The framework has been used to train a deep surrogate for heat diffusion simulation in less than 2 hours on 8TB of data processed in situ, thus increasing the prediction accuracy by 47% compared to a classical setting
APA, Harvard, Vancouver, ISO, and other styles
48

Linhart, Julia. "Simulation-based inference with deep learning : application to neuroscience time series data." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG091.

Full text
Abstract:
Les simulateurs jouent un rôle central dans la science expérimentale, facilitant l'exploration de systèmes complexes avec des événements rares et difficilement mesurables, que ce soit en physique des particules, en climatologie, en astrophysique, en cosmologie ou en neurosciences. L'objectif est d'inverser ces modèles computationnels et de déterminer les paramètres qui décrivent au mieux les observations expérimentales, afin d'enrichir notre compréhension du monde réel. Cependant, au vu de la complexité des processus génératifs modélisés, la vraisemblance de ces simulateurs est souvent difficilement calculable et les méthodes d'inférence bayésienne classiques, telles que le MCMC, généralement inapplicables. L'inférence à base de simulations (SBI) constitue une alternative prometteuse, où la vraisemblance est implicitement remplacée par l'action du simulateur. Grâce aux avancées en apprentissage profond, de nouveaux algorithmes sont maintenant capables de traiter des données en haute dimension et d'approximer des distributions postérieures arbitrairement complexes sur les paramètres du simulateur. Le SBI a désormais le potentiel de révolutionner la science expérimentale. Cette thèse se concentre sur des méthodes de SBI basées sur des modèles génératifs profonds puissants, connus sous le nom de "normalizing flows" et de "modèles de diffusion". Plus précisément, en utilisant le Jansen and Rit Neural Mass Model (JRNMM) comme un exemple récurrent en neurosciences computationnelles, le but est d'investiguer leur performance en termes de précision, d'efficacité et de fiabilité. Une première analyse expérimentale avec des résultats sur des signaux cérébraux réels, motive l'intégralité des contributions méthodologiques de ce projet doctoral. En particulier, nous proposons une nouvelle méthode de validation, avec des garanties théoriques, ainsi que des diagnostiques facilement interprétables, pour une évaluation fiable d'estimateurs de densité conditionnelle. De plus, nous introduisons un algorithme d'inférence innovant, qui exploite l'accès à plusieurs observations afin d'obtenir des estimations de paramètres plus précises. Il s'agit d'un algorithme d'échantillonnage basé sur la diffusion avec des avantages remarquables par rapport à celles basées sur les “normalizing flows”, notamment en termes de flexibilité et de coût de simulation. Suite à une démonstration empirique de l'amélioration de nos propositions par rapport aux méthodes existantes, les illustrations numériques sur le JRNMM nous permettent de souligner leurs avantages pour optimiser le processus expérimental dans des scénarios réels complexes. En effet, les résultats obtenus avec notre nouvelle méthode d'inférence révèlent l'incertitude irréductible due à la dégénérescence de paramètres couplés, un phénomène caractéristique des dynamiques neuronales. Nos diagnostiques permettent de valider la qualité de la distribution postérieure estimée et garantit ainsi sa fiabilité dans l'exploration de nouvelles techniques de modélisation pour résoudre ce problème de dégénérescence. En résumé, les contributions méthodologiques de cette thèse apportent des avancées significatives dans le domaine du SBI en proposant des diagnostics de validation pertinents et des méthodes d'inférence innovantes. Appuyé par diverses initiatives open-source, ce travail vise à établir le SBI et les modèles génératifs profonds comme des outils utiles et fiables pour la recherche scientifique, permettant par exemple une modélisation plus précise et réaliste du cerveau, afin d'expliquer des comportements neuronaux complexes<br>Expressive simulators are at the core of modern experimental science, enabling the exploration of rare and challenging-to-measure events in complex systems across various fields such as particle physics, climate science, astrophysics, cosmology and neuroscience. The goal is to deepen our understanding of the world that surrounds us, by inverting such carefully designed models of reality and finding the input parameters that best describe experimental observations. However, the complexity of the generative processes described by these simulators often results in intractable likelihoods, leaving classical Bayesian inference methods like MCMC inapplicable. Simulation-based inference (SBI) offers a promising alternative by leveraging simulations to bypass the need for explicit likelihood evaluations. Building on recent advances in deep learning, novel algorithms can now scale to high-dimensional data and approximate arbitrary complex posterior distribution over the model parameters, thus holding potential to revolutionize experimental science. This thesis investigates the use of deep generative models, in particular normalizing flows and diffusion models, to address SBI tasks in terms of accuracy, efficiency and reliability. To do so, the Jansen and Rit Neural Mass Model (JRNMM) serves as a recurring example from computational neuroscience. Initial experiments on real brain signals motivate all the theoretical contributions. Specifically, we introduce a new validation method that provides theoretically grounded and easy-to-interpret diagnostics for a reliable assessment of conditional density estimators. Additionally, a novel diffusion-based posterior sampling algorithm is proposed, which exploits multiple observations for more precise parameter estimations. It improves upon approaches based on normalizing flows, especially in terms of flexibility and simulation efficiency. We empirically demonstrate the increased performance of our proposals w.r.t. existing approaches. Numerical illustrations on the JRNMM further highlight their benefits in enhancing the experimental workflow for challenging real-world scenarios. Indeed, results obtained with our novel inference method reveal the irreducible uncertainty caused by the indeterminacy of coupled parameters, which are typical for neural dynamics. Our diagnostics allow us to confirm the quality of the inferred posterior, ensuring its reliable use in exploring new modeling techniques to resolve this indeterminacy issue. In summary, the methodological contributions presented in this thesis advance the field of SBI through informative validation diagnostics and improved inference methods. Supported by various open-source initiatives, this work is part of a general effort to establish SBI and deep generative models as trustworthy and valuable tools in scientific research, for example, allowing neuroscientists to build better specified models and explain complex neural behavior
APA, Harvard, Vancouver, ISO, and other styles
49

Diallo, Boubacar. "Mesure de l'intégrité d'une image : des modèles physiques aux modèles d'apprentissage profond." Thesis, Poitiers, 2020. http://www.theses.fr/2020POIT2293.

Full text
Abstract:
Les images numériques sont devenues un outil de communication visuel puissant et efficace pour transmettre des messages, diffuser des idées et prouver des faits. L’apparition du smartphone avec une grande diversité de marques et de modèles facilite la création de nouveaux contenus visuels et leur diffusion dans les réseaux sociaux et les plateformes de partage d’images. Liés à ce phénomène de création et publication d'images et aidés par la disponibilité et la facilité d’utilisation des logiciels de manipulation d’images, de nombreux problèmes sont apparus allant de la diffusion de contenu illégal à la violation du droit d’auteur. La fiabilité des images numériques est remise en cause que ce soit pour de simples utilisateurs ou pour des professionnels experts tels que les tribunaux et les enquêteurs de police. Le phénomène des « fake news » est un exemple bien connu et répandu d’utilisation malveillante d’images numériques sur les réseaux.De nombreux chercheurs du domaine de la cybersécurité des images ont relevé les défis scientifiques liés aux manipulations des images. De nombreuses méthodes aux performances intéressantes ont été développées basées sur le traitement automatique des images et plus récemment l'adoption de l'apprentissage profond. Malgré la diversité des techniques proposées, certaines ne fonctionnent que pour certaines conditions spécifiques et restent vulnérables à des attaques malveillantes relativement simples. En effet, les images collectées sur Internet imposent de nombreuses contraintes aux algorithmes remettant en question de nombreuses techniques de vérification d’intégrité existantes. Il existe deux particularités principales à prendre en compte pour la détection d'une falsification : l’une est le manque d'informations sur l'acquisition de l'image d'origine, l'autre est la forte probabilité de transformations automatiques liées au partage de l'image telles que la compression avec pertes ou le redimensionnement.Dans cette thèse, nous sommes confrontés à plusieurs de ces défis liés à la cybersécurité des images notamment l’identification de modèles de caméra et la détection de falsification d’images. Après avoir passé en revue l'état de l'art du domaine, nous proposons une première méthode basée sur les données pour l’identification de modèles de caméra. Nous utilisons les techniques d’apprentissage profond basées sur les réseaux de neurones convolutifs (CNN) et développons une stratégie d’apprentissage prenant en compte la qualité des données d’entrée par rapport à la transformation appliquée. Une famille de réseaux CNN a été conçue pour apprendre les caractéristiques du modèle de caméra directement à partir d’une collection d’images subissant les mêmes transformations que celles couramment utilisées sur Internet. Notre intérêt s'est porté sur la compression avec pertes pour nos expérimentations, car c’est le type de post-traitement le plus utilisé sur Internet. L’approche proposée fournit donc une solution robuste face à la compression pour l’identification de modèles de caméra. Les performances obtenues par notre approche de détection de modèles de caméra sont également utilisées et adaptées pour la détection et la localisation de falsification d’images. Les performances obtenues soulignent la robustesse de nos propositions pour la classification de modèles de caméra et la détection de falsification d'images<br>Digital images have become a powerful and effective visual communication tool for delivering messages, diffusing ideas, and proving facts. The smartphone emergence with a wide variety of brands and models facilitates the creation of new visual content and its dissemination in social networks and image sharing platforms. Related to this phenomenon and helped by the availability and ease of use of image manipulation softwares, many issues have arisen ranging from the distribution of illegal content to copyright infringement. The reliability of digital images is questioned for common or expert users such as court or police investigators. A well known phenomenon and widespread examples are the "fake news" which oftenly include malicious use of digital images.Many researchers in the field of image forensic have taken up the scientific challenges associated with image manipulation. Many methods with interesting performances have been developed based on automatic image processing and more recently the adoption of deep learning. Despite the variety of techniques offered, performance are bound to specific conditions and remains vulnerable to relatively simple malicious attacks. Indeed, the images collected on the Internet impose many constraints on algorithms questioning many existing integrity verification techniques. There are two main peculiarities to be taken into account for the detection of a falsification: one is the lack of information on pristine image acquisition, the other is the high probability of automatic transformations linked to the image-sharing platforms such as lossy compression or resizing.In this thesis, we focus on several of these image forensic challenges including camera model identification and image tampering detection. After reviewing the state of the art in the field, we propose a first data-driven method for identifying camera models. We use deep learning techniques based on convolutional neural networks (CNNs) and develop a learning strategy considering the quality of the input data versus the applied transformation. A family of CNN networks has been designed to learn the characteristics of the camera model directly from a collection of images undergoing the same transformations as those commonly used on the Internet. Our interest focused on lossy compression for our experiments, because it is the most used type of post-processing on the Internet. The proposed approach, therefore, provides a robust solution to compression for camera model identification. The performance achieved by our camera model detection approach is also used and adapted for image tampering detection and localization. The performances obtained underline the robustness of our proposals for camera model identification and image forgery detection
APA, Harvard, Vancouver, ISO, and other styles
50

Cherti, Mehdi. "Deep generative neural networks for novelty generation : a foundational framework, metrics and experiments." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS029/document.

Full text
Abstract:
Des avancées significatives sur les réseaux de neurones profonds ont récemment permis le développement de technologies importantes comme les voitures autonomes et les assistants personnels intelligents basés sur la commande vocale. La plupart des succès en apprentissage profond concernent la prédiction, alors que les percées initiales viennent des modèles génératifs. Actuellement, même s'il existe des outils puissants dans la littérature des modèles génératifs basés sur les réseaux profonds, ces techniques sont essentiellement utilisées pour la prédiction ou pour générer des objets connus (i.e., des images de haute qualité qui appartiennent à des classes connues) : un objet généré qui est à priori inconnu est considéré comme une erreur (Salimans et al., 2016) ou comme un objet fallacieux (Bengio et al., 2013b). En d'autres termes, quand la prédiction est considérée comme le seul objectif possible, la nouveauté est vue comme une erreur - que les chercheurs ont essayé d'éliminer au maximum. Cette thèse défends le point de vue que, plutôt que d'éliminer ces nouveautés, on devrait les étudier et étudier le potentiel génératif des réseaux neuronaux pour créer de la nouveauté utile - particulièrement sachant l'importance économique et sociétale de la création d'objets nouveaux dans les sociétés contemporaines. Cette thèse a pour objectif d'étudier la génération de la nouveauté et sa relation avec les modèles de connaissance produits par les réseaux neurones profonds génératifs. Notre première contribution est la démonstration de l'importance des représentations et leur impact sur le type de nouveautés qui peuvent être générées : une conséquence clé est qu'un agent créatif a besoin de re-représenter les objets connus et utiliser cette représentation pour générer des objets nouveaux. Ensuite, on démontre que les fonctions objectives traditionnelles utilisées dans la théorie de l'apprentissage statistique, comme le maximum de vraisemblance, ne sont pas nécessairement les plus adaptées pour étudier la génération de nouveauté. On propose plusieurs alternatives à un niveau conceptuel. Un deuxième résultat clé est la confirmation que les modèles actuels - qui utilisent les fonctions objectives traditionnelles - peuvent en effet générer des objets inconnus. Cela montre que même si les fonctions objectives comme le maximum de vraisemblance s'efforcent à éliminer la nouveauté, les implémentations en pratique échouent à le faire. A travers une série d'expérimentations, on étudie le comportement de ces modèles ainsi que les objets qu'ils génèrent. En particulier, on propose une nouvelle tâche et des métriques pour la sélection de bons modèles génératifs pour la génération de la nouveauté. Finalement, la thèse conclue avec une série d'expérimentations qui clarifie les caractéristiques des modèles qui génèrent de la nouveauté. Les expériences montrent que la sparsité, le niveaux du niveau de corruption et la restriction de la capacité des modèles tuent la nouveauté et que les modèles qui arrivent à reconnaître des objets nouveaux arrivent généralement aussi à générer de la nouveauté<br>In recent years, significant advances made in deep neural networks enabled the creation of groundbreaking technologies such as self-driving cars and voice-enabled personal assistants. Almost all successes of deep neural networks are about prediction, whereas the initial breakthroughs came from generative models. Today, although we have very powerful deep generative modeling techniques, these techniques are essentially being used for prediction or for generating known objects (i.e., good quality images of known classes): any generated object that is a priori unknown is considered as a failure mode (Salimans et al., 2016) or as spurious (Bengio et al., 2013b). In other words, when prediction seems to be the only possible objective, novelty is seen as an error that researchers have been trying hard to eliminate. This thesis defends the point of view that, instead of trying to eliminate these novelties, we should study them and the generative potential of deep nets to create useful novelty, especially given the economic and societal importance of creating new objects in contemporary societies. The thesis sets out to study novelty generation in relationship with data-driven knowledge models produced by deep generative neural networks. Our first key contribution is the clarification of the importance of representations and their impact on the kind of novelties that can be generated: a key consequence is that a creative agent might need to rerepresent known objects to access various kinds of novelty. We then demonstrate that traditional objective functions of statistical learning theory, such as maximum likelihood, are not necessarily the best theoretical framework for studying novelty generation. We propose several other alternatives at the conceptual level. A second key result is the confirmation that current models, with traditional objective functions, can indeed generate unknown objects. This also shows that even though objectives like maximum likelihood are designed to eliminate novelty, practical implementations do generate novelty. Through a series of experiments, we study the behavior of these models and the novelty they generate. In particular, we propose a new task setup and metrics for selecting good generative models. Finally, the thesis concludes with a series of experiments clarifying the characteristics of models that can exhibit novelty. Experiments show that sparsity, noise level, and restricting the capacity of the net eliminates novelty and that models that are better at recognizing novelty are also good at generating novelty
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!