Zaloguj się

Gotowe bibliografie tematyczne / Intelligence artificielle – Apprentissage profond / Rozprawy doktorskie

Kliknij ten link, aby zobaczyć inne rodzaje publikacji na ten temat: Intelligence artificielle – Apprentissage profond.

Rozprawy doktorskie na temat „Intelligence artificielle – Apprentissage profond”

Autor: Grafiati

Data publikacji: 11 listopada 2022

Utwórz poprawne odniesienie w stylach APA, MLA, Chicago, Harvard i wielu innych

Wybierz rodzaj źródła:

Sprawdź 50 najlepszych rozpraw doktorskich naukowych na temat „Intelligence artificielle – Apprentissage profond”.

Przycisk „Dodaj do bibliografii” jest dostępny obok każdej pracy w bibliografii. Użyj go – a my automatycznie utworzymy odniesienie bibliograficzne do wybranej pracy w stylu cytowania, którego potrzebujesz: APA, MLA, Harvard, Chicago, Vancouver itp.

Możesz również pobrać pełny tekst publikacji naukowej w formacie „.pdf” i przeczytać adnotację do pracy online, jeśli odpowiednie parametry są dostępne w metadanych.

Przeglądaj rozprawy doktorskie z różnych dziedzin i twórz odpowiednie bibliografie.

1

Vialatte, Jean-Charles. "Convolution et apprentissage profond sur graphes". Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0118/document.

Pełny tekst źródła

Streszczenie:

Pour l’apprentissage automatisé de données régulières comme des images ou des signaux sonores, les réseaux convolutifs profonds s’imposent comme le modèle de deep learning le plus performant. En revanche, lorsque les jeux de données sont irréguliers (par example : réseaux de capteurs, de citations, IRMs), ces réseaux ne peuvent pas être utilisés. Dans cette thèse, nous développons une théorie algébrique permettant de définir des convolutions sur des domaines irréguliers, à l’aide d’actions de groupe (ou, plus généralement, de groupoïde) agissant sur les sommets d’un graphe, et possédant des propriétés liées aux arrêtes. A l’aide de ces convolutions, nous proposons des extensions des réseaux convolutifs à des structures de graphes. Nos recherches nous conduisent à proposer une formulation générique de la propagation entre deux couches de neurones que nous appelons la contraction neurale. De cette formule, nous dérivons plusieurs nouveaux modèles de réseaux de neurones, applicables sur des domaines irréguliers, et qui font preuve de résultats au même niveau que l’état de l’art voire meilleurs pour certains
Convolutional neural networks have proven to be the deep learning model that performs best on regularly structured datasets like images or sounds. However, they cannot be applied on datasets with an irregular structure (e.g. sensor networks, citation networks, MRIs). In this thesis, we develop an algebraic theory of convolutions on irregular domains. We construct a family of convolutions that are based on group actions (or, more generally, groupoid actions) that acts on the vertex domain and that have properties that depend on the edges. With the help of these convolutions, we propose extensions of convolutional neural netowrks to graph domains. Our researches lead us to propose a generic formulation of the propagation between layers, that we call the neural contraction. From this formulation, we derive many novel neural network models that can be applied on irregular domains. Through benchmarks and experiments, we show that they attain state-of-the-art performances, and beat them in some cases

Style APA, Harvard, Vancouver, ISO itp.

2

Mollaret, Sébastien. "Artificial intelligence algorithms in quantitative finance". Thesis, Paris Est, 2021. http://www.theses.fr/2021PESC2002.

Pełny tekst źródła

Streszczenie:

L'intelligence artificielle est devenue de plus en plus populaire en finance quantitative avec l'augmentation des capacités de calcul ainsi que de la complexité des modèles et a conduit à de nombreuses applications financières. Dans cette thèse, nous explorons trois applications différentes pour résoudre des défis concernant le domaine des dérivés financiers allant de la sélection de modèle, à la calibration de modèle ainsi que la valorisation des dérivés. Dans la Partie I, nous nous intéressons à un modèle avec changement de régime de volatilité afin de valoriser des dérivés sur actions. Les paramètres du modèle sont estimés à l'aide de l'algorithme d'Espérance-Maximisation (EM) et une composante de volatilité locale est ajoutée afin que le modèle soit calibré sur les prix d'options vanilles à l'aide de la méthode particulaire. Dans la Partie II, nous utilisons ensuite des réseaux de neurones profonds afin de calibrer un modèle à volatilité stochastique, dans lequel la volatilité est représentée par l'exponentielle d'un processus d'Ornstein-Uhlenbeck, afin d'approximer la fonction qui lie les paramètres du modèle aux volatilités implicites correspondantes hors ligne. Une fois l'approximation couteuse réalisée hors ligne, la calibration se réduit à un problème d'optimisation standard et rapide. Dans la Partie III, nous utilisons enfin des réseaux de neurones profonds afin de valorisation des options américaines sur de grands paniers d'actions pour surmonter la malédiction de la dimension. Différentes méthodes sont étudiées avec une approche de type Longstaff-Schwartz, où nous approximons les valeurs de continuation, et une approche de type contrôle stochastique, où nous résolvons l'équation différentielle partielle de valorisation en la reformulant en problème de contrôle stochastique à l'aide de la formule de Feynman-Kac non linéaire
Artificial intelligence has become more and more popular in quantitative finance given the increase of computer capacities as well as the complexity of models and has led to many financial applications. In the thesis, we have explored three different applications to solve financial derivatives challenges, from model selection, to model calibration and pricing. In Part I, we focus on a regime-switching model to price equity derivatives. The model parameters are estimated using the Expectation-Maximization (EM) algorithm and a local volatility component is added to fit vanilla option prices using the particle method. In Part II, we then use deep neural networks to calibrate a stochastic volatility model, where the volatility is modelled as the exponential of an Ornstein-Uhlenbeck process, by approximating the mapping between model parameters and corresponding implied volatilities offline. Once the expensive approximation has been performed offline, the calibration reduces to a standard & fast optimization problem.In Part III, we finally use deep neural networks to price American option on large baskets to solve the curse of the dimensionality. Different methods are studied with a Longstaff-Schwartz approach, where we approximate the continuation values, and a stochastic control approach, where we solve the pricing partial differential equation by reformulating the problem as a stochastic control problem using the non-linear Feynman-Kac formula

Style APA, Harvard, Vancouver, ISO itp.

3

Carrara, Nicolas. "Reinforcement learning for dialogue systems optimization with user adaptation". Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I071/document.

Pełny tekst źródła

Streszczenie:

Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèles statistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter une quantité substantielle de données issues de l’environnement. Les assistants personnels, maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception. Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs données d’apprentissage se doivent d’être collectées avec ces mêmes humains. Parce que le nombre d’interactions avec une seule personne est assez faible, l’approche usuelle pour augmenter le jeu de données consiste à agréger les données de tous les utilisateurs.Une des limitations de cette approche vient du fait que, par construction, les modèles entraînés ainsi ne sont efficaces qu’avec un humain "moyen" et n’incluent pas de système d’adaptation ; cette faiblesse entraîne la restriction du service à certains groupes de personnes; Par conséquent, cela réduit l’ensemble des utilisateurs et provoque des problèmes d’inclusion. La présente thèse propose des solutions impliquant la construction de systèmes de dialogue combinant l’apprentissage par transfert et l’apprentissage parrenforcement. La thèse explore deux pistes de recherche : La première consiste à inclure un mécanisme d’adaptation dès les premières interactions avec un nouvel utilisateur. Pour ce faire, nous utilisons la connaissance accumulée avec des utilisateurs déjà connus du système. La question sous-jacente est la suivante : comment gérer l’évolution du système suite à une croissance interrompue d’utilisateurs et donc de connaissance? La première approche implique le clustering des systèmes de dialogue (chacun étant spécialisé pour un utilisateur) en fonction de leurs stratégies. Nous démontrons que la méthode améliore la qualité des dialogues en interagissant avec des modèles à base de règles et des modèles d’humains. La seconde approche propose d’inclure un mécanisme d’apprentissage par transfert dans l’exécution d’un algorithme d’apprentissage profond par renforcement, Deep Q-learning. La seconde piste avance l’idée selon laquelle les premières interactions avec un nouvel utilisateur devraient être gérées par un système de dialogue sécurisé et précautionneux avant d’utiliser un système de dialogue spécialisé. L’approche se divise en deux étapes. La première étape consiste à apprendre une stratégie sécurisée avec de l’apprentissage par renforcement. À cet effet, nous proposons un nouveau framework d’apprentissage par renforcement sous contrainte en états continus ainsi que des algorithmes les solutionnant. En particulier, nous validons, en termes de sécurité et d’efficacité, une extension de Fitted-Q pour les deux applications sous contraintes : les systèmes de dialogue et la conduite autonome. La deuxième étape implique l’utilisation de ces stratégies sécurisées lors des premières interactions avec un nouvel utilisateur ; cette méthode est une extension de l’algorithme classique d’exploration, ε-greedy
The most powerful artificial intelligence systems are now based on learned statistical models. In order to build efficient models, these systems must collect a huge amount of data on their environment. Personal assistants, smart-homes, voice-servers and other dialogue applications are no exceptions to this statement. A specificity of those systems is that they are designed to interact with humans, and as a consequence, their training data has to be collected from interactions with these humans. As the number of interactions with a single person is often too scarce to train a proper model, the usual approach to maximise the amount of data consists in mixing data collected with different users into a single corpus. However, one limitation of this approach is that, by construction, the trained models are only efficient with an "average" human and do not include any sort of adaptation; this lack of adaptation makes the service unusable for some specific group of persons and leads to a restricted customers base and inclusiveness problems. This thesis proposes solutions to construct Dialogue Systems that are robust to this problem by combining Transfer Learning and Reinforcement Learning. It explores two main ideas: The first idea of this thesis consists in incorporating adaptation in the very first dialogues with a new user. To that extend, we use the knowledge gathered with previous users. But how to scale such systems with a growing database of user interactions? The first proposed approach involves clustering of Dialogue Systems (tailored for their respective user) based on their behaviours. We demonstrated through handcrafted and real user-models experiments how this method improves the dialogue quality for new and unknown users. The second approach extends the Deep Q-learning algorithm with a continuous transfer process.The second idea states that before using a dedicated Dialogue System, the first interactions with a user should be handled carefully by a safe Dialogue System common to all users. The underlying approach is divided in two steps. The first step consists in learning a safe strategy through Reinforcement Learning. To that extent, we introduced a budgeted Reinforcement Learning framework for continuous state space and the underlying extensions of classic Reinforcement Learning algorithms. In particular, the safe version of the Fitted-Q algorithm has been validated, in term of safety and efficiency, on a dialogue system tasks and an autonomous driving problem. The second step consists in using those safe strategies when facing new users; this method is an extension of the classic ε-greedy algorithm

Style APA, Harvard, Vancouver, ISO itp.

4

Levy, Abitbol Jacobo. "Computational detection of socioeconomic inequalities". Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEN001.

Pełny tekst źródła

Streszczenie:

Nous vivons une période marquante: pour la première fois, nous sommes conscients des enjeux de notre temps, nous produisons suffisamment de données pour en fournir une description complète et nous disposons d'algorithmes raisonnablement optimaux pour les traiter. Au centre de ce carrefour, une nouvelle discipline, la science sociale computationnelle, profondément imprégnée des avances en intelligence artificielle et en algorithmique, vient se dresser comme une sphère de connaissance à part entière. Cette thèse s'inscrit dans cet élan et cherche à fournir des éléments de compréhension à la problématique des inégalités socioéconomiques en traitant des données massives, notamment issues de réseaux sociaux en ligne et de l'observation de l'environnement urbain. Ainsi, les contributions principales de cette série de travaux sont centrées autour de 1) l’étude des dépendances spatiales, temporelles, linguistique et du réseau liées aux inégalités et 2) l’inférence du statut socioéconomique à partir de ces signaux multimodaux. Le contexte dans lequel cette série de travaux est inscrite est double. D'un côté, nous cherchons à fournir aux chercheurs et aux éléments du pouvoir décisionnel des outils qui leur permettront d'obtenir une image plus fine et détaillée de la répartition de richesse dans le pays dans le but qu'ils puissent adopter des stratégies portant à la résolution de deux défis de notre temps: la pauvreté et les inégalités socioéconomiques. De l'autre nous cherchons nous même à fournir des éléments de réponse aux questions posées par les sciences sociales qui se sont avérées trop intractable pour être abordées sans le volume et la qualité de données nécessaires
Machine and deep learning advances have come to permeate modern sciences and have unlocked the study of numerous issues many deemed intractable. Social sciences have accordingly not been exempted from benefiting from these advances, as neural language model have been extensively used to analyze social and linguistic based phenomena such as the quantification of semantic change or the detection of the ideological bias of news articles, while convolutional neural networks have been used in urban settings to explore the dynamics of urban change by determining which characteristics predict neighborhood improvement or by examining how the perception of safety affects the liveliness of neighborhoods. In light of this fact, this dissertation argues that one particular social phenomenon, socioeconomic inequalities, can be gainfully studied by means of the above. We set out to collect and combine large datasets enabling 1) the study of the spatial, temporal, linguistic and network dependencies of socioeconomic inequalities and 2) the inference of socioeconomic status (SES) from these multimodal signals. This task is one worthy of study as previous research endeavors have come short of providing a complete picture on how these multiple factors are intertwined with individual socioeconomic status and how the former can fuel better inference methodologies for the latter. The study of these questions is important, as much is still unclear about the root causes of SES inequalities and the deployment of ML/DL solutions to pinpoint them is still very much in its infancy

Style APA, Harvard, Vancouver, ISO itp.

5

Tamaazousti, Youssef. "Vers l’universalité des représentations visuelle et multimodales". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC038/document.

Pełny tekst źródła

Streszczenie:

En raison de ses enjeux sociétaux, économiques et culturels, l’intelligence artificielle (dénotée IA) est aujourd’hui un sujet d’actualité très populaire. L’un de ses principaux objectifs est de développer des systèmes qui facilitent la vie quotidienne de l’homme, par le biais d’applications telles que les robots domestiques, les robots industriels, les véhicules autonomes et bien plus encore. La montée en popularité de l’IA est fortement due à l’émergence d’outils basés sur des réseaux de neurones profonds qui permettent d’apprendre simultanément, la représentation des données (qui était traditionnellement conçue à la main), et la tâche à résoudre (qui était traditionnellement apprise à l’aide de modèles d’apprentissage automatique). Ceci résulte de la conjonction des avancées théoriques, de la capacité de calcul croissante ainsi que de la disponibilité de nombreuses données annotées. Un objectif de longue date de l’IA est de concevoir des machines inspirées des humains, capables de percevoir le monde, d’interagir avec les humains, et tout ceci de manière évolutive (c’est `a dire en améliorant constamment la capacité de perception du monde et d’interaction avec les humains). Bien que l’IA soit un domaine beaucoup plus vaste, nous nous intéressons dans cette thèse, uniquement à l’IA basée apprentissage (qui est l’une des plus performante, à ce jour). Celle-ci consiste `a l’apprentissage d’un modèle qui une fois appris résoud une certaine tâche, et est généralement composée de deux sous-modules, l’un représentant la donnée (nommé ”représentation”) et l’autre prenant des décisions (nommé ”résolution de tâche”). Nous catégorisons, dans cette thèse, les travaux autour de l’IA, dans les deux approches d’apprentissage suivantes : (i) Spécialisation : apprendre des représentations à partir de quelques tâches spécifiques dans le but de pouvoir effectuer des tâches très spécifiques (spécialisées dans un certain domaine) avec un très bon niveau de performance; ii) Universalité : apprendre des représentations à partir de plusieurs tâches générales dans le but d’accomplir autant de tâches que possible dansdifférents contextes. Alors que la spécialisation a été largement explorée par la communauté de l’apprentissage profond, seules quelques tentatives implicites ont été réalisée vers la seconde catégorie, à savoir, l’universalité. Ainsi, le but de cette thèse est d’aborder explicitement le problème de l’amélioration de l’universalité des représentations avec des méthodes d’apprentissage profond, pour les données d’image et de texte. [...]
Because of its key societal, economic and cultural stakes, Artificial Intelligence (AI) is a hot topic. One of its main goal, is to develop systems that facilitates the daily life of humans, with applications such as household robots, industrial robots, autonomous vehicle and much more. The rise of AI is highly due to the emergence of tools based on deep neural-networks which make it possible to simultaneously learn, the representation of the data (which were traditionally hand-crafted), and the task to solve (traditionally learned with statistical models). This resulted from the conjunction of theoretical advances, the growing computational capacity as well as the availability of many annotated data. A long standing goal of AI is to design machines inspired humans, capable of perceiving the world, interacting with humans, in an evolutionary way. We categorize, in this Thesis, the works around AI, in the two following learning-approaches: (i) Specialization: learn representations from few specific tasks with the goal to be able to carry out very specific tasks (specialized in a certain field) with a very good level of performance; (ii) Universality: learn representations from several general tasks with the goal to perform as many tasks as possible in different contexts. While specialization was extensively explored by the deep-learning community, only a few implicit attempts were made towards universality. Thus, the goal of this Thesis is to explicitly address the problem of improving universality with deep-learning methods, for image and text data. We have addressed this topic of universality in two different forms: through the implementation of methods to improve universality (“universalizing methods”); and through the establishment of a protocol to quantify its universality. Concerning universalizing methods, we proposed three technical contributions: (i) in a context of large semantic representations, we proposed a method to reduce redundancy between the detectors through, an adaptive thresholding and the relations between concepts; (ii) in the context of neural-network representations, we proposed an approach that increases the number of detectors without increasing the amount of annotated data; (iii) in a context of multimodal representations, we proposed a method to preserve the semantics of unimodal representations in multimodal ones. Regarding the quantification of universality, we proposed to evaluate universalizing methods in a Transferlearning scheme. Indeed, this technical scheme is relevant to assess the universal ability of representations. This also led us to propose a new framework as well as new quantitative evaluation criteria for universalizing methods

Style APA, Harvard, Vancouver, ISO itp.

6

Wallis, David. "A study of machine learning and deep learning methods and their application to medical imaging". Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPAST057.

Pełny tekst źródła

Streszczenie:

Nous utilisons d'abord des réseaux neuronaux convolutifs (CNNs) pour automatiser la détection des ganglions lymphatiques médiastinaux dans les images TEP/TDM. Nous construisons un modèle entièrement automatisé pour passer directement des images TEP/TDM à la localisation des ganglions. Les résultats montrent une performance comparable à celle d'un médecin. Dans la seconde partie de la thèse, nous testons la performance, l'interprétabilité et la stabilité des modèles radiomiques et CNN sur trois ensembles de données (IRM cérébrale 2D, TDM pulmonaire 3D, TEP/TDM médiastinale 3D). Nous comparons la façon dont les modèles s'améliorent lorsque davantage de données sont disponibles et nous examinons s'il existe des tendances communess aux différents problèmes. Nous nous demandons si les méthodes actuelles d'interprétation des modèles sont satisfaisantes. Nous étudions également comment une segmentation précise affecte les performances des modèles. Nous utilisons d'abord des réseaux neuronaux convolutifs (CNNs) pour automatiser la détection des ganglions lymphatiques médiastinaux dans les images TEP/TDM. Nous construisons un modèle entièrement automatisé pour passer directement des images TEP/TDM à la localisation des ganglions. Les résultats montrent une performance comparable à celle d'un médecin. Dans la seconde partie de la thèse, nous testons la performance, l'interprétabilité et la stabilité des modèles radiomiques et CNN sur trois ensembles de données (IRM cérébrale 2D, TDM pulmonaire 3D, TEP/TDM médiastinale 3D). Nous comparons la façon dont les modèles s'améliorent lorsque davantage de données sont disponibles et nous examinons s'il existe des tendances communess aux différents problèmes. Nous nous demandons si les méthodes actuelles d'interprétation des modèles sont satisfaisantes. Nous étudions également comment une segmentation précise affecte les performances des modèles
We first use Convolutional Neural Networks (CNNs) to automate mediastinal lymph node detection using FDG-PET/CT scans. We build a fully automated model to go directly from whole-body FDG-PET/CT scans to node localisation. The results show a comparable performance to an experienced physician. In the second half of the thesis we experimentally test the performance, interpretability, and stability of radiomic and CNN models on three datasets (2D brain MRI scans, 3D CT lung scans, 3D FDG-PET/CT mediastinal scans). We compare how the models improve as more data is available and examine whether there are patterns common to the different problems. We question whether current methods for model interpretation are satisfactory. We also investigate how precise segmentation affects the performance of the models. We first use Convolutional Neural Networks (CNNs) to automate mediastinal lymph node detection using FDG-PET/CT scans. We build a fully automated model to go directly from whole-body FDG-PET/CT scans to node localisation. The results show a comparable performance to an experienced physician. In the second half of the thesis we experimentally test the performance, interpretability, and stability of radiomic and CNN models on three datasets (2D brain MRI scans, 3D CT lung scans, 3D FDG-PET/CT mediastinal scans). We compare how the models improve as more data is available and examine whether there are patterns common to the different problems. We question whether current methods for model interpretation are satisfactory. We also investigate how precise segmentation affects the performance of the models

Style APA, Harvard, Vancouver, ISO itp.

7

Pierrard, Régis. "Explainable Classification and Annotation through Relation Learning and Reasoning". Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPAST008.

Pełny tekst źródła

Streszczenie:

Avec les succés récents de l’apprentissage profond et les interactions toujours plus nombreuses entre êtres humains et intelligences artificielles, l’explicabilité est devenue une préoccupation majeure. En effet, il est difficile de comprendre le comportement des réseaux de neurones profonds, ce qui les rend inadaptés à une utilisation dans les systèmes critiques. Dans cette thèse, nous proposons une approche visant à classifier ou annoter des signaux tout en expliquant les résultats obtenus. Elle est basée sur l’utilisation d’un modèle transparent, dont le raisonnement est clair, et de relations floues interprétables qui permettent de représenter l’imprécision du langage naturel.Au lieu d’apprendre sur des exemples sur lesquels les relations ont été annotées, nous proposons de définir un ensemble de relations au préalable. L’évaluation de ces relations sur les exemples de la base d’entrainement est accélérée grâce à deux heuristiques que nous présentons. Ensuite, les relations les plus pertinentes sont extraites en utilisant un nouvel algorithme de frequent itemset mining flou. Ces relations permettent de construire des règles pour la classification ou des contraintes pour l’annotation. Ainsi, une explication en langage naturel peut être générée.Nous présentons des expériences sur des images et des séries temporelles afin de montrer la généricité de notre approche. En particulier, son application à l’annotation d’organe explicable a été bien évaluée par un ensemble de participants qui ont jugé les explications convaincantes et cohérentes
With the recent successes of deep learning and the growing interactions between humans and AIs, explainability issues have risen. Indeed, it is difficult to understand the behaviour of deep neural networks and thus such opaque models are not suited for high-stake applications. In this thesis, we propose an approach for performing classification or annotation and providing explanations. It is based on a transparent model, whose reasoning is clear, and on interpretable fuzzy relations that enable to express the vagueness of natural language.Instead of learning on training instances that are annotated with relations, we propose to rely on a set of relations that was set beforehand. We present two heuristics that make the process of evaluating relations faster. Then, the most relevant relations can be extracted using a new fuzzy frequent itemset mining algorithm. These relations enable to build rules, for classification, and constraints, for annotation. Since the strengths of our approach are the transparency of the model and the interpretability of the relations, an explanation in natural language can be generated.We present experiments on images and time series that show the genericity of the approach. In particular, the application to explainable organ annotation was received positively by a set of participants that judges the explanations consistent and convincing

Style APA, Harvard, Vancouver, ISO itp.

8

Etienne, Caroline. "Apprentissage profond appliqué à la reconnaissance des émotions dans la voix". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS517.

Pełny tekst źródła

Streszczenie:

Mes travaux de thèse s'intéressent à l'utilisation de nouvelles technologies d'intelligence artificielle appliquées à la problématique de la classification automatique des séquences audios selon l'état émotionnel du client au cours d'une conversation avec un téléconseiller. En 2016, l'idée est de se démarquer des prétraitements de données et modèles d'apprentissage automatique existant au sein du laboratoire, et de proposer un modèle qui soit le plus performant possible sur la base de données audios IEMOCAP. Nous nous appuyons sur des travaux existants sur les modèles de réseaux de neurones profonds pour la reconnaissance de la parole, et nous étudions leur extension au cas de la reconnaissance des émotions dans la voix. Nous nous intéressons ainsi à l'architecture neuronale bout-en-bout qui permet d'extraire de manière autonome les caractéristiques acoustiques du signal audio en vue de la tâche de classification à réaliser. Pendant longtemps, le signal audio est prétraité avec des indices paralinguistiques dans le cadre d'une approche experte. Nous choisissons une approche naïve pour le prétraitement des données qui ne fait pas appel à des connaissances paralinguistiques spécialisées afin de comparer avec l'approche experte. Ainsi le signal audio brut est transformé en spectrogramme temps-fréquence à l'aide d'une transformée de Fourier à court-terme. Exploiter un réseau neuronal pour une tâche de prédiction précise implique de devoir s'interroger sur plusieurs aspects. D'une part, il convient de choisir les meilleurs hyperparamètres possibles. D'autre part, il faut minimiser les biais présents dans la base de données (non discrimination) en ajoutant des données par exemple et prendre en compte les caractéristiques de la base de données choisie. Le but est d'optimiser le mieux possible l'algorithme de classification. Nous étudions ces aspects pour une architecture neuronale bout-en-bout qui associe des couches convolutives spécialisées dans le traitement de l'information visuelle, et des couches récurrentes spécialisées dans le traitement de l'information temporelle. Nous proposons un modèle d'apprentissage supervisé profond compétitif avec l'état de l'art sur la base de données IEMOCAP et cela justifie son utilisation pour le reste des expérimentations. Ce modèle de classification est constitué de quatre couches de réseaux de neurones à convolution et un réseau de neurones récurrent bidirectionnel à mémoire court-terme et long-terme (BLSTM). Notre modèle est évalué sur deux bases de données audios anglophones proposées par la communauté scientifique : IEMOCAP et MSP-IMPROV. Une première contribution est de montrer qu'avec un réseau neuronal profond, nous obtenons de hautes performances avec IEMOCAP et que les résultats sont prometteurs avec MSP-IMPROV. Une autre contribution de cette thèse est une étude comparative des valeurs de sortie des couches du module convolutif et du module récurrent selon le prétraitement de la voix opéré en amont : spectrogrammes (approche naïve) ou indices paralinguistiques (approche experte). À l'aide de la distance euclidienne, une mesure de proximité déterministe, nous analysons les données selon l'émotion qui leur est associée. Nous tentons de comprendre les caractéristiques de l'information émotionnelle extraite de manière autonome par le réseau. L'idée est de contribuer à une recherche centrée sur la compréhension des réseaux de neurones profonds utilisés en reconnaissance des émotions dans la voix et d'apporter plus de transparence et d'explicabilité à ces systèmes dont le mécanisme décisionnel est encore largement incompris
This thesis deals with the application of artificial intelligence to the automatic classification of audio sequences according to the emotional state of the customer during a commercial phone call. The goal is to improve on existing data preprocessing and machine learning models, and to suggest a model that is as efficient as possible on the reference IEMOCAP audio dataset. We draw from previous work on deep neural networks for automatic speech recognition, and extend it to the speech emotion recognition task. We are therefore interested in End-to-End neural architectures to perform the classification task including an autonomous extraction of acoustic features from the audio signal. Traditionally, the audio signal is preprocessed using paralinguistic features, as part of an expert approach. We choose a naive approach for data preprocessing that does not rely on specialized paralinguistic knowledge, and compare it with the expert approach. In this approach, the raw audio signal is transformed into a time-frequency spectrogram by using a short-term Fourier transform. In order to apply a neural network to a prediction task, a number of aspects need to be considered. On the one hand, the best possible hyperparameters must be identified. On the other hand, biases present in the database should be minimized (non-discrimination), for example by adding data and taking into account the characteristics of the chosen dataset. We study these aspects in order to develop an End-to-End neural architecture that combines convolutional layers specialized in the modeling of visual information with recurrent layers specialized in the modeling of temporal information. We propose a deep supervised learning model, competitive with the current state-of-the-art when trained on the IEMOCAP dataset, justifying its use for the rest of the experiments. This classification model consists of a four-layer convolutional neural networks and a bidirectional long short-term memory recurrent neural network (BLSTM). Our model is evaluated on two English audio databases proposed by the scientific community: IEMOCAP and MSP-IMPROV. A first contribution is to show that, with a deep neural network, we obtain high performances on IEMOCAP, and that the results are promising on MSP-IMPROV. Another contribution of this thesis is a comparative study of the output values of the layers of the convolutional module and the recurrent module according to the data preprocessing method used: spectrograms (naive approach) or paralinguistic indices (expert approach). We analyze the data according to their emotion class using the Euclidean distance, a deterministic proximity measure. We try to understand the characteristics of the emotional information extracted autonomously by the network. The idea is to contribute to research focused on the understanding of deep neural networks used in speech emotion recognition and to bring more transparency and explainability to these systems, whose decision-making mechanism is still largely misunderstood

Style APA, Harvard, Vancouver, ISO itp.

9

Duran, Audrey. "Intelligence artificielle pour la caractérisation du cancer de la prostate par agressivité en IRM multiparamétrique". Thesis, Lyon, 2022. http://theses.insa-lyon.fr/publication/2022LYSEI008/these.pdf.

Pełny tekst źródła

Streszczenie:

Le cancer de la prostate (CaP) est le cancer le plus diagnostiqué dans plus de la moitié des pays du monde et le cinquième cancer le plus meurtrier chez les hommes en 2020. Le diagnostic du CaP inclut l'acquisition d'une imagerie par résonance magnétique multiparamétrique (IRM-mp) - qui combine une séquence T2-pondérée (T2-w), une imagerie pondérée en diffusion (DWI) et une séquence dynamique de contraste amélioré (DCE) - avant la réalisation de biopsies. L'analyse jointe de ces images multimodales est fastidieuse et chronophage, en particulier lorsque les séquences mènent à des conclusions différentes. En outre, la sensibilité de l'IRM reste faible pour les cancers peu agressifs et la variabilité inter-observateur élevée. De plus, l'analyse visuelle ne permet pas aujourd'hui de déterminer l'agressivité des cancers, caractérisée par le score de Gleason (GS). C'est pourquoi des systèmes d'aide au diagnostic (CAD) basés sur des modèles statistiques par apprentissage ont été proposés ces dernières années, pour d'assister les radiologues dans leur diagnostic. Toutefois, la majorité de ces systèmes se concentrent sur une tâche de détection binaire des lésions cliniquement significatives (CS). L'objectif de cette thèse est d'élaborer un système CAD pour détecter les CaP sur des IRM-mp, mais aussi de caractériser leur agressivité en prédisant le GS associé. Dans une première partie, nous présentons un système CAD supervisé permettant de segmenter le CaP par agressivité à partir des cartes T2-w et ADC. Ce réseau de neurones multiclasse segmente simultanément la prostate et les lésions par agressivité. Le modèle a été entraîné et évalué en validation croisée à 5 plis sur une base de données hétérogène de 219 examens IRM acquis avant prostatectomie. Pour la tâche de classification par GS, le kappa de Cohen quadratiquement pondéré (κ) est de 0.418 ± 0.138, ce qui représente le meilleur kappa par lésions pour une tâche de segmentation par GS à notre connaissance. Le modèle présente également des capacités de généralisation encourageantes sur le jeu de données public PROSTATEx-2. Dans une deuxième partie, nous nous penchons sur un modèle faiblement supervisé, permettant l'inclusion de données où les lésions sont identifiées par des points seulement, pour un gain de temps conséquent et l'inclusion de bases de données établies sur la biopsie. Concernant la tâche de classification par GS, les performances approchent celles obtenues avec le modèle totalement supervisé de référence, en n'ayant que 6% de voxels annotés pour l'entraînement. Dans une dernière partie, nous étudions l'apport de l'imagerie DCE, séquence souvent omise en entrée des modèles profonds, pour la détection et la caractérisation du CaP. Plusieurs stratégies d'encodage de la perfusion dans une architecture U-Net sont étudiées. Nous montrons que les cartes paramétriques dérivées des examens IRM DCE ont un impact positif sur les performances de segmentation et de classification du CaP
Prostate cancer (PCa) is the most frequently diagnosed cancer in men in more than half the countries in the world and the fifth leading cause of cancer death among men in 2020. Diagnosis of PCa includes multiparametric magnetic resonance imaging acquisition (mp-MRI) - which combines T2 weighted (T2-w), diffusion weighted imaging (DWI) and dynamic contrast enhanced (DCE) sequences - prior to any biopsy. The joint analysis of these multimodal images is time demanding and challenging, especially when individual MR sequences yield conflicting findings. In addition, the sensitivity of MRI is low for less aggressive cancers and inter-reader reproducibility remains moderate at best. Moreover, visual analysis does not currently allow to determine the cancer aggressiveness, characterized by the Gleason score (GS). This is why computer-aided diagnosis (CAD) systems based on statistical learning models have been proposed in recent years, to assist radiologists in their diagnostic task, but the vast majority of these models focus on the binary detection of clinically significant (CS) lesions. The objective of this thesis is to develop a CAD system to detect and segment PCa on mp-MRI images but also to characterize their aggressiveness, by predicting the associated GS. In a first part, we present a supervised CAD system to segment PCa by aggressiveness from T2-w and ADC maps. This end-to-end multi-class neural network jointly segments the prostate gland and cancer lesions with GS group grading. The model was trained and validated with a 5-fold cross-validation on a heterogeneous series of 219 MRI exams acquired on three different scanners prior prostatectomy. Regarding the automatic GS group grading, Cohen’s quadratic weighted kappa coefficient (κ) is 0.418 ± 0.138, which is the best reported lesion-wise kappa for GS segmentation to our knowledge. The model has also encouraging generalization capacities on the PROSTATEx-2 public dataset. In a second part, we focus on a weakly supervised model that allows the inclusion of partly annotated data, where the lesions are identified by points only, for a consequent saving of time and the inclusion of biopsy-based databases. Regarding the automatic GS group grading on our private dataset, we show that we can approach performance achieved with the baseline fully supervised model while considering 6% of annotated voxels only for training. In the last part, we study the contribution of DCE MRI, a sequence often omitted as input to deep models, for the detection and characterization of PCa. We evaluate several ways to encode the perfusion from the DCE MRI information in a U-Net like architecture. Parametric maps derived from DCE MR exams are shown to positively impact segmentation and grading performance of PCa lesions

Style APA, Harvard, Vancouver, ISO itp.

10

Carvalho, Micael. "Deep representation spaces". Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS292.

Pełny tekst źródła

Streszczenie:

Ces dernières années, les techniques d’apprentissage profond ont fondamentalement transformé l'état de l'art de nombreuses applications de l'apprentissage automatique, devenant la nouvelle approche standard pour plusieurs d’entre elles. Les architectures provenant de ces techniques ont été utilisées pour l'apprentissage par transfert, ce qui a élargi la puissance des modèles profonds à des tâches qui ne disposaient pas de suffisamment de données pour les entraîner à partir de zéro. Le sujet d'étude de cette thèse couvre les espaces de représentation créés par les architectures profondes. Dans un premier temps, nous étudions les propriétés de leurs espaces, en prêtant un intérêt particulier à la redondance des dimensions et la précision numérique de leurs représentations. Nos résultats démontrent un fort degré de robustesse, pointant vers des schémas de compression simples et puissants. Ensuite, nous nous concentrons sur le l'affinement de ces représentations. Nous choisissons d'adopter un problème multi-tâches intermodal et de concevoir une fonction de coût capable de tirer parti des données de plusieurs modalités, tout en tenant compte des différentes tâches associées au même ensemble de données. Afin d'équilibrer correctement ces coûts, nous développons également un nouveau processus d'échantillonnage qui ne prend en compte que des exemples contribuant à la phase d'apprentissage, c'est-à-dire ceux ayant un coût positif. Enfin, nous testons notre approche sur un ensemble de données à grande échelle de recettes de cuisine et d'images associées. Notre méthode améliore de 5 fois l'état de l'art sur cette tâche, et nous montrons que l'aspect multitâche de notre approche favorise l'organisation sémantique de l'espace de représentation, lui permettant d'effectuer des sous-tâches jamais vues pendant l'entraînement, comme l'exclusion et la sélection d’ingrédients. Les résultats que nous présentons dans cette thèse ouvrent de nombreuses possibilités, y compris la compression de caractéristiques pour les applications distantes, l'apprentissage multi-modal et multitâche robuste et l'affinement de l'espace des caractéristiques. Pour l'application dans le contexte de la cuisine, beaucoup de nos résultats sont directement applicables dans une situation réelle, en particulier pour la détection d'allergènes, la recherche de recettes alternatives en raison de restrictions alimentaires et la planification de menus
In recent years, Deep Learning techniques have swept the state-of-the-art of many applications of Machine Learning, becoming the new standard approach for them. The architectures issued from these techniques have been used for transfer learning, which extended the power of deep models to tasks that did not have enough data to fully train them from scratch. This thesis' subject of study is the representation spaces created by deep architectures. First, we study properties inherent to them, with particular interest in dimensionality redundancy and precision of their features. Our findings reveal a strong degree of robustness, pointing the path to simple and powerful compression schemes. Then, we focus on refining these representations. We choose to adopt a cross-modal multi-task problem, and design a loss function capable of taking advantage of data coming from multiple modalities, while also taking into account different tasks associated to the same dataset. In order to correctly balance these losses, we also we develop a new sampling scheme that only takes into account examples contributing to the learning phase, i.e. those having a positive loss. Finally, we test our approach in a large-scale dataset of cooking recipes and associated pictures. Our method achieves a 5-fold improvement over the state-of-the-art, and we show that the multi-task aspect of our approach promotes a semantically meaningful organization of the representation space, allowing it to perform subtasks never seen during training, like ingredient exclusion and selection. The results we present in this thesis open many possibilities, including feature compression for remote applications, robust multi-modal and multi-task learning, and feature space refinement. For the cooking application, in particular, many of our findings are directly applicable in a real-world context, especially for the detection of allergens, finding alternative recipes due to dietary restrictions, and menu planning

Style APA, Harvard, Vancouver, ISO itp.

11

Corbat, Lisa. "Fusion de segmentations complémentaires d'images médicales par Intelligence Artificielle et autres méthodes de gestion de conflits". Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCD029.

Pełny tekst źródła

Streszczenie:

Le néphroblastome est la tumeur du rein la plus fréquente chez l'enfant et son diagnostic est exclusivement basé sur l'imagerie. Ce travail qui fait l'objet de nos recherches s'inscrit dans le cadre d'un projet de plus grande envergure : le projet européen SAIAD (Segmentation Automatique de reins tumoraux chez l'enfant par Intelligence Artificielle Distribuée). L'objectif du projet est de parvenir à concevoir une plate-forme capable de réaliser différentes segmentations automatiques sur les images sources à partir de méthodes d'Intelligence Artificielle (IA), et ainsi obtenir une reconstruction fidèle en trois dimensions. Dans ce sens, des travaux réalisés dans une précédente thèse de l'équipe de recherche ont menés à la création d'une plate-forme de segmentation. Elle permet la segmentation de plusieurs structures individuellement, par des méthodes de type Deep Learning, et plus particulièrement les réseaux de neurones convolutifs (CNNs), ainsi que le Raisonnement à Partir de Cas (RàPC). Cependant, il est ensuite nécessaire de fusionner de manière automatique les segmentations de ces différentes structures afin d'obtenir une segmentation complète pertinente. Lors de l'agrégation de ces structures, des pixels contradictoires peuvent apparaître. Ces conflits peuvent être résolus par diverses méthodes basées ou non sur l'IA et font l'objet de nos recherches. Nous proposons tout d'abord une première approche de fusion non focalisée sur l'IA en utilisant la combinaison de six méthodes différentes, basées sur différents critères présents sur l'imagerie et les segmentations. En parallèle, deux autres méthodes de fusion sont proposées en utilisant, un CNN couplé au RàPC pour l'une, et un CNN utilisant une méthode d'apprentissage spécifique existante en segmentation pour l'autre. Ces différentes approches ont été testées sur un ensemble de 14 patients atteints de néphroblastome et démontrent leurs efficacités dans la résolution des pixels conflictuels et leurs capacités à améliorer les segmentations résultantes
Nephroblastoma is the most common kidney tumour in children and its diagnosis is based exclusively on imaging. This work, which is the subject of our research, is part of a larger project: the European project SAIAD (Automated Segmentation of Medical Images Using Distributed Artificial Intelligence). The aim of the project is to design a platform capable of performing different automatic segmentations from source images using Artificial Intelligence (AI) methods, and thus obtain a faithful three-dimensional reconstruction. In this sense, work carried out in a previous thesis of the research team led to the creation of a segmentation platform. It allows the segmentation of several structures individually, by methods such as Deep Learning, and more particularly Convolutional Neural Networks (CNNs), as well as Case Based Reasoning (CBR). However, it is then necessary to automatically fuse the segmentations of these different structures in order to obtain a complete relevant segmentation. When aggregating these structures, contradictory pixels may appear. These conflicts can be resolved by various methods based or not on AI and are the subject of our research. First, we propose a fusion approach not focused on AI using the combination of six different methods, based on different imaging and segmentation criteria. In parallel, two other fusion methods are proposed using, a CNN coupled to the CBR for one, and a CNN using a specific existing segmentation learning method for the other. These different approaches were tested on a set of 14 nephroblastoma patients and demonstrated their effectiveness in resolving conflicting pixels and their ability to improve the resulting segmentations

Style APA, Harvard, Vancouver, ISO itp.

12

De, Bois Maxime. "Apprentissage profond sous contraintes biomédicales pour la prédiction de la glycémie future de patients diabétiques". Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG065.

Pełny tekst źródła

Streszczenie:

Malgré ses récents succès en vision assistée par ordinateur ou en traduction automatique, l’utilisation de l’apprentissage profond dans le secteur biomédical fait face à de nombreux challenges. Parmi eux, nous comptons l’accès difficile à des données en quantité et qualité suffisantes, ainsi que le besoin en l’interopérabilité et en l’interprétabilité des modèles. Dans cette thèse, nous nous intéressons à ces différentes problématiques à la lueur de la création de modèles prédisant la glycémie future de patients diabétiques. De tels modèles permettraient aux patients d’anticiper les variations de leur glycémie au quotidien, les aidant ainsi à mieux la réguler afin d’éviter les états d’hypoglycémie et d’hyperglycémie.Pour cela, nous utilisons trois ensembles de données. Tandis que le premier a été récolté à l’occasion de cette thèse sur plusieurs patients diabétiques de type 2, les deux autres sont composés de patients diabétiques de type 1, à la fois réels et virtuels. Dans l’ensemble des études, nous utilisons les données passées de glycémie, d’insuline et de glucides de chaque patient pour construire des modèles personnalisés prédisant la glycémie du patient 30 minutes dans le futur.Dans un premier temps, nous faisons une analyse détaillée de l’état de l’art en construisant une base de résultats de référence open source de modèles prédictifs de glycémie. Bien que prometteurs, nous mettons en évidence la difficulté qu’ont les modèles profonds à effectuer des prédictions qui soient à la fois précises et sans danger pour le patient.Afin d’améliorer l’acceptabilité clinique des modèles, nous proposons d’intégrer des contraintes cliniques au sein de l’apprentissage des modèles. À cet effet nous proposons de nouvelles fonctions de coût permettant d’améliorer la cohérence des prédictions et de se focaliser davantage sur les erreurs de prédictions cliniquement dangereuses. Nous explorons son utilisation pratique à travers un algorithme permettant d’obtenir un modèle maximisant la précision des prédictions tout en respectant des contraintes cliniques fixées au préalable.Puis, nous étudions la piste de l’apprentissage par transfert pour améliorer les performances des modèles prédictifs de glycémie. Celui-ci permet de faciliter l’apprentissage des modèles personnalisés aux patients en réutilisant les connaissances apprises sur d’autres patients. En particulier nous proposons le cadre de l’apprentissage par transfert multi-sources adverse. Celui-ci permet de significativement améliorer les performances des modèles en permettant l’apprentissage de connaissances a priori qui sont plus générales, car agnostiques des patients sources du transfert. Nous investiguons différents scénarios de transfert à travers l’utilisation de nos trois jeux de données. Nous montrons qu’il est possible d’effectuer un transfert de connaissance à partir de données provenant de dispositifs expérimentaux différents, de patients de types de diabète différents, mais aussi à partir de patients virtuels.Enfin, nous nous intéressons à l’amélioration de l’interprétabilité des modèles profonds à travers le principe d’attention. En particulier, nous explorons l’utilisation d’un modèle profond et interprétable pour la prédiction de la glycémie. Celui-ci implémente un double mécanisme d’attention lui permettant d’estimer la contribution de chaque variable en entrée au modèle à la prédiction finale. Nous montrons empiriquement l’intérêt d’un tel modèle pour la prédiction de glycémie en analysant son comportement dans le calcul de ses prédictions
Despite its recent successes in computer vision or machine translation, the use of deep learning in the biomedical field faces many challenges. Among them, we have the difficult access to data in sufficient quantity and quality, as well as the need of having interoperable and the interpretable models. In this thesis, we are interested in these different issues from the perspective of the creation of models predicting future glucose values of diabetic patients. Such models would allow patients to anticipate daily glucose variations, helping its regulation in order to avoid states of hypoglycemia or hyperglycemia.To this end, we use three datasets. While the first was collected during this thesis on several type-2 diabetic patients, the other two are composed of type-1 diabetic patients, both real and virtual. Across the studies, we use each patient’s past glucose, insulin, and carbohydrate data to build personalized models that predict the patient’s glucose values 30 minutes into the future.First, we do a detailed state-of-the-art analysis by building an open-source benchmark of glucosepredictive models. While promising, we highlight the difficulty deep models have in making predictions that are at the same time accurate and safe for the patient.In order to improve the clinical acceptability of the models, we investigate the integration of clinical constraints within the training of the models. We propose new cost functions enhancing the coherence of successive predictions. In addition, they enable the training to focus on clinically dangerous errors. We explore its practical use through an algorithm that enables the training of a model maximizing the precision of the predictions while respecting the clinical constraints set beforehand.Then, we study the use of transfer learning to improve the performance of glucose-predictive models. It eases the learning of personalized models by reusing the knowledge learned on other patients. In particular, we propose the adversarial multi-source transfer learning framework. It significantly improves the performance of the models by allowing the learning of a priori knowledge which is more general, by being agnostic of the patients that are the source of the transfer. We investigate different transfer scenarios through the use of our three datasets. We show that it is possible to transfer knowledge using data coming from different experimental devices, from patients of different types of diabetes, but also from virtual patients.Finally, we are interested in improving the interpretability of deep models through the attention mechanism. In particular, we explore the use of a deep and interpretable model for the prediction of glucose. It implements a double attention mechanism enabling the estimation of the contribution of each input variable to the model to the final prediction. We empirically show the value of such a model for the prediction of glucose by analyzing its behavior in the computation of its predictions

Style APA, Harvard, Vancouver, ISO itp.

13

Brenon, Alexis. "Modèle profond pour le contrôle vocal adaptatif d'un habitat intelligent". Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM057/document.

Pełny tekst źródła

Streszczenie:

Les habitats intelligents, résultants de la convergence de la domotique, de l'informatique ubiquitaire et de l'intelligence artificielle, assistent leurs habitants dans les situations du quotidien pour améliorer leur qualité de vie.En permettant aux personnes dépendantes et âgées de rester à domicile plus longtemps, ces habitats permettent de fournir une première réponse à des problèmes de société comme la dépendance due au vieillissement de la population.En nous plaçant dans un habitat contrôlé par la voix, l'habitat doit répondre aux requêtes d’un utilisateur concernant un ensemble d’actions pouvant être automatisées (contrôle des lumières, des volets, des dispositifs multimédia, etc.).Pour atteindre cet objectif, le système de contrôle de l'habitat a besoin de prendre en compte le contexte dans lequel un ordre est donné mais également de connaitre les habitudes et préférences de l’utilisateur.Pour cela, le système doit pouvoir agréger les informations issues du réseau de capteurs domotiques hétérogènes et prendre en compte le comportement (variable) de l'utilisateur.La mise au point de systèmes de contrôle intelligent d'un habitat est particulièrement ardue du fait de la grande variabilité concernant aussi bien la topologie des habitats que les habitudes des utilisateurs.Par ailleurs, l'ensemble des informations contextuelles doivent être représentées dans un référentiel commun dans un objectif de raisonnement et de prise de décision.Pour répondre à ces problématiques, nous proposons de développer un système qui d'une part modifie continuellement son modèle de manière à s'adapter à l'utilisateur, et qui d'autre part utilise directement les données issues des capteurs à travers une représentation graphique. L'intérêt et l'originalité de cette méthode sont de ne pas nécessiter d'inférence pour déterminer le contexte.Notre système repose ainsi sur une méthode d'apprentissage par renforcement profond qui couple un réseau de neurones profond du type convolutif permettant l'extraction de données contextuelles, avec un mécanisme d'apprentissage par renforcement pour la prise de décision.Ce mémoire présente alors deux systèmes, un premier reposant uniquement sur l'apprentissage par renforcement et montrant les limites de cette approche sur des environnements réels pouvant comporter plusieurs milliers d'états possibles.L'introduction de l'apprentissage profond a permis la mise au point du second système, ARCADES, dont les bonnes performances montrent la pertinence d'une telle approche, tout en ouvrant de nombreuses voies d'améliorations
Smart-homes, resulting of the merger of home-automation, ubiquitous computing and artificial intelligence, support inhabitants in their activity of daily living to improve their quality of life.Allowing dependent and aged people to live at home longer, these homes provide a first answer to society problems as the dependency tied to the aging population.In voice controlled home, the home has to answer to user's requests covering a range of automated actions (lights, blinds, multimedia control, etc.).To achieve this, the control system of the home need to be aware of the context in which a request has been done, but also to know user habits and preferences.Thus, the system must be able to aggregate information from a heterogeneous home-automation sensors network and take the (variable) user behavior into account.The development of smart home control systems is hard due to the huge variability regarding the home topology and the user habits.Furthermore, the whole set of contextual information need to be represented in a common space in order to be able to reason about them and make decisions.To address these problems, we propose to develop a system which updates continuously its model to adapt itself to the user and which uses raw data from the sensors through a graphical representation.This new method is particularly interesting because it does not require any prior inference step to extract the context.Thus, our system uses deep reinforcement learning; a convolutional neural network allowing to extract contextual information and reinforcement learning used for decision-making.Then, this memoir presents two systems, a first one only based on reinforcement learning showing limits of this approach against real environment with thousands of possible states.Introduction of deep learning allowed to develop the second one, ARCADES, which gives good performances proving that this approach is relevant and opening many ways to improve it

Style APA, Harvard, Vancouver, ISO itp.

14

Mercadier, Yves. "Classification automatique de textes par réseaux de neurones profonds : application au domaine de la santé". Thesis, Montpellier, 2020. http://www.theses.fr/2020MONTS068.

Pełny tekst źródła

Streszczenie:

Cette thèse porte sur l'analyse de données textuelles dans le domaine de la santé et en particulier sur la classification supervisée multi-classes de données issues de la littérature biomédicale et des médias sociaux.Une des difficultés majeures lors de l'exploration de telles données par des méthodes d'apprentissage supervisées est de posséder un jeu de données suffisant en nombre d'exemples pour l'entraînement des modèles. En effet, il est généralement nécessaire de catégoriser les données manuellement avant de réaliser l'étape d'apprentissage. La taille importante des jeux de données rend cette tâche de catégorisation très coûteuse, qu'il convient de réduire par des systèmes semi-automatiques.Dans ce contexte, l’apprentissage actif, pendant lequel l’oracle intervient pour choisir les meilleurs exemples à étiqueter, s’avère prometteur. L’intuition est la suivante : en choisissant les exemples intelligemment et non aléatoirement, les modèles devraient s’améliorer avec moins d’efforts pour l’oracle et donc à moindre coût (c’est-a-dire avec moins d’exemples annotés). Dans cette thèse, nous évaluerons différentes approches d’apprentissage actif combinées avec des modèles d’apprentissage profond récents.Par ailleurs, lorsque l’on dispose de peu de données annotées, une possibilité d’amélioration est d’augmenter artificiellement la quantité de données pendant la phase d’entraînement du modèle, en créant de nouvelles données de manière automatique à partir des données existantes. Plus précisément, il s’agit d’injecter de la connaissance en tenant compte des propriétés invariantes des données par rapport à certaines transformations. Les données augmentées peuvent ainsi couvrir un espace d’entrée inexploré, éviter le sur-apprentissage et améliorer la généralisation du modèle. Dans cette thèse, nous proposerons et évaluerons une nouvelle approche d'augmentation de données textuelles
This Ph.D focuses on the analysis of textual data in the health domain and in particular on the supervised multi-class classification of data from biomedical literature and social media.One of the major difficulties when exploring such data by supervised learning methods is to have a sufficient number of data sets for models training. Indeed, it is generally necessary to label manually the data before performing the learning step. The large size of the data sets makes this labellisation task very expensive, which should be reduced with semi-automatic systems.In this context, active learning, in which the Oracle intervenes to choose the best examples to label, is promising. The intuition is as follows: by choosing the smartly the examples and not randomly, the models should improve with less effort for the oracle and therefore at lower cost (i.e. with less annotated examples). In this PhD, we will evaluate different active learning approaches combined with recent deep learning models.In addition, when small annotated data set is available, one possibility of improvement is to artificially increase the data quantity during the training phase, by automatically creating new data from existing data. More precisely, we inject knowledge by taking into account the invariant properties of the data with respect to certain transformations. The augmented data can thus cover an unexplored input space, avoid overfitting and improve the generalization of the model. In this Ph.D, we will propose and evaluate a new approach for textual data augmentation.These two contributions will be evaluated on different textual datasets in the medical domain

Style APA, Harvard, Vancouver, ISO itp.

15

Bilodeau, Anthony. "Apprentissage faiblement supervisé appliqué à la segmentation d'images de protéines neuronales". Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/39752.

Pełny tekst źródła

Streszczenie:

Titre de l'écran-titre (visionné le 9 juillet 2020)
Thèse ou mémoire avec insertion d'articles
Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2020-2021
En biologie cellulaire, la microscopie optique est couramment utilisée pour visualiser et caractériser la présence et la morphologie des structures biologiques. Suite à l’acquisition, un expert devra effectuer l’annotation des structures pour quantification. Cette tâche est ardue, requiert de nombreuses heures de travail, parfois répétitif, qui peut résulter en erreurs d’annotations causées par la fatigue d’étiquetage. L’apprentissage machine promet l’automatisation de tâches complexes à partir d’un grand lot de données exemples annotés. Mon projet de maîtrise propose d’utiliser des techniques faiblement supervisées, où les annotations requises pour l’entraînement sont réduites et/ou moins précises, pour la segmentation de structures neuronales. J’ai d’abord testé l’utilisation de polygones délimitant la structure d’intérêt pour la tâche complexe de segmentation de la protéine neuronale F-actine dans des images de microscopie à super-résolution. La complexité de la tâche est supportée par la morphologie hétérogène des neurones, le nombre élevé d’instances à segmenter dans une image et la présence de nombreux distracteurs. Malgré ces difficultés, l’utilisation d’annotations faibles a permis de quantifier un changement novateur de la conformation de la protéine F-actine en fonction de l’activité neuronale. J’ai simplifié davantage la tâche d’annotation en requérant seulement des étiquettes binaires renseignant sur la présence des structures dans l’image réduisant d’un facteur 30 le temps d’annotation. De cette façon, l’algorithme est entraîné à prédire le contenu d’une image et extrait ensuite les caractéristiques sémantiques importantes pour la reconnaissance de la structure d’intérêt à l’aide de mécanismes d’attention. La précision de segmentation obtenue sur les images de F-actine est supérieure à celle des annotations polygonales et équivalente à celle des annotations précises d’un expert. Cette nouvelle approche devrait faciliter la quantification des changements dynamiques qui se produisent sous le microscope dans des cellules vivantes et réduire les erreurs causées par l’inattention ou le biais de sélection des régions d’intérêt dans les images de microscopie.
In cell biology, optical microscopy is commonly used to visualize and characterize the presenceand morphology of biological structures. Following the acquisition, an expert will have toannotate the structures for quantification. This is a difficult task, requiring many hours ofwork, sometimes repetitive, which can result in annotation errors caused by labelling fatigue.Machine learning promises to automate complex tasks from a large set of annotated sampledata. My master’s project consists of using weakly supervised techniques, where the anno-tations required for training are reduced and/or less precise, for the segmentation of neuralstructures.I first tested the use of polygons delimiting the structure of interest for the complex taskof segmentation of the neuronal protein F-actin in super-resolution microscopy images. Thecomplexity of the task is supported by the heterogeneous morphology of neurons, the highnumber of instances to segment in an image and the presence of many distractors. Despitethese difficulties, the use of weak annotations has made it possible to quantify an innovativechange in the conformation of the F-actin protein as a function of neuronal activity. I furthersimplified the annotation task by requiring only binary labels that indicate the presence ofstructures in the image, reducing annotation time by a factor of 30. In this way, the algorithmis trained to predict the content of an image and then extract the semantic characteristicsimportant for recognizing the structure of interest using attention mechanisms. The segmen-tation accuracy obtained on F-actin images is higher than that of polygonal annotations andequivalent to that of an expert’s precise annotations. This new approach should facilitate thequantification of dynamic changes that occur under the microscope in living cells and reduceerrors caused by inattention or bias in the selection of regions of interest in microscopy images.

Style APA, Harvard, Vancouver, ISO itp.

16

Léon, Aurélia. "Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS226.

Pełny tekst źródła

Streszczenie:

Cette thèse s’intéresse à la notion de budget pour étudier des problèmes de complexité (complexité en calculs, tâche complexe pour un agent, ou complexité due à une faible quantité de données). En effet, l’objectif principal des techniques actuelles en apprentissage statistique est généralement d’obtenir les meilleures performances possibles, sans se soucier du coût de la tâche. La notion de budget permet de prendre en compte ce paramètre tout en conservant de bonnes performances. Nous nous concentrons d’abord sur des problèmes de classification en grand nombre de classes : la complexité en calcul des algorithmes peut être réduite grâce à l’utilisation d’arbres de décision (ici appris grâce à des techniques d’apprentissage par renforcement budgétisées) ou à l’association de chaque classe à un code (binaire). Nous nous intéressons ensuite aux problèmes d’apprentissage par renforcement et à la découverte d’une hiérarchie qui décompose une tâche en plusieurs tâches plus simples, afin de faciliter l’apprentissage et la généralisation. Cette découverte se fait ici en réduisant l’effort cognitif de l’agent (considéré dans ce travail comme équivalent à la récupération et à l’utilisation d’une observation supplémentaire). Enfin, nous abordons des problèmes de compréhension et de génération d’instructions en langage naturel, où les données sont disponibles en faible quantité : nous testons dans ce but l’utilisation jointe d’un agent qui comprend et d’un agent qui génère les instructions
This thesis deals with the notion of budget to study problems of complexity (it can be computational complexity, a complex task for an agent, or complexity due to a small amount of data). Indeed, the main goal of current techniques in machine learning is usually to obtain the best accuracy, without worrying about the cost of the task. The concept of budget makes it possible to take into account this parameter while maintaining good performances. We first focus on classification problems with a large number of classes: the complexity in those algorithms can be reduced thanks to the use of decision trees (here learned through budgeted reinforcement learning techniques) or the association of each class with a (binary) code. We then deal with reinforcement learning problems and the discovery of a hierarchy that breaks down a (complex) task into simpler tasks to facilitate learning and generalization. Here, this discovery is done by reducing the cognitive effort of the agent (considered in this work as equivalent to the use of an additional observation). Finally, we address problems of understanding and generating instructions in natural language, where data are available in small quantities: we test for this purpose the simultaneous use of an agent that understands and of an agent that generates the instructions

Style APA, Harvard, Vancouver, ISO itp.

17

Feutry, Clément. "Two sides of relevant information : anonymized representation through deep learning and predictor monitoring". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS479.

Pełny tekst źródła

Streszczenie:

Le travail présenté ici est pour une première partie à l'intersection de l'apprentissage profond et anonymisation. Un cadre de travail complet est développé dans le but d'identifier et de retirer, dans une certaine mesure et de manière automatique, les caractéristiques privées d'une identité pour des données de type image. Deux méthodes différentes de traitement des données sont étudiées. Ces deux méthodes partagent une même architecture de réseau en forme de Y et cela malgré des différences concernant les types de couches de neurones utilisés conséquemment à leur objectif d'utilisation. La première méthode de traitement des données concerne la création ex nihilo de représentations anonymisées permettant un compromis entre la conservation des caractéristiques pertinentes et l'altération des caractéristiques privées. Ce cadre de travail a abouti à une nouvelle fonction de perte.Le deuxième type de traitement des données ne fait usage d'aucune information pertinente sur ces données et utilise uniquement des informations privées; ceci signifie que tout ce qui n'est pas une caractéristiques privées est supposé pertinent. Par conséquent les représentations anonymisées sont de même nature que les données initiales (une image est transformée en une image anonymisée). Cette tâche a conduit à un autre type d'architecture (toujours en forme de Y) et a fourni des résultats fortement sensibles au type des données. La seconde partie de mon travail concerne une autre sorte d'information utile : cette partie se concentre sur la surveillance du comportement des prédicteurs. Dans le cadre de l'analyse de "modèle boîte noire", on a uniquement accès aux probabilités que le prédicteur fournit (sans aucune connaissance du type de structure/architecture qui produit ces probabilités). Cette surveillance est effectuée pour détecter des comportements anormaux. L'étude de ces probabilités peut servir d'indicateur d'inadéquation potentiel entre les statistiques des données et les statistiques du modèle. Deux méthodes utilisant différents outils sont présentées. La première compare la fonction de répartition des statistiques de sortie d'un ensemble connu et d'un ensemble de données à tester. La seconde fait intervenir deux outils : un outil reposant sur l'incertitude du classifieur et un autre outil reposant sur la matrice de confusion. Ces méthodes produisent des résultats concluants
The work presented here is for a first part at the cross section of deep learning and anonymization. A full framework was developed in order to identify and remove to a certain extant, in an automated manner, the features linked to an identity in the context of image data. Two different kinds of processing data were explored. They both share the same Y-shaped network architecture despite components of this network varying according to the final purpose. The first one was about building from the ground an anonymized representation that allowed a trade-off between keeping relevant features and tampering private features. This framework has led to a new loss. The second kind of data processing specified no relevant information about the data, only private information, meaning that everything that was not related to private features is assumed relevant. Therefore the anonymized representation shares the same nature as the initial data (e.g. an image is transformed into an anonymized image). This task led to another type of architecture (still in a Y-shape) and provided results strongly dependent on the type of data. The second part of the work is relative to another kind of relevant information: it focuses on the monitoring of predictor behavior. In the context of black box analysis, we only have access to the probabilities outputted by the predictor (without any knowledge of the type of structure/architecture producing these probabilities). This monitoring is done in order to detect abnormal behavior that is an indicator of a potential mismatch between the data statistics and the model statistics. Two methods are presented using different tools. The first one is based on comparing the empirical cumulative distribution of known data and to be tested data. The second one introduces two tools: one relying on the classifier uncertainty and the other relying on the confusion matrix. These methods produce concluding results

Style APA, Harvard, Vancouver, ISO itp.

18

Durand, Thibaut. "Weakly supervised learning for visual recognition". Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066142/document.

Pełny tekst źródła

Streszczenie:

Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet
This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet

Style APA, Harvard, Vancouver, ISO itp.

19

Chen, Hao. "Vers la ré-identification de personnes non-supervisée". Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4014.

Pełny tekst źródła

Streszczenie:

En tant que composant central des systèmes de vidéo-surveillance intelligents, la ré-identification de personnes (ReID) vise à rechercher une personne d'intérêt à travers des caméras qui ne se chevauchent pas. Malgré des améliorations significatives de la ReID supervisée, le processus d'annotation encombrant le rend moins évolutif dans les déploiements réels. De plus, comme les représentations d'apparence peuvent être affectées par des facteurs bruyants, tels que le niveau d'éclairage et les propriétés de la caméra, entre différents domaines, les modèles ReID de personnes subissent une baisse de performances importante en présence d'écarts de domaine. Nous sommes particulièrement intéressés par la conception d'algorithmes capables d'adapter un modèle ReID de personnes à un domaine cible sans supervision humaine. Dans un tel contexte, nous nous concentrons principalement sur la conception de méthodes d'adaptation de domaine non-supervisée et d'apprentissage de représentation non-supervisée pour le ReID de personnes.Dans cette thèse, nous explorons d'abord comment construire des représentations robustes en combinant à la fois des caractéristiques globales et locales sous la condition supervisée. Ensuite, vers un système ReID adaptatif au domaine non-supervisé, nous proposons trois méthodes non-supervisées pour la ReID de personnes, notamment 1) la distillation des connaissances enseignant-étudiant avec des structures de réseau asymétriques pour encourager la diversité des caractéristiques, 2) un cadre d'apprentissage conjoint génératif et contrastif qui génère des vues augmentées avec un réseau génératif pour l'apprentissage contrastif, et 3) explorer les relations inter-instances et concevoir des fonctions de perte conscientes des relations pour une meilleure ReID de personnes basée sur l'apprentissage contrastif.Nos méthodes ont été largement évaluées sur des benchmarks de ReID, tels que Market-1501, DukeMTMC-reID et MSMT17. Les méthodes proposées surpassent considérablement les méthodes précédentes sur les benchmarks de ReID, poussant considérablement la ReID de personnes vers des déploiements dans le monde réel
As a core component of intelligent video surveillance systems, person re-identification (ReID) targets at retrieving a person of interest across non-overlapping cameras. Despite significant improvements in supervised ReID, cumbersome annotation process makes it less scalable in real-world deployments. Moreover, as appearance representations can be affected by noisy factors, such as illumination level and camera properties, between different domains, person ReID models suffer a large performance drop in the presence of domain gaps. We are particularly interested in designing algorithms that can adapt a person ReID model to a target domain without human supervision. In such context, we mainly focus on designing unsupervised domain adaptation and unsupervised representation learning methods for person ReID.In this thesis, we first explore how to build robust representations by combining both global and local features under the supervised condition. Then, towards an unsupervised domain adaptive ReID system, we propose three unsupervised methods for person ReID, including 1) teacher-student knowledge distillation with asymmetric network structures for feature diversity encouragement, 2) joint generative and contrastive learning framework that generates augmented views with a generative adversarial network for contrastive learning, and 3) exploring inter-instance relations and designing relation-aware loss functions for better contrastive learning based person ReID.Our methods have been extensively evaluated on main-stream ReID datasets, such as Market-1501, DukeMTMC-reID and MSMT17. The proposed methods significantly outperform previous methods on the ReID datasets, significantly pushing person ReID to real-world deployments

Style APA, Harvard, Vancouver, ISO itp.

20

Wilson, Dennis G. "Évolution des principes de la conception des réseaux de neurones artificiels". Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30075.

Pełny tekst źródła

Streszczenie:

Le cerveau biologique est composé d'un ensemble d'éléments qui évoluent depuis des millions d'années. Les neurones et autres cellules forment un réseau complexe d'interactions duquel émerge l'intelligence. Bon nombre de concepts neuronaux provenant de l’étude du cerveau biologique ont été utilisés dans des modèles informatiques pour développer les algorithmes d’intelligence artificielle. C'est particulièrement le cas des réseaux neuronaux profonds modernes qui révolutionnent actuellement de nombreux domaines de recherche en informatique tel que la vision par ordinateur, la traduction automatique, le traitement du langage naturel et bien d'autres. Cependant, les réseaux de neurones artificiels ne sont basés que sur un petit sous-ensemble de fonctionnalités biologiques du cerveau. Ils se concentrent souvent sur les fonctions globales, homogènes et à un système complexe et localement hétérogène. Dans cette thèse, nous avons d'examiner le cerveau biologique, des neurones simples aux réseaux capables d'apprendre. Nous avons examiné individuellement la cellule neuronale, la formation des connexions entre les cellules et comment un réseau apprend au fil du temps. Pour chaque composant, nous avons utilisé l'évolution artificielle pour trouver les principes de conception neuronale qui nous avons optimisés pour les réseaux neuronaux artificiels. Nous proposons aussi un modèle fonctionnel du cerveau qui peut être utilisé pour étudier plus en profondeur certains composants du cerveau, incluant toutes les fonctions conçues pour l'optimisation automatique telles que l'évolution. Notre objectif est d'améliorer la performance des réseaux de neurones artificiels par les moyens inspirés des neurosciences modernes. Cependant, en évaluant les effets biologiques dans le contexte d'un agent virtuel, nous espérons également fournir des modèles de cerveau utiles aux biologistes
The biological brain is an ensemble of individual components which have evolved over millions of years. Neurons and other cells interact in a complex network from which intelligence emerges. Many of the neural designs found in the biological brain have been used in computational models to power artificial intelligence, with modern deep neural networks spurring a revolution in computer vision, machine translation, natural language processing, and many more domains. However, artificial neural networks are based on only a small subset of biological functionality of the brain, and often focus on global, homogeneous changes to a system that is complex and locally heterogeneous. In this work, we examine the biological brain, from single neurons to networks capable of learning. We examine individually the neural cell, the formation of connections between cells, and how a network learns over time. For each component, we use artificial evolution to find the principles of neural design that are optimized for artificial neural networks. We then propose a functional model of the brain which can be used to further study select components of the brain, with all functions designed for automatic optimization such as evolution. Our goal, ultimately, is to improve the performance of artificial neural networks through inspiration from modern neuroscience. However, through evaluating the biological brain in the context of an artificial agent, we hope to also provide models of the brain which can serve biologists

Style APA, Harvard, Vancouver, ISO itp.

21

Chandra, Siddhartha. "Apprentissage Profond pour des Prédictions Structurées Efficaces appliqué à la Classification Dense en Vision par Ordinateur". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC033/document.

Pełny tekst źródła

Streszczenie:

Dans cette thèse, nous proposons une technique de prédiction structurée qui combine les vertus des champs aléatoires conditionnels Gaussiens (G-CRF) avec les réseaux de neurones convolutifs (CNN). L’idée à l’origine de cette thèse est l’observation que tout en étant d’une forme limitée, les GCRF nous permettent d’effectuer une inférence exacte de Maximum-A-Posteriori (MAP) de manière efficace. Nous préférons l’exactitude et la simplicité à la généralité et préconisons la prédiction structurée basée sur les G-CRFs dans les chaînes de traitement d’apprentissage en profondeur. Nous proposons des méthodes de prédiction structurées qui permettent de gérer (i) l’inférence exacte, (ii) les interactions par paires à court et à long terme, (iii) les expressions CNN riches pour les termes paires et (iv) l’entraînement de bout en bout aux côtés des CNN. Nous concevons de nouvelles stratégies de mise en œuvre qui nous permettent de surmonter les problèmes de mémoire et de calcul lorsque nous traitons des modèles graphiques entièrement connectés. Ces méthodes sont illustrées par des études expérimentales approfondies qui démontrent leur utilité. En effet, nos méthodes permettent une amélioration des résultats vis-à-vis de L’état de l’art sur des applications variées dans le domaine de la vision par ordinateur
In this thesis we propose a structured prediction technique that combines the virtues of Gaussian Conditional Random Fields (G-CRFs) with Convolutional Neural Networks (CNNs). The starting point of this thesis is the observation that while being of a limited form GCRFs allow us to perform exact Maximum-APosteriori (MAP) inference efficiently. We prefer exactness and simplicity over generality and advocate G-CRF based structured prediction in deep learning pipelines. Our proposed structured prediction methods accomodate (i) exact inference, (ii) both shortand long- term pairwise interactions, (iii) rich CNN-based expressions for the pairwise terms, and (iv) end-to-end training alongside CNNs. We devise novel implementation strategies which allow us to overcome memory and computational challenges

Style APA, Harvard, Vancouver, ISO itp.

22

Chen, Xing. "Modeling and simulations of skyrmionic neuromorphic applications". Thesis, université Paris-Saclay, 2022. http://www.theses.fr/2022UPAST083.

Pełny tekst źródła

Streszczenie:

Les nanodispositifs spintroniques, qui exploitent à la fois les propriétés magnétiques et électriques des électrons, apportent diverses caractéristiques intéressantes et prometteuses pour le calcul neuromorphique. Les textures magnétiques, telles que les parois de domaine et les skyrmions, sont particulièrement intrigantes en tant que composants neuromorphiques, car elles peuvent prendre en charge différentes fonctionnalités grâce à la richesse de leurs mécanismes physiques. La façon dont la dynamique des skyrmions peut être utilisée pour construire du matériel neuromorphique économe en énergie, et comment l'apprentissage profond peut aider à réaliser des tests et des validations rapides et précis des propositions constituent les sujets centraux de cette thèse. Les principales contributions et innovations de cette thèse peuvent être résumées comme suit : 1. Études numériques et théoriques sur la dynamique des skyrmions dans les nanostructures confinées. Nous explorons la dynamique des skyrmions en termes de taille, de vitesse, d'énergie et de stabilité dans une nanopiste dont la largeur varie. Nous avons constaté que des skyrmions de petite taille pouvaient être obtenus en utilisant cette structure asymétrique. Nous obtenons également un compromis entre la largeur de la nanopiste (densité de stockage) et la vitesse de mouvement du skyrmion (vitesse d'accès aux données). Nous étudions la dynamique du skyrmion sous excitation de tension par l'effet d'anisotropie magnétique contrôlé par la tension dans un film mince circulaire. Nous constatons que le skyrmion respirant peut être analogisé comme un modulateur. Ces résultats pourraient nous aider à concevoir des dispositifs neuromorphiques efficaces. 2. Applications des dispositifs basés sur le skyrmion pour l'informatique neuromorphique. Nous présentons un dispositif compact de neurones de dopage Leaky-Integrate-Fire en exploitant la dynamique du skyrmion entraînée par le courant dans un nanotrack cunéiforme. Nous proposons un générateur de nombres aléatoires véritables basé sur le mouvement brownien thermique continu du skyrmion dans une géométrie confinée à température ambiante. Notre conception est prometteuse pour les systèmes de calcul neuromorphique émergents à faible puissance, tels que les réseaux neuronaux à impulsions et les réseaux neuronaux de calcul stochastique/probabiliste.3. Une approche axée sur les données pour la modélisation des systèmes physiques dynamiques basée sur les équations différentielles ordinaires (ODE) neuronales. Nous montrons que les formalismes adaptés des ODEs neurales, conçus pour la spintronique, peuvent prédire avec précision le comportement d'un nanodispositif non idéal, y compris le bruit, après entraînement sur un ensemble minimal de simulations micromagnétiques ou de données expérimentales, avec de nouvelles entrées et de nouveaux paramètres matériels n'appartenant pas aux données d'entraînement. Grâce à cette stratégie de modélisation, nous pouvons effectuer des tâches de calcul plus complexes, telles que les prédictions de séries temporelles Mackey-Glass et la reconnaissance de chiffres parlés, en utilisant les modèles entraînés de systèmes spintroniques, avec une précision élevée et une vitesse rapide par rapport aux simulations micromagnétiques conventionnelles
Spintronics nanodevices, which exploit both the magnetic and electrical properties of electrons, have emerged to bring various exciting characteristics promising for neuromorphic computing. Magnetic textures, such as domain walls and skyrmions, are particularly intriguing as neuromorphic components because they can support different functionalities due to their rich physical mechanisms. How the skyrmion dynamics can be utilized to build energy efficient neuromorphic hardware, and how deep learning can help achieve fast and accurate tests and validations of the proposals form the central topics of this thesis. The major contributions and innovations of this thesis can be summarized as follows: 1. Numerical and theoretical studies on skyrmion dynamics in confined nanostructures. We explore the skyrmion dynamics in terms of size, velocity, energy, and stability in a width-varying nanotrack. We found nanoscale skyrmion with small sizes could be obtained by employing this asymmetric structure. We also obtain a tradeoff between the nanotrack width (storage density) and the skyrmion motion velocity (data access speed). We study the skyrmion dynamics under voltage excitation through the voltage-controlled magnetic anisotropy effect in a circular thin film. We find that the breathing skyrmion can be analogized as a modulator. These findings could help us design efficient neuromorphic devices. 2. Skyrmion based device applications for neuromorphic computing. We present a compact Leaky-Integrate-Fire spiking neuron device by exploiting the current-driven skyrmion dynamics in a wedge-shaped nanotrack. We propose a True random number generators based on continuous skyrmion thermal Brownian motion in a confined geometry at room temperature. Our design are promising in emerging low power neuromorphic computing system, such as spiking neural network and stochastic/ probabilistic computing neuron network.3. A data-driven approach for modeling dynamical physical systems based on the Neural Ordinary Differential Equations (ODEs). We show that the adapted formalisms of Neural ODEs, designed for spintronics, can accurately predict the behavior of a non-ideal nanodevice, including noise, after training on a minimal set of micromagnetic simulations or experimental data, with new inputs and material parameters not belonging to the training data. With this modeling strategy, we can perform more complicated computational tasks, such as Mackey-Glass time-series predictions and spoken digit recognition, using the trained models of spintronic systems, with high accuracy and fast speed compared to conventional micromagnetic simulations

Style APA, Harvard, Vancouver, ISO itp.

23

Zimmer, Matthieu. "Apprentissage par renforcement développemental". Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Pełny tekst źródła

Streszczenie:

L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur
Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space

Style APA, Harvard, Vancouver, ISO itp.

24

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond". Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Pełny tekst źródła

Streszczenie:

La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent
Early classification (EC) of time series is a recent research topic in the field of sequential data analysis. It consists in assigning a label to some data that is sequentially collected with new data points arriving over time, and the prediction of a label has to be made using as few data points as possible in the sequence. The EC problem is of paramount importance for supporting decision makers in many real-world applications, ranging from process control to fraud detection. It is particularly interesting for applications concerned with the costs induced by the acquisition of data points, or for applications which seek for rapid label prediction in order to take early actions. This is for example the case in the field of health, where it is necessary to provide a medical diagnosis as soon as possible from the sequence of medical observations collected over time. Another example is predictive maintenance with the objective to anticipate the breakdown of a machine from its sensor signals. In this doctoral work, we developed a new approach for this problem, based on the formulation of a sequential decision making problem, that is the EC model has to decide between classifying an incomplete sequence or delaying the prediction to collect additional data points. Specifically, we described this problem as a Partially Observable Markov Decision Process noted EC-POMDP. The approach consists in training an EC agent with Deep Reinforcement Learning (DRL) in an environment characterized by the EC-POMDP. The main motivation for this approach was to offer an end-to-end model for EC which is able to simultaneously learn optimal patterns in the sequences for classification and optimal strategic decisions for the time of prediction. Also, the method allows to set the importance of time against accuracy of the classification in the definition of rewards, according to the application and its willingness to make this compromise. In order to solve the EC-POMDP and model the policy of the EC agent, we applied an existing DRL algorithm, the Double Deep-Q-Network algorithm, whose general principle is to update the policy of the agent during training episodes, using a replay memory of past experiences. We showed that the application of the original algorithm to the EC problem lead to imbalanced memory issues which can weaken the training of the agent. Consequently, to cope with those issues and offer a more robust training of the agent, we adapted the algorithm to the EC-POMDP specificities and we introduced strategies of memory management and episode management. In experiments, we showed that these contributions improved the performance of the agent over the original algorithm, and that we were able to train an EC agent which compromised between speed and accuracy, on each sequence individually. We were also able to train EC agents on public datasets for which we have no expertise, showing that the method is applicable to various domains. Finally, we proposed some strategies to interpret the decisions of the agent, validate or reject them. In experiments, we showed how these solutions can help gain insight in the choice of action made by the agent

Style APA, Harvard, Vancouver, ISO itp.

25

Ben-Younes, Hedi. "Multi-modal representation learning towards visual reasoning". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS173.

Pełny tekst źródła

Streszczenie:

La quantité d'images présentes sur internet augmente considérablement, et il est nécessaire de développer des techniques permettant le traitement automatique de ces contenus. Alors que les méthodes de reconnaissance visuelle sont de plus en plus évoluées, la communauté scientifique s'intéresse désormais à des systèmes aux capacités de raisonnement plus poussées. Dans cette thèse, nous nous intéressons au Visual Question Answering (VQA), qui consiste en la conception de systèmes capables de répondre à une question portant sur une image. Classiquement, ces architectures sont conçues comme des systèmes d'apprentissage automatique auxquels on fournit des images, des questions et leur réponse. Ce problème difficile est habituellement abordé par des techniques d'apprentissage profond. Dans la première partie de cette thèse, nous développons des stratégies de fusion multimodales permettant de modéliser des interactions entre les représentations d'image et de question. Nous explorons des techniques de fusion bilinéaire, et assurons l'expressivité et la simplicité des modèles en utilisant des techniques de factorisation tensorielle. Dans la seconde partie, on s'intéresse au raisonnement visuel qui encapsule ces fusions. Après avoir présenté les schémas classiques d'attention visuelle, nous proposons une architecture plus avancée qui considère les objets ainsi que leurs relations mutuelles. Tous les modèles sont expérimentalement évalués sur des jeux de données standards et obtiennent des résultats compétitifs avec ceux de la littérature
The quantity of images that populate the Internet is dramatically increasing. It becomes of critical importance to develop the technology for a precise and automatic understanding of visual contents. As image recognition systems are becoming more and more relevant, researchers in artificial intelligence now seek for the next generation vision systems that can perform high-level scene understanding. In this thesis, we are interested in Visual Question Answering (VQA), which consists in building models that answer any natural language question about any image. Because of its nature and complexity, VQA is often considered as a proxy for visual reasoning. Classically, VQA architectures are designed as trainable systems that are provided with images, questions about them and their answers. To tackle this problem, typical approaches involve modern Deep Learning (DL) techniques. In the first part, we focus on developping multi-modal fusion strategies to model the interactions between image and question representations. More specifically, we explore bilinear fusion models and exploit concepts from tensor analysis to provide tractable and expressive factorizations of parameters. These fusion mechanisms are studied under the widely used visual attention framework: the answer to the question is provided by focusing only on the relevant image regions. In the last part, we move away from the attention mechanism and build a more advanced scene understanding architecture where we consider objects and their spatial and semantic relations. All models are thoroughly experimentally evaluated on standard datasets and the results are competitive with the literature

Style APA, Harvard, Vancouver, ISO itp.

26

Abou, Bakr Nachwa. "Reconnaissance et modélisation des actions de manipulation". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM010.

Pełny tekst źródła

Streszczenie:

Cette thèse aborde le problème de la reconnaissance, de la modélisation et de ladescription des activités humaines. Nous décrivons nos résultats sur trois problèmes : (1) l’utilisation de l’apprentissage par transfert pour la reconnaissance visuelle simultanée d’objets et de leur état, (2) la reconnaissance d’actions de manipulation à partir de transitions d’états, et (3) l’interprétation d’une série d’actions et d’états comme les événements d’une histoire prédéfinie afin d’en construire une description narrative.Ces résultats ont été développés en utilisant les activités culinaires comme domaine expérimental. Nous commençons par reconnaître les ingrédients comme les tomates et la laitue et les ingrédients tranchés et coupés en dés pendant la préparation d’un repas. Nous adaptons l’architecture VGG afin d’apprendre conjointement les représentations des ingrédients et de leurs états selon une approche par transfert d’apprentissage. Nous modélisons les actions en tant que transformations d’état d’objets. Nous détectons ainsi les actions de manipulation en suivant les transformations des propriétés correspondantes des objets (état et type) dans la vidéo. L’évaluation expérimentale de cette approche est réalisée en se servant des jeux de données 50 salads et EPIC-Kitchen. Nous utilisons les descriptions des actions qui en résultent pour construire les descriptions narratives des activités complexes observées dans les vidéos du jeu de données 50 salads
This thesis addresses the problem of recognition, modelling and description of human activities. We describe results on three problems: (1) the use of transfer learning for simultaneous visual recognition of objects and object states, (2) the recognition of manipulation actions from state transitions, and (3) the interpretation of a series of actions and states as events in a predefined story to construct a narrative description.These results have been developed using food preparation activities as an experimental domain. We start by recognising food classes such as tomatoes and lettuce and food states, such as sliced and diced, during meal preparation. We adapt the VGG network architecture to jointly learn the representations of food items and food states using transfer learning. We model actions as the transformation of object states. We use recognised object properties (state and type) to detect corresponding manipulation actions by tracking object transformations in the video. Experimental performance evaluation for this approach is provided using the 50 salads and EPIC-Kitchen datasets. We use the resulting action descriptions to construct narrative descriptions for complex activities observed in videos of 50 salads dataset

Style APA, Harvard, Vancouver, ISO itp.

27

Hocquet, Guillaume. "Class Incremental Continual Learning in Deep Neural Networks". Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPAST070.

Pełny tekst źródła

Streszczenie:

Nous nous intéressons au problème de l'apprentissage continu de réseaux de neurones artificiels dans le cas où les données ne sont accessibles que pour une seule catégorie à la fois. Pour remédier au problème de l'oubli catastrophique qui limite les performances d'apprentissage dans ces conditions, nous proposons une approche basée sur la représentation des données d'une catégorie par une loi normale. Les transformations associées à ces représentations sont effectuées à l'aide de réseaux inversibles, qui peuvent alors être entraînés avec les données d'une seule catégorie. Chaque catégorie se voit attribuer un réseau pour représenter ses caractéristiques. Prédire la catégorie revient alors à identifier le réseau le plus représentatif. L'avantage d'une telle approche est qu'une fois qu'un réseau est entraîné, il n'est plus nécessaire de le mettre à jour par la suite, chaque réseau étant indépendant des autres. C'est cette propriété particulièrement avantageuse qui démarque notre méthode des précédents travaux dans ce domaine. Nous appuyons notre démonstration sur des expériences réalisées sur divers jeux de données et montrons que notre approche fonctionne favorablement comparé à l'état de l'art. Dans un second temps, nous proposons d'optimiser notre approche en réduisant son impact en mémoire en factorisant les paramètres des réseaux. Il est alors possible de réduire significativement le coût de stockage de ces réseaux avec une perte de performances limitée. Enfin, nous étudions également des stratégies pour produire des réseaux capables d'être réutilisés sur le long terme et nous montrons leur pertinence par rapport aux réseaux traditionnellement utilisés pour l'apprentissage continu
We are interested in the problem of continual learning of artificial neural networks in the case where the data are available for only one class at a time. To address the problem of catastrophic forgetting that restrain the learning performances in these conditions, we propose an approach based on the representation of the data of a class by a normal distribution. The transformations associated with these representations are performed using invertible neural networks, which can be trained with the data of a single class. Each class is assigned a network that will model its features. In this setting, predicting the class of a sample corresponds to identifying the network that best fit the sample. The advantage of such an approach is that once a network is trained, it is no longer necessary to update it later, as each network is independent of the others. It is this particularly advantageous property that sets our method apart from previous work in this area. We support our demonstration with experiments performed on various datasets and show that our approach performs favorably compared to the state of the art. Subsequently, we propose to optimize our approach by reducing its impact on memory by factoring the network parameters. It is then possible to significantly reduce the storage cost of these networks with a limited performance loss. Finally, we also study strategies to produce efficient feature extractor models for continual learning and we show their relevance compared to the networks traditionally used for continual learning

Style APA, Harvard, Vancouver, ISO itp.

28

Othmani-Guibourg, Mehdi. "Supervised learning for distribution of centralised multiagent patrolling strategies". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS534.

Pełny tekst źródła

Streszczenie:

Depuis presque deux décennies, la tâche de la patrouille a fait l'objet d'une attention toute particulière de la part de la communauté multi-agent. La patrouille multi-agent consiste à modéliser comme un système multi-agent une tâche de patrouille à optimiser. Cette optimisation revient à répartir dans l'espace et le temps les agents patrouilleurs sur la zone à surveiller, cela le plus efficacement possible; un tel problème constitue par là même un problème de décision. Un large éventail d'algorithmes basés sur des stratégies d’agent réactives, cognitives, d’apprentissage par renforcement, centralisées et décentralisées, entre autres, ont été développés pour rendre les stratégies de patrouille toujours plus performantes. Cependant, les approches existantes basées sur de l'apprentissage supervisé avaient peu été étudiées jusqu’à présent, bien que quelques travaux aient abordé cette question. L’idée principale et sous-jacente à l'apprentissage supervisé, qui n’est rien de plus qu’un ensemble de méthodes et d'outils permettant d’inférer de nouvelles connaissances, est d’apprendre une fonction associant à tout élément en entrée un élément en sortie, à partir d'un ensemble de données composé de paires d'éléments entrées-sorties; l'apprentissage, dans ce cas, permet au système de faire de la généralisation à de nouvelles données jamais observées auparavant. Jusqu'à présent, la meilleure stratégie de patrouille multi-agent en ligne, à savoir sans calcul préalable, s'est avérée être une stratégie centralisée à coordinateur. Cependant, comme pour tout processus de décision centralisé généralement, une telle stratégie est difficilement échelonnable. L'objectif de ce travail est alors de développer et de mettre en œuvre une nouvelle méthodologie visant à transformer toute stratégie centralisée performante en stratégie distribuée, c'est-à-dire par nature résiliente, plus adaptative aux changements de l'environnement et échelonnable. Ce faisant, le processus de décision centralisé, généralement représenté par un coordinateur dans la patrouille multi-agent, est distribué sur les agents patrouilleurs au moyen de méthodes d’apprentissage supervisé, de sorte que les agents de la stratégie distribuée résultante tendent chacun à capturer ou cristalliser une partie de l’algorithme exécuté par le processus de décision centralisé. Le résultat est alors un nouveau algorithme de prise de décision distribué, qui repose sur de l’apprentissage automatique. Dans cette thèse, une telle procédure de distribution de stratégie centralisée est établie, puis concrètement mise en œuvre en utilisant certaines architectures de réseaux de neurones. Ainsi, après avoir exposé le contexte et les motivations, nous posons la problématique étudiée. Les principales stratégies multi-agent élaborées jusqu'à présent dans le cadre de la patrouille multi-agent sont ensuite décrites, en particulier une stratégie centralisée à haute performance qui est la stratégie centralisée à distribuer ici étudiée, ainsi qu’une stratégie décentralisée assez simple qui est utilisée comme référence pour les stratégies décentralisées. Entre autres, quelques stratégies basées sur de l’apprentissage supervisé sont aussi décrites. Ensuite, le modèle ainsi que certains concept fondamentaux du problème de la patrouille multi-agent sont définis
For nearly two decades, patrolling has received significant attention from the multiagent community. Multiagent patrolling (MAP) consists in modelling a patrol task to optimise as a multiagent system. The problem of optimising a patrol task is to distribute the most efficiently agents over the area to patrol in space and time, which constitutes a decision-making problem. A range of algorithms based on reactive, cognitive, reinforcement learning, centralised and decentralised strategies, amongst others, have been developed to make such a task ever more efficient. However, the existing patrolling-specific approaches based on supervised learning were still at preliminary stages, although a few works addressed this issue. Central to supervised learning, which is a set of methods and tools that allow inferring new knowledge, is the idea of learning a function mapping any input to an output from a sample of data composed of input-output pairs; learning, in this case, enables the system to generalise to new data never observed before. Until now, the best online MAP strategy, namely without precalculation, has turned out to be a centralised strategy with a coordinator. However, as for any centralised decision process in general, such a strategy is hardly scalable. The purpose of this work is then to develop and implement a new methodology aiming at turning any high-performance centralised strategy into a distributed strategy. Indeed, distributed strategies are by design resilient, more adaptive to changes in the environment, and scalable. In doing so, the centralised decision process, generally represented in MAP by a coordinator, is distributed into patrolling agents by means of supervised learning methods, so that each agent of the resultant distributed strategy tends to capture a part of the algorithm executed by the centralised decision process. The outcome is a new distributed decision-making algorithm based on machine learning. In this dissertation therefore, such a procedure of distribution of centralised strategy is established, then concretely implemented using some artificial neural networks architectures. By doing so, after having exposed the context and motivations of this work, we pose the problematic that led our study. The main multiagent strategies devised until now as part of MAP are then described, particularly a high-performance coordinated strategy, which is the centralised strategy studied in this work, as well as a simple decentralised strategy used as reference for decentralised strategies. Among others, some existing strategies based on supervised learning are also described. Thereafter, the model as well as certain of key concepts of MAP are defined. We also define the methodology laid down to address and study this problematic. This methodology comes in the form of a procedure that allows decentralising any centralised strategy by means of supervised learning. Then, the software ecosystem we developed for the needs of this work is also described, particularly PyTrol a discrete-time simulator dedicated to MAP developed with the aim of performing MAP simulation, to assess strategies and generate data, and MAPTrainer, a framework hinging on the PyTorch machine learning library, dedicated to research in machine learning in the context of MAP

Style APA, Harvard, Vancouver, ISO itp.

29

Chen, Mickaël. "Learning with weak supervision using deep generative networks". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS024.

Pełny tekst źródła

Streszczenie:

Nombre des succès de l’apprentissage profond reposent sur la disponibilité de données massivement collectées et annotées, exploités par des algorithmes supervisés. Ces annotations, cependant, peuvent s’avérer difficiles à obtenir. La conception de méthodes peu gourmandes en annotations est ainsi un enjeu important, abordé dans des approches semi-supervisées ou faiblement supervisées. Par ailleurs ont été récemment introduit les réseaux génératifs profonds, capable de manipuler des distributions complexes et à l’origine d’avancées majeures, en édition d’image et en adaptation de domaine par exemple. Dans cette thèse, nous explorons comment ces outils nouveaux peuvent être exploités pour réduire les besoins en annotations. En premier lieu, nous abordons la tâche de prédiction stochastique. Il s’agit de concevoir des systèmes de prédiction structurée tenant compte de la diversité des réponses possibles. Nous proposons dans ce cadre deux modèles, le premier pour des données multi-vues avec vues manquantes, et le second pour la prédiction de futurs possibles d'une séquence vidéo. Ensuite, nous étudions la décomposition en deux facteurs latents indépendants dans le cas où un seul facteur est annoté. Nous proposons des modèles qui visent à retrouver des représentations latentes sémantiquement cohérentes de ces facteurs explicatifs. Le premier modèle est appliqué en génération de données de capture de mouvements, le second, sur des données multi-vues. Enfin, nous nous attaquons au problème, crucial en vision par ordinateur, de la segmentation d’image. Nous proposons un modèle, inspiré des idées développées dans cette thèse, de segmentation d’objet entièrement non supervisé
Many successes of deep learning rely on the availability of massive annotated datasets that can be exploited by supervised algorithms. Obtaining those labels at a large scale, however, can be difficult, or even impossible in many situations. Designing methods that are less dependent on annotations is therefore a major research topic, and many semi-supervised and weakly supervised methods have been proposed. Meanwhile, the recent introduction of deep generative networks provided deep learning methods with the ability to manipulate complex distributions, allowing for breakthroughs in tasks such as image edition and domain adaptation. In this thesis, we explore how these new tools can be useful to further alleviate the need for annotations. Firstly, we tackle the task of performing stochastic predictions. It consists in designing systems for structured prediction that take into account the variability in possible outputs. We propose, in this context, two models. The first one performs predictions on multi-view data with missing views, and the second one predicts possible futures of a video sequence. Then, we study adversarial methods to learn a factorized latent space, in a setting with two explanatory factors but only one of them is annotated. We propose models that aim to uncover semantically consistent latent representations for those factors. One model is applied to the conditional generation of motion capture data, and another one to multi-view data. Finally, we focus on the task of image segmentation, which is of crucial importance in computer vision. Building on previously explored ideas, we propose a model for object segmentation that is entirely unsupervised

Style APA, Harvard, Vancouver, ISO itp.

30

Tardy, Mickael. "Deep learning for computer-aided early diagnosis of breast cancer". Thesis, Ecole centrale de Nantes, 2021. http://www.theses.fr/2021ECDN0035.

Pełny tekst źródła

Streszczenie:

Le cancer du sein est un des plus répandus chez la femme. Le dépistage systématique permet de baisser le taux de mortalité mais crée une charge de travail importante pour les professionnels de santé. Des outils d’aide au diagnostic sont conçus pour réduire ladite charge, mais un niveau de performance élevé est attendu. Les techniques d’apprentissage profond peuvent palier les limitations des algorithmes de traitement d’image traditionnel et apporter une véritable aide à la décision. Néanmoins, plusieurs verrous technologiques sont associés à l’apprentissage profond appliqué à l’imagerie du sein, tels que l’hétérogénéité et le déséquilibre de données, le manque d’annotations, ainsi que la haute résolution d’imagerie. Confrontés auxdits verrous, nous abordons la problématique d’aide au diagnostic de plusieurs angles et nous proposons plusieurs méthodes constituant un outil complet. Ainsi, nous proposons deux méthodes d’évaluation de densité du sein étant un des facteur de risque, une méthode de détection d’anormalités, une technique d’estimation d’incertitude d’un classifieur basé sur des réseaux neuronaux, et une méthode de transfert de connaissances depuis mammographie 2D vers l’imagerie de tomosynthèse. Nos méthodes contribuent notamment à l’état de l’art des méthodes d’apprentissage faible et ouvrent des nouvelles voies de recherche
Breast cancer has the highest incidence amongst women. Regular screening allows to reduce the mortality rate, but creates a heavy workload for clinicians. To reduce it, the computer-aided diagnosis tools are designed, but a high level of performances is expected. Deep learning techniques have a potential to overcome the limitations of the traditional image processing algorithms. Although several challenges come with the deep learning applied to breast imaging, including heterogeneous and unbalanced data, limited amount of annotations, and high resolution. Facing these challenges, we approach the problem from multiple angles and propose several methods integrated in complete solution. Hence, we propose two methods for the assessment of the breast density as one of the cancer development risk factors, a method for abnormality detection, a method for uncertainty estimation of a classifier, and a method of transfer knowledge from mammography to tomosynthesis. Our methods contribute to the state of the art of weakly supervised learning and open new paths for further research

Style APA, Harvard, Vancouver, ISO itp.

31

Desir, Chesner. "Classification Automatique d'Images, Application à l'Imagerie du Poumon Profond". Phd thesis, Université de Rouen, 2013. http://tel.archives-ouvertes.fr/tel-00879356.

Pełny tekst źródła

Streszczenie:

Cette thèse porte sur la classification automatique d'images, appliquée aux images acquises par alvéoscopie, une nouvelle technique d'imagerie du poumon profond. L'objectif est la conception et le développement d'un système d'aide au diagnostic permettant d'aider le praticien à analyser ces images jamais vues auparavant. Nous avons élaboré, au travers de deux contributions, des méthodes performantes, génériques et robustes permettant de classer de façon satisfaisante les images de patients sains et pathologiques. Nous avons proposé un premier système complet de classification basé à la fois sur une caractérisation locale et riche du contenu des images, une approche de classification par méthodes d'ensemble d'arbres aléatoires et un mécanisme de pilotage du rejet de décision, fournissant à l'expert médical un moyen de renforcer la fiabilité du système. Face à la complexité des images alvéoscopiques et la difficulté de caractériser les cas pathologiques, contrairement aux cas sains, nous nous sommes orientés vers la classification one-class qui permet d'apprendre à partir des seules données des cas sains. Nous avons alors proposé une approche one-class tirant partie des mécanismes de combinaison et d'injection d'aléatoire des méthodes d'ensemble d'arbres de décision pour répondre aux difficultés rencontrées dans les approches standards, notamment la malédiction de la dimension. Les résultats obtenus montrent que notre méthode est performante, robuste à la dimension, compétitive et même meilleure comparée aux méthodes de l'état de l'art sur une grande variété de bases publiques. Elle s'est notamment avérée pertinente pour notre problématique médicale.

Style APA, Harvard, Vancouver, ISO itp.

32

Francis, Danny. "Représentations sémantiques d'images et de vidéos". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS605.

Pełny tekst źródła

Streszczenie:

Des travaux de recherche récents en apprentissage profond ont permis d’améliorer significativement les performances des modèles multimédias : avec la création de grands jeux de données d’images ou de vidéos annotées, les réseaux de neurones profonds ont surpassé les modèles précédemment utilisés dans la plupart des cas. Dans cette thèse, nous avons développé de nouveaux modèles neuronaux profonds permettant de générer des représentations sémantiques d’images et de vidéos. Nous nous sommes intéressés à deux tâches principales : l’appariement d’images ou de vidéos et de textes, et la génération automatique de légendes. La tâche d’appariement peut être réalisée par le biais d’un espace multimodal commun permettant de comparer images ou vidéos et textes. Nous avons pour cela défini deux types de modèles d’appariement en nous inspirant des travaux récents sur les réseaux de capsules. La génération automatique de légendes textuelles est une tâche ardue, puisqu’elle demande à analyser un objet visuel, et à le transcrire en une description en langage naturel. Pour cela, nous proposons deux méthodes d’apprentissage par curriculum. Par ailleurs, nous avons défini une méthode permettant à un modèle de génération de légendes de vidéos de combiner des informations spatiales et temporelles. Des expériences ont permis de prouver l’intérêt de nos propositions par rapport aux travaux existants
Recent research in Deep Learning has sent the quality of results in multimedia tasks rocketing: thanks to new big datasets of annotated images and videos, Deep Neural Networks (DNN) have outperformed other models in most cases. In this thesis, we aim at developing DNN models for automatically deriving semantic representations of images and videos. In particular we focus on two main tasks : vision-text matching and image/video automatic captioning. Addressing the matching task can be done by comparing visual objects and texts in a visual space, a textual space or a multimodal space. Based on recent works on capsule networks, we define two novel models to address the vision-text matching problem: Recurrent Capsule Networks and Gated Recurrent Capsules. In image and video captioning, we have to tackle a challenging task where a visual object has to be analyzed, and translated into a textual description in natural language. For that purpose, we propose two novel curriculum learning methods. Moreover regarding video captioning, analyzing videos requires not only to parse still images, but also to draw correspondences through time. We propose a novel Learned Spatio-Temporal Adaptive Pooling method for video captioning that combines spatial and temporal analysis. Extensive experiments on standard datasets assess the interest of our models and methods with respect to existing works

Style APA, Harvard, Vancouver, ISO itp.

33

Pageaud, Simon. "SmartGov : architecture générique pour la co-construction de politiques urbaines basée sur l'apprentissage par renforcement multi-agent". Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1128.

Pełny tekst źródła

Streszczenie:

Dans cette thèse, nous proposons un outil SmartGov, mixant simulation multi-agents et apprentissage multi-agents par renforcement profond, pour permettre la co-construction de politiques urbaines et inscrire les acteurs de la ville dans la boucle de conception. La Smart City permet à l’outil d’intégrer les données collectées par les capteurs présents dans la ville pour la modéliser de façon réaliste. Notre première contribution est une architecture générique pour construire une simulation multi-agents représentant la ville, et étudier l’émergence de comportement globaux avec des agents réalistes capables de réagir aux décisions politiques. Grâce à une modélisation multi-niveaux, et le couplage de différentes dynamiques, le système apprend les spécificités de l’environnement pour proposer des politiques pertinentes. Notre seconde contribution concerne l'autonomie et l'adaptation de la couche décisionnelle avec un apprentissage par renforcement multi-agents et multi-niveaux. Un ensemble d'agents, regroupés en clusters, est distribué dans le périmètre étudié pour apprendre des spécificités locales sans connaissance a priori de son environnement. L’attribution d’un score de confiance et de récompenses individuelles permettent d'atténuer l'impact de la non-stationnarité sur la réutilisation d'expériences nécessaire à l'apprentissage profond. Ces contributions conduisent à un système complet de co-construction de politiques urbaines dans le contexte de la Smart City. Nous comparons notre modèle avec d'autres approches de la littérature sur une politique de tarification du stationnement urbain, afin de mettre en évidence les apports et les limites de nos contributions
In this thesis, we propose the SmartGov model, coupling multi-agent simulation and multi-agent deep reinforcement learning, to help co-construct urban policies and integrate all stakeholders in the decision process. Smart Cities provide sensor data from the urban areas to increase realism of the simulation in SmartGov.Our first contribution is a generic architecture for multi-agent simulation of the city to study global behavior emergence with realistic agents reacting to political decisions. With a multi-level modeling and a coupling of different dynamics, our tool learns environment specificities and suggests relevant policies. Our second contribution improves autonomy and adaptation of the decision function with multi-agent, multi-level reinforcement learning. A set of clustered agents is distributed over the studied area to learn local specificities without any prior knowledge on the environment. Trust score assignment and individual rewards help reduce non-stationary impact on experience replay in deep reinforcement learning.These contributions bring forth a complete system to co-construct urban policies in the Smart City. We compare our model with different approaches from the literature on a parking fee policy to display the benefits and limits of our contributions

Style APA, Harvard, Vancouver, ISO itp.

34

Cabanes, Quentin. "New hardware platform-based deep learning co-design methodology for CPS prototyping : Objects recognition in autonomous vehicle case-study". Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG042.

Pełny tekst źródła

Streszczenie:

Les Systèmes Cyber-Physiques (SCP) sont un sujet de recherche mature qui interagissent avec l'intelligence artificielle (IA) et les systèmes embarqués (SE). Un SCP peut être défini comme un SE en réseau qui peut analyser un environnement physique, via des capteurs, et prendre des décisions à partir de son état actuel pour l'affecter vers un résultat souhaité, via des actionneurs. Ces SCP nécessitent des algorithmes puissants associés à des architectures matérielles robustes. D'une part, l'Apprentissage en Profondeur (AP) est proposé comme algorithme principal. D'autre part, les méthodologies de conception et de prototypage standard pour SE ne sont pas adaptées au SCP moderne basé sur de l'AP. Dans cette thèse, nous étudions la conception d'IA pour SCP autour de l'AP embarquée avec une plate-forme hybride CPU/FPGA. Nous avons proposé une méthodologie pour développer des applications d'AP pour SCP qui est basée sur l'utilisation d'un accélérateur de réseau de neurones et d'un logiciel d'automatisation pour accélérer le temps de prototypage. Nous présentons la conception et le prototypage de notre accélérateur matériel de réseau de neurones. Enfin, nous validons notre travail à l'aide d'un cas d'usage: un LIDAR (LIght Detection And Ranging) intelligent. Ce cas d'usage est accompagné de plusieurs algorithmes de détection de piétons à l'aide du nuage de points 3D d'un LIDAR
Cyber-Physical Systems (CPSs) are a mature research technology topic that deals with Artificial Intelligence (AI) and Embedded Systems (ES). A CPS can be defined as a networked ES that can analyze a physical environment, via sensors, and make decisions from its current state to affect it toward a desired outcome via actuators. These CPS deal with data analysis, which need powerful algorithms combined with robust hardware architectures. On one hand, Deep Learning (DL) is proposed as the main solution algorithm. On the other hand, the standard design and prototyping methodologies for ES are not adapted to modern DL-based CPS. In this thesis, we investigate AI design for CPS around embedded DL using a hybrid CPU/FPGA platform. We proposed a methodology to develop DL applications for CPS which is based on the usage of a neural network accelerator and an automation software to speed up the prototyping time. We present our hardware neural network accelerator design and prototyping. Finally, we validate our work using a smart LIDAR (LIght Detection And Ranging) application use-case with several algorithms for pedestrians detection using a 3D point cloud from a LIDAR

Style APA, Harvard, Vancouver, ISO itp.

35

Mehr, Éloi. "Unsupervised Learning of 3D Shape Spaces for 3D Modeling". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS566.

Pełny tekst źródła

Streszczenie:

Bien que les données 3D soient de plus en plus populaires, en particulier avec la démocratisation des expériences de réalité virtuelle et augmentée, il reste très difficile de manipuler une forme 3D, même pour des designers ou des experts. Partant d’une base de données d’instances 3D d’une ou plusieurs catégories d’objets, nous voulons apprendre la variété des formes plausibles en vue de développer de nouveaux outils intelligents de modélisation et d’édition 3D. Cependant, cette variété est souvent bien plus complexe comparée au domaine 2D. En effet, les surfaces 3D peuvent être représentées en utilisant plusieurs plongements distincts, et peuvent aussi exhiber des alignements ou des topologies différentes. Dans cette thèse, nous étudions la variété des formes plausibles à la lumière des défis évoqués précédemment, en approfondissant trois points de vue différents. Tout d'abord, nous considérons la variété comme un espace quotient, dans le but d’apprendre la géométrie intrinsèque des formes à partir d’une base de données où les modèles 3D ne sont pas co-alignés. Ensuite, nous supposons que la variété est non connexe, ce qui aboutit à un nouveau modèle d’apprentissage profond capable d’automatiquement partitionner et apprendre les formes selon leur typologie. Enfin, nous étudions la conversion d’une entrée 3D non structurée vers une géométrie exacte, représentée comme un arbre structuré de primitives solides continues
Even though 3D data is becoming increasingly more popular, especially with the democratization of virtual and augmented experiences, it remains very difficult to manipulate a 3D shape, even for designers or experts. Given a database containing 3D instances of one or several categories of objects, we want to learn the manifold of plausible shapes in order to develop new intelligent 3D modeling and editing tools. However, this manifold is often much more complex compared to the 2D domain. Indeed, 3D surfaces can be represented using various embeddings, and may also exhibit different alignments and topologies. In this thesis we study the manifold of plausible shapes in the light of the aforementioned challenges, by deepening three different points of view. First of all, we consider the manifold as a quotient space, in order to learn the shapes’ intrinsic geometry from a dataset where the 3D models are not co-aligned. Then, we assume that the manifold is disconnected, which leads to a new deep learning model that is able to automatically cluster and learn the shapes according to their typology. Finally, we study the conversion of an unstructured 3D input to an exact geometry, represented as a structured tree of continuous solid primitives

Style APA, Harvard, Vancouver, ISO itp.

36

Blot, Michaël. "Étude de l'apprentissage et de la généralisation des réseaux profonds en classification d'images". Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS412.

Pełny tekst źródła

Streszczenie:

L'intelligence artificielle connait une résurgence ces dernières années. En cause, la capacité croissante à rassembler et à stocker un nombre considérable de données digitalisées. Ces immenses bases de données permettent aux algorithmes de machine learning de répondre à certaines tâches par apprentissage supervisé. Parmi les données digitalisées, les images demeurent prépondérantes dans l’environnement moderne. D'immenses datasets ont été constitués. De plus, la classification d'image a permis l’essor de modèles jusqu'alors négligés, les réseaux de neurones profonds ou deep learning. Cette famille d'algorithmes démontre une grande facilité à apprendre parfaitement des datasets, même de très grande taille. Leurs capacités de généralisation demeure largement incomprise, mais les réseaux de convolutions sont aujourd'hui l'état de l'art incontesté. D'un point de vue recherche et application du deep learning, les demandes vont être de plus en plus exigeantes, nécessitant de fournir un effort pour porter les performances des réseaux de neurone au maximum de leurs capacités. C'est dans cet objectif que se place nos recherches dont les contributions sont présentées dans cette thèse. Nous nous sommes d'abord penchés sur la question de l'entrainement et avons envisagé d’accélérer celui ci grâce à des méthodes distribuées. Nous avons ensuite étudié les architectures dans le but de les améliorer sans toutefois trop augmenter leurs complexités. Enfin nous avons particulièrement étudié la régularisation de l'entrainement des réseaux. Nous avons envisagé un critère de régularisation basée sur la théorie de l'information que nous avons déployé de deux façons différentes
Artificial intelligence is experiencing a resurgence in recent years. This is due to the growing ability to collect and store a considerable amount of digitized data. These huge databases allow machine learning algorithms to respond to certain tasks through supervised learning. Among the digitized data, images remain predominant in the modern environment. Huge datasets have been created. moreover, the image classification has allowed the development of previously neglected models, deep neural networks or deep learning. This family of algorithms demonstrates a great facility to learn perfectly datasets, even very large. Their ability to generalize remains largely misunderstood, but the networks of convolutions are today the undisputed state of the art. From a research and application point of view of deep learning, the demands will be more and more demanding, requiring to make an effort to bring the performances of the neuron networks to the maximum of their capacities. This is the purpose of our research, whose contributions are presented in this thesis. We first looked at the issue of training and considered accelerating it through distributed methods. We then studied the architectures in order to improve them without increasing their complexity. Finally, we particularly study the regularization of network training. We studied a regularization criterion based on information theory that we deployed in two different ways

Style APA, Harvard, Vancouver, ISO itp.

37

Neverova, Natalia. "Deep learning for human motion analysis". Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEI029/document.

Pełny tekst źródła

Streszczenie:

L'objectif de ce travail est de développer des méthodes avancées d'apprentissage pour l’analyse et l'interprétation automatique du mouvement humain à partir de sources d'information diverses, telles que les images, les vidéos, les cartes de profondeur, les données de type “MoCap” (capture de mouvement), les signaux audio et les données issues de capteurs inertiels. A cet effet, nous proposons plusieurs modèles neuronaux et des algorithmes d’entrainement associés pour l’apprentissage supervisé et semi-supervisé de caractéristiques. Nous proposons des approches de modélisation des dépendances temporelles, et nous montrons leur efficacité sur un ensemble de tâches fondamentales, comprenant la détection, la classification, l’estimation de paramètres et la vérification des utilisateurs (la biométrie). En explorant différentes stratégies de fusion, nous montrons que la fusion des modalités à plusieurs échelles spatiales et temporelles conduit à une augmentation significative des taux de reconnaissance, ce qui permet au modèle de compenser les erreurs des classifieurs individuels et le bruit dans les différents canaux. En outre, la technique proposée assure la robustesse du classifieur face à la perte éventuelle d’un ou de plusieurs canaux. Dans un deuxième temps nous abordons le problème de l’estimation de la posture de la main en présentant une nouvelle méthode de régression à partir d’images de profondeur. Dernièrement, dans le cadre d’un projet séparé (mais lié thématiquement), nous explorons des modèles temporels pour l'authentification automatique des utilisateurs de smartphones à partir de leurs habitudes de tenir, de bouger et de déplacer leurs téléphones. Dans ce contexte, les données sont acquises par des capteurs inertiels embraqués dans les appareils mobiles
The research goal of this work is to develop learning methods advancing automatic analysis and interpreting of human motion from different perspectives and based on various sources of information, such as images, video, depth, mocap data, audio and inertial sensors. For this purpose, we propose a several deep neural models and associated training algorithms for supervised classification and semi-supervised feature learning, as well as modelling of temporal dependencies, and show their efficiency on a set of fundamental tasks, including detection, classification, parameter estimation and user verification. First, we present a method for human action and gesture spotting and classification based on multi-scale and multi-modal deep learning from visual signals (such as video, depth and mocap data). Key to our technique is a training strategy which exploits, first, careful initialization of individual modalities and, second, gradual fusion involving random dropping of separate channels (dubbed ModDrop) for learning cross-modality correlations while preserving uniqueness of each modality-specific representation. Moving forward, from 1 to N mapping to continuous evaluation of gesture parameters, we address the problem of hand pose estimation and present a new method for regression on depth images, based on semi-supervised learning using convolutional deep neural networks, where raw depth data is fused with an intermediate representation in the form of a segmentation of the hand into parts. In separate but related work, we explore convolutional temporal models for human authentication based on their motion patterns. In this project, the data is captured by inertial sensors (such as accelerometers and gyroscopes) built in mobile devices. We propose an optimized shift-invariant dense convolutional mechanism and incorporate the discriminatively-trained dynamic features in a probabilistic generative framework taking into account temporal characteristics. Our results demonstrate, that human kinematics convey important information about user identity and can serve as a valuable component of multi-modal authentication systems

Style APA, Harvard, Vancouver, ISO itp.

38

Aklil, Nassim. "Apprentissage actif sous contrainte de budget en robotique et en neurosciences computationnelles. Localisation robotique et modélisation comportementale en environnement non stationnaire". Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066225/document.

Pełny tekst źródła

Streszczenie:

La prise de décision est un domaine très étudié en sciences, que ce soit en neurosciences pour comprendre les processus sous tendant la prise de décision chez les animaux, qu’en robotique pour modéliser des processus de prise de décision efficaces et rapides dans des tâches en environnement réel. En neurosciences, ce problème est résolu online avec des modèles de prises de décision séquentiels basés sur l’apprentissage par renforcement. En robotique, l’objectif premier est l’efficacité, dans le but d’être déployés en environnement réel. Cependant en robotique ce que l’on peut appeler le budget et qui concerne les limitations inhérentes au matériel, comme les temps de calculs, les actions limitées disponibles au robot ou la durée de vie de la batterie du robot, ne sont souvent pas prises en compte à l’heure actuelle. Nous nous proposons dans ce travail de thèse d’introduire la notion de budget comme contrainte explicite dans les processus d’apprentissage robotique appliqués à une tâche de localisation en mettant en place un modèle basé sur des travaux développés en apprentissage statistique qui traitent les données sous contrainte de budget, en limitant l’apport en données ou en posant une contrainte de temps plus explicite. Dans le but d’envisager un fonctionnement online de ce type d’algorithmes d’apprentissage budgétisé, nous discutons aussi certaines inspirations possibles qui pourraient être prises du côté des neurosciences computationnelles. Dans ce cadre, l’alternance entre recherche d’information pour la localisation et la décision de se déplacer pour un robot peuvent être indirectement liés à la notion de compromis exploration-exploitation. Nous présentons notre contribution à la modélisation de ce compromis chez l’animal dans une tâche non stationnaire impliquant différents niveaux d’incertitude, et faisons le lien avec les méthodes de bandits manchot
Decision-making is a highly researched field in science, be it in neuroscience to understand the processes underlying animal decision-making, or in robotics to model efficient and rapid decision-making processes in real environments. In neuroscience, this problem is resolved online with sequential decision-making models based on reinforcement learning. In robotics, the primary objective is efficiency, in order to be deployed in real environments. However, in robotics what can be called the budget and which concerns the limitations inherent to the hardware, such as computation times, limited actions available to the robot or the lifetime of the robot battery, are often not taken into account at the present time. We propose in this thesis to introduce the notion of budget as an explicit constraint in the robotic learning processes applied to a localization task by implementing a model based on work developed in statistical learning that processes data under explicit constraints, limiting the input of data or imposing a more explicit time constraint. In order to discuss an online functioning of this type of budgeted learning algorithms, we also discuss some possible inspirations that could be taken on the side of computational neuroscience. In this context, the alternation between information retrieval for location and the decision to move for a robot may be indirectly linked to the notion of exploration-exploitation compromise. We present our contribution to the modeling of this compromise in animals in a non-stationary task involving different levels of uncertainty, and we make the link with the methods of multi-armed bandits

Style APA, Harvard, Vancouver, ISO itp.

39

Pascal, Lucas. "Optimization of deep multi-task networks". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS535.

Pełny tekst źródła

Streszczenie:

L'apprentissage multi-tâches est un paradigme d'apprentissage impliquant l’optimisation de paramètres par rapport à plusieurs tâches simultanément. En apprenant plusieurs tâches liées, un modèle d'apprentissage dispose d'un ensemble d'informations plus complet concernant le domaine dont les tâches sont issues, lui permettant ainsi de construire un meilleur ensemble d’hypothèse sur ce domaine. Cependant, en pratique, les gains de performance obtenus par les réseaux multi-tâches sont loin d'être systématiques. Il arrive au contraire que ces réseaux subissent une perte de performance liée à des phénomènes d’interférences entre les différentes tâches. Cette thèse traite du problème d'interférences en apprentissage multi-tâches, afin d'améliorer les capacités de généralisation des réseaux de neurones profonds
Multi-task learning (MTL) is a learning paradigm involving the joint optimization of parameters with respect to multiple tasks. By learning multiple related tasks, a learner receives more complete and complementary information on the input domain from which the tasks are issued. This allows to gain better understanding of the domain by building a more accurate set of assumptions of it. However, in practice, the broader use of MTL is hindered by the lack of consistent performance gains observed by deep multi-task networks. It is often the case that deep MTL networks suffer from performance degradation caused by task interference. This thesis addresses the problem of task interference in Multi-Task learning, in order to improve the generalization capabilities of deep neural networks

Style APA, Harvard, Vancouver, ISO itp.

40

Sendi, Naziha. "Transparent approach based on deep learning and multiagent argumentation for hypertension management". Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG036.

Pełny tekst źródła

Streszczenie:

L'hypertension est connue pour être l'une des principales causes de maladies cardiaques et d'accidents vasculaires cérébraux, tuant environ 7,5 millions de personnes dans le monde chaque année, principalement en raison de son diagnostic tardif.Afin de confirmer le diagnostic d'hypertension, il est nécessaire de collecter des mesures médicales répétées. Une solution consiste à exploiter ces mesures et à les intégrer dans les dossiers électroniques de santé par des algorithmes d'apprentissage automatique.Dans ce travail, nous nous sommes concentrés sur les méthodes d'ensemble qui combinent plusieurs algorithmes d'apprentissage automatique pour la classification. Ces modèles ont été largement utilisés pour améliorer les performances de classification d'un seul classificateur. Pour cela, des méthodes telles que Bagging et Boosting sont utilisées. Ces méthodes utilisent principalement le vote majoritaire ou pondéré pour intégrer les résultats des classificateurs. Cependant, un inconvénient majeur de ces approches est leur opacité, car elles ne fournissent pas d'explication des résultats et ne permettent pas une intégration préalable des connaissances. Comme nous utilisons l'apprentissage automatique pour les soins de santé, l'explication des résultats de classification et la possibilité d'introduire des connaissances de domaine et cliniques dans le modèle appris deviennent une nécessité.Afin de pallier ces faiblesses, nous introduisons une nouvelle méthode d'ensemble basée sur l'argumentation multiagents.L'intégration de l'argumentation et de l'apprentissage automatique s'est avérée fructueuse et l'utilisation de l'argumentation est un moyen pertinent de combiner les classificateurs. En effet, l'argumentation peut imiter le processus décisionnel humain pour réaliser la résolution des conflits.Notre idée est d'extraire automatiquement les arguments des modèles ML et de les combiner à l'aide de l'argumentation. Cela permet d'exploiter les connaissances internes de chaque classifieur, de fournir une explication des décisions et de faciliter l'intégration des connaissances du domaine.Dans cette thèse, les objectifs étaient multiples. Du point de vue de l'application médicale, l'objectif était de prédire le traitement de l'hypertension et la date de la prochaine visite chez le médecin. D'un point de vue scientifique, l'objectif était d'ajouter de la transparence à la méthode d'ensemble et d'injecter des connaissances du domaine.Les contributions de la thèse sont diverses:-Explication des prédictions;-Intégration des connaissances internes de classification;-Injection des connaissances du domaine;-Amélioration de la précision des prédictions.Les résultats démontrent que notre méthode fournit efficacement des explications et de la transparence des prédictions des méthodes d'ensemble et est capable d'intégrer le domaine et les connaissances cliniques dans le système. De plus, il améliore les performances des algorithmes d'apprentissage automatique existants
Hypertension is known to be one of the leading causes of heart disease and stroke, killing around 7.5 million people worldwide every year, mostly because of its late diagnosis.In order to confirm the diagnosis of Hypertension, it is necessary to collect repeated medical measurements. One solution is to exploit these measurements and integrate them into Electronic Health Records by Machine Learning algorithms.In this work, we focused on ensemble learning methods that combine several machine learning algorithms for classification. These models have been widely used to improve classification performance of a single classifier. For that purpose, methods such as Bagging and Boosting are used. These methods mainly use majority or weighted voting to integrate the results of the classifiers. However, one major drawback of these approaches is their opacity, as they do not provide results explanation and they do not allow prior knowledge integration. As we use machine learning for healthcare, the explanation of classification results and the ability to introduce domain and clinical knowledge inside the learned model become a necessity.In order to overcome theses weaknesses, we introduce a new ensemble method based on multiagent argumentation.The integration of argumentation and machine learning has been proven to be fruitful and the use of argumentation is a relevant way for combining the classifiers. Indeed, argumentation can imitate human decision-making process to realize resolution of the conflicts.Our idea is to automatically extract the arguments from ML models and combine them using argumentation. This allows to exploit the internal knowledge of each classifier, to provide an explanation for the decisions and to facilitate integration of domain and clinical knowledge.In this thesis, objectives were multiple. From the medical application point of view, the goal was to predict the treatment of Hypertension and the date of the next doctor visit. From the scientific point of view, the objective was to add transparency to ensemble method and to inject domain and clinical knowledge.The contributions of the thesis are various:-Explaining predictions;-Integrating internal classification knowledge;-Injecting domain and clinical knowledge;-Improving predictions accuracy.The results demonstrate that our method effectively provides explanations and transparency of the ensemble methods predictions and is able to integrate domain and clinical knowledge into the system. Moreover, it improves the performance of existing machine learning algorithms

Style APA, Harvard, Vancouver, ISO itp.

41

Strub, Florian. "Développement de modèles multimodaux interactifs pour l'apprentissage du langage dans des environnements visuels". Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I030.

Pełny tekst źródła

Streszczenie:

Alors que nous nous représentons le monde au travers de nos sens, de notre langage et de nos interactions, chacun de ces domaines a été historiquement étudié de manière indépendante en apprentissage automatique. Heureusement, ce cloisonnement tend à se défaire grâce aux dernières avancées en apprentissage profond, ce qui a conduit à l'uniformisation de l'extraction des données au travers des communautés. Cependant, les architectures neuronales multimodales n'en sont qu'à leurs premiers balbutiements et l’apprentissage par renforcement profond est encore souvent restreint à des environnements limités. Idéalement, nous aimerions pourtant développer des modèles multimodaux et interactifs afin qu’ils puissent correctement appréhender la complexité du monde réel. Dans cet objectif, cette thèse s’attache à la compréhension du langage combiné à la vision pour trois raisons : (i) ce sont deux modalités longuement étudiées aux travers des différentes communautés scientifiques (ii) nous pouvons bénéficier des dernières avancées en apprentissage profond pour les modèles de langues et de vision (iii) l’interaction entre l’apprentissage du langage et notre perception a été validé en science cognitives. Ainsi, nous avons conçu le jeu GuessWhat?! (KéZaKo) afin d’évaluer la compréhension de langue combiné à la vision de nos modèles : deux joueurs doivent ainsi localiser un objet caché dans une image en posant une série de questions. Nous introduisons ensuite le principe de modulation comme un nouveau module d’apprentissage profond multimodal. Nous montrons qu’une telle approche permet de fusionner efficacement des représentations visuelles et langagières en prenant en compte la structure hiérarchique propre aux réseaux de neurones. Enfin, nous explorons comment l'apprentissage par renforcement permet l’apprentissage de la langue et cimente l'apprentissage des représentations multimodales sous-jacentes. Nous montrons qu’un tel apprentissage interactif conduit à des stratégies langagières valides mais donne lieu à de nouvelles problématiques de recherche
While our representation of the world is shaped by our perceptions, our languages, and our interactions, they have traditionally been distinct fields of study in machine learning. Fortunately, this partitioning started opening up with the recent advents of deep learning methods, which standardized raw feature extraction across communities. However, multimodal neural architectures are still at their beginning, and deep reinforcement learning is often limited to constrained environments. Yet, we ideally aim to develop large-scale multimodal and interactive models towards correctly apprehending the complexity of the world. As a first milestone, this thesis focuses on visually grounded language learning for three reasons (i) they are both well-studied modalities across different scientific fields (ii) it builds upon deep learning breakthroughs in natural language processing and computer vision (ii) the interplay between language and vision has been acknowledged in cognitive science. More precisely, we first designed the GuessWhat?! game for assessing visually grounded language understanding of the models: two players collaborate to locate a hidden object in an image by asking a sequence of questions. We then introduce modulation as a novel deep multimodal mechanism, and we show that it successfully fuses visual and linguistic representations by taking advantage of the hierarchical structure of neural networks. Finally, we investigate how reinforcement learning can support visually grounded language learning and cement the underlying multimodal representation. We show that such interactive learning leads to consistent language strategies but gives raise to new research issues

Style APA, Harvard, Vancouver, ISO itp.

42

Shahid, Mustafizur Rahman. "Deep learning for Internet of Things (IoT) network security". Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS003.

Pełny tekst źródła

Streszczenie:

L’internet des objets (IoT) introduit de nouveaux défis pour la sécurité des réseaux. La plupart des objets IoT sont vulnérables en raison d'un manque de sensibilisation à la sécurité des fabricants d'appareils et des utilisateurs. En conséquence, ces objets sont devenus des cibles privilégiées pour les développeurs de malware qui veulent les transformer en bots. Contrairement à un ordinateur de bureau, un objet IoT est conçu pour accomplir des tâches spécifiques. Son comportement réseau est donc très stable et prévisible, ce qui le rend bien adapté aux techniques d'analyse de données. Ainsi, la première partie de cette thèse tire profit des algorithmes de deep learning pour développer des outils de surveillance des réseaux IoT. Deux types d'outils sont explorés: les systèmes de reconnaissance de type d’objets IoT et les systèmes de détection d'intrusion réseau IoT. Pour la reconnaissance des types d’objets IoT, des algorithmes d'apprentissage supervisé sont entrainés pour classifier le trafic réseau et déterminer à quel objet IoT le trafic appartient. Le système de détection d'intrusion consiste en un ensemble d'autoencoders, chacun étant entrainé pour un type d’objet IoT différent. Les autoencoders apprennent le profil du comportement réseau légitime et détectent tout écart par rapport à celui-ci. Les résultats expérimentaux en utilisant des données réseau produites par une maison connectée montrent que les modèles proposés atteignent des performances élevées. Malgré des résultats préliminaires prometteurs, l’entraînement et l'évaluation des modèles basés sur le machine learning nécessitent une quantité importante de données réseau IoT. Or, très peu de jeux de données de trafic réseau IoT sont accessibles au public. Le déploiement physique de milliers d’objets IoT réels peut être très coûteux et peut poser problème quant au respect de la vie privée. Ainsi, dans la deuxième partie de cette thèse, nous proposons d'exploiter des GAN (Generative Adversarial Networks) pour générer des flux bidirectionnels qui ressemblent à ceux produits par un véritable objet IoT. Un flux bidirectionnel est représenté par la séquence des tailles de paquets ainsi que de la durée du flux. Par conséquent, en plus de générer des caractéristiques au niveau des paquets, tel que la taille de chaque paquet, notre générateur apprend implicitement à se conformer aux caractéristiques au niveau du flux, comme le nombre total de paquets et d'octets dans un flux ou sa durée totale. Des résultats expérimentaux utilisant des données produites par un haut-parleur intelligent montrent que notre méthode permet de générer des flux bidirectionnels synthétiques réalistes et de haute qualité
The growing Internet of Things (IoT) introduces new security challenges for network activity monitoring. Most IoT devices are vulnerable because of a lack of security awareness from device manufacturers and end users. As a consequence, they have become prime targets for malware developers who want to turn them into bots. Contrary to general-purpose devices, an IoT device is designed to perform very specific tasks. Hence, its networking behavior is very stable and predictable making it well suited for data analysis techniques. Therefore, the first part of this thesis focuses on leveraging recent advances in the field of deep learning to develop network monitoring tools for the IoT. Two types of network monitoring tools are explored: IoT device type recognition systems and IoT network Intrusion Detection Systems (NIDS). For IoT device type recognition, supervised machine learning algorithms are trained to perform network traffic classification and determine what IoT device the traffic belongs to. The IoT NIDS consists of a set of autoencoders, each trained for a different IoT device type. The autoencoders learn the legitimate networking behavior profile and detect any deviation from it. Experiments using network traffic data produced by a smart home show that the proposed models achieve high performance.Despite yielding promising results, training and testing machine learning based network monitoring systems requires tremendous amount of IoT network traffic data. But, very few IoT network traffic datasets are publicly available. Physically operating thousands of real IoT devices can be very costly and can rise privacy concerns. In the second part of this thesis, we propose to leverage Generative Adversarial Networks (GAN) to generate bidirectional flows that look like they were produced by a real IoT device. A bidirectional flow consists of the sequence of the sizes of individual packets along with a duration. Hence, in addition to generating packet-level features which are the sizes of individual packets, our developed generator implicitly learns to comply with flow-level characteristics, such as the total number of packets and bytes in a bidirectional flow or the total duration of the flow. Experimental results using data produced by a smart speaker show that our method allows us to generate high quality and realistic looking synthetic bidirectional flows

Style APA, Harvard, Vancouver, ISO itp.

43

Medrouk, Indira Lisa. "Réseaux profonds pour la classification des opinions multilingue". Electronic Thesis or Diss., Paris 8, 2018. http://www.theses.fr/2018PA080081.

Pełny tekst źródła

Streszczenie:

À l’ère de l’avènement des réseaux sociaux où tout un chacun peut se targuerd’être un producteur de contenus, l’intérêt grandissant de la recherche etl’industrie pour l’analyse automatique des opinions est un fait incontestable.Cette thèse traite de la fouille d’opinions en adressant principalement une caractéristiqueinhérente aux avis publiés sur le Web reflétant leurs caractèresglobalisés et multilingue.Pour adresser la problématique multilingue des opinions, le modèle proposéest inspiré du processus d’acquisition des langues simultanées avec intensitéégale chez les jeunes enfants. Il est basé sur des réseaux neuronauxprofonds, avec comme intention de se défaire de pré-traitements, de choixmanuels de caractéristiques et surtout d’avoir une chaîne de traitement sansinterdépendances de langues, de traduction ou de langue pivot.L’évaluation du modèle proposé a été effectué sur des corpus composés dequatre langues, à savoir le français, l’anglais, le grec et l’arabe pour répondreà une classification d’opinion suivant deux polarités, positive et négative,ainsi qu’une classification thématique. Les diverses expérimentations alliantvariation de taille de corpus, regroupement bi-tri et quadrilingue présentésà un réseau profond sans modules additionnels ont montré qu’à l’instar dudéveloppement de la compétence bilingue chez l’enfant qui est liée à la qualitéet la quantité de son immersion au contexte linguistique, le réseau apprendmieux dans un environnement riche et varié.Dans le cadre de la problématique de la classification des opinions, ledeuxième volet de la thèse présente une étude comparative de deux modèlesde réseaux profonds : les réseaux convolutionnels et les réseaux récurrents.Notre contribution consiste à démontrer leur complémentarité selon leurscombinaisons dans un contexte multilingue
In the era of social networks where everyone can claim to be a contentproducer, the growing interest in research and industry is an indisputablefact for the opinion mining domain.This thesis is mainly addressing a Web inherent characteristic reflectingits globalized and multilingual character.To address the multilingual opinion mining issue, the proposed model isinspired by the process of acquiring simultaneous languages with equal intensityamong young children. The incorporate corpus-based input is raw, usedwithout any pre-processing, translation, annotation nor additional knowledgefeatures. For the machine learning approach, we use two different deep neuralnetworks. The evaluation of the proposed model was executed on corpusescomposed of four different languages, namely French, English, Greek and Arabic,to emphasize the ability of a deep learning model in order to establishthe sentiment polarity of reviews and topics classification in a multilingualenvironment. The various experiments combining corpus size variations forbi and quadrilingual grouping languages, presented to our models withoutadditional modules, have shown that, such as children bilingual competencedevelopment, which is linked to quality and quantity of their immersion in thelinguistic context, the network learns better in a rich and varied environment.As part of the problem of opinion classification, the second part of thethesis presents a comparative study of two models of deep networks : convolutionalnetworks and recurrent networks. Our contribution consists in demonstratingtheir complementarity according to their combinations in a multilingualcontext

Style APA, Harvard, Vancouver, ISO itp.

44

De, La Bourdonnaye François. "Learning sensori-motor mappings using little knowledge : application to manipulation robotics". Thesis, Université Clermont Auvergne‎ (2017-2020), 2018. http://www.theses.fr/2018CLFAC037/document.

Pełny tekst źródła

Streszczenie:

La thèse consiste en l'apprentissage d'une tâche complexe de robotique de manipulation en utilisant très peu d'aprioris. Plus précisément, la tâche apprise consiste à atteindre un objet avec un robot série. L'objectif est de réaliser cet apprentissage sans paramètres de calibrage des caméras, modèles géométriques directs, descripteurs faits à la main ou des démonstrations d'expert. L'apprentissage par renforcement profond est une classe d'algorithmes particulièrement intéressante dans cette optique. En effet, l'apprentissage par renforcement permet d’apprendre une compétence sensori-motrice en se passant de modèles dynamiques. Par ailleurs, l'apprentissage profond permet de se passer de descripteurs faits à la main pour la représentation d'état. Cependant, spécifier les objectifs sans supervision humaine est un défi important. Certaines solutions consistent à utiliser des signaux de récompense informatifs ou des démonstrations d'experts pour guider le robot vers les solutions. D'autres consistent à décomposer l'apprentissage. Par exemple, l'apprentissage "petit à petit" ou "du simple au compliqué" peut être utilisé. Cependant, cette stratégie nécessite la connaissance de l'objectif en termes d'état. Une autre solution est de décomposer une tâche complexe en plusieurs tâches plus simples. Néanmoins, cela n'implique pas l'absence de supervision pour les sous tâches mentionnées. D'autres approches utilisant plusieurs robots en parallèle peuvent également être utilisés mais nécessite du matériel coûteux. Pour notre approche, nous nous inspirons du comportement des êtres humains. Ces derniers généralement regardent l'objet avant de le manipuler. Ainsi, nous décomposons la tâche d'atteinte en 3 sous tâches. La première tâche consiste à apprendre à fixer un objet avec un système de deux caméras pour le localiser dans l'espace. Cette tâche est apprise avec de l'apprentissage par renforcement profond et un signal de récompense faiblement supervisé. Pour la tâche suivante, deux compétences sont apprises en parallèle : la fixation d'effecteur et une fonction de coordination main-oeil. Comme la précédente tâche, un algorithme d'apprentissage par renforcement profond est utilisé avec un signal de récompense faiblement supervisé. Le but de cette tâche est d'être capable de localiser l'effecteur du robot à partir des coordonnées articulaires. La dernière tâche utilise les compétences apprises lors des deux précédentes étapes pour apprendre au robot à atteindre un objet. Cet apprentissage utilise les mêmes aprioris que pour les tâches précédentes. En plus de la tâche d'atteinte, un predicteur d'atteignabilité d'objet est appris. La principale contribution de ces travaux est l'apprentissage d'une tâche de robotique complexe en n'utilisant que très peu de supervision
The thesis is focused on learning a complex manipulation robotics task using little knowledge. More precisely, the concerned task consists in reaching an object with a serial arm and the objective is to learn it without camera calibration parameters, forward kinematics, handcrafted features, or expert demonstrations. Deep reinforcement learning algorithms suit well to this objective. Indeed, reinforcement learning allows to learn sensori-motor mappings while dispensing with dynamics. Besides, deep learning allows to dispense with handcrafted features for the state spacerepresentation. However, it is difficult to specify the objectives of the learned task without requiring human supervision. Some solutions imply expert demonstrations or shaping rewards to guiderobots towards its objective. The latter is generally computed using forward kinematics and handcrafted visual modules. Another class of solutions consists in decomposing the complex task. Learning from easy missions can be used, but this requires the knowledge of a goal state. Decomposing the whole complex into simpler sub tasks can also be utilized (hierarchical learning) but does notnecessarily imply a lack of human supervision. Alternate approaches which use several agents in parallel to increase the probability of success can be used but are costly. In our approach,we decompose the whole reaching task into three simpler sub tasks while taking inspiration from the human behavior. Indeed, humans first look at an object before reaching it. The first learned task is an object fixation task which is aimed at localizing the object in the 3D space. This is learned using deep reinforcement learning and a weakly supervised reward function. The second task consists in learning jointly end-effector binocular fixations and a hand-eye coordination function. This is also learned using a similar set-up and is aimed at localizing the end-effector in the 3D space. The third task uses the two prior learned skills to learn to reach an object and uses the same requirements as the two prior tasks: it hardly requires supervision. In addition, without using additional priors, an object reachability predictor is learned in parallel. The main contribution of this thesis is the learning of a complex robotic task with weak supervision

Style APA, Harvard, Vancouver, ISO itp.

45

Sun-Hosoya, Lisheng. "Meta-Learning as a Markov Decision Process". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS588/document.

Pełny tekst źródła

Streszczenie:

L'apprentissage automatique (ML) a connu d'énormes succès ces dernières années et repose sur un nombre toujours croissant d'applications réelles. Cependant, la conception d'algorithmes prometteurs pour un problème spécifique nécessite toujours un effort humain considérable. L'apprentissage automatique (AutoML) a pour objectif de sortir l'homme de la boucle. AutoML est généralement traité comme un problème de sélection d’algorithme / hyper-paramètre. Les approches existantes incluent l’optimisation Bayésienne, les algorithmes évolutionnistes et l’apprentissage par renforcement. Parmi eux, auto-sklearn, qui intègre des techniques de meta-learning à l'initialisation de la recherche, occupe toujours une place de choix dans les challenges AutoML. Cette observation a orienté mes recherches vers le domaine du meta-learning. Cette orientation m'a amené à développer un nouveau cadre basé sur les processus de décision Markovien (MDP) et l'apprentissage par renforcement (RL). Après une introduction générale (chapitre 1), mon travail de thèse commence par une analyse approfondie des résultats du Challenge AutoML (chapitre 2). Cette analyse a orienté mon travail vers le meta-learning, menant tout d’abord à proposer une formulation d’AutoML en tant que problème de recommandation, puis à formuler une nouvelle conceptualisation du problème en tant que MDP (chapitre 3). Dans le cadre du MDP, le problème consiste à remplir de manière aussi rapide et efficace que possible une matrice S de meta-learning, dans laquelle les lignes correspondent aux tâches et les colonnes aux algorithmes. Un élément de matrice S (i, j) est la performance de l'algorithme j appliqué à la tâche i. La recherche efficace des meilleures valeurs dans S nous permet d’identifier rapidement les algorithmes les mieux adaptés à des tâches données. Dans le chapitre 4, nous examinons d’abord le cadre classique d’optimisation des hyper-paramètres. Au chapitre 5, une première approche de meta-learning est introduite, qui combine des techniques d'apprentissage actif et de filtrage collaboratif pour prédire les valeurs manquantes dans S. Nos dernières recherches appliquent RL au problème du MDP défini pour apprendre une politique efficace d’exploration de S. Nous appelons cette approche REVEAL et proposons une analogie avec une série de jeux pour permettre de visualiser les stratégies des agents pour révéler progressivement les informations. Cette ligne de recherche est développée au chapitre 6. Les principaux résultats de mon projet de thèse sont : 1) Sélection HP / modèle : j'ai exploré la méthode Freeze-Thaw et optimisé l'algorithme pour entrer dans le premier challenge AutoML, obtenant la 3ème place du tour final (chapitre 3). 2) ActivMetaL : j'ai conçu un nouvel algorithme pour le meta-learning actif (ActivMetaL) et l'ai comparé à d'autres méthodes de base sur des données réelles et artificielles. Cette étude a démontré qu'ActiveMetaL est généralement capable de découvrir le meilleur algorithme plus rapidement que les méthodes de base. 3) REVEAL : j'ai développé une nouvelle conceptualisation du meta-learning en tant que processus de décision Markovien et je l'ai intégrée dans le cadre plus général des jeux REVEAL. Avec un stagiaire en master, j'ai développé des agents qui apprennent (avec l'apprentissage par renforcement) à prédire le meilleur algorithme à essayer. Le travail présenté dans ma thèse est de nature empirique. Plusieurs méta-données du monde réel ont été utilisées dans cette recherche. Des méta-données artificielles et semi-artificielles sont également utilisées dans mon travail. Les résultats indiquent que RL est une approche viable de ce problème, bien qu'il reste encore beaucoup à faire pour optimiser les algorithmes et les faire passer à l’échelle aux problèmes de méta-apprentissage plus vastes
Machine Learning (ML) has enjoyed huge successes in recent years and an ever- growing number of real-world applications rely on it. However, designing promising algorithms for a specific problem still requires huge human effort. Automated Machine Learning (AutoML) aims at taking the human out of the loop and develop machines that generate / recommend good algorithms for a given ML tasks. AutoML is usually treated as an algorithm / hyper-parameter selection problems, existing approaches include Bayesian optimization, evolutionary algorithms as well as reinforcement learning. Among them, auto-sklearn which incorporates meta-learning techniques in their search initialization, ranks consistently well in AutoML challenges. This observation oriented my research to the Meta-Learning domain. This direction led me to develop a novel framework based on Markov Decision Processes (MDP) and reinforcement learning (RL).After a general introduction (Chapter 1), my thesis work starts with an in-depth analysis of the results of the AutoML challenge (Chapter 2). This analysis oriented my work towards meta-learning, leading me first to propose a formulation of AutoML as a recommendation problem, and ultimately to formulate a novel conceptualisation of the problem as a MDP (Chapter 3). In the MDP setting, the problem is brought back to filling up, as quickly and efficiently as possible, a meta-learning matrix S, in which lines correspond to ML tasks and columns to ML algorithms. A matrix element S(i, j) is the performance of algorithm j applied to task i. Searching efficiently for the best values in S allows us to identify quickly algorithms best suited to given tasks. In Chapter 4 the classical hyper-parameter optimization framework (HyperOpt) is first reviewed. In Chapter 5 a first meta-learning approach is introduced along the lines of our paper ActivMetaL that combines active learning and collaborative filtering techniques to predict the missing values in S. Our latest research applies RL to the MDP problem we defined to learn an efficient policy to explore S. We call this approach REVEAL and propose an analogy with a series of toy games to help visualize agents’ strategies to reveal information progressively, e.g. masked areas of images to be classified, or ship positions in a battleship game. This line of research is developed in Chapter 6. The main results of my PhD project are: 1) HP / model selection: I have explored the Freeze-Thaw method and optimized the algorithm to enter the first AutoML challenge, achieving 3rd place in the final round (Chapter 3). 2) ActivMetaL: I have designed a new algorithm for active meta-learning (ActivMetaL) and compared it with other baseline methods on real-world and artificial data. This study demonstrated that ActiveMetaL is generally able to discover the best algorithm faster than baseline methods. 3) REVEAL: I developed a new conceptualization of meta-learning as a Markov Decision Process and put it into the more general framework of REVEAL games. With a master student intern, I developed agents that learns (with reinforcement learning) to predict the next best algorithm to be tried. To develop this agent, we used surrogate toy tasks of REVEAL games. We then applied our methods to AutoML problems. The work presented in my thesis is empirical in nature. Several real world meta-datasets were used in this research. Artificial and semi-artificial meta-datasets are also used in my work. The results indicate that RL is a viable approach to this problem, although much work remains to be done to optimize algorithms to make them scale to larger meta-learning problems

Style APA, Harvard, Vancouver, ISO itp.

46

Hamis, Sébastien. "Compression de contenus visuels pour transmission mobile sur réseaux de très bas débit". Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAS020.

Pełny tekst źródła

Streszczenie:

Le domaine de la compression de contenus visuels (image, vidéo, éléments graphiques 2D/3D) a connu, depuis maintenant plus de vingt ans, un essor considérable avec l’émergence notamment au fil des années de nombreuses normes internationales comme JPEG, JPEG2000 pour les images fixes ou les différentes versions de standards MPEG-1/2/4 pour les données vidéo et graphiques.L’apparition des smartphones et l’explosion des applications qui leur sont dédiées a également bénéficié de ces avancées, l’image étant aujourd’hui omniprésente dans un contexte de mobilité/itinérance. Néanmoins, cela nécessite toujours des réseaux fiables et disponibles, offrant un débit suffisant pour la transmission effective de ces données visuelles qui sont intrinsèquement gourmandes en bande passante. Si aujourd’hui les pays développés bénéficient de réseaux mobiles (3G, 4G…) hautement performantes, cela n’est pas le cas d’un certain nombre de régions du monde, en particulier dans les pays émergents, où les communications s’appuient encore sur des réseaux 2G SMS. Transmettre de contenus visuels dans un tel contexte devient un défi ambitieux, qui nécessite la mise en œuvre de nouveaux algorithmes de compression. Le défi à relever consiste à assurer une transmission des images sur une bande passante correspondant à un ensemble relativement réduit (10 à 20) de SMS (140 octets par SMS).Pour répondre à ces contraintes, de multiples pistes de développement ont été envisagées. Après un état de l’art des techniques de compression traditionnelles et de leurs améliorations futures, nous avons finalement orienté nos travaux vers des méthodes de deep learning, visant à réaliser des post-traitements pour améliorer la qualité des contenus compressés.Nos contributions s’articulent autour de la création d’un nouveau schéma de compression, incluant les codecs existants ainsi qu’un panel de briques de post-traitement permettant une meilleure exploitation des contenus fortement compressés. Ces briques sont des réseaux de neurones profonds dédiés, qui réalisent des opérations de super-résolution et/ou de réduction d’artéfacts de compression, spécifiquement entraînés pour répondre aux objectifs ciblés. Ces opérations interviennent du côté du décodeur et peuvent être interprétées comme des algorithmes de reconstruction d’images à partir de versions fortement compressées. Cette approche présente l’avantage de pouvoir s’appuyer des codecs existants, particulièrement légers et peu coûteux en ressources. Dans nos travaux, nous avons retenu le format BPG, qui fait état de l’art dans le domaine, mais d’autre schémas de compression peuvent être également considérés.Concernant le type de réseaux de neurones, nos recherches nous ont conduits vers les réseaux antagonistes génératifs (Generative Adversarials Nets–GAN), qui s‘avèrent particulièrement adaptés pour des objectifs de reconstruction à partir de données incomplètes. Plus précisément, les deux architectures retenues et adaptées à nos objectifs sont les réseaux SRGAN et ESRGAN. L’impact des différents éléments et paramètres impliqués, comme notamment les facteurs de super-résolution utilisés et les fonctions de pertes, sont analysés en détails.Enfin, une dernière contribution concerne l’évaluation expérimentale. Après avoir montré les limitations des métriques objectives, qui peinent à prendre en compte la qualité visuelle de l’image, nous avons mis en place un protocole d’évaluation subjective. Les résultats obtenus en termes de scores MOS (Mean Opinion Score) démontrent pleinement la pertinence des approches de reconstruction proposées.Enfin, nous analysons une ouverture de nos travaux à des cas d’utilisation différents, d’une nature plus grand public. C’est notamment le cas pour le traitement de contenus de grande résolution plus ou moins compressés et même pour l’amélioration de la qualité de vidéos
The field of visual content compression (image, video, 2D/3D graphics elements) has known spectacular achievements for more than twenty years, with the emergence numerous international standards such as JPEG, JPEG2000 for still image compression, or MPEG-1/2/4 for video and 3D graphics content coding.The apparition of smartphones and of their related applications have also benefited from these advances, the image being today ubiquitous in a context of mobility. Nevertheless, image transmission requires reliable and available networks, since such visual data that are inherently bandwidth-intensive. While developed countries benefit today from high-performance mobile networks (3G, 4G...), this is not the case in a certain number of regions of the world, particularly in emerging countries, where communications still rely on 2G SMS networks. Transmitting visual content in such a context becomes a highly ambitious challenge, requiring the elaboration of new, for very low bitrate compression algorithm. The challenge is to ensure images transmission over a narrow bandwidth corresponding to a relatively small set (10 to 20) of SMS (140 bytes per SMS).To meet such constraints, multiple axes of development have been considered. After a state-of-the-art of traditional image compression techniques, we have oriented our research towards deep learning methods, aiming achieve post-treatments over strongly compressed data in order to improve the quality of the decoded content.Our contributions are structures around the creation of a new compression scheme, including existing codecs and a panel of post-processing bricks aiming at enhancing highly compressed content. Such bricks represent dedicated deep neural networks, which perform super-resolution and/or compression artifact reduction operations, specifically trained to meet the targeted objectives. These operations are carried out on the decoder side and can be interpreted as image reconstruction algorithms from heavily compressed versions. This approach offers the advantage of being able to rely on existing codecs, which are particularly light and resource-efficient. In our work, we have retained the BPG format, which represents the state of art in the field, but other compression schemes can also be considered.Regarding the type of neural networks, we have adopted Generative Adversarials Nets-GAN, which are particularly well-suited for objectives of reconstruction from incomplete data. Specifically, the two architectures retained and adapted to our objectives are the SRGAN and ESRGAN networks. The impact of the various elements and parameters involved, such as the super-resolution factors and the loss functions, are analyzed in detail.A final contribution concerns experimental evaluation performed. After showing the limitations of objective metrics, which fail to take into account the visual quality of the image, we have put in place a subjective evaluation protocol. The results obtained in terms of MOS (Mean Opinion Score) fully demonstrate the relevance of the proposed reconstruction approaches.Finally, we open our work to different use cases, of a more general nature. This is particularly the case for high-resolution image processing and for video compression

Style APA, Harvard, Vancouver, ISO itp.

47

Debard, Quentin. "Automatic learning of next generation human-computer interactions". Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI036.

Pełny tekst źródła

Streszczenie:

L’Intelligence Artificielle (IA) et les Interfaces Homme-Machine (IHM) sont deux champs de recherche avec relativement peu de travaux communs. Les spécialistes en IHM conçoivent habituellement les interfaces utilisateurs directement à partir d’observations et de mesures sur les interactions humaines, optimisant manuellement l’interface pour qu’elle corresponde au mieux aux attentes des utilisateurs. Ce processus est difficile à optimiser : l’ergonomie, l’intuitivité et la facilité d’utilisation sont autant de propriétés clé d’une interface utilisateur (IU) trop complexes pour être simplement modélisées à partir de données d’interaction. Ce constat restreint drastiquement les utilisations potentielles de l’apprentissage automatique dans ce processus de conception. A l’heure actuelle, l’apprentissage automatique dans les IHMs se cantonne majoritairement à la reconnaissance de gestes et à l’automatisation d’affichage, par exemple à des fins publicitaires ou pour suggérer une sélection. L’apprentissage automatique peut également être utilisé pour optimiser une interface utilisateur existante, mais il ne participe pour l’instant pas à concevoir de nouvelles façons d’intéragir. Notre objectif avec cette thèse est de proposer grâce à l’apprentissage automatique de nouvelles stratégies pour améliorer le processus de conception et les propriétés des IUs. Notre but est de définir de nouvelles IUs intelligentes – comprendre précises, intuitives et adaptatives – requérant un minimum d’interventions manuelles. Nous proposons une nouvelle approche à la conception d’IU : plutôt que l’utilisateur s’adapte à l’interface, nous cherchons à ce que l’utilisateur et l’interface s’adaptent mutuellement l’un à l’autre. Le but est d’une part de réduire le biais humain dans la conception de protocoles d’interactions, et d’autre part de construire des interfaces co-adaptatives capables de correspondre d’avantage aux préférences individuelles des utilisateurs. Pour ce faire, nous allons mettre à contribution les différents outils disponibles en apprentissage automatique afin d’apprendre automatiquement des comportements, des représentations et des prises de décision. Nous expérimenterons sur les interfaces tactiles pour deux raisons majeures : celles-ci sont largement utilisées et fournissent des problèmes facilement interprétables. La première partie de notre travail se focalisera sur le traitement des données tactiles et l’utilisation d’apprentissage supervisé pour la construction de classifieurs précis de gestes tactiles. La seconde partie détaillera comment l’apprentissage par renforcement peut être utilisé pour modéliser et apprendre des protocoles d’interaction en utilisant des gestes utilisateur. Enfin, nous combinerons ces modèles d’apprentissage par renforcement avec de l’apprentissage non supervisé pour définir une méthode de conception de nouveaux protocoles d’interaction ne nécessitant pas de données d’utilisation réelles
Artificial Intelligence (AI) and Human-Computer Interactions (HCIs) are two research fields with relatively few common work. HCI specialists usually design the way we interact with devices directly from observations and measures of human feedback, manually optimizing the user interface to better fit users’ expectations. This process is hard to optimize: ergonomy, intuitivity and ease of use are key features in a User Interface (UI) that are too complex to be simply modelled from interaction data. This drastically restrains the possible uses of Machine Learning (ML) in this design process. Currently, ML in HCI is mostly applied to gesture recognition and automatic display, e.g. advertisement or item suggestion. It is also used to fine tune an existing UI to better optimize it, but as of now it does not participate in designing new ways to interact with computers. Our main focus in this thesis is to use ML to develop new design strategies for overall better UIs. We want to use ML to build intelligent – understand precise, intuitive and adaptive – user interfaces using minimal handcrafting. We propose a novel approach to UI design: instead of letting the user adapt to the interface, we want the interface and the user to adapt mutually to each other. The goal is to reduce human bias in protocol definition while building co-adaptive interfaces able to further fit individual preferences. In order to do so, we will put to use the different mechanisms available in ML to automatically learn behaviors, build representations and take decisions. We will be experimenting on touch interfaces, as these interfaces are vastly used and can provide easily interpretable problems. The very first part of our work will focus on processing touch data and use supervised learning to build accurate classifiers of touch gestures. The second part will detail how Reinforcement Learning (RL) can be used to model and learn interaction protocols given user actions. Lastly, we will combine these RL models with unsupervised learning to build a setup allowing for the design of new interaction protocols without the need for real user data

Style APA, Harvard, Vancouver, ISO itp.

48

Baccouche, Moez. "Apprentissage neuronal de caractéristiques spatio-temporelles pour la classification automatique de séquences vidéo". Phd thesis, INSA de Lyon, 2013. http://tel.archives-ouvertes.fr/tel-00932662.

Pełny tekst źródła

Streszczenie:

Cette thèse s'intéresse à la problématique de la classification automatique des séquences vidéo. L'idée est de se démarquer de la méthodologie dominante qui se base sur l'utilisation de caractéristiques conçues manuellement, et de proposer des modèles qui soient les plus génériques possibles et indépendants du domaine. Ceci est fait en automatisant la phase d'extraction des caractéristiques, qui sont dans notre cas générées par apprentissage à partir d'exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modèles neuronaux pour la reconnaissance d'objets dans les images fixes, et nous étudions leur extension au cas de la vidéo. Plus concrètement, nous proposons deux modèles d'apprentissage des caractéristiques spatio-temporelles pour la classification vidéo : (i) Un modèle d'apprentissage supervisé profond, qui peut être vu comme une extension des modèles ConvNets au cas de la vidéo, et (ii) Un modèle d'apprentissage non supervisé, qui se base sur un schéma d'auto-encodage, et sur une représentation parcimonieuse sur-complète des données. Outre les originalités liées à chacune de ces deux approches, une contribution supplémentaire de cette thèse est une étude comparative entre plusieurs modèles de classification de séquences parmi les plus populaires de l'état de l'art. Cette étude a été réalisée en se basant sur des caractéristiques manuelles adaptées à la problématique de la reconnaissance d'actions dans les vidéos de football. Ceci a permis d'identifier le modèle de classification le plus performant (un réseau de neurone récurrent bidirectionnel à longue mémoire à court-terme -BLSTM-), et de justifier son utilisation pour le reste des expérimentations. Enfin, afin de valider la généricité des deux modèles proposés, ceux-ci ont été évalués sur deux problématiques différentes, à savoir la reconnaissance d'actions humaines (sur la base KTH), et la reconnaissance d'expressions faciales (sur la base GEMEP-FERA). L'étude des résultats a permis de valider les approches, et de montrer qu'elles obtiennent des performances parmi les meilleures de l'état de l'art (avec 95,83% de bonne reconnaissance pour la base KTH, et 87,57% pour la base GEMEP-FERA).

Style APA, Harvard, Vancouver, ISO itp.

49

Pajot, Arthur. "Incorporating physical knowledge into deep neural network". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS290.

Pełny tekst źródła

Streszczenie:

Un processus physique est un phénomène marqué par des changements graduels à travers une série d'états successifs se produisant dans le monde physique. Les physiciens et les climatologues tentent de modéliser ces processus d'une manière fondée sur le principe de descriptions analytiques des connaissances a priori des processus sous-jacents. Malgré le succès indéniable de l'apprentissage profond, une approche entièrement axée sur les données n'est pas non plus encore prête à remettre en question l'approche classique de modélisation des systèmes dynamiques. Nous tenterons de démontrer dans cette thèse que les connaissances et les techniques accumulées pour modéliser des processus de systèmes dynamiques dans des domaines bien développés comme les mathématiques ou la physique, pourraient servir de guide pour concevoir des systèmes d'apprentissage automatique efficaces et, inversement, que l'apprentissage machine pourrait ouvrir de nouvelles directions pour la modélisation de phénomènes très complexes. Nous décrivons trois tâches pertinentes à l'étude et à la modélisation du lien entre l'apprentissage profond et les systèmes dynamiques : la prévision, la découverte d'états cachés et la reconstruction de signal non supervisé
A physical process is a sustained phenomenon marked by gradual changes through a series of states occurring in the physical world. Physicists and environmental scientists attempt to model these processes in a principled way through analytic descriptions of the scientist’s prior knowledge of the underlying processes. Despite the undeniable Deep Learning success, a fully data-driven approach is not yet ready to challenge the classical approach for modeling dynamical systems. We will try to demonstrate in this thesis that knowledge and techniques accumulated for modeling dynamical systems processes in well-developed fields such as maths or physics could be useful as a guideline to design efficient learning systems and conversely, that the ML paradigm could open new directions for modeling such complex phenomena. We describe three tasks that are relevant to the study and modeling of Deep Learning and Dynamical System : Forecasting, hidden state discovery and unsupervised signal recovery

Style APA, Harvard, Vancouver, ISO itp.

50

Dahmane, Khouloud. "Analyse d'images par méthode de Deep Learning appliquée au contexte routier en conditions météorologiques dégradées". Thesis, Université Clermont Auvergne‎ (2017-2020), 2020. http://www.theses.fr/2020CLFAC020.

Pełny tekst źródła

Streszczenie:

De nos jours, les systèmes de vision sont de plus en plus utilisés dans le contexte routier. Ils permettent ainsi d'assurer la sécurité et faciliter la mobilité. Ces systèmes de vision sont généralement affectés par la dégradation des conditions météorologiques en présence de brouillard ou de pluie forte, phénomènes limitant la visibilité et réduisant ainsi la qualité des images. Afin d'optimiser les performances des systèmes de vision, il est nécessaire de disposer d'un système de détection fiable de ces conditions météorologiques défavorables.Il existe des capteurs météorologiques dédiés à la mesure physique, mais ils sont coûteux. Ce problème peut être résolu en utilisant les caméras qui sont déjà installées sur les routes. Ces dernières peuvent remplir simultanément deux fonctions : l'acquisition d'images pour les applications de surveillance et la mesure physique des conditions météorologiques au lieu des capteurs dédiés. Suite au grand succès des réseaux de neurones convolutifs (CNN) dans la classification et la reconnaissance d'images, nous avons utilisé une méthode d'apprentissage profond pour étudier le problème de la classification météorologique. L'objectif de notre étude est de chercher dans un premier temps à mettre au point un classifieur du temps, qui permet de discriminer entre temps « normal », brouillard et pluie. Dans un deuxième temps, une fois la classe connue, nous cherchons à développer un modèle de mesure de la distance de visibilité météorologique du brouillard. Rappelons que l'utilisation des CNN exige l'utilisation de bases de données d'apprentissage et de test. Pour cela, deux bases de données ont été utilisées, "Cerema-AWP database" (https://ceremadlcfmds.wixsite.com/cerema-databases), et la base "Cerema-AWH database", en cours d'acquisition depuis 2017 sur le site de la Fageole sur l'autoroute A75. Chaque image des deux bases est labellisée automatiquement grâce aux données météorologiques relevées sur le site permettant de caractériser diverses gammes de pluie et de brouillard. La base Cerema-AWH, qui a été mise en place dans le cadre de nos travaux, contient cinq sous-bases : conditions normales de jour, brouillard fort, brouillard faible, pluie forte et pluie faible. Les intensités de pluie varient de 0 mm/h à 70 mm/h et les visibilités météorologiques de brouillard varient entre 50m et 1800m. Parmi les réseaux de neurones connus et qui ont montré leur performance dans le domaine de la reconnaissance et la classification, nous pouvons citer LeNet, ResNet-152, Inception-v4 et DenseNet-121. Nous avons appliqué ces réseaux dans notre système de classification des conditions météorologiques dégradées. En premier lieu, une étude justificative de l'usage des réseaux de neurones convolutifs est effectuée. Elle étudie la nature de la donnée d'entrée et les hyperparamètres optimaux qu'il faut utiliser pour aboutir aux meilleurs résultats. Ensuite, une analyse des différentes composantes d'un réseau de neurones est menée en construisant une architecture instrumentale de réseau de neurones. La classification des conditions météorologiques avec les réseaux de neurones profonds a atteint un score de 83% pour une classification de cinq classes et 99% pour une classification de trois classes.Ensuite, une analyse sur les données d'entrée et de sortie a été faite permettant d'étudier l'impact du changement de scènes et celui du nombre de données d'entrée et du nombre de classes météorologiques sur le résultat de classification.Enfin, une méthode de transfert de bases de données a été appliquée. Cette méthode permet d'étudier la portabilité du système de classification des conditions météorologiques d'un site à un autre. Un score de classification de 63% a été obtenu en faisant un transfert entre une base publique et la base Cerema-AWH. (...)
Nowadays, vision systems are becoming more and more used in the road context. They ensure safety and facilitate mobility. These vision systems are generally affected by the degradation of weather conditions, like heavy fog or strong rain, phenomena limiting the visibility and thus reducing the quality of the images. In order to optimize the performance of the vision systems, it is necessary to have a reliable detection system for these adverse weather conditions.There are meteorological sensors dedicated to physical measurement, but they are expensive. Since cameras are already installed on the road, they can simultaneously perform two functions: image acquisition for surveillance applications and physical measurement of weather conditions instead of dedicated sensors. Following the great success of convolutional neural networks (CNN) in classification and image recognition, we used a deep learning method to study the problem of meteorological classification. The objective of our study is to first seek to develop a classifier of time, which discriminates between "normal" conditions, fog and rain. In a second step, once the class is known, we seek to develop a model for measuring meteorological visibility.The use of CNN requires the use of train and test databases. For this, two databases were used, "Cerema-AWP database" (https://ceremadlcfmds.wixsite.com/cerema-databases), and the "Cerema-AWH database", which has been acquired since 2017 on the Fageole site on the highway A75. Each image of the two bases is labeled automatically thanks to meteorological data collected on the site to characterize various levels of precipitation for rain and fog.The Cerema-AWH base, which was set up as part of our work, contains 5 sub-bases: normal day conditions, heavy fog, light fog, heavy rain and light rain. Rainfall intensities range from 0 mm/h to 70mm/h and fog weather visibilities range from 50m to 1800m. Among the known neural networks that have demonstrated their performance in the field of recognition and classification, we can cite LeNet, ResNet-152, Inception-v4 and DenseNet-121. We have applied these networks in our adverse weather classification system. We start by the study of the use of convolutional neural networks. The nature of the input data and the optimal hyper-parameters that must be used to achieve the best results. An analysis of the different components of a neural network is done by constructing an instrumental neural network architecture. The conclusions drawn from this analysis show that we must use deep neural networks. This type of network is able to classify five meteorological classes of Cerema-AWH base with a classification score of 83% and three meteorological classes with a score of 99%Then, an analysis of the input and output data was made to study the impact of scenes change, the input's data and the meteorological classes number on the classification result.Finally, a database transfer method is developed. We study the portability from one site to another of our adverse weather conditions classification system. A classification score of 63% by making a transfer between a public database and Cerema-AWH database is obtained.After the classification, the second step of our study is to measure the meteorological visibility of the fog. For this, we use a neural network that generates continuous values. Two fog variants were tested: light and heavy fog combined and heavy fog (road fog) only. The evaluation of the result is done using a correlation coefficient R² between the real values and the predicted values. We compare this coefficient with the correlation coefficient between the two sensors used to measure the weather visibility on site. Among the results obtained and more specifically for road fog, the correlation coefficient reaches a value of 0.74 which is close to the physical sensors value (0.76)

Style APA, Harvard, Vancouver, ISO itp.

Oferujemy zniżki na wszystkie plany premium dla autorów, których prace zostały uwzględnione w tematycznych zestawieniach literatury. Skontaktuj się z nami, aby uzyskać unikalny kod promocyjny!