Добірка наукової літератури з теми "Apprentissage par renforcement non supervisé"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "Apprentissage par renforcement non supervisé".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Статті в журналах з теми "Apprentissage par renforcement non supervisé":

1

Toillier, Aurélie, Agathe Devaux-Spartakis, Guy Faure, Danielle Barret, and Catherine Marquié. "Comprendre la contribution de la recherche à l'innovation collective par l'exploration de mécanismes de renforcement de capacité." Cahiers Agricultures 27, no. 1 (December 21, 2017): 15002. http://dx.doi.org/10.1051/cagri/2017055.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le renforcement des capacités à innover apparaît comme un nouveau moyen pour assurer un développement durable dans les pays du Sud. Dans le secteur de l'agriculture, l'innovation est essentiellement collective, ce qui appelle les chercheurs à sortir de leur rôle de producteurs de connaissances pour s'engager auprès des acteurs en situation d'innovation. Si une diversité de pratiques de recherche engagée sont apparues, il n'existe cependant pas aujourd'hui une vision claire des différentes façons dont les chercheurs contribuent à l'innovation. L'objectif de cet article est d'identifier les différentes modalités de contribution des chercheurs au renforcement des capacités à innover. Pour cela, les auteurs ont développé un cadre d'analyse ex post qui met en perspective deux corpus de littérature, sur l'apprentissage et le management de l'innovation. Ce cadre permet de caractériser des séquences de situations d'apprentissage et une diversité de postures des chercheurs aux différentes étapes de l'innovation pour rendre compte de leurs contributions. À partir d'une étude approfondie de treize cas d'innovation dans lesquels le Centre de coopération internationale en recherche agronomique pour le développement (CIRAD) s'est engagé avec ses partenaires de recherche du Sud, quatre types de contribution des chercheurs au renforcement des capacités à innover ont été identifiés : faciliter des apprentissages de façon non supervisée, planifier et encadrer des apprentissages, créer des besoins d'apprentissage et y répondre pas à pas, se laisser guider par l'exploration et les besoins des utilisateurs. Nos résultats suggèrent qu'une gestion stratégique des processus d'innovation par les organismes de recherche pourrait être rendue possible par le suivi et l'évaluation des situations d'apprentissage, d'une part de façon à renforcer les capacités à innover des chercheurs eux-mêmes et d‘autre part pour agencer au mieux les compétences et ressources disponibles, faire évoluer les mandats des chercheurs et rationaliser leurs investissements.
2

Degris, Thomas, Olivier Sigaud, and Pierre-Henri Wuillemin. "Apprentissage par renforcement factorisé pour le comportement de personnages non joueurs." Revue d'intelligence artificielle 23, no. 2-3 (May 13, 2009): 221–51. http://dx.doi.org/10.3166/ria.23.221-251.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Dechemi, N., T. Benkaci, and A. Issolah. "Modélisation des débits mensuels par les modèles conceptuels et les systèmes neuro-flous." Revue des sciences de l'eau 16, no. 4 (April 12, 2005): 407–24. http://dx.doi.org/10.7202/705515ar.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La modélisation pluie-débit au pas de temps mensuel, a été étudiée par le biais de quatre modèles qui appartiennent à deux catégories, les modèles conceptuels (modèles à réservoirs), et les modèles basés sur les réseaux de neurones, et la logique floue Les modèles conceptuels mensuels utilisés sont les modèles de Thornthwaite et Arnell et le modèle GR2M, ainsi que deux modèles représentés par les réseaux de neurones à apprentissage supervisé et le modèle neuro-flou qui combine une méthode d'optimisation neuronale et une logique floue. Une application de ces modèles a été effectuée sur le bassin de la Cheffia (Nord-Est Algérien), et a confirmé les performances du modèle basé sur la logique floue. Par sa robustesse et son pouvoir d'extrapolation non-linéaire, ce modèle a donné d'excellents résultats, et représente donc une nouvelle approche de la modélisation pluie-débit au pas de temps mensuel.
4

Jacopin, Eliott, Antoine Cornuéjols, Christine Martin, Farzaneh Kazemipour, and Christophe Sausse. "Détection automatique de plantes au sein d’images aériennes de champs par apprentissage non supervisé et approche multi-agents." Revue Ouverte d'Intelligence Artificielle 2, no. 1 (November 17, 2021): 123–56. http://dx.doi.org/10.5802/roia.12.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Heddam, Salim, Abdelmalek Bermad, and Noureddine Dechemi. "Modélisation de la dose de coagulant par les systèmes à base d’inférence floue (ANFIS) application à la station de traitement des eaux de Boudouaou (Algérie)." Revue des sciences de l’eau 25, no. 1 (March 28, 2012): 1–17. http://dx.doi.org/10.7202/1008532ar.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La coagulation est l’une des étapes les plus importantes dans le traitement des eaux. La difficulté principale est de déterminer la dose optimale de coagulant à injecter en fonction des caractéristiques de l’eau brute. Un mauvais contrôle de ce procédé peut entraîner une augmentation importante des coûts de fonctionnement et le non-respect des objectifs de qualité en sortie de la station de traitement. Le sulfate d’aluminium (Al2SO4.18H2O) est le réactif coagulant le plus généralement utilisé. La détermination de la dose de coagulant se fait au moyen de l’essai dit de « Jar Test » conduit en laboratoire. Ce type d’approche a le désavantage d’avoir un temps de retard relativement long et ne permet donc pas un contrôle automatique du procédé de coagulation. Le présent article décrit un modèle neuro flou de type Takagi Sugeno (TK), développé pour la prédiction de la dose de coagulant utilisée lors de la phase de clarification dans la station de traitement des eaux de Boudouaou qui alimente la ville d’Alger en eau potable. Le modèle ANFIS (système d’inférence flou à base de réseaux de neurones adaptatifs), qui combine les techniques floues et neuronales en formant un réseau à apprentissage supervisé, a été appliqué durant la phase de calage et testé en période de validation. Les résultats obtenus par le modèle ANFIS ont été comparés avec ceux obtenus avec un réseau de neurones de type perceptron multicouche (MLP) et un troisième modèle à base de regression linéaire multiple (MLR). Un coefficient de détermination (R2) de l’ordre de 0,92 en période de validation a été obtenu avec le modèle ANFIS, alors que pour le MLP, il est de l’ordre de 0,75, et que pour le modèle MLR, il ne dépasse pas 0,35. Les résultats obtenus sont d’une grande importance pour la gestion de l’installation.

Дисертації з теми "Apprentissage par renforcement non supervisé":

1

Tarbouriech, Jean. "Goal-oriented exploration for reinforcement learning." Thesis, Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB014.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Apprendre à atteindre des buts est une compétence à acquérir à grande pertinence pratique pour des agents intelligents. Par exemple, ceci englobe de nombreux problèmes de navigation (se diriger vers telle destination), de manipulation robotique (atteindre telle position du bras robotique) ou encore certains jeux (gagner en accomplissant tel objectif). En tant qu'être vivant interagissant avec le monde, je suis constamment motivé par l'atteinte de buts, qui varient en portée et difficulté.L'Apprentissage par Renforcement (AR) est un paradigme prometteur pour formaliser et apprendre des comportements d'atteinte de buts. Un but peut être modélisé comme une configuration spécifique d'états de l'environnement qui doit être atteinte par interaction séquentielle et exploration de l'environnement inconnu. Bien que divers algorithmes en AR dit "profond" aient été proposés pour ce modèle d'apprentissage conditionné par des états buts, les méthodes existantes manquent de compréhension rigoureuse, d'efficacité d'échantillonnage et de capacités polyvalentes. Il s'avère que l'analyse théorique de l'AR conditionné par des états buts demeurait très limitée, même dans le scénario basique d'un nombre fini d'états et d'actions.Premièrement, nous nous concentrons sur le scénario supervisé, où un état but qui doit être atteint en minimisant l'espérance des coûts cumulés est fourni dans la définition du problème. Après avoir formalisé le problème d'apprentissage incrémental (ou ``online'') de ce modèle souvent appelé Plus Court Chemin Stochastique, nous introduisons deux algorithmes au regret sous-linéaire (l'un est le premier disponible dans la littérature, l'autre est quasi-optimal).Au delà d'entraîner l'agent d'AR à résoudre une seule tâche, nous aspirons ensuite qu'il apprenne de manière autonome à résoudre une grande variété de tâches, dans l'absence de toute forme de supervision en matière de récompense. Dans ce scénario non-supervisé, nous préconisons que l'agent sélectionne lui-même et cherche à atteindre ses propres états buts. Nous dérivons des garanties non-asymptotiques de cette heuristique populaire dans plusieurs cadres, chacun avec son propre objectif d'exploration et ses propres difficultés techniques. En guise d'illustration, nous proposons une analyse rigoureuse du principe algorithmique de viser des états buts "incertains", que nous ancrons également dans le cadre de l'AR profond.L'objectif et les contributions de cette thèse sont d'améliorer notre compréhension formelle de l'exploration d'états buts pour l'AR, dans les scénarios supervisés et non-supervisés. Nous espérons qu'elle peut aider à suggérer de nouvelles directions de recherche pour améliorer l'efficacité d'échantillonnage et l'interprétabilité d'algorithmes d'AR basés sur la sélection et/ou l'atteinte d'états buts dans des applications pratiques
Learning to reach goals is a competence of high practical relevance to acquire for intelligent agents. For instance, this encompasses many navigation tasks ("go to target X"), robotic manipulation ("attain position Y of the robotic arm"), or game-playing scenarios ("win the game by fulfilling objective Z"). As a living being interacting with the world, I am constantly driven by goals to reach, varying in scope and difficulty.Reinforcement Learning (RL) holds the promise to frame and learn goal-oriented behavior. Goals can be modeled as specific configurations of the environment that must be attained via sequential interaction and exploration of the unknown environment. Although various deep RL algorithms have been proposed for goal-oriented RL, existing methods often lack principled understanding, sample efficiency and general-purpose effectiveness. In fact, very limited theoretical analysis of goal-oriented RL was available, even in the basic scenario of finitely many states and actions.We first focus on a supervised scenario of goal-oriented RL, where a goal state to be reached in minimum total expected cost is provided as part of the problem definition. After formalizing the online learning problem in this setting often known as Stochastic Shortest Path (SSP), we introduce two no-regret algorithms (one is the first available in the literature, the other attains nearly optimal guarantees).Beyond training our RL agent to solve only one task, we then aspire that it learns to autonomously solve a wide variety of tasks, in the absence of any reward supervision. In this challenging unsupervised RL scenario, we advocate to "Set Your Own Goals" (SYOG), which suggests the agent to learn the ability to intrinsically select and reach its own goal states. We derive finite-time guarantees of this popular heuristic in various settings, each with its specific learning objective and technical challenges. As an illustration, we propose a rigorous analysis of the algorithmic principle of targeting "uncertain" goals which we also anchor in deep RL.The main focus and contribution of this thesis are to instigate a principled analysis of goal-oriented exploration in RL, both in the supervised and unsupervised scenarios. We hope that it helps suggest promising research directions to improve the interpretability and sample efficiency of goal-oriented RL algorithms in practical applications
2

Debard, Quentin. "Automatic learning of next generation human-computer interactions." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI036.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L’Intelligence Artificielle (IA) et les Interfaces Homme-Machine (IHM) sont deux champs de recherche avec relativement peu de travaux communs. Les spécialistes en IHM conçoivent habituellement les interfaces utilisateurs directement à partir d’observations et de mesures sur les interactions humaines, optimisant manuellement l’interface pour qu’elle corresponde au mieux aux attentes des utilisateurs. Ce processus est difficile à optimiser : l’ergonomie, l’intuitivité et la facilité d’utilisation sont autant de propriétés clé d’une interface utilisateur (IU) trop complexes pour être simplement modélisées à partir de données d’interaction. Ce constat restreint drastiquement les utilisations potentielles de l’apprentissage automatique dans ce processus de conception. A l’heure actuelle, l’apprentissage automatique dans les IHMs se cantonne majoritairement à la reconnaissance de gestes et à l’automatisation d’affichage, par exemple à des fins publicitaires ou pour suggérer une sélection. L’apprentissage automatique peut également être utilisé pour optimiser une interface utilisateur existante, mais il ne participe pour l’instant pas à concevoir de nouvelles façons d’intéragir. Notre objectif avec cette thèse est de proposer grâce à l’apprentissage automatique de nouvelles stratégies pour améliorer le processus de conception et les propriétés des IUs. Notre but est de définir de nouvelles IUs intelligentes – comprendre précises, intuitives et adaptatives – requérant un minimum d’interventions manuelles. Nous proposons une nouvelle approche à la conception d’IU : plutôt que l’utilisateur s’adapte à l’interface, nous cherchons à ce que l’utilisateur et l’interface s’adaptent mutuellement l’un à l’autre. Le but est d’une part de réduire le biais humain dans la conception de protocoles d’interactions, et d’autre part de construire des interfaces co-adaptatives capables de correspondre d’avantage aux préférences individuelles des utilisateurs. Pour ce faire, nous allons mettre à contribution les différents outils disponibles en apprentissage automatique afin d’apprendre automatiquement des comportements, des représentations et des prises de décision. Nous expérimenterons sur les interfaces tactiles pour deux raisons majeures : celles-ci sont largement utilisées et fournissent des problèmes facilement interprétables. La première partie de notre travail se focalisera sur le traitement des données tactiles et l’utilisation d’apprentissage supervisé pour la construction de classifieurs précis de gestes tactiles. La seconde partie détaillera comment l’apprentissage par renforcement peut être utilisé pour modéliser et apprendre des protocoles d’interaction en utilisant des gestes utilisateur. Enfin, nous combinerons ces modèles d’apprentissage par renforcement avec de l’apprentissage non supervisé pour définir une méthode de conception de nouveaux protocoles d’interaction ne nécessitant pas de données d’utilisation réelles
Artificial Intelligence (AI) and Human-Computer Interactions (HCIs) are two research fields with relatively few common work. HCI specialists usually design the way we interact with devices directly from observations and measures of human feedback, manually optimizing the user interface to better fit users’ expectations. This process is hard to optimize: ergonomy, intuitivity and ease of use are key features in a User Interface (UI) that are too complex to be simply modelled from interaction data. This drastically restrains the possible uses of Machine Learning (ML) in this design process. Currently, ML in HCI is mostly applied to gesture recognition and automatic display, e.g. advertisement or item suggestion. It is also used to fine tune an existing UI to better optimize it, but as of now it does not participate in designing new ways to interact with computers. Our main focus in this thesis is to use ML to develop new design strategies for overall better UIs. We want to use ML to build intelligent – understand precise, intuitive and adaptive – user interfaces using minimal handcrafting. We propose a novel approach to UI design: instead of letting the user adapt to the interface, we want the interface and the user to adapt mutually to each other. The goal is to reduce human bias in protocol definition while building co-adaptive interfaces able to further fit individual preferences. In order to do so, we will put to use the different mechanisms available in ML to automatically learn behaviors, build representations and take decisions. We will be experimenting on touch interfaces, as these interfaces are vastly used and can provide easily interpretable problems. The very first part of our work will focus on processing touch data and use supervised learning to build accurate classifiers of touch gestures. The second part will detail how Reinforcement Learning (RL) can be used to model and learn interaction protocols given user actions. Lastly, we will combine these RL models with unsupervised learning to build a setup allowing for the design of new interaction protocols without the need for real user data
3

Buhot, Arnaud. "Etude de propriétés d'apprentissage supervisé et non supervisé par des méthodes de Physique Statistique." Phd thesis, Université Joseph Fourier (Grenoble), 1999. http://tel.archives-ouvertes.fr/tel-00001642.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'objet de cette thèse est l'étude de diverses propriétés d'apprentissage à partir d'exemples par des méthodes de Physique Statistique, notamment, par la méthode des répliques. Des tâches supervisées, correspondant à la classification binaire de données, ainsi que des tâches non supervisées, comme l'estimation paramétrique d'une densité de probabilité, sont considérées. Dans la première partie, une approche variationnelle permet de déterminer la performance de l'apprentissage optimal d'une direction d'anisotropie, et de déduire une fonction de coût permettant d'obtenir ces performances optimales. Dans le cas de l'apprentissage supervisé d'une tâche linéairement séparable, des simulations numériques confirmant nos résultats théoriques ont permis de déterminer les effets de taille finie. Dans le cas d'une densité de probabilité constituée de deux gaussiennes, la performance de l'apprentissage optimal présente de nombreuses transitions de phases en fonction du nombre de données. Ces résultats soulèvent une controverse entre la théorie variationnelle et l'approche bayesienne de l'apprentissage optimal. Dans la deuxième partie, nous étudions deux approches différentes de l'apprentissage de tâches de classification complexes. La première approche considérée est celle des machines à exemples supports. Nous avons étudié une famille de ces machines pour laquelle les séparateurs linéaire et quadratique sont deux cas particuliers. La capacité, les valeurs typiques de la marge et du nombre d'exemples supports, sont déterminées. La deuxième approche considérée est celle d'une machine de parité apprenant avec un algorithme incrémental. Cet algorithme construit progressivement un réseau de neurones à une couche cachée. La capacité théorique obtenue pour l'algorithme considéré est proche de celle de la machine de parité.
4

Chen, Hao. "Vers la ré-identification de personnes non-supervisée." Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4014.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
En tant que composant central des systèmes de vidéo-surveillance intelligents, la ré-identification de personnes (ReID) vise à rechercher une personne d'intérêt à travers des caméras qui ne se chevauchent pas. Malgré des améliorations significatives de la ReID supervisée, le processus d'annotation encombrant le rend moins évolutif dans les déploiements réels. De plus, comme les représentations d'apparence peuvent être affectées par des facteurs bruyants, tels que le niveau d'éclairage et les propriétés de la caméra, entre différents domaines, les modèles ReID de personnes subissent une baisse de performances importante en présence d'écarts de domaine. Nous sommes particulièrement intéressés par la conception d'algorithmes capables d'adapter un modèle ReID de personnes à un domaine cible sans supervision humaine. Dans un tel contexte, nous nous concentrons principalement sur la conception de méthodes d'adaptation de domaine non-supervisée et d'apprentissage de représentation non-supervisée pour le ReID de personnes.Dans cette thèse, nous explorons d'abord comment construire des représentations robustes en combinant à la fois des caractéristiques globales et locales sous la condition supervisée. Ensuite, vers un système ReID adaptatif au domaine non-supervisé, nous proposons trois méthodes non-supervisées pour la ReID de personnes, notamment 1) la distillation des connaissances enseignant-étudiant avec des structures de réseau asymétriques pour encourager la diversité des caractéristiques, 2) un cadre d'apprentissage conjoint génératif et contrastif qui génère des vues augmentées avec un réseau génératif pour l'apprentissage contrastif, et 3) explorer les relations inter-instances et concevoir des fonctions de perte conscientes des relations pour une meilleure ReID de personnes basée sur l'apprentissage contrastif.Nos méthodes ont été largement évaluées sur des benchmarks de ReID, tels que Market-1501, DukeMTMC-reID et MSMT17. Les méthodes proposées surpassent considérablement les méthodes précédentes sur les benchmarks de ReID, poussant considérablement la ReID de personnes vers des déploiements dans le monde réel
As a core component of intelligent video surveillance systems, person re-identification (ReID) targets at retrieving a person of interest across non-overlapping cameras. Despite significant improvements in supervised ReID, cumbersome annotation process makes it less scalable in real-world deployments. Moreover, as appearance representations can be affected by noisy factors, such as illumination level and camera properties, between different domains, person ReID models suffer a large performance drop in the presence of domain gaps. We are particularly interested in designing algorithms that can adapt a person ReID model to a target domain without human supervision. In such context, we mainly focus on designing unsupervised domain adaptation and unsupervised representation learning methods for person ReID.In this thesis, we first explore how to build robust representations by combining both global and local features under the supervised condition. Then, towards an unsupervised domain adaptive ReID system, we propose three unsupervised methods for person ReID, including 1) teacher-student knowledge distillation with asymmetric network structures for feature diversity encouragement, 2) joint generative and contrastive learning framework that generates augmented views with a generative adversarial network for contrastive learning, and 3) exploring inter-instance relations and designing relation-aware loss functions for better contrastive learning based person ReID.Our methods have been extensively evaluated on main-stream ReID datasets, such as Market-1501, DukeMTMC-reID and MSMT17. The proposed methods significantly outperform previous methods on the ReID datasets, significantly pushing person ReID to real-world deployments
5

Dutech, Alain. "Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)." Habilitation à diriger des recherches, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00549108.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour des tâches non-Markoviennes qui est une problématique commune aux différents travaux de recherche que j'ai menés au cours des treize dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale difficulté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes de ``l'ancrage des symboles'', du ``frame problem'' et du fait ``d'être en situation'' et qu'on ne pourra y apporter des réponses que dans le cadre de l'embodiment. C'est à partir de ce constat que, dans une dernière partie, j'aborde les axes et les approches que je vais suivre pour poursuivre mes travaux en développant des techniques d'apprentissage robotique qui soient incrémentales, holistiques et motivationnelles.
6

Lefort, Mathieu. "Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale." Phd thesis, Université Nancy II, 2012. http://tel.archives-ouvertes.fr/tel-00756687.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiaux qui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architecture connexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes. L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles: les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissage de certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques.
7

Peyrache, Jean-Philippe. "Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée." Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET4023/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ces dernières années, l’intérêt pour l’apprentissage automatique n’a cessé d’augmenter dans des domaines aussi variés que la reconnaissance d’images ou l’analyse de données médicales. Cependant, une limitation du cadre classique PAC a récemment été mise en avant. Elle a entraîné l’émergence d’un nouvel axe de recherche : l’Adaptation de Domaine, dans lequel on considère que les données d’apprentissage proviennent d’une distribution (dite source) différente de celle (dite cible) dont sont issues les données de test. Les premiers travaux théoriques effectués ont débouché sur la conclusion selon laquelle une bonne performance sur le test peut s’obtenir en minimisant à la fois l’erreur sur le domaine source et un terme de divergence entre les deux distributions. Trois grandes catégories d’approches s’en inspirent : par repondération, par reprojection et par auto-étiquetage. Dans ce travail de thèse, nous proposons deux contributions. La première est une approche de reprojection basée sur la théorie du boosting et s’appliquant aux données numériques. Celle-ci offre des garanties théoriques intéressantes et semble également en mesure d’obtenir de bonnes performances en généralisation. Notre seconde contribution consiste d’une part en la proposition d’un cadre permettant de combler le manque de résultats théoriques pour les méthodes d’auto-étiquetage en donnant des conditions nécessaires à la réussite de ce type d’algorithme. D’autre part, nous proposons dans ce cadre une nouvelle approche utilisant la théorie des (epsilon, gamma, tau)-bonnes fonctions de similarité afin de contourner les limitations imposées par la théorie des noyaux dans le contexte des données structurées
During the past few years, an increasing interest for Machine Learning has been encountered, in various domains like image recognition or medical data analysis. However, a limitation of the classical PAC framework has recently been highlighted. It led to the emergence of a new research axis: Domain Adaptation (DA), in which learning data are considered as coming from a distribution (the source one) different from the one (the target one) from which are generated test data. The first theoretical works concluded that a good performance on the target domain can be obtained by minimizing in the same time the source error and a divergence term between the two distributions. Three main categories of approaches are derived from this idea : by reweighting, by reprojection and by self-labeling. In this thesis work, we propose two contributions. The first one is a reprojection approach based on boosting theory and designed for numerical data. It offers interesting theoretical guarantees and also seems able to obtain good generalization performances. Our second contribution consists first in a framework filling the gap of the lack of theoretical results for self-labeling methods by introducing necessary conditions ensuring the good behavior of this kind of algorithm. On the other hand, we propose in this framework a new approach, using the theory of (epsilon, gamma, tau)- good similarity functions to go around the limitations due to the use of kernel theory in the specific context of structured data
8

De, La Bourdonnaye François. "Learning sensori-motor mappings using little knowledge : application to manipulation robotics." Thesis, Université Clermont Auvergne‎ (2017-2020), 2018. http://www.theses.fr/2018CLFAC037/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La thèse consiste en l'apprentissage d'une tâche complexe de robotique de manipulation en utilisant très peu d'aprioris. Plus précisément, la tâche apprise consiste à atteindre un objet avec un robot série. L'objectif est de réaliser cet apprentissage sans paramètres de calibrage des caméras, modèles géométriques directs, descripteurs faits à la main ou des démonstrations d'expert. L'apprentissage par renforcement profond est une classe d'algorithmes particulièrement intéressante dans cette optique. En effet, l'apprentissage par renforcement permet d’apprendre une compétence sensori-motrice en se passant de modèles dynamiques. Par ailleurs, l'apprentissage profond permet de se passer de descripteurs faits à la main pour la représentation d'état. Cependant, spécifier les objectifs sans supervision humaine est un défi important. Certaines solutions consistent à utiliser des signaux de récompense informatifs ou des démonstrations d'experts pour guider le robot vers les solutions. D'autres consistent à décomposer l'apprentissage. Par exemple, l'apprentissage "petit à petit" ou "du simple au compliqué" peut être utilisé. Cependant, cette stratégie nécessite la connaissance de l'objectif en termes d'état. Une autre solution est de décomposer une tâche complexe en plusieurs tâches plus simples. Néanmoins, cela n'implique pas l'absence de supervision pour les sous tâches mentionnées. D'autres approches utilisant plusieurs robots en parallèle peuvent également être utilisés mais nécessite du matériel coûteux. Pour notre approche, nous nous inspirons du comportement des êtres humains. Ces derniers généralement regardent l'objet avant de le manipuler. Ainsi, nous décomposons la tâche d'atteinte en 3 sous tâches. La première tâche consiste à apprendre à fixer un objet avec un système de deux caméras pour le localiser dans l'espace. Cette tâche est apprise avec de l'apprentissage par renforcement profond et un signal de récompense faiblement supervisé. Pour la tâche suivante, deux compétences sont apprises en parallèle : la fixation d'effecteur et une fonction de coordination main-oeil. Comme la précédente tâche, un algorithme d'apprentissage par renforcement profond est utilisé avec un signal de récompense faiblement supervisé. Le but de cette tâche est d'être capable de localiser l'effecteur du robot à partir des coordonnées articulaires. La dernière tâche utilise les compétences apprises lors des deux précédentes étapes pour apprendre au robot à atteindre un objet. Cet apprentissage utilise les mêmes aprioris que pour les tâches précédentes. En plus de la tâche d'atteinte, un predicteur d'atteignabilité d'objet est appris. La principale contribution de ces travaux est l'apprentissage d'une tâche de robotique complexe en n'utilisant que très peu de supervision
The thesis is focused on learning a complex manipulation robotics task using little knowledge. More precisely, the concerned task consists in reaching an object with a serial arm and the objective is to learn it without camera calibration parameters, forward kinematics, handcrafted features, or expert demonstrations. Deep reinforcement learning algorithms suit well to this objective. Indeed, reinforcement learning allows to learn sensori-motor mappings while dispensing with dynamics. Besides, deep learning allows to dispense with handcrafted features for the state spacerepresentation. However, it is difficult to specify the objectives of the learned task without requiring human supervision. Some solutions imply expert demonstrations or shaping rewards to guiderobots towards its objective. The latter is generally computed using forward kinematics and handcrafted visual modules. Another class of solutions consists in decomposing the complex task. Learning from easy missions can be used, but this requires the knowledge of a goal state. Decomposing the whole complex into simpler sub tasks can also be utilized (hierarchical learning) but does notnecessarily imply a lack of human supervision. Alternate approaches which use several agents in parallel to increase the probability of success can be used but are costly. In our approach,we decompose the whole reaching task into three simpler sub tasks while taking inspiration from the human behavior. Indeed, humans first look at an object before reaching it. The first learned task is an object fixation task which is aimed at localizing the object in the 3D space. This is learned using deep reinforcement learning and a weakly supervised reward function. The second task consists in learning jointly end-effector binocular fixations and a hand-eye coordination function. This is also learned using a similar set-up and is aimed at localizing the end-effector in the 3D space. The third task uses the two prior learned skills to learn to reach an object and uses the same requirements as the two prior tasks: it hardly requires supervision. In addition, without using additional priors, an object reachability predictor is learned in parallel. The main contribution of this thesis is the learning of a complex robotic task with weak supervision
9

Aklil, Nassim. "Apprentissage actif sous contrainte de budget en robotique et en neurosciences computationnelles. Localisation robotique et modélisation comportementale en environnement non stationnaire." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066225/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La prise de décision est un domaine très étudié en sciences, que ce soit en neurosciences pour comprendre les processus sous tendant la prise de décision chez les animaux, qu’en robotique pour modéliser des processus de prise de décision efficaces et rapides dans des tâches en environnement réel. En neurosciences, ce problème est résolu online avec des modèles de prises de décision séquentiels basés sur l’apprentissage par renforcement. En robotique, l’objectif premier est l’efficacité, dans le but d’être déployés en environnement réel. Cependant en robotique ce que l’on peut appeler le budget et qui concerne les limitations inhérentes au matériel, comme les temps de calculs, les actions limitées disponibles au robot ou la durée de vie de la batterie du robot, ne sont souvent pas prises en compte à l’heure actuelle. Nous nous proposons dans ce travail de thèse d’introduire la notion de budget comme contrainte explicite dans les processus d’apprentissage robotique appliqués à une tâche de localisation en mettant en place un modèle basé sur des travaux développés en apprentissage statistique qui traitent les données sous contrainte de budget, en limitant l’apport en données ou en posant une contrainte de temps plus explicite. Dans le but d’envisager un fonctionnement online de ce type d’algorithmes d’apprentissage budgétisé, nous discutons aussi certaines inspirations possibles qui pourraient être prises du côté des neurosciences computationnelles. Dans ce cadre, l’alternance entre recherche d’information pour la localisation et la décision de se déplacer pour un robot peuvent être indirectement liés à la notion de compromis exploration-exploitation. Nous présentons notre contribution à la modélisation de ce compromis chez l’animal dans une tâche non stationnaire impliquant différents niveaux d’incertitude, et faisons le lien avec les méthodes de bandits manchot
Decision-making is a highly researched field in science, be it in neuroscience to understand the processes underlying animal decision-making, or in robotics to model efficient and rapid decision-making processes in real environments. In neuroscience, this problem is resolved online with sequential decision-making models based on reinforcement learning. In robotics, the primary objective is efficiency, in order to be deployed in real environments. However, in robotics what can be called the budget and which concerns the limitations inherent to the hardware, such as computation times, limited actions available to the robot or the lifetime of the robot battery, are often not taken into account at the present time. We propose in this thesis to introduce the notion of budget as an explicit constraint in the robotic learning processes applied to a localization task by implementing a model based on work developed in statistical learning that processes data under explicit constraints, limiting the input of data or imposing a more explicit time constraint. In order to discuss an online functioning of this type of budgeted learning algorithms, we also discuss some possible inspirations that could be taken on the side of computational neuroscience. In this context, the alternation between information retrieval for location and the decision to move for a robot may be indirectly linked to the notion of exploration-exploitation compromise. We present our contribution to the modeling of this compromise in animals in a non-stationary task involving different levels of uncertainty, and we make the link with the methods of multi-armed bandits
10

Maes, Francis. "Learning in Markov decision processes for structured prediction : applications to sequence labeling, tree transformation and learning for search." Paris 6, 2009. http://www.theses.fr/2009PA066500.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
De nombreux problèmes d'apprentissage supervisé font intervenir des sorties complexes : séquences, arbres ou graphes. La prédiction de sorties structurées pose d'importants défis, liés à la nature combinatoire du problème. Dans cette thèse, je propose une nouvelle formulation basée sur le cadre des processus de décision Markoviens. Cette formulation permet d'utiliser des algorithmes d'apprentissage par renforcement pour traiter des problèmes particulièrement complexes qu'aucun algorithme n'était en mesure de résoudre jusqu'alors. La validation est effectuée sur deux tâches: l'étiquetage de séquences et la transformation d'arbres. Les résultats obtenus sur les séquences sont compétitifs avec l'état de l'art et pour certains significativement meilleurs. La transformation d'arbres est un des problèmes d'apprentissage statistique les plus complexes abordés à ce jour. Je démontre l'efficacité de l'apprentissage par renforcement pour ce problème sur cinq jeux de données de large échelle.

До бібліографії