Добірка наукової літератури з теми "Apprentissage par renforcement non supervisé"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "Apprentissage par renforcement non supervisé".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Статті в журналах з теми "Apprentissage par renforcement non supervisé"

1

Toillier, Aurélie, Agathe Devaux-Spartakis, Guy Faure, Danielle Barret, and Catherine Marquié. "Comprendre la contribution de la recherche à l'innovation collective par l'exploration de mécanismes de renforcement de capacité." Cahiers Agricultures 27, no. 1 (December 21, 2017): 15002. http://dx.doi.org/10.1051/cagri/2017055.

Повний текст джерела
Анотація:
Le renforcement des capacités à innover apparaît comme un nouveau moyen pour assurer un développement durable dans les pays du Sud. Dans le secteur de l'agriculture, l'innovation est essentiellement collective, ce qui appelle les chercheurs à sortir de leur rôle de producteurs de connaissances pour s'engager auprès des acteurs en situation d'innovation. Si une diversité de pratiques de recherche engagée sont apparues, il n'existe cependant pas aujourd'hui une vision claire des différentes façons dont les chercheurs contribuent à l'innovation. L'objectif de cet article est d'identifier les différentes modalités de contribution des chercheurs au renforcement des capacités à innover. Pour cela, les auteurs ont développé un cadre d'analyse ex post qui met en perspective deux corpus de littérature, sur l'apprentissage et le management de l'innovation. Ce cadre permet de caractériser des séquences de situations d'apprentissage et une diversité de postures des chercheurs aux différentes étapes de l'innovation pour rendre compte de leurs contributions. À partir d'une étude approfondie de treize cas d'innovation dans lesquels le Centre de coopération internationale en recherche agronomique pour le développement (CIRAD) s'est engagé avec ses partenaires de recherche du Sud, quatre types de contribution des chercheurs au renforcement des capacités à innover ont été identifiés : faciliter des apprentissages de façon non supervisée, planifier et encadrer des apprentissages, créer des besoins d'apprentissage et y répondre pas à pas, se laisser guider par l'exploration et les besoins des utilisateurs. Nos résultats suggèrent qu'une gestion stratégique des processus d'innovation par les organismes de recherche pourrait être rendue possible par le suivi et l'évaluation des situations d'apprentissage, d'une part de façon à renforcer les capacités à innover des chercheurs eux-mêmes et d‘autre part pour agencer au mieux les compétences et ressources disponibles, faire évoluer les mandats des chercheurs et rationaliser leurs investissements.
Стилі APA, Harvard, Vancouver, ISO та ін.
2

Degris, Thomas, Olivier Sigaud, and Pierre-Henri Wuillemin. "Apprentissage par renforcement factorisé pour le comportement de personnages non joueurs." Revue d'intelligence artificielle 23, no. 2-3 (May 13, 2009): 221–51. http://dx.doi.org/10.3166/ria.23.221-251.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Shaffer, Ryan, and Benjamin Shearn. "Performing Unsupervised Machine Learning on Intelligence: An Analysis of Colonial Kenya Reports." Études françaises de renseignement et de cyber N° 2, no. 1 (June 4, 2024): 211–38. http://dx.doi.org/10.3917/efrc.232.0211.

Повний текст джерела
Анотація:
Cet article applique une classification « zero-shot » aux rapports de services de renseignement déclassifiés par le gouvernement kenyan et couvrant la période coloniale britannique qui a précédé la révolte des Mau Mau et l’état d’urgence de 1952. La classification « zero-shot » (catégorisant les documents sans exemples étiquetés des catégories) est devenue fonctionnelle avec l’arrivée des grands modèles de langage (LLM), une avancée récente dans le domaine du traitement automatique des langues (TAL). Cet article démontre comment un apprentissage automatique non supervisé peut être utilisé par les chercheurs et les praticiens du renseignement pour analyser des milliers de rapports de services de renseignement sans rapports étiquetés et données d’entraînement, ou sans la capacité d’entraîner des modèles traditionnels de classification de documents.
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Dechemi, N., T. Benkaci, and A. Issolah. "Modélisation des débits mensuels par les modèles conceptuels et les systèmes neuro-flous." Revue des sciences de l'eau 16, no. 4 (April 12, 2005): 407–24. http://dx.doi.org/10.7202/705515ar.

Повний текст джерела
Анотація:
La modélisation pluie-débit au pas de temps mensuel, a été étudiée par le biais de quatre modèles qui appartiennent à deux catégories, les modèles conceptuels (modèles à réservoirs), et les modèles basés sur les réseaux de neurones, et la logique floue Les modèles conceptuels mensuels utilisés sont les modèles de Thornthwaite et Arnell et le modèle GR2M, ainsi que deux modèles représentés par les réseaux de neurones à apprentissage supervisé et le modèle neuro-flou qui combine une méthode d'optimisation neuronale et une logique floue. Une application de ces modèles a été effectuée sur le bassin de la Cheffia (Nord-Est Algérien), et a confirmé les performances du modèle basé sur la logique floue. Par sa robustesse et son pouvoir d'extrapolation non-linéaire, ce modèle a donné d'excellents résultats, et représente donc une nouvelle approche de la modélisation pluie-débit au pas de temps mensuel.
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Villatte, Matthieu, David Scholiers, and Esteve Freixa i Baqué. "Apprentissage du comportement optimal par exposition aux contingences dans le dilemme de Monty Hall." ACTA COMPORTAMENTALIA 12, no. 1 (June 1, 2004): 5–24. http://dx.doi.org/10.32870/ac.v12i1.14548.

Повний текст джерела
Анотація:
L'étude a pour objet le dilemme de Monty Hall, une situation de jugement de probabilités dans laquelle la très grande majorité des individus émet un comportement de choix non-optimal. Nous formulons l'hypothèse selon laquelle l'exposition répétée aux conséquences du comportement de choix va permettre l'apprentissage du comportement optimal. Trois conditions constituent l'expérience: une condition consistant en une procédure de renforcement positif, une condition consistant en une procédure de punition négative, et une condition consistant en une procédure de renforcement positif et de punition négative. L'ajout d'une valeur aversive en conséquence du choix non-optimal, ainsi que l'extension de la série d' essais à 100, devraient permettre une amélioration de J'efficacité de l'apprentissage par rapport aux études ayant précédemment employé des séries d' essais renforcés dans le dilemme de Monty Hall. Les résultats montrent que le taux de comportement optimal augmente avec la série d'essais, mais reste proche de 50 %. Aucune des trois conditions d'apprentissage ne se révèle plus efficace qu'une autre pour l'acquisition du choix optimal. L'hypothèse selon laquelle le comportement de choix des sujets serait gouverné par des règles verbales les rendant insensibles aux contingences changeantes est formulée.
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Jacopin, Eliott, Antoine Cornuéjols, Christine Martin, Farzaneh Kazemipour, and Christophe Sausse. "Détection automatique de plantes au sein d’images aériennes de champs par apprentissage non supervisé et approche multi-agents." Revue Ouverte d'Intelligence Artificielle 2, no. 1 (November 17, 2021): 123–56. http://dx.doi.org/10.5802/roia.12.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
7

Scholiers, David, and Matthieu Villatte. "Comportement Non-optimal versus Illusion Cognitive." ACTA COMPORTAMENTALIA 11, no. 1 (June 1, 2003): 5–17. http://dx.doi.org/10.32870/ac.v11i1.14611.

Повний текст джерела
Анотація:
La question du comportement de choix en situation d'incertitude est sujette à controverse. Si en sciences cognitives les erreurs que peut commettre un individu sont le reflet d'une illusion irrépressible, la recherche en Analyse Expérimentale du Comportement appréhende le comportement non-optimal du point de vue de son acquisition. L'expérience reprend le principe d'un jeu où un sujet doit trouver une pièce cachée sous l'un des 3 gobelets qui lui sont présentés. Après un premier choix, un gobelet vide et non choisi est retiré. Le sujet peut alors conserver ou modifier son choix initial (probabilités respectives de gain égales à 1 / 3 et 2 /3). Généralement, les sujets considèrent que les deux stratégies sont équivalentes; ce qui constitue un comportement non-optimal. Afin d'identifier les variables qui maintiennent ce comportement et de tester s'il peut être modifié, on augmente le taux de renforcement du comportement optimal en faisant varier le nombre de gobelets de départ, la probabilité de gain de la stratégie «Modifier » augmentant avec le nombre de gobelets. Trois groupes indépendants sont répartis dans trois conditions expérimentales (3, 5 ou 10 gobelets) et sont confrontés à l'expérience directe par un comportement d'observation, puis par un comportement de choix. Les résultats montrent que plus le nombre de gobelets augmente, plus la stratégie « Modifier » est choisie. Ils permettent d'appuyer l'hypothèse selon laquelle le comportement non-optimal est le produit d'un apprentissage.
Стилі APA, Harvard, Vancouver, ISO та ін.
8

Heddam, Salim, Abdelmalek Bermad, and Noureddine Dechemi. "Modélisation de la dose de coagulant par les systèmes à base d’inférence floue (ANFIS) application à la station de traitement des eaux de Boudouaou (Algérie)." Revue des sciences de l’eau 25, no. 1 (March 28, 2012): 1–17. http://dx.doi.org/10.7202/1008532ar.

Повний текст джерела
Анотація:
La coagulation est l’une des étapes les plus importantes dans le traitement des eaux. La difficulté principale est de déterminer la dose optimale de coagulant à injecter en fonction des caractéristiques de l’eau brute. Un mauvais contrôle de ce procédé peut entraîner une augmentation importante des coûts de fonctionnement et le non-respect des objectifs de qualité en sortie de la station de traitement. Le sulfate d’aluminium (Al2SO4.18H2O) est le réactif coagulant le plus généralement utilisé. La détermination de la dose de coagulant se fait au moyen de l’essai dit de « Jar Test » conduit en laboratoire. Ce type d’approche a le désavantage d’avoir un temps de retard relativement long et ne permet donc pas un contrôle automatique du procédé de coagulation. Le présent article décrit un modèle neuro flou de type Takagi Sugeno (TK), développé pour la prédiction de la dose de coagulant utilisée lors de la phase de clarification dans la station de traitement des eaux de Boudouaou qui alimente la ville d’Alger en eau potable. Le modèle ANFIS (système d’inférence flou à base de réseaux de neurones adaptatifs), qui combine les techniques floues et neuronales en formant un réseau à apprentissage supervisé, a été appliqué durant la phase de calage et testé en période de validation. Les résultats obtenus par le modèle ANFIS ont été comparés avec ceux obtenus avec un réseau de neurones de type perceptron multicouche (MLP) et un troisième modèle à base de regression linéaire multiple (MLR). Un coefficient de détermination (R2) de l’ordre de 0,92 en période de validation a été obtenu avec le modèle ANFIS, alors que pour le MLP, il est de l’ordre de 0,75, et que pour le modèle MLR, il ne dépasse pas 0,35. Les résultats obtenus sont d’une grande importance pour la gestion de l’installation.
Стилі APA, Harvard, Vancouver, ISO та ін.
9

Diumi Omokoko, Delvin. "Apprentissage par renforcement multi-agents pour la régulation de la circulation routière dans les carrefours : application à la mobilité urbaine dans la ville de Kinshasa." Journal Africain des Sciences 1, no. 2 (October 4, 2024): 36–47. https://doi.org/10.70237/jafrisci.2024.v1.i2.05.

Повний текст джерела
Анотація:
Urban mobility in the city of Kinshasa is becoming a serious problem given the congestion of the roads by vehicles and pedestrians, leaving its users with various concerns. How can road traffic be regulated in such a way as to make automobile traffic smooth and safe? Several techniques or methods have been developed to solve this problem, such as light signals, variable message signs, presence of traffic police, etc. In this article we plan to propose the technique of light lights integrated into intelligent transport systems. This regulation technique works in a multi-agent environment, the main agent of which remains the traffic controller. This agent is in fact equipped with two very important elements including lights (effectors) and sensors (detectors). This union produces an available, safe, fast, comfortable and economical regulation service to its environment (vehicles and pedestrians). To make this system intelligent, we used one of the machine learning techniques called reinforcement learning. This technique helped us train our agents through the trial-and-error process using our table of values called (Q-values). The following methods were used: the Multi-agent System Engineering (MaSE) method to set up the multi-agent system, the yolov7 model for real-time object detection and the Q-Learning algorithm for learning. We have thus built a model which regulates road traffic according to traffic and major priorities but not according to the timer system or non-adaptive regulation as is the case for other models. We chose a game of 1000 episodes to simulate our model and we noted that after training our model, the agent gradually acquires performance from negative to positive score, which means that our model is good and the agent actually learns.
Стилі APA, Harvard, Vancouver, ISO та ін.

Дисертації з теми "Apprentissage par renforcement non supervisé"

1

Chareyre, Maxime. "Apprentissage non-supervisé pour la découverte de propriétés d'objets par découplage entre interaction et interprétation." Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2023. http://www.theses.fr/2023UCFA0122.

Повний текст джерела
Анотація:
Les robots sont de plus en plus utilisés pour réaliser des tâches dans des environnements contrôlés. Leur utilisation en milieu ouvert est cependant encore confrontée à des difficultés. L'agent robotique est en effet susceptible de rencontrer des objets dont il ignore le comportement et la fonction. Dans certains cas, il doit interagir avec ces éléments pour réaliser sa mission en les collectant ou en les déplaçant mais, sans la connaissance de leurs propriétés dynamiques il n'est pas possible de mettre en place une stratégie de résolution de la mission efficace.Dans cette thèse, nous présentons une méthode visant à apprendre à un robot autonome une stratégie d'interaction physique avec des objets inconnus, sans aucune connaissance a priori, l'objectif étant d'extraire de l'information sur un maximum de propriétés physiques de l'objet à partir des interactions observées par ses capteurs. Les méthodes existantes pour la caractérisation d'objets par interactions physiques ne répondent pas entièrement à ces critères. En effet, les interactions établies ne permettent qu'une représentation implicite de la dynamique des objets, nécessitant une supervision pour identifier leurs propriétés. D'autre part, la solution proposée s'appuie sur des scénarios peu réalistes sans agent. Notre approche se distingue de l'état de l'art en proposant une méthode générique pour l'apprentissage de l'interaction, indépendante de l'objet et de ses propriétés, et pouvant donc être découplée de la phase de leurs prédictions. Cela permet notamment de mener à un pipeline global totalement non-supervisé.Dans une première phase, nous proposons d'apprendre une stratégie d'interaction avec l'objet via une méthode d'apprentissage par renforcement non-supervisée, en utilisant un signal de motivation intrinsèque qui repose sur l'idée de maximisation des variations d'un vecteur d'état de l'objet. Le but est d'obtenir une série d'interactions contenant des informations fortement corrélées aux propriétés physiques de l'objet. Cette méthode a été testée sur un robot simulé interagissant par poussée et a permis d'identifier avec précision des propriétés telles que la masse, la forme de l'objet et les frottements.Dans une seconde phase, nous réalisons l'hypothèse que les vraies propriétés physiques définissent un espace latent explicatif des comportements de l'objet et que cet espace peut être identifié à partir des observations recueillies grâce aux interactions de l'agent. Nous mettons en place une tâche de prédiction auto-supervisée dans laquelle nous adaptons une architecture de l'état de l'art pour construire cet espace latent. Nos simulations confirment que la combinaison du modèle comportemental avec cette architecture permet de faire émerger une représentation des propriétés de l'objet dont les composantes principales s'avèrent fortement corrélées avec les propriétés physiques de l'objet.Les propriétés des objets étant extraites, l'agent peut les exploiter pour améliorer son efficacité dans des tâches impliquant ces objets. Nous concluons cette étude par une mise en avant du gain de performance de l'agent au travers d'un entraînement via l'apprentissage par renforcement sur une tâche simplifiée de repositionnement d'objet où les propriétés sont parfaitement connues.L'intégralité du travail effectué en simulation confirme l'efficacité d'une méthode novatrice visant à découvrir en autonomie les propriétés physiques d'un objet au travers d'interactions physiques d'un robot. Les perspectives d'extension de ces travaux concernent le transfert vers un robot réel en milieu encombré
Robots are increasingly used to achieve tasks in controlled environments. However, their use in open environments is still fraught with difficulties. Robotic agents are likely to encounter objects whose behaviour and function they are unaware of. In some cases, it must interact with these elements to carry out its mission by collecting or moving them, but without knowledge of their dynamic properties it is not possible to implement an effective strategy for resolving the mission.In this thesis, we present a method for teaching an autonomous robot a physical interaction strategy with unknown objects, without any a priori knowledge, the aim being to extract information about as many of the object's physical properties as possible from the interactions observed by its sensors. Existing methods for characterising objects through physical interactions do not fully satisfy these criteria. Indeed, the interactions established only provide an implicit representation of the object's dynamics, requiring supervision to identify their properties. Furthermore, the proposed solution is based on unrealistic scenarios without an agent. Our approach differs from the state of the art by proposing a generic method for learning interaction that is independent of the object and its properties, and can therefore be decoupled from the prediction phase. In particular, this leads to a completely unsupervised global pipeline.In the first phase, we propose to learn an interaction strategy with the object via an unsupervised reinforcement learning method, using an intrinsic motivation signal based on the idea of maximising variations in a state vector of the object. The aim is to obtain a set of interactions containing information that is highly correlated with the object's physical properties. This method has been tested on a simulated robot interacting by pushing and has enabled properties such as the object's mass, shape and friction to be accurately identified.In a second phase, we make the assumption that the true physical properties define a latent space that explains the object's behaviours and that this space can be identified from observations collected through the agent's interactions. We set up a self-supervised prediction task in which we adapt a state-of-the-art architecture to create this latent space. Our simulations confirm that combining the behavioural model with this architecture leads to the emergence of a representation of the object's properties whose principal components are shown to be strongly correlated with the object's physical properties.Once the properties of the objects have been extracted, the agent can use them to improve its efficiency in tasks involving these objects. We conclude this study by highlighting the performance gains achieved by the agent through training via reinforcement learning on a simplified object repositioning task where the properties are perfectly known.All the work carried out in simulation confirms the effectiveness of an innovative method aimed at autonomously discovering the physical properties of an object through the physical interactions of a robot. The prospects for extending this work involve transferring it to a real robot in a cluttered environment
Стилі APA, Harvard, Vancouver, ISO та ін.
2

Tarbouriech, Jean. "Goal-oriented exploration for reinforcement learning." Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB014.

Повний текст джерела
Анотація:
Apprendre à atteindre des buts est une compétence à acquérir à grande pertinence pratique pour des agents intelligents. Par exemple, ceci englobe de nombreux problèmes de navigation (se diriger vers telle destination), de manipulation robotique (atteindre telle position du bras robotique) ou encore certains jeux (gagner en accomplissant tel objectif). En tant qu'être vivant interagissant avec le monde, je suis constamment motivé par l'atteinte de buts, qui varient en portée et difficulté.L'Apprentissage par Renforcement (AR) est un paradigme prometteur pour formaliser et apprendre des comportements d'atteinte de buts. Un but peut être modélisé comme une configuration spécifique d'états de l'environnement qui doit être atteinte par interaction séquentielle et exploration de l'environnement inconnu. Bien que divers algorithmes en AR dit "profond" aient été proposés pour ce modèle d'apprentissage conditionné par des états buts, les méthodes existantes manquent de compréhension rigoureuse, d'efficacité d'échantillonnage et de capacités polyvalentes. Il s'avère que l'analyse théorique de l'AR conditionné par des états buts demeurait très limitée, même dans le scénario basique d'un nombre fini d'états et d'actions.Premièrement, nous nous concentrons sur le scénario supervisé, où un état but qui doit être atteint en minimisant l'espérance des coûts cumulés est fourni dans la définition du problème. Après avoir formalisé le problème d'apprentissage incrémental (ou ``online'') de ce modèle souvent appelé Plus Court Chemin Stochastique, nous introduisons deux algorithmes au regret sous-linéaire (l'un est le premier disponible dans la littérature, l'autre est quasi-optimal).Au delà d'entraîner l'agent d'AR à résoudre une seule tâche, nous aspirons ensuite qu'il apprenne de manière autonome à résoudre une grande variété de tâches, dans l'absence de toute forme de supervision en matière de récompense. Dans ce scénario non-supervisé, nous préconisons que l'agent sélectionne lui-même et cherche à atteindre ses propres états buts. Nous dérivons des garanties non-asymptotiques de cette heuristique populaire dans plusieurs cadres, chacun avec son propre objectif d'exploration et ses propres difficultés techniques. En guise d'illustration, nous proposons une analyse rigoureuse du principe algorithmique de viser des états buts "incertains", que nous ancrons également dans le cadre de l'AR profond.L'objectif et les contributions de cette thèse sont d'améliorer notre compréhension formelle de l'exploration d'états buts pour l'AR, dans les scénarios supervisés et non-supervisés. Nous espérons qu'elle peut aider à suggérer de nouvelles directions de recherche pour améliorer l'efficacité d'échantillonnage et l'interprétabilité d'algorithmes d'AR basés sur la sélection et/ou l'atteinte d'états buts dans des applications pratiques
Learning to reach goals is a competence of high practical relevance to acquire for intelligent agents. For instance, this encompasses many navigation tasks ("go to target X"), robotic manipulation ("attain position Y of the robotic arm"), or game-playing scenarios ("win the game by fulfilling objective Z"). As a living being interacting with the world, I am constantly driven by goals to reach, varying in scope and difficulty.Reinforcement Learning (RL) holds the promise to frame and learn goal-oriented behavior. Goals can be modeled as specific configurations of the environment that must be attained via sequential interaction and exploration of the unknown environment. Although various deep RL algorithms have been proposed for goal-oriented RL, existing methods often lack principled understanding, sample efficiency and general-purpose effectiveness. In fact, very limited theoretical analysis of goal-oriented RL was available, even in the basic scenario of finitely many states and actions.We first focus on a supervised scenario of goal-oriented RL, where a goal state to be reached in minimum total expected cost is provided as part of the problem definition. After formalizing the online learning problem in this setting often known as Stochastic Shortest Path (SSP), we introduce two no-regret algorithms (one is the first available in the literature, the other attains nearly optimal guarantees).Beyond training our RL agent to solve only one task, we then aspire that it learns to autonomously solve a wide variety of tasks, in the absence of any reward supervision. In this challenging unsupervised RL scenario, we advocate to "Set Your Own Goals" (SYOG), which suggests the agent to learn the ability to intrinsically select and reach its own goal states. We derive finite-time guarantees of this popular heuristic in various settings, each with its specific learning objective and technical challenges. As an illustration, we propose a rigorous analysis of the algorithmic principle of targeting "uncertain" goals which we also anchor in deep RL.The main focus and contribution of this thesis are to instigate a principled analysis of goal-oriented exploration in RL, both in the supervised and unsupervised scenarios. We hope that it helps suggest promising research directions to improve the interpretability and sample efficiency of goal-oriented RL algorithms in practical applications
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Merckling, Astrid. "Unsupervised pretraining of state representations in a rewardless environment." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS141.

Повний текст джерела
Анотація:
Cette thèse vise à étendre les capacités de l'apprentissage de représentation d'état (state representation learning, SRL) afin d'aider la mise à l'échelle des algorithmes d'apprentissage par renforcement profond (deep reinforcement learning, DRL) aux tâches de contrôle continu avec des observations sensorielles à haute dimension (en particulier des images). Le SRL permet d'améliorer les performances des algorithmes de DRL en leur transmettant de meilleures entrées que celles apprises à partir de zéro avec des stratégies de bout-en-bout. Plus précisément, cette thèse aborde le problème de l'estimation d'état à la manière d'un pré-entraînement profond non supervisé de représentations d'état sans récompense. Ces représentations doivent vérifier certaines propriétés pour permettre l'application correcte du bootstrapping et d'autres mécanismes de prises de décisions communs à l'apprentissage supervisé, comme être de faible dimension et garantir la cohérence locale et la topologie (ou connectivité) de l'environnement, ce que nous chercherons à réaliser à travers les modèles pré-entraînés avec les deux algorithmes de SRL proposés dans cette thèse
This thesis seeks to extend the capabilities of state representation learning (SRL) to help scale deep reinforcement learning (DRL) algorithms to continuous control tasks with high-dimensional sensory observations (such as images). SRL allows to improve the performance of DRL by providing it with better inputs than the input embeddings learned from scratch with end-to-end strategies. Specifically, this thesis addresses the problem of performing state estimation in the manner of deep unsupervised pretraining of state representations without reward. These representations must verify certain properties to allow for the correct application of bootstrapping and other decision making mechanisms common to supervised learning, such as being low-dimensional and guaranteeing the local consistency and topology (or connectivity) of the environment, which we will seek to achieve through the models pretrained with the two SRL algorithms proposed in this thesis
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Castanet, Nicolas. "Automatic state representation and goal selection in unsupervised reinforcement learning." Electronic Thesis or Diss., Sorbonne université, 2025. http://www.theses.fr/2025SORUS005.

Повний текст джерела
Анотація:
Au cours des dernières années, l'apprentissage par renforcement a connu un succès considérable en entrainant des agents spécialisés capables de dépasser radicalement les performances humaines dans des jeux complexes comme les échecs ou le go, ou dans des applications robotiques. Ces agents manquent souvent de polyvalence, ce qui oblige l'ingénierie humaine à concevoir leur comportement pour des tâches spécifiques avec un signal de récompense prédéfini, limitant ainsi leur capacité à faire face à de nouvelles circonstances. La spécialisation de ces agents se traduit par de faibles capacités de généralisation, ce qui les rend vulnérables à de petites variations de facteurs externes. L'un des objectifs de la recherche en intelligence artificielle est de dépasser les agents spécialisés d'aujourd'hui pour aller vers des systèmes plus généralistes pouvant s'adapter en temps réel à des facteurs externes imprévisibles et à de nouvelles tâches en aval. Ce travail va dans ce sens, en s'attaquant aux problèmes d'apprentissage par renforcement non supervisé, un cadre dans lequel les agents ne reçoivent pas de récompenses externes et doivent donc apprendre de manière autonome de nouvelles tâches tout au long de leur vie, guidés par des motivations intrinsèques. Le concept de motivation intrinsèque découle de notre compréhension de la capacité des humains à adopter certains comportements autonomes au cours de leur développement, tels que le jeu ou la curiosité. Cette capacité permet aux individus de concevoir et de résoudre leurs propres tâches, et de construire des représentations physiques et sociales de leur environnement, acquérant ainsi un ensemble ouvert de compétences tout au long de leur existence. Cette thèse s'inscrit dans l'effort de recherche visant à incorporer ces caractéristiques essentielles dans les agents artificiels, en s'appuyant sur l'apprentissage par renforcement conditionné par les buts pour concevoir des agents capables de découvrir et de maîtriser tous les buts réalisables dans des environnements complexes. Dans notre première contribution, nous étudions la sélection autonome de buts intrinsèques, car un agent polyvalent doit être capable de déterminer ses propres objectifs et l'ordre dans lequel apprendre ces objectifs pour améliorer ses performances. En tirant parti d'un modèle appris des capacités actuelles de l'agent à atteindre des buts, nous montrons que nous pouvons construire une distribution de buts optimale en fonction de leur difficulté, permettant d'échantillonner des buts dans la zone de développement proximal (ZDP) de l'agent, qui est un concept issu de la psychologie signifiant à la frontière entre ce qu'un agent sait et ce qu'il ne sait pas, constituant l'espace de connaissances qui n'est pas encore maîtrisé, mais qui a le potentiel d'être acquis. Nous démontrons que le fait de cibler la ZDP de l'agent entraîne une augmentation significative des performances pour une grande variété de tâches. Une autre compétence clé est d'extraire une représentation pertinente de l'environnement à partir des observations issues des capteurs disponibles. Nous abordons cette question dans notre deuxième contribution, en soulignant la difficulté d'apprendre une représentation correcte de l'environnement dans un cadre en ligne, où l'agent acquiert des connaissances de manière incrémentale au fur et à mesure de ses progrès. Dans ce contexte, les objectifs récemment atteints sont considérés comme des valeurs aberrantes, car il y a très peu d'occurrences de cette nouvelle compétence dans les expériences de l'agent, ce qui rend leurs représentations fragiles. Nous exploitons le cadre adversaire de l'Optimisation Distributionnellement Robuste afin que les représentations de l'agent pour de tels exemples soient fiables. Nous montrons que notre méthode conduit à un cercle vertueux, car l'apprentissage de représentations correctes pour de nouveaux objectifs favorise l'exploration de l'environnement
In the past few years, Reinforcement Learning (RL) achieved tremendous success by training specialized agents owning the ability to drastically exceed human performance in complex games like Chess or Go, or in robotics applications. These agents often lack versatility, requiring human engineering to design their behavior for specific tasks with predefined reward signal, limiting their ability to handle new circumstances. This agent's specialization results in poor generalization capabilities, which make them vulnerable to small variations of external factors and adversarial attacks. A long term objective in artificial intelligence research is to move beyond today's specialized RL agents toward more generalist systems endowed with the capability to adapt in real time to unpredictable external factors and to new downstream tasks. This work aims in this direction, tackling unsupervised reinforcement learning problems, a framework where agents are not provided with external rewards, and thus must autonomously learn new tasks throughout their lifespan, guided by intrinsic motivations. The concept of intrinsic motivation arise from our understanding of humans ability to exhibit certain self-sufficient behaviors during their development, such as playing or having curiosity. This ability allows individuals to design and solve their own tasks, and to build inner physical and social representations of their environments, acquiring an open-ended set of skills throughout their lifespan as a result. This thesis is part of the research effort to incorporate these essential features in artificial agents, leveraging goal-conditioned reinforcement learning to design agents able to discover and master every feasible goals in complex environments. In our first contribution, we investigate autonomous intrinsic goal setting, as a versatile agent should be able to determine its own goals and the order in which to learn these goals to enhance its performances. By leveraging a learned model of the agent's current goal reaching abilities, we show that we can shape an optimal difficulty goal distribution, enabling to sample goals in the Zone of Proximal Development (ZPD) of the agent, which is a psychological concept referring to the frontier between what a learner knows and what it does not, constituting the space of knowledge that is not mastered yet but have the potential to be acquired. We demonstrate that targeting the ZPD of the agent's result in a significant increase in performance for a great variety of goal-reaching tasks. Another core competence is to extract a relevant representation of what matters in the environment from observations coming from any available sensors. We address this question in our second contribution, by highlighting the difficulty to learn a correct representation of the environment in an online setting, where the agent acquires knowledge incrementally as it make progresses. In this context, recent achieved goals are outliers, as there are very few occurrences of this new skill in the agent's experiences, making their representations brittle. We leverage the adversarial setting of Distributionally Robust Optimization in order for the agent's representations of such outliers to be reliable. We show that our method leads to a virtuous circle, as learning accurate representations for new goals fosters the exploration of the environment
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Debard, Quentin. "Automatic learning of next generation human-computer interactions." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI036.

Повний текст джерела
Анотація:
L’Intelligence Artificielle (IA) et les Interfaces Homme-Machine (IHM) sont deux champs de recherche avec relativement peu de travaux communs. Les spécialistes en IHM conçoivent habituellement les interfaces utilisateurs directement à partir d’observations et de mesures sur les interactions humaines, optimisant manuellement l’interface pour qu’elle corresponde au mieux aux attentes des utilisateurs. Ce processus est difficile à optimiser : l’ergonomie, l’intuitivité et la facilité d’utilisation sont autant de propriétés clé d’une interface utilisateur (IU) trop complexes pour être simplement modélisées à partir de données d’interaction. Ce constat restreint drastiquement les utilisations potentielles de l’apprentissage automatique dans ce processus de conception. A l’heure actuelle, l’apprentissage automatique dans les IHMs se cantonne majoritairement à la reconnaissance de gestes et à l’automatisation d’affichage, par exemple à des fins publicitaires ou pour suggérer une sélection. L’apprentissage automatique peut également être utilisé pour optimiser une interface utilisateur existante, mais il ne participe pour l’instant pas à concevoir de nouvelles façons d’intéragir. Notre objectif avec cette thèse est de proposer grâce à l’apprentissage automatique de nouvelles stratégies pour améliorer le processus de conception et les propriétés des IUs. Notre but est de définir de nouvelles IUs intelligentes – comprendre précises, intuitives et adaptatives – requérant un minimum d’interventions manuelles. Nous proposons une nouvelle approche à la conception d’IU : plutôt que l’utilisateur s’adapte à l’interface, nous cherchons à ce que l’utilisateur et l’interface s’adaptent mutuellement l’un à l’autre. Le but est d’une part de réduire le biais humain dans la conception de protocoles d’interactions, et d’autre part de construire des interfaces co-adaptatives capables de correspondre d’avantage aux préférences individuelles des utilisateurs. Pour ce faire, nous allons mettre à contribution les différents outils disponibles en apprentissage automatique afin d’apprendre automatiquement des comportements, des représentations et des prises de décision. Nous expérimenterons sur les interfaces tactiles pour deux raisons majeures : celles-ci sont largement utilisées et fournissent des problèmes facilement interprétables. La première partie de notre travail se focalisera sur le traitement des données tactiles et l’utilisation d’apprentissage supervisé pour la construction de classifieurs précis de gestes tactiles. La seconde partie détaillera comment l’apprentissage par renforcement peut être utilisé pour modéliser et apprendre des protocoles d’interaction en utilisant des gestes utilisateur. Enfin, nous combinerons ces modèles d’apprentissage par renforcement avec de l’apprentissage non supervisé pour définir une méthode de conception de nouveaux protocoles d’interaction ne nécessitant pas de données d’utilisation réelles
Artificial Intelligence (AI) and Human-Computer Interactions (HCIs) are two research fields with relatively few common work. HCI specialists usually design the way we interact with devices directly from observations and measures of human feedback, manually optimizing the user interface to better fit users’ expectations. This process is hard to optimize: ergonomy, intuitivity and ease of use are key features in a User Interface (UI) that are too complex to be simply modelled from interaction data. This drastically restrains the possible uses of Machine Learning (ML) in this design process. Currently, ML in HCI is mostly applied to gesture recognition and automatic display, e.g. advertisement or item suggestion. It is also used to fine tune an existing UI to better optimize it, but as of now it does not participate in designing new ways to interact with computers. Our main focus in this thesis is to use ML to develop new design strategies for overall better UIs. We want to use ML to build intelligent – understand precise, intuitive and adaptive – user interfaces using minimal handcrafting. We propose a novel approach to UI design: instead of letting the user adapt to the interface, we want the interface and the user to adapt mutually to each other. The goal is to reduce human bias in protocol definition while building co-adaptive interfaces able to further fit individual preferences. In order to do so, we will put to use the different mechanisms available in ML to automatically learn behaviors, build representations and take decisions. We will be experimenting on touch interfaces, as these interfaces are vastly used and can provide easily interpretable problems. The very first part of our work will focus on processing touch data and use supervised learning to build accurate classifiers of touch gestures. The second part will detail how Reinforcement Learning (RL) can be used to model and learn interaction protocols given user actions. Lastly, we will combine these RL models with unsupervised learning to build a setup allowing for the design of new interaction protocols without the need for real user data
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Buhot, Arnaud. "Etude de propriétés d'apprentissage supervisé et non supervisé par des méthodes de Physique Statistique." Phd thesis, Université Joseph Fourier (Grenoble), 1999. http://tel.archives-ouvertes.fr/tel-00001642.

Повний текст джерела
Анотація:
L'objet de cette thèse est l'étude de diverses propriétés d'apprentissage à partir d'exemples par des méthodes de Physique Statistique, notamment, par la méthode des répliques. Des tâches supervisées, correspondant à la classification binaire de données, ainsi que des tâches non supervisées, comme l'estimation paramétrique d'une densité de probabilité, sont considérées. Dans la première partie, une approche variationnelle permet de déterminer la performance de l'apprentissage optimal d'une direction d'anisotropie, et de déduire une fonction de coût permettant d'obtenir ces performances optimales. Dans le cas de l'apprentissage supervisé d'une tâche linéairement séparable, des simulations numériques confirmant nos résultats théoriques ont permis de déterminer les effets de taille finie. Dans le cas d'une densité de probabilité constituée de deux gaussiennes, la performance de l'apprentissage optimal présente de nombreuses transitions de phases en fonction du nombre de données. Ces résultats soulèvent une controverse entre la théorie variationnelle et l'approche bayesienne de l'apprentissage optimal. Dans la deuxième partie, nous étudions deux approches différentes de l'apprentissage de tâches de classification complexes. La première approche considérée est celle des machines à exemples supports. Nous avons étudié une famille de ces machines pour laquelle les séparateurs linéaire et quadratique sont deux cas particuliers. La capacité, les valeurs typiques de la marge et du nombre d'exemples supports, sont déterminées. La deuxième approche considérée est celle d'une machine de parité apprenant avec un algorithme incrémental. Cet algorithme construit progressivement un réseau de neurones à une couche cachée. La capacité théorique obtenue pour l'algorithme considéré est proche de celle de la machine de parité.
Стилі APA, Harvard, Vancouver, ISO та ін.
7

Ben-Fares, Maha. "Apprentissage de représentation non supervisé de flux de données textuelles." Electronic Thesis or Diss., CY Cergy Paris Université, 2024. http://www.theses.fr/2024CYUN1316.

Повний текст джерела
Анотація:
Cette thèse présente des méthodes innovantes pour le regroupement de flux de données textuelles et introduit également un système d'identification des textes générés par l'IA. Cette méthode de détection de l'IA peut être utilisée indépendamment ou comme étape de prétraitement pour filtrer les documents entrants, en supprimant le contenu généré par l'IA et en préservant l'authenticité et la validité de l'information.Plus précisément, nous développons un système de classification qui distingue entre le texte écrit par des humains et celui généré par l'IA. Pour ce faire, cette méthode utilise une stratégie de fusion hiérarchique qui intègre des représentations provenant de diverses couches du modèle BERT. En se concentrant sur les caractéristiques syntaxiques, notre modèle classifie chaque token comme étant soit Humain, soit IA, capturant efficacement des structures textuelles détaillées et assurant une performance robuste dans plusieurs langues grâce au modèle XLM-RoBERTa-Large.Dans le domaine du regroupement de flux de données, en particulier pour les données textuelles, nous introduisons d'abord une méthode appelée OTTC (Regroupement Textuel Topologique en Ligne). Cette approche exploite l'apprentissage de représentations topologiques en combinaison avec des techniques de regroupement en ligne. Elle aborde efficacement les défis du clustering de flux de données textuelles, tels que la dynamique des données, la sparsité et la malédiction de la dimensionnalité, qui sont des problèmes que les méthodes de regroupement traditionnelles peinent souvent à gérer.Pour améliorer davantage les résultats du regroupement et répondre aux limites de l'OTTC, nous proposons l'algorithme MVTStream, spécialement conçu pour les flux de données textuelles à vues multiples. Cet algorithme fonctionne en trois étapes: d'abord, il génère des représentations textuelles diverses à partir des données entrantes, traitant chaque représentation comme une vue distincte. Ensuite, il utilise des structures de micro-clusters pour un traitement en temps réel. Enfin, il utilise des méthodes d'ensemble pour agréger les clusters provenant des différentes vues et obtenir les clusters finaux
This thesis presents an innovative methods for clustering text data streams and also introduces a system for identifying AI-generated text. This AI detection method can be used independently or as a preprocessing step to filter incoming documents, by removing AI-generated content, preserving the authenticity and validity of the information.Specifically, we develop a classification system that distinguishes between human-written and AI-generated text. This method employs a hierarchical fusion strategy that integrates representations from various layers of the BERT model. By focusing on syntactic features, our model classifies each token as either Human or AI, effectively capturing detailed text structures and ensuring robust performance across multiple languages using the XLM-RoBERTa-Large model.In the field of data stream clustering, particularly for textual data, we first introduce a method called OTTC (Online Topological Text Clustering). This approach leverages topological representation learning in combination with online clustering techniques. It effectively addresses the challenges in clustering textual data streams, such as data dynamism, sparsity, and the curse of dimensionality, which are issues that traditional clustering methods often struggle to manage.To further improve clustering results and address the limitations of OTTC, we propose the MVTStream algorithm, specifically designed for multi-view text data streams. This algorithm operates in three stages: First, it generates diverse text representations of incoming data, treating each representation as a separate view. Then, it employs micro-cluster data structures for real-time processing. Finally, it utilizes ensemble methods to aggregate clusters from the various views and get the final clusters
Стилі APA, Harvard, Vancouver, ISO та ін.
8

Chen, Hao. "Vers la ré-identification de personnes non-supervisée." Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4014.

Повний текст джерела
Анотація:
En tant que composant central des systèmes de vidéo-surveillance intelligents, la ré-identification de personnes (ReID) vise à rechercher une personne d'intérêt à travers des caméras qui ne se chevauchent pas. Malgré des améliorations significatives de la ReID supervisée, le processus d'annotation encombrant le rend moins évolutif dans les déploiements réels. De plus, comme les représentations d'apparence peuvent être affectées par des facteurs bruyants, tels que le niveau d'éclairage et les propriétés de la caméra, entre différents domaines, les modèles ReID de personnes subissent une baisse de performances importante en présence d'écarts de domaine. Nous sommes particulièrement intéressés par la conception d'algorithmes capables d'adapter un modèle ReID de personnes à un domaine cible sans supervision humaine. Dans un tel contexte, nous nous concentrons principalement sur la conception de méthodes d'adaptation de domaine non-supervisée et d'apprentissage de représentation non-supervisée pour le ReID de personnes.Dans cette thèse, nous explorons d'abord comment construire des représentations robustes en combinant à la fois des caractéristiques globales et locales sous la condition supervisée. Ensuite, vers un système ReID adaptatif au domaine non-supervisé, nous proposons trois méthodes non-supervisées pour la ReID de personnes, notamment 1) la distillation des connaissances enseignant-étudiant avec des structures de réseau asymétriques pour encourager la diversité des caractéristiques, 2) un cadre d'apprentissage conjoint génératif et contrastif qui génère des vues augmentées avec un réseau génératif pour l'apprentissage contrastif, et 3) explorer les relations inter-instances et concevoir des fonctions de perte conscientes des relations pour une meilleure ReID de personnes basée sur l'apprentissage contrastif.Nos méthodes ont été largement évaluées sur des benchmarks de ReID, tels que Market-1501, DukeMTMC-reID et MSMT17. Les méthodes proposées surpassent considérablement les méthodes précédentes sur les benchmarks de ReID, poussant considérablement la ReID de personnes vers des déploiements dans le monde réel
As a core component of intelligent video surveillance systems, person re-identification (ReID) targets at retrieving a person of interest across non-overlapping cameras. Despite significant improvements in supervised ReID, cumbersome annotation process makes it less scalable in real-world deployments. Moreover, as appearance representations can be affected by noisy factors, such as illumination level and camera properties, between different domains, person ReID models suffer a large performance drop in the presence of domain gaps. We are particularly interested in designing algorithms that can adapt a person ReID model to a target domain without human supervision. In such context, we mainly focus on designing unsupervised domain adaptation and unsupervised representation learning methods for person ReID.In this thesis, we first explore how to build robust representations by combining both global and local features under the supervised condition. Then, towards an unsupervised domain adaptive ReID system, we propose three unsupervised methods for person ReID, including 1) teacher-student knowledge distillation with asymmetric network structures for feature diversity encouragement, 2) joint generative and contrastive learning framework that generates augmented views with a generative adversarial network for contrastive learning, and 3) exploring inter-instance relations and designing relation-aware loss functions for better contrastive learning based person ReID.Our methods have been extensively evaluated on main-stream ReID datasets, such as Market-1501, DukeMTMC-reID and MSMT17. The proposed methods significantly outperform previous methods on the ReID datasets, significantly pushing person ReID to real-world deployments
Стилі APA, Harvard, Vancouver, ISO та ін.
9

Dutech, Alain. "Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)." Habilitation à diriger des recherches, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00549108.

Повний текст джерела
Анотація:
Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour des tâches non-Markoviennes qui est une problématique commune aux différents travaux de recherche que j'ai menés au cours des treize dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale difficulté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes de ``l'ancrage des symboles'', du ``frame problem'' et du fait ``d'être en situation'' et qu'on ne pourra y apporter des réponses que dans le cadre de l'embodiment. C'est à partir de ce constat que, dans une dernière partie, j'aborde les axes et les approches que je vais suivre pour poursuivre mes travaux en développant des techniques d'apprentissage robotique qui soient incrémentales, holistiques et motivationnelles.
Стилі APA, Harvard, Vancouver, ISO та ін.
10

Lefort, Mathieu. "Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale." Phd thesis, Université Nancy II, 2012. http://tel.archives-ouvertes.fr/tel-00756687.

Повний текст джерела
Анотація:
Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiaux qui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architecture connexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes. L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles: les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissage de certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques.
Стилі APA, Harvard, Vancouver, ISO та ін.
Більше джерел
Ми пропонуємо знижки на всі преміум-плани для авторів, чиї праці увійшли до тематичних добірок літератури. Зв'яжіться з нами, щоб отримати унікальний промокод!

До бібліографії