Log in

Relevant bibliographies by topics / Apprentissage par renforcement distributionnel / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Apprentissage par renforcement distributionnel.

Dissertations / Theses on the topic 'Apprentissage par renforcement distributionnel'

Author: Grafiati

Published: 1 February 2025

Last updated: 31 July 2025

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage par renforcement distributionnel.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Hêche, Félicien. "Risk-sensitive machine learning for emergency medical resource optimization and other applications." Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCD048.

Full text

Abstract:

L'augmentation significative de la demande de soins médicaux d'urgence au cours des dernières décennies exerce une pression considérable sur les Services d'Aide Médicale Urgente (SAMU), entraînant de nombreux effets indésirables. Motivée par les résultats remarquables obtenus par les algorithmes d'apprentissage automatique modernes, cette thèse explore initialement l'utilisation de ces modèles afin d'optimiser les ressources du SAMU dans l'espoir de relever certains défis auxquels ce système de santé est confronté. La première contribution de cette thèse consiste à introduire un nouvel algorit

APA, Harvard, Vancouver, ISO, and other styles

2

Achab, Mastane. "Ranking and risk-aware reinforcement learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT020.

Full text

Abstract:

Les travaux de cette thèse se situent à l’interface de deux thématiques de l'apprentissage automatique : l’apprentissage de préférences d'une part, et l’apprentissage par renforcement de l'autre. La première consiste à percoler différents classements d’un même ensemble d’objets afin d’en extraire un ordre général, la seconde à identifier séquentiellement une stratégie optimale en observant des récompenses sanctionnant chaque action essayée. La structure de la thèse suit ce découpage thématique. En première partie, le paradigme de minimisation du risque empirique est utilisé à des fins d'ordonn

APA, Harvard, Vancouver, ISO, and other styles

3

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Full text

Abstract:

L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des prob

APA, Harvard, Vancouver, ISO, and other styles

4

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008.

Full text

Abstract:

L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des prob

APA, Harvard, Vancouver, ISO, and other styles

5

Kozlova, Olga. "Apprentissage par renforcement hiérarchique et factorisé." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00632968.

Full text

Abstract:

Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état d

APA, Harvard, Vancouver, ISO, and other styles

6

Filippi, Sarah. "Stratégies optimistes en apprentissage par renforcement." Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00551401.

Full text

Abstract:

Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les p

APA, Harvard, Vancouver, ISO, and other styles

7

Théro, Héloïse. "Contrôle, agentivité et apprentissage par renforcement." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE028/document.

Full text

Abstract:

Le sentiment d’agentivité est défini comme le sentiment de contrôler nos actions, et à travers elles, les évènements du monde extérieur. Cet ensemble phénoménologique dépend de notre capacité d’apprendre les contingences entre nos actions et leurs résultats, et un algorithme classique pour modéliser cela vient du domaine de l’apprentissage par renforcement. Dans cette thèse, nous avons utilisé l’approche de modélisation cognitive pour étudier l’interaction entre agentivité et apprentissage par renforcement. Tout d’abord, les participants réalisant une tâche d’apprentissage par renforcement ten

APA, Harvard, Vancouver, ISO, and other styles

8

Munos, Rémi. "Apprentissage par renforcement, étude du cas continu." Paris, EHESS, 1997. http://www.theses.fr/1997EHESA021.

Full text

Abstract:

Le probleme aborde est comment concevoir des methodes permettant a des systemes artificiels d' << apprendre par l'experience >>, c'est a dire de resoudre une tache sans etre explicitement programme pour cela, mais seulement a partir du schema d'apprentissage : essais -> erreur ou succes ii s'agit de definir des methodes, sous forme d'algorithmes, permettant la modification des parametres internes du systeme afin de definir des prises de decisions pertinentes. L'approche developpee est celle de << l'apprentissage par renforcement >> qui se definit naturellement sous la forme d'un probleme de co

APA, Harvard, Vancouver, ISO, and other styles

9

Saulières, Léo. "Explication de l'apprentissage par renforcement." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES224.

Full text

Abstract:

S dernières années, les modèles issus de l'Intelligence Artificielle (IA) ont connu une progression impressionnante tant sur la précision de leurs résultats que sur l'amplitude de leurs applications. Cette progression s'explique en partie par l'utilisation de réseaux de neurones permettant de résoudre efficacement diverses tâches en se basant sur un ensemble de données. Les différentes avancées en IA prédictive (par opposition à l'IA analytique qui s'intéresse à la représentation des connaissances et à la formalisation du raisonnement) ont été mises au service de domaines variés comme l'agricu

APA, Harvard, Vancouver, ISO, and other styles

10

Lesner, Boris. "Planification et apprentissage par renforcement avec modèles d'actions compacts." Caen, 2011. http://www.theses.fr/2011CAEN2074.

Full text

Abstract:

Nous étudions les Processus de Décision Markoviens représentés de manière compacte via des langages de définition d'actions basés sur le langage STRIPS Probabiliste. Une première partie de ce travail traite de la résolution de ces processus de manière compacte. Pour cela nous proposons deux algorithmes. Un premier, basé sur la manipulation de formules propositionnelles, permet de résoudre de manière approchée les problèmes dans des fragments propositionnels traitables du type Horn ou 2-CNF. Le second algorithme quant à lui résout efficacement et de manière exacte les problèmes représentés en P

APA, Harvard, Vancouver, ISO, and other styles

11

Maillard, Odalric-Ambrym. "APPRENTISSAGE SÉQUENTIEL : Bandits, Statistique et Renforcement." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00845410.

Full text

Abstract:

Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci perm

APA, Harvard, Vancouver, ISO, and other styles

12

Hautot, Julien. "Représentation à base radiale pour l'apprentissage par renforcement visuel." Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2024. http://www.theses.fr/2024UCFA0093.

Full text

Abstract:

Ce travail de thèse s'inscrit dans le contexte de l'apprentissage par renforcement (Renforcement Learning - RL) à partir de données image. Contrairement à l'apprentissage supervisé qui permet d'effectuer différentes tâches telles que la classification, la régression ou encore la segmentation à partir d'une base de données annotée, le RL permet d'apprendre, sans base de données, via des interactions avec un environnement. En effet, dans ces méthodes, un agent tel qu'un robot va effectuer différentes actions afin d'explorer son environnement et de récupérer les données d'entraînement. L'entraîne

APA, Harvard, Vancouver, ISO, and other styles

13

Klein, Édouard. "Contributions à l'apprentissage par renforcement inverse." Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0185/document.

Full text

Abstract:

Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus dé

APA, Harvard, Vancouver, ISO, and other styles

14

Gelly, Sylvain. "Une contribution à l'apprentissage par renforcement : application au Computer Go." Paris 11, 2007. http://www.theses.fr/2007PA112227.

Full text

Abstract:

Le domaine de l'Apprentissage par Renforcement (AR) se trouve à l'interface entre la théorie du contrôle, l'apprentissage supervisé et non-supervisé, l'optimisation et les sciences cognitives, et est un domaine très actif de par ses applications et les problèmes non résolus. Cette thèse apporte quelques contributions dans ce domaine, principalement sur trois axes. Le 1er axe correspond à la modélisation de l'environnement, i. E. à l'apprentissage de la fonction de transition entre deux pas de temps. L'apprentissage et l'utilisation de ce modèle se fait efficacement dans les approches factorisé

APA, Harvard, Vancouver, ISO, and other styles

15

Degris, Thomas. "Apprentissage par renforcement dans les processus de décision Markoviens factorisés." Paris 6, 2007. http://www.theses.fr/2007PA066594.

Full text

Abstract:

Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon compacte en spécifiant leur structure. Des méthodes de planification adaptées aux FMDPs obtiennent de bons résultats mais nécessitent que cette structure soit spécifiée manuellement. Cette thèse étudie l'apprentissage de la structure d'un problème représenté par un FMDP en utilisant l'induction d'arbres de décision et propose une adaptation des méthodes de planification dans l

APA, Harvard, Vancouver, ISO, and other styles

16

Zaidenberg, Sofia. "Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante." Grenoble INPG, 2009. http://www.theses.fr/2009INPG0088.

Full text

Abstract:

Cette thèse étudie l'acquisition automatique par apprentissage d'un modèle de contexte pour un utilisateur dans un environnement ubiquitaire. Dans un tel environnement, les dispositifs peuvent communiquer et coopérer afin de former un espace informatique cohérent. Certains appareils ont des capacités de perception, utilisées par l'environnement pour détecter la situation - le contexte - de l'utilisateur. D'autres appareils sont capables d'exécuter des actions. La problématique que nous nous sommes posée est de déterminer les associations optimales pour un utilisateur donné entre les situations

APA, Harvard, Vancouver, ISO, and other styles

17

Klein, Édouard. "Contributions à l'apprentissage par renforcement inverse." Electronic Thesis or Diss., Université de Lorraine, 2013. http://www.theses.fr/2013LORR0185.

Full text

Abstract:

Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus dé

APA, Harvard, Vancouver, ISO, and other styles

18

Darwiche, Domingues Omar. "Exploration en apprentissage par renforcement : au-delà des espaces d'états finis." Thesis, Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB002.

Full text

Abstract:

L'apprentissage par renforcement (reinforcement learning, RL) est un paradigme de l'apprentissage automatique qui nous permet de concevoir des algorithmes qui apprennent à prendre des décisions et à interagir avec le monde. Les algorithmes de RL peuvent être classés comme hors ligne ou en ligne. Dans le cas hors ligne, l'algorithme dispose d'un ensemble de données fixe, avec lequel il doit calculer une bonne stratégie de prise de décision. Dans le cas en ligne, l'agent doit collecter efficacement des données par lui-même, en interagissant avec l'environnement : c'est le problème que l'on appel

APA, Harvard, Vancouver, ISO, and other styles

19

Garcia, Pascal. "Exploration guidée et induction de comportements génériques en apprentissage par renforcement." Rennes, INSA, 2004. http://www.theses.fr/2004ISAR0010.

Full text

Abstract:

L'apprentissage par renforcement est un paradigme dans lequel un agent autonome apprend quelles actionseffectuer dans différentes situations (états), de façon à optimiser les renforcements (récompenses ou punitions) qu'il recevra sur le long terme. Bien qu'un très grand nombre de tâches puisse se formuler dans ce paradigme, deux problèmes fondamentaux se posent concernant les algorithmes d'apprentissage par renforcement standards : 1. Ils ne permettent pas de résoudre en un temps raisonnable des tâches ayant un assez grand nombre d'états. 2. Pour une tâche donnée, ces algorithmes doivent appre

APA, Harvard, Vancouver, ISO, and other styles

20

Vasileiadis, Athanasios. "Apprentissage par renforcement à champ moyen : une perspective de contrôle optimal." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ5005.

Full text

Abstract:

L'apprentissage par renforcement est un paradigme clé de l'apprentissage machine, dont l'objectif est d'inciter les agents à tirer les leçons de leur propre expérience passée afin qu'ils s'améliorent au fil du temps, voir par exemple la monographie [14]. À cet égard, les systèmes impliquant un grand nombre d'agents sont importants pour les applications, mais restent difficiles à traiter du point de vue numérique, voir par exemple le récent post [12]. Le renforcement de l'apprentissage avec plusieurs agents est généralement appelé "apprentissage de renforcement multi-agents" (MARL). Comme démon

APA, Harvard, Vancouver, ISO, and other styles

21

Zhang, Ping. "Etudes de différents aspects de l'apprentissage par renforcement." Compiègne, 1997. http://www.theses.fr/1997COMP0993.

Full text

Abstract:

Dans cette thèse nous avons abordé trois aspects importants de l'apprentissage par renforcement, à savoir les différences temporelles (T D (Alpha) ), l'algorithme de Q-learning et le dilemme "exploration/exploitation". Sur chacun de ces aspects nous avons proposé des innovations qui permettent de mieux comprendre et par la même de mieux résoudre le problème d'apprentissage par renforcement. Le premier résultat de ce travail est une méthode permettant d'optimiser le choix des paramètres de l'algorithme de T D (Alpha). Nous présentons ensuite l'utilisation du principe de T D (Alpha) comme point

APA, Harvard, Vancouver, ISO, and other styles

22

Léon, Aurélia. "Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS226.

Full text

Abstract:

Cette thèse s’intéresse à la notion de budget pour étudier des problèmes de complexité (complexité en calculs, tâche complexe pour un agent, ou complexité due à une faible quantité de données). En effet, l’objectif principal des techniques actuelles en apprentissage statistique est généralement d’obtenir les meilleures performances possibles, sans se soucier du coût de la tâche. La notion de budget permet de prendre en compte ce paramètre tout en conservant de bonnes performances. Nous nous concentrons d’abord sur des problèmes de classification en grand nombre de classes : la complexité en ca

APA, Harvard, Vancouver, ISO, and other styles

23

Daoudi, Paul. "Apprentissage par renforcement sur des systèmes réels : exploitation de différents contextes industriels." Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALT047.

Full text

Abstract:

Il existe dans l'industrie de nombreuses infrastructures requérant un contrôle complexe dont le rôle est crucial. Traditionnellement, ce problème est abordé par l'utilisation de méthodes d'automatique et de commande optimale. Celles-ci nécessitent d'avoir un modèle des dynamiques du système, qui peut être imprécis dans le cadre de systèmes complexes. L'apprentissage automatique propose une solution alternative à ce problème, où le modèle du système considéré s'obtient par extrapolation à partir de données entrées/sorties tout en étant agnostique à la physique sous-jacente du système. L'apprent

APA, Harvard, Vancouver, ISO, and other styles

24

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Full text

Abstract:

La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui

APA, Harvard, Vancouver, ISO, and other styles

25

Mesnard, Thomas. "Attribution de crédit pour l'apprentissage par renforcement dans des réseaux profonds." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAX155.

Full text

Abstract:

L'apprentissage profond par renforcement a été au cœur de nombreux résultats révolutionnaires en intelligence artificielle ces dernières années. Ces agents reposent sur des techniques d'attribution de crédit qui cherchent à établir des corrélations entre actions passées et événements futurs et utilisent ces corrélations pour devenir performants à une tâche. Ce problème est au cœur des limites actuelles de l'apprentissage par renforcement et les techniques d'attribution de crédit utilisées sont encore relativement rudimentaires et incapables de raisonnement inductif. Cette thèse se concentre do

APA, Harvard, Vancouver, ISO, and other styles

26

Laurent, Guillaume. "Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan." Phd thesis, Université de Franche-Comté, 2002. http://tel.archives-ouvertes.fr/tel-00008761.

Full text

Abstract:

En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'al

APA, Harvard, Vancouver, ISO, and other styles

27

Bouzid, Salah Eddine. "Optimisation multicritères des performances de réseau d’objets communicants par méta-heuristiques hybrides et apprentissage par renforcement." Thesis, Le Mans, 2020. http://cyberdoc-int.univ-lemans.fr/Theses/2020/2020LEMA1026.pdf.

Full text

Abstract:

Le déploiement des réseaux d’objets communicants «ROCs», dont les densités augmentent sans cesse, conditionne à la fois l’optimalité de leur qualité de service, leur consommation énergétique et par conséquent leur durée de vie. Il s’avère que le problème de déterminer le placement optimal, relativement aux différents critères de qualité, des nœuds de ces réseaux est un problème Np-Complet. Face à cette Np-complétude, et en particulier pour des environnements intérieurs, les approches existantes focalisent sur l’optimisation d’un seul objectif en négligeant les autres critères, ou optent pour u

APA, Harvard, Vancouver, ISO, and other styles

28

Buffet, Olivier. "Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs." Phd thesis, Université Henri Poincaré - Nancy I, 2003. http://tel.archives-ouvertes.fr/tel-00509349.

Full text

Abstract:

Cette thèse s'est intéressée à deux domaines de l'intelligence artificielle : d'une part l'apprentissage par renforcement (A/R), et d'autre part les systèmes multi-agents (SMA). Le premier permet de concevoir des agents (entités intelligentes) en se basant sur un signal de renforcement qui récompense les décisions menant au but fixé, alors que le second concerne l'intelligence qui peut venir de l'interaction d'un groupe d'entités (dans la perspective que le tout soit plus que la somme de ses parties). Chacun de ces deux outils souffre de diverses difficultés d'emploi. Le travail que nous avons

APA, Harvard, Vancouver, ISO, and other styles

29

Dutech, Alain. "Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)." Habilitation à diriger des recherches, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00549108.

Full text

Abstract:

Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour de

APA, Harvard, Vancouver, ISO, and other styles

30

Coulom, Rémi. "Apprentissage par renforcement utilisant des réseaux de neurones avec des applications au contrôle moteur." Phd thesis, Grenoble INPG, 2002. http://tel.archives-ouvertes.fr/tel-00004386.

Full text

Abstract:

Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indi

APA, Harvard, Vancouver, ISO, and other styles

31

Jneid, Khoder. "Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM062.

Full text

Abstract:

Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette c

APA, Harvard, Vancouver, ISO, and other styles

32

Gueguen, Maëlle. "Dynamique intracérébrale de l'apprentissage par renforcement chez l'humain." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAS042/document.

Full text

Abstract:

Chaque jour, nous prenons des décisions impliquant de choisir les options qui nous semblent les plus avantageuses, en nous basant sur nos expériences passées. Toutefois, les mécanismes et les bases neurales de l’apprentissage par renforcement restent débattus. D’une part, certains travaux suggèrent l’existence de deux systèmes opposés impliquant des aires cérébrales corticales et sous-corticales distinctes lorsque l’on apprend par la carotte ou par le bâton. D’autres part, des études ont montré une ségrégation au sein même de ces régions cérébrales ou entre des neurones traitant l’apprentissag

APA, Harvard, Vancouver, ISO, and other styles

33

Robledo, Relaño Francisco. "Algorithmes d'apprentissage par renforcement avancé pour les problèmes bandits multi-arches." Electronic Thesis or Diss., Pau, 2024. http://www.theses.fr/2024PAUU3021.

Full text

Abstract:

Cette thèse présente des avancées dans les algorithmes d'apprentissage par renforcement (RL) pour la gestion des ressources et des politiques dans les problèmes de bandit multiarmé sans repos (RMAB). Nous développons des algorithmes à travers deux approches dans ce domaine. Premièrement, pour les problèmes avec des actions discrètes et binaires, ce qui est le cas original de RMAB, nous avons développé QWI et QWINN. Ces algorithmes calculent les indices de Whittle, une heuristique qui découple les différents processus RMAB, simplifiant ainsi la détermination de la politique. Deuxièmement, pour

APA, Harvard, Vancouver, ISO, and other styles

34

Godbout, Mathieu. "Approches par bandit pour la génération automatique de résumés de textes." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69488.

Full text

Abstract:

Ce mémoire aborde l'utilisation des méthodes par bandit pour résoudre la problématique de l'entraînement de modèles de générations de résumés extractifs. Les modèles extractifs, qui bâtissent des résumés en sélectionnant des phrases d'un document original, sont difficiles à entraîner car le résumé cible correspondant à un document n'est habituellement pas constitué de manière extractive. C'est à cet effet que l'on propose de voir la production de résumés extractifs comme différents problèmes de bandit, lesquels sont accompagnés d'algorithmes pouvant être utilisés pour l'entraînement. On commen

APA, Harvard, Vancouver, ISO, and other styles

35

Montagne, Fabien. "Une architecture logicielle pour aider un agent apprenant par renforcement." Littoral, 2008. http://www.theses.fr/2008DUNK0198.

Full text

Abstract:

Cette thèse s’inscrit dans le cadre de l’apprentissage par renforcement. L’un des principaux avantages est qu’il ne nécessite pas de connaître explicitement le comportement attendu. Durant son apprentissage, l’agent perçoit des états, reçoit un ensemble de retours et sélectionne des actions. Il adapte son comportement en optimisant la quantité de retour. Néanmoins, le temps de calcul nécessaire peut vite être prohibitif. La nécessité d’explorer son environnement en est la principale raison. Notre approche consiste à utiliser des connaissances externes pour « guider » l’agent dans son explorati

APA, Harvard, Vancouver, ISO, and other styles

36

Matignon, Laëtitia. "Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement : application à la commande d'un système distribué de micromanipulation." Besançon, 2008. http://www.theses.fr/2008BESA2041.

Full text

Abstract:

De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes , d'apprentissage par renforceme

APA, Harvard, Vancouver, ISO, and other styles

37

Geist, Matthieu. "Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement." Phd thesis, Université de Metz, 2009. http://tel.archives-ouvertes.fr/tel-00441557.

Full text

Abstract:

L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de

APA, Harvard, Vancouver, ISO, and other styles

38

Geist, Matthieu. "Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement." Electronic Thesis or Diss., Metz, 2009. http://www.theses.fr/2009METZ023S.

Full text

Abstract:

L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de

APA, Harvard, Vancouver, ISO, and other styles

39

Zennir, Youcef. "Apprentissage par renforcement et systèmes distribués : application à l'apprentissage de la marche d'un robot hexapode." Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0034/these.pdf.

Full text

Abstract:

Le but de cette thèse est d'étudier et de proposer des techniques d'apprentissage par renforcement pour l'apprentissage de la marche d'un robot marcheur hexapode. L'hypothèse sur laquelle repose ce travail est que des marches peuvent être obtenues lorsque la commande des mouvements est distribuée au niveau de chaque patte plutôt que d'être centralisée. Une approche distribuée de l'apprentissage par renforcement de type Q-learning a été retenue dans laquelle les agents (les contrôleurs de mouvement) contribuant à une même tâche mènent leur propre apprentissage en tenant compte ou non de l'exist

APA, Harvard, Vancouver, ISO, and other styles

40

Leurent, Edouard. "Apprentissage par renforcement sûr et efficace pour la prise de décision comportementale en conduite autonome." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I049.

Full text

Abstract:

Dans cette thèse de doctorat, nous étudions comment des véhicules autonomes peuvent apprendre à garantir la sûreté et à éviter les accidents, bien qu'ils partagent la route avec des conducteurs humains dont les comportements sont incertains. Pour prendre en compte cette incertitude, nous nous appuyons sur les observations en ligne de l'environnement pour construire une région de confiance autour de la dynamique du système, qui est ensuite propagée au cours du temps pour borner l'ensemble des trajectoires possibles des véhicules à proximité. Pour assurer la sûreté en présence de cette incertitu

APA, Harvard, Vancouver, ISO, and other styles

41

Zennir, Youcef Bétemps Maurice. "Apprentissage par renforcement et systèmes distribués application à l'apprentissage de la marche d'un robot hexapode /." Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=zennir.

Full text

APA, Harvard, Vancouver, ISO, and other styles

42

Rodrigues, Christophe. "Apprentissage incrémental des modèles d'action relationnels." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_rodrigues.pdf.

Full text

Abstract:

Dans cette thèse, nous nous intéressons à l'apprentissage artificiel pour l'action. Nous nous situons à l'intersection de l'apprentissage par renforcement (AR) et de la programmation logique inductive (PLI). Nous étudions plus précisément l'apprentissage de modèles d'actions. Un modèle d'action décrit les conditions et effets des actions possibles dans un environnement. Il permet d'anticiper les conséquences des actions d'un agent et peut aussi être utilisé par un planificateur. Nous nous intéressons en particulier à une représentation relationnelle des environnements. Nous décrivons alors les

APA, Harvard, Vancouver, ISO, and other styles

43

Gabillon, Victor. "Algorithmes budgétisés d'itérations sur les politiques obtenues par classification." Thesis, Lille 1, 2014. http://www.theses.fr/2014LIL10032/document.

Full text

Abstract:

Cette thèse étudie une classe d'algorithmes d'apprentissage par renforcement (RL), appelée « itération sur les politiques obtenues par classification » (CBPI). Contrairement aux méthodes standards de RL, CBPI n'utilise pas de représentation explicite de la fonction valeur. CBPI réalise des déroulés (des trajectoires) et estime la fonction action-valeur de la politique courante pour un nombre limité d'états et d'actions. En utilisant un ensemble d'apprentissage construit à partir de ces estimations, la politique gloutonne est apprise comme le produit d'un classificateur. La politique ainsi prod

APA, Harvard, Vancouver, ISO, and other styles

44

Langlois, Thibault. "Algorithmes d'apprentissage par renforcement pour la commande adaptative : Texte imprimé." Compiègne, 1992. http://www.theses.fr/1992COMPD530.

Full text

Abstract:

Cette thèse présente différentes méthodes d'identification d'une loi de commande pour le contrôle de systèmes dynamiques. Ces méthodes sont basées sur l'utilisation de réseaux de neurones artificiels pour l'approximation de fonctions à partir d'exemples. Une synthèse bibliographique des différentes applications des réseaux de neurones pour le contrôle de processus est présentée. Trois types d'utilisation des réseaux de neurones sont décrits : l'identification directe d'un système ou d'un contrôleur à partir d'exemples, l'identification d'un contrôleur grâce à l'algorithme de «rétropropagation

APA, Harvard, Vancouver, ISO, and other styles

45

Tournaire, Thomas. "Model-based reinforcement learning for dynamic resource allocation in cloud environments." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS004.

Full text

Abstract:

L'émergence de nouvelles technologies nécessite une allocation efficace des ressources pour satisfaire la demande. Cependant, ces nouveaux besoins nécessitent une puissance de calcul élevée impliquant une plus grande consommation d'énergie notamment dans les infrastructures cloud et data centers. Il est donc essentiel de trouver de nouvelles solutions qui peuvent satisfaire ces besoins tout en réduisant la consommation d'énergie des ressources. Dans cette thèse, nous proposons et comparons de nouvelles solutions d'IA (apprentissage par renforcement RL) pour orchestrer les ressources virtuelles

APA, Harvard, Vancouver, ISO, and other styles

46

Jouffe, Lionel. "Apprentissage de systèmes d'inférence floue par des méthodes de renforcement : application à la régulation d'ambiance dans un bâtiment d'élevage porcin." Rennes 1, 1997. http://www.theses.fr/1997REN10071.

Full text

Abstract:

Afin de s'adapter à leur environnement, les systemes biologiques supérieurs mettent en jeu des méanismes internes. Parmi ceux-ci, certain entrainent des modifications stables de l'activite psychologique qui constituent alors l'apprentissage. Dans la communaute informatique, l'apprentissage est appréhende comme un calcul, i. E. Une série de modifications des caractéristiques de l'apprenti. Bien entendu, cet apprenti n'est plus un système biologique mais un programme informatique adaptatif. Le type d'apprentissage considéré dans cette thèse s'apparente à celui mis en évidence par les behaviorist

APA, Harvard, Vancouver, ISO, and other styles

47

Roberty, Adrien. "Ordonnancer le trafic dans des réseaux déterministes grâce à l’apprentissage par renforcement." Electronic Thesis or Diss., Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2024. http://www.theses.fr/2024ESMA0001.

Full text

Abstract:

L’un des changements les plus perturbateurs apportés par l’industrie 4.0 est la mise en réseau des installations de production. De plus, les discussions portant sur l’Industrie 5.0 montrent la nécessité d’un écosystème industriel intégré, combinant IA et jumeau numérique. Dans cet environnement, les équipements industriels fonctionneront de manière transparente avec les travailleurs humains, nécessitant une latence minimale et une connectivité haut débit pour la surveillance en temps réel. Afin de répondre à ces exigences, l’ensemble de standard Time-Sensitive Networking (TSN) a été introduit.

APA, Harvard, Vancouver, ISO, and other styles

48

Pamponet, Machado Aydano. "Le transfert adaptatif en apprentissage par renforcement : application à la simulation de schéma de jeux tactiques." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://tel.archives-ouvertes.fr/tel-00814207.

Full text

Abstract:

Une voie permettant l'accélération l'apprentissage par renforcement est l'exploration à l'aide des connaissances du domaine. La plus part des algorithmes existants, intitulées transfert de connaissance, sont basés sur une hypothèse implicite : la bonne qualité de la connaissance disponible sur la tache courante. Lorsque cette hypothèse n'est pas respectée, les performances se dégradent bien en dessous des celles des méthodes standards. Ce travail de thèse propose des algorithmes de transfert capables de s'adapter à la qualité de la connaissance disponible. Pour le faire, nous introduisons un p

APA, Harvard, Vancouver, ISO, and other styles

49

Gérard, Pierre. "Systèmes de classeurs : étude de l'apprentissage latent." Paris 6, 2002. http://www.theses.fr/2002PA066155.

Full text

APA, Harvard, Vancouver, ISO, and other styles

50

Fouladi, Karan. "Recommandation multidimensionnelle d’émissions télévisées par apprentissage : Une interface de visualisation intelligente pour la télévision numérique." Paris 6, 2013. http://www.theses.fr/2013PA066040.

Full text

Abstract:

Le sujet central de cette thèse est l’élaboration d’un Système de Recommandation interfacé par une cartographie interactive des contenus télévisés. Ce système fut réalisé dans le cadre du projet ANR, nommé BUIS, durant la période 2006-2009. Pour ce faire, nous avons choisi d’utiliser un Système de Recommandation basé sur le contenu et l��avons adapté au domaine télévisuel. Cette adaptation s’est effectuée lors de plusieurs étapes spécifiques. Nous avons particulièrement travaillé le traitement des métadonnées associées aux contenus télévisés, en développant un système expert capable de nous fo

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!