To see the other types of publications on this topic, follow the link: Apprentissage par reinforcement.

Dissertations / Theses on the topic 'Apprentissage par reinforcement'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage par reinforcement.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Carrara, Nicolas. "Reinforcement learning for dialogue systems optimization with user adaptation." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I071/document.

Full text
Abstract:
Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèles statistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter une quantité substantielle de données issues de l’environnement. Les assistants personnels, maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception. Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs données d’apprentissage se doivent d’être collectées avec ces mêmes humains. Parce que le nombre d’interactions avec une seule personne est assez faible, l’ap
APA, Harvard, Vancouver, ISO, and other styles
2

Akrour, Riad. "Robust Preference Learning-based Reinforcement Learning." Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112236/document.

Full text
Abstract:
Les contributions de la thèse sont centrées sur la prise de décisions séquentielles et plus spécialement sur l'Apprentissage par Renforcement (AR). Prenant sa source de l'apprentissage statistique au même titre que l'apprentissage supervisé et non-supervisé, l'AR a gagné en popularité ces deux dernières décennies en raisons de percées aussi bien applicatives que théoriques. L'AR suppose que l'agent (apprenant) ainsi que son environnement suivent un processus de décision stochastique Markovien sur un espace d'états et d'actions. Le processus est dit de décision parce que l'agent est appelé à ch
APA, Harvard, Vancouver, ISO, and other styles
3

Fournier, Pierre. "Intrinsically Motivated and Interactive Reinforcement Learning : a Developmental Approach." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS634.

Full text
Abstract:
L'apprentissage par renforcement est aujourd'hui plus populaire que jamais, mais plusieurs compétences simples lui restent hors de portée: manipulation d'objets, contrôle sensorimoteur, interaction naturelle avec d'autres agents. Une approche possible pour aborder ces défis consiste à s'inspirer du développement humain, voire de tenter de le reproduire. Dans cette thèse, nous étudions l'intersection de deux sujets cruciaux en sciences du développement, et leur application à l'apprentissage par renforcement dans le but d'aborder ces défis: l'apprentissage social et la motivation intrinsèque. L'
APA, Harvard, Vancouver, ISO, and other styles
4

Garcelon, Evrard. "Constrained Exploration in Reinforcement Learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAG007.

Full text
Abstract:
Une application majeure de l'apprentissage machine automatisée est la personnalisation des différents contenus recommandé à différents utilisateurs. Généralement, les algorithmes étant à la base de ces systèmes sont dit supervisé. C'est-à-dire que les données utilisées lors de la phase d'apprentissage sont supposées provenir de la même distribution. Cependant, ces données sont générées par des interactions entre un utilisateur et ces mêmes algorithmes. Ainsi, les recommandations pour un utilisateur à un instant t peuvent modifier l'ensemble des recommandations pertinentes à un instant ultérieu
APA, Harvard, Vancouver, ISO, and other styles
5

Blier, Léonard. "Some Principled Methods for Deep Reinforcement Learning." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG040.

Full text
Abstract:
Cette thèse développe et étudie certaines méthodes de principe pour l'apprentissage profond (DL) et l'apprentissage par renforcement (RL).Dans la partie II, nous étudions le DL selon le point de vue du “Minimum Description Length” principe, qui formalise le rasoir d'Occam, et postule qu'un bon modèle prédictif est un modèle capable de compresser sans perte les données (en prenant en compte le coût de la description du modèle lui-même). Les modèles de DL, par le nombre de paramètres à encoder, semblent aller à l'encontre de ce principe. Nous démontrons expérimentalement la capacité de compressi
APA, Harvard, Vancouver, ISO, and other styles
6

Chatzilygeroudis, Konstantinos. "Micro-Data Reinforcement Learning for Adaptive Robots." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0276/document.

Full text
Abstract:
Les robots opèrent dans le monde réel, dans lequel essayer quelque chose prend beaucoup de temps. Pourtant, les methodes d’apprentissage par renforcement actuels (par exemple, deep reinforcement learning) nécessitent de longues périodes d’interaction pour trouver des politiques efficaces. Dans cette thèse, nous avons exploré des algorithmes qui abordent le défi de l’apprentissage par essai-erreur en quelques minutes sur des robots physiques. Nous appelons ce défi “Apprentissage par renforcement micro-data”. Dans la première contribution, nous avons proposé un nouvel algorithme d’appr
APA, Harvard, Vancouver, ISO, and other styles
7

Chatzilygeroudis, Konstantinos. "Micro-Data Reinforcement Learning for Adaptive Robots." Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0276.

Full text
Abstract:
Les robots opèrent dans le monde réel, dans lequel essayer quelque chose prend beaucoup de temps. Pourtant, les methodes d’apprentissage par renforcement actuels (par exemple, deep reinforcement learning) nécessitent de longues périodes d’interaction pour trouver des politiques efficaces. Dans cette thèse, nous avons exploré des algorithmes qui abordent le défi de l’apprentissage par essai-erreur en quelques minutes sur des robots physiques. Nous appelons ce défi “Apprentissage par renforcement micro-data”. Dans la première contribution, nous avons proposé un nouvel algorithme d’appr
APA, Harvard, Vancouver, ISO, and other styles
8

Achab, Mastane. "Ranking and risk-aware reinforcement learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT020.

Full text
Abstract:
Les travaux de cette thèse se situent à l’interface de deux thématiques de l'apprentissage automatique : l’apprentissage de préférences d'une part, et l’apprentissage par renforcement de l'autre. La première consiste à percoler différents classements d’un même ensemble d’objets afin d’en extraire un ordre général, la seconde à identifier séquentiellement une stratégie optimale en observant des récompenses sanctionnant chaque action essayée. La structure de la thèse suit ce découpage thématique. En première partie, le paradigme de minimisation du risque empirique est utilisé à des fins d'ordonn
APA, Harvard, Vancouver, ISO, and other styles
9

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Full text
Abstract:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des prob
APA, Harvard, Vancouver, ISO, and other styles
10

Tréca, Maxime. "Designing traffic signal control systems using reinforcement learning." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG043.

Full text
Abstract:
Ces travaux de thèse étudient en détail la problématique d'optimisation du trafic par le biais du contrôle des feux de signalisation d'un réseau routier. Cette optimisation passe par l'utilisation de techniques d'apprentissage par renforcement, branche du machine learning permettant à un agent de résoudre une tâche dans un environment en maximisant ses signaux de récompenses.Dans un premier temps, les champs respectifs du contrôle de feux et de l'apprentissage par renforcement sont présentés, permettant ensuite d'introduire le domaine du contrôle de feu par apprentissage par renforcement. Dans
APA, Harvard, Vancouver, ISO, and other styles
11

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008.

Full text
Abstract:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des prob
APA, Harvard, Vancouver, ISO, and other styles
12

Tarbouriech, Jean. "Goal-oriented exploration for reinforcement learning." Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB014.

Full text
Abstract:
Apprendre à atteindre des buts est une compétence à acquérir à grande pertinence pratique pour des agents intelligents. Par exemple, ceci englobe de nombreux problèmes de navigation (se diriger vers telle destination), de manipulation robotique (atteindre telle position du bras robotique) ou encore certains jeux (gagner en accomplissant tel objectif). En tant qu'être vivant interagissant avec le monde, je suis constamment motivé par l'atteinte de buts, qui varient en portée et difficulté.L'Apprentissage par Renforcement (AR) est un paradigme prometteur pour formaliser et apprendre des comporte
APA, Harvard, Vancouver, ISO, and other styles
13

Brellmann, David. "Experimental and Theoretical Analysis of Reinforcement Learning Algorithms." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAE008.

Full text
Abstract:
En apprentissage par renforcement (RL), un agent apprend comment agir dans un environnement inconnu de façon à maximiser sa récompense sur le long terme.Ces dernières années, l'utilisation de réseaux de neurones artificiels a conduit à de nombreuses avancées, notamment en termes de scalabilité.Cependant, de nombreuses lacunes subsistent dans notre compréhension de la meilleure manière d'employer les réseaux de neurones en RL.Dans cette thèse, nous proposons d'améliorer l'utilisation des réseaux de neurones en RL de deux manières, présentées dans deux parties distinctes.La première partie prése
APA, Harvard, Vancouver, ISO, and other styles
14

Gaya, Jean-Baptiste. "Subspaces of Policies for Deep Reinforcement Learning." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS075.

Full text
Abstract:
Ce travail explore les "Sous-espaces de politiques pour l'apprentissage par renforcement profond", introduisant une approche novatrice pour relever les défis d'adaptabilité et de généralisation dans l'apprentissage par renforcement profond (RL). Situé dans le contexte plus large de la révolution de l'IA, cette recherche met l'accent sur la transition vers des modèles évolutifs et généralisables en RL, inspirée par les avancées des architectures et méthodologies d'apprentissage profond. Elle identifie les limites des applications actuelles de RL, notamment pour atteindre une généralisation à tr
APA, Harvard, Vancouver, ISO, and other styles
15

Tournaire, Thomas. "Model-based reinforcement learning for dynamic resource allocation in cloud environments." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS004.

Full text
Abstract:
L'émergence de nouvelles technologies nécessite une allocation efficace des ressources pour satisfaire la demande. Cependant, ces nouveaux besoins nécessitent une puissance de calcul élevée impliquant une plus grande consommation d'énergie notamment dans les infrastructures cloud et data centers. Il est donc essentiel de trouver de nouvelles solutions qui peuvent satisfaire ces besoins tout en réduisant la consommation d'énergie des ressources. Dans cette thèse, nous proposons et comparons de nouvelles solutions d'IA (apprentissage par renforcement RL) pour orchestrer les ressources virtuelles
APA, Harvard, Vancouver, ISO, and other styles
16

Gallouedec, Quentin. "Toward the generalization of reinforcement learning." Electronic Thesis or Diss., Ecully, Ecole centrale de Lyon, 2024. http://www.theses.fr/2024ECDL0013.

Full text
Abstract:
L’apprentissage par renforcement conventionnel implique l’entraînement d’un agent unimodal sur une tâche unique et bien définie, guidé par un signal de récompense optimisé pour le gradient. Ce cadre ne nous permet pas d’envisager un agent d’apprentissage adapté aux problèmes du monde réel impliquant des flux de diverses modalités, des tâches multiples, souvent mal définies, voire pas définies du tout. C’est pourquoi nous préconisons une transition vers un cadre plus général, visant à créer des algorithmes d’apprentissage par renforcement plus adaptables et intrinsèquement polyvalents. Pour pro
APA, Harvard, Vancouver, ISO, and other styles
17

Théro, Héloïse. "Contrôle, agentivité et apprentissage par renforcement." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE028/document.

Full text
Abstract:
Le sentiment d’agentivité est défini comme le sentiment de contrôler nos actions, et à travers elles, les évènements du monde extérieur. Cet ensemble phénoménologique dépend de notre capacité d’apprendre les contingences entre nos actions et leurs résultats, et un algorithme classique pour modéliser cela vient du domaine de l’apprentissage par renforcement. Dans cette thèse, nous avons utilisé l’approche de modélisation cognitive pour étudier l’interaction entre agentivité et apprentissage par renforcement. Tout d’abord, les participants réalisant une tâche d’apprentissage par renforcement ten
APA, Harvard, Vancouver, ISO, and other styles
18

Darwiche, Domingues Omar. "Exploration en apprentissage par renforcement : au-delà des espaces d'états finis." Thesis, Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB002.

Full text
Abstract:
L'apprentissage par renforcement (reinforcement learning, RL) est un paradigme de l'apprentissage automatique qui nous permet de concevoir des algorithmes qui apprennent à prendre des décisions et à interagir avec le monde. Les algorithmes de RL peuvent être classés comme hors ligne ou en ligne. Dans le cas hors ligne, l'algorithme dispose d'un ensemble de données fixe, avec lequel il doit calculer une bonne stratégie de prise de décision. Dans le cas en ligne, l'agent doit collecter efficacement des données par lui-même, en interagissant avec l'environnement : c'est le problème que l'on appel
APA, Harvard, Vancouver, ISO, and other styles
19

Robaglia, Benoît-Marie. "Reinforcement Learning for Uncoordinated Multiple Access." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT010.

Full text
Abstract:
Les protocoles de contrôle d'accès au support (MAC) distribués sont fondamentaux dans la communication sans fil, mais les protocoles traditionnels basés sur l'accès aléatoire sont confrontés à des limitations importantes dans le cas d'utilisation de l'internet des objets (IoT). En effet, ils ont du mal à garantir la latence, ce qui les rend inadaptés aux communications ultra-fiables à faible latence (URLLC). Cette thèse aborde ces défis en exploitant le potentiel de l'apprentissage par renforcement profond (DRL), un paradigme dans lequel les agents optimisent leurs actions en interagissant ave
APA, Harvard, Vancouver, ISO, and other styles
20

Moturu, Krishna Priya Darsini. "Application of reinforcement learning algorithms to software verification." Master's thesis, Québec : Université Laval, 2006. http://www.theses.ulaval.ca/2006/23583/23583.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
21

Zhioua, Sami. "Stochastic Systems Divergence through Reinforcement Learning." Thesis, Université Laval, 2008. http://www.theses.ulaval.ca/2008/25167/25167.pdf.

Full text
Abstract:
Les mathématiques offrent un cadre convenable pour raisonner rigoureusement sur les systèmes et phénomènes réels. Par exemple, en génie logiciel, les méthodes formelles sont parmi les outils les plus efficaces pour détecter les anomalies dans les logiciels. Plusieurs systèmes réels sont stochastiques par nature dans le sens où leur comportement est sujet à un aspect d'incertitude. La représentation de ce genre de systèmes requiert des modèles stochastiques comme les processus de Markov étiquetés (LMP), les processus de Markov décisionnels (MDP), etc. Cette thèse porte sur la quantification de
APA, Harvard, Vancouver, ISO, and other styles
22

Ragel, Vincent. "Reinforcement Learning for systematic market making strategies." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPAST175.

Full text
Abstract:
La thèse porte sur l'utilisation de l'apprentissage par renforcement pour la prise de décision du teneur de marché. Ce dernier est un acteur essentiel des marchés. Son rôle est de fournir de la liquidité en affichant des prix à l'achat et à la vente auxquels il s'engage à traiter face aux autres intervenants. Le teneur de marché se rémunère en bénéficiant d'une fourchette offre-demande. En assurant la liquidité il prend deux risques (un risque d'inventaire et un risque de sélection adverse).Cette thèse est divisée en trois parties. Premièrement, nous introduisons une modification à la structur
APA, Harvard, Vancouver, ISO, and other styles
23

Vincent, Marc. "Reinforcement Learning for Multi-Function Radar Resource Management." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS305.

Full text
Abstract:
Dans le sillage des avancées récentes dans le champ de l'apprentissage automatique, de nombreux progrès ont été réalisés dans l'un de ses sous-domaines, l'apprentissage par renforcement, dont le but est de résoudre des problèmes de décision séquentielle dans l'incertain. La gestion de ressources radar semble représenter un cadre d'application propice pour ce type de techniques. En effet, un radar émet des signaux, appelés pointages, dont l'écho permet de mesurer l'état des objets alentour ; ces pointages varient selon de nombreux paramètres (durée, largeur de faisceau...) et doivent être exécu
APA, Harvard, Vancouver, ISO, and other styles
24

Castanet, Nicolas. "Automatic state representation and goal selection in unsupervised reinforcement learning." Electronic Thesis or Diss., Sorbonne université, 2025. http://www.theses.fr/2025SORUS005.

Full text
Abstract:
Au cours des dernières années, l'apprentissage par renforcement a connu un succès considérable en entrainant des agents spécialisés capables de dépasser radicalement les performances humaines dans des jeux complexes comme les échecs ou le go, ou dans des applications robotiques. Ces agents manquent souvent de polyvalence, ce qui oblige l'ingénierie humaine à concevoir leur comportement pour des tâches spécifiques avec un signal de récompense prédéfini, limitant ainsi leur capacité à faire face à de nouvelles circonstances. La spécialisation de ces agents se traduit par de faibles capacités de
APA, Harvard, Vancouver, ISO, and other styles
25

Cuvelier, Thibaut. "Polynomial-Time Algorithms for Combinatorial Semibandits : Computationally Tractable Reinforcement Learning in Complex Environments." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG020.

Full text
Abstract:
La prise de décision séquentielle est une composante essentielle de nombreuses applications, de la gestion des réseaux informatiques aux annonces en ligne. L'outil principal est l'apprentissage par renforcement : un agent prend une séquence de décisions afin d'atteindre son objectif, avec des mesures typiquement bruitées de son environnement. Par exemple, un agent peut contrôler une voiture autonome; l'environnement est la ville dans laquelle la voiture se déplace. Les problèmes de bandits forment une classe d'apprentissage de renforcement pour laquelle on peut démontrer de très forts résultat
APA, Harvard, Vancouver, ISO, and other styles
26

Chenu, Alexandre. "Leveraging sequentiality in Robot Learning : Application of the Divide & Conquer paradigm to Neuro-Evolution and Deep Reinforcement Learning." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS342.

Full text
Abstract:
"Pour réussir, il ne suffit pas de prévoir, il faut aussi savoir improviser." Cette citation d’Isaac Asimov, père fondateur de la robotique et auteur des Trois lois de la robotique, souligne toute l’importance d’être capable de s’adapter et d’agir dans l’instant présent pour réussir. Même si, aujourd’hui, les robots peuvent résoudre des tâches d’une complexité qui était inimaginable il y a encore quelques années, ces capacités d’adaptation leur font encore défaut, ce qui les empêche d’être déployé à une plus grande échelle. Pour remédier à ce manque d’adaptabilité, les roboticiens utilisent de
APA, Harvard, Vancouver, ISO, and other styles
27

Asri, Layla El. "Learning the Parameters of Reinforcement Learning from Data for Adaptive Spoken Dialogue Systems." Electronic Thesis or Diss., Université de Lorraine, 2016. http://www.theses.fr/2016LORR0350.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre de la recherche sur les systèmes de dialogue. Ce document propose d’apprendre le comportement d’un système à partir d’un ensemble de dialogues annotés. Le système apprend un comportement optimal via l’apprentissage par renforcement. Nous montrons qu’il n’est pas nécessaire de définir une représentation de l’espace d’état ni une fonction de récompense. En effet, ces deux paramètres peuvent être appris à partir du corpus de dialogues annotés. Nous montrons qu’il est possible pour un développeur de systèmes de dialogue d’optimiser la gestion du dialogue en défi
APA, Harvard, Vancouver, ISO, and other styles
28

Paumard, Marie-Morgane. "Résolution automatique de puzzles par apprentissage profond." Thesis, CY Cergy Paris Université, 2020. http://www.theses.fr/2020CYUN1067.

Full text
Abstract:
L’objectif de cette thèse est de développer des méthodes sémantiques de réassemblage dans le cadre compliqué des collections patrimoniales, où certains blocs sont érodés ou manquants.Le remontage de vestiges archéologiques est une tâche importante pour les sciences du patrimoine : il permet d’améliorer la compréhension et la conservation des vestiges et artefacts anciens. Certains ensembles de fragments ne peuvent être réassemblés grâce aux techniques utilisant les informations de contour et les continuités visuelles. Il est alors nécessaire d’extraire les informations sémantiques des fragment
APA, Harvard, Vancouver, ISO, and other styles
29

Younes, Mohamed. "Apprentissage et stimulation des stratégies de sport (boxe) pour l'entraînement en réalité virtuelle." Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS014.

Full text
Abstract:
Cette thèse étudie l’extraction et la simulation des interactions entre combattants, principalement pour la boxe, en utilisant des techniques d’apprentissage profond : l’estimation du mouvement humain à partir de vidéos, l’apprentissage par imitation basé sur l’apprentissage par renforcement, et la simulation de personnages basée sur la physique. Dans le contexte de l’analyse sportive à partir de vidéos, un protocole de référence est proposé dans lequel diverses méthodes contemporaines d’extraction de poses humaines en 2D sont évaluées pour leur précision à dériver des informations positionnel
APA, Harvard, Vancouver, ISO, and other styles
30

Asri, Layla El. "Learning the Parameters of Reinforcement Learning from Data for Adaptive Spoken Dialogue Systems." Thesis, Université de Lorraine, 2016. http://www.theses.fr/2016LORR0350/document.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre de la recherche sur les systèmes de dialogue. Ce document propose d’apprendre le comportement d’un système à partir d’un ensemble de dialogues annotés. Le système apprend un comportement optimal via l’apprentissage par renforcement. Nous montrons qu’il n’est pas nécessaire de définir une représentation de l’espace d’état ni une fonction de récompense. En effet, ces deux paramètres peuvent être appris à partir du corpus de dialogues annotés. Nous montrons qu’il est possible pour un développeur de systèmes de dialogue d’optimiser la gestion du dialogue en défi
APA, Harvard, Vancouver, ISO, and other styles
31

Zadem, Mehdi. "Automatic Symbolic Goal Abstraction via Reachability Analysis in Hierarchical Reinforcement Learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAX141.

Full text
Abstract:
L'Apprentissage par Renforcement Hiérarchique (HRL) est un paradigme qui peut être exploité pour apprendre automatiquement des stratégies pour des tâches à long terme, qui impliquent généralement plusieurs étapes à franchir avant que le problème ne soit résolu. L'idée principale de l'Apprentissage par Renforcement Hiérarchique est de diviser la tâche difficile en sous-tâches plus restreintes, qui peuvent être abordées plus facilement dans un aspect plus contraint.Un défi majeur dans le HRL est d'identifier une décomposition idéale de la tâche à long terme sous forme d'objectifs qu'un agent app
APA, Harvard, Vancouver, ISO, and other styles
32

Cocaul, Périclès. "Determination of autopilot control laws for launchers using model-free methods : from automatic to safe deep reinforcement learning approaches." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG088.

Full text
Abstract:
Les nouveaux défis posés par les missions spatiales et la conception de nouveaux lanceurs impliquent de mettre l'accent sur des stratégies de contrôle innovantes. Dans ce contexte, la gestion du mouvement des ergols liquides dans les réservoirs, connu sous le nom de "ballottements", constitue un défi majeur qui peut avoir un impact significatif sur la stabilité et le pilotage du lanceur. La complexité de ce phénomène rend laborieuse l'obtention d'une modélisation précise et donc d'une représentation complète du lanceur. De plus, certaines informations nécessaires à la formulation de ce modèle
APA, Harvard, Vancouver, ISO, and other styles
33

Léon, Aurélia. "Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS226.

Full text
Abstract:
Cette thèse s’intéresse à la notion de budget pour étudier des problèmes de complexité (complexité en calculs, tâche complexe pour un agent, ou complexité due à une faible quantité de données). En effet, l’objectif principal des techniques actuelles en apprentissage statistique est généralement d’obtenir les meilleures performances possibles, sans se soucier du coût de la tâche. La notion de budget permet de prendre en compte ce paramètre tout en conservant de bonnes performances. Nous nous concentrons d’abord sur des problèmes de classification en grand nombre de classes : la complexité en ca
APA, Harvard, Vancouver, ISO, and other styles
34

Daoudi, Paul. "Apprentissage par renforcement sur des systèmes réels : exploitation de différents contextes industriels." Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALT047.

Full text
Abstract:
Il existe dans l'industrie de nombreuses infrastructures requérant un contrôle complexe dont le rôle est crucial. Traditionnellement, ce problème est abordé par l'utilisation de méthodes d'automatique et de commande optimale. Celles-ci nécessitent d'avoir un modèle des dynamiques du système, qui peut être imprécis dans le cadre de systèmes complexes. L'apprentissage automatique propose une solution alternative à ce problème, où le modèle du système considéré s'obtient par extrapolation à partir de données entrées/sorties tout en étant agnostique à la physique sous-jacente du système. L'apprent
APA, Harvard, Vancouver, ISO, and other styles
35

Matheron, Guillaume. "Integrating motion planning into reinforcement learning to solve hard exploration problems." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS348.

Full text
Abstract:
Dans cette thèse, nous étudions les façons dont des techniques inspirées de la planification de mouvement peuvent accélérer la résolution de problèmes d'exploration difficile pour l'apprentissage par renforcement, sans sacrifier la généralisation ni les avantages de l'apprentissage sans modèle. Nous identifions une impasse qui peut advenir lors qu'on applique l'apprentissage par renforcement à des problèmes apparemment triviaux mais qui ont une récompense éparse. De plus, nous contribuons un algorithme d'exploration inspiré de la planification de mouvement mais conçu spécifiquement pour des en
APA, Harvard, Vancouver, ISO, and other styles
36

Kamienny, Pierre-Alexandre. "Efficient adaptation of reinforcement learning agents : from model-free exploration to symbolic world models." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS412.

Full text
Abstract:
L'apprentissage par renforcement (RL) est un ensemble de techniques utilisées pour former des agents autonomes à interagir avec des environnements de manière à maximiser leur récompense. Pour déployer avec succès ces agents dans des scénarios réels, il est crucial qu'ils puissent généraliser à des situations inconnues. Bien que les réseaux de neurones aient montré des résultats prometteurs en permettant aux agents d'interpoler des comportements souhaités, leurs limites en termes de généralisation au-delà de la distribution d'entraînement entraînent souvent des performances sous-optimales sur d
APA, Harvard, Vancouver, ISO, and other styles
37

Fruit, Ronan. "Exploration-exploitation dilemma in reinforcement learning under various form of prior knowledge." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I086.

Full text
Abstract:
Combinés à des réseaux de neurones profonds ("Deep Neural Networks"), certains algorithmes d'apprentissage par renforcement tels que "Q-learning" ou "Policy Gradient" sont désormais capables de battre les meilleurs joueurs humains à la plupart des jeux de console Atari ainsi qu'au jeu de Go. Malgré des résultats spectaculaires et très prometteurs, ces méthodes d'apprentissage par renforcement dit "profond" ("Deep Reinforcement Learning") requièrent un nombre considérable d'observations pour apprendre, limitant ainsi leur déploiement partout où l'obtention de nouveaux échantillons s'avère coûte
APA, Harvard, Vancouver, ISO, and other styles
38

Albilani, Mohamad. "Neuro-symbolic deep reinforcement learning for safe urban driving using low-cost sensors." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAS008.

Full text
Abstract:
La recherche effectuée dans cette thèse concerne le domaine de la conduite urbaine sûre, en utilisant des méthodes de fusion de capteurs et d'apprentissage par renforcement pour la perception et le contrôle des véhicules autonomes (VA). L'évolution généralisée des technologies d'apprentissage automatique ont principalement propulsé la prolifération des véhicules autonomes ces dernières années. Cependant, des progrès substantiels sont nécessaires avant d'atteindre une adoption généralisée par le grand public. Pour accomplir son automatisation, les véhicules autonomes nécessitent l'intégration d
APA, Harvard, Vancouver, ISO, and other styles
39

Elkael, Maxime. "Reinforcement learning and optimization for energy efficient 5G slicing with Quality of Service guarantees." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS015.

Full text
Abstract:
Cette thèse traite des problèmes d'allocation des ressources dans les réseaux 5G. Notre objectif est d'exploiter le slicing du réseau (c'est-à-dire un corpus de techniques basées sur la virtualisation et la softwarisation du réseau qui permettent à l'opérateur de fournir différentes quantités de ressources à différents clients) afin d'améliorer l'efficacité énergétique et la consommation de ressources des réseaux 5G, tout en respectant des contraintes de Qualité de Service. Pour ce faire, nous formulons et résolvons des problèmes d'optimisation dans les différents domaines du réseau : nous nou
APA, Harvard, Vancouver, ISO, and other styles
40

Khouzaimi, Hatim. "Turn-taking enhancement in spoken dialogue systems with reinforcement learning." Thesis, Avignon, 2016. http://www.theses.fr/2016AVIG0213/document.

Full text
Abstract:
Les systèmes de dialogue incrémentaux sont capables d’entamer le traitement des paroles de l’utilisateur au moment même où il les prononce (sans attendre de signal de fin de phrase tel un long silence par exemple). Ils peuvent ainsi prendre la parole à n’importe quel moment et l’utilisateur peut faire de même (et interrompre le système). De ce fait, ces systèmes permettent d’effectuer une plus large palette de comportements de prise de parole en comparaison avec les systèmes de dialogue traditionnels. Cette thèse s’articule autour de la problématique suivante : est-il possible pour un système
APA, Harvard, Vancouver, ISO, and other styles
41

Hêche, Félicien. "Risk-sensitive machine learning for emergency medical resource optimization and other applications." Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCD048.

Full text
Abstract:
L'augmentation significative de la demande de soins médicaux d'urgence au cours des dernières décennies exerce une pression considérable sur les Services d'Aide Médicale Urgente (SAMU), entraînant de nombreux effets indésirables. Motivée par les résultats remarquables obtenus par les algorithmes d'apprentissage automatique modernes, cette thèse explore initialement l'utilisation de ces modèles afin d'optimiser les ressources du SAMU dans l'espoir de relever certains défis auxquels ce système de santé est confronté. La première contribution de cette thèse consiste à introduire un nouvel algorit
APA, Harvard, Vancouver, ISO, and other styles
42

Bounhar, Abdelaziz. "Information theory and reinforcement learning of mixed covert and non-covert wireless networks." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT005.

Full text
Abstract:
Bien que les algorithmes de cryptographie garantissent la sécurité des données transmises, ils s'avèrent souvent inadaptés pour les dispositifs de l'Internet des objets (IoT) en raison de leurs capacités de traitement limitées et de leur autonomie restreinte. Face à ces défis, les techniques de sécurité couche physique, notamment les communications furtives, se présentent comme une solution prometteuse pour sécuriser les communications des IoT. Malgré son fort potentiel, la recherche actuelle sur les communications furtives s'est majoritairement concentrée sur des systèmes exclusivement compos
APA, Harvard, Vancouver, ISO, and other styles
43

Mesnard, Thomas. "Attribution de crédit pour l'apprentissage par renforcement dans des réseaux profonds." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAX155.

Full text
Abstract:
L'apprentissage profond par renforcement a été au cœur de nombreux résultats révolutionnaires en intelligence artificielle ces dernières années. Ces agents reposent sur des techniques d'attribution de crédit qui cherchent à établir des corrélations entre actions passées et événements futurs et utilisent ces corrélations pour devenir performants à une tâche. Ce problème est au cœur des limites actuelles de l'apprentissage par renforcement et les techniques d'attribution de crédit utilisées sont encore relativement rudimentaires et incapables de raisonnement inductif. Cette thèse se concentre do
APA, Harvard, Vancouver, ISO, and other styles
44

Dridi, Aicha. "A novel efficient time series deep learning approach using classification, prediction and reinforcement : energy and telecom use case." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS010.

Full text
Abstract:
La croissance massive des capteurs (température, humidité, accéléromètre, capteur de position) et des appareils mobiles (smartphones, tablettes, smartwatch …) fait que la quantité de données générées augmente de manière explosive. Cette immense quantité de données peut être collectée et gérée. Le travail réalisé durant cette thèse vise à proposer en un premier temps une approche qui traite un type de données spécifique qui sont les séries temporelles. Pour ce faire nous avons utilisé des méthodes de classification basées sur des réseaux de neurones convolutifs ainsi que des multi layer percept
APA, Harvard, Vancouver, ISO, and other styles
45

Hautot, Julien. "Représentation à base radiale pour l'apprentissage par renforcement visuel." Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2024. http://www.theses.fr/2024UCFA0093.

Full text
Abstract:
Ce travail de thèse s'inscrit dans le contexte de l'apprentissage par renforcement (Renforcement Learning - RL) à partir de données image. Contrairement à l'apprentissage supervisé qui permet d'effectuer différentes tâches telles que la classification, la régression ou encore la segmentation à partir d'une base de données annotée, le RL permet d'apprendre, sans base de données, via des interactions avec un environnement. En effet, dans ces méthodes, un agent tel qu'un robot va effectuer différentes actions afin d'explorer son environnement et de récupérer les données d'entraînement. L'entraîne
APA, Harvard, Vancouver, ISO, and other styles
46

Doanis, Pavlos. "A Deep Reinforcement Learning Framework for Scalable Slice Orchestration in Beyond 5G Networks." Electronic Thesis or Diss., Sorbonne université, 2024. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2024SORUS100.pdf.

Full text
Abstract:
Cette thèse présente un cadre flexible basé sur l'apprentissage par renforcement des files d'attente pour l'orchestration dynamique des tranches dans les réseaux Beyond 5G, prenant en charge de multiples tranches concurrentes qui couvrent différents domaines technologiques et sont régies par divers accords de niveau de service de bout en bout. Différentes méthodes d'apprentissage par renforcement profond (mono ou multi-agents) sont étudiées pour résoudre les problèmes de complexité d'état et d'action liés à ces problèmes combinatoires, qui rendent l'utilisation d'algorithmes d'apprentissage pa
APA, Harvard, Vancouver, ISO, and other styles
47

Paolo, Giuseppe. "Learning in Sparse Rewards setting through Quality Diversity algorithms." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS400.

Full text
Abstract:
Les agents incarnés, qu'ils soient naturels ou artificiels, peuvent apprendre à interagir avec l'environnement dans lequel ils se trouvent par un processus d'essais et d'erreurs. Ce processus peut être formalisé dans le cadre de l'apprentissage par renforcement, dans lequel l'agent effectue une action dans l'environnement et observe son résultat par le biais d'une observation et d'un signal de récompense. C'est le signal de récompense qui indique à l'agent la qualité de l'action effectuée par rapport à la tâche. Cela signifie que plus une récompense est donnée, plus il est facile d'améliorer l
APA, Harvard, Vancouver, ISO, and other styles
48

Chaffre, Thomas. "Reinforcement learning and sim-to-real transfer for adaptive control of AUV." Electronic Thesis or Diss., Brest, École nationale supérieure de techniques avancées Bretagne, 2022. http://www.theses.fr/2022ENTA0010.

Full text
Abstract:
Les pilotes automatiques pour systèmes sans pilote sont généralement conçus sur la base des retours fournis par les capteurs de vitesse et d'orientation. Dans le cas des systèmes de pilotage automatique pour véhicules sous-marins autonomes (AUV), l'objectif principal de la conception est de compenser les forces perturbatrices induites par les vagues et le courant agissant sur leur corps. Les pilotes automatiques AUV existants ne sont cependant capables de compenser que les composantes basse fréquence des perturbations induites par la mer. Il semble naturel de supposer que les performances de l
APA, Harvard, Vancouver, ISO, and other styles
49

Xia, Chen. "Apprentissage Intelligent des Robots Mobiles dans la Navigation Autonome." Thesis, Ecole centrale de Lille, 2015. http://www.theses.fr/2015ECLI0026/document.

Full text
Abstract:
Les robots modernes sont appelés à effectuer des opérations ou tâches complexes et la capacité de navigation autonome dans un environnement dynamique est un besoin essentiel pour les robots mobiles. Dans l’objectif de soulager de la fastidieuse tâche de préprogrammer un robot manuellement, cette thèse contribue à la conception de commande intelligente afin de réaliser l’apprentissage des robots mobiles durant la navigation autonome. D’abord, nous considérons l’apprentissage des robots via des démonstrations d’experts. Nous proposons d’utiliser un réseau de neurones pour apprendre hors-ligne un
APA, Harvard, Vancouver, ISO, and other styles
50

Najar, Anis. "Shaping robot behaviour with unlabeled human instructions." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066152.

Full text
Abstract:
La plupart des systèmes d'apprentissage interactifs actuels s'appuient sur des protocoles prédéfinis qui peuvent être contraignants pour l'utilisateur. Cette thèse aborde le problème de l'interprétation des instructions, afin de relâcher la contrainte de prédéterminer leurs significations. Nous proposons un système permettant à un humain de guider l'apprentissage d'un robot, à travers des instructions non labellisées. Notre approche consiste à ancrer la signification des signaux instructifs dans le processus d'apprentissage de la tâche et à les utiliser simultanément pour guider l'apprentissag
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!