Academic literature on the topic 'Apprentissage par renforcement distributionnel'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Apprentissage par renforcement distributionnel.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Apprentissage par renforcement distributionnel"

1

Griffon, L., M. Chennaoui, D. Leger, and M. Strauss. "Apprentissage par renforcement dans la narcolepsie de type 1." Médecine du Sommeil 15, no. 1 (2018): 60. http://dx.doi.org/10.1016/j.msom.2018.01.164.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Garcia, Pascal. "Exploration guidée en apprentissage par renforcement. Connaissancesa prioriet relaxation de contraintes." Revue d'intelligence artificielle 20, no. 2-3 (2006): 235–75. http://dx.doi.org/10.3166/ria.20.235-275.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Degris, Thomas, Olivier Sigaud, and Pierre-Henri Wuillemin. "Apprentissage par renforcement factorisé pour le comportement de personnages non joueurs." Revue d'intelligence artificielle 23, no. 2-3 (2009): 221–51. http://dx.doi.org/10.3166/ria.23.221-251.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Host, Shirley, and Nicolas Sabouret. "Apprentissage par renforcement d'actes de communication dans un système multi-agent." Revue d'intelligence artificielle 24, no. 2 (2010): 159–88. http://dx.doi.org/10.3166/ria.24.159-188.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Villatte, Matthieu, David Scholiers, and Esteve Freixa i Baqué. "Apprentissage du comportement optimal par exposition aux contingences dans le dilemme de Monty Hall." ACTA COMPORTAMENTALIA 12, no. 1 (2004): 5–24. http://dx.doi.org/10.32870/ac.v12i1.14548.

Full text
Abstract:
L'étude a pour objet le dilemme de Monty Hall, une situation de jugement de probabilités dans laquelle la très grande majorité des individus émet un comportement de choix non-optimal. Nous formulons l'hypothèse selon laquelle l'exposition répétée aux conséquences du comportement de choix va permettre l'apprentissage du comportement optimal. Trois conditions constituent l'expérience: une condition consistant en une procédure de renforcement positif, une condition consistant en une procédure de punition négative, et une condition consistant en une procédure de renforcement positif et de punition négative. L'ajout d'une valeur aversive en conséquence du choix non-optimal, ainsi que l'extension de la série d' essais à 100, devraient permettre une amélioration de J'efficacité de l'apprentissage par rapport aux études ayant précédemment employé des séries d' essais renforcés dans le dilemme de Monty Hall. Les résultats montrent que le taux de comportement optimal augmente avec la série d'essais, mais reste proche de 50 %. Aucune des trois conditions d'apprentissage ne se révèle plus efficace qu'une autre pour l'acquisition du choix optimal. L'hypothèse selon laquelle le comportement de choix des sujets serait gouverné par des règles verbales les rendant insensibles aux contingences changeantes est formulée.
APA, Harvard, Vancouver, ISO, and other styles
6

CHIALI, Ramzi. "Le texte littéraire comme référentiel préférentiel dans le renforcement de la compétence interculturelle en contexte institutionnel. Réflexion et dynamique didactique." Revue plurilingue : Études des Langues, Littératures et Cultures 7, no. 1 (2023): 70–78. http://dx.doi.org/10.46325/ellic.v7i1.99.

Full text
Abstract:
Cet article se positionne comme une réflexion quant aux différents aspects de la littérature proposés en classe de FLE. Dans ce sens, notre intérêt n’est point celui de considérer la littérature comme outil d’acquisition linguistique et de performance pédagogique, mais comme objet dans le traitement didactique en situation de renforcement des compétences à mobiliser par ces mêmes apprenants. Considérer la composante culturelle du texte dépend, ainsi, du besoin des apprenants en matière de compétence interculturelle, au-delà des compétences langagières. Force est de constater que l’enseignement des langues, en général, et des langues étrangères, en particulier, nécessiterait inconditionnellement, à des degrés divergents, une connaissance de la culture souche. Le processus d’enseignement/apprentissage, ainsi, focalisera sur un ensemble marqué par les différents aspects de la langue enseignée, ce qui mènerait nécessairement vers une acquisition optimale et efficace de la langue et de son utilisation dans des contextes de globalisation et de mondialisation.
APA, Harvard, Vancouver, ISO, and other styles
7

Altintas, Gulsun, and Isabelle Royer. "Renforcement de la résilience par un apprentissage post-crise : une étude longitudinale sur deux périodes de turbulence." M@n@gement 12, no. 4 (2009): 266. http://dx.doi.org/10.3917/mana.124.0266.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Dutech, Alain, and Manuel Samuelides. "Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés Apprendre une extension sélective du passé." Revue d'intelligence artificielle 17, no. 4 (2003): 559–89. http://dx.doi.org/10.3166/ria.17.559-589.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Liesen, Christian, and Marco G. P. Hessels. "Zur Brauchbarkeit der P-Scales für standardbasierte Kompetenzmessung in der Schweiz." Schweizerische Zeitschrift für Heilpädagogik, 2011 17, no. 10 (2011): 27——32. https://doi.org/10.5281/zenodo.5884350.

Full text
Abstract:
Standardisierung und sonderpädagogische Förderung – passt das zusammen? Instrumente wie die englischen P-Scales (vorgestellt in SZH Nr. 1/2008) bejahen das. Sie versprechen, den Lernstand entwicklungsbezogen zu erfassen und zu objektivieren. Eine deutsche Übersetzung wurde Lehrpersonen vorgelegt und sie wurden gebeten, die Brauchbarkeit einzuschätzen. Standardisation et renforcement de la pédagogie spécialisée – ces concepts sont-ils conciliables ? Des instruments, comme le « P-Scales » élaboré en Angleterre et présenté dans la revue en langue allemande N° 1/2008 du CSPS), l’affirment. Ces instruments promettent d’évaluer de manière objective les stades d’apprentissage par rapport au développement. Une traduction allemande a été proposée au corps enseignant qui est prié d’en analyser sa faisabilité.
APA, Harvard, Vancouver, ISO, and other styles
10

Scholiers, David, and Matthieu Villatte. "Comportement Non-optimal versus Illusion Cognitive." ACTA COMPORTAMENTALIA 11, no. 1 (2003): 5–17. http://dx.doi.org/10.32870/ac.v11i1.14611.

Full text
Abstract:
La question du comportement de choix en situation d'incertitude est sujette à controverse. Si en sciences cognitives les erreurs que peut commettre un individu sont le reflet d'une illusion irrépressible, la recherche en Analyse Expérimentale du Comportement appréhende le comportement non-optimal du point de vue de son acquisition. L'expérience reprend le principe d'un jeu où un sujet doit trouver une pièce cachée sous l'un des 3 gobelets qui lui sont présentés. Après un premier choix, un gobelet vide et non choisi est retiré. Le sujet peut alors conserver ou modifier son choix initial (probabilités respectives de gain égales à 1 / 3 et 2 /3). Généralement, les sujets considèrent que les deux stratégies sont équivalentes; ce qui constitue un comportement non-optimal. Afin d'identifier les variables qui maintiennent ce comportement et de tester s'il peut être modifié, on augmente le taux de renforcement du comportement optimal en faisant varier le nombre de gobelets de départ, la probabilité de gain de la stratégie «Modifier » augmentant avec le nombre de gobelets. Trois groupes indépendants sont répartis dans trois conditions expérimentales (3, 5 ou 10 gobelets) et sont confrontés à l'expérience directe par un comportement d'observation, puis par un comportement de choix. Les résultats montrent que plus le nombre de gobelets augmente, plus la stratégie « Modifier » est choisie. Ils permettent d'appuyer l'hypothèse selon laquelle le comportement non-optimal est le produit d'un apprentissage.
APA, Harvard, Vancouver, ISO, and other styles
More sources

Dissertations / Theses on the topic "Apprentissage par renforcement distributionnel"

1

Hêche, Félicien. "Risk-sensitive machine learning for emergency medical resource optimization and other applications." Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCD048.

Full text
Abstract:
L'augmentation significative de la demande de soins médicaux d'urgence au cours des dernières décennies exerce une pression considérable sur les Services d'Aide Médicale Urgente (SAMU), entraînant de nombreux effets indésirables. Motivée par les résultats remarquables obtenus par les algorithmes d'apprentissage automatique modernes, cette thèse explore initialement l'utilisation de ces modèles afin d'optimiser les ressources du SAMU dans l'espoir de relever certains défis auxquels ce système de santé est confronté. La première contribution de cette thèse consiste à introduire un nouvel algorithme d'apprentissage par renforcement, appelé Latent Offline Distributional Actor-Critic (LODAC), spécialement conçu pour satisfaire des critères clés visant à assurer une gestion sûre et efficace des ressources pré-hospitalières. Ensuite, plusieurs expériences sont menées afin d'identifier les variables essentielles à inclure dans notre représentation d'état. Les résultats montrent que le temps est le seul facteur influençant significativement l'occurrence des urgences. Ces expériences plaident pour l'utilisation de méthodes stochastiques plutôt que des algorithmes d'apprentissage automatique. Suite à cette conclusion, de nouvelles méthodes pour l'allocation et la relocalisation des ressources du SAMU, basées sur des processus de Poisson inhomogènes, sont developpées. Finalement, les résultats obtenus avec LODAC suggèrent le potentiel de l'apprentissage par renforcement distributionnel dans des environnements stochastiques complexes. Pour étudier ce potentiel plus en détail, la composante distributionnelle de LODAC est isolée et testée dans un autre contexte: le négoce de contrats à terme de gaz naturel. Les résultats obtenus confirment le potentiel des algorithms distributionnels dans de tels environnements<br>The significant increase in demand for emergency medical care over the last decades places considerable strain on Emergency Medical Services (EMS), leading to several undesirable effects. Motivated by the remarkable results obtained by modern Machine Learning (ML) algorithms, this thesis primarily explores the use of ML for optimizing EMS resources, aiming to address some of the challenges faced by this healthcare system. The first contribution of the thesis introduces a new Reinforcement Learning (RL) algorithm, called Latent Offline Distributional Actor-Critic (LODAC), specifically designed to satisfy key criteria essential for ensuring safe and effective behavior in the management of EMS resources. Following that, several experiments are conducted to identify the most important features that need to be incorporated into our state representation. Findings suggest that only the time significantly affects the occurrence of emergencies. These results argue for the use of stochastic methods rather than ML to optimize pre-hospital resources. Following these conclusions, new methods for EMS resource allocation and relocation based on inhomogeneous Poisson processes are developed. Finally, results obtained with LODAC suggest the potential of distributional RL in stochastic environments. To further investigate this avenue, we isolate the central distributional component of LODAC and conduct a series of experiments with this algorithm in another challenging stochastic context: natural gas futures trading. The outcomes of these experiments underscore the effectiveness of distributional RL in such environments
APA, Harvard, Vancouver, ISO, and other styles
2

Achab, Mastane. "Ranking and risk-aware reinforcement learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT020.

Full text
Abstract:
Les travaux de cette thèse se situent à l’interface de deux thématiques de l'apprentissage automatique : l’apprentissage de préférences d'une part, et l’apprentissage par renforcement de l'autre. La première consiste à percoler différents classements d’un même ensemble d’objets afin d’en extraire un ordre général, la seconde à identifier séquentiellement une stratégie optimale en observant des récompenses sanctionnant chaque action essayée. La structure de la thèse suit ce découpage thématique. En première partie, le paradigme de minimisation du risque empirique est utilisé à des fins d'ordonnancement. Partant du problème d’apprentissage supervisé de règles d’ordonnancement à partir de données étiquetées de façon binaire, une extension est proposée au cas où les étiquettes prennent des valeurs continues. Les critères de performance usuels dans le cas binaire, à savoir la courbe caractéristique de l’opérateur de réception (COR) et l’aire sous la courbe COR (ASC), sont étendus au cas continu : les métriques COR intégrée (CORI) et ASC intégrée (ASCI) sont introduites à cet effet. Le second problème d'ordonnancement étudié est celui de l'agrégation de classements à travers l'identification du consensus de Kemeny. En particulier, une relaxation au problème plus général de la réduction de la dimensionnalité dans l'espace des distributions sur le groupe symétrique est formulée à l'aide d'outils mathématiques empruntés à la théorie du transport optimal. La seconde partie de cette thèse s'intéresse à l'apprentissage par renforcement. Des problèmes de bandit manchot sont analysés dans des contextes où la performance moyenne n'est pas pertinente et où la gestion du risque prévaut. Enfin, le problème plus général de l'apprentissage par renforcement distributionnel, dans lequel le décideur cherche à connaître l'entière distribution de sa performance et non pas uniquement sa valeur moyenne, est considéré. De nouveaux opérateurs de programmation dynamique ainsi que leurs pendants atomiques mènent à de nouveaux algorithmes stochastiques distributionnels<br>This thesis divides into two parts: the first part is on ranking and the second on risk-aware reinforcement learning. While binary classification is the flagship application of empirical risk minimization (ERM), the main paradigm of machine learning, more challenging problems such as bipartite ranking can also be expressed through that setup. In bipartite ranking, the goal is to order, by means of scoring methods, all the elements of some feature space based on a training dataset composed of feature vectors with their binary labels. This thesis extends this setting to the continuous ranking problem, a variant where the labels are taking continuous values instead of being simply binary. The analysis of ranking data, initiated in the 18th century in the context of elections, has led to another ranking problem using ERM, namely ranking aggregation and more precisely the Kemeny's consensus approach. From a training dataset made of ranking data, such as permutations or pairwise comparisons, the goal is to find the single "median permutation" that best corresponds to a consensus order. We present a less drastic dimensionality reduction approach where a distribution on rankings is approximated by a simpler distribution, which is not necessarily reduced to a Dirac mass as in ranking aggregation.For that purpose, we rely on mathematical tools from the theory of optimal transport such as Wasserstein metrics. The second part of this thesis focuses on risk-aware versions of the stochastic multi-armed bandit problem and of reinforcement learning (RL), where an agent is interacting with a dynamic environment by taking actions and receiving rewards, the objective being to maximize the total payoff. In particular, a novel atomic distributional RL approach is provided: the distribution of the total payoff is approximated by particles that correspond to trimmed means
APA, Harvard, Vancouver, ISO, and other styles
3

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Full text
Abstract:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur<br>Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
APA, Harvard, Vancouver, ISO, and other styles
4

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008.

Full text
Abstract:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur<br>Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
APA, Harvard, Vancouver, ISO, and other styles
5

Kozlova, Olga. "Apprentissage par renforcement hiérarchique et factorisé." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00632968.

Full text
Abstract:
Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle.
APA, Harvard, Vancouver, ISO, and other styles
6

Filippi, Sarah. "Stratégies optimistes en apprentissage par renforcement." Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00551401.

Full text
Abstract:
Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art.
APA, Harvard, Vancouver, ISO, and other styles
7

Théro, Héloïse. "Contrôle, agentivité et apprentissage par renforcement." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE028/document.

Full text
Abstract:
Le sentiment d’agentivité est défini comme le sentiment de contrôler nos actions, et à travers elles, les évènements du monde extérieur. Cet ensemble phénoménologique dépend de notre capacité d’apprendre les contingences entre nos actions et leurs résultats, et un algorithme classique pour modéliser cela vient du domaine de l’apprentissage par renforcement. Dans cette thèse, nous avons utilisé l’approche de modélisation cognitive pour étudier l’interaction entre agentivité et apprentissage par renforcement. Tout d’abord, les participants réalisant une tâche d’apprentissage par renforcement tendent à avoir plus d’agentivité. Cet effet est logique, étant donné que l’apprentissage par renforcement consiste à associer une action volontaire et sa conséquence. Mais nous avons aussi découvert que l’agentivité influence l’apprentissage de deux manières. Le mode par défaut pour apprendre des contingences action-conséquence est que nos actions ont toujours un pouvoir causal. De plus, simplement choisir une action change l’apprentissage de sa conséquence. En conclusion, l’agentivité et l’apprentissage par renforcement, deux piliers de la psychologie humaine, sont fortement liés. Contrairement à des ordinateurs, les humains veulent être en contrôle, et faire les bons choix, ce qui biaise notre aquisition d’information<br>Sense of agency or subjective control can be defined by the feeling that we control our actions, and through them effects in the outside world. This cluster of experiences depend on the ability to learn action-outcome contingencies and a more classical algorithm to model this originates in the field of human reinforcementlearning. In this PhD thesis, we used the cognitive modeling approach to investigate further the interaction between perceived control and reinforcement learning. First, we saw that participants undergoing a reinforcement-learning task experienced higher agency; this influence of reinforcement learning on agency comes as no surprise, because reinforcement learning relies on linking a voluntary action and its outcome. But our results also suggest that agency influences reinforcement learning in two ways. We found that people learn actionoutcome contingencies based on a default assumption: their actions make a difference to the world. Finally, we also found that the mere fact of choosing freely shapes the learning processes following that decision. Our general conclusion is that agency and reinforcement learning, two fundamental fields of human psychology, are deeply intertwined. Contrary to machines, humans do care about being in control, or about making the right choice, and this results in integrating information in a one-sided way
APA, Harvard, Vancouver, ISO, and other styles
8

Munos, Rémi. "Apprentissage par renforcement, étude du cas continu." Paris, EHESS, 1997. http://www.theses.fr/1997EHESA021.

Full text
Abstract:
Le probleme aborde est comment concevoir des methodes permettant a des systemes artificiels d' << apprendre par l'experience >>, c'est a dire de resoudre une tache sans etre explicitement programme pour cela, mais seulement a partir du schema d'apprentissage : essais -> erreur ou succes ii s'agit de definir des methodes, sous forme d'algorithmes, permettant la modification des parametres internes du systeme afin de definir des prises de decisions pertinentes. L'approche developpee est celle de << l'apprentissage par renforcement >> qui se definit naturellement sous la forme d'un probleme de controle optimal pour lequel les donnees de la dynamique d'etat sont a priori (au moins partiellement) inconnues du systeme. Cette these est une etude formelle du cas ou l'espace des etats possibles ainsi que le temps auquel les decisions sont prises sont des variable continues ; la preoccupation majeure de ce travail etant l'etude de la convergences des methodes employees. Nous decrivons le formalisme du controle optimal et presentons la methode de la programmation dynamique : definition de la fonction valeur et enonce l'equation de hamiltonjacobi-bellman associee. Nous introduisons les notions desolutions de viscosite et decrivons des methodes d'approximation numeriques a partir de schemas convergents. Puis nous donnons un theoreme de convergence d'algorithmes bases sur les schemas precedents -ce qui represente la contribution majeure de ce travail. Ce theoreme fournit une methode tres generale pour concevoir des algorithmes d'apprentissage par renforcement convergents. Enfin nous illustrons la methode avec divers exemples d'algorithmes varies portant sur des dynamiques d'etat deterministes ou stochastiques, selon des methodes dites directes ou indirectes et a partir de schemas bases sur des methodes aux differences finies ou aux elements finis.
APA, Harvard, Vancouver, ISO, and other styles
9

Saulières, Léo. "Explication de l'apprentissage par renforcement." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES224.

Full text
Abstract:
S dernières années, les modèles issus de l'Intelligence Artificielle (IA) ont connu une progression impressionnante tant sur la précision de leurs résultats que sur l'amplitude de leurs applications. Cette progression s'explique en partie par l'utilisation de réseaux de neurones permettant de résoudre efficacement diverses tâches en se basant sur un ensemble de données. Les différentes avancées en IA prédictive (par opposition à l'IA analytique qui s'intéresse à la représentation des connaissances et à la formalisation du raisonnement) ont été mises au service de domaines variés comme l'agriculture, la médecine ou encore l'éducation. On remarque également que l'IA prédictive est de plus en plus présente dans notre vie de tous les jours, que cela soit pour de la recommandation de musique avec Spotify, de la génération d'image avec Midjourney ou encore de l'aide à la synthèse de réunion avec Leexi. Cette omniprésence entraîne un questionnement vis-à-vis de la régulation de ces modèles. Avec, entre autres, l'utilisation des réseaux de neurones, les modèles performants s'apparentent à des boîtes noires. L'emploi de ces modèles opaques pour des domaines à risque, tels que la médecine ou les véhicules autonomes, requiert un contrôle spécifique avant la mise à disposition aux utilisateurs. Ainsi, des institutions proposent de réglementer l'IA (par exemple, la Commission Européenne avec l'AI Act). Ces réglementations mettent en avant l'obligation de vérifier, expliquer et analyser les modèles opaques, particulièrement pour les applications à haut risque. De plus, l'utilisateur doit avoir le droit de demander des explications sur la prise de décision d'un modèle, comme le rejet d'attribution d'un prêt par une banque. Ce besoin de transparence a entraîné le développement de l'IA explicable (XAI), à savoir le domaine proposant des méthodes pour rendre les modèles d'IA moins opaque, voire transparent. Nous nous focalisons dans cette thèse sur l'explication d'un type d'IA appelé Apprentissage par Renforcement (RL), qui consiste à apprendre un comportement adéquat dans un environnement au travers d'essais-erreurs. L'agent (ou modèle d'IA) apprend à effectuer, depuis chaque état de l'environnement, une action optimale pour la réalisation d'une tâche spécifique. Cette thèse s'inscrit dans le domaine de l'Apprentissage par Renforcement explicable (XRL), un domaine en pleine expansion qui regroupe les méthodes d'explication du RL. Nos deux contributions majeures concernent la proposition d'une taxonomie originale de l'état de l'art du XRL et la création et l'analyse de 4 méthodes pour le XRL. Notre taxonomie catégorise les différentes méthodes du XRL par rapport à la cible de l'explication et à la manière de l'expliquer. Un nouvel environnement multi-agent de RL, intitulé 'Drone Coverage', a été implémenté pour tester nos méthodes. Celles-ci relèvent de deux catégories différentes selon notre taxonomie. Avec 'Scenario eXplanation' (SXp) et 'Expected States eXplanation' (ESX), nous expliquons l'action d'un agent effectuée depuis un état donné en fournissant des conséquences attendues. SXp résume le futur en 3 séquences d'état-action appelées scénarios. ESX compacte les états que l'agent peut atteindre à un certain horizon en un sous-objectif concis et représentatif. Avec 'History eXplanation based on Predicates' (HXP) et 'Backward-HXP' (B-HXP), nous expliquons une séquence d'état-action de l'agent en fournissant un ensemble d'éléments importants de cette séquence. HXP extrait d'une séquence d'état-action courte, les actions les plus importantes pour la réalisation d'un prédicat défini. A partir d'une séquence d'état-action longue, B-HXP fournit un ensemble de prédicats et actions importantes associées en procédant récursivement depuis la fin de la séquence<br>Over the past years, Artificial Intelligence (AI) models have steadily improved, particularly those using Machine Learning. This progress can be explained in part by the use of neural networks to efficiently solve various tasks based on a set of data. The various advances in AI have been applied to a wide range of areas, including agriculture, medicine and education. We can also see that AI is increasingly present in our everyday lives, whether for music recommendation with Spotify, image generation with Midjourney or meeting synthesis assistance with Leexi. This omnipresence raises questions about the regulation of these models. With, among other things, the use of neural networks, high-performance models are akin to black boxes. The use of these opaque models in high-risk areas such as medicine or autonomous vehicles requires specific controls before they are made available to users. Institutions are therefore proposing to regulate AI (for example, the European Commission with the AI Act). These regulations highlight the requirement to verify, explain and analyse opaque models, particularly for high-risk applications. In addition, the user must have the right to ask for explanations about the decision-making process of a model, such as the rejection of a bank loan. This need for transparency has led to the development of eXplainable AI (XAI), i.e. the research domain proposing methods for making AI models less opaque, or even transparent. In this thesis, we focus on the explanation of a type of AI called Reinforcement Learning (RL), which consists of learning appropriate behavior in an environment through trial and error. The agent (or AI model) learns to perform, from each state of the environment, an optimal action for achieving a specific task. This thesis is part of the domain of eXplainable Reinforcement Learning (XRL), a flourishing domain that brings together methods for explaining RL agents. Our two major contributions are the proposal of an original taxonomy of the state of the art of XRL and the development and analysis of 4 XRL methods. Our taxonomy categorises the various methods according to the target of the explanation and the way of explaining it. A new multi-agent RL environment, called Drone Coverage, has been implemented to test our methods. These are categorised according to our taxonomy, into two distinct types. With Scenario eXplanation (SXp) and Expected States eXplanation (ESX), we explain an agent's action from a given state by providing expected outcomes. SXp summarises the future in three state-action sequences called scenarios. ESX compacts the states that the agent can reach within a certain time horizon into a concise, representative sub-goal. With History eXplanation based on Predicates (HXP) and Backward-HXP (B-HXP), we explain an agent's state-action sequence by providing a set of important elements of that sequence. HXP extracts from a short state-action sequence the most important actions for the realisation of a defined predicate. B- HXP provides a set of predicates and associated important actions by proceeding recursively from the end of a long state-action sequence
APA, Harvard, Vancouver, ISO, and other styles
10

Lesner, Boris. "Planification et apprentissage par renforcement avec modèles d'actions compacts." Caen, 2011. http://www.theses.fr/2011CAEN2074.

Full text
Abstract:
Nous étudions les Processus de Décision Markoviens représentés de manière compacte via des langages de définition d'actions basés sur le langage STRIPS Probabiliste. Une première partie de ce travail traite de la résolution de ces processus de manière compacte. Pour cela nous proposons deux algorithmes. Un premier, basé sur la manipulation de formules propositionnelles, permet de résoudre de manière approchée les problèmes dans des fragments propositionnels traitables du type Horn ou 2-CNF. Le second algorithme quant à lui résout efficacement et de manière exacte les problèmes représentés en PDDL probabiliste via l'introduction d'une notion de fonction de valeur d'action étendue. La seconde partie concerne l'apprentissage de ces modèles d'actions. Nous proposons différentes méthodes pour résoudre le problème de l'ambiguïté des observations qui à lieu de lors de l'apprentissage. Une première méthode heuristique basée sur la programmation linéaire donne de bons résultats en pratique, mais sans garanties théoriques. Par la suite nous décrivons une méthode d'apprentissage dans le cadre « Know What It Knows ». Cette approche donne quant à elle des garanties théoriques sur la qualité des modèles d'actions appris ainsi que sur le nombre d'exemples requis pour obtenir un modèle d'actions correct. Ces deux approches sont ensuite incorporées dans un cadre d'apprentissage par renforcement pour une évaluation en pratique de leurs performances<br>We study Markovian Decision Processes represented with Probabilistic STRIPS action models. A first part of our work is about solving those processes in a compact way. To that end we propose two algorithms. A first one based on propositional formula manipulation allows to obtain approximate solutions in tractable propositional fragments such as Horn and 2-CNF. The second algorithm solves exactly and efficiently problems represented in PPDDL using a new notion of extended value functions. The second part is about learning such action models. We propose different approaches to solve the problem of ambiguous observations occurring while learning. Firstly, a heuristic method based on Linear Programming gives good results in practice yet without theoretical guarantees. We next describe a learning algorithm in the ``Know What It Knows'' framework. This approach gives strong theoretical guarantees on the quality of the learned models as well on the sample complexity. These two approaches are then put into a Reinforcement Learning setting to allow an empirical evaluation of their respective performances
APA, Harvard, Vancouver, ISO, and other styles
More sources

Books on the topic "Apprentissage par renforcement distributionnel"

1

Sutton, Richard S. Reinforcement learning: An introduction. MIT Press, 1998.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
2

Ontario. Esquisse de cours 12e année: Sciences de l'activité physique pse4u cours préuniversitaire. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
3

Ontario. Esquisse de cours 12e année: Technologie de l'information en affaires btx4e cours préemploi. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
4

Ontario. Esquisse de cours 12e année: Études informatiques ics4m cours préuniversitaire. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
5

Ontario. Esquisse de cours 12e année: Mathématiques de la technologie au collège mct4c cours précollégial. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
6

Ontario. Esquisse de cours 12e année: Sciences snc4m cours préuniversitaire. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
7

Ontario. Esquisse de cours 12e année: English eae4e cours préemploi. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
8

Ontario. Esquisse de cours 12e année: Le Canada et le monde: une analyse géographique cgw4u cours préuniversitaire. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
9

Ontario. Esquisse de cours 12e année: Environnement et gestion des ressources cgr4e cours préemploi. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
10

Ontario. Esquisse de cours 12e année: Histoire de l'Occident et du monde chy4c cours précollégial. CFORP, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
More sources

Book chapters on the topic "Apprentissage par renforcement distributionnel"

1

Tazdaït, Tarik, and Rabia Nessah. "5. Vote et apprentissage par renforcement." In Le paradoxe du vote. Éditions de l’École des hautes études en sciences sociales, 2013. http://dx.doi.org/10.4000/books.editionsehess.1931.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

BENDELLA, Mohammed Salih, and Badr BENMAMMAR. "Impact de la radio cognitive sur le green networking : approche par apprentissage par renforcement." In Gestion du niveau de service dans les environnements émergents. ISTE Group, 2020. http://dx.doi.org/10.51926/iste.9002.ch8.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Reports on the topic "Apprentissage par renforcement distributionnel"

1

Melloni, Gian. Le leadership des autorités locales en matière d'assainissement et d'hygiène : expériences et apprentissage de l'Afrique de l'Ouest. Institute of Development Studies (IDS), 2022. http://dx.doi.org/10.19088/slh.2022.002.

Full text
Abstract:
Entre juillet et octobre 2021, la Sanitation Learning Hub a travaillé avec des représentants des pouvoirs publics et des partenaires de développement pour mettre au point, diffuser et analyser des études de cas qui se penchaient sur le renforcement des autorités et des systèmes locaux dans quatre zones locales à travers l’Afrique de l’Ouest : au Bénin (commune de N’Dali), au Ghana (district municipal de Yendi), en Guinée (commune de Molota) et au Nigéria (circonscription de Logo). Cette note d’apprentissage partage les leçons apprises et les recommandations dégagés des études de cas et des trois ateliers participatifs qui ont suivi. Une version initiale de cette note a été révisée par les participants à l’initiative. Les premières sections décrivent les principales parties prenantes et les actions des autorités locales en matière d’HA ; ensuite l’étude se concentre sur les leviers et les obstacles au changement, avant de formuler des recommandations.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!