Relevant bibliographies by topics / Apprentissage par renforcement profond

Journal articles
Dissertations / Theses
Books
Book chapters
Conference papers
Reports

Academic literature on the topic 'Apprentissage par renforcement profond'

Author: Grafiati

Published: 4 June 2021

Last updated: 14 September 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Apprentissage par renforcement profond.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Apprentissage par renforcement profond"

Griffon, L., M. Chennaoui, D. Leger, and M. Strauss. "Apprentissage par renforcement dans la narcolepsie de type 1." Médecine du Sommeil 15, no. 1 (March 2018): 60. http://dx.doi.org/10.1016/j.msom.2018.01.164.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Fillières-Riveau, Gauthier, Jean-Marie Favreau, Vincent Barra, and Guillaume Touya. "Génération de cartes tactiles photoréalistes pour personnes déficientes visuelles par apprentissage profond." Revue Internationale de Géomatique 30, no. 1-2 (January 2020): 105–26. http://dx.doi.org/10.3166/rig.2020.00104.

Full text

Abstract:

Les cartes tactiles photoréalistes sont un des outils mobilisés par les personnes en situation de déficience visuelle pour appréhender leur environnement urbain proche, notamment dans le cadre de la mobilité, pour la traversée de carrefours par exemple. Ces cartes sont aujourd’hui principalement fabriquées artisanalement. Dans cet article, nous proposons une approche permettant de produire une segmentation sémantique d’une imagerie aérienne de précision, étape centrale de cette fabrication. Les différents éléments d’intérêt tels que trottoirs, passages piétons, ou îlots centraux sont ainsi localisés et tracés dans l’espace urbain. Nous présentons en particulier comment l’augmentation de cette imagerie par des données vectorielles issues d’OpenStreetMap permet d’obtenir par une technique d’apprentissage profond (réseau adverse génératif conditionnel) des résultats significatifs. Après avoir présenté les enjeux de ce travail et un état de l’art des techniques existantes, nous détaillons l’approche proposée, et nous étudions les résultats obtenus, en comparant en particulier les segmentations obtenues sans et avec enrichissement par données vectorielles. Les résultats sont très prometteurs.

APA, Harvard, Vancouver, ISO, and other styles

Garcia, Pascal. "Exploration guidée en apprentissage par renforcement. Connaissancesa prioriet relaxation de contraintes." Revue d'intelligence artificielle 20, no. 2-3 (June 1, 2006): 235–75. http://dx.doi.org/10.3166/ria.20.235-275.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Degris, Thomas, Olivier Sigaud, and Pierre-Henri Wuillemin. "Apprentissage par renforcement factorisé pour le comportement de personnages non joueurs." Revue d'intelligence artificielle 23, no. 2-3 (May 13, 2009): 221–51. http://dx.doi.org/10.3166/ria.23.221-251.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Host, Shirley, and Nicolas Sabouret. "Apprentissage par renforcement d'actes de communication dans un système multi-agent." Revue d'intelligence artificielle 24, no. 2 (April 17, 2010): 159–88. http://dx.doi.org/10.3166/ria.24.159-188.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Pouliquen, Geoffroy, and Catherine Oppenheim. "Débruitage par apprentissage profond: impact sur les biomarqueurs quantitatifs des tumeurs cérébrales." Journal of Neuroradiology 49, no. 2 (March 2022): 136. http://dx.doi.org/10.1016/j.neurad.2022.01.040.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Villatte, Matthieu, David Scholiers, and Esteve Freixa i Baqué. "Apprentissage du comportement optimal par exposition aux contingences dans le dilemme de Monty Hall." ACTA COMPORTAMENTALIA 12, no. 1 (June 1, 2004): 5–24. http://dx.doi.org/10.32870/ac.v12i1.14548.

Full text

Abstract:

L'étude a pour objet le dilemme de Monty Hall, une situation de jugement de probabilités dans laquelle la très grande majorité des individus émet un comportement de choix non-optimal. Nous formulons l'hypothèse selon laquelle l'exposition répétée aux conséquences du comportement de choix va permettre l'apprentissage du comportement optimal. Trois conditions constituent l'expérience: une condition consistant en une procédure de renforcement positif, une condition consistant en une procédure de punition négative, et une condition consistant en une procédure de renforcement positif et de punition négative. L'ajout d'une valeur aversive en conséquence du choix non-optimal, ainsi que l'extension de la série d' essais à 100, devraient permettre une amélioration de J'efficacité de l'apprentissage par rapport aux études ayant précédemment employé des séries d' essais renforcés dans le dilemme de Monty Hall. Les résultats montrent que le taux de comportement optimal augmente avec la série d'essais, mais reste proche de 50 %. Aucune des trois conditions d'apprentissage ne se révèle plus efficace qu'une autre pour l'acquisition du choix optimal. L'hypothèse selon laquelle le comportement de choix des sujets serait gouverné par des règles verbales les rendant insensibles aux contingences changeantes est formulée.

APA, Harvard, Vancouver, ISO, and other styles

Fouquet, Guillaume. "60 ans démunis devant 30 ans !" Gestalt 59, no. 2 (July 7, 2023): 103–14. http://dx.doi.org/10.3917/gest.059.0103.

Full text

Abstract:

L’intensité face à la durée amène le thérapeute à regarder comment résonne pour lui, senior en âge, l’urgence vitale de sa cliente de 30 ans. Thérapeute, je pense ma cliente, comment est-ce que je prends le temps de me penser moi-même ? Devant l’urgence ressentie par la cliente, quelles sont mes ressources ? Comment agit cette perception différenciée du temps ? Dans quel apprentissage ma cliente m’emmène-t-elle ? Ces questions sont examinées à travers la centration, l’alignement au soi profond et les enjeux des cycles des âges.

APA, Harvard, Vancouver, ISO, and other styles

Caccamo, Emmanuelle, and Fabien Richert. "Les procédés algorithmiques au prisme des approches sémiotiques." Cygne noir, no. 7 (June 1, 2022): 1–16. http://dx.doi.org/10.7202/1089327ar.

Full text

Abstract:

Assistants virtuels, objets connectés, intelligence artificielle, données massives, apprentissage machine ou apprentissage profond ; nul jour sans que les journaux ne rapportent une nouvelle spectaculaire sur les technologies algorithmiques dites « intelligentes ». Aucune activité humaine ou presque ne semble échapper à la mainmise algorithmique et à la volonté de contrôle sans limite qu’elle traduit. Ce constat sur l’emprise des technologies algorithmiques sur nos vies n’est pas nouveau, mais nous avons souhaité le transmuer en enquête en consacrant un numéro du Cygne noir à l’exploration des liens entre sémiotique et procédés algorithmiques. Relevant tantôt de la sémiotique théorique, tantôt de la sémiotique appliquée, les textes ici rassemblés travaillent à leur façon ces rapports. Ce dossier témoigne de la manière dont la sémiotique continue d’étonner par sa capacité de renouvellement conceptuel, par sa force de saisie d’objets toujours nouveaux et par sa disposition épistémologique à se « suturer » à de nombreux cadres théoriques. Il réaffirme en dernier lieu à quel point la sémiotique peut tenir un rôle éminemment critique et démystifiant, à contre-pied de la technolâtrie dominant l’espace social, dans un contexte marqué par une numérisation toujours plus croissante des activités humaines et sociales.

APA, Harvard, Vancouver, ISO, and other styles

Choplin, Arnaud, and Julie Laporte. "Comparaison de deux stratégies pédagogiques dans l’apprentissage du toucher thérapeutique." Revue des sciences de l’éducation 42, no. 3 (June 7, 2017): 187–210. http://dx.doi.org/10.7202/1040089ar.

Full text

Abstract:

L’objectif de cet article est de montrer que la performance pédagogique est à l’origine de modifications des pratiques professionnelles massothérapiques dans la prise en charge de la douleur fibromyalgique. Deux méthodologies quantitatives retracent le versant pédagogique. D’une part, un questionnaire montre de façon statistiquement significatif une déficience d’habiletés lors du démarrage palpatoire et lors de la palpation d’un élément précis et profond ; d’autre part, une étude expérimentale montre qu’une pédagogie par imitation modélisation-interactive est plus performante qu’un apprentissage behavioriste sur l’appropriation d’habiletés palpatoires. Un tel résultat est significatif (p < 1 %) dans l’acquisition de cinq habiletés sur six, et ce, indépendamment du genre et des connaissances théoriques anatomiques préalables. En conclusion, cette pédagogique est contributive à la performance d’un massage, base du traitement non médicamenteux de la douleur chronique de patients fibromyalgiques.

APA, Harvard, Vancouver, ISO, and other styles

More sources

Dissertations / Theses on the topic "Apprentissage par renforcement profond"

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Full text

Abstract:

L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur
Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space

APA, Harvard, Vancouver, ISO, and other styles

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008.

Full text

Abstract:

APA, Harvard, Vancouver, ISO, and other styles

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Full text

Abstract:

La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent
Early classification (EC) of time series is a recent research topic in the field of sequential data analysis. It consists in assigning a label to some data that is sequentially collected with new data points arriving over time, and the prediction of a label has to be made using as few data points as possible in the sequence. The EC problem is of paramount importance for supporting decision makers in many real-world applications, ranging from process control to fraud detection. It is particularly interesting for applications concerned with the costs induced by the acquisition of data points, or for applications which seek for rapid label prediction in order to take early actions. This is for example the case in the field of health, where it is necessary to provide a medical diagnosis as soon as possible from the sequence of medical observations collected over time. Another example is predictive maintenance with the objective to anticipate the breakdown of a machine from its sensor signals. In this doctoral work, we developed a new approach for this problem, based on the formulation of a sequential decision making problem, that is the EC model has to decide between classifying an incomplete sequence or delaying the prediction to collect additional data points. Specifically, we described this problem as a Partially Observable Markov Decision Process noted EC-POMDP. The approach consists in training an EC agent with Deep Reinforcement Learning (DRL) in an environment characterized by the EC-POMDP. The main motivation for this approach was to offer an end-to-end model for EC which is able to simultaneously learn optimal patterns in the sequences for classification and optimal strategic decisions for the time of prediction. Also, the method allows to set the importance of time against accuracy of the classification in the definition of rewards, according to the application and its willingness to make this compromise. In order to solve the EC-POMDP and model the policy of the EC agent, we applied an existing DRL algorithm, the Double Deep-Q-Network algorithm, whose general principle is to update the policy of the agent during training episodes, using a replay memory of past experiences. We showed that the application of the original algorithm to the EC problem lead to imbalanced memory issues which can weaken the training of the agent. Consequently, to cope with those issues and offer a more robust training of the agent, we adapted the algorithm to the EC-POMDP specificities and we introduced strategies of memory management and episode management. In experiments, we showed that these contributions improved the performance of the agent over the original algorithm, and that we were able to train an EC agent which compromised between speed and accuracy, on each sequence individually. We were also able to train EC agents on public datasets for which we have no expertise, showing that the method is applicable to various domains. Finally, we proposed some strategies to interpret the decisions of the agent, validate or reject them. In experiments, we showed how these solutions can help gain insight in the choice of action made by the agent

APA, Harvard, Vancouver, ISO, and other styles

Paumard, Marie-Morgane. "Résolution automatique de puzzles par apprentissage profond." Thesis, CY Cergy Paris Université, 2020. http://www.theses.fr/2020CYUN1067.

Full text

Abstract:

L’objectif de cette thèse est de développer des méthodes sémantiques de réassemblage dans le cadre compliqué des collections patrimoniales, où certains blocs sont érodés ou manquants.Le remontage de vestiges archéologiques est une tâche importante pour les sciences du patrimoine : il permet d’améliorer la compréhension et la conservation des vestiges et artefacts anciens. Certains ensembles de fragments ne peuvent être réassemblés grâce aux techniques utilisant les informations de contour et les continuités visuelles. Il est alors nécessaire d’extraire les informations sémantiques des fragments et de les interpréter. Ces tâches peuvent être accomplies automatiquement grâce aux techniques d’apprentissage profond couplées à un solveur, c’est-à-dire un algorithme de prise de décision sous contraintes.Cette thèse propose deux méthodes de réassemblage sémantique pour fragments 2D avec érosion, ainsi qu’un jeu de données et des métriques d’évaluation.La première méthode, Deepzzle, propose un réseau de neurones auquel succède un solveur. Le réseau de neurones est composé de deux réseaux convolutionnels siamois entraînés à prédire la position relative de deux fragments : il s'agit d'une classification à 9 classes. Le solveur utilise l’algorithme de Dijkstra pour maximiser la probabilité jointe. Deepzzle peut résoudre le cas de fragments manquants et surnuméraires, est capable de traiter une quinzaine de fragments par puzzle, et présente des performances supérieures à l’état de l’art de 25%.La deuxième méthode, Alphazzle, s’inspire d’AlphaZero et de recherche arborescente Monte Carlo (MCTS) à un joueur. Il s’agit d’une méthode itérative d’apprentissage profond par renforcement : à chaque étape, on place un fragment sur le réassemblage en cours. Deux réseaux de neurones guident le MCTS : un prédicteur d’action, qui utilise le fragment et le réassemblage en cours pour proposer une stratégie, et un évaluateur, qui est entraîné à prédire la qualité du résultat futur à partir du réassemblage en cours. Alphazzle prend en compte les relations entre tous les fragments et s’adapte à des puzzles de taille supérieure à ceux résolus par Deepzzle. Par ailleurs, Alphazzle se place dans le cadre patrimonial : en fin de réassemblage, le MCTS n’accède pas à la récompense, contrairement à AlphaZero. En effet, la récompense, qui indique si un puzzle est bien résolu ou non, ne peut être qu’estimée par l’algorithme, car seul un conservateur peut être certain de la qualité d’un réassemblage
The objective of this thesis is to develop semantic methods of reassembly in the complicated framework of heritage collections, where some blocks are eroded or missing.The reassembly of archaeological remains is an important task for heritage sciences: it allows to improve the understanding and conservation of ancient vestiges and artifacts. However, some sets of fragments cannot be reassembled with techniques using contour information or visual continuities. It is then necessary to extract semantic information from the fragments and to interpret them. These tasks can be performed automatically thanks to deep learning techniques coupled with a solver, i.e., a constrained decision making algorithm.This thesis proposes two semantic reassembly methods for 2D fragments with erosion and a new dataset and evaluation metrics.The first method, Deepzzle, proposes a neural network followed by a solver. The neural network is composed of two Siamese convolutional networks trained to predict the relative position of two fragments: it is a 9-class classification. The solver uses Dijkstra's algorithm to maximize the joint probability. Deepzzle can address the case of missing and supernumerary fragments, is capable of processing about 15 fragments per puzzle, and has a performance that is 25% better than the state of the art.The second method, Alphazzle, is based on AlphaZero and single-player Monte Carlo Tree Search (MCTS). It is an iterative method that uses deep reinforcement learning: at each step, a fragment is placed on the current reassembly. Two neural networks guide MCTS: an action predictor, which uses the fragment and the current reassembly to propose a strategy, and an evaluator, which is trained to predict the quality of the future result from the current reassembly. Alphazzle takes into account the relationships between all fragments and adapts to puzzles larger than those solved by Deepzzle. Moreover, Alphazzle is compatible with constraints imposed by a heritage framework: at the end of reassembly, MCTS does not access the reward, unlike AlphaZero. Indeed, the reward, which indicates if a puzzle is well solved or not, can only be estimated by the algorithm, because only a conservator can be sure of the quality of a reassembly

APA, Harvard, Vancouver, ISO, and other styles

Jneid, Khoder. "Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM062.

Full text

Abstract:

Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette construction initiale de modèle est coûteuse et il est difficile de maintenir ces modèles au cours de la vie du bâtiment. Au cours de la thèse, nous étudions l'apprentissage par renforcement (RL) pour optimiser la consommation d'énergie des systèmes CVC tout en maintenant un bon confort thermique et une bonne qualité de l'air. Plus précisément, nous nous concentrons sur les algorithmes d'apprentissage par renforcement sans modèle qui apprennent en interagissant avec l'environnement (le bâtiment, y compris le système CVC) et qui ne nécessitent donc pas de modèles précis de celui-ci. En outre, les approches en ligne sont prises en compte. Le principal défi d'un RL sans modèle en ligne est le nombre de jours nécessaires à l'algorithme pour acquérir suffisamment de données et de retours d'actions pour commencer à agir correctement. L'objectif de cette thèse est d'accélérer l'apprentissage les algorithmes RL sans modèle pour converger plus rapidement afin de les rendre applicables dans les applications du monde réel, le contrôle du chauffage, de la ventilation et de la climatisation. Deux approches ont été explorées au cours de la thèse pour atteindre notre objectif : la première approche combine la RBC avec la RL basé sur la valeur, et la seconde approche combine les règles floues avec le RL basé sur la politique. La première approche exploite les règles RBC pendant l'apprentissage, tandis que dans la seconde, les règles floues sont injectées directement dans la politique. Les tests sont effectués sur un bureau simulé, réplique d'un bureau réeel dans le bâtiment de Grenoble INP pendant la période hivernale
Heating, ventilation, and air-conditioning (HVAC) systems account for high energy consumption in buildings. Conventional approaches used to control HVAC systems rely on rule-based control (RBC) that consists of predefined rules set by an expert. Model-predictive control (MPC), widely explored in literature, is not adopted in the industry since it is a model-based approach that requires to build models of the building at the first stage to be used in the optimization phase and thus is time-consuming and expensive. During the PhD, we investigate reinforcement learning (RL) to optimize the energy consumption of HVAC systems while maintaining good thermal comfort and good air quality. Specifically, we focus on model-free RL algorithms that learn through interaction with the environment (building including the HVAC) and thus not requiring to have accurate models of the environment. In addition, online approaches are considered. The main challenge of an online model-free RL is the number of days that are necessary for the algorithm to acquire enough data and actions feedback to start acting properly. Hence, the research subject of the PhD is boosting model-free RL algorithms to converge faster to make them applicable in real-world applications, HVAC control. Two approaches have been explored during the PhD to achieve our objective: the first approach combines RBC with value-based RL, and the second approach combines fuzzy rules with policy-based RL. Both approaches aim to boost the convergence of RL by guiding the RL policy but they are completely different. The first approach exploits RBC rules during training while in the second approach, the fuzzy rules are injected directly into the policy. Tests areperformed on a simulated office during winter. This simulated office is a replica of a real office at Grenoble INP

APA, Harvard, Vancouver, ISO, and other styles

Léon, Aurélia. "Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS226.

Full text

Abstract:

Cette thèse s’intéresse à la notion de budget pour étudier des problèmes de complexité (complexité en calculs, tâche complexe pour un agent, ou complexité due à une faible quantité de données). En effet, l’objectif principal des techniques actuelles en apprentissage statistique est généralement d’obtenir les meilleures performances possibles, sans se soucier du coût de la tâche. La notion de budget permet de prendre en compte ce paramètre tout en conservant de bonnes performances. Nous nous concentrons d’abord sur des problèmes de classification en grand nombre de classes : la complexité en calcul des algorithmes peut être réduite grâce à l’utilisation d’arbres de décision (ici appris grâce à des techniques d’apprentissage par renforcement budgétisées) ou à l’association de chaque classe à un code (binaire). Nous nous intéressons ensuite aux problèmes d’apprentissage par renforcement et à la découverte d’une hiérarchie qui décompose une tâche en plusieurs tâches plus simples, afin de faciliter l’apprentissage et la généralisation. Cette découverte se fait ici en réduisant l’effort cognitif de l’agent (considéré dans ce travail comme équivalent à la récupération et à l’utilisation d’une observation supplémentaire). Enfin, nous abordons des problèmes de compréhension et de génération d’instructions en langage naturel, où les données sont disponibles en faible quantité : nous testons dans ce but l’utilisation jointe d’un agent qui comprend et d’un agent qui génère les instructions
This thesis deals with the notion of budget to study problems of complexity (it can be computational complexity, a complex task for an agent, or complexity due to a small amount of data). Indeed, the main goal of current techniques in machine learning is usually to obtain the best accuracy, without worrying about the cost of the task. The concept of budget makes it possible to take into account this parameter while maintaining good performances. We first focus on classification problems with a large number of classes: the complexity in those algorithms can be reduced thanks to the use of decision trees (here learned through budgeted reinforcement learning techniques) or the association of each class with a (binary) code. We then deal with reinforcement learning problems and the discovery of a hierarchy that breaks down a (complex) task into simpler tasks to facilitate learning and generalization. Here, this discovery is done by reducing the cognitive effort of the agent (considered in this work as equivalent to the use of an additional observation). Finally, we address problems of understanding and generating instructions in natural language, where data are available in small quantities: we test for this purpose the simultaneous use of an agent that understands and of an agent that generates the instructions

APA, Harvard, Vancouver, ISO, and other styles

Younes, Mohamed. "Apprentissage et stimulation des stratégies de sport (boxe) pour l'entraînement en réalité virtuelle." Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS014.

Full text

Abstract:

Cette thèse étudie l’extraction et la simulation des interactions entre combattants, principalement pour la boxe, en utilisant des techniques d’apprentissage profond : l’estimation du mouvement humain à partir de vidéos, l’apprentissage par imitation basé sur l’apprentissage par renforcement, et la simulation de personnages basée sur la physique. Dans le contexte de l’analyse sportive à partir de vidéos, un protocole de référence est proposé dans lequel diverses méthodes contemporaines d’extraction de poses humaines en 2D sont évaluées pour leur précision à dériver des informations positionnelles à partir d’enregistrements vidéo RVB de boxeurs lors de mouvements complexes et dans des circonstances de tournage défavorables. Dans une deuxième partie, la thèse se concentre sur la reproduction d’interactions réalistes entre boxeurs à partir de données de mouvement et d’interaction grâce à une méthodologie innovante permettant d’imiter les interactions et les mouvements de plusieurs personnages simulés physiquement à partir de données de capture de mouvement non organisées. Initialement, cette technique a été démontrée pour simuler une boxe légère entre deux combattants sans contact physique significatif. Par la suite, elle a été étendue pour prendre en compte des données d’interaction supplémentaires concernant la boxe avec du contact physique réel et d’autres activités de combat, ainsi que pour gérer les instructions de l’utilisateur et les restrictions d’interaction
This thesis investigates the extraction and simulation of fighter interactions, mainly for boxing, by utilizing deep learning techniques: human motion estimation from videos, reinforcement learning-based imitation learning, and physics-based character simulation. In the context of sport analysis from videos, a benchmark protocol is proposed where various contemporary 2D human pose extraction methods are evaluated for their precision in deriving positional information from RGB video recordings of boxers during complex movements and unfavorable filming circumstances. In a second part, the thesis focuses on replicating realistic fighter interactions given motion and interaction data through an innovative methodology for imitating interactions and motions among multiple physically simulated characters derived from unorganized motion capture data. Initially, this technique was demonstrated for simulating light shadow-boxing between two fighters without significant physical contact. Subsequently, it was expanded to accommodate additional interaction data featuring boxing with actual physical contact and other combat activities, along with handling user instructions and interaction restrictions

APA, Harvard, Vancouver, ISO, and other styles

Israilov, Sardor. "De l'identification basée apprentissage profond à la commande basée modèle." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4003.

Full text

Abstract:

La nage des poissons reste un sujet complexe qui n'est pas encore totalement compris en raison de son aspect interdisciplinaire qui mêle la biologie et dynamique des fluides. Au fil des millénaires, les organismes naturels ont perfectionné leur biologie pour naviguer efficacement dans leur environnement et s'adapter à tout type de situations. Tout au long de l'histoire, l'humanité s'est inspirée de la nature pour innover et développer des systèmes biomimétiques. Le poisson robotique, en particulier, trouve nombres d'applications dans le monde réel et son contrôle doit encore être optimisé. L'apprentissage par renforcement profond a donné d'excellents résultats dans le contrôle des systèmes robotiques, dont la dynamique est trop complexe pour être entièrement modélisée et analysée. Dans cette thèse, nous avons exploré de nouvelles voies de contrôle d'un poisson biomimétique via l'apprentissage par renforcement afin de maximiser efficacement la force de poussée et la vitesse de déplacement. Cependant, pour comprendre pleinement ces nouveaux algorithmes basés sur les données, nous avons d'abord étudié l'application de ces méthodes sur une référence standard de la théorie du contrôle, le pendule inversé sur un chariot. Nous avons démontré que l'apprentissage par renforcement profond pouvait contrôler le système sans aucune connaissance préalable du système, en obtenant des performances comparables aux méthodes traditionnelles de la théorie du contrôle basée sur un modèle. Dans le troisième chapitre, nous nous concentrons sur la nage ondulatoire d'un poisson robotique avec différents objectifs et sources d'information de contrôle. Nos études indiquent que la force de poussée d'un poisson robotique peut être optimisée en utilisant des données provenant à la fois de capteurs de force et d'une caméra comme retour d'information pour la commande. Nos résultats démontrent qu'une commande carrée avec une fréquence particulière maximise la poussée et nous la rationalisons en utilisant le principe du maximum de Pontryagin. Un modèle approprié est établi qui montre un excellent accord entre la simulation et les résultats expérimentaux. Ensuite, nous nous concentrons sur la maximisation de la vitesse d'un poisson robotique à la fois dans plusieurs environnements virtuels et dans des expériences utilisant des données visuelles
Fish swimming remains a complex subject that is not yet fully understood due to the inter-section of biology and fluid dynamics. Through years of evolution, organisms in nature have perfected their biological mechanisms to navigate efficiently in their environment and adaptto particular situations. Throughout history, mankind has been inspired by nature to innovateand develop nature-like systems. Biomimetic robotic fish, in particular, has a number of appli-cations in the real world and its control is yet to be optimized. Deep Reinforcement Learning showed excellent results in control of robotic systems, where dynamics is too complex to befully modeled and analyzed. In this thesis, we explored new venues of control of a biomimetic fish via reinforcement learning to effectively maximize the thrust and speed. However, to fully comprehend the newly-emerged data-based algorithms, we first studied the application of these methods on a standard benchmark of a control theory, the inverted pendulum with a cart. We demonstrated that deep Reinforcement Learning could control the system without any prior knowledge of the system, achieving performance comparable to traditional model-based con-trol theory methods. In the third chapter, we focus on the undulatory swimming of a roboticfish, exploring various objectives and information sources for control. Our studies indicate that the thrust force of a robotic fish can be optimized using inputs from both force sensors and cameras as feedback for control. Our findings demonstrate that a square wave control with a particular frequency maximizes the thrust and we rationalize it using Pontryagin Maximum Principle. An appropriate model is established that shows an excellent agreement between simulation and experimental results. Subsequently, we concentrate on the speed maximization of a robotic fish both in several virtual environments and experiments using visual data. Once again, we find that deep Reinforcement Learning can find an excellent swimming gait with a square wave control that maximizes the swimming speed

APA, Harvard, Vancouver, ISO, and other styles

Brenon, Alexis. "Modèle profond pour le contrôle vocal adaptatif d'un habitat intelligent." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM057/document.

Full text

Abstract:

Les habitats intelligents, résultants de la convergence de la domotique, de l'informatique ubiquitaire et de l'intelligence artificielle, assistent leurs habitants dans les situations du quotidien pour améliorer leur qualité de vie.En permettant aux personnes dépendantes et âgées de rester à domicile plus longtemps, ces habitats permettent de fournir une première réponse à des problèmes de société comme la dépendance due au vieillissement de la population.En nous plaçant dans un habitat contrôlé par la voix, l'habitat doit répondre aux requêtes d’un utilisateur concernant un ensemble d’actions pouvant être automatisées (contrôle des lumières, des volets, des dispositifs multimédia, etc.).Pour atteindre cet objectif, le système de contrôle de l'habitat a besoin de prendre en compte le contexte dans lequel un ordre est donné mais également de connaitre les habitudes et préférences de l’utilisateur.Pour cela, le système doit pouvoir agréger les informations issues du réseau de capteurs domotiques hétérogènes et prendre en compte le comportement (variable) de l'utilisateur.La mise au point de systèmes de contrôle intelligent d'un habitat est particulièrement ardue du fait de la grande variabilité concernant aussi bien la topologie des habitats que les habitudes des utilisateurs.Par ailleurs, l'ensemble des informations contextuelles doivent être représentées dans un référentiel commun dans un objectif de raisonnement et de prise de décision.Pour répondre à ces problématiques, nous proposons de développer un système qui d'une part modifie continuellement son modèle de manière à s'adapter à l'utilisateur, et qui d'autre part utilise directement les données issues des capteurs à travers une représentation graphique. L'intérêt et l'originalité de cette méthode sont de ne pas nécessiter d'inférence pour déterminer le contexte.Notre système repose ainsi sur une méthode d'apprentissage par renforcement profond qui couple un réseau de neurones profond du type convolutif permettant l'extraction de données contextuelles, avec un mécanisme d'apprentissage par renforcement pour la prise de décision.Ce mémoire présente alors deux systèmes, un premier reposant uniquement sur l'apprentissage par renforcement et montrant les limites de cette approche sur des environnements réels pouvant comporter plusieurs milliers d'états possibles.L'introduction de l'apprentissage profond a permis la mise au point du second système, ARCADES, dont les bonnes performances montrent la pertinence d'une telle approche, tout en ouvrant de nombreuses voies d'améliorations
Smart-homes, resulting of the merger of home-automation, ubiquitous computing and artificial intelligence, support inhabitants in their activity of daily living to improve their quality of life.Allowing dependent and aged people to live at home longer, these homes provide a first answer to society problems as the dependency tied to the aging population.In voice controlled home, the home has to answer to user's requests covering a range of automated actions (lights, blinds, multimedia control, etc.).To achieve this, the control system of the home need to be aware of the context in which a request has been done, but also to know user habits and preferences.Thus, the system must be able to aggregate information from a heterogeneous home-automation sensors network and take the (variable) user behavior into account.The development of smart home control systems is hard due to the huge variability regarding the home topology and the user habits.Furthermore, the whole set of contextual information need to be represented in a common space in order to be able to reason about them and make decisions.To address these problems, we propose to develop a system which updates continuously its model to adapt itself to the user and which uses raw data from the sensors through a graphical representation.This new method is particularly interesting because it does not require any prior inference step to extract the context.Thus, our system uses deep reinforcement learning; a convolutional neural network allowing to extract contextual information and reinforcement learning used for decision-making.Then, this memoir presents two systems, a first one only based on reinforcement learning showing limits of this approach against real environment with thousands of possible states.Introduction of deep learning allowed to develop the second one, ARCADES, which gives good performances proving that this approach is relevant and opening many ways to improve it

APA, Harvard, Vancouver, ISO, and other styles

Mesnard, Thomas. "Attribution de crédit pour l'apprentissage par renforcement dans des réseaux profonds." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAX155.

Full text

Abstract:

L'apprentissage profond par renforcement a été au cœur de nombreux résultats révolutionnaires en intelligence artificielle ces dernières années. Ces agents reposent sur des techniques d'attribution de crédit qui cherchent à établir des corrélations entre actions passées et événements futurs et utilisent ces corrélations pour devenir performants à une tâche. Ce problème est au cœur des limites actuelles de l'apprentissage par renforcement et les techniques d'attribution de crédit utilisées sont encore relativement rudimentaires et incapables de raisonnement inductif. Cette thèse se concentre donc sur l'étude et la formulation de nouvelles méthodes d'attributions de crédit dans le cadre de l'apprentissage par renforcement. De telles techniques pourraient permettre d'accélérer l'apprentissage, de mieux généraliser lorsqu'un agent est entraîné sur de multiples tâches, et peut-être même permettre l'émergence d'abstraction et de raisonnement
Deep reinforcement learning has been at the heart of many revolutionary results in artificial intelligence in the last few years. These agents are based on credit assignment techniques that try to establish correlations between past actions and future events and use these correlations to become effective in a given task. This problem is at the heart of the current limitations of deep reinforcement learning and credit assignment techniques used today remain relatively rudimentary and incapable of inductive reasoning. This thesis therefore focuses on the study and formulation of new credit assignment methods for deep reinforcement learning. Such techniques could speed up learning, make better generalization when agents are trained on multiple tasks, and perhaps even allow the emergence of abstraction and reasoning

APA, Harvard, Vancouver, ISO, and other styles

More sources

Books on the topic "Apprentissage par renforcement profond"

Sutton, Richard S. Reinforcement learning: An introduction. Cambridge, Mass: MIT Press, 1998.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Sciences de l'activité physique pse4u cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Technologie de l'information en affaires btx4e cours préemploi. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Études informatiques ics4m cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Mathématiques de la technologie au collège mct4c cours précollégial. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Sciences snc4m cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: English eae4e cours préemploi. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Le Canada et le monde: une analyse géographique cgw4u cours préuniversitaire. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Environnement et gestion des ressources cgr4e cours préemploi. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Ontario. Esquisse de cours 12e année: Histoire de l'Occident et du monde chy4c cours précollégial. Vanier, Ont: CFORP, 2002.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

More sources

Book chapters on the topic "Apprentissage par renforcement profond"

Tazdaït, Tarik, and Rabia Nessah. "5. Vote et apprentissage par renforcement." In Le paradoxe du vote, 157–77. Éditions de l’École des hautes études en sciences sociales, 2013. http://dx.doi.org/10.4000/books.editionsehess.1931.

Full text

APA, Harvard, Vancouver, ISO, and other styles

JACQUEMONT, Mikaël, Thomas VUILLAUME, Alexandre BENOIT, Gilles MAURIN, and Patrick LAMBERT. "Analyse d’images Cherenkov monotélescope par apprentissage profond." In Inversion et assimilation de données de télédétection, 303–35. ISTE Group, 2023. http://dx.doi.org/10.51926/iste.9142.ch9.

Full text

Abstract:

Sur un problème d'analyse de rayonnement gamma à partir d'observations depuis des télescopes à imagerie Cherenkov, ce chapitre présente un modèle de réseau de neurones profond multitâche. Celui-ci permet la reconstruction des paramètres des rayonnements observés. Nous démontrons l’intérêt de l'approche multitâche. Nous montrons également que cette architecture obtient de meilleures performances qu’une méthode d’analyse standard largement utilisée pour cette problématique.

APA, Harvard, Vancouver, ISO, and other styles

HADJADJ-AOUL, Yassine, and Soraya AIT-CHELLOUCHE. "Utilisation de l’apprentissage par renforcement pour la gestion des accès massifs dans les réseaux NB-IoT." In La gestion et le contrôle intelligents des performances et de la sécurité dans l’IoT, 27–55. ISTE Group, 2022. http://dx.doi.org/10.51926/iste.9053.ch2.

Full text

Abstract:

La prise en charge des objets IoT est l’un des principaux défis auxquels sont confrontés les opérateurs de réseau. L’accès d’un grand nombre de ces dispositifs pourrait entraîner une forte congestion. A cet effet, ce chapitre propose l’utilisation d’une technique d’apprentissage par renforcement profond, qui révèle mieux l’état du réseau et permet ainsi un contrôle plus précis du nombre d’arrivées.

APA, Harvard, Vancouver, ISO, and other styles

BENDELLA, Mohammed Salih, and Badr BENMAMMAR. "Impact de la radio cognitive sur le green networking : approche par apprentissage par renforcement." In Gestion du niveau de service dans les environnements émergents. ISTE Group, 2020. http://dx.doi.org/10.51926/iste.9002.ch8.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Conference papers on the topic "Apprentissage par renforcement profond"

Fourcade, A. "Apprentissage profond : un troisième oeil pour les praticiens." In 66ème Congrès de la SFCO. Les Ulis, France: EDP Sciences, 2020. http://dx.doi.org/10.1051/sfco/20206601014.

Full text

Abstract:

« L’intelligence artificielle connaît un essor fulgurant depuis ces dernières années. Lapprentissage automatique et plus précisément lapprentissage profond grâce aux réseaux de neurones convolutifs ont permis des avancées majeures dans le domaine de la reconnaissance des formes. Cette présentation fait suite à mon travail de thèse. La première partie retrace lhistorique et décrit les principes de fonctionnement de ces réseaux. La seconde présente une revue de la littérature de leurs applications dans la pratique médicale de plusieurs spécialités, pour des tâches diagnostiques nécessitant une démarche visuelle (classification dimages et détection de lésions). Quinze articles, évaluant les performances de ces solutions dautomatisation, ont été analysés. La troisième partie est une discussion à propos des perspectives et des limites présentées par les réseaux de neurones convolutifs, ainsi que leurs possibles applications en chirurgie orale. »

APA, Harvard, Vancouver, ISO, and other styles

Reports on the topic "Apprentissage par renforcement profond"

Melloni, Gian. Le leadership des autorités locales en matière d'assainissement et d'hygiène : expériences et apprentissage de l'Afrique de l'Ouest. Institute of Development Studies (IDS), January 2022. http://dx.doi.org/10.19088/slh.2022.002.

Full text

Abstract:

Entre juillet et octobre 2021, la Sanitation Learning Hub a travaillé avec des représentants des pouvoirs publics et des partenaires de développement pour mettre au point, diffuser et analyser des études de cas qui se penchaient sur le renforcement des autorités et des systèmes locaux dans quatre zones locales à travers l’Afrique de l’Ouest : au Bénin (commune de N’Dali), au Ghana (district municipal de Yendi), en Guinée (commune de Molota) et au Nigéria (circonscription de Logo). Cette note d’apprentissage partage les leçons apprises et les recommandations dégagés des études de cas et des trois ateliers participatifs qui ont suivi. Une version initiale de cette note a été révisée par les participants à l’initiative. Les premières sections décrivent les principales parties prenantes et les actions des autorités locales en matière d’HA ; ensuite l’étude se concentre sur les leviers et les obstacles au changement, avant de formuler des recommandations.

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

Contents

Academic literature on the topic 'Apprentissage par renforcement profond'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Journal articles on the topic "Apprentissage par renforcement profond"

Dissertations / Theses on the topic "Apprentissage par renforcement profond"

Books on the topic "Apprentissage par renforcement profond"

Book chapters on the topic "Apprentissage par renforcement profond"

Conference papers on the topic "Apprentissage par renforcement profond"

Reports on the topic "Apprentissage par renforcement profond"