To see the other types of publications on this topic, follow the link: Prédiction séquentielle.

Dissertations / Theses on the topic 'Prédiction séquentielle'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 26 dissertations / theses for your research on the topic 'Prédiction séquentielle.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Stoltz, Gilles. "Information incomplète et regret interne en prédiction de suites inidividuelles." Paris 11, 2005. https://tel.archives-ouvertes.fr/tel-00009759.

Full text
Abstract:
Le domaine de recherche dans lequel s'inscrit ce travail de thèse est la théorie de la prédiction des suites individuelles. Cette dernière considère les problèmes d'apprentissage séquentiel pour lesquels on ne peut ou ne veut pas modéliser le problème de manière stochastique, et fournit des stratégies de prédiction très robustes. Elle englobe aussi bien des problèmes issus de la communauté du machine learning que de celle de la théorie des jeux répétés, et ces derniers sont traités avec des méthodes statistiques, incluant par exemple les techniques de concentration de la mesure ou de l'estimation adaptative. Les résultats obtenus aboutissent, entre autres, à des stratégies de minimisation des regrets externe et interne dans les jeux à information incomplète, notamment les jeux répétés avec signaux. Ces stratégies s'appliquent au problème d'ajustement séquentiel des prix de vente, ou d'allocation séquentielle de bande passante. Le regret interne est ensuite plus spécifiquement étudié, d'abord dans le cadre de l'investissement séquentiel dans le marché boursier, pour lequel des simulations sur des données historiques sont proposées, puis pour l'apprentissage des équilibres corrélés des jeux infinis à ensembles de stratégies convexes et compacts
This thesis takes place within the theory of prediction of individual sequences. The latter avoids any modelling of the data and aims at providing some techniques of robust prediction and discuss their possibilities, limitations, and difficulties. It considers issues arising from the machine learning as well as from the game-theory communities, and these are dealt with thanks to statistical techniques, including martingale concentration inequalities and minimax lower bound techniques. The obtained results consist, among others, in external and internal regret minimizing strategies for label-efficient prediction or in games with partial monitoring. Such strategies are valuable for the on-line pricing problem or for on-line bandwidth allocation. We then focus on internal regret for general convex losses. We consider first the case of on-line portfolio selection, for which simulations on real data are provided, and generalize later the results to show how players can learn correlated equilibria in games with compact sets of strategies
APA, Harvard, Vancouver, ISO, and other styles
2

Stoltz, Gilles. "Information incomplète et regret interne en prédiction de suites individuelles." Phd thesis, Université Paris Sud - Paris XI, 2005. http://tel.archives-ouvertes.fr/tel-00009759.

Full text
Abstract:
Le domaine de recherche dans lequel s'inscrit ce travail de thèse est la théorie de la prédiction des suites individuelles. Cette dernière considère les problèmes d'apprentissage séquentiel pour lesquels on ne peut ou ne veut pas modéliser le problème de manière stochastique, et fournit des stratégies de prédiction très robustes. Elle englobe aussi bien des problèmes issus de la communauté du machine learning que de celle de la théorie des jeux répétés, et ces derniers sont traités avec des méthodes statistiques, incluant par exemple les techniques de concentration de la mesure ou de l'estimation adaptative. Les résultats obtenus aboutissent, entre autres, à des stratégies de minimisation des regrets externe et interne dans les jeux à information incomplète, notamment les jeux répétés avec signaux. Ces stratégies s'appliquent au problème d'ajustement séquentiel des prix de vente, ou d'allocation séquentielle de bande passante. Le regret interne est ensuite plus spécifiquement étudié, d'abord dans le cadre de l'investissement séquentiel dans le marché boursier, pour lequel des simulations sur des données historiques sont proposées, puis pour l'apprentissage des équilibres corrélés des jeux infinis à ensembles de stratégies convexes et compacts.
APA, Harvard, Vancouver, ISO, and other styles
3

Prémillieu, Nathanaël. "Améliorer la performance séquentielle à l'ère des processeurs massivement multicœurs." Phd thesis, Université Rennes 1, 2013. http://tel.archives-ouvertes.fr/tel-00914898.

Full text
Abstract:
L'omniprésence des ordinateurs et la demande de toujours plus de puissance poussent les architectes processeur à chercher des moyens d'augmenter les performances de ces processeurs. La tendance actuelle est de répliquer sur une même puce plusieurs c\oe urs d'exécution pour paralléliser l'exécution. Si elle se poursuit, les processeurs deviendront massivement multic\oe urs avec plusieurs centaines voire un millier de c\oe urs disponibles. Cependant, la loi d'Amdahl nous rappelle que l'augmentation de la performance séquentielle sera toujours nécessaire pour améliorer les performances globales. Une voie essentielle pour accroître la performance séquentielle est de perfectionner le traitement des branchements, ceux-ci limitant le parallélisme d'instructions. La prédiction de branchements est la solution la plus étudiée, dont l'intérêt dépend essentiellement de la précision du prédicteur. Au cours des dernières années, cette précision a été continuellement améliorée et a atteint un seuil qu'il semble difficile de dépasser. Une autre solution est d'éliminer les branchements et de les remplacer par une construction reposant sur des instructions prédiquées. L'exécution des instructions prédiquées pose cependant plusieurs problèmes dans les processeurs à exécution dans le désordre, en particulier celui des définitions multiples. Les travaux présentés dans cette thèse explorent ces deux aspects du traitement des branchements. La première partie s'intéresse à la prédiction de branchements. Une solution pour améliorer celle-ci sans augmenter la précision est de réduire le coût d'une mauvaise prédiction. Cela est possible en exploitant la reconvergence de flot de contrôle et l'indépendance de contrôle pour récupérer une partie du travail fait par le processeur sur le mauvais chemin sur les instructions communes aux deux chemins pour éviter de le refaire sur le bon chemin. La deuxième partie s'intéresse aux instructions prédiquées. Nous proposons une solution au problème des définitions multiples qui passe par la prédiction sélective de la valeur des prédicats. Un mécanisme de rejeu sélectif est utilisé pour réduire le coût d'une mauvaise prédiction de prédicat.
APA, Harvard, Vancouver, ISO, and other styles
4

Prémillieu, Nathanaël. "Améliorer la performance séquentielle à l’ère des processeurs massivement multicœurs." Thesis, Rennes 1, 2013. http://www.theses.fr/2013REN1S071/document.

Full text
Abstract:
L'omniprésence des ordinateurs et la demande de toujours plus de puissance poussent les architectes processeur à chercher des moyens d'augmenter les performances de ces processeurs. La tendance actuelle est de répliquer sur une même puce plusieurs cœurs d'exécution pour paralléliser l'exécution. Si elle se poursuit, les processeurs deviendront massivement multicoeurs avec plusieurs centaines voire un millier de cœurs disponibles. Cependant, la loi d'Amdahl nous rappelle que l'augmentation de la performance séquentielle sera toujours nécessaire pour améliorer les performances globales. Une voie essentielle pour accroître la performance séquentielle est de perfectionner le traitement des branchements, ceux-ci limitant le parallélisme d'instructions. La prédiction de branchements est la solution la plus étudiée, dont l'intérêt dépend essentiellement de la précision du prédicteur. Au cours des dernières années, cette précision a été continuellement améliorée et a atteint un seuil qu'il semble difficile de dépasser. Une autre solution est d'éliminer les branchements et de les remplacer par une construction reposant sur des instructions prédiquées. L'exécution des instructions prédiquées pose cependant plusieurs problèmes dans les processeurs à exécution dans le désordre, en particulier celui des définitions multiples. Les travaux présentés dans cette thèse explorent ces deux aspects du traitement des branchements. La première partie s'intéresse à la prédiction de branchements. Une solution pour améliorer celle-ci sans augmenter la précision est de réduire le coût d'une mauvaise prédiction. Cela est possible en exploitant la reconvergence de flot de contrôle et l'indépendance de contrôle pour récupérer une partie du travail fait par le processeur sur le mauvais chemin sur les instructions communes aux deux chemins pour éviter de le refaire sur le bon chemin. La deuxième partie s'intéresse aux instructions prédiquées. Nous proposons une solution au problème des définitions multiples qui passe par la prédiction sélective de la valeur des prédicats. Un mécanisme de rejeu sélectif est utilisé pour réduire le coût d'une mauvaise prédiction de prédicat
Computers are everywhere and the need for always more computation power has pushed the processor architects to find new ways to increase performance. The today's tendency is to replicate execution core on the same die to parallelize the execution. If it goes on, processors will become manycores featuring hundred to a thousand cores. However, Amdahl's law reminds us that increasing the sequential performance will always be vital to increase global performance. A perfect way to increase sequential performance is to improve how branches are executed because they limit instruction level parallelism. The branch prediction is the most studied solution, its interest greatly depending on its accuracy. In the last years, this accuracy has been continuously improved up to reach a hardly exceeding limit. An other solution is to suppress the branches by replacing them with a construct based on predicated instructions. However, the execution of predicated instructions on out-of-order processors comes up with several problems like the multiple definition problem. This study investigates these two aspects of the branch treatment. The first part is about branch prediction. A way to improve it without increasing the accuracy is to reduce the coast of a branch misprediction. This is possible by exploiting control flow reconvergence and control independence. The work done on the wrong path on instructions common to the two paths is saved to be reused on the correct path. The second part is about predicated instructions. We propose a solution to the multiple definition problem by selectively predicting the predicate values. A selective replay mechanism is used to reduce the cost of a predicate misprediction
APA, Harvard, Vancouver, ISO, and other styles
5

Kalaitzidis, Kleovoulos. "Advanced speculation to increase the performance of superscalar processors." Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S007.

Full text
Abstract:
Même à l’ère des multicœurs, il est primordial d’améliorer la performance en contexte monocœur, étant donné l’existence de pro- grammes qui exposent des parties séquentielles non négligeables. Les performances séquentielles se sont essentiellement améliorées avec le passage à l’échelle des structures de processeurs qui permettent le parallélisme d’instructions (ILP). Cependant, les chaînes de dépendances séquentielles li- mitent considérablement la performance. La prédiction de valeurs (VP) et la prédiction d’adresse des lectures mémoire (LAP) sont deux techniques en développement qui permettent de surmonter cet obstacle en permettant l’exécution d’instructions en spéculant sur les données. Cette thèse propose des mécanismes basés sur VP et LAP qui conduisent à des améliorations de performances sensiblement plus élevées. D’abord, VP est examiné au niveau de l’ISA, ce qui fait apparaître l’impact de certaines particularités de l’ISA sur les performances. Ensuite, un nouveau prédicteur binaire (VSEP), qui permet d’exploiter certains motifs de valeurs, qui bien qu’ils soient fréquemment rencontrés, ne sont pas capturés par les modèles précédents, est introduit. VSEP améliore le speedup obtenu de 19% et, grâce à sa structure, il atténue le coût de la prédiction de va- leurs supérieures à 64 bits. Adapter cette approche pour effectuer LAP permet de prédire les adresses de 48% des lectures mémoire. Finalement, une microarchitecture qui exploite soigneusement ce mécanisme de LAP peut exécuter 32% des lectures mémoire en avance
Even in the multicore era, making single cores faster is paramount to achieve high- performance computing, given the existence of programs that are either inherently sequential or expose non-negligible sequential parts. Sequential performance has been essentially improving with the scaling of the processor structures that enable instruction-level parallelism (ILP). However, as modern microarchitectures continue to extract more ILP by employing larger instruction windows, true data dependencies remain a major performance bottleneck. Value Prediction (VP) and Load-Address Prediction (LAP) are two developing techniques that allow to overcome this obstacle and harvest more ILP by enabling the execution of instructions in a data-wise speculative manner. This thesis proposes mechanisms that are related with VP and LAP and lead to effectively higher performance improvements. First, VP is examined in an ISA-aware manner, that discloses the impact of certain ISA particularities on the anticipated speedup. Second, a novel binary-based VP model is introduced, namely VSEP, that allows to exploit certain value patterns that although they are encountered frequently, they cannot be captured by previous works. VSEP improves the obtained speedup by 19% and also, by virtue of its structure, it mitigates the cost of predicting values wider than 64 bits. By adapting this approach to perform LAP allows to predict the memory addresses of 48% of the committed loads. Eventually, a microarchitecture that leverages carefully this LAP mechanism can execute 32% of the committed loads early
APA, Harvard, Vancouver, ISO, and other styles
6

Ziat, Ali Yazid. "Apprentissage de représentation pour la prédiction et la classification de séries temporelles." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066324.

Full text
Abstract:
Nous nous intéressons au développement de méthodes qui répondent aux difficultés posées par l’analyse des séries temporelles. Nos contributions se focalisent sur deux tâches : la prédiction de séries temporelles et la classification de séries temporelles. Notre première contribution présente une méthode de prédiction et de complétion de séries temporelles multivariées et relationnelles. Le but est d’être capable de prédire simultanément l’évolution d’un ensemble de séries temporelles reliées entre elles selon un graphe, ainsi que de compléter les valeurs manquantes dans ces séries (pouvant correspondre par exemple à une panne d’un capteur pendant un intervalle de temps donné). On se propose d’utiliser des techniques d’apprentissage de représentation pour prédire l’évolution des séries considérées tout en complétant les valeurs manquantes et prenant en compte les relations qu’il peut exister entre elles. Des extensions de ce modèle sont proposées et décrites : d’abord dans le cadre de la prédiction de séries temporelles hétérogènes puis dans le cas de la prédiction de séries temporelles avec une incertitude exprimée. Un modèle de prédiction de séries spatio-temporelles est ensuiteproposé, avec lequel les relations entre les différentes séries peuvent être exprimées de manière plus générale, et où ces dernières peuvent être apprises.Enfin, nous nous intéressons à la classification de séries temporelles. Un modèle d’apprentissage joint de métrique et de classification de séries est proposé et une comparaison expérimentale est menée
This thesis deals with the development of time series analysis methods. Our contributions focus on two tasks: time series forecasting and classification. Our first contribution presents a method of prediction and completion of multivariate and relational time series. The aim is to be able to simultaneously predict the evolution of a group of time series connected to each other according to a graph, as well as to complete the missing values ​​in these series (which may correspond for example to a failure of a sensor during a given time interval). We propose to use representation learning techniques to forecast the evolution of the series while completing the missing values ​​and taking into account the relationships that may exist between them. Extensions of this model are proposed and described: first in the context of the prediction of heterogeneous time series and then in the case of the prediction of time series with an expressed uncertainty. A prediction model of spatio-temporal series is then proposed, in which the relations between the different series can be expressed more generally, and where these can be learned.Finally, we are interested in the classification of time series. A joint model of metric learning and time-series classification is proposed and an experimental comparison is conducted
APA, Harvard, Vancouver, ISO, and other styles
7

Heinrich, Franz. "Modélisation, prédiction et optimisation de la consommation énergétique d'applications MPI à l'aide de SimGrid." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM018/document.

Full text
Abstract:
Les changements technologiques dans la communauté du calcul hauteperformance (HPC) sont importants, en particulier dans le secteurdu parallélisme massif avec plusieurs milliers de cœurs de calcul sur unGPU unique ou accélérateur, et aussi des nouveaux réseaux complexes.La consommation d’énergie de ces machines continuera de croître dans les années à venir,faisant de l’énergie l’un des principaux facteurs de coût.Cela explique pourquoi même la métrique classique"flop / s", généralement utilisé pour évaluer les applications HPC etles machines, est progressivement remplacé par une métrique centré surl’énergie en "flop / watt".Une approche pour prédire la consommation d'énergie se fait parsimulation, cependant, une prédiction précise de la performance estcruciale pour estimer l’énergie. Dans cette thèse, nouscontribuons à la prédiction de performance et d'énergie des architectures HPC.Nous proposons un modèle énergétique qui a été implémenté dans unsimulateur open source, sg. Nous validons ce modèle avec soin eten le comparant systématiquement avec des expériences réelles.Nous utilisons cette contribution pour évaluer les projetsexistants et nous proposons de nouveaux governors DVFS spécialementconçus pour le contexte HPC
The High-Performance Computing (HPC) community is currently undergoingdisruptive technology changes in almost all fields, including a switch towardsmassive parallelism with several thousand compute cores on a single GPU oraccelerator and new, complex networks. Powering a massively parallel machinebecomesThe energy consumption of these machines will continue to grow in the future,making energy one of the principal cost factors of machine ownership. This explainswhy even the classic metric "flop/s", generally used to evaluate HPC applicationsand machines, is widely regarded as to be replaced by an energy-centric metric"flop/watt".One approach to predict energy consumption is through simulation, however, a pre-cise performance prediction is crucial to estimate the energy faithfully. In this thesis,we contribute to the performance and energy prediction of HPC architectures. Wepropose an energy model which we have implemented in the open source SimGridsimulator. We validate this model by carefully and systematically comparing itwith real experiments. We leverage this contribution to both evaluate existingand propose new DVFS governors that are part*icularly designed to suit the HPCcontext
APA, Harvard, Vancouver, ISO, and other styles
8

Bou, Rjeily Carine. "Data mining and learning for markers extraction to improve the medical monitoring platforms." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCA012.

Full text
Abstract:
Selon l’Organisation mondiale de la santé, environ 31% des décès dans le monde sont causés par des maladies cardiaques chaque année. L’exploration de données est un processus d’extraction intéressant d’informations non triviales, implicites et potentiellement utiles, à partir de grands ensembles de données. L’exploration de données médicales est la science qui consiste à examiner des données médicales (signes vitaux) pour explorer des informations importantes. L’analyse et l’interprétation des données complexes dans un diagnostic thérapeutique approprié avec les bons résultats, est une tâche assez ardue. Néanmoins, le fait qu’il soit possible de combiner ces facteurs jusqu’à un certain point et d’extraire un plan de traitement, de prévention et de rétablissement généralement couronnée de succès, est un signe des avantages à venir. Grâce à cela, il est maintenant possible d’améliorer la qualité de vie des patients, de prévenir une aggravation de la maladie tout en maintenant les coûts médicaux à la baisse. Cela explique la popularité croissante de l’utilisation et de l’application des techniques d’apprentissage automatique pour analyser, prédire et classifier les données médicales. Dans une première contribution, nous avons étudié de nombreux algorithmes de motifs séquentiels qui sont des techniques prometteuses pour l’exploration de données. Nous les avons classés afin de choisir un algorithme approprié pour prédire les classes d’insuffisance cardiaque et sa présence. Après avoir comparé tous les algorithmes et les avoir mis en œuvre sur le même ensemble de données médicales, le CPT +, un algorithme de prédiction de séquence, a été choisi en donnant les résultats les plus précis avec une précision de 90,5% dans la prédiction de l’insuffisance cardiaque et de ses classes. En utilisant cet algorithme, avec des données des patients réels, nous avons pu prédire une insuffisance cardiaque 10 à 12 jours à priori. Après, nous avons basculé nos études vers une stratégie de séries chronologiques et nous avons utilisé des données réelles extraites de patients réels. 5 paramètres ont été extraits de 3 patients au cours de quelques années. L’algorithme RandomTree a donné plus de 85% de prédictions correctes de l’insuffisance cardiaque 7 jours à l’avance
The World Health Organization accords that about 31 % of deaths worldwide are caused by heart diseases every year. Data mining is a process of extracting interesting non-trivial, previously unknownand potentially useful information from huge amount of data. Medical data mining is the science of investigating medical data (i.e. vital signs) to explore significant information. Analyzing and interpreting the huge amount of complicated data into an appropriate therapeutic diagnosis with the right results is quite challenging task. Still, the fact that it is possible to combine these factors up to a certain point and extract a usually successful treatment, prevention and recovery plan is a sign of the good things to come. Thanks to that, it is now possible to improve patients’ quality of life, prevent condition worsening while maintaining medical costs at the decrease. This explains the increasing popularity in the usage and application of machine learning techniques to analyze, predict and classify medical data. As a first contribution, we studied many sequential patterns algorithms that are promising techniques in exploring data and we classified them in order to choose an appropriate one for predicting Heart Failure classes and presence. After comparing all the algorithms and implementing them on the same medical dataset, the CPT+ a sequence prediction algorithm has been chosen as it gave the most accurate results reaching an accuracy of 90.5% in predicting heart failure and its classes. By using the CPT+ algorithm with real patients dataset, we predicted heart failure 10 to 12 days prior. Thereafter, we switched our studies to time series strategy, and worked on real data extracted from real patients. 5 parameters were extracted from 3 patients over the course of a few years. The Random Tree algorithm yielded more the 85% correct predictions of heart failure 7 days prior
APA, Harvard, Vancouver, ISO, and other styles
9

Zuo, Jingwei. "Apprentissage de représentations et prédiction pour des séries-temporelles inter-dépendantes." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG038.

Full text
Abstract:
Les séries temporelles sont un type de données endémique dans de nombreux domaines d'applications, telles que l'analyse financière, le diagnostic médical, la surveillance de l'environnement ou encore l'astronomie. Du fait de leur structure complexe, les séries temporelles amènent à de nouveaux défis dans le traitement et l'extraction de connaissances de ces données. La représentation des séries temporelles joue un rôle déterminant dans les méthodes d'apprentissage et les tâches de fouille de données. Cependant, peu de méthodes tiennent compte des interdépendances entre séries temporelles différentes. De plus, la fouille de séries temporelles nécessite de considérer non seulement les caractéristiques des séries temporelles en termes de complexité des données, mais également les contextes particuliers des applications et la tâche de fouille de données à effectuer. Cela nous permet de construire des représentations spécifiques à la tâche.Dans cette thèse, nous étudions différentes représentations de séries temporelles capables de s'adapter à diverses tâches de fouille de séries temporelles, tout en capturant les relations entre elles. Nous nous concentrons spécifiquement sur la modélisation des interdépendances entre séries temporelles lors de la construction des représentations, qui peuvent être la dépendance temporelle au sein de chaque source de données ou la dépendance inter-variable entre des sources de données différentes. En conséquence, nous étudions les séries temporelles collectées dans diverses applications sous différentes formes. Tout d'abord, pour tenir compte de la dépendance temporelle entre les observations, nous apprenons la représentation de série temporelle dans un contexte de flux dynamique, où la série temporelle est générée en continu à partir de la source de données. Quant à la dépendance inter-variable, nous étudions les séries temporelles multivariées (MTS) avec des données collectées à partir de plusieurs sources. Enfin, nous étudions le MTS dans le contexte de la ville intelligente, où chaque source de données est associée à une localisation spatiale. Par conséquent, le MTS devient une série temporelle géo-localisée (GTS), pour laquelle la modélisation de la dépendance inter-variable requière la prise en compte de l'information spatiale sous-jacente. De ce fait, pour chaque type de séries temporelles collectées dans des contextes différents, nous proposons une méthode de représentation adaptée aux dépendances temporelles et/ou inter-variables.Outre la complexité des données provenant des interdépendances des séries temporelles, nous étudions diverses tâches d'apprentissage automatique sur des séries temporelles afin de valider les représentations apprises. Les tâches d'apprentissage étudiées dans cette thèse consistent en la classification de séries temporelles, l'apprentissage semi-supervisé de séries temporelles et la prévision de séries temporelles. Nous montrons comment les représentations apprises sont exploitées dans ces différentes tâches et pour des applications distinctes.Plus précisément, nos principales contributions sont les suivantes. En premier lieu, nous proposons un modèle d'apprentissage dynamique de la représentation des séries temporelles dans le contexte du flux de données, où nous considérons à la fois les caractéristiques des séries temporelles et les défis des flux de données. Nous affirmons et démontrons que le motif de Shapelet, basé sur la forme, est la meilleure représentation dans le contexte dynamique. Par ailleurs, nous proposons un modèle semi-supervisé pour l'apprentissage de représentation dans les MTS. Ce modèle considère la dépendance inter-variable dans l'hypothèse réaliste où les annotations de données sont limitées. Enfin, nous proposons un modèle d'apprentissage de représentation de GTS dans le contexte de la ville intelligente. Nous étudions spécifiquement la tâche de prévision du trafic routier avec un focus sur le traitement intégré des valeurs manquantes
Time series is a common data type that has been applied to enormous real-life applications, such as financial analysis, medical diagnosis, environmental monitoring, astronomical discovery, etc. Due to its complex structure, time series raises several challenges in their data processing and mining. The representation of time series plays a key role in data mining tasks and machine learning algorithms for time series. Yet, a few methods consider the interrelation that may exist between different time series when building the representation. Moreover, the time series mining requires considering not only the time series' characteristics in terms of data complexity but also the concrete application scenarios where the data mining task is performed to build task-specific representations.In this thesis, we will study different time series representation approaches that can be used in various time series mining tasks, while capturing the relationships among them. We focus specifically on modeling the interrelations between different time series when building the representations, which can be the temporal relationship within each data source or the inter-variable relationship between various data sources. Accordingly, we study the time series collected from various application contexts under different forms. First, considering the temporal relationship between the observations, we learn the time series in a dynamic streaming context, i.e., time series stream, for which the time series data is continuously generated from the data source. Second, for the inter-variable relationship, we study the multivariate time series (MTS) with data collected from multiple data sources. Finally, we study the MTS in the Smart City context, when each data source is given a spatial position. The MTS then becomes a geo-located time series (GTS), for which the inter-variable relationship requires more modeling efforts with the external spatial information. Therefore, for each type of time series data collected from distinct contexts, the interrelations between the time series observations are emphasized differently, on the temporal or (and) variable axis.Apart from the data complexity from the interrelations, we study various machine learning tasks on time series in order to validate the learned representations. The high-level learning tasks studied in this thesis consist of time series classification, semi-supervised time series learning, and time series forecasting. We show how the learned representations connect with different time series learning tasks under distinct application contexts. More importantly, we conduct the interdisciplinary study on time series by leveraging real-life challenges in machine learning tasks, which allows for improving the learning model's performance and applying more complex time series scenarios.Concretely, for these time series learning tasks, our main research contributions are the following: (i) we propose a dynamic time series representation learning model in the streaming context, which considers both the characteristics of time series and the challenges in data streams. We claim and demonstrate that the Shapelet, a shape-based time series feature, is the best representation in such a dynamic context; (ii) we propose a semi-supervised model for representation learning in multivariate time series (MTS). The inter-variable relationship over multiple data sources is modeled in a real-life context, where the data annotations are limited; (iii) we design a geo-located time series (GTS) representation learning model for Smart City applications. We study specifically the traffic forecasting task, with a focus on the missing-value treatment within the forecasting algorithm
APA, Harvard, Vancouver, ISO, and other styles
10

Ziat, Ali Yazid. "Apprentissage de représentation pour la prédiction et la classification de séries temporelles." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066324/document.

Full text
Abstract:
Nous nous intéressons au développement de méthodes qui répondent aux difficultés posées par l’analyse des séries temporelles. Nos contributions se focalisent sur deux tâches : la prédiction de séries temporelles et la classification de séries temporelles. Notre première contribution présente une méthode de prédiction et de complétion de séries temporelles multivariées et relationnelles. Le but est d’être capable de prédire simultanément l’évolution d’un ensemble de séries temporelles reliées entre elles selon un graphe, ainsi que de compléter les valeurs manquantes dans ces séries (pouvant correspondre par exemple à une panne d’un capteur pendant un intervalle de temps donné). On se propose d’utiliser des techniques d’apprentissage de représentation pour prédire l’évolution des séries considérées tout en complétant les valeurs manquantes et prenant en compte les relations qu’il peut exister entre elles. Des extensions de ce modèle sont proposées et décrites : d’abord dans le cadre de la prédiction de séries temporelles hétérogènes puis dans le cas de la prédiction de séries temporelles avec une incertitude exprimée. Un modèle de prédiction de séries spatio-temporelles est ensuiteproposé, avec lequel les relations entre les différentes séries peuvent être exprimées de manière plus générale, et où ces dernières peuvent être apprises.Enfin, nous nous intéressons à la classification de séries temporelles. Un modèle d’apprentissage joint de métrique et de classification de séries est proposé et une comparaison expérimentale est menée
This thesis deals with the development of time series analysis methods. Our contributions focus on two tasks: time series forecasting and classification. Our first contribution presents a method of prediction and completion of multivariate and relational time series. The aim is to be able to simultaneously predict the evolution of a group of time series connected to each other according to a graph, as well as to complete the missing values ​​in these series (which may correspond for example to a failure of a sensor during a given time interval). We propose to use representation learning techniques to forecast the evolution of the series while completing the missing values ​​and taking into account the relationships that may exist between them. Extensions of this model are proposed and described: first in the context of the prediction of heterogeneous time series and then in the case of the prediction of time series with an expressed uncertainty. A prediction model of spatio-temporal series is then proposed, in which the relations between the different series can be expressed more generally, and where these can be learned.Finally, we are interested in the classification of time series. A joint model of metric learning and time-series classification is proposed and an experimental comparison is conducted
APA, Harvard, Vancouver, ISO, and other styles
11

Issartel, Yann. "Inférence sur des graphes aléatoires." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM019.

Full text
Abstract:
Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage non-supervisé. Son objet est la compréhension et la mise en œuvre de méthodes d'estimation et de décision pour des modèles de graphes aléatoires à espace latent. Ces outils probabilistes rencontrent un succès grandissant pour la modélisation de grands réseaux dans des domaines aussi différents que la biologie, le marketing ou les sciences sociales. Dans un premier temps, nous définissons un indice identifiable de la dimension de l'espace latent puis un estimateur consistant de cet indice. Plus généralement, ces quantités identifiables et interprétables permettent de palier l'absence d'identifiabilité de l'espace latent lui-même. Dans la suite, nous introduisons le problème de `pair-matching'. En partant d'un graphe non-observé, une stratégie choisit de façon séquentielle des paires de nœuds et observe la présence/absence d'arêtes. Son objectif est de découvrir le plus grand nombre possible d'arêtes avec un budget fixé. Pour ce problème de type bandit, nous étudions les regrets optimaux dans un modèle à blocs stochastiques puis dans un graphe aléatoire géométrique. Enfin, nous estimons les positions des nœuds dans l'espace latent, dans le cas particulier où l'espace est un cercle dans le plan euclidien. Pour chacun des trois problèmes, nous obtenons des procédures optimales au sens minimax, ainsi que des procédures efficaces satisfaisant certaines garanties théoriques. Ces algorithmes sont analysés d'un point de vue non-asymptotique en s'appuyant, entre autres, sur des inégalités de concentration
This thesis lies at the intersection of the theories of non-parametric statistics and statistical learning. Its goal is to provide an understanding of statistical problems in latent space random graphs. Latent space models have emerged as useful probabilistic tools for modeling large networks in various fields such as biology, marketing or social sciences. We first define an identifiable index of the dimension of the latent space and then a consistent estimator of this index. More generally, such identifiable and interpretable quantities alleviate the absence of identifiability of the latent space itself. We then introduce the pair-matching problem. From a non-observed graph, a strategy sequentially queries pairs of nodes and observes the presence/absence of edges. Its goal is to discover as many edges as possible with a fixed budget of queries. For this bandit type problem, we study optimal regrets in stochastic block models and random geometric graphs. Finally, we are interested in estimating the positions of the nodes in the latent space, in the particular situation where the space is a circle in the Euclidean plane. For each of the three problems, we obtain procedures that achieve the statistical optimal performance, as well as efficient procedures with theoretical guarantees. These algorithms are analysed from a non-asymptotic viewpoint, relying in particular on concentration inequalities
APA, Harvard, Vancouver, ISO, and other styles
12

Li, Yang. "Patient-specific gating scheme for thoracoabdominal tumor radiotherapy guided by magnetic resonance imaging." Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS015.

Full text
Abstract:
L’objectif ultime de thèse est de développer un système de synchronisation de bout en bout pour la compensation en temps réel des mouvements lors du traitement du cancer du poumon et du foie sur l’Elekta Unity. Ce système surveillera et localisera automatiquement en temps réel la position spatiale tridimensionnelle de la tumeur, et prédira sa trajectoire dans 0.5 secondes. Un signal de synchronisation sera généré pour contrôler l’activation et la désactivation du faisceau pendant la radiothérapie, réduisant ainsi l’inexactitude dans la délivrance de la dose due au mouvement respiratoire. Pour atteindre cet objectif, les étapes suivantes ont été réalisées : 1. Validation de l’efficacité de KCF dans le suivi des tumeurs en 2D sur des images en IRM cine, plus efficace et précise par rapport aux méthodes traditionnelles (TM). La précision est améliorée en calculant le centroïde des pixels, et la sélection des plans (coronales vs sagittales) pour localiser les tumeurs dans la direction SI. 2. Proposition d’un modèle C-NLSTM spécifique au patient qui combine la préformation du modèle C-NLSTM et l’optimisation de la cible pour obtenir une meilleure prédiction du mouvement de tumeurs. Le transfer learning, en utilisant efficacement le modèle préformé sur un ensemble de données limité, est une solution pertinente face au manque de données de l’Elekta Unity. Le modèle montre une performance satisfaisante dans la prédiction en temps réel pour la compensation du movement spécifique au patient. 3. Validation de la régression linéaire dans la prédiction du mouvement des organs ou des tumeurs en utilisant des images MR ciné 2D et proposition d’un schéma de prédiction en ligne pour les signaux de gating. Les signaux de gating sont déclenchés àl’aide de modèles prédictifs, prouvant son efficacité dans la MRgRT en comparant avec des modèles RNN. 4. Intégration des travaux susmentionnés, proposition d’une solution complète de compensation des mouvements respiratoires basée sur la IRM cine orthogonale. En optimisant un modèle de pavé et en explorant différents scénarios, des signaux de gating sont générés pour répondre aux besoins de traitement des différents patients. La validation par étude dosimétrique confirme que l’efficacité de la solution proposée dans la protection des organes environnants à risque. En résumé, le système proposé est robuste et fiable, réalisant une adaptation en temps réel au mouvement des tumeurs en MRgRT. Il fournit un solide soutien pour la compensation du mouvement respiratoire dans le traitement des cancers thoraciques et abdominaux, servant d’outil essentiel pour la radiothérapie de précision
The ultimate aim of this paper is to develop an end-to-end gating system for real-time motion compensation during lung cancer and liver cancer treatment on the Elekta Unity. This system will monitor and automatically locate the three-dimensional spatial position of the tumor in real-time, and predict the tumor’s motion trajectory in the Superior-Inferior (SI), Left-Right (LR), and Anterior-Posterior (AP) directions in advance. Based on the set gating rules, a unique gating signal will be generated to control the beam on and off during radiotherapy, thereby compensating for the inaccuracy of dose delivery due to respiratory motion. To achieve this goal, the following steps have been carried out : 1. We proposed a tumor tracking workflow based on KCF, addressing the issues of time consumption and accuracy in tumor tracking using 2D Cine-MRI. Firstly, we verified the efficiency and accuracy of KCF in 2D Cine-MRI tumor tracking. By calculating the centroid, we improved the situation where the fixed-size template generated errors when the tumor shape changed, thus enhancing the tracking accuracy. In particular, we focused on the tracking in the SI direction by optimizing the selection of coronal slices or sagittal slices to determine the optimal position of the tumor in the SI direction. 2. We proposed a patient-specific transfer C-NLSTM model for real-time prediction of tumor motion, addressing the issue of insufficient training data. We constructed a C-NLSTM model, and introduced transfer learning to fully leverage the rich knowledge and feature representation capabilities embedded in the pretrained model, while fine-tuning is conducted based on specific patient data to achieve high-precision prediction of tumor motion. Through this approach, the model can be trained with only two minutes of patient-specific data, effectively overcoming the challenge of data acquisition. 3. We proposed an efficient gating signal prediction method, overcoming the challenge of precise predictions in 2D Cine-MRI with limited sampling frequencies. We validated the effectiveness of linear regression for predicting internal organ or tumor motion in 2D MR cine. And we proposed an online gating signal prediction scheme based on ALR to enhance the accuracy of gating radiotherapy for liver and lung cancers. 4. We proposed an end-to-end gating system based on 2D Cine-MRI for the Elekta Unity MRgRT. It enables real-time monitoring and automatic localization of the tumor’s 3D spatial position, prediction of tumor motion in three directions, and fitting an optimal cuboid (gating threshold) for each patient based on the tumor’s motion range. Additionally, we explored various approaches to derive 3D gating signals based on tumor motion in one, two, or three directions, aiming to cater to different patient treatment needs. Finally, the results of dosimetric validation demonstrate that the proposed system can effectively enhance the protection of OAR
APA, Harvard, Vancouver, ISO, and other styles
13

Lajugie, Rémi. "Prédiction structurée pour l’analyse de données séquentielles." Thesis, Paris, Ecole normale supérieure, 2015. http://www.theses.fr/2015ENSU0024/document.

Full text
Abstract:
Dans cette thèse nous nous intéressons à des problèmes d’apprentissage automatique dans le cadre de sorties structurées avec une structure séquentielle. D’une part, nous considérons le problème de l’apprentissage de mesure de similarité pour deux tâches : (i) la détection de rupture dans des signaux multivariés et (ii) le problème de déformation temporelle entre paires de signaux. Les méthodes généralement utilisées pour résoudre ces deux problèmes dépendent fortement d’une mesure de similarité. Nous apprenons une mesure de similarité à partir de données totalement étiquetées. Nous présentons des algorithmes usuels de prédiction structuré, efficaces pour effectuer l’apprentissage. Nous validons notre approche sur des données réelles venant de divers domaines. D’autre part, nous nous intéressons au problème de la faible supervision pour la tâche d’alignement d’un enregistrement audio sur la partition jouée. Nous considérons la partition comme une représentation symbolique donnant (i) une information complète sur l’ordre des symboles et (ii) une information approximative sur la forme de l’alignement attendu. Nous apprenons un classifieur pour chaque symbole avec ces informations. Nous développons une méthode d’apprentissage fondée sur l’optimisation d’une fonction convexe. Nous démontrons la validité de l’approche sur des données musicales
In this manuscript, we consider structured machine learning problems and consider more precisely the ones involving sequential structure. In a first part, we consider the problem of similarity measure learning for two tasks where sequential structure is at stake: (i) the multivariate change-point detection and (ii) the time warping of pairs of time series. The methods generally used to solve these tasks rely on a similarity measure to compare timestamps. We propose to learn a similarity measure from fully labelled data, i.e., signals already segmented or pairs of signals for which the optimal time warping is known. Using standard structured prediction methods, we present algorithmically efficient ways for learning. We propose to use loss functions specifically designed for the tasks. We validate our approach on real-world data. In a second part, we focus on the problem of weak supervision, in which sequential data are not totally labeled. We focus on the problem of aligning an audio recording with its score. We consider the score as a symbolic representation giving: (i) a complete information about the order of events or notes played and (ii) an approximate idea about the expected shape of the alignment. We propose to learn a classifier for each note using this information. Our learning problem is based onthe optimization of a convex function that takes advantage of the weak supervision and of the sequential structure of data. Our approach is validated through experiments on the task of audio-to-score on real musical data
APA, Harvard, Vancouver, ISO, and other styles
14

Çinar, Yagmur Gizem. "Prédiction de séquences basée sur des réseaux de neurones récurrents dans le contexte des séries temporelles et des sessions de recherche d'information." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM079.

Full text
Abstract:
Cette thèse examine les défis de la prédiction de séquence dans différents scénarios, tels que la prédiction de séquence à l'aide de réseaux de neurones récurrents (RNN) dans le contexte des séries temporelles et des sessions de recherche d'informations (RI). Prédire les valeurs inconnues suivant certaines valeurs précédemment observées est appelée prédiction de séquence. Elle est largement applicable à de nombreux domaines où un comportement séquentiel est observé dans les données. Dans cette étude, nous nous concentrons sur deux tâches de prédiction de séquences: la prévision de séries temporelles et la prédiction de la requête suivante dans une session de recherche d'informations.Les séries temporelles comprennent souvent des pseudo-périodes, c'est-à-dire des intervalles de temps avec une forte corrélation entre les valeurs des séries temporelles. Les changements saisonniers dans les séries temporelles météorologiques ou la consommation d'électricité le jour et la nuit sont quelques exemples de pseudo-périodes. Dans un scénario de prévision, les pseudo-périodes correspondent à la différence entre les positions de la sortie prévue et les entrées spécifiques. Afin de capturer des périodes dans des RNN, une mémoire de la séquence d'entrée est requise. Les RNN séquence à séquence (avec mécanisme d'attention) réutilisent des (représentations des) valeurs d'entrée spécifiques pour prédire les valeurs de sortie. Les RNN séquence à séquence avec un mécanisme d'attention semblent convenir à la capture de périodes. Ainsi, nous explorons d’abord la capacité d’un mécanisme d’attention dans ce contexte. Cependant, selon notre analyse initiale, un mécanisme d’attention standard ne permet pas de capturer les périodes. Par conséquent, nous proposons un modèle RNN d’attention basé sur le contenu et sensible à la période. Ce modèle étend les RNN séquence à séquence de l'état de l'art avec un mécanisme d’attention. Il vise à capturer les périodes dans une série temporelle avec ou sans valeurs manquantes. Nos résultats expérimentaux avec des RNN contenant un mécanisme d'attention basé sur le contenu et sensible à la période montrent une amélioration significative des performances de prévision des séries temporelles univariées et multivariées sur plusieurs ensembles de données disponibles publiquement.La prédiction de la requête suivante est un autre défi de la prédiction de séquence. La prédiction de la requête suivante aide les utilisateurs à désambiguïser leur requête, à explorer différents aspects de leur besoin en information ou à former une requête précise et succincte qui permet d’optimiser les performances de la recherche. Une session de recherche est dynamique et les besoins en informations d'un utilisateur peuvent changer au cours d'une session de recherche à la suite des interactions de recherche. De plus, les interactions d'un utilisateur avec un moteur de recherche influencent les reformulations de requêtes de l'utilisateur. Considérant cette influence sur les formulations de requête, nous analysons d’abord l’origine des mots des requêtes suivantes. En utilisant l’analyse des sources des mots de requête, nous proposons deux approches de prédiction de requête: une vue d'ensemble et une vue de séquence. La vue d'ensemble adapte une approche de sac de mots en utilisant un nouvel ensemble de traits définis en fonction des sources d'analyse des mots des requêtes suivantes. Ici, la prochaine requête est prédite en utilisant un apprentissage de classification. La vue de séquence étend un modèle RNN hiérarchique en prenant en compte les sources des mots des requêtes suivantes dans la prédiction. Les sources des mots des requêtes suivantes sont incorporées à l'aide d'un mécanisme d'attention sur les mots d'interaction. Nous avons observé que l’utilisation de l’approche séquentielle, une formulation naturelle du problème, et l’exploitation de toutes les sources des mots permettent d’améliorer la prédiction des requêtes suivantes
This thesis investigates challenges of sequence prediction in different scenarios such as sequence prediction using recurrent neural networks (RNNs) in the context of time series and information retrieval (IR) search sessions. Predicting the unknown values that follow some previously observed values is basically called sequence prediction.It is widely applicable to many domains where a sequential behavior is observed in the data. In this study, we focus on two different types of sequence prediction tasks: time series forecasting and next query prediction in an information retrieval search session.Time series often display pseudo-periods, i.e. time intervals with strong correlation between values of time series. Seasonal changes in weather time series or electricity usage at day and night time are some examples of pseudo-periods. In a forecasting scenario, pseudo-periods correspond to the difference between the positions of the output being predicted and specific inputs.In order to capture periods in RNNs, one needs a memory of the input sequence. Sequence-to-sequence RNNs (with attention mechanism) reuse specific (representations of) input values to predict output values. Sequence-to-sequence RNNs with an attention mechanism seem to be adequate for capturing periods. In this manner, we first explore the capability of an attention mechanism in that context. However, according to our initial analysis, a standard attention mechanism did not perform well to capture the periods. Therefore, we propose a period-aware content-based attention RNN model. This model is an extension of state-of-the-art sequence-to-sequence RNNs with attention mechanism and it is aimed to capture the periods in time series with or without missing values.Our experimental results with period-aware content-based attention RNNs show significant improvement on univariate and multivariate time series forecasting performance on several publicly available data sets.Another challenge in sequence prediction is the next query prediction. The next query prediction helps users to disambiguate their search query, to explore different aspects of the information they need or to form a precise and succint query that leads to higher retrieval performance. A search session is dynamic, and the information need of a user might change over a search session as a result of the search interactions. Furthermore, interactions of a user with a search engine influence the user's query reformulations. Considering this influence on the query formulations, we first analyze where the next query words come from? Using the analysis of the sources of query words, we propose two next query prediction approaches: a set view and a sequence view.The set view adapts a bag-of-words approach using a novel feature set defined based on the sources of next query words analysis. Here, the next query is predicted using learning to rank. The sequence view extends a hierarchical RNN model by considering the sources of next query words in the prediction. The sources of next query words are incorporated by using an attention mechanism on the interaction words. We have observed using sequence approach, a natural formulation of the problem, and exploiting all sources of evidence lead to better next query prediction
APA, Harvard, Vancouver, ISO, and other styles
15

Gerchinovitz, Sébastien. "Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00653550.

Full text
Abstract:
Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique.
APA, Harvard, Vancouver, ISO, and other styles
16

Huard, Malo. "Apprentissage et prévision séquentiels : bornes uniformes pour le regret linéaire et séries temporelles hiérarchiques." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM009.

Full text
Abstract:
Ce travail présente quelques contributions théoriques et pratiques à la prévision des suites arbitraires. Dans ce domaine, la prévision se déroule séquentiellement en même temps que l'apprentissage. À chaque étape, on ajuste le modèle sur les données passées afin de prévoir la prochaine observation. Le but de ce modèle est de faire les meilleures prévisions possibles, c'est-à-dire celles qui minimisent leurs écarts avec les observations. Les méthodes d'apprentissage séquentielles sont évaluées par leur regret, qui mesure à quelle point une stratégie est proche de la meilleure possible, qui est seulement connue une fois l'ensemble des données disponible. Un des résultats de cette thèse est d'étendre l'ensemble des stratégies auxquels on se compare lorsque l'on fait de la régression linéaire séquentielle. Nous avons adapté un algorithme existant en améliorant ses garanties théoriques pour lui permettre de se comparer à n'importe quelle combinaison linéaire constante sans restriction sur la norme de ses poids de mélange. Un deuxième travail a consisté à étendre les méthodes de prévisions séquentielles lorsque les données à prévoir sont hiérarchiquement organisées. Nous avons testé ces méthodes hiérarchiques sur deux applications pratiques, la prévision de consommation électrique des ménages et la prévision de ventes pour le e-commerce
This work presents some theoretical and practical contributions to the prediction of arbitrary sequences. In this domain, forecasting takes place sequentially at the same time as learning. At each step, the model is fitted on the past data in order to predict the next observation. The goal of this model is to make the best possible predictions, i.e. those that minimize their deviations from the observations, which are made a posteriori. Sequential learning methods are evaluated by their regret, which measures how close strategies are to the best possible, known only after all the data is available. In this thesis, we extend the set of weights vectors a method is compared to when doing sequential linear regression. We have adapted an existing algorithm by improving its theoretical guarantees allowing it to be compared to any constant linear combination without restriction on the norm of its mixing weights. A second work consisted in extending sequential forecasting methods when forcasted data is organized in a hierarchy. We tested these hierarchical methods on two practical applications, household power consumption prediction and demand forecasts in e-commerce
APA, Harvard, Vancouver, ISO, and other styles
17

Papoutsis, Panayotis. "Potentiel et prévision des temps d'attente pour le covoiturage sur un territoire." Thesis, Ecole centrale de Nantes, 2021. http://www.theses.fr/2021ECDN0059.

Full text
Abstract:
Cette thèse s’intéresse au potentiel et à la prévision des temps d’attente concernant le covoiturage sur un territoire en utilisant des méthodes d’apprentissage statistique. Cinq thèmes principaux sont abordés dans le présent manuscrit. Le premier présente des techniques de régression quantile afin de prédire des temps d’attente. Le deuxième détaille la construction d’un processus de travail empruntant des outils des Systèmes d’Information Géographique (SIG) afin d’exploiter pleinement les données issues du covoiturage. Dans un troisième temps nous construisons un modèle hiérarchique bayésien en vue de prédire des flux de trafic et des temps d’attente. En quatrième partie nous proposons une méthode de construction d’une loi a priori informative par transfert bayésien dans le but d’améliorer les prédictions des temps d’attente pour une situation de jeu de données court. Enfin, le dernier thème se concentre sur la mise en production et l’exploitation industrielle du modèle hiérarchique bayésien
This thesis focuses on the potential and prediction of carpooling waiting times in a territory using statistical learning methods. Five main themes are covered in this manuscript. The first presents quantile regression techniques to predict waiting times. The second details the construction of a workflow based on Geographic Information Systems (GIS) tools in order to fully leverage the carpooling data. In a third part we develop a hierarchical bayesian model in order to predict traffic flows and waiting times. In the fourth part, we propose a methodology for constructing an informative prior by bayesian transfer to improve the prediction of waiting times for a short dataset situation. Lastly, the final theme focuses on the production and industrial exploitation of the bayesian hierarchical model
APA, Harvard, Vancouver, ISO, and other styles
18

Abtini, Mona. "Plans prédictifs à taille fixe et séquentiels pour le krigeage." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEC019/document.

Full text
Abstract:
La simulation numérique est devenue une alternative à l’expérimentation réelle pour étudier des phénomènes physiques. Cependant, les phénomènes complexes requièrent en général un nombre important de simulations, chaque simulation étant très coûteuse en temps de calcul. Une approche basée sur la théorie des plans d’expériences est souvent utilisée en vue de réduire ce coût de calcul. Elle consiste à partir d’un nombre réduit de simulations, organisées selon un plan d’expériences numériques, à construire un modèle d’approximation souvent appelé métamodèle, alors beaucoup plus rapide à évaluer que le code lui-même. Traditionnellement, les plans utilisés sont des plans de type Space-Filling Design (SFD). La première partie de la thèse concerne la construction de plans d’expériences SFD à taille fixe adaptés à l’identification d’un modèle de krigeage car le krigeage est un des métamodèles les plus populaires. Nous étudions l’impact de la contrainte Hypercube Latin (qui est le type de plans les plus utilisés en pratique avec le modèle de krigeage) sur des plans maximin-optimaux. Nous montrons que cette contrainte largement utilisée en pratique est bénéfique quand le nombre de points est peu élevé car elle atténue les défauts de la configuration maximin-optimal (majorité des points du plan aux bords du domaine). Un critère d’uniformité appelé discrépance radiale est proposé dans le but d’étudier l’uniformité des points selon leur position par rapport aux bords du domaine. Ensuite, nous introduisons un proxy pour le plan minimax-optimal qui est le plan le plus proche du plan IMSE (plan adapté à la prédiction par krigeage) et qui est coûteux en temps de calcul, ce proxy est basé sur les plans maximin-optimaux. Enfin, nous présentons une procédure bien réglée de l’optimisation par recuit simulé pour trouver les plans maximin-optimaux. Il s’agit ici de réduire au plus la probabilité de tomber dans un optimum local. La deuxième partie de la thèse porte sur un problème légèrement différent. Si un plan est construit de sorte à être SFD pour N points, il n’y a aucune garantie qu’un sous-plan à n points (n 6 N) soit SFD. Or en pratique le plan peut être arrêté avant sa réalisation complète. La deuxième partie est donc dédiée au développement de méthodes de planification séquentielle pour bâtir un ensemble d’expériences de type SFD pour tout n compris entre 1 et N qui soient toutes adaptées à la prédiction par krigeage. Nous proposons une méthode pour générer des plans séquentiellement ou encore emboités (l’un est inclus dans l’autre) basée sur des critères d’information, notamment le critère d’Information Mutuelle qui mesure la réduction de l’incertitude de la prédiction en tout point du domaine entre avant et après l’observation de la réponse aux points du plan. Cette approche assure la qualité des plans obtenus pour toutes les valeurs de n, 1 6 n 6 N. La difficulté est le calcul du critère et notamment la génération de plans en grande dimension. Pour pallier ce problème une solution a été présentée. Cette solution propose une implémentation astucieuse de la méthode basée sur le découpage par blocs des matrices de covariances ce qui la rend numériquement efficace
In recent years, computer simulation models are increasingly used to study complex phenomena. Such problems usually rely on very large sophisticated simulation codes that are very expensive in computing time. The exploitation of these codes becomes a problem, especially when the objective requires a significant number of evaluations of the code. In practice, the code is replaced by global approximation models, often called metamodels, most commonly a Gaussian Process (kriging) adjusted to a design of experiments, i.e. on observations of the model output obtained on a small number of simulations. Space-Filling-Designs which have the design points evenly spread over the entire feasible input region, are the most used designs. This thesis consists of two parts. The main focus of both parts is on construction of designs of experiments that are adapted to kriging, which is one of the most popular metamodels. Part I considers the construction of space-fillingdesigns of fixed size which are adapted to kriging prediction. This part was started by studying the effect of Latin Hypercube constraint (the most used design in practice with the kriging) on maximin-optimal designs. This study shows that when the design has a small number of points, the addition of the Latin Hypercube constraint will be useful because it mitigates the drawbacks of maximin-optimal configurations (the position of the majority of points at the boundary of the input space). Following this study, an uniformity criterion called Radial discrepancy has been proposed in order to measure the uniformity of the points of the design according to their distance to the boundary of the input space. Then we show that the minimax-optimal design is the closest design to IMSE design (design which is adapted to prediction by kriging) but is also very difficult to evaluate. We then introduce a proxy for the minimax-optimal design based on the maximin-optimal design. Finally, we present an optimised implementation of the simulated annealing algorithm in order to find maximin-optimal designs. Our aim here is to minimize the probability of falling in a local minimum configuration of the simulated annealing. The second part of the thesis concerns a slightly different problem. If XN is space-filling-design of N points, there is no guarantee that any n points of XN (1 6 n 6 N) constitute a space-filling-design. In practice, however, we may have to stop the simulations before the full realization of design. The aim of this part is therefore to propose a new methodology to construct sequential of space-filling-designs (nested designs) of experiments Xn for any n between 1 and N that are all adapted to kriging prediction. We introduce a method to generate nested designs based on information criteria, particularly the Mutual Information criterion. This method ensures a good quality forall the designs generated, 1 6 n 6 N. A key difficulty of this method is that the time needed to generate a MI-sequential design in the highdimension case is very larg. To address this issue a particular implementation, which calculates the determinant of a given matrix by partitioning it into blocks. This implementation allows a significant reduction of the computational cost of MI-sequential designs, has been proposed
APA, Harvard, Vancouver, ISO, and other styles
19

Benbouzid, Djalel. "Sequential prediction for budgeted learning : Application to trigger design." Phd thesis, Université Paris Sud - Paris XI, 2014. http://tel.archives-ouvertes.fr/tel-00990245.

Full text
Abstract:
Classification in machine learning has been extensively studied during the pastdecades. Many solutions have been proposed to output accurate classifiers and toobtain statistical grantees on the unseen observations. However, when machinelearning algorithms meet concrete industrial or scientific applications, new computationalcriteria appear to be as important to satisfy as those of classificationaccuracy. In particular, when the output classifier must comply with a computationalbudget needed to obtain the features that are evaluated at test time, wetalk about "budgeted" learning. The features can have different acquisition costsand, often, the most discriminative features are the costlier. Medical diagnosis andweb-page ranking, for instance, are typical applications of budgeted learning. Inthe former, the goal is to limit the number of medical tests evaluate for patients,and in the latter, the ranker has limited time to order documents before the usergoes away.This thesis introduces a new way of tackling classification in general and budgetedlearning problems in particular, through a novel framework lying in theintersection of supervised learning and decision theory. We cast the classificationproblem as a sequential decision making procedure and show that this frameworkyields fast and accurate classifiers. Unlike classical classification algorithms thatoutput a "one-shot" answer, we show that considering the classification as a seriesof small steps wherein the information is gathered sequentially also providesa flexible framework that allows to accommodate different types of budget constraintsin a "natural" way. In particular, we apply our method to a novel type ofbudgeted learning problems motivated by particle physics experiments. The particularityof this problem lies in atypical budget constraints and complex cost calculationschemata where the calculation of the different features depends on manyfactors. We also review similar sequential approaches that have recently known aparticular interest and provide a global perspective on this new paradigm.
APA, Harvard, Vancouver, ISO, and other styles
20

Calandriello, Daniele. "Efficient sequential learning in structured and constrained environments." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10216/document.

Full text
Abstract:
L'avantage principal des méthodes d'apprentissage non-paramétriques réside dans le fait que la nombre de degrés de libertés du modèle appris s'adapte automatiquement au nombre d'échantillons. Ces méthodes sont cependant limitées par le "fléau de la kernelisation": apprendre le modèle requière dans un premier temps de construire une matrice de similitude entre tous les échantillons. La complexité est alors quadratique en temps et espace, ce qui s'avère rapidement trop coûteux pour les jeux de données de grande dimension. Cependant, la dimension "effective" d'un jeu de donnée est bien souvent beaucoup plus petite que le nombre d'échantillons lui-même. Il est alors possible de substituer le jeu de donnée réel par un jeu de données de taille réduite (appelé "dictionnaire") composé exclusivement d'échantillons informatifs. Malheureusement, les méthodes avec garanties théoriques utilisant des dictionnaires comme "Ridge Leverage Score" (RLS) ont aussi une complexité quadratique. Dans cette thèse nous présentons une nouvelle méthode d'échantillonage RLS qui met à jour le dictionnaire séquentiellement en ne comparant chaque nouvel échantillon qu'avec le dictionnaire actuel, et non avec l'ensemble des échantillons passés. Nous montrons que la taille de tous les dictionnaires ainsi construits est de l'ordre de la dimension effective du jeu de données final, garantissant ainsi une complexité en temps et espace à chaque étape indépendante du nombre total d'échantillons. Cette méthode présente l’avantage de pouvoir être parallélisée. Enfin, nous montrons que de nombreux problèmes d'apprentissage non-paramétriques peuvent être résolus de manière approchée grâce à notre méthode
The main advantage of non-parametric models is that the accuracy of the model (degrees of freedom) adapts to the number of samples. The main drawback is the so-called "curse of kernelization": to learn the model we must first compute a similarity matrix among all samples, which requires quadratic space and time and is unfeasible for large datasets. Nonetheless the underlying effective dimension (effective d.o.f.) of the dataset is often much smaller than its size, and we can replace the dataset with a subset (dictionary) of highly informative samples. Unfortunately, fast data-oblivious selection methods (e.g., uniform sampling) almost always discard useful information, while data-adaptive methods that provably construct an accurate dictionary, such as ridge leverage score (RLS) sampling, have a quadratic time/space cost. In this thesis we introduce a new single-pass streaming RLS sampling approach that sequentially construct the dictionary, where each step compares a new sample only with the current intermediate dictionary and not all past samples. We prove that the size of all intermediate dictionaries scales only with the effective dimension of the dataset, and therefore guarantee a per-step time and space complexity independent from the number of samples. This reduces the overall time required to construct provably accurate dictionaries from quadratic to near-linear, or even logarithmic when parallelized. Finally, for many non-parametric learning problems (e.g., K-PCA, graph SSL, online kernel learning) we we show that we can can use the generated dictionaries to compute approximate solutions in near-linear that are both provably accurate and empirically competitive
APA, Harvard, Vancouver, ISO, and other styles
21

Lonjarret, Corentin. "Sequential recommendation and explanations." Thesis, Lyon, 2021. http://theses.insa-lyon.fr/publication/2021LYSEI003/these.pdf.

Full text
Abstract:
Ces dernière années, les systèmes de recommandation ont reçu beaucoup d'attention avec l'élaboration de nombreuses propositions qui tirent parti des nouvelles avancées dans les domaines du Machine Learning et du Deep Learning. Grâce à l'automatisation de la collecte des données des actions des utilisateurs tels que l'achat d'un objet, le visionnage d'un film ou le clic sur un article de presse, les systèmes de recommandation ont accès à de plus en plus d'information. Ces données sont des retours implicites des utilisateurs (appelé «~implicit feedback~» en anglais) et permettent de conserver l'ordre séquentiel des actions de l’utilisateur. C'est dans ce contexte qu'ont émergé les systèmes de recommandations qui prennent en compte l’aspect séquentiel des données. Le but de ces approches est de combiner les préférences des utilisateurs (le goût général de l’utilisateur) et la dynamique séquentielle (les tendances à court terme des actions de l'utilisateur) afin de prévoir la ou les prochaines actions d'un utilisateur. Dans cette thèse, nous étudions la recommandation séquentielle qui vise à prédire le prochain article/action de l'utilisateur à partir des retours implicites des utilisateurs. Notre principale contribution, REBUS, est un nouveau modèle dans lequel seuls les items sont projetés dans un espace euclidien d'une manière qui intègre et unifie les préférences de l'utilisateur et la dynamique séquentielle. Pour saisir la dynamique séquentielle, REBUS utilise des séquences fréquentes afin de capturer des chaînes de Markov d'ordre personnalisé. Nous avons mené une étude empirique approfondie et démontré que notre modèle surpasse les performances des différents modèles de l’état de l’art, en particulier sur des jeux de données éparses. Nous avons également intégré REBUS dans myCADservices, une plateforme collaborative de la société française Visiativ. Nous présentons notre retour d'expérience sur cette mise en production du fruit de nos travaux de recherche. Enfin, nous avons proposé une nouvelle approche pour expliquer les recommandations fournies aux utilisateurs. Le fait de pouvoir expliquer une recommandation permet de contribuer à accroître la confiance qu'un utilisateur peut avoir dans un système de recommandation. Notre approche est basée sur la découverte de sous-groupes pour fournir des explications interprétables d'une recommandation pour tous types de modèles qui utilisent comme données d’entrée les retours implicites des utilisateurs
Recommender systems have received a lot of attention over the past decades with the proposal of many models that take advantage of the most advanced models of Deep Learning and Machine Learning. With the automation of the collect of user actions such as purchasing of items, watching movies, clicking on hyperlinks, the data available for recommender systems is becoming more and more abundant. These data, called implicit feedback, keeps the sequential order of actions. It is in this context that sequence-aware recommender systems have emerged. Their goal is to combine user preference (long-term users' profiles) and sequential dynamics (short-term tendencies) in order to recommend next actions to a user. In this thesis, we investigate sequential recommendation that aims to predict the user's next item/action from implicit feedback. Our main contribution is REBUS, a new metric embedding model, where only items are projected to integrate and unify user preferences and sequential dynamics. To capture sequential dynamics, REBUS uses frequent sequences in order to provide personalized order Markov chains. We have carried out extensive experiments and demonstrate that our method outperforms state-of-the-art models, especially on sparse datasets. Moreover we share our experience on the implementation and the integration of REBUS in myCADservices, a collaborative platform of the French company Visiativ. We also propose methods to explain the recommendations provided by recommender systems in the research line of explainable AI that has received a lot of attention recently. Despite the ubiquity of recommender systems only few researchers have attempted to explain the recommendations according to user input. However, being able to explain a recommendation would help increase the confidence that a user can have in a recommendation system. Hence, we propose a method based on subgroup discovery that provides interpretable explanations of a recommendation for models that use implicit feedback
APA, Harvard, Vancouver, ISO, and other styles
22

Bouaziz, Mohamed. "Réseaux de neurones récurrents pour la classification de séquences dans des flux audiovisuels parallèles." Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0224/document.

Full text
Abstract:
Les flux de contenus audiovisuels peuvent être représentés sous forme de séquences d’événements (par exemple, des suites d’émissions, de scènes, etc.). Ces données séquentielles se caractérisent par des relations chronologiques pouvant exister entre les événements successifs. Dans le contexte d’une chaîne TV, la programmation des émissions suit une cohérence définie par cette même chaîne, mais peut également être influencée par les programmations des chaînes concurrentes. Dans de telles conditions,les séquences d’événements des flux parallèles pourraient ainsi fournir des connaissances supplémentaires sur les événements d’un flux considéré.La modélisation de séquences est un sujet classique qui a été largement étudié, notamment dans le domaine de l’apprentissage automatique. Les réseaux de neurones récurrents de type Long Short-Term Memory (LSTM) ont notamment fait leur preuve dans de nombreuses applications incluant le traitement de ce type de données. Néanmoins,ces approches sont conçues pour traiter uniquement une seule séquence d’entrée à la fois. Notre contribution dans le cadre de cette thèse consiste à élaborer des approches capables d’intégrer conjointement des données séquentielles provenant de plusieurs flux parallèles.Le contexte applicatif de ce travail de thèse, réalisé en collaboration avec le Laboratoire Informatique d’Avignon et l’entreprise EDD, consiste en une tâche de prédiction du genre d’une émission télévisée. Cette prédiction peut s’appuyer sur les historiques de genres des émissions précédentes de la même chaîne mais également sur les historiques appartenant à des chaînes parallèles. Nous proposons une taxonomie de genres adaptée à de tels traitements automatiques ainsi qu’un corpus de données contenant les historiques parallèles pour 4 chaînes françaises.Deux méthodes originales sont proposées dans ce manuscrit, permettant d’intégrer les séquences des flux parallèles. La première, à savoir, l’architecture des LSTM parallèles(PLSTM) consiste en une extension du modèle LSTM. Les PLSTM traitent simultanément chaque séquence dans une couche récurrente indépendante et somment les sorties de chacune de ces couches pour produire la sortie finale. Pour ce qui est de la seconde proposition, dénommée MSE-SVM, elle permet de tirer profit des avantages des méthodes LSTM et SVM. D’abord, des vecteurs de caractéristiques latentes sont générés indépendamment, pour chaque flux en entrée, en prenant en sortie l’événement à prédire dans le flux principal. Ces nouvelles représentations sont ensuite fusionnées et données en entrée à un algorithme SVM. Les approches PLSTM et MSE-SVM ont prouvé leur efficacité dans l’intégration des séquences parallèles en surpassant respectivement les modèles LSTM et SVM prenant uniquement en compte les séquences du flux principal. Les deux approches proposées parviennent bien à tirer profit des informations contenues dans les longues séquences. En revanche, elles ont des difficultés à traiter des séquences courtes.L’approche MSE-SVM atteint globalement de meilleures performances que celles obtenues par l’approche PLSTM. Cependant, le problème rencontré avec les séquences courtes est plus prononcé pour le cas de l’approche MSE-SVM. Nous proposons enfin d’étendre cette approche en permettant d’intégrer des informations supplémentaires sur les événements des séquences en entrée (par exemple, le jour de la semaine des émissions de l’historique). Cette extension, dénommée AMSE-SVM améliore remarquablement la performance pour les séquences courtes sans les baisser lorsque des séquences longues sont présentées
In the same way as TV channels, data streams are represented as a sequence of successive events that can exhibit chronological relations (e.g. a series of programs, scenes, etc.). For a targeted channel, broadcast programming follows the rules defined by the channel itself, but can also be affected by the programming of competing ones. In such conditions, event sequences of parallel streams could provide additional knowledge about the events of a particular stream. In the sphere of machine learning, various methods that are suited for processing sequential data have been proposed. Long Short-Term Memory (LSTM) Recurrent Neural Networks have proven its worth in many applications dealing with this type of data. Nevertheless, these approaches are designed to handle only a single input sequence at a time. The main contribution of this thesis is about developing approaches that jointly process sequential data derived from multiple parallel streams. The application task of our work, carried out in collaboration with the computer science laboratory of Avignon (LIA) and the EDD company, seeks to predict the genre of a telecast. This prediction can be based on the histories of previous telecast genres in the same channel but also on those belonging to other parallel channels. We propose a telecast genre taxonomy adapted to such automatic processes as well as a dataset containing the parallel history sequences of 4 French TV channels. Two original methods are proposed in this work in order to take into account parallel stream sequences. The first one, namely the Parallel LSTM (PLSTM) architecture, is an extension of the LSTM model. PLSTM simultaneously processes each sequence in a separate recurrent layer and sums the outputs of each of these layers to produce the final output. The second approach, called MSE-SVM, takes advantage of both LSTM and Support Vector Machines (SVM) methods. Firstly, latent feature vectors are independently generated for each input stream, using the output event of the main one. These new representations are then merged and fed to an SVM algorithm. The PLSTM and MSE-SVM approaches proved their ability to integrate parallel sequences by outperforming, respectively, the LSTM and SVM models that only take into account the sequences of the main stream. The two proposed approaches take profit of the information contained in long sequences. However, they have difficulties to deal with short ones. Though MSE-SVM generally outperforms the PLSTM approach, the problem experienced with short sequences is more pronounced for MSE-SVM. Finally, we propose to extend this approach by feeding additional information related to each event in the input sequences (e.g. the weekday of a telecast). This extension, named AMSE-SVM, has a remarkably better behavior with short sequences without affecting the performance when processing long ones
APA, Harvard, Vancouver, ISO, and other styles
23

Almuhisen, Feda. "Leveraging formal concept analysis and pattern mining for moving object trajectory analysis." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0738/document.

Full text
Abstract:
Cette thèse présente un cadre de travail d'analyse de trajectoires contenant une phase de prétraitement et un processus d’extraction de trajectoires d’objets mobiles. Le cadre offre des fonctions visuelles reflétant le comportement d'évolution des motifs de trajectoires. L'originalité de l’approche est d’allier extraction de motifs fréquents, extraction de motifs émergents et analyse formelle de concepts pour analyser les trajectoires. A partir des données de trajectoires, les méthodes proposées détectent et caractérisent les comportements d'évolution des motifs. Trois contributions sont proposées : Une méthode d'analyse des trajectoires, basée sur les concepts formels fréquents, est utilisée pour détecter les différents comportements d’évolution de trajectoires dans le temps. Ces comportements sont “latents”, "emerging", "decreasing", "lost" et "jumping". Ils caractérisent la dynamique de la mobilité par rapport à l'espace urbain et le temps. Les comportements détectés sont visualisés sur des cartes générées automatiquement à différents niveaux spatio-temporels pour affiner l'analyse de la mobilité dans une zone donnée de la ville. Une deuxième méthode basée sur l'extraction de concepts formels séquentiels fréquents a également été proposée pour exploiter la direction des mouvements dans la détection de l'évolution. Enfin, une méthode de prédiction basée sur les chaînes de Markov est présentée pour prévoir le comportement d’évolution dans la future période pour une région. Ces trois méthodes sont évaluées sur ensembles de données réelles . Les résultats expérimentaux obtenus sur ces données valident la pertinence de la proposition et l'utilité des cartes produites
This dissertation presents a trajectory analysis framework, which includes both a preprocessing phase and trajectory mining process. Furthermore, the framework offers visual functions that reflect trajectory patterns evolution behavior. The originality of the mining process is to leverage frequent emergent pattern mining and formal concept analysis for moving objects trajectories. These methods detect and characterize pattern evolution behaviors bound to time in trajectory data. Three contributions are proposed: (1) a method for analyzing trajectories based on frequent formal concepts is used to detect different trajectory patterns evolution over time. These behaviors are "latent", "emerging", "decreasing", "lost" and "jumping". They characterize the dynamics of mobility related to urban spaces and time. The detected behaviors are automatically visualized on generated maps with different spatio-temporal levels to refine the analysis of mobility in a given area of the city, (2) a second trajectory analysis framework that is based on sequential concept lattice extraction is also proposed to exploit the movement direction in the evolution detection process, and (3) prediction method based on Markov chain is presented to predict the evolution behavior in the future period for a region. These three methods are evaluated on two real-world datasets. The obtained experimental results from these data show the relevance of the proposal and the utility of the generated maps
APA, Harvard, Vancouver, ISO, and other styles
24

Labidi, Mouchira. "Optimisation de chaufferies collectives multi-energies : dimensionnement et commande de systèmes de stockage thermique par hydro-accumulation." Thesis, Perpignan, 2015. http://www.theses.fr/2015PERP0007.

Full text
Abstract:
Les travaux présentés dans ce manuscrit portent sur l’optimisation d’une chaufferie collective multi-énergie en l’équipant d’un système de stockage thermique de type hydro-accumulation. L’efficacité de ce dernier dépend de sa capacité à conserver son énergie initiale. Ainsi, pour minimiser les pertes thermiques, le système de stockage doit être correctement isolé. Un modèle de ballon d’hydro-accumulation stratifié est développé et validé expérimentalement. Une étude paramétrique est menée afin d’étudier l’impact, sur les pertes thermiques, de paramètres géométriques et météorologiques. Ensuite, une approche de dimensionnement, fondée sur une stratégie de gestion séquentielle et une étude paramétrique est proposée. Plusieurs critères énergétiques et économiques peuvent ainsi être évalués pour différents volumes de stockage thermique. L’approche de dimensionnement proposée a été appliquée à plusieurs sites exploités par Cofely GDF-Suez, notre partenaire industriel. Les résultats obtenus montrent que le dimensionnement optimal du système de stockage et la gestion intelligente du procédé permettent d'optimiser le fonctionnement d’un site. Des économies énergétiques et financières importantes peuvent ainsi être réalisées. La stratégie de gestion séquentielle proposée n’anticipe pas les besoins du réseau de chaleur. C’est pourquoi une stratégie fondée sur la commande prédictive (MPC pour Model Predictive Control) est susceptible d’améliorer le fonctionnement et les performances d’une chaufferie collective équipée d’un système d’hydro-accumulation. Afin de mettre en œuvre un tel contrôleur, la puissance thermique demandée par le réseau de chaleur doit être correctement prédite. Par conséquent, une méthode de prédiction a été développée. Elle s’appuie sur une analyse multi-résolution par transformée en ondelettes discrète et sur l’utilisation de réseaux de neurones artificiels de type perceptron multicouche. La stratégie séquentielle (non prédictive) et la stratégie prédictive ont été appliquées à une chaufferie collective mixte située dans une commune du nord de la France. Pour ce cas d’étude, la stratégie prédictive est plus efficace. De plus, les résultats montrent que, quelle que soit la stratégie utilisée, équiper la chaufferie d’un système d’hydro-accumulation correctement dimensionné est un investissement rentable. Il permet de minimiser la consommation d’énergie fossile et, par conséquent, le coût économique et les émissions de CO2
The present work deals with optimizing a multi-energy district boiler by adding to the plant a thermal water storage tank. The effectiveness of such a system depends on how long the stored energy can be kept without considerable degradation. The storage tank should be properly insulated to reduce the rate of heat loss. Thus, firstly, a stratified water thermal storage model is developed and experimentally validated. A parametric study is carried out to determine the influence of geometric and meteorological parameters on heat loss. Next, a reliable sizing method based on a sequential management strategy and a parametric study is proposed. Various energy and economic criteria have been evaluated for a range of thermal storage sizes. The proposed methodology has been applied to many plants managed by Cofely GDF-Suez, our industrial partner. Results highlight the ability of a thermal storage tank (optimally sized and managed) to improve the operation of a multi-energy district boiler and realize significant energy and economic savings. The main drawback of the proposed sequential management strategy lies in not taking into account the future power demand. That is why a strategy based on a Model Predictive Controller (MPC) is likely to improve operation and performance. In order to implement such a controller, the power demand has to be accurately forecasted. As a consequence, a short-term forecast method, based on wavelet-based Multi-Resolution Analysis (MRA) and multilayer Artificial Neural Networks (ANN) is proposed. Both the sequential and the predictive strategies are applied to a northeast France multi-energy district boiler selected as a case study. The main result to retain is that the efficiency of water thermal storage tank is mainly related to its design and the way it is managed. For this case study, the predictive strategy regardless the size of the storage tank, the predictive strategy is more reliable. Furthermore, in all cases an adequately sized and managed thermal storage tank is a profitable investment. It allows the fossil energy consumption to be significantly reduced. The same remark applies to the functioning costs and CO2 emissions
APA, Harvard, Vancouver, ISO, and other styles
25

Almuhisen, Feda. "Leveraging formal concept analysis and pattern mining for moving object trajectory analysis." Electronic Thesis or Diss., Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0738.

Full text
Abstract:
Cette thèse présente un cadre de travail d'analyse de trajectoires contenant une phase de prétraitement et un processus d’extraction de trajectoires d’objets mobiles. Le cadre offre des fonctions visuelles reflétant le comportement d'évolution des motifs de trajectoires. L'originalité de l’approche est d’allier extraction de motifs fréquents, extraction de motifs émergents et analyse formelle de concepts pour analyser les trajectoires. A partir des données de trajectoires, les méthodes proposées détectent et caractérisent les comportements d'évolution des motifs. Trois contributions sont proposées : Une méthode d'analyse des trajectoires, basée sur les concepts formels fréquents, est utilisée pour détecter les différents comportements d’évolution de trajectoires dans le temps. Ces comportements sont “latents”, "emerging", "decreasing", "lost" et "jumping". Ils caractérisent la dynamique de la mobilité par rapport à l'espace urbain et le temps. Les comportements détectés sont visualisés sur des cartes générées automatiquement à différents niveaux spatio-temporels pour affiner l'analyse de la mobilité dans une zone donnée de la ville. Une deuxième méthode basée sur l'extraction de concepts formels séquentiels fréquents a également été proposée pour exploiter la direction des mouvements dans la détection de l'évolution. Enfin, une méthode de prédiction basée sur les chaînes de Markov est présentée pour prévoir le comportement d’évolution dans la future période pour une région. Ces trois méthodes sont évaluées sur ensembles de données réelles . Les résultats expérimentaux obtenus sur ces données valident la pertinence de la proposition et l'utilité des cartes produites
This dissertation presents a trajectory analysis framework, which includes both a preprocessing phase and trajectory mining process. Furthermore, the framework offers visual functions that reflect trajectory patterns evolution behavior. The originality of the mining process is to leverage frequent emergent pattern mining and formal concept analysis for moving objects trajectories. These methods detect and characterize pattern evolution behaviors bound to time in trajectory data. Three contributions are proposed: (1) a method for analyzing trajectories based on frequent formal concepts is used to detect different trajectory patterns evolution over time. These behaviors are "latent", "emerging", "decreasing", "lost" and "jumping". They characterize the dynamics of mobility related to urban spaces and time. The detected behaviors are automatically visualized on generated maps with different spatio-temporal levels to refine the analysis of mobility in a given area of the city, (2) a second trajectory analysis framework that is based on sequential concept lattice extraction is also proposed to exploit the movement direction in the evolution detection process, and (3) prediction method based on Markov chain is presented to predict the evolution behavior in the future period for a region. These three methods are evaluated on two real-world datasets. The obtained experimental results from these data show the relevance of the proposal and the utility of the generated maps
APA, Harvard, Vancouver, ISO, and other styles
26

Bubeck, Sébastien. "JEUX DE BANDITS ET FONDATIONS DU CLUSTERING." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2010. http://tel.archives-ouvertes.fr/tel-00845565.

Full text
Abstract:
Ce travail de thèse s'inscrit dans le domaine du machine learning et concerne plus particulièrement les sous-catégories de l'optimisation stochastique, du online learning et du clustering. Ces sous-domaines existent depuis plusieurs décennies mais ils ont tous reçu un éclairage différent au cours de ces dernières années. Notamment, les jeux de bandits offrent aujourd'hui un cadre commun pour l'optimisation stochastique et l'online learning. Ce point de vue conduit a de nombreuses extensions du jeu de base. C'est sur l'étude mathématique de ces jeux que se concentre la première partie de cette thèse. La seconde partie est quant à elle dédiée au clustering et plus particulièrement à deux notions importantes: la consistance asymptotique des algorithmes et la stabilité comme méthode de sélection de modèles.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography