To see the other types of publications on this topic, follow the link: Flux de données sémantiques.

Dissertations / Theses on the topic 'Flux de données sémantiques'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Flux de données sémantiques.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Chevalier, Jules. "Raisonnement incrémental sur des flux de données." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSES008/document.

Full text
Abstract:
Nous proposons dans cette thèse une architecture pour le raisonnement incrémental sur des flux de triples. Afin de passer à l’échelle, elle est conçue sous la forme de modules indépendants, permettant l’exécution parallèle du raisonnement. Plusieurs instances d’une même règle peuvent être exécutées simultanément afin d’améliorer les performances. Nous avons également concentré nos efforts pour limiter la dispersion des doublons dans le système, problème récurrent du raisonnement. Pour cela, un triplestore partagé permet à chaque module de filtrer au plus tôt les doublons. La structure de notre architecture, organisée en modules indépendants par lesquels transitent les triples, lui permet de recevoir en entrée des flux de triples. Enfin, notre architecture est indépendante du fragment utilisé. Nous présentons trois modes d’inférence pour notre architecture. Le premier consiste à inférer l’ensemble des connaissances implicites le plus rapidement possible. Le second priorise l'inférence de certaines connaissances prédéterminées. Le troisième vise à maximiser la quantité de triples inférés par seconde. Nous avons implémenté l’architecture présentée à travers Slider, un raisonneur incrémental prenant nativement en charge les fragments ρdf et RDFS. Il peut être facilement étendu à des fragments plus complexes. Nos expérimentations ont montré une amélioration des performances de plus de 65% par rapport au raisonneur OWLIM-SE. Nous avons également mené des tests montrant que l’utilisation du raisonnement incrémental avec Slider apporte un avantage systématique aux performances par rapport au raisonnement par lots, quels que soient l’ontologie utilisée et le fragment appliqué
In this thesis, we propose an architecture for incremental reasoning on triple streams. To ensure scalability, it is composed of independent modules; thus allowing parallel reasoning. That is, several instances of a same rule can be simultaneously executed to enhance performance. We also focused our efforts to limit the duplicates spreading in the system, a recurrent issue for reasoning. To achieve this, we design a shared triplestore which allows each module to filter duplicates as soon as possible. The triples passes through the different independent modules of the architecture allows the reasoner to receive triple streams as input. Finally, our architecture is of agnostic nature regarding the fragment used for the inference. We also present three inference modes for our architecture: the first one infers all the implicit knowledge as fast as possible; the second mode should be used when the priority has to be defined for the inference of a specific type of knowledge; the third one proposes to maximize the amount of triples inferred per second. We implemented this architecture through Slider, an incremental reasoning natively supporting the fragments ρdf and RDFS: It can easily be extended to more complex fragments. Our experimentations show a 65% improvement over the reasoner OWLIM-SE. However, the recently published reasoner RDFox exhibits better performance, although this one does not provide prioritized inference. We also conducted experimentations showing that the use of incremental reasoning over batch-based reasoning offers systematically better performance for all the ontologies and fragments used
APA, Harvard, Vancouver, ISO, and other styles
2

Belghaouti, Fethi. "Interopérabilité des systèmes distribués produisant des flux de données sémantiques au profit de l'aide à la prise de décision." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL003.

Full text
Abstract:
Internet est une source infinie de données émanant de sources telles que les réseaux sociaux ou les capteurs (domotique, ville intelligente, véhicule autonome, etc.). Ces données hétérogènes et de plus en plus volumineuses, peuvent être gérées grâce au web sémantique, qui propose de les homogénéiser et de les lier et de raisonner dessus, et aux systèmes de gestion de flux de données, qui abordent essentiellement les problèmes liés au volume, à la volatilité et à l’interrogation continue. L’alliance de ces deux disciplines a vu l’essor des systèmes de gestion de flux de données sémantiques RSP (RDF Stream Processing systems). L’objectif de cette thèse est de permettre à ces systèmes, via de nouvelles approches et algorithmes à faible coût, de rester opérationnels, voire plus performants, même en cas de gros volumes de données en entrée et/ou de ressources système limitées.Pour atteindre cet objectif, notre thèse s’articule principalement autour de la problématique du : "Traitement de flux de données sémantiques dans un contexte de systèmes informatiques à ressources limitées". Elle adresse les questions de recherche suivantes : (i) Comment représenter un flux de données sémantiques ? Et (ii) Comment traiter les flux de données sémantiques entrants, lorsque leurs débits et/ou volumes dépassent les capacités du système cible ?Nous proposons comme première contribution une analyse des données circulant dans les flux de données sémantiques pour considérer non pas une succession de triplets indépendants mais plutôt une succession de graphes en étoiles, préservant ainsi les liens entre les triplets. En utilisant cette approche, nous avons amélioré significativement la qualité des réponses de quelques algorithmes d’échantillonnage bien connus dans la littérature pour le délestage des flux. L’analyse de la requête continue permet d’optimiser cette solution en repèrant les données non pertinentes pour être délestées les premières. Dans la deuxième contribution, nous proposons un algorithme de détection de motifs fréquents de graphes RDF dans les flux de données RDF, appelé FreGraPaD (Frequent RDF Graph Patterns Detection). C’est un algorithme en une passe, orienté mémoire et peu coûteux. Il utilise deux structures de données principales un vecteur de bits pour construire et identifier le motif de graphe RDF assurant une optimisation de l’espace mémoire et une table de hachage pour le stockage de ces derniers. La troisième contribution de notre thèse consiste en une solution déterministe de réduction de charge des systèmes RSP appelée POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). Elle utilise des opérateurs booléens très peu coûteux, qu’elle applique aux deux motifs binaires construits de la donnée et de la requête continue pour déterminer et éjecter celle qui est non-pertinente. Elle garantit un rappel de 100%, réduit la charge du système et améliore son temps de réponse. Enfin, notre quatrième contribution est un outil de compression en ligne de flux RDF, appelé Patorc (Pattern Oriented Compression for RSP systems). Il se base sur les motifs fréquents présents dans les flux qu’il factorise. C’est une solution de compression sans perte de données dont l’interrogation sans décompression est très envisageable. Les solutions apportées par cette thèse permettent l’extension des systèmes RSP existants en leur permettant le passage à l’échelle dans un contexte de Bigdata. Elles leur permettent ainsi de manipuler un ou plusieurs flux arrivant à différentes vitesses, sans perdre de leur qualité de réponse et tout en garantissant leur disponibilité au-delà même de leurs limites physiques. Les résultats des expérimentations menées montrent que l’extension des systèmes existants par nos solutions améliore leurs performances. Elles illustrent la diminution considérable de leur temps de réponse, l’augmentation de leur seuil de débit de traitement en entrée tout en optimisant l’utilisation de leurs ressources systèmes
Internet is an infinite source of data coming from sources such as social networks or sensors (home automation, smart city, autonomous vehicle, etc.). These heterogeneous and increasingly large data can be managed through semantic web technologies, which propose to homogenize, link these data and reason above them, and data flow management systems, which mainly address the problems related to volume, volatility and continuous querying. The alliance of these two disciplines has seen the growth of semantic data stream management systems also called RSP (RDF Stream Processing Systems). The objective of this thesis is to allow these systems, via new approaches and "low cost" algorithms, to remain operational, even more efficient, even for large input data volumes and/or with limited system resources.To reach this goal, our thesis is mainly focused on the issue of "Processing semantic data streamsin a context of computer systems with limited resources". It directly contributes to answer the following research questions : (i) How to represent semantic data stream ? And (ii) How to deal with input semantic data when their rates and/or volumes exceed the capabilities of the target system ?As first contribution, we propose an analysis of the data in the semantic data streams in order to consider a succession of star graphs instead of just a success of andependent triples, thus preserving the links between the triples. By using this approach, we significantly impoved the quality of responses of some well known sampling algoithms for load-shedding. The analysis of the continuous query allows the optimisation of this solution by selection the irrelevant data to be load-shedded first. In the second contribution, we propose an algorithm for detecting frequent RDF graph patterns in semantic data streams.We called it FreGraPaD for Frequent RDF Graph Patterns Detection. It is a one pass algorithm, memory oriented and "low-cost". It uses two main data structures : A bit-vector to build and identify the RDF graph pattern, providing thus memory space optimization ; and a hash-table for storing the patterns.The third contribution of our thesis consists of a deterministic load-shedding solution for RSP systems, called POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). It uses very low-cost boolean operators, that we apply on the built binary patterns of the data and the continuous query inorder to determine which data is not relevant to be ejected upstream of the system. It guarantees a recall of 100%, reduces the system load and improves response time. Finally, in the fourth contribution, we propose Patorc (Pattern Oriented Compression for RSP systems). Patorc is an online compression toolfor RDF streams. It is based on the frequent patterns present in RDF data streams that factorizes. It is a data lossless compression solution whith very possible querying without any need to decompression.This thesis provides solutions that allow the extension of existing RSP systems and makes them able to scale in a bigdata context. Thus, these solutions allow the RSP systems to deal with one or more semantic data streams arriving at different speeds, without loosing their response quality while ensuring their availability, even beyond their physical limitations. The conducted experiments, supported by the obtained results show that the extension of existing systems with the new solutions improves their performance. They illustrate the considerable decrease in their engine’s response time, increasing their processing rate threshold while optimizing the use of their system resources
APA, Harvard, Vancouver, ISO, and other styles
3

Belghaouti, Fethi. "Interopérabilité des systèmes distribués produisant des flux de données sémantiques au profit de l'aide à la prise de décision." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL003.

Full text
Abstract:
Internet est une source infinie de données émanant de sources telles que les réseaux sociaux ou les capteurs (domotique, ville intelligente, véhicule autonome, etc.). Ces données hétérogènes et de plus en plus volumineuses, peuvent être gérées grâce au web sémantique, qui propose de les homogénéiser et de les lier et de raisonner dessus, et aux systèmes de gestion de flux de données, qui abordent essentiellement les problèmes liés au volume, à la volatilité et à l’interrogation continue. L’alliance de ces deux disciplines a vu l’essor des systèmes de gestion de flux de données sémantiques RSP (RDF Stream Processing systems). L’objectif de cette thèse est de permettre à ces systèmes, via de nouvelles approches et algorithmes à faible coût, de rester opérationnels, voire plus performants, même en cas de gros volumes de données en entrée et/ou de ressources système limitées.Pour atteindre cet objectif, notre thèse s’articule principalement autour de la problématique du : "Traitement de flux de données sémantiques dans un contexte de systèmes informatiques à ressources limitées". Elle adresse les questions de recherche suivantes : (i) Comment représenter un flux de données sémantiques ? Et (ii) Comment traiter les flux de données sémantiques entrants, lorsque leurs débits et/ou volumes dépassent les capacités du système cible ?Nous proposons comme première contribution une analyse des données circulant dans les flux de données sémantiques pour considérer non pas une succession de triplets indépendants mais plutôt une succession de graphes en étoiles, préservant ainsi les liens entre les triplets. En utilisant cette approche, nous avons amélioré significativement la qualité des réponses de quelques algorithmes d’échantillonnage bien connus dans la littérature pour le délestage des flux. L’analyse de la requête continue permet d’optimiser cette solution en repèrant les données non pertinentes pour être délestées les premières. Dans la deuxième contribution, nous proposons un algorithme de détection de motifs fréquents de graphes RDF dans les flux de données RDF, appelé FreGraPaD (Frequent RDF Graph Patterns Detection). C’est un algorithme en une passe, orienté mémoire et peu coûteux. Il utilise deux structures de données principales un vecteur de bits pour construire et identifier le motif de graphe RDF assurant une optimisation de l’espace mémoire et une table de hachage pour le stockage de ces derniers. La troisième contribution de notre thèse consiste en une solution déterministe de réduction de charge des systèmes RSP appelée POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). Elle utilise des opérateurs booléens très peu coûteux, qu’elle applique aux deux motifs binaires construits de la donnée et de la requête continue pour déterminer et éjecter celle qui est non-pertinente. Elle garantit un rappel de 100%, réduit la charge du système et améliore son temps de réponse. Enfin, notre quatrième contribution est un outil de compression en ligne de flux RDF, appelé Patorc (Pattern Oriented Compression for RSP systems). Il se base sur les motifs fréquents présents dans les flux qu’il factorise. C’est une solution de compression sans perte de données dont l’interrogation sans décompression est très envisageable. Les solutions apportées par cette thèse permettent l’extension des systèmes RSP existants en leur permettant le passage à l’échelle dans un contexte de Bigdata. Elles leur permettent ainsi de manipuler un ou plusieurs flux arrivant à différentes vitesses, sans perdre de leur qualité de réponse et tout en garantissant leur disponibilité au-delà même de leurs limites physiques. Les résultats des expérimentations menées montrent que l’extension des systèmes existants par nos solutions améliore leurs performances. Elles illustrent la diminution considérable de leur temps de réponse, l’augmentation de leur seuil de débit de traitement en entrée tout en optimisant l’utilisation de leurs ressources systèmes
Internet is an infinite source of data coming from sources such as social networks or sensors (home automation, smart city, autonomous vehicle, etc.). These heterogeneous and increasingly large data can be managed through semantic web technologies, which propose to homogenize, link these data and reason above them, and data flow management systems, which mainly address the problems related to volume, volatility and continuous querying. The alliance of these two disciplines has seen the growth of semantic data stream management systems also called RSP (RDF Stream Processing Systems). The objective of this thesis is to allow these systems, via new approaches and "low cost" algorithms, to remain operational, even more efficient, even for large input data volumes and/or with limited system resources.To reach this goal, our thesis is mainly focused on the issue of "Processing semantic data streamsin a context of computer systems with limited resources". It directly contributes to answer the following research questions : (i) How to represent semantic data stream ? And (ii) How to deal with input semantic data when their rates and/or volumes exceed the capabilities of the target system ?As first contribution, we propose an analysis of the data in the semantic data streams in order to consider a succession of star graphs instead of just a success of andependent triples, thus preserving the links between the triples. By using this approach, we significantly impoved the quality of responses of some well known sampling algoithms for load-shedding. The analysis of the continuous query allows the optimisation of this solution by selection the irrelevant data to be load-shedded first. In the second contribution, we propose an algorithm for detecting frequent RDF graph patterns in semantic data streams.We called it FreGraPaD for Frequent RDF Graph Patterns Detection. It is a one pass algorithm, memory oriented and "low-cost". It uses two main data structures : A bit-vector to build and identify the RDF graph pattern, providing thus memory space optimization ; and a hash-table for storing the patterns.The third contribution of our thesis consists of a deterministic load-shedding solution for RSP systems, called POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). It uses very low-cost boolean operators, that we apply on the built binary patterns of the data and the continuous query inorder to determine which data is not relevant to be ejected upstream of the system. It guarantees a recall of 100%, reduces the system load and improves response time. Finally, in the fourth contribution, we propose Patorc (Pattern Oriented Compression for RSP systems). Patorc is an online compression toolfor RDF streams. It is based on the frequent patterns present in RDF data streams that factorizes. It is a data lossless compression solution whith very possible querying without any need to decompression.This thesis provides solutions that allow the extension of existing RSP systems and makes them able to scale in a bigdata context. Thus, these solutions allow the RSP systems to deal with one or more semantic data streams arriving at different speeds, without loosing their response quality while ensuring their availability, even beyond their physical limitations. The conducted experiments, supported by the obtained results show that the extension of existing systems with the new solutions improves their performance. They illustrate the considerable decrease in their engine’s response time, increasing their processing rate threshold while optimizing the use of their system resources
APA, Harvard, Vancouver, ISO, and other styles
4

Dia, Amadou Fall. "Filtrage sémantique et gestion distribuée de flux de données massives." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS495.

Full text
Abstract:
Notre utilisation quotidienne de l’Internet et des technologies connexes génère, de manière continue et à des vitesses rapides et variables, de grandes quantités de données hétérogènes issues des réseaux de capteurs, des logs de moteurs de recherches génériques ou spécialisés, des données de sites de contenu multimédia, des données de mesure de stations météorologiques, de la géolocalisation, des applications IoT (l’Internet des objets), etc. Traiter de telles données dans les bases de données conventionnelles (Systèmes de Gestion de Bases de Données Relationnelles) peut être très coûteux en ressources temporelles et mémoires. Pour répondre efficacement aux besoins et aider à la prise de décision, ces flots d’informations nécessitent des traitements en temps réel. Les Systèmes de Gestion de Flux de Données (SGFDs) posent et évaluent des requêtes sur les données récentes d’un flux dans des structures appelées fenêtre. Les données en entrée des SGFDs sont de différents formats bruts tels que CSV, XML, RSS, ou encore JSON. Ce verrou d’hétérogénéité émane de la nature des flux de données et doit être levé. Pour cela, plusieurs groupes de recherche ont bénéficié des avantages des technologies du web sémantique (RDF et SPARQL) en proposant des systèmes de traitement de flux de données RDF appelés RSPs. Cependant, la volumétrie des données, le débit d’entrée élevé, les requêtes concurrentes, le croisement des flux RDF à de larges volumes de données stockées et les calculs coûteux baissent considérablement les performances de ces systèmes. Il faut prévoir une nouvelle approche de réduction de la charge de traitement des flux de données RDF. Dans cette thèse, nous proposons plusieurs solutions pour réduire la charge de traitement de flux de données en mode centralisé. Une approche d’échantillonnage à la volée de flux de graphes RDF est proposée afin de réduire la charge de données et du traitement des flux tout en préservant les liens sémantiques. Cette approche est approfondie en adoptant une méthode de résumé orienté graphe pour extraire des graphes RDF les informations les plus pertinentes en utilisant des mesures de centralité issues de l’Analyse des Réseaux Sociaux. Nous adoptons également un format compressé des données RDF et proposons une approche d’interrogation de données RDF compressées sans phase de décompression. Pour assurer une gestion parallèle et distribuée des flux de données, le travail présenté propose deux solutions supplémentaires de réduction de la charge de traitement en mode distribué : un moteur de traitement parallèle et distribué de flux de graphes RDF et une approche de traitement optimisé des opérations de croisement entre données statiques et dynamiques sont présentés
Our daily use of the Internet and related technologies generates, at a rapid and variable speeds, large volumes of heterogeneous data issued from sensor networks, search engine logs, multimedia content sites, weather forecasting, geolocation, Internet of Things (IoT) applications, etc. Processing such data in conventional databases (Relational Database Management Systems) may be very expensive in terms of time and memory storage resources. To effectively respond to the needs of rapid decision-making, these streams require real-time processing. Data Stream Management Systems (SGFDs) evaluate queries on the recent data of a stream within structures called windows. The input data are different formats such as CSV, XML, RSS, or JSON. This heterogeneity lock comes from the nature of the data streams and must be resolved. For this, several research groups have benefited from the advantages of semantic web technologies (RDF and SPARQL) by proposing RDF data streams processing systems called RSPs. However, large volumes of RDF data, high input streams, concurrent queries, combination of RDF streams and large volumes of stored RDF data and expensive processing drastically reduce the performance of these systems. A new approach is required to considerably reduce the processing load of RDF data streams. In this thesis, we propose several complementary solutions to reduce the processing load in centralized environment. An on-the-fly RDF graphs streams sampling approach is proposed to reduce data and processing load while preserving semantic links. This approach is deepened by adopting a graph-oriented summary approach to extract the most relevant information from RDF graphs by using centrality measures issued from the Social Networks Analysis. We also adopt a compressed format of RDF data and propose an approach for querying compressed RDF data without decompression phase. To ensure parallel and distributed data streams management, the presented work also proposes two solutions for reducing the processing load in distributed environment. An engine and parallel processing approaches and distributed RDF graphs streams. Finally, an optimized processing approach for static and dynamic data combination operations is also integrated into a new distributed RDF graphs streams management system
APA, Harvard, Vancouver, ISO, and other styles
5

Belaid, Nabil. "Modélisation de services et de workflows sémantiques à base d'ontologies de services et d'indexations." Phd thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2011. https://tel.archives-ouvertes.fr/tel-00605153.

Full text
Abstract:
Les services et les workflows informatiques permettent le traitement ou l'échange d'informations. Toutefois, seules des informations utiles à leur gestion informatique (stockage, exécution, etc. ) sont spécifiées dans les langages de description syntaxique tels que WSDL, BPEL ou XPDL. En effet, ces descriptions ne permettent pas de lier explicitement les services et les workflows informatiques aux fonctions et aux processus implémentés. Pour remédier à ces limitations, nous proposons une approche basée sur la définition d'ontologies de services (conceptualisations partagées) et d'indexations sémantiques. Notre proposition s'appuie sur des bases de données à base ontologique pour stocker et indexer les différents services et workflows. La mise en oeuvre de notre approche consiste en un prototype logiciel permettant de stocker, de rechercher, de remplacer, de réutiliser les services et les workflows informatiques existant et d'en construire de nouveaux de manière incrémentale. Ces travaux sont validés en étant appliqués au domaine de la modélisation géologique
Services and workflows allow computer processing and information exchange. However, only information relevant to their computer management (storage, delivery, etc. ) is specified in the syntactic description languages such as WSDL, BPEL or XPDL. Indeed, these descriptions do not explicitly link the services and workflows to the implemented functions. To overcome these limitations, we propose an approach based on the definition of ontology of services (shared conceptualizations) and semantic indexations. Our proposal in ontology based databases to store and index the different services and workflows. The implementation of our approach is a prototype that enables to store, search, replace, reuse existing IT services and workflows and build new ones incrementally. This work is validated by being applied to the geological modeling field
APA, Harvard, Vancouver, ISO, and other styles
6

Ren, Xiangnan. "Traitement et raisonnement distribués des flux RDF." Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC1139/document.

Full text
Abstract:
Le traitement en temps réel des flux de données émanant des capteurs est devenu une tâche courante dans de nombreux scénarios industriels. Dans le contexte de l'Internet des objets (IoT), les données sont émises par des sources de flux hétérogènes, c'est-à-dire provenant de domaines et de modèles de données différents. Cela impose aux applications de l'IoT de gérer efficacement l'intégration de données à partir de ressources diverses. Le traitement des flux RDF est dès lors devenu un domaine de recherche important. Cette démarche basée sur des technologies du Web Sémantique supporte actuellement de nombreuses applications innovantes où les notions de temps réel et de raisonnement sont prépondérantes. La recherche présentée dans ce manuscrit s'attaque à ce type d'application. En particulier, elle a pour objectif de gérer efficacement les flux de données massifs entrants et à avoir des services avancés d’analyse de données, e.g., la détection d’anomalie. Cependant, un moteur de RDF Stream Processing (RSP) moderne doit prendre en compte les caractéristiques de volume et de vitesse rencontrées à l'ère du Big Data. Dans un projet industriel d'envergure, nous avons découvert qu'un moteur de traitement de flux disponible 24/7 est généralement confronté à un volume de données massives, avec des changements dynamiques de la structure des données et les caractéristiques de la charge du système. Pour résoudre ces problèmes, nous proposons Strider, un moteur de traitement de flux RDF distribué, hybride et adaptatif qui optimise le plan de requête logique selon l’état des flux de données. Strider a été conçu pour garantir d'importantes propriétés industrielles telles que l'évolutivité, la haute disponibilité, la tolérance aux pannes, le haut débit et une latence acceptable. Ces garanties sont obtenues en concevant l'architecture du moteur avec des composants actuellement incontournables du Big Data: Apache Spark et Apache Kafka. De plus, un nombre croissant de traitements exécutés sur des moteurs RSP nécessitent des mécanismes de raisonnement. Ils se traduisent généralement par un compromis entre le débit de données, la latence et le coût computationnel des inférences. Par conséquent, nous avons étendu Strider pour prendre en charge la capacité de raisonnement en temps réel avec un support d'expressivité d'ontologies en RDFS + (i.e., RDFS + owl:sameAs). Nous combinons Strider avec une approche de réécriture de requêtes pour SPARQL qui bénéficie d'un encodage intelligent pour les bases de connaissances. Le système est évalué selon différentes dimensions et sur plusieurs jeux de données, pour mettre en évidence ses performances. Enfin, nous avons exploré le raisonnement du flux RDF dans un contexte d'ontologies exprimés avec un fragment d'ASP (Answer Set Programming). La considération de cette problématique de recherche est principalement motivée par le fait que de plus en plus d'applications de streaming nécessitent des tâches de raisonnement plus expressives et complexes. Le défi principal consiste à gérer les dimensions de débit et de latence avec des méthologies efficaces. Les efforts récents dans ce domaine ne considèrent pas l'aspect de passage à l'échelle du système pour le raisonnement des flux. Ainsi, nous visons à explorer la capacité des systèmes distribuées modernes à traiter des requêtes d'inférence hautement expressive sur des flux de données volumineux. Nous considérons les requêtes exprimées dans un fragment positif de LARS (un cadre logique temporel basé sur Answer Set Programming) et proposons des solutions pour traiter ces requêtes, basées sur les deux principaux modèles d’exécution adoptés par les principaux systèmes distribuées: Bulk Synchronous Parallel (BSP) et Record-at-A-Time (RAT). Nous mettons en œuvre notre solution nommée BigSR et effectuons une série d’évaluations. Nos expériences montrent que BigSR atteint un débit élevé au-delà du million de triplets par seconde en utilisant un petit groupe de machines
Real-time processing of data streams emanating from sensors is becoming a common task in industrial scenarios. In an Internet of Things (IoT) context, data are emitted from heterogeneous stream sources, i.e., coming from different domains and data models. This requires that IoT applications efficiently handle data integration mechanisms. The processing of RDF data streams hence became an important research field. This trend enables a wide range of innovative applications where the real-time and reasoning aspects are pervasive. The key implementation goal of such application consists in efficiently handling massive incoming data streams and supporting advanced data analytics services like anomaly detection. However, a modern RSP engine has to address volume and velocity characteristics encountered in the Big Data era. In an on-going industrial project, we found out that a 24/7 available stream processing engine usually faces massive data volume, dynamically changing data structure and workload characteristics. These facts impact the engine's performance and reliability. To address these issues, we propose Strider, a hybrid adaptive distributed RDF Stream Processing engine that optimizes logical query plan according to the state of data streams. Strider has been designed to guarantee important industrial properties such as scalability, high availability, fault-tolerant, high throughput and acceptable latency. These guarantees are obtained by designing the engine's architecture with state-of-the-art Apache components such as Spark and Kafka. Moreover, an increasing number of processing jobs executed over RSP engines are requiring reasoning mechanisms. It usually comes at the cost of finding a trade-off between data throughput, latency and the computational cost of expressive inferences. Therefore, we extend Strider to support real-time RDFS+ (i.e., RDFS + owl:sameAs) reasoning capability. We combine Strider with a query rewriting approach for SPARQL that benefits from an intelligent encoding of knowledge base. The system is evaluated along different dimensions and over multiple datasets to emphasize its performance. Finally, we have stepped further to exploratory RDF stream reasoning with a fragment of Answer Set Programming. This part of our research work is mainly motivated by the fact that more and more streaming applications require more expressive and complex reasoning tasks. The main challenge is to cope with the large volume and high-velocity dimensions in a scalable and inference-enabled manner. Recent efforts in this area still missing the aspect of system scalability for stream reasoning. Thus, we aim to explore the ability of modern distributed computing frameworks to process highly expressive knowledge inference queries over Big Data streams. To do so, we consider queries expressed as a positive fragment of LARS (a temporal logic framework based on Answer Set Programming) and propose solutions to process such queries, based on the two main execution models adopted by major parallel and distributed execution frameworks: Bulk Synchronous Parallel (BSP) and Record-at-A-Time (RAT). We implement our solution named BigSR and conduct a series of evaluations. Our experiments show that BigSR achieves high throughput beyond million-triples per second using a rather small cluster of machines
APA, Harvard, Vancouver, ISO, and other styles
7

De, Oliveira Joffrey. "Gestion de graphes de connaissances dans l'informatique en périphérie : gestion de flux, autonomie et adaptabilité." Electronic Thesis or Diss., Université Gustave Eiffel, 2023. http://www.theses.fr/2023UEFL2069.

Full text
Abstract:
Les travaux de recherche menés dans le cadre de cette thèse de doctorat se situent à l'interface du Web sémantique, des bases de données et de l'informatique en périphérie (généralement dénotée Edge computing). En effet, notre objectif est de concevoir, développer et évaluer un système de gestion de bases de données (SGBD) basé sur le modèle de données Resource Description Framework (RDF) du W3C, qui doit être adapté aux terminaux que l'on trouve dans l'informatique périphérique. Les applications possibles d'un tel système sont nombreuses et couvrent un large éventail de secteurs tels que l'industrie, la finance et la médecine, pour n'en citer que quelques-uns. Pour preuve, le sujet de cette thèse a été défini avec l'équipe du laboratoire d'informatique et d'intelligence artificielle (CSAI) du ENGIE Lab CRIGEN. Ce dernier est le centre de recherche et de développement d'ENGIE dédié aux gaz verts (hydrogène, biogaz et gaz liquéfiés), aux nouveaux usages de l'énergie dans les villes et les bâtiments, à l'industrie et aux technologies émergentes (numérique et intelligence artificielle, drones et robots, nanotechnologies et capteurs). Le CSAI a financé cette thèse dans le cadre d'une collaboration de type CIFRE. Les fonctionnalités d'un système satisfaisant ces caractéristiques doivent permettre de détecter de manière pertinente et efficace des anomalies et des situations exceptionnelles depuis des mesures provenant de capteurs et/ou actuateurs. Dans un contexte industriel, cela peut correspondre à la détection de mesures, par exemple de pression ou de débit sur un réseau de distribution de gaz, trop élevées qui pourraient potentiellement compromettre des infrastructures ou même la sécurité des individus. Le mode opératoire de cette détection doit se faire au travers d'une approche conviviale pour permettre au plus grand nombre d'utilisateurs, y compris les non-programmeurs, de décrire les situations à risque. L'approche doit donc être déclarative, et non procédurale, et doit donc s'appuyer sur un langage de requêtes, par exemple SPARQL. Nous estimons que l'apport des technologies du Web sémantique peut être prépondérant dans un tel contexte. En effet, la capacité à inférer des conséquences implicites depuis des données et connaissances explicites constitue un moyen de créer de nouveaux services qui se distinguent par leur aptitude à s'ajuster aux circonstances rencontrées et à prendre des décisions de manière autonome. Cela peut se traduire par la génération de nouvelles requêtes dans certaines situations alarmantes ou bien en définissant un sous-graphe minimal de connaissances dont une instance de notre SGBD a besoin pour répondre à l'ensemble de ses requêtes. La conception d'un tel SGBD doit également prendre en compte les contraintes inhérentes de l'informatique en périphérie, c'est-à-dire les limites en terme de capacité de calcul, de stockage, de bande passante et parfois énergétique (lorsque le terminal est alimenté par un panneau solaire ou bien une batterie). Il convient donc de faire des choix architecturaux et technologiques satisfaisant ces limitations. Concernant la représentation des données et connaissances, notre choix de conception s'est porté sur les structures de données succinctes (SDS) qui offrent, entre autres, les avantages d'être très compactes et ne nécessitant pas de décompression lors du requêtage. De même, il a été nécessaire d'intégrer la gestion de flux de données au sein de notre SGBD, par exemple avec le support du fenêtrage dans des requêtes SPARQL continues, et des différents services supportés par notre système. Enfin, la détection d'anomalies étant un domaine où les connaissances peuvent évoluer, nous avons intégré le support des modifications au niveau des graphes de connaissances stockés sur les instances des clients de notre SGBD. Ce support se traduit par une extension de certaines structures SDS utilisées dans notre prototype
The research work carried out as part of this PhD thesis lies at the interface between the Semantic Web, databases and edge computing. Indeed, our objective is to design, develop and evaluate a database management system (DBMS) based on the W3C Resource Description Framework (RDF) data model, which must be adapted to the terminals found in Edge computing.The possible applications of such a system are numerous and cover a wide range of sectors such as industry, finance and medicine, to name but a few. As proof of this, the subject of this thesis was defined with the team from the Computer Science and Artificial Intelligence Laboratory (CSAI) at ENGIE Lab CRIGEN. The latter is ENGIE's research and development centre dedicated to green gases (hydrogen, biogas and liquefied gases), new uses of energy in cities and buildings, industry and emerging technologies (digital and artificial intelligence, drones and robots, nanotechnologies and sensors). CSAI financed this thesis as part of a CIFRE-type collaboration.The functionalities of a system satisfying these characteristics must enable anomalies and exceptional situations to be detected in a relevant and effective way from measurements taken by sensors and/or actuators. In an industrial context, this could mean detecting excessively high measurements, for example of pressure or flow rate in a gas distribution network, which could potentially compromise infrastructure or even the safety of individuals. This detection must be carried out using a user-friendly approach to enable as many users as possible, including non-programmers, to describe risk situations. The approach must therefore be declarative, not procedural, and must be based on a query language, such as SPARQL.We believe that Semantic Web technologies can make a major contribution in this context. Indeed, the ability to infer implicit consequences from explicit data and knowledge is a means of creating new services that are distinguished by their ability to adjust to the circumstances encountered and to make autonomous decisions. This can be achieved by generating new queries in certain alarming situations, or by defining a minimal sub-graph of knowledge that an instance of our DBMS needs in order to respond to all of its queries.The design of such a DBMS must also take into account the inherent constraints of Edge computing, i.e. the limits in terms of computing capacity, storage, bandwidth and sometimes energy (when the terminal is powered by a solar panel or a battery). Architectural and technological choices must therefore be made to meet these limitations. With regard to the representation of data and knowledge, our design choice fell on succinct data structures (SDS), which offer, among other advantages, the fact that they are very compact and do not require decompression during querying. Similarly, it was necessary to integrate data flow management within our DBMS, for example with support for windowing in continuous SPARQL queries, and for the various services supported by our system. Finally, as anomaly detection is an area where knowledge can evolve, we have integrated support for modifications to the knowledge graphs stored on the client instances of our DBMS. This support translates into an extension of certain SDS structures used in our prototype
APA, Harvard, Vancouver, ISO, and other styles
8

Giustozzi, Franco. "STEaMINg : semantic time evolving models for industry 4.0 Stream reasoning to improve decision-making in cognitive systems Smart condition monitoring for industry 4.0 manufacturing processes: an ontology-based approach." Thesis, Normandie, 2020. http://www.theses.fr/2020NORMIR13.

Full text
Abstract:
Dans l'industrie 4.0, les machines des usines sont équipées de capteurs qui collectent des données pour une surveillance efficace de l'état des équipements. C’est une tâche difficile car elle nécessite l’intégration et le traitement de données hétérogènes provenant de différentes sources, avec des résolutions temporelles et des significations sous-jacentes différentes. Les ontologies apparaissent comme une méthode pertinente pour traiter l’intégration des données et pour représenter la connaissance de manière interprétable par les machines grâce à la construction de modèles sémantiques. De plus, la surveillance des processus industriels dépend du contexte dynamique de leur exécution. Dans ces circonstances, le modèle sémantique lui-même doit évoluer afin de représenter dans quelle(s) situation(s) se trouve(nt) la ou les ressources pendant l’exécution de ses tâches pour soutenir la prise de décision. Cette thèse étudie l’utilisation des méthodes de représentation des connaissances pour construire un modèle sémantique évolutif qui représente le domaine industriel, en mettant l’accent sur la modélisation du contexte pour fournir la notion de situation
In Industry 4.0, factory assets and machines are equipped with sensors that collect data for effective condition monitoring. This is a difficult task since it requires the integration and processing of heterogeneous data from different sources, with different temporal resolutions and underlying meanings. Ontologies have emerged as a pertinent method to deal with data integration and to represent manufacturing knowledge in a machine-interpretable way through the construction of semantic models. Moreover, the monitoring of industrial processes depends on the dynamic context of their execution. Under these circumstances, the semantic model must evolve in order to represent in which situation(s) a resource is in during the execution of its tasks to support decision making. This thesis studies the use of knowledge representation methods to build an evolving semantic model that represents the industrial domain, with an emphasis on context modeling to provide the notion of situation
APA, Harvard, Vancouver, ISO, and other styles
9

Ait, Oubelli Lynda. "Transformations sémantiques pour l'évolution des modèles de données." Thesis, Toulouse, INPT, 2020. http://www.theses.fr/2020INPT0040.

Full text
Abstract:
Lors du développement d’un système complexe, les modèles de données sont la clé d’un processus d’ingénierie réussi : ils contiennent et organisent toutes les informations manipulées par les différentes fonctions impliquées dans la conception du système. Le fait que les modèles de données évoluent tout au long de la conception soulève des problèmes de maintenance des données déjà produites. Notre travail aborde la problématique de l’évolution des modèles de données dans un environnement d’ingénierie dirigée par les modèles (IDM). Nous nous concentrons sur la minimisation de l’impact de l’évolution du modèle de données sur le processus de développement du système dans le domaine spécifique de l’ingénierie spatiale. Dans l’industrie spatiale, l’ingénierie dirigée par les modèles (IDM) est un domaine clé pour modéliser les échanges de données avec les satellites. Lors de la préparation d’une mission spatiale, les modèles de données doivent être comparés d’une version à l’autre. Ainsi, en raison de la croissance des changements en terme de type et de nombre, il devient difficile de les suivre. De nouvelles méthodes et techniques pour comprendre et représenter les différences et les points communs entre les différentes versions du modèle sont indispensables. Des recherches récentes traitent le processus d’évolution entre les deux couches architecturales (M2 / M1) de l’IDM. Dans cette thèse, nous avons exploré l’utilisation des couches (M1 / M0) de la même architecture afin de définir un ensemble d’opérateurs complexes et leur composition qui encapsulent à la fois l’évolution du modèle de données et la migration des données. L’utilisation de ces opérateurs améliore la qualité des résultats lors de la migration des données, en assurant la conservation complète de l’information contenue dans les données. Dans la première partie de cette thèse, nous sommes concentrés sur la façon de gérer les différences structurelles au cours du processus d’évolution. L’approche proposée repose sur la détection des différences et la construction d’opérateurs d’évolution. Après, nous avons étudié les performances de l’approche à base des modèles (MBD) sur deux missions spatiales, nommées PHARAO et MICROSCOPE. Ensuite, nous avons présenté une approche observationnelle sémantique pour traiter l’évolution des modèles de données au niveau M1. L’intérêt principal de l’approche proposée est la transposition du problème d’accessibilité de l’information dans un modèle de données, en un problème de chemin dans un graphe orienté et étiqueté. L’approche s’est révélée capable de capturer toutes les évolutions d’un modèle de données dans une liste d’opérateurs logique au lieu d’une liste non exhaustive d’opérateurs d’évolution. Elle est générique car peu importe le type de modèle de données en entrée, si le modèle de données est interprété correctement en ldg puis en le projette sur chaque concept, nous obtenons un ensemble de lts, on peut vérifier la conservation de l’information
When developing a complex system, data models are the key to a successful engineering process because they contain and organize all the information manipulated by the different functions involved in system design. The fact that the data models evolve throughout the design raises problems of maintenance of the data already produced. Our work addresses the issue of evolving data models in a model-driven engineering environment (IDM). We focus on minimizing the impact of the evolution of the data model on the system development process in the specific area of space engineering. In the space industry, model-driven engineering (MDI) is a key area for modeling data exchange with satellites. When preparing a space mission, the associated data models are often updated and must be compared from one version to another. Thus, because of the growth of the changes, it becomes difficult to follow them. New methods and techniques to understand and represent the differences and commonalities between different versions of the model are essential. Recent research deals with the evolution process between the two architectural layers (M2 / M1) of the IDM. In this thesis, we have explored the use of the (M1 / M0) layers of the same architecture to define a set of complex operators and their composition that encapsulate both the evolution of the data model and the data migration. The use of these operators improves the quality of results when migrating data, ensuring the complete preservation of the information contained in the data. In the first part of this thesis, we focused on how to deal with structural differences during the evolution process. The proposed approach is based on the detection of differences and the construction of evolution operators. Then, we studied the performance of the model-based approach (MBD) on two space missions, named PHARAO and MICROSCOPE. Then, we presented a semantic observational approach to deal with the evolution of data models at M1 level. The main interest of the proposed approach is the transposition of the problem of accessibility of the information in a data model, into a problem of path in a labeled directed graph. The approach proved to be able to capture all the evolutions of a data model in a logical operator list instead of a non-exhaustive list of evolution operators. It is generic because, regardless of the type of input data model, if the data model is correctly interpreted to ldg and then project it onto a set of lts, we can check the conservation of the information
APA, Harvard, Vancouver, ISO, and other styles
10

Chiky, Raja. "Résumé de flux de données ditribués." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005137.

Full text
Abstract:
Ces dernières années, sont apparues de nombreuses applications, utilisant des données en nombre potentiellement illimité, provenant de façon continue de capteurs distribués afin d'alimenter un serveur central. Les données sont utilisées à des fins de surveillance, de supervision, de déclenchement d'alarmes en temps réel, ou plus généralement à la production de synthèses d'aide à la décision à partir de plusieurs flux. Le volume des données collectées est généralement trop grand pour être entièrement stocké. Les systèmes de gestion de flux de données (SGFD) permettent de gérer facilement, et de façon générique les flux de données : les données sont traitées au fil de l'eau sans les archiver. Toutefois, dans certaines applications, on ne souhaite pas perdre complètement l'ensemble des flux de données afin de pouvoir analyser les données du passé et du présent. Il faut donc prévoir un stockage de l'historique du flux. Nous considérons dans cette thèse, un environnement distribué décrit par une collection de plusieurs capteurs distants qui envoient des flux de données numériques et unidimensionnelles à un serveur central unique. Ce dernier a un espace de stockage limité mais doit calculer des agrégats, comme des sommes ou des moyennes, à partir des données de tout sous-ensemble de capteurs et sur un large horizon temporel. Deux approches sont étudiées pour construire l'historique des flux de données :(1) Echantillonnage spatial en ne considérant qu'un échantillon aléatoire des sources qu'on observe dans le temps ; (2) Echantillonnage temporel en considérant toutes les sources mais en échantillonnant les instants observés de chaque capteur. Nous proposons une méthode générique et optimisée de construction de résumés à partir de flux de données distribués : A partir des flux de données observés à une période de temps t -1, nous déterminons un modèle de collecte de données à appliquer aux capteurs de la période t. Le calcul des agrégats se base sur l'inférence tatistique dans le cas de l'échantillonnage spatial et sur l'interpolation dans le cas de l'échantillonnage temporel. A notre connaissance, il n'existe pas de méthodes d'interpolation qui estiment les erreurs à tout instant et qui prennent en compte le flux de données ou courbe à interpoler et son intégrale. Nous proposons donc deux approches : la première se base sur le passé des courbes pour l'interpolation (approche naive) ; et la seconde utilise à un processus stochastique pour modéliser l'évolution des courbes (approche stochastique).
APA, Harvard, Vancouver, ISO, and other styles
11

Csernel, Baptiste. "Résumé généraliste de flux de données." Paris, ENST, 2008. http://www.theses.fr/2008ENST0048.

Full text
Abstract:
Cette thèse traite de la mise en place de résumés généralistes de flux de données. Elle est centrée autour du développement de deux algorithmes, l'un produisant des résumés généralistes d'un flux de données et l'autre de trois flux de données partageant des liens relationnels. Un flux de données est défini comme une séquence continue d'objets tels qu'il soit impossible de contrôler l'ordre d'arriver des objets ou de stocker le flux dans son intégralité. On retrouve ces flux de données dans des applications comme les télécommunications, les réseau de capteurs ou l'analyse financière. La première étape de ce travail a été de définir ce qu'est un résumé généraliste de flux de données. Sa première propriété est qu'il doit être utilisable pour une large gamme de tâches de fouille de données. La seconde est qu'il doit être possible de constituer à partir du résumé principal un résumé ne concernant qu'une portion du flux arrivé jusqu'alors. Le premier algorithme réalisé, StreamSamp, est un algorithme de résumé généraliste d'un seul flux de données et il est basé sur des techniques d'échantillonnage. Le second, CrossStream est destiné à résumer trois flux de données partageant des informations relationnelles entre eux, un flux de relation liant deux flux d'entités. Cet algorithme est basé sur des micro classes inspirées de l'algorithme CluStream d'Aggarwal combinés à l'utilisation de Filtres de Bloom. Les deux algorithmes ont été implémentés et testé sur plusieurs jeux de données pour déterminer leur performances face à divers situations
This thesis deals with the creation and management of general purpose summaries build from data streams. It is centered on the development of two algorithms, one designed to produce general purpose summaries for a single data stream, and the other for three data stream sharing relational information. A data stream is defined as a real-time, continuous, ordered sequence of items. It is impossible to control the order in which items arrive, nor is it feasible to locally store a stream in its entirety. Such data streams appear in many applications, such as utility networks, IT or in monitoring tasks for instance in meteorology, geology or even finance. The first step in this work is to define the meaning of a general purpose data stream summary. The first property of such a summary is that it should be suitable for a variety of data mining and querying tasks. The second one is that it should be possible to build from the main summary a summary concerning only a selected portion of the stream encountered so far. The first algorithm designed, StreamSamp, is a general purpose summary algorithm dealing with a single data stream and based around the principle of sampling. While the second algorithm, CrossStream, is is a general purpose summary algorithm dealing with three data streams sharing relational information with one another, one relation stream linking two entity streams. This algorithm is based on the use of micro clusters, inspired by the CluStream algorithm designed by Aggarwal combined with the use of Bloom Filter. Both algorithm were implemented and tested against various sets of data to assess their performance in a number of situations
APA, Harvard, Vancouver, ISO, and other styles
12

Chiky, Raja. "Résumé de flux de données distribués." Paris, ENST, 2009. https://pastel.hal.science/pastel-00005137.

Full text
Abstract:
Nous considérons dans cette thèse, un environnement distribué décrit par une collection de plusieurs capteurs distants qui envoient des flux de données numériques et unidimensionnelles à un serveur central unique. Ce dernier a un espace de stockage limité mais doit calculer des agrégats, comme des sommes ou des moyennes, à partir des données de tout sous-ensemble de capteurs et sur un large horizon temporel. Deux approches sont étudiées pour construire l'historique des flux de données :(1) Echantillonnage spatial en ne considérant qu'un échantillon aléatoire des sources qu'on observe dans le temps ; (2) Echantillonnage temporel en considérant toutes les sources mais en échantillonnant les instants observés de chaque capteur. Nous proposons une méthode générique et optimisée de construction de résumés à partir de flux de données distribués : à partir des flux de données observés à une période de temps t -1, nous déterminons un modèle de collecte de données à appliquer aux capteurs de la période t. Le calcul des agrégats se base sur l'inférence tatistique dans le cas de l'échantillonnage spatial et sur l'interpolation dans le cas de l'échantillonnage temporel. A notre connaissance, il n'existe pas de méthodes d'interpolation qui estiment les erreurs à tout instant et qui prennent en compte le flux de données ou courbe à interpoler et son intégrale. Nous proposons donc deux approches : la première se base sur le passé des courbes pour l'interpolation (approche naive) ; et la seconde utilise à un processus stochastique pour modéliser l'évolution des courbes (approche stochastique)
In this thesis, we consider a distributed computing environment, describing a collection of multiple remote sensors that feed a unique central server with numeric and uni-dimensional data streams (also called curves). The central server has a limited memory but should be able to compute aggregated value of any subset of the stream sources from a large time horizon including old and new data streams. Two approaches are studied to reduce the size of data : (1) spatial sampling only consider a random sample of the sources observed at every instant ; (2) temporal sampling consider all sources but samples the instants to be stored. In this thesis, we propose a new approach for summarizing temporally a set of distributed data streams : From the observation of what is happening during a period t -1, we determine a data collection model to apply to the sensors for period t. The computation of aggregates involves statistical inference in the case of spatial sampling and interpolation in the case of temporal sampling. To the best of our knowledge, there is no method for estimating interpolation errors at each timestamp that would take into account some curve features such as the knowledge of the integral of the curve during the period. We propose two approaches : one uses the past of the data curve (naive approach) and the other uses a stochastic process for interpolation (stochastic approach)
APA, Harvard, Vancouver, ISO, and other styles
13

Peng, Tao. "Analyse de données loT en flux." Electronic Thesis or Diss., Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0649.

Full text
Abstract:
Depuis l'avènement de l'IoT (Internet of Things), nous assistons à une augmentation sans précédent du volume des données générées par des capteurs. Pour l'imputation des données manquantes d'un capteur f, nous proposons le modèle ISTM (Incremental Space-Time Model), qui utilise la régression linéaire multiple incrémentale adaptée aux données en flux non-stationnaires. ISTM met à jour son modèle en sélectionnant : 1) les données des capteurs voisins géographiquement du capteur f, et 2) les données les plus récentes retournées par f. Pour mesurer la confiance, nous proposons un modèle générique de prédiction DTOM (Data Trustworthiness Online Model) qui s'appuie sur des méthodes ensemblistes de régression en ligne comme AddExp et BNNRW . DTOM permet de prédire des valeurs de confiance en temps réel et comporte trois phases : 1) une phase d'initialisation du modèle, 2) une phase d'estimation du score de confiance, et 3) une phase de mise à jour heuristique du régresseur. Enfin, nous nous intéressons à la prédiction dans une STS avec des sorties multiples en présence de déséquilibre, c'est à dire lorsqu'il y a plus d'instances dans un intervalle de valeurs que dans un autre. Nous proposons MORSTS, une méthode de régression ensembliste en ligne, avec les caractéristiques suivantes : 1) les sous-modèles sont à sorties multiples, 2) l'utilisation de la stratégie sensible aux coûts c'est à dire que l'instance incorrectement prédite a un poids plus élevé, et 3) le contrôle du sur-apprentissage des sous-modèles naissants par la méthode de validation croisée k-fold. Des expérimentations avec des données réelles ont été effectuées et comparées avec des techniques connues
Since the advent of the IoT (Internet of Things), we have witnessed an unprecedented growth in the amount of data generated by sensors. To exploit this data, we first need to model it, and then we need to develop analytical algorithms to process it. For the imputation of missing data from a sensor f, we propose ISTM (Incremental Space-Time Model), an incremental multiple linear regression model adapted to non-stationary data streams. ISTM updates its model by selecting: 1) data from sensors located in the neighborhood of f, and 2) the near-past most recent data gathered from f. To evaluate data trustworthiness, we propose DTOM (Data Trustworthiness Online Model), a prediction model that relies on online regression ensemble methods such as AddExp (Additive Expert) and BNNRW (Bagging NNRW) for assigning a trust score in real time. DTOM consists: 1) an initialization phase, 2) an estimation phase, and 3) a heuristic update phase. Finally, we are interested predicting multiple outputs STS in presence of imbalanced data, i.e. when there are more instances in one value interval than in another. We propose MORSTS, an online regression ensemble method, with specific features: 1) the sub-models are multiple output, 2) adoption of a cost sensitive strategy i.e. the incorrectly predicted instance has a higher weight, and 3) management of over-fitting by means of k-fold cross-validation. Experimentation with with real data has been conducted and the results were compared with reknown techniques
APA, Harvard, Vancouver, ISO, and other styles
14

Folch, Helka. "Articuler les classifications sémantiques induites d'un domaine." Paris 13, 2002. http://www.theses.fr/2002PA132015.

Full text
Abstract:
Nous montrons la nécessité d'une analyse sémantique endogène pour faciliter l'accès au volume croissant de documents disponibles suite au développement exponentiel d'Internet. Cet afflux de texte on line génère la constitution de corpus hétérogènes qui rendent complexe la conception de modèles d'accés sémantique aux documents. Dans de tels cas, la projection de structures sémantiques a priori n'est pas une démarche adaptée pour un accès efficace aux documents. De même la recherche plein texte par mots clés n'est pas appropriée lorsque ceux-ci sont polysémiques. Le sens des mots est souvent contextuel et leur ambigui͏̈té est plus problématique dans les corpus hétérogènes. Nous avons montré ensuite que cette approche requiert une modélisation particulière du corpus de documents permettant de classer les contextes en fonction de la répartition de leurs traits ou les traits en fonction des contextes partagés et qu'il est nécessaire d'apporter des raffinements à cette modélisation, notamment par le biais de modules d'inférence en amont. Comme exemple d'affinage de traits, nous avons montré que l'inférence de traits syntaxiques dans le cadre d'un langage de description logique (les quasi-arbres) permet de construire des classes basées sur des proximités de comportement fin entre les mots. Nous avons montré aussi que les contraintes imposées par cette approche induisent des besoins en terme d'architecture de corpus. L'architecture que nous avons bâtie permet : l'extraction, à partir des corpus hétérogènes, d'unités textuelles pertinentes, la représentation des corpus extraits permettant le retour au document d'origine et le suivi de leur historique de traitements et la projection sur la base de documents des classes sémantiques obtenues afin de permettre une navigation hypertextuelle dans la base. Nous avons montré les limites des langages hypertextuels comme dans HTML et la nécessité d'utiliser un langage (Topic Maps) qui permet d'associer une sémantique aux liens.
APA, Harvard, Vancouver, ISO, and other styles
15

Chambefort, Françoise. "Mimèsis du flux, exploration des potentialités narratives des flux de données." Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCC004.

Full text
Abstract:
Art du flux, data art, l’art numérique s’approprie les flux de données. Le rapport au réel et au temps qui s’y joue semble propice à la narration, pourtant les œuvres intègrent rarement des récits. Choisissant la voie de la recherche création, cette thèse explore les potentialités narratives des flux de données. Articulant les approches techniques, sémiotiques, sociales et esthétiques, la réflexion se nourrit, outre les sciences de l’information et de la communication, de disciplines variées telles que l’informatique, la philosophie, la sociologie, les sciences cognitives et la narratologie. L’œuvre Lucette, Gare de Clichy a été créée spécifiquement pour répondre à la question de recherche. La structure de l’œuvre a été déclinée en une version écran et une version performance. Elle est étudiée depuis sa création jusqu’à sa réception par le public. L’installation de Jonathan Fletcher Moore Artificial Killing Machine est analysée en parallèle. Dans un premier temps, l’objet de recherche – le récit fondé sur un flux de données en temps réel - est défini et le concept de moulins à données est forgé pour désigner ce type d’œuvres. Quatre hypothèses sont ensuite formulées et vérifiées successivement. Si les moulins à données sont à même de configurer une représentation de type narratif, ils doivent pour cela s’affranchir de la logique de l’action. Le récit de fiction est alors mis en mouvement par le réel. La métaphore qui relie les données du réel à la fiction provoque une oscillation de l’attention du spectateur entre le comparé et le comparant. Cette métaphore-switch possède la capacité de renforcer le sens qu’elle véhicule. Les moulins à données sont ainsi à même de faire ressentir la contingence de la vie telle que l’éprouve une personne vulnérable, ballotée entre temps objectif et temps subjectif
Sometimes called stream art or data art, digital art seizes data streams as its raw materials. Choosing a path of creative research, this thesis explores the story-telling potentialities of data streams. Structured around technical, social, semiotic and aesthetic approaches, its thinking draws on various fields of study : information and communication sciences, but also computer sciences, cognitive sciences, philosophy, sociology and narratology. The work Lucette, Gare de Clichy was especially designed to answer the researched question. The conformation of the work allowed for two different versions of it : a screen version and a performance. It is studied in all its stages, from its creation process to the public's response to it. Jonathan Fletcher Moore's installation, Artificial Killing Machine, is also analyzed. First, our object of research - stories made from a real-time data stream - is defined and the concept of data mills is crafted to refer to this type of work. Then four hypothesis are formulated and individually verified. If data mills are to be able to form a narrative representation, they must free themselves from the logic of action. Thus can fiction become powered by reality. The metaphor that links the data originated in reality and the crafted fiction generates in the viewer a shifting of focus between what is compared and what compares. This switching-metaphor has the power to reinforce the meaning it carries. Data mills are therefore able to convey the contingency of life as experienced by a vulnerable individual, tossed back and forth between objective and subjective time
APA, Harvard, Vancouver, ISO, and other styles
16

Aseervatham, Sujeevan. "Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles." Phd thesis, Université Paris-Nord - Paris XIII, 2007. http://tel.archives-ouvertes.fr/tel-00274627.

Full text
Abstract:
Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d'apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d'experts sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d'apprentissage.
Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes.
Le premier axe porte sur l'étude des problématiques liées au traitement de données textuelles structurées par des approches à base de noyaux. Nous présentons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d'une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé, lors d'un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44.
Le second axe porte sur l'étude des concepts latents extraits par des méthodes statistiques telles que l'analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d'une source externe et des concepts statistiques issus de la LSA. Nous montrons qu'un noyau intégrant les deux types de concepts permet d'améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d'extraire des concepts latents permettant d'obtenir une représentation plus fine des documents.
APA, Harvard, Vancouver, ISO, and other styles
17

Aseervatham, Sujeevan. "Apprentissage à base de noyaux sémantiques pour le traitement de données textuelles." Paris 13, 2007. https://theses.hal.science/tel-00274627.

Full text
Abstract:
Apprentissage à base de Noyaux Sémantiques pour le Traitement de données Textuelles. Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d’apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d’experts sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d’apprentissage. Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes. Le remier axe porte sur l’étude des problématiques liées autraitement de données textuelles structurées par des approches à base de noyaux. Nous présentons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d’une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé,lors d’un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44. Le second axe porte sur l’étude des concepts latents extraits par des méthodes statistiques telles que l’analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d’une source externe et des concept statistiques issus de la LSA. Nous montrons qu’un noyauinté grant les deux types de concepts permet d’améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d’extraire des concepts latents permettant d’obtenir une représentation plus fine des documents
Semantic Kernel-based Machine Learning for Textual Data Processing. Since the early eighties, statistical methods and, more specifically, the machine learning for textual data processing have known a considerable growth of interest. This is mainly due to the fact that the number of documents to process is growing exponentially. Hus, expert-based methods have become too costly, losing the research focus to the profit of machine learning-based methods. In this thesis, we focus on two main issues. The first one is the processing of semi-structured textual data with kernel-based methods. We present,in this context,as emantic kernel for documents structured by sections under the XML format. This kernel captures these manticin formation with theuse of anexternal source of knowledge e. G. ,at hesaurus. Our kernel was evaluated on a medical document corpus with the UMLS thesaurus. It was ranked in the top ten of the best methods, according to the F1-score, among 44 algorithms at the 2007 CMC Medical NLP International Challenge. The second issue is the study of the use of latent concepts extracted by statistical methods such as the Latent Semantic Analysis (LSA). We present, in a first part, kernels based on linguistic concepts from external sources and on latent concepts of the LSA. We show that a kernel integrating both kinds of concepts improves the text categorization performances. Then, in a second part, we present a kernel that uses local LSAs to extract latent concepts. Local latent concepts are used to have a more finer representation of the documents
APA, Harvard, Vancouver, ISO, and other styles
18

Castagliola, Carole. "Héritage et valuation dans les réseaux sémantiques pour les bases de données objets." Compiègne, 1991. http://www.theses.fr/1991COMPD363.

Full text
Abstract:
Les bases de données objets s'articulent autour de trois pôles : les langages à objets, l'intelligence artificielle et les techniques de bases de données. Dans les produits ou systèmes existants, ces pôles sont réunis deux à deux. G-BASE TM, la base de données objets de GRAPHAEL TM, regroupe à la fois les techniques d'IA et celles des bases de données. Nous décrivons la solution adoptée afin d'y intégrer les mécanismes des langages à objets, faisant ainsi cohabiter les trois aspects dans un même environnement. L'extension des mécanismes de représentation de la connaissance dans le modèle de G-BASE est étudiée. Une solution est notamment proposée pour l'implantation des prototypes dans le modèle de G-BASE. Une étude portant sur les assertions et sur leur représentation par des méthodes déclaratives ou procédurales est menée. Toutefois, aucune solution satisfaisante n'a pu être dégagée. Il apparaît que la logique soit beaucoup plus adaptée au traitement des assertions que ne le sont les réseaux sémantiques. La dernière partie du travail est consacrée à la valuation des réseaux sémantiques. Les applications sont passées en revue et certains problèmes non résolus sont mis en lumière. La valuation des réseaux sémantiques est une solution élégante à un certain nombre de difficultés. Citons, par exemple, la représentation d'informations complexes et nuancées, la détermination de la granularité, le traitement des exceptions ou encore la réorganisation d'un réseau en fonction des contextes etc. Une telle notion est cependant source de problèmes non résolus. A savoir l'attribution initiale des distances et leur ajustement par des techniques d'apprentissage, la non-transitivité des arcs qui est un obstacle a la généralisation de la valuation et enfin la sémantique des valeurs attribuées.
APA, Harvard, Vancouver, ISO, and other styles
19

Pedraza, Linares Esperanza. "SGBD sémantiques pour un environnement bureautique : intégrité et gestion de transactions." Grenoble 1, 1988. http://tel.archives-ouvertes.fr/tel-00009437.

Full text
Abstract:
Ce travail traite deux problèmes rencontrés dans les environnements où l'on utitlise un SGBD de haut niveau sémantique et où les traitements réalisés sont peu structurés et évolutifs et se font sur des objets complexes et volumineux. II s"appui sur l'expérience acquise dans la réalisation des projets TIGRE ET DOEOIS. Le premier aspect porte sur la cohérence sémantique, ce qui concerne plus particulièrement les contraintes implicitement établies lors de la définition du schéma conceptuel de la base. La sémantique introduite dans les modèles que nous avons utilisés, est réalisée en intégrant des concepts déjà existants comme celui d'agrégation et de spécialisation qui se traduisent au niveau du schéma conceptuel par des dépendances existentielles entre les entités. Nous proposons pour les opérations de mise à jour, un ensemble de règles de propagations pour assurer que la base de données soit cohérente par rapport à son propre schéma conceptuel. Le deuxième aspect prend en compte l'exécution des opérations elles mêmes. Fournir la notion de transaction, c'est donner au programmeur d'application le moyen de définir' une séquence d'opérations comme étant un tout qui permet à la base de données d'évoluer entre deux états cohérents. Le problème que nous nous posons est de fournir un support pour l'exécution des applications qui assure le maintien de la cohérence, compte tenu des données et des caractéristiques des traitements faits aux données dans l'activité bureautique. Cet étude a abouti à la réalisation d'un mécanisme transactionnel simple et fléxible
APA, Harvard, Vancouver, ISO, and other styles
20

Salperwyck, Christophe. "Apprentissage incrémental en ligne sur flux de données." Phd thesis, Université Charles de Gaulle - Lille III, 2012. http://tel.archives-ouvertes.fr/tel-00845655.

Full text
Abstract:
L'apprentissage statistique propose un vaste ensemble de techniques capables de construire des modèles prédictifs à partir d'observations passées. Ces techniques ont montré leurs capacités à traiter des volumétries importantes de données sur des problèmes réels. Cependant, de nouvelles applications génèrent de plus en plus de données qui sont seulement visibles sous la forme d'un flux et doivent être traitées séquentiellement. Parmi ces applications on citera : la gestion de réseaux de télécommunications, la modélisation des utilisateurs au sein d'un réseau social, le web mining. L'un des défis techniques est de concevoir des algorithmes permettant l'apprentissage avec les nouvelles contraintes imposées par les flux de données. Nous proposons d'abord ce problème en proposant de nouvelles techniques de résumé de flux de données dans le cadre de l'apprentissage supervisé. Notre méthode est constituée de deux niveaux. Le premier niveau utilise des techniques incrémentales de résumé en-ligne pour les flux qui prennent en compte les ressources mémoire et processeur et possèdent des garanties en termes d'erreur. Le second niveau utilise les résumés de faible taille, issus du premier niveau, pour construire le résumé final à l'aide d'une méthode supervisée performante hors-ligne. Ces résumés constituent un prétraitement qui nous permet de proposer de nouvelles versions du classifieur bayésien naïf et des arbres de décision fonctionnant en-ligne sur flux de données. Les flux de données peuvent ne pas être stationnaires mais comporter des changements de concept. Nous proposons aussi une nouvelle technique pour détecter ces changements et mettre à jour nos classifieurs.
APA, Harvard, Vancouver, ISO, and other styles
21

Dupont, Xavier. "Programmation par contraintes sur les flux de données." Caen, 2014. http://www.theses.fr/2014CAEN2016.

Full text
Abstract:
Dans ce manuscrit, nous étudions la généralisation de la programmation par contraintes sur les variables à domaines finies aux variables flux. D'une part, les concepts de flux, de séquences infinies et de mots infinies ont fait l'objet de nombreux travaux, et un objectif consiste à réaliser un état de l'art qui couvre la théorie des langages, les logiques classiques et temporelles, ainsi que les nombreux formalismes qui sont fortement apparentés à ceux-ci. Le rapprochement effectué avec les logique temporelles est un premier pas vers l'unification des formalismes sur les flux, et les logiques temporelles étant elles-même nombreuses, nous établissons une classification de celles-ci qui permettra l'extrapolation des contributions à d'autres contextes. Le second objectif consiste à identifier les éléments de ces formalismes qui permettent le traitement des problèmes de satisfactions avec les techniques de la programmation par contraintes sur les variables à domaines finis. Comparée à l'expressivité des logiques temporelles, celle de notre formalisme est plus limitée. Ceci est dû au fait que la programmation par contraintes ne permet que la conjonction de contraintes, et impose d'intégrer la disjonction dans la notion de propagateur de contraintes. Notre formalisme permet un gain en concision et la réutilisation de la notion de propagateur. La question de la généralisation à des logiques plus expressives est laissée ouverte
In this thesis, we investigate the generalisation of constraint programming on finite variables to stream variables. First, the concepts of streams, infinite sequences and infinite words have been extensively studied in the litterature, and we propose a state of the art that covers language theory, classical and temporal logics, as well as the numerous formalisms that are strongly related to those. The comparison with temporal logics is a first step towards the unification of formalisms over streams, and because the temporal logics are themselves numerous, the classification of these allows the extrapolation of our contributions to other contexts. The second goal involves identifying the features of the existing formalisms that lend themselve to the techniques of constraint programming over finite variables. Compared to the expressivity of temporal logics, that of our formalism is more limited. This stems from the fact that constraint programming allows only the conjunction of constraints, and requires encapsulating disjunction into constraint propagators. Nevertheless, our formalism allows a gain in concision and the reuse of the concept of propagator in a temporal setting. The question of the generalisation of these results to more expressive logics is left open
APA, Harvard, Vancouver, ISO, and other styles
22

Hiscock, Thomas. "Microcontrôleur à flux chiffré d'instructions et de données." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV074/document.

Full text
Abstract:
Un nombre important et en constante augmentation de systèmes numériques nous entoure. Tablettes, smartphones et objets connectés ne sont que quelques exemples apparents de ces technologies omniprésentes, dont la majeure partie est enfouie, invisible à l'utilisateur. Les microprocesseurs, au cœur de ces systèmes, sont soumis à de fortes contraintes en ressources, sûreté de fonctionnement et se doivent, plus que jamais, de proposer une sécurité renforcée. La tâche est d'autant plus complexe qu'un tel système, par sa proximité avec l'utilisateur, offre une large surface d'attaque.Cette thèse, se concentre sur une propriété essentielle attendue pour un tel système, la confidentialité, le maintien du secret du programme et des données qu'il manipule. En effet, l'analyse du programme, des instructions qui le compose, est une étape essentielle dans la conception d'une attaque. D'autre part, un programme est amené à manipuler des données sensibles (clés cryptographiques, mots de passes, ...), qui doivent rester secrètes pour ne pas compromettre la sécurité du système.Cette thèse, se concentre sur une propriété essentielle attendue pour un tel système, la confidentialité, le maintien du secret du programme et des données qu'il manipule. Une première contribution de ces travaux est une méthode de chiffrement d'un code, basée sur le graphe de flot de contrôle, rendant possible l'utilisation d'algorithmes de chiffrement par flots, légers et efficaces. Protéger les accès mémoires aux données d'un programme s'avère plus complexe. Dans cette optique, nous proposons l'utilisation d'un chiffrement homomorphe pour chiffrer les données stockées en mémoire et les maintenir sous forme chiffrée lors de l'exécution des instructions. Enfin, nous présenterons l'intégration de ces propositions dans une architecture de processeur et les résultats d'évaluation sur logique programmable (FPGA) avec plusieurs programmes d'exemples
Embedded processors are today ubiquitous, dozen of them compose and orchestrate every technology surrounding us, from tablets to smartphones and a large amount of invisible ones. At the core of these systems, processors gather data, process them and interact with the outside world. As such, they are excepted to meet very strict safety and security requirements. From a security perspective, the task is even more difficult considering the user has a physical access to the device, allowing a wide range of specifically tailored attacks.Confidentiality, in terms of both software code and data is one of the fundamental properties expected for such systems. The first contribution of this work is a software encryption method based on the control flow graph of the program. This enables the use of stream ciphers to provide lightweight and efficient encryption, suitable for constrained processors. The second contribution is a data encryption mechanism based on homomorphic encryption. With this scheme, sensible data remain encrypted not only in memory, but also during computations. Then, the integration and evaluation of these solutions on Field Programmable Gate Array (FPGA) with some example programs will be discussed
APA, Harvard, Vancouver, ISO, and other styles
23

Allesiardo, Robin. "Bandits Manchots sur Flux de Données Non Stationnaires." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS334/document.

Full text
Abstract:
Le problème des bandits manchots est un cadre théorique permettant d'étudier le compromis entre exploration et exploitation lorsque l'information observée est partielle. Dans celui-ci, un joueur dispose d'un ensemble de K bras (ou actions), chacun associé à une distribution de récompenses D(µk) de moyenne µk Є [0, 1] et de support [0, 1]. A chaque tour t Є [1, T], il choisit un bras kt et observe la récompense y kt tirée depuis D (µkt). La difficulté du problème vient du fait que le joueur observe uniquement la récompense associée au bras joué; il ne connaît pas celle qui aurait pu être obtenue en jouant un autre bras. À chaque choix, il est ainsi confronté au dilemme entre l'exploration et l'exploitation; explorer lui permet d'affiner sa connaissance des distributions associées aux bras explorés tandis qu'exploiter lui permet d'accumuler davantage de récompenses en jouant le meilleur bras empirique (sous réserve que le meilleur bras empirique soit effectivement le meilleur bras). Dans la première partie de la thèse nous aborderons le problème des bandits manchots lorsque les distributions générant les récompenses sont non-stationnaires. Nous étudierons dans un premier temps le cas où même si les distributions varient au cours du temps, le meilleur bras ne change pas. Nous étudierons ensuite le cas où le meilleur bras peut aussi changer au cours du temps. La seconde partie est consacrée aux algorithmes de bandits contextuels où les récompenses dépendent de l'état de l'environnement. Nous étudierons l'utilisation des réseaux de neurones et des forêts d'arbres dans le cas des bandits contextuels puis les différentes approches à base de méta-bandits permettant de sélectionner en ligne l'expert le plus performant durant son apprentissage
The multi-armed bandit is a framework allowing the study of the trade-off between exploration and exploitation under partial feedback. At each turn t Є [1,T] of the game, a player has to choose an arm kt in a set of K and receives a reward ykt drawn from a reward distribution D(µkt) of mean µkt and support [0,1]. This is a challeging problem as the player only knows the reward associated with the played arm and does not know what would be the reward if she had played another arm. Before each play, she is confronted to the dilemma between exploration and exploitation; exploring allows to increase the confidence of the reward estimators and exploiting allows to increase the cumulative reward by playing the empirical best arm (under the assumption that the empirical best arm is indeed the actual best arm).In the first part of the thesis, we will tackle the multi-armed bandit problem when reward distributions are non-stationary. Firstly, we will study the case where, even if reward distributions change during the game, the best arm stays the same. Secondly, we will study the case where the best arm changes during the game. The second part of the thesis tacles the contextual bandit problem where means of reward distributions are now dependent of the environment's current state. We will study the use of neural networks and random forests in the case of contextual bandits. We will then propose meta-bandit based approach for selecting online the most performant expert during its learning
APA, Harvard, Vancouver, ISO, and other styles
24

Togbe, Maurras Ulbricht. "Détection distribuée d'anomalies dans les flux de données." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS400.

Full text
Abstract:
La détection d'anomalies est une problématique importante dans de nombreux domaines d'application comme la santé, le transport, l'industrie etc. Il s'agit d'un sujet d'actualité qui tente de répondre à la demande toujours croissante dans différents domaines tels que la détection d'intrusion, de fraude, etc. Dans cette thèse, après un état de l'art général complet, la méthode non supervisé Isolation Forest (IForest) a été étudiée en profondeur en présentant ses limites qui n'ont pas été abordées dans la littérature. Notre nouvelle version de IForest appelée Majority Voting IForest permet d'améliorer son temps d'exécution. Nos méthodes ADWIN-based IForest ASD et NDKSWIN-based IForest ASD permettent la détection d'anomalies dans les flux de données avec une meilleure gestion du concept drift. Enfin, la détection distribuée d'anomalies en utilisant IForest a été étudiée et évaluée. Toutes nos propositions ont été validées avec des expérimentations sur différents jeux de données
Anomaly detection is an important issue in many application areas such as healthcare, transportation, industry etc. It is a current topic that tries to meet the ever increasing demand in different areas such as intrusion detection, fraud detection, etc. In this thesis, after a general complet state of the art, the unsupervised method Isolation Forest (IForest) has been studied in depth by presenting its limitations that have not been addressed in the literature. Our new version of IForest called Majority Voting IForest improves its execution time. Our ADWIN-based IForest ASD and NDKSWIN-based IForest ASD methods allow the detection of anomalies in data stream with a better management of the drift concept. Finally, distributed anomaly detection using IForest has been studied and evaluated. All our proposals have been validated with experiments on different datasets
APA, Harvard, Vancouver, ISO, and other styles
25

Gillani, Syed. "Semantically-enabled stream processing and complex event processing over RDF graph streams." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSES055/document.

Full text
Abstract:
Résumé en français non fourni par l'auteur
There is a paradigm shift in the nature and processing means of today’s data: data are used to being mostly static and stored in large databases to be queried. Today, with the advent of new applications and means of collecting data, most applications on the Web and in enterprises produce data in a continuous manner under the form of streams. Thus, the users of these applications expect to process a large volume of data with fresh low latency results. This has resulted in the introduction of Data Stream Processing Systems (DSMSs) and a Complex Event Processing (CEP) paradigm – both with distinctive aims: DSMSs are mostly employed to process traditional query operators (mostly stateless), while CEP systems focus on temporal pattern matching (stateful operators) to detect changes in the data that can be thought of as events. In the past decade or so, a number of scalable and performance intensive DSMSs and CEP systems have been proposed. Most of them, however, are based on the relational data models – which begs the question for the support of heterogeneous data sources, i.e., variety of the data. Work in RDF stream processing (RSP) systems partly addresses the challenge of variety by promoting the RDF data model. Nonetheless, challenges like volume and velocity are overlooked by existing approaches. These challenges require customised optimisations which consider RDF as a first class citizen and scale the processof continuous graph pattern matching. To gain insights into these problems, this thesis focuses on developing scalable RDF graph stream processing, and semantically-enabled CEP systems (i.e., Semantic Complex Event Processing, SCEP). In addition to our optimised algorithmic and data structure methodologies, we also contribute to the design of a new query language for SCEP. Our contributions in these two fields are as follows: • RDF Graph Stream Processing. We first propose an RDF graph stream model, where each data item/event within streams is comprised of an RDF graph (a set of RDF triples). Second, we implement customised indexing techniques and data structures to continuously process RDF graph streams in an incremental manner. • Semantic Complex Event Processing. We extend the idea of RDF graph stream processing to enable SCEP over such RDF graph streams, i.e., temporalpattern matching. Our first contribution in this context is to provide a new querylanguage that encompasses the RDF graph stream model and employs a set of expressive temporal operators such as sequencing, kleene-+, negation, optional,conjunction, disjunction and event selection strategies. Based on this, we implement a scalable system that employs a non-deterministic finite automata model to evaluate these operators in an optimised manner. We leverage techniques from diverse fields, such as relational query optimisations, incremental query processing, sensor and social networks in order to solve real-world problems. We have applied our proposed techniques to a wide range of real-world and synthetic datasets to extract the knowledge from RDF structured data in motion. Our experimental evaluations confirm our theoretical insights, and demonstrate the viability of our proposed methods
APA, Harvard, Vancouver, ISO, and other styles
26

Coquil, David. "Conception et Mise en Oeuvre de Proxies Sémantiques et Coopératifs." Lyon, INSA, 2006. http://theses.insa-lyon.fr/publication/2006ISAL0020/these.pdf.

Full text
Abstract:
L'un des problèmes importants posé par le déploiement à large échelle de systèmes d'information distribués comme le web est l'accès efficace aux données, pour lequel les caches sont une solution possible. Les caches Web existent au niveau des clients, des serveurs, et de serveurs intermédiaires, les proxies. La conception et la mise en œuvre de proxies performants est l'objet principal de la thèse. Trois directions d'amélioration des performances sont étudiées : politiques de remplacement, de pré-chargement, et de coopération. Contrairement aux propositions antérieures qui utilisent des paramètres de bas niveau, nous appliquons des techniques de cache sémantique basées sur l'indexation des documents et l'évaluation des intérêts des utilisateurs. Une mesure de l'intérêt d'un document pour un cache est définie, la température, qui est utilisée pour définir des politiques de remplacement et de pré-chargement. Une application de ce modèle à la gestion de cache d'un serveur vidéo est présentée. Une architecture de coopération entre proxies basée sur l'échange de documents et d'informations sur la tendance des requêtes est définie. L'intégration de techniques de recherche par le contenu dans un système d'information distribué fait l'objet d'une étude. L'étude s'appuie sur des travaux antérieurs intégrant à la recherche par le contenu à une base de données qui sont étendus par la définition d'une architecture coopérative pour les requêtes distribuées basées sur le contenu utilisant des proxies et des caches sémantiques permettant des accès efficaces. Une application de la température à la gestion d'index de caches pour les communautés virtuelles est enfin proposée
One major issue related to the large-scale deployment of distributed information systems such as the Web is that of the efficient access to data for which caches are a possible solution. Web caches exist at the client level, at the server level, and on intermediate servers, the proxies. The conception and the implementation of efficient Web caches and especially proxies is the main focus of the thesis. Three performance improvement techniques are studied: replacement, prefetching and cooperation policies. Contrarily to traditional approaches that mainly us low-level parameters, we apply semantic catching techniques based on the indexing of documents and on analysis of user access patterns. Algorithms for the measurement of the usefulness of a document for a cache are detailed. This value called temperature is used to define a replacement policy and a prefetching heuristics. These techniques are used in a video server cache management application. A cooperative architecture based on the exchange of documents and of temperature monitoring results is defined. Another application of proxies and semantic catching is also presented in the context of content-based multimedia queries. Using previous research focused on integrating content-based queries with classical databases, we define a cooperative architecture dedicated to distributed content-based multimedia queries which basic components are cooperative proxies and semantic caches. Finally an application of temperature for the management of cache index for the members of theme-based virtual communities
APA, Harvard, Vancouver, ISO, and other styles
27

Mokhtari, Noureddine. "Extraction et exploitation d'annotations sémantiques contextuelles à partir de texte." Nice, 2010. http://www.theses.fr/2010NICE4045.

Full text
Abstract:
Cette thèse rentre dans le cadre du projet européen SevenPro (Environnement d’ingénierie virtuel sémantique pour la conception des produits) dont le but est d'améliorer le processus d'ingénierie de production dans les entreprises de fabrication, au moyen de l’acquisition, de la formalisation et de l'exploitation des connaissances. Nous proposons une approche méthodologique et logicielle pour générer des annotations sémantiques contextuelles à partir de texte. Notre approche est basée sur des ontologies et sur les technologies du Web sémantique. Dans une première partie, nous proposons une modélisation de la notion de « contexte » pour le texte. Cette modélisation peut être perçue comme une projection des différents aspects du «contexte» abordés par ses définitions dans la littérature. Nous proposons également une modélisation des annotations sémantiques contextuelles, avec la définition des différents types de relations contextuelles pouvant exister dans le texte. Ensuite, nous proposons une méthodologie générique pour la génération d’annotations sémantiques contextuelles basées sur une ontologie du domaine qui exploite au mieux les connaissances contenues dans les textes. L’originalité de la méthodologie est qu’elle utilise des techniques de traitement automatique de la langue ainsi que des grammaires d’extraction (engendrées automatiquement) de relations de domaine, de concepts et de valeurs de propriété afin de produire des annotations sémantiques reliées avec des relations contextuelles. De plus, nous prenons en compte le contexte d’apparition des annotations sémantiques pendant leur génération. Un système supportant cette méthodologie a été implémenté et évalué
This thesis falls within the framework of the European project SevenPro (Semantic Virtual Engineering Environment for Product Design) whose aim is to improve the engineering process of production in manufacturing companies, through acquisition, formalization and exploitation of knowledge. We propose a methodological approach and software for generating contextual semantic annotations from text. Our approach is based on ontologies and Semantic Web technologies. In the first part, we propose a model of the concept of "context" for the text. This modeling can be seen as a projection of various aspects of "context" covered by the definitions in literature. We also propose a model of contextual semantic annotations, with the definition of different types of contextual relationships that may exist in the text. Then, we propose a generic methodology for the generation of contextual semantic annotations based on domain ontology that operates at best with the knowledge contained in texts. The novelty in the methodology is that it uses language automatic processing techniques and grammar extraction (automatically generated) field relations, concepts and values of property in order to produce semantic annotations associated with contextual relations. In addition, we take into account the context of occurrence of semantic annotations for their generation. A system that supports this methodology has been implemented and evaluated
APA, Harvard, Vancouver, ISO, and other styles
28

Boudellal, Toufik. "Extraction de l'information à partir des flux de données." Saint-Etienne, 2006. http://www.theses.fr/2006STET4014.

Full text
Abstract:
L'intelligence artificielle est un thème général de travail en informatique. Nous trouvons dans cette thématique le traitement des données ou l'analyse de données. Ce domaine s'intéresse principalement à la recherche de différentes approches pour la découverte de connaissances. Les problèmes proposés à étudier dans cette thèse sont définis à l'intérieur de ce domaine. Nous commençons notre problématique par un passage sur les travaux en cours en extraction de connaissances à partir des flux de données. Ensuite, revenons sur la base de ces travaux pour étudier leurs portabilités aux systèmes de flux de données adaptatifs. Puis, nous proposons notre nouvelle approche ainsi que des résultats expérimentaux. Nous finirons par une conclusion de nos travaux et des perspectives de recherches dans cette nouvelle thématique
The aim of this work is an attempt to resolve a mining data streams specified problem. It is an adaptative analysis of data streams. The web generation proposes new challenges due to the complexity of data structures. As an example, the data issued from virtual galleries, credit card transactions,. . . Generally, such data are continuous in time, and their sizes are dynamic. We propose a new algorithm based on measures applied to adaptative data streams. The interpretation of results is possible due to such measures. In fact, we compare our algorithm experimentally to other adapted approaches that are considered fundamental in the field. A modified algorithm that is more useful in applications is also discussed. This thesis finishes with a suggestions set about our future work relating to noises data streams and another set of suggestions about the future needfully work
APA, Harvard, Vancouver, ISO, and other styles
29

Gabsi, Nesrine. "Extension et interrogation de résumés de flux de données." Phd thesis, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00613122.

Full text
Abstract:
Au cours de ces dernières années, un nouvel environnement s'est développé dans lequel les données doivent être collectées et traitées instantanément dès leur arrivée. La gestion de cette volumétrie nécessite la mise en place d'un nouveau modèle et de nouvelles techniques de traitements de l'information. Il s'agit du traitement des flux de données. Ces derniers ont la particularité d'être continus, évolutifs, volumineux et ne peuvent être stockés, dans leur intégralité, en tant que données persistantes. Plusieurs travaux de recherche se sont intéressés à cette problématique ce qui a engendré l'apparition des systèmes de gestion de flux de données (SGFD). Ces systèmes permettent d'exprimer des requêtes continues qui s'évaluent au fur et à mesure sur un flux ou sur des fenêtres (sous ensembles finis du flux). Toutefois, dans certaines applications, de nouveaux besoins peuvent apparaître après le passage des données. Dans ce cas, le système ne peut répondre aux requêtes posées car toutes les données n'appelant aucun traitement sont définitivement perdues. Il est ainsi nécessaire de conserver un résumé du flux de données. De nombreux algorithmes de résumé ont été développés. Le choix d'une méthode de résumé particulière dépend de la nature des données à traiter et de la problématique à résoudre. Dans ce manuscrit, nous nous intéressons en premier lieu à l'élaboration d'un résumé généraliste permettant de créer un compromis entre la vitesse de construction du résumé et la qualité du résumé conservé. Nous présentons une nouvelle approche de résumé qui se veut performance face à des requêtes portant sur des données du passé lointain. Nous nous focalisons par la suite sur l'exploitation et l'accès aux évènements du flux conservés dans ces résumés. Notre objectif consiste à intégrer les structures de résumés généralistes dans l'architecture des SGFD existantes de façon à étendre le champ de requêtes possibles. A cet effet, l'évaluation des requêtes qui font appel aux données du passé lointain d'un flux (i.e. données expirées de la mémoire du SGFD) serait possible au même titre que les requêtes posées sur le passé proche d'un flux de données. Nous présentons deux approches permettant d'atteindre cet objectif. Ces approches se différencient par le rôle que détient le module de résumé lors de l'évaluation d'une requêtes.
APA, Harvard, Vancouver, ISO, and other styles
30

Marascu, Alice. "Extraction de motifs séquentiels dans les flux de données." Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00445894.

Full text
Abstract:
Ces dernières années ont vu apparaître de nombreuses applications traitant des données générées en continu et à de grandes vitesses. Ces données sont désormais connues sous le nom de flux de données. Leurs quantités de données potentiellement infinies ainsi que les contraintes qui en dérivent posent de nombreux problèmes de traitement. Parmi ces contraintes, citons par exemple l'impossibilité de bloquer un flux de données, ou encore le besoin de produire des résultats en temps réel. Néanmoins, les multiples domaines d'application de ces traitements (comme les transactions bancaires, l'usage du Web, la surveillance des réseaux, etc) ont suscité beaucoup d'intérêt tant dans les milieux industriels qu'académiques. Ces quantités potentiellement infinies de données interdisent tout espoir de stockage complet ; toutefois, on a besoin de pouvoir interroger l'historique des flux. Cela a conduit au compromis des « résumés » des flux de données et des résultats « approximatifs ». Aujourd'hui, un grand nombre de méthodes propose différents types de résumés des flux de données. Mais le développement incessant de la technologie et des applications afférentes demande un développement au moins équivalent des méthodes d'analyse et de résumé. De plus, l'extraction de motifs séquentiels y est encore peu étudiée: au commencement de cette thèse, il n'existait aucune méthode d'extraction de motifs séquentiels dans les flux de données. Motivés par ce contexte, nous nous sommes intéressés à une méthode qui résume les flux de données d'une manière efficace et fiable et qui permet principalement d'en extraire des motifs séquentiels. Dans cette thèse, nous proposons l'approche CLARA (CLAssification, Résumés et Anomalies). CLARA permet d'obtenir des clusters à partir d'un flux de séquences d'itemsets, de calculer et gérer des résumés de ces clusters et d'y détecter des anomalies. Les différentes contributions détaillées dans ce mémoire concernent: - La classification non supervisée de séquences d'itemsets sous forme de flux. A notre connaissance, cette technique est la première à permettre une telle classification. - Les résumés de flux de données à l'aide de l'extraction de motifs. Les résumés de CLARA sont composés de motifs séquentiels alignés représentant les clusters associés à leur historique dans le flux. L'ensemble de ces motifs permet de résumer le flux de manière fiable à un instant t. La gestion de l'historique de ces motifs est un point essentiel dans l'analyse des flux. CLARA introduit une nouvelle gestion de la granularité temporelle afin d'optimiser cet historique. - La détection d'anomalies. Cette détection, quand elle concerne les flux, doit être rapide et fiable. En particulier, les contraintes liées aux flux interdisent de consulter l'utilisateur final pour ajuster des paramètres (une anomalie détectée trop tard peut avoir de graves conséquences). Avec CLARA, cette détection est automatique et auto-adaptative. Nous proposerons également un cas d'étude sur des données réelles, réalisé en collaboration avec Orange Labs.
APA, Harvard, Vancouver, ISO, and other styles
31

Petit, Loïc. "Gestion de flux de données pour l'observation de systèmes." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00849106.

Full text
Abstract:
La popularisation de la technologie a permis d'implanter des dispositifs et des applications de plus en plus développés à la portée d'utilisateurs non experts. Ces systèmes produisent des flux ainsi que des données persistantes dont les schémas et les dynamiques sont hétérogènes. Cette thèse s'intéresse à pouvoir observer les données de ces systèmes pour aider à les comprendre et à les diagnostiquer. Nous proposons tout d'abord un modèle algébrique Astral capable de traiter sans ambiguïtés sémantiques des données provenant de flux ou relations. Le moteur d'exécution Astronef a été développé sur l'architecture à composants orientés services pour permettre une grande adaptabilité. Il est doté d'un constructeur de requête permettant de choisir un plan d'exécution efficace. Son extension Asteroid permet de s'interfacer avec un SGBD pour gérer des données persistantes de manière intégrée. Nos contributions sont confrontées à la pratique par la mise en œuvre d'un système d'observation du réseau domestique ainsi que par l'étude des performances. Enfin, nous nous sommes intéressés à la mise en place de la personnalisation des résultats dans notre système par l'introduction d'un modèle de préférences top-k.
APA, Harvard, Vancouver, ISO, and other styles
32

Gabsi, Nesrine. "Extension et interrogation de résumé de flux de données." Paris, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00613122.

Full text
Abstract:
Au cours de ces dernières années, un nouvel environnement s'est développé dans lequel les données doivent être collectées et traitées instantanément dès leur arrivée. La gestion de cette volumétrie nécessite la mise en place d'un nouveau modèle et de nouvelles techniques de traitements de l'information. Il s'agit du traitement des flux de données. Ces derniers ont la particularité d'être continus, évolutifs, volumineux et ne peuvent être stockés, dans leur intégralité, en tant que données persistantes. Plusieurs travaux de recherche se sont intéressés à cette problématique ce qui a engendré l'apparition des systèmes de gestion de flux de données (SGFD). Ces systèmes permettent d'exprimer des requêtes continues qui s'évaluent au fur et à mesure sur un flux ou sur des fenêtres (sous ensembles finis du flux). Toutefois, dans certaines applications, de nouveaux besoins peuvent apparaître après le passage des données. Dans ce cas, le système ne peut répondre aux requêtes posées car toutes les données n'appelant aucun traitement sont définitivement perdues. Il est ainsi nécessaire de conserver un résumé du flux de données. De nombreux algorithmes de résumé ont été développés. Le choix d'une méthode de résumé particulière dépend de la nature des données à traiter et de la problématique à résoudre. Dans ce manuscrit, nous nous intéressons en premier lieu à l'élaboration d'un résumé généraliste permettant de créer un compromis entre la vitesse de construction du résumé et la qualité du résumé conservé. Nous présentons une nouvelle approche de résumé qui se veut performance face à des requêtes portant sur des données du passé lointain. Nous nous focalisons par la suite sur l'exploitation et l'accès aux évènements du flux conservés dans ces résumés. Notre objectif consiste à intégrer les structures de résumés généralistes dans l'architecture des SGFD existantes de façon à étendre le champ de requêtes possibles. A cet effet, l'évaluation des requêtes qui font appel aux données du passé lointain d'un flux (i. E. Données expirées de la mémoire du SGFD) serait possible au même titre que les requêtes posées sur le passé proche d'un flux de données. Nous présentons deux approches permettant d'atteindre cet objectif. Ces approches se différencient par le rôle que détient le module de résumé lors de l'évaluation d'une requêtes
In the last few years, a new environment, in which data have to be collected and processed instantly when arriving, has emerged. To handle the large volume of data associated with this environment, new data processing model and techniques have to be set up ; they are referred as data stream management. Data streams are usually continuous, voluminous, and cannot be registered integrally as persistent data. Many research works have handled this issue. Therefore, new systems called DSMS (Data Stream Management Systems) appeared. The DSMS evaluates continuous queries on a stream or a window (finite subset of streams). These queries have to be specified before the stream's arrival. Nevertheless, in case of some applications, some data could be required after their expiration from the DSMS in-memory. In this case, the system cannot treat the queries as such data are definitely lost. To handle this issue, it is essential to keep a ummary of data stream. Many summaries algorithms have been developed. The selection of a summarizing method depends on the kind of data and the associated issue. In this thesis, we are first interested with the elaboration of a generic summary structure while coming to a compromise between the summary elaboration time and the quality of the summary. We introduce a new summary approach which is more efficient for querying very old data. Then, we focus on the uerying methods for these summaries. Our objective is to integrate the structure of generic summaries in the architecture of the existing DSMS. By this way, we extend the range of the possible queries. Thus, the processing of the queries on old stream data (expired data) becomes possible as well as queries on new stream data. To this end, we introduced two approaches. The difference between them is the role played by summary module when the query is evaluated
APA, Harvard, Vancouver, ISO, and other styles
33

Francik, Jaroslaw. "Surveillance du flux des données dans l'animation des algorithmes." Lille 1, 1999. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/1999/50376-1999-483-1.pdf.

Full text
Abstract:
De nombreux auteurs considèrent qu'il existe une contradiction profonde entre la conception d'animations d'algorithmes à haut niveau d'abstraction d'une part, et l'automatisation de ce même travail de conception d'autre part. L'approche que nous développons dans cette thèse est qu'il possible de concilier ces deux aspects. Nous montrons ainsi que certains éléments améliorant de façon significative le niveau d'abstraction d'un programme peuvent aussi servir à la visualisation de ce programme, et cela de façon strictement automatique, sans effort supplémentaire de la part du visualisateur. Pour ce faire, nous proposons une méthode originale d'animation reposant sur un contrôle du flux de données. L'idée directrice de cette méthode consiste dans l'acquisition d'informations utiles (à la visualisation) par une observation des opérations élémentaires effectuées sur le flux de données, et non par une analyse des valeurs des structures de données telle qu'elle est pratiquée dans les méthodes traditionnelles. Dans une version plus avancée de notre méthode, le formalisme des réseaux de Pétri est utilisé pour analyser dynamiquement le flux de données, autorisant ainsi la suppression systématique des données non pertinentes. Cette méthode de contrôle du flux de données a été implantée dans un système d'animation d'algorithmes baptise Daphnis, prolongement pratique des travaux de recherche menés à l'école polytechnique silésienne de Gliwice (Pologne) et au laboratoire I3D de l'USTL. Les visualisations obtenues à partir de ce système atteignent un assez haut niveau d'abstraction comparativement à celles déjà existantes, tout en ne mobilisant qu'un effort de conception raisonnable de la part de l'utilisateur.
APA, Harvard, Vancouver, ISO, and other styles
34

Wipliez, Matthieu. "Infrastructure de compilation pour des programmes flux de données." Phd thesis, INSA de Rennes, 2010. http://tel.archives-ouvertes.fr/tel-00598914.

Full text
Abstract:
Les programmes flux de données (" data flow " en anglais) sont des programmes décrits sous la forme d'un graphe afin de mettre en évidence un certain nombre de propriétés, comme le parallélisme disponible, la localité des données, la certitude de ne pas avoir d'inter-blocages, etc. Ma thèse présente les problématiques liées à la mise en place d'une infrastructure de compilation pour ce type de programmes. Cette infrastructure a pour but de compiler, analyser, transformer, et exécuter un programme flux de données sur différentes plateformes, depuis des composants logiques programmables jusqu'à des processeurs multi-coeurs avec mémoire partagée. Nous présentons les aspects théoriques associés aux problèmes de compilation, d'analyse et d'ordonnancement des programmes flux de données, ainsi que les aspects pratiques et les résultats obtenus concernant la génération de code et l'exécution de ces programmes.
APA, Harvard, Vancouver, ISO, and other styles
35

Wipliez, Matthieu. "Infrastructure de compilation pour des programmes flux de données." Phd thesis, Rennes, INSA, 2010. http://www.theses.fr/2010ISAR0033.

Full text
Abstract:
Les programmes flux de données (« data flow » en anglais) sont des programmes décrits sous la forme d’un graphe afin de mettre en évidence un certain nombre de propriétés, comme le parallélisme disponible, la localité des données, la certitude de ne pas avoir d’inter-blocages, etc. Ma thèse présente les problématiques liées à la mise en place d’une infrastructure de compilation pour ce type de programmes. Cette infrastructure a pour but de compiler, analyser, transformer, et exécuter un programme flux de données sur différentes plateformes, depuis des composants logiques programmables jusqu��à des processeurs multi-cœurs avec mémoire partagée. Nous présentons les aspects théoriques associés aux problèmes de compilation, d’analyse et d’ordonnancement des programmes flux de données, ainsi que les aspects pratiques et les résultats obtenus concernant la génération de code et l’exécution de ces programmes
The work presented in this thesis takes place in a context of growing demand for better video quality (High-Definition TV, home cinema. . . ) and unprecedented concern for power consumption. The limitations and lack of flexibility of current video standards make it increasingly long and complicated to implement standards on embedded systems. A new standard called Reconfigurable Video Coding aims to solve these problems by describing video coding with dataflow programs. A dataflow program is a program represented as a directed graph where vertices are computational units and edges represent the flow of data between vertices. This thesis presents a compilation infrastructure for dataflow programs that can compile these programs to a simple, high-level Intermediate Representation (IR). We show how this IR can be used to analyze, transform, and generate code for dataflow programs in many languages, from C to hardware description languages
APA, Harvard, Vancouver, ISO, and other styles
36

Bouachera, Leïla. "Les flux transfrontières de données et le droit international." Paris 1, 1987. http://www.theses.fr/1987PA010297.

Full text
Abstract:
L'avènement des technologies télématiques, au cours de la décennie 60, issues de la combinaison de l'informatique et des télécommunications, est à l'origine de la promotion des flux transfrontières de données. Jusqu'ici, les travaux se sont poursuivis suivant la même optique et les mêmes préoccupations regroupées sous le terme générique de « privacy », alors que les flux de données à caractère personnel ne représentent qu'une faible part des flux transfrontières de données. Aujourd'hui, le vaste réseau des systèmes de communications, des ordinateurs aux satellites, de la fibre optique aux banques de données véhicule de manière erratique les flux de données informatisées, au nom du principe de liberté d'information, sans égard pour d'autres règles essentielles du droit international, telles que la souveraineté des états, la vie privée des individus, l'identité culturelle des peuples, la sécurité et l'intégrité nationales. Il existe un véritable vide juridique, et, partisans de la régulation et de la dérégulation s'affrontent ouvertement. Il sera difficile d'envisager en l'état actuel des choses, un régime juridique universel des flux transfrontières de données ; et il serait sans doute préférable de privilégier l'adoption d'instruments juridiques ressortant plutôt d'un soft law, adaptes aux caractéristiques intrinsèques des éléments à considérer
The arrival of telematics in the late 60s was the origin of the increase in transborder data flow. Most of the research work on international tdf laws has addressed only personal data. In the meantime, the impact of non personal data flows on national security and integrity, national sovereignty, the cultural identity of peoples and the balance of trade, has been neglected. There exists a legal vacuum which, unless filled soon, might give way to a no holds barred battle between the advocates of regulation and those of deregulation. Mention must be made however of the first signs of an international awareness of this problem, this is the tdf declaration approved on april 11, 1985, this opens up the debate into the complex sphere of non personal data. To establish a universal order based on a comprehensive and binding instrument is illusive because the interests of all the protagonists are too divergent. It would be preferable to establish a kind of soft law adapted to the intrinsic characteristics of the topics being regulated
APA, Harvard, Vancouver, ISO, and other styles
37

Lechervy, Alexis. "Apprentissage interactif et multi-classes pour la détection de concepts sémantiques dans les données multimédia." Phd thesis, Université de Cergy Pontoise, 2012. http://tel.archives-ouvertes.fr/tel-00781763.

Full text
Abstract:
Récemment les techniques d'apprentissage automatique ont montré leurs capacité à identifier des catégories d'images à partir de descripteurs extrait de caractéristiques visuels des images. Face à la croissance du nombre d'images et du nombre de catégories à traiter, plusieurs techniques ont été proposées pour réduire à la fois le coût calculatoire des méthodes et l'investissement humain en terme de supervision. Dans cette thèse nous proposons deux méthodes qui ont pour objectif de traiter un grand nombre d'images et de catégories. Nous proposons tout d'abord une solution reposant sur le concepts de recherche interactive. Le protocole de recherche interactive propose d'établir un " dialogue " entre le système d'apprentissage et l'utilisateur afin de minimiser l'effort d'annotation. Nous avons voulu dans ces travaux proposer une solution de recherche interactive adaptée aux méthodes de boosting . Ces méthodes combinent des classifieurs faibles pour produire un classifieur plus fort. Nous avons proposé une méthode de boosting interactif pour la recherche dans les images qui fit l'objet de deux articles (RFIA 2010, ICPR 2010). Ces méthodes proposent notamment une nouvelle manière de construire l'ensemble des classifieurs faibles sélectionnables par le boosting. Dans un second temps nous nous sommes consacré plus particulièrement aux méthodes à noyaux dans un contexte d'apprentissage plus classique. Ces méthodes ont montré de très bon résultats mais le choix de la fonction noyau et son réglage reste un enjeux important. Dans ces travaux, nous avons mis en place une nouvelle méthode d'apprentissage de fonction noyau multi-classes pour la classification de grande base d'images. Nous avons choisie d'utiliser un frameworks inspiré des méthodes de boosting pour créer un noyau fort à partir d'une combinaison de noyau plus faible. Nous utilisons la dualité entre fonction noyau et espace induit pour construit un nouvelle espace de représentation des données plus adapté à la catégorisation. L'idée de notre méthode est de construire de manière optimale ce nouvel espace de représentation afin qu'il permette l'apprentissage d'un nouveau classifieur plus rapide et de meilleures qualités. Chaque donnée multimédia sera alors représentée dans cette espace sémantique en lieu et place de sa représentation visuelle. Pour reproduire une approche similaire à une méthode de boosting, nous utilisons une construction incrémentale où des noyaux faibles sont entraînés dans une direction déterminée par les erreurs de l'itération précédente. Ces noyaux sont combinés à un facteur de pondération près, calculé grâce à la résolution analytique d'un problème d'optimisation. Ces travaux se basent sur des fondements mathématiques et font l'objet d'expériences montrant son intérêt pratique par comparaison avec les méthodes les plus récentes de la littérature. Ceux-ci sont présentés dans deux articles à Esann 2012 et ICIP 2012 ainsi que dans une soumission à MTAP.
APA, Harvard, Vancouver, ISO, and other styles
38

Francis, Danny. "Représentations sémantiques d'images et de vidéos." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS605.

Full text
Abstract:
Des travaux de recherche récents en apprentissage profond ont permis d’améliorer significativement les performances des modèles multimédias : avec la création de grands jeux de données d’images ou de vidéos annotées, les réseaux de neurones profonds ont surpassé les modèles précédemment utilisés dans la plupart des cas. Dans cette thèse, nous avons développé de nouveaux modèles neuronaux profonds permettant de générer des représentations sémantiques d’images et de vidéos. Nous nous sommes intéressés à deux tâches principales : l’appariement d’images ou de vidéos et de textes, et la génération automatique de légendes. La tâche d’appariement peut être réalisée par le biais d’un espace multimodal commun permettant de comparer images ou vidéos et textes. Nous avons pour cela défini deux types de modèles d’appariement en nous inspirant des travaux récents sur les réseaux de capsules. La génération automatique de légendes textuelles est une tâche ardue, puisqu’elle demande à analyser un objet visuel, et à le transcrire en une description en langage naturel. Pour cela, nous proposons deux méthodes d’apprentissage par curriculum. Par ailleurs, nous avons défini une méthode permettant à un modèle de génération de légendes de vidéos de combiner des informations spatiales et temporelles. Des expériences ont permis de prouver l’intérêt de nos propositions par rapport aux travaux existants
Recent research in Deep Learning has sent the quality of results in multimedia tasks rocketing: thanks to new big datasets of annotated images and videos, Deep Neural Networks (DNN) have outperformed other models in most cases. In this thesis, we aim at developing DNN models for automatically deriving semantic representations of images and videos. In particular we focus on two main tasks : vision-text matching and image/video automatic captioning. Addressing the matching task can be done by comparing visual objects and texts in a visual space, a textual space or a multimodal space. Based on recent works on capsule networks, we define two novel models to address the vision-text matching problem: Recurrent Capsule Networks and Gated Recurrent Capsules. In image and video captioning, we have to tackle a challenging task where a visual object has to be analyzed, and translated into a textual description in natural language. For that purpose, we propose two novel curriculum learning methods. Moreover regarding video captioning, analyzing videos requires not only to parse still images, but also to draw correspondences through time. We propose a novel Learned Spatio-Temporal Adaptive Pooling method for video captioning that combines spatial and temporal analysis. Extensive experiments on standard datasets assess the interest of our models and methods with respect to existing works
APA, Harvard, Vancouver, ISO, and other styles
39

Chartron, Ghislaine. "Analyse des corpus de données textuelles, sondage de flux d'informations." Paris 7, 1988. http://www.theses.fr/1988PA077211.

Full text
Abstract:
Realisation d'un outil d'extraction des concepts significatifs d'un corpus quelconque de documents "homogenes", l'originalite defaut de respecter les exigences d'un univers ouvert: l'outil a ete appele lexinet. Les traitements ont ete developpes dans la perspective de traiter des sources d'informations diverses en un temps limite, sans s'appuyer sur des lexiques preetablis. Les techniques employees associent des methodes linguistiques elementaires, des methodes statistiques et l'intervention d'un expert humain, specialiste du domaine traite
APA, Harvard, Vancouver, ISO, and other styles
40

Hotte, Sylvain. "Traitements spatiaux dans un contexte de flux massifs de données." Master's thesis, Université Laval, 2018. http://hdl.handle.net/20.500.11794/30956.

Full text
Abstract:
Au cours des dernières années, nous avons constaté une augmentation du volume d’information sous la forme de flux de données. Cette augmentation rend le traitement de ces flux par des méthodes traditionnelles non performant, voire impossible. De plus, la mise à jour rapide des informations suscite un intérêt grandissant pour leurs traitements en temps réel afin d’en tirer une plus grande valeur. Ces données massives étant souvent géoréférencées, il devient donc pertinent d’offrir des méthodes permettant d’effectuer des traitements spatiaux sur ces flux massifs de données. Cependant, le sujet des traitements spatiaux dans un contexte de flux massifs a très peu été abordé dans la recherche scientifique. Les études qui ont été faites traitaient toujours de flux massif de données en relation avec des données persistantes. Aucune recherche ne portait sur des traitements spatiaux ayant plusieurs flux massifs de données spatiales. La problématique est de déterminer des méthodes de traitements pour des opérateurs spatiaux dont les paramètres sont issus de flux massifs de données spatiales. Notre objectif général consiste à explorer les caractéristiques permettant l’élaboration de tels traitements et d’offrir des pistes de solution. Nos travaux de recherche ont fait ressortir les facteurs influençant l’adaptation des traitements spatiaux dans un contexte de traitement en parallèle de flux massif de données. Nous avons déterminé que les méthodes d’adaptation peuvent se décliner en classes sur la base des caractéristiques de l’opérateur spatial, mais aussi sur la nature des données et la façon dont elles sont rendues disponibles. Nous avons proposé des méthodes générales de traitement pour chacune des classes identifiées afin de guider les stratégies d’adaptations. Pour la classe dont le traitement d’opérateur binaire possède des opérandes issus de flux massifs, nous avons détaillé une méthode d’adaptation permettant l’utilisation d’opérateurs spatiaux. Afin de tester l’efficacité et la validité de la méthode proposée, nous avons appliqué cette méthode à un opérateur relationnel d’intersection et un opérateur d’analyse de proximité, soit les "k" plus proches voisins. Ces tests ont permis de vérifier la validité et de quantifier l’efficacité des méthodes proposée par rapport à l’évolution, ou scalabilité, horizontale du système (ajout du nombre de cœurs). Nos tests ont aussi permis de quantifier l’effet de la variation du niveau de partitionnement sur les performances du débit de traitement. Notre contribution permettra, nous l’espérons, de servir de point de départ pour l’adaptation d’opérateurs spatiaux plus complexes.
In recent years we have witnessed a significant volume increase of data streams. The traditional way of processing this information is rendered inefficient or even impossible by this high volume of data. There is an increase in the interest of real time data processing in order to derive greater value of the data. Since those data are often georeferenced, it becomes relevant to offer methods that enable spatial processing on big data streams. However, the subject of spatial processing in a context of Big Data stream has seldom been discussed in scientific research. All the studies that have been done so far involve persistent data and none of them deals with the case where two Big Data streams are in relation. The problem is therefore to determine how to adapt the processing of spatial operators when their parameters derive from two Big Spatial Data stream. Our general objective is to explore the characteristics that allow the development of such analysis and to offer potential solutions. Our research has highlighted the factors influencing the adaptation of spatial processing in a context of Big Data stream. We have determined that adaptation methods can be categorized in different categories according to the characteristics of the spatial operator but also on the characteristics of the data itself and how it is made available. We proposed general methods of spatial processing for each category in order to guide adaptation strategies. For one of these categories, where a binary operator has both operands coming from Big Data stream, we have detailed a method allowing the use of spatial operators. In order to test the effectiveness and validity of the proposed method, we applied this method to an intersection operator and to a proximity analysis operator, the "k" nearest neighbors. These tests made it possible to check the validity and to quantify the effectiveness of the proposed methods in relation to the system evolution or scalability, i.e. increasing the number of processing cores. Our tests also made it possible to quantify the effect of the variation of the partitioning level on the performances of the treatment flow. Our contribution will, hopefully, serves as a starting point for more complex spatial operator adaptation.
APA, Harvard, Vancouver, ISO, and other styles
41

Song, Ge. "Méthodes parallèles pour le traitement des flux de données continus." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLC059/document.

Full text
Abstract:
Nous vivons dans un monde où une grande quantité de données est généré en continu. Par exemple, quand on fait une recherche sur Google, quand on achète quelque chose sur Amazon, quand on clique en ‘Aimer’ sur Facebook, quand on upload une image sur Instagram, et quand un capteur est activé, etc., de nouvelles données vont être généré. Les données sont différentes d’une simple information numérique, mais viennent dans de nombreux format. Cependant, les données prisent isolément n’ont aucun sens. Mais quand ces données sont reliées ensemble on peut en extraire de nouvelles informations. De plus, les données sont sensibles au temps. La façon la plus précise et efficace de représenter les données est de les exprimer en tant que flux de données. Si les données les plus récentes ne sont pas traitées rapidement, les résultats obtenus ne sont pas aussi utiles. Ainsi, un système parallèle et distribué pour traiter de grandes quantités de flux de données en temps réel est un problème de recherche important. Il offre aussi de bonne perspective d’application. Dans cette thèse nous étudions l’opération de jointure sur des flux de données, de manière parallèle et continue. Nous séparons ce problème en deux catégories. La première est la jointure en parallèle et continue guidée par les données. La second est la jointure en parallèle et continue guidée par les requêtes
We live in a world where a vast amount of data is being continuously generated. Data is coming in a variety of ways. For example, every time we do a search on Google, every time we purchase something on Amazon, every time we click a ‘like’ on Facebook, every time we upload an image on Instagram, every time a sensor is activated, etc., it will generate new data. Data is different than simple numerical information, it now comes in a variety of forms. However, isolated data is valueless. But when this huge amount of data is connected, it is very valuable to look for new insights. At the same time, data is time sensitive. The most accurate and effective way of describing data is to express it as a data stream. If the latest data is not promptly processed, the opportunity of having the most useful results will be missed.So a parallel and distributed system for processing large amount of data streams in real time has an important research value and a good application prospect. This thesis focuses on the study of parallel and continuous data stream Joins. We divide this problem into two categories. The first one is Data Driven Parallel and Continuous Join, and the second one is Query Driven Parallel and Continuous Join
APA, Harvard, Vancouver, ISO, and other styles
42

Cailhol, Simon. "Planification interactive de trajectoire en Réalité Virtuelle sur la base de données géométriques, topologiques et sémantiques." Thesis, Toulouse, INPT, 2015. http://www.theses.fr/2015INPT0058/document.

Full text
Abstract:
Pour limiter le temps et le coût de développement de nouveaux produits, l’industrie a besoin d’outils pour concevoir, tester et valider le produit avec des prototypes virtuels. Ces prototypes virtuels doivent permettre de tester le produit à toutes les étapes du Product Lifecycle Management (PLM). Beaucoup d’opérations du cycle de vie du produit impliquent la manipulation par un humain des composants du produit (montage, démontage ou maintenance du produit). Du fait de l’intégration croissante des produits industriels, ces manipulations sont réalisées dans un environnement encombré. La Réalité Virtuelle (RV) permet à des opérateurs réels d’exécuter ces opérations avec des prototypes virtuels. Ce travail de recherche introduit une nouvelle architecture de planification de trajectoire permettant la collaboration d’un utilisateur de RV et d’un système de planification de trajectoire automatique. Cette architecture s’appuie sur un modèle d’environnement original comprenant des informations sémantiques, topologiques et géométriques. Le processus de planification automatique de trajectoire est scindé en deux phases. Une planification grossière d’abord exploitant les données sémantique et topologiques. Cette phase permet de définir un chemin topologique. Une planification fine ensuite exploitant les données sémantiques et géométriques détermine un trajectoire géométrique dans le chemin topologique défini lors de la planification grossière. La collaboration entre le système de planification automatique et l’utilisateur de RV s’articule autour de deux modes : en premier lieu, l’utilisateur est guidé sur une trajectoire pré-calculée à travers une interface haptique ; en second lieu, l’utilisateur peut quitter la solution proposée et déclencher ainsi une re-planification. L’efficacité et l’ergonomie des ces deux modes d’interaction est enrichie grâce à des méthodes de partage de contrôle : tout d’abord, l’autorité du système automatique est modulée afin de fournir à la fois un guidage prégnant lorsque l’utilisateur le suit, et plus de liberté à l’utilisateur (un guidage atténué) lorsque celui-ci explore des chemins alternatifs potentiellement meilleurs. Ensuite, lorsque l’utilisateur explore des chemins alternatifs, ses intentions sont prédites (grâce aux données géométriques associées aux éléments topologiques) et intégrées dans le processus de re-planification pour guider la planification grossière. Ce mémoire est organisé en cinq chapitres. Le premier expose le contexte industriel ayant motivé ces travaux. Après une description des outils de modélisation de l’environnement, le deuxième chapitre introduit le modèle multi-niveaux de l’environnement proposé. Le troisième chapitre présente les techniques de planification de trajectoire issues de la robotique et détaille le processus original de planification de trajectoire en deux phases développé. Le quatrième introduit les travaux précurseurs de planification interactive de trajectoire et les techniques de partage de contrôle existantes avant de décrire les modes d’interaction et les techniques de partage de contrôle mises en œuvre dans notre planificateur interactif de trajectoire. Enfin le dernier chapitre présente les expérimentations menées avec le planificateur de trajectoire et en analyse leurs résultats
To save time and money while designing new products, industry needs tools to design, test and validate the product using virtual prototypes. These virtual prototypes must enable to test the product at all Product Lifecycle Management (PLM) stages. Many operations in product’s lifecycle involve human manipulation of product components (product assembly, disassembly or maintenance). Cue to the increasing integration of industrial products, these manipulations are performed in cluttered environment. Virtual Reality (VR) enables real operators to perform these operations with virtual prototypes. This research work introduces a novel path planning architecture allowing collaboration between a VR user and an automatic path planning system. This architecture is based on an original environment model including semantic, topological and geometric information. The automatic path planning process split in two phases. First, coarse planning uses semantic and topological information. This phase defines a topological path. Then, fine planning uses semantic and geometric information to define a geometrical trajectory within the topological path defined by the coarse planning. The collaboration between VR user and automatic path planner is made of two modes: on one hand, the user is guided along a pre-computed path through a haptic device, on the other hand, the user can go away from the proposed solution and doing it, he starts a re-planning process. Efficiency and ergonomics of both interaction modes is improved thanks to control sharing methods. First, the authority of the automatic system is modulated to provide the user with a sensitive guidance while he follows it and to free the user (weakened guidance) when he explores possible better ways. Second, when the user explores possible better ways, his intents are predicted (thanks to geometrical data associated to topological elements) and integrated in the re-planning process to guide the coarse planning. This thesis is divided in five chapters. The first one exposes the industrial context that motivated this work. Following a description of environment modeling tools, the second chapter introduces the multi-layer environment model proposed. The third chapter presents the path planning techniques from robotics research and details the two phases path planning process developed. The fourth introduce previous work on interactive path planning and control sharing techniques before to describe the interaction modes and control sharing techniques involved in our interactive path planner. Finally, last chapter introduces the experimentations performed with our path planner and analyses their results
APA, Harvard, Vancouver, ISO, and other styles
43

Savinaud, Mickaël. "Recalage de flux de données cinématiques pour l'application à l'imagerie optique." Phd thesis, Ecole Centrale Paris, 2010. http://tel.archives-ouvertes.fr/tel-00545424.

Full text
Abstract:
Parmi les approches d'imagerie préclinique, les techniques optiques sur petit animal fournissent une information fonctionnelle sur un phénomène biologique ainsi que sur sa localisation. De récents développements permettent d'exploiter ces méthodes dans le cadre de l'imagerie sur animal vigile. Les conditions physiologiques se rapprochent alors de celles du fonctionnement normal de l'organisme. Les travaux de cette thèse ont porté sur l'utilisation optimale de cette modalité via des méthodes originales d'analyse et de traitement.Les problèmes soulevés par la fusion des flux cinématiques et de données de bioluminescence nous ont amené à proposer des approches complémentaires d'estimationde mouvement de l'animal. La représentation sous forme implicite des informations issuesde la vidéo de l'animal permettent de construire un critère robuste à minimiser. L'ajout d'uncritère global mesurant la compacité du signal optique permet de considérer dans sa totalité les données multicanaux acquises pour augmenter la précision du recalage. Finalement ces deux modélisations offrent des résultats pertinents et validés expérimentalement.Dans le but de s'affranchir des contraintes de l'observation planaire de nos données nous avons conçu une méthode d'estimation du mouvement 3D de l'animal à partir d'un modèle pré-calculé. Grâce à un système d'acquisition multi-vues et simultanée de la scène, il est possible d'ajouter une contrainte sur l'estimation de la position de la source pour rendre robuste le suivi des poses issues de la vidéo. Les résultats expérimentaux montrent le potentiel de cette méthode pour fournir des mesures 3D précises sur l'animal vigile.
APA, Harvard, Vancouver, ISO, and other styles
44

Roquier, Ghislain. "Etude de modèles flux de données pour la synthèse logicielle multiprocesseur." Rennes, INSA, 2004. http://www.theses.fr/2008ISAR0020.

Full text
Abstract:
Le parallélisme est une caractéristique importante des plates-formes modernes de calcul, et ce, depuis les processeurs multi-cœurs jusqu'aux circuits logiques programmables. Le paradigme de programmation séquentielle jusqu'à présent utilisé dans le cadre logiciel n'est plus adapté. Les travaux présentés dans ce mémoire trouvent leurs fondements dans la méthodologie AAA basée sur les graphes qui permet la construction à haut-niveau de programmes parallèles. Ces travaux ont permis d'élargir le spectre des applications modélisables par la spécification d’un nouveau formalisme de graphe. De plus, ces travaux ont été mis à profit dans le cadre de la norme MPEG RVC. Les travaux présentés dans ce mémoire montrent la contribution à cet environnement par la spécification et le développement d'un outil de synthèse logicielle
Parallelism is a universal characteristic of modern computing platforms, from multi-core processorsto programmable logic devices. The sequential programming paradigm is no longer adapted in thecontext of parallel and distributed architectures. The work presented in this thesis document findtheir foundation in the AAA methodology to build parallel programs based on an high-level representationsof both application and architecture. This work has enabled to extend the class of applications that can be modelled by the specification of new graph formalism. The final part of the document shows our involvement in the MPEG RVC framework. The RVC standard intends to facilitate for building the reference codecs offuture MPEG standards, which is based on dataflow to build decoder using a new dataflow languagecalled CAL. This work has enabled to specify and develop a software synthesis tool that enables anautomatic translation of dataflow programs written in CAL
APA, Harvard, Vancouver, ISO, and other styles
45

Gauwin, Olivier. "Flux XML, Requêtes XPath et Automates." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. http://tel.archives-ouvertes.fr/tel-00421911.

Full text
Abstract:
Ces dernières années, XML est devenu le format standard pour l'échange de données. Les documents XML sont généralement produits à partir de bases de données, durant le traitement de documents, ou au sein d'applications Web. L'échange de données en flux est fréquemment utilisé lors de l'envoi de données volumineuses par le réseau. Ainsi le transfert par flux est adéquat pour de nombreux traitements XML.

Dans cette thèse, nous étudions des algorithmes d'évaluation de requêtes sur des flux XML. Notre objectif est de gérer efficacement la mémoire, afin de pouvoir évaluer des requêtes sur des données volumineuses, tout en utilisant peu de mémoire. Cette tâche s'avère complexe, et nécessite des restrictions importantes sur les langages de requêtes. Nous étudions donc les requêtes définies par des automates déterministes ou par des fragments du standard W3C XPath, plutôt que par des langages plus puissants comme les standards W3C XQuery et XSLT.

Nous définissons tout d'abord les Streaming Tree Automata (STAs), qui opèrent sur les arbres d'arité non bornée dans l'ordre du document. Nous prouvons qu'ils sont équivalents aux Nested Word Automata et aux Pushdown Forest Automata. Nous élaborons ensuite un algorithme d'évaluation au plus tôt, pour les requêtes définies par des STAs déterministes. Bien qu'il ne stocke que les candidats nécessaires, cet algorithme est en temps polynomial à chaque événement du flux, et pour chaque candidat. Par conséquent, nous obtenons des résultats positifs pour l'évaluation en flux des requêtes définies par des STAs déterministes. Nous mesurons une telle adéquation d'un langage de requêtes à une évaluation en flux via un nouveau modèle de machines, appelées Streaming Random Access Machines (SRAMs), et via une mesure du nombre de candidats simultanément vivants, appelé concurrence. Nous montrons également qu'il peut être décidé en temps polynomial si la concurrence d'une requête définie par un STA déterministe est bornée. Notre preuve est basée sur une réduction au problème de la valuation bornée des relations reconnaissables d'arbres.

Concernant le standard W3C XPath, nous montrons que même de petits fragments syntaxiques ne sont pas adaptés à une évaluation en flux, sauf si P=NP. Les difficultés proviennent du non-déterminisme de ce langage, ainsi que du nombre de conjonctions et de disjonctions. Nous définissons des fragments de Forward XPath qui évitent ces problèmes, et prouvons, par compilation vers les STAs déterministes en temps polynomial, qu'ils sont adaptés à une évaluation en flux.
APA, Harvard, Vancouver, ISO, and other styles
46

El, Haddadi Anass. "Fouille multidimensionnelle sur les données textuelles visant à extraire les réseaux sociaux et sémantiques pour leur exploitation via la téléphonie mobile." Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1378/.

Full text
Abstract:
La concurrence est un concept fondamental de la tradition libérale et des sciences économiques qui oblige les entreprises à pratiquer l'Intelligence Economique (IE) pour bien se positionner sur le marché ou tout simplement pour survivre. Mais souvent, ce n'est pas le plus fort qui survit, ni le plus intelligent, mais celui qui est le plus sensible au changement, facteur dominant dans la société actuelle. Les changements proviennent de l'extérieur ou naissent au sein même de l'entreprise et peuvent l'affecter plus ou moins durablement. Dès lors, les entreprises sont appelées à rester constamment en veille pour guetter le moindre changement en vue d'y apporter la solution adéquate en temps réel. Cependant, pour une veille réussie, on ne doit pas se contenter uniquement de surveiller les opportunités, mais avant tout, d'anticiper les menaces. Malheureusement, cette veille se déroule en oubliant l'indispensable volet sécurité de l'IE à savoir la sécurité des données manipulées et celle des procédés suivis pour atteindre les objectifs de l'IE. Nos travaux de recherche consistent à proposer un Système d'Intelligence Economique (SIE) Généraliste et Mobile. Ce SIE intègre une approche de modélisation du contrôle d'accès aux données et aux traitements pour sécuriser toutes les informations et les flux d'interaction durant son cycle de vie. Le besoin en matière de sécurité dans un SIE provient du fait que les informations manipulées sont d'ordre stratégique ayant une valeur assez importante. Une telle sécurité ne doit pas être considérée comme une option supplémentaire qu'offre un SIE pour se distinguer d'un autre. D'autant plus que la fuite de ces informations n'est pas le fait de faiblesses inhérentes aux systèmes informatiques des entreprises, mais c'est avant tout une question organisationnelle. La mobilité présente un choix stratégique pour notre SIE ''XPlor EveryWhere'', dont le but est de permettre aux utilisateurs de nos solutions de veille de continuer à rechercher, surveiller, valider et rediffuser des informations stratégiques au cours de leurs déplacements. Ils n'ont ainsi plus besoin d'être assis face à leur ordinateur pour accéder à des données utiles dans l'instant (préparation d'une réunion, nouvel ordre du jour, information sur un interlocuteur, une technologie, un marché, demande urgente d'une analyse ou d'un focus spécifique). Il leur suffit simplement d'utiliser discrètement, et en tout sécurité, leur appareil mobile. Grâce à XPlor EveryWhere, ils sont en permanence au cœur de l'information pertinente
Competition is a fundamental concept of the liberal economy tradition that requires companies to resort to Competitive Intelligence (CI) in order to be advantageously positioned on the market, or simply to survive. Nevertheless, it is well known that it is not the strongest of the organizations that survives, nor the most intelligent, but rather, the one most adaptable to change, the dominant factor in society today. Therefore, companies are required to remain constantly on a wakeful state to watch for any change in order to make appropriate solutions in real time. However, for a successful vigil, we should not be satisfied merely to monitor the opportunities, but before all, to anticipate risks. The external risk factors have never been so many: extremely dynamic and unpredictable markets, new entrants, mergers and acquisitions, sharp price reduction, rapid changes in consumption patterns and values, fragility of brands and their reputation. To face all these challenges, our research consists in proposing a Competitive Intelligence System (CIS) designed to provide online services. Through descriptive and statistics exploratory methods of data, Xplor EveryWhere display, in a very short time, new strategic knowledge such as: the profile of the actors, their reputation, their relationships, their sites of action, their mobility, emerging issues and concepts, terminology, promising fields etc. The need for security in XPlor EveryWhere arises out of the strategic nature of information conveyed with quite a substantial value. Such security should not be considered as an additional option that a CIS can provide just in order to be distinguished from one another. Especially as the leak of this information is not the result of inherent weaknesses in corporate computer systems, but above all it is an organizational issue. With Xplor EveryWhere we completed the reporting service, especially the aspect of mobility. Lastly with this system, it's possible to: View updated information as we have access to our strategic database server in real-time, itself fed daily by watchmen. They can enter information at trade shows, customer visits or after meetings
APA, Harvard, Vancouver, ISO, and other styles
47

Bernard, Luc. "Développement d'un jeu de structures de données et de contraintes sémantiques pour la compilation(séparée) du langage ADA." Doctoral thesis, Universite Libre de Bruxelles, 1985. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/213624.

Full text
APA, Harvard, Vancouver, ISO, and other styles
48

Benazouz, Mohamed. "Dimensionnement des mémoires pour les applications de traitement de flux de données." Paris 6, 2012. http://www.theses.fr/2012PA066067.

Full text
Abstract:
Les récents travaux en conception électronique au niveau système (ESL) et la synthèse haut niveau (HLS) ont permis l'essor des techniques d'exploration de l'espace de conception dans le but de satisfaire des exigences croissantes tout en réduisant le temps de mise sur le marché. Plusieurs métriques sont utilisées durant ce processus d'exploration; le débit constitue une des plus importantes mesures de performance d'une application de traitement de flux de données. Un des facteurs qui limite le débit atteint est la taille des mémoires tampons (buffers) assurant l'échange de données entre les différentes tâches d'une application. Des méthodes exactes ou heuristiques ont été proposées ces dernières années pour calculer la taille des buffers sous contrainte de débit. Cependant, elles ne sont pas satisfaisantes du fait de leur temps de calcul prohibitif. Le but de cette thèse est de proposer une approche analytique permettant de résoudre en temps polynomial le problème de minimisation de la taille globale des mémoires tampons tout en garantissant d'atteindre un débit préfixé. Deux modèles de calcul (MoC) très répandus ont été retenus pour décrire le parallélisme des tâches et les taux de transfert de données entre elles: graphes d'événements généralisés temporisés (TMWEG) et graphes cyclo-static dataflow (CSDFG). En supposant que les tâches sont exécutées périodiquement, nous montrons que le problème d'optimisation avec contrainte de débit minimum est un programme linéaire en nombres entiers (PLNE). Nous proposons alors des algorithmes polynomiaux exacts pour certaines sous-classes de graphes ainsi qu'un algorithme polynomial 2-approché dans le cas général.
APA, Harvard, Vancouver, ISO, and other styles
49

Ajib, Wessam. "Gestion d'un flux temporaire de données dans un réseau radio-mobile TDMA." Paris, ENST, 2001. http://www.theses.fr/2001ENST0001.

Full text
Abstract:
Le sujet de nos travaux est la gestion de transmission d'un flux temporaire de données dans un réseau radio mobile d'accès TDMA comme GPRS (General Pachet Radio Service). Le GPRS est un service de transmission de données par paquet qui utilise la structure et le support physique de GSM. Un flux temporaire de données représente la quantité de données transmise durant une connexion physique. La transmission de ce flux est gérée par différents protocoles. Nos études s'intéressent à optimiser certains protocoles de la couche de liaison qui concernent particulièrement l'accès aux ressources radio et la fiabililité de transmission de données sur l'interface radio. Nous étudions ces protocoles et nous évaluons leurs performances. Nous proposons également plusieurs politiques et de nouvelles procédures afin d'améliorer les performances de la transmission d'un flux temporaire de données. L'établissement d'une connexion GPRS suit, selon la norme, la technique de Slotted Aloha combinée avec un mécanisme spécifique de retransmissions éventuelles des requêtes d'accès. Afin de minimiser la durée d'établissement d'une connexion nous proposons un mécanisme additionnel. Le principe de la proposition est de traiter les requêtes transmises pour la première fois différemment de celles de la retransmission. La norme de GPRS spécifie un protocole d'acquittements au niveau de RLC fondé sur le principe de la retransmission sélective des données erronées. Nous proposons d'ajouter un mécanisme FEC. Le protocole résultant (ARQ hybride) diminue la quantité de messages de contrôle utilisés et améliore ainsi les performances. Des politiques de partage de ressources sur plusieurs niveaux doivent être définies. Le 1er niveau est l'attribution des canaux physiques dans une cellule entre GPRS (Ils sont nommés PDCHs) et GSM-circuit. Plusieurs techniques de partage sont proposées. Le 2nd niveau est l'allocation d'un ensemble de PDCHs à un usager GPRS. Chaque PDCH est segmenté en plusieurs périodes bloc (unité de transmission). Le 3ème niveau définit l'attribution des périodes bloc d'un même PDCH entre les différents usagers associés à ce PDCH. Nous proposons et analysons également trois politiques d'allocation des PDCHs et plusieurs politiques d'ordonnancement de données de plusieurs usagers sur un même PDCH
APA, Harvard, Vancouver, ISO, and other styles
50

Chen, Xiaoyi. "Analyse de données de cytometrie de flux pour un grand nombre d'échantillons." Thesis, Cergy-Pontoise, 2015. http://www.theses.fr/2015CERG0777/document.

Full text
Abstract:
Cette thèse a conduit à la mise au point de deux nouvelles approches statistiques pour l'identification automatique de populations cellulaires en cytometrie de flux multiparamétrique, et ceci pour le traitement d'un grand nombre d'échantillons, chaque échantillon étant prélevé sur un donneur particulier. Ces deux approches répondent à des besoins exprimés dans le cadre du projet Labex «Milieu Intérieur». Dix panels cytométriques de 8 marqueurs ont été sélectionnés pour la quantification des populations principales et secondaires présentes dans le sang périphérique. Sur la base de ces panels, les données ont été acquises et analysées sur une cohorte de 1000 donneurs sains.Tout d'abord, nous avons recherché une quantification robuste des principales composantes cellulaires du système immunitaire. Nous décrivons une procédure computationnelle, appelée FlowGM, qui minimise l'intervention de l'utilisateur. Le cœur statistique est fondé sur le modèle classique de mélange de lois gaussiennes. Ce modèle est tout d'abord utilisé pour obtenir une classification initiale, le nombre de classes étant déterminé par le critère d'information BIC. Après cela, une méta-classification, qui consiste en l'étiquetage des classes et la fusion de celles qui ont la même étiquette au regard de la référence, a permis l'identification automatique de 24 populations cellulaires sur quatre panels. Ces identifications ont ensuite été intégrées dans les fichiers de cytométrie de flux standard (FCS), permettant ainsi la comparaison avec l'analyse manuelle opérée par les experts. Nous montrons que la qualité est similaire entre FlowGM et l'analyse manuelle classique pour les lymphocytes, mais notamment que FlowGM montre une meilleure discrimination des sous-populations de monocytes et de cellules dendritiques (DC), qui sont difficiles à obtenir manuellement. FlowGM fournit ainsi une analyse rapide de phénotypes cellulaires et se prête à des études de cohortes.A des fins d'évaluation, de diagnostic et de recherche, une analyse tenant compte de l'influence de facteurs, comme par exemple les effets du protocole, l'effet de l'âge et du sexe, a été menée. Dans le contexte du projet MI, les 1000 donneurs sains ont été stratifiés selon le sexe et l'âge. Les résultats de l'analyse quantitative faite avec FlowGM ont été jugés concordants avec l'analyse manuelle qui est considérée comme l'état de l'art. On note surtout une augmentation de la précision pour les populations CD16+ et CDC1, où les sous-populations CD14loCD16hi et HLADRhi CDC1 ont été systématiquement identifiées. Nous démontrons que les effectifs de ces deux populations présentent une corrélation significative avec l'âge. En ce qui concerne les populations qui sont connues pour être associées à l'âge, un modèle de régression linéaire multiple a été considéré qui fournit un coefficient de régression renforcé. Ces résultats établissent une base efficace pour l'évaluation de notre procédure FlowGM.Lors de l'utilisation de FlowGM pour la caractérisation détaillée de certaines sous-populations présentant de fortes variations au travers des différents échantillons, par exemple les cellules T, nous avons constaté que FlowGM était en difficulté. En effet, dans ce cas, l'algorithme EM classique initialisé avec la classification de l'échantillon de référence est insuffisant pour garantir l'alignement et donc l'identification des différentes classes entre tous échantillons. Nous avons donc amélioré FlowGM en une nouvelle procédure FlowGMP. Pour ce faire, nous avens ajouté au modèle de mélange, une distribution a priori sur les paramètres de composantes, conduisant à un algorithme EM contraint. Enfin, l'évaluation de FlowGMP sur un panel difficile de cellules T a été réalisée, en effectuant une comparaison avec l'analyse manuelle. Cette comparaison montre que notre procédure Bayésienne fournit une identification fiable et efficace des onze sous-populations de cellules T à travers un grand nombre d'échantillons
In the course of my Ph.D. work, I have developed and applied two new computational approaches for automatic identification of cell populations in multi-parameter flow cytometry across a large number of samples. Both approaches were motivated and taken by the LabEX "Milieu Intérieur" study (hereafter MI study). In this project, ten 8-color flow cytometry panels were standardized for assessment of the major and minor cell populations present in peripheral whole blood, and data were collected and analyzed from 1,000 cohorts of healthy donors.First, we aim at robust characterization of major cellular components of the immune system. We report a computational pipeline, called FlowGM, which minimizes operator input, is insensitive to compensation settings, and can be adapted to different analytic panels. A Gaussian Mixture Model (GMM) - based approach was utilized for initial clustering, with the number of clusters determined using Bayesian Information Criterion. Meta-clustering in a reference donor, by which we mean labeling clusters and merging those with the same label in a pre-selected representative donor, permitted automated identification of 24 cell populations across four panels. Cluster labels were then integrated into Flow Cytometry Standard (FCS) files, thus permitting comparisons to human expert manual analysis. We show that cell numbers and coefficient of variation (CV) are similar between FlowGM and conventional manual analysis of lymphocyte populations, but notably FlowGM provided improved discrimination of "hard-to-gate" monocyte and dendritic cell (DC) subsets. FlowGM thus provides rapid, high-dimensional analysis of cell phenotypes and is amenable to cohort studies.After having cell counts across a large number of cohort donors, some further analysis (for example, the agreement with other methods, the age and gender effect, etc.) are required naturally for the purpose of comprehensive evaluation, diagnosis and discovery. In the context of the MI project, the 1,000 healthy donors were stratified across gender (50% women and 50% men) and age (20-69 years of age). Analysis was streamlined using our established approach FlowGM, the results were highly concordant with the state-of-art gold standard manual gating. More important, further precision of the CD16+ monocytes and cDC1 population was achieved using FlowGM, CD14loCD16hi monocytes and HLADRhi cDC1 cells were consistently identified. We demonstrate that the counts of these two populations show a significant correlation with age. As for the cell populations that are well-known to be related to age, a multiple linear regression model was considered, and it is shown that our results provided higher regression coefficient. These findings establish a strong foundation for comprehensive evaluation of our previous work.When extending this FlowGM method for detailed characterization of certain subpopulations where more variations are revealed across a large number of samples, for example the T cells, we find that the conventional EM algorithm initiated with reference clustering is insufficient to guarantee the alignment of clusters between all samples due to the presence of technical and biological variations. We then improved FlowGM and presented FlowGMP pipeline to address this specific panel. We introduce a Bayesian mixture model by assuming a prior distribution of component parameters and derive a penalized EM algorithm. Finally the performance of FlowGMP on this difficult T cell panel with a comparison between automated and manual analysis shows that our method provides a reliable and efficient identification of eleven T cell subpopulations across a large number of samples
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography