Log in

Relevant bibliographies by topics / Optimisation de l'échange de données / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Optimisation de l'échange de données.

Dissertations / Theses on the topic 'Optimisation de l'échange de données'

Author: Grafiati

Published: 4 June 2021

Last updated: 2 February 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Optimisation de l'échange de données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Ouertani, Mohamed Zied. "DEPNET : une approche support au processus de gestion de conflits basée sur la gestion des dépendances de données de conception." Phd thesis, Université Henri Poincaré - Nancy I, 2007. http://tel.archives-ouvertes.fr/tel-00163113.

Full text

Abstract:

Dans un contexte de performances de plus en plus exigeantes, la conception de produits est devenue une activité collaborative menée par des acteurs ayant différentes expertises. Une des caractéristiques de la conception collaborative est que les relations de précédence entre les activités créent des dépendances entre les données échangées. Dans un tel contexte, des conflits peuvent apparaître entre les acteurs lors de l'intégration de leurs propositions. Ces conflits sont d'autant plus amplifiés par la multiplicité des expertises et des points de vue des acteurs participant au processus de conception.
C'est à la gestion de ce phénomène, le conflit, que nous nous sommes intéressés dans le travail présenté dans ce mémoire, et plus particulièrement à la gestion de conflits par négociation. Nous proposons l'approche DEPNET (product Data dEPendencies NETwork identification and qualification) pour supporter au processus de gestion de conflits basée sur la gestion des dépendances entre les données. Ces données échangées et partagées entre les différents intervenants sont l'essence même de l'activité de conception et jouent un rôle primordial dans l'avancement du processus de conception.
Cette approche propose des éléments méthodologiques pour : (1) identifier l'équipe de négociation qui sera responsable de la résolution de conflit, et (2) gérer les impacts de la solution retenu suite à la résolution du conflit. Une mise en œuvre des apports de ce travail de recherche est présentée au travers du prototype logiciel DEPNET. Nous validons celui-ci sur un cas d'étude industriel issu de la conception d'un turbocompresseur.

APA, Harvard, Vancouver, ISO, and other styles

2

De, Vlieger P. "Création d'un environnement de gestion de base de données " en grille ". Application à l'échange de données médicales." Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00654660.

Full text

Abstract:

La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source. L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.

APA, Harvard, Vancouver, ISO, and other styles

3

De, Vlieger Paul. "Création d'un environnement de gestion de base de données "en grille" : application à l'échange de données médicales." Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00719688.

Full text

Abstract:

La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source.L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.

APA, Harvard, Vancouver, ISO, and other styles

4

El, Khalkhali Imad. "Système intégré pour la modélisation, l'échange et le partage des données de produits." Lyon, INSA, 2002. http://theses.insa-lyon.fr/publication/2002ISAL0052/these.pdf.

Full text

Abstract:

Dans le contexte d'Ingénierie Simultanée et d'Entreprise Virtuelle, un grand nombre d'informations sont utilisées et manipulées. L'exploitation de ces données pose des problèmes de communication tels que l'accès, l'échange et le partage d'informations entre des sites distants et entre des systèmes hétérogènes bien souvent incompatibles. Pour y répondre le projet STEP a été introduit. L'objectif de STEP est de définir une représentation non ambigue͏̈ des données de produit, interprétable par tout système informatique, et couvrant un très vaste domaine de connaissances. Cependant les acteurs travaillant simultanément au développement d'un produit sont nombreux et de spécialités très différentes : Concepteurs, Fabricants, Clients, Marketing, etc. Les points de vue qu'ils portent sur le même produit sont également très différents. Malheureusement les modèles STEP ne permettent pas de prendre en compte cette notion de point de vue. Ainsi, le travail présenté dans cette thèse a pour objectif de mettre en place un cadre méthodologique pour la représentation des points de vue des acteurs de la conception et de la fabrication à différents niveaux d'abstraction. Une infrastructure informatique pour la modélisation, l'échange et le partage des données de produit est également proposée
In Virtual Enterprise and Concurrent Engineering environments, a wide variety of information is used. A crucial issue is the data communication and exchange between heterogeneous systems and distant sites. To solve this problem, the STEP project was introduced. The STandard for the Exchange of Product model data STEP is an evolving international standard for the representation and exchange of product data. The objective of STEP is to provide the unambiguous computer-interpretable representation of product data in all phases of the product’s lifecycle. In a collaborative product development different types of experts in different disciplines are concerned by the product (Design, Manufacturing, Marketing, Customers,. . . ). Each of these experts has his own viewpoint about the same product. STEP Models are unable to represent the expert’s viewpoints. The objective of our research work is to propose a methodology for representation and integration of different expert’s viewpoints in design and manufacturing phases. An Information Infrastructure for modelling, exchanging and sharing product data models is also proposed

APA, Harvard, Vancouver, ISO, and other styles

5

Stoeklé, Henri-Corto. "Médecine personnalisée et bioéthique : enjeux éthiques dans l'échange et le partage des données génétiques." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCB175.

Full text

Abstract:

Du point de vue de la médecine et des sciences du vivant, la médecine personnalisée (MP) est trop souvent réduite à cette idée d'adapter un diagnostic, une prédisposition ou un traitement, en fonction des caractéristiques génétiques d'un individu. Cependant, du point de vue des sciences humaines et sociales, la MP peut être considérée comme un phénomène social complexe en raison d'une existence propre et d'une composition sui generis, de l'effet de contraintes qu'il exerce sur les individus, d'un grand nombre d'interactions et d'interférences entre un grand nombre d'unités, mues d'incertitudes, d'indéterminations, de hasard, d'ordre et de désordre. Selon nous, cet autre point de vue permet de mieux étudier la MP par un travail de recherche en bioéthique, mais avec un nouvel objectif, opposé mais complémentaire de celui du droit et de la philosophie morale, et une nouvelle méthode. En effet, l'objectif de la bioéthique devrait être un travail de recherche prospectif questionnant les normes établies faisant face à un phénomène social complexe émergeant, non l'inverse. Ceci permet de déterminer les bénéfices pour la société, et ses individus, à laisser le phénomène émerger en son sein, et d'étudier des solutions possibles et probables et non des certitudes, pour le présent et le futur. De cette façon, les bénéfices identifiés pourront se produire. Mais cet objectif nécessite une méthode permettant d'étudier le fonctionnement du phénomène dans son ensemble, à l'échelle de la société, sans le réduire à l'a priori de certains individus, en privilégiant ses interactions à ses éléments : il s'agit de la modélisation théorique systémique inductive qualitative. L'idée clé est d'être dans une logique de découverte, non de preuve. Cette nouvelle approche nous a tout d'abord permis de comprendre que la MP ne devrait plus être nommée «personnalisée », ni même « génomique » ou de « précision», mais «médecine des données» (MD) étant donné le caractère centrale de la « donnée » (data) pour son fonctionnement. En effet, les finalités du phénomène semblent être, à partir d'une masse importante de données (génétiques), déduire (Datamining) ou induire (Big Data) différentes informations valorisables au niveau du soin, de la recherche et de l'industrie. Le moyen pour ça semble être le développement d'un réseau d'échange ou de partage d'échantillons biologiques, de données génétiques et d'informations entre patients, cliniciens, chercheurs et industriels, grâce à des voies de communication dématérialisées, qui centralisent le stockage des échantillons biologiques et des données génétiques, et une partie du traitement et de l'analyse, au niveau de centres de soin et de recherche académiques (France), et/ou d'entreprises privées (États-Unis), avec ou sans l'intermédiaire du clinicien. Les enjeux éthiques majeurs semblent donc résider dans les moyens et les modalités d'accès, de stockage et d'usage des données génétiques, car delà découle pour une organisation globalement similaire du phénomène un fonctionnement radicalement (social/libéral) opposé qui questionne certaines normes morales et juridiques. Au final, notre méthode nous a permis d'apporter différents arguments en faveur du consentement éclairé exprès électronique (e-CE) dynamique comme solution et moyen permettant un développement de la MD plus optimal concernant l'accès, le stockage et l'usage des données génétiques que ce soit pour le partage (France) ou l'échange (États-Unis) des données génétiques
In the context of medicine and life sciences, personalized medicine (PM) is all too often reduced to the idea of adapting a diagnosis, predisposition or treatment according to the genetic characteristics of an individual. However, in human and social sciences, PM may be considered as a complex social phenomenon, due to the proper existence and unique composition of the constraints it imposes on individuals, the large number of interactions and interferences between a large number of units, rich in uncertainties, indeterminations, chance, order and disorder. We feel that this alternative point of view makes it possible to study PM more effectively by bioethics research approaches, but with a new objective, contrasting but complementary to those of law and moral philosophy, and a new method. Indeed, the objective of bioethics should be prospective studies questioning established norms in the face of emerging complex social phenomena, rather than the other way round. This makes it possible to determine the benefits, to society and its individuals, of allowing the phenomenon to emerge fully, and to study possible and probable solutions, rather than certainties, for the present and the future. This may allow the identified benefits to occur. However, this objective requires a method for studying the functioning of the phenomenon as a whole, at the scale of society, without a priori restriction to certain individuals, thereby favoring its interactions over its elements. Qualitative inductive systemic theoretical modeling is just such an approach. The key idea here is a rationale of discovery, rather than of proof. This new approach allowed us to understand that PM should not be called "personalized", or even "genomic" or "precision" medicine, and that the term "data medicine" (DM) should be favored, given the key role of data in its functioning. Indeed, the goal of this phenomenon seems to be to use a large mass of data (genetics) to deduce (data mining) or induce (big data) different types of information useful for medical care, research and industry. The means of achieving this end seems to be the development of a network for exchanging or sharing biological samples, genetic data and information between patients, clinicians, researchers and industrial partners, through electronic communication, with the central storage of biological samples and genetic data, and with treatment and analysis carried out at academic care and research centers (France) or in private companies (United States), with or without the involvement of a clinician. The major ethical issues thus seem to relate to the means and mode of access to, and the storage and use of genetic data, which may lead to a radically opposed (social/liberal) organizations and functioning, calling into question certain moral and legal standards. Finally, our method provided several arguments in favor of the use of dynamic electronic informed consent (e-CE) as a solution optimizing the development of PM in terms of genetic data access, storage and use, for the sharing (France) or exchange (United States) of genetic data

APA, Harvard, Vancouver, ISO, and other styles

6

Azizi, Leila. "Pratique et problèmes légaux de l'échange de données informatisées, le cas du crédit documentaire dématérialisé." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1999. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape9/PQDD_0020/MQ47163.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

7

Darlay, Julien. "Analyse combinatoire de données : structures et optimisation." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00683651.

Full text

Abstract:

Cette thèse porte sur des problèmes d'exploration de données avec le point de vue de la recherche opérationnelle. L'exploration de données consiste en l'apprentissage de nouvelles connaissances à partir d'observations contenues dans une base de données. La nature des problèmes rencontrés dans ce domaine est proche de celle des problèmes de la recherche opérationnelle: grandes instances, objectifs complexes et difficulté algorithmique. L'exploration de données peut aussi se modéliser comme un problème d'optimisation avec un objectif partiellement connu. Cette thèse se divise en deux parties. La première est une introduction à l'exploration de données. Elle présente l'Analyse Combinatoire de Données (ACD), une méthode d'exploration de données issue de l'optimisation discrète. Cette méthode est appliquée à des données médicales originales et une extension aux problèmes d'analyse de temps de survie est proposée. L'analyse de temps de survie consiste à modéliser le temps avant un événement (typiquement un décès ou une rechute). Les heuristiques proposées utilisent des techniques classiques de recherche opérationnelle telles que la programmation linéaire en nombres entiers, la décomposition de problème, des algorithmes gloutons. La seconde partie est plus théorique et s'intéresse à deux problèmes combinatoires rencontrés dans le domaine de l'exploration de données. Le premier est un problème de partitionnement de graphes en sous-graphes denses pour l'apprentissage non supervisé. Nous montrons la complexité algorithmique de ce problème et nous proposons un algorithme polynomial basé sur la programmation dynamique lorsque le graphe est un arbre. Cet algorithme repose sur des résultats de la théorie des couplages. Le second problème est une généralisation des problèmes de couverture par les tests pour la sélection d'attributs. Les lignes d'une matrice sont coloriées en deux couleurs. L'objectif est de trouver un sous-ensemble minimum de colonnes tel que toute paire de lignes avec des couleurs différentes restent distinctes lorsque la matrice est restreinte au sous-ensemble de colonnes. Nous montrons des résultats de complexité ainsi que des bornes serrées sur la taille des solutions optimales pour différentes structures de matrices.

APA, Harvard, Vancouver, ISO, and other styles

8

Gamoudi, Oussama. "Optimisation adaptative appliquée au préchargement de données." Paris 6, 2012. http://www.theses.fr/2012PA066192.

Full text

Abstract:

Les mémoires caches ont été proposées pour réduire le temps d'accès moyen aux données et aux instructions. Ces petites mémoires permettent de réduire significativement la latence moyenne des accès mémoire si la majorité des données accédées sont conservées dans le cache. Toutefois, les caches ne permettent pas d'éviter les défauts de cache dus aux premiers accès aux blocs mémoire. Le préchargement de données est une solution qui a été proposée pour optimiser la performance du cache en anticipant la demande à la mémoire des données nécessaires au processeur. L'efficacité du préchargement repose sur sa capacité à détecter les données à précharger et surtout à les précharger au bon moment. Un préchargement réalisé trop tôt peut être évincé avant son référencement ce qui risque de polluer le cache et d'occuper la bande passante, tandis qu'un préchargement lancé trop tard masque seulement une partie de la latence mémoire. De nombreuses techniques de préchargement logicielles et matérielles ont été implémentées dans les architectures des processeurs contemporains. Le préchargement est bénéfique pour certains programmes lorsque les données préchargées sont référencées par le processeur. Toutefois, le préchargement peut être contre-productif pour d'autres programmes en polluant le cache, ou en mobilisant la bande passante au détriment des accès mémoires réguliers. De plus, l'utilité du préchargement varie tout au long de l'exécution d'une application, à cause des phases existantes dans un programme et du comportement des applications exécutées. Il est donc important de contrôler les requêtes de préchargement afin de tirer profit de ce dernier tout en réduisant son effet négatif. Pour adapter dynamiquement le préchargement de données, on peut chercher à capturer à l'exécution les phases d'un programme, ainsi que les interactions avec les programmes exécutés simultanément. Certains événements dynamiques (connus à l'exécution) tels que le nombre de défauts de cache L1/L2, le nombre de branchements exécutés, etc. Peuvent caractériser le comportement dynamique des applications prises individuellement ou exécutées simultanément. Les architectures actuelles incluent des compteurs matériels permettant de comptabiliser le nombre d'occurrences de certains événements au cours de l'exécution. Ces compteurs permettent d'obtenir des informations sur le comportement dynamique des applications. Dans ce travail, nous avons montré qu'il existe des événements capables de discriminer les intervalles d'exécution pendant lesquels le préchargement est bénéfique de ceux où il ne l'est pas. Nous avons montré également que l'espace des événements peut être partitionné en régions telles que plus de 90% des vecteurs d'événements de ces régions aboutissent au même effet de préchargement. Nous avons proposé ensuite, une nouvelle approche permettant d'exploiter la corrélation entre les événements d'exécution et l'efficacité de préchargement afin de filtrer à l'exécution les requêtes de préchargement selon leurs efficacités: celles qui sont jugées efficaces sont lancées et celles qui s'avèrent inutiles sont invalidées. Enfin, nous avons présenté une évaluation du filtre proposé sur différente architectures (monoprocesseur exécutant un seul programme, SMT, et multiprocesseurs) afin de mettre en évidence l'impact de la variation de l'environnement d'exécution et l'interaction des programmes exécutés simultanément sur l'utilité du préchargement. Le filtre proposé a montré qu'il est capable de tirer profit du préchargement tout en réduisant son effet négatif
Data prefetching is an effective way to bridge the increasing performance gap between processor and memory. Prefetching can improve performance but it has some side effects which may lead to no performance improvement while increasing memory pressure or to performance degradation. Adaptive prefetching aims at reducing negative effects of prefetching while keeping its advantages. This paper proposes an adaptive prefetching method based on runtime activity, which corresponds to the processor and memory activities retrieved by hardware counters, to predict the prefetch efficiency. Our approach highlights and relies on the correlation between the prefetch effects and runtime activity. Our method learns all along the execution this correlation to predict the prefetch efficiency in order to filter out predicted inefficient prefetches. Experimental results show that the proposed filter is able to cancel thenegative impact of prefetching when it is unprofitable while keeping the performance improvement due to prefetching when it is beneficial. Our filter works similarly well when several threads are running simultane-ously which shows that runtime activity enables an efficient adaptation of prefetch by providing information on running-applications behaviors and interactions

APA, Harvard, Vancouver, ISO, and other styles

9

Travers, Nicolas. "Optimisation Extensible dans un Mediateur de Données Semi-Structurées." Phd thesis, Université de Versailles-Saint Quentin en Yvelines, 2006. http://tel.archives-ouvertes.fr/tel-00131338.

Full text

Abstract:

Cette thèse propose un cadre d'évaluation pour des requêtes XQuery dans un
contexte de médiation de données XML. Un médiateur doit fédérer des sources de données
distribuées et hétérogènes. A cette fin, un modèle de représentation des requêtes est néces-
saire. Ce modèle doit intégrer les problèmes de médiation et permettre de définir un cadre
d'optimisation pour améliorer les performances. Le modèle des motifs d'arbre est souvent
utilisé pour représenter les requêtes XQuery, mais il ne reconnaît pas toutes les spécifica-
tions du langage. La complexité du langage XQuery fait qu'aucun modèle de représentation
complet n'a été proposé pour reconna^³tre toutes les spécifications. Ainsi, nous proposons un
nouveau modèle de représentation pour toutes les requêtes XQuery non typées que nous appe-
lons TGV. Avant de modéliser une requête, une étape de canonisation permet de produire une
forme canonique pour ces requêtes, facilitant l'étape de traduction vers le modèle TGV. Ce
modèle prend en compte le contexte de médiation et facilite l'étape d'optimisation. Les TGV
définis sous forme de Types Abstraits de Données facilitent l'intégration du modèle dans tout
système en fonction du modèle de données. De plus, une algèbre d'évaluation est définie pour
les TGV. Grâce µa l'intégration d'annotations et d'un cadre pour règles de transformation, un
optimiseur extensible manipule les TGV. Celui-ci repose sur des règles transformations, un
modèle de coût générique et une stratégie de recherche. Les TGV et l'optimiseur extensible
sont intégrés dans le médiateur XLive, développé au laboratoire PRiSM.

APA, Harvard, Vancouver, ISO, and other styles

10

Amstel, Duco van. "Optimisation de la localité des données sur architectures manycœurs." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM019/document.

Full text

Abstract:

L'évolution continue des architectures des processeurs a été un moteur important de la recherche en compilation. Une tendance dans cette évolution qui existe depuis l'avènement des ordinateurs modernes est le rapport grandissant entre la puissance de calcul disponible (IPS, FLOPS, ...) et la bande-passante correspondante qui est disponible entre les différents niveaux de la hiérarchie mémoire (registres, cache, mémoire vive). En conséquence la réduction du nombre de communications mémoire requis par un code donnée a constitué un sujet de recherche important. Un principe de base en la matière est l'amélioration de la localité temporelle des données: regrouper dans le temps l'ensemble des accès à une donnée précise pour qu'elle ne soit requise que pendant peu de temps et pour qu'elle puisse ensuite être transféré vers de la mémoire lointaine (mémoire vive) sans communications supplémentaires.Une toute autre évolution architecturale a été l'arrivée de l'ère des multicoeurs et au cours des dernières années les premières générations de processeurs manycoeurs. Ces architectures ont considérablement accru la quantité de parallélisme à la disposition des programmes et algorithmes mais ceci est à nouveau limité par la bande-passante disponible pour les communications entres coeurs. Ceci a amené dans le monde de la compilation et des techniques d'optimisation des problèmes qui étaient jusqu'à là uniquement connus en calcul distribué.Dans ce texte nous présentons les premiers travaux sur une nouvelle technique d'optimisation, le pavage généralisé qui a l'avantage d'utiliser un modèle abstrait pour la réutilisation des données et d'être en même temps utilisable dans un grand nombre de contextes. Cette technique trouve son origine dans le pavage de boucles, une techniques déjà bien connue et qui a été utilisée avec succès pour l'amélioration de la localité des données dans les boucles imbriquées que ce soit pour les registres ou pour le cache. Cette nouvelle variante du pavage suit une vision beaucoup plus large et ne se limite pas au cas des boucles imbriquées. Elle se base sur une nouvelle représentation, le graphe d'utilisation mémoire, qui est étroitement lié à un nouveau modèle de besoins en termes de mémoire et de communications et qui s'applique à toute forme de code exécuté itérativement. Le pavage généralisé exprime la localité des données comme un problème d'optimisation pour lequel plusieurs solutions sont proposées. L'abstraction faite par le graphe d'utilisation mémoire permet la résolution du problème d'optimisation dans différents contextes. Pour l'évaluation expérimentale nous montrons comment utiliser cette nouvelle technique dans le cadre des boucles, imbriquées ou non, ainsi que dans le cas des programmes exprimés dans un langage à flot-de-données. En anticipant le fait d'utiliser le pavage généralisé pour la distribution des calculs entre les cœurs d'une architecture manycoeurs nous donnons aussi des éléments de réponse pour modéliser les communications et leurs caractéristiques sur ce genre d'architectures. En guise de point final, et pour montrer l'étendue de l'expressivité du graphe d'utilisation mémoire et le modèle de besoins en mémoire et communications sous-jacent, nous aborderons le sujet du débogage de performances et l'analyse des traces d'exécution. Notre but est de fournir un retour sur le potentiel d'amélioration en termes de localité des données du code évalué. Ce genre de traces peut contenir des informations au sujet des communications mémoire durant l'exécution et a de grandes similitudes avec le problème d'optimisation précédemment étudié. Ceci nous amène à une brève introduction dans le monde de l'algorithmique des graphes dirigés et la mise-au-point de quelques nouvelles heuristiques pour le problème connu de joignabilité mais aussi pour celui bien moins étudié du partitionnement convexe
The continuous evolution of computer architectures has been an important driver of research in code optimization and compiler technologies. A trend in this evolution that can be traced back over decades is the growing ratio between the available computational power (IPS, FLOPS, ...) and the corresponding bandwidth between the various levels of the memory hierarchy (registers, cache, DRAM). As a result the reduction of the amount of memory communications that a given code requires has been an important topic in compiler research. A basic principle for such optimizations is the improvement of temporal data locality: grouping all references to a single data-point as close together as possible so that it is only required for a short duration and can be quickly moved to distant memory (DRAM) without any further memory communications.Yet another architectural evolution has been the advent of the multicore era and in the most recent years the first generation of manycore designs. These architectures have considerably raised the bar of the amount of parallelism that is available to programs and algorithms but this is again limited by the available bandwidth for communications between the cores. This brings some issues thatpreviously were the sole preoccupation of distributed computing to the world of compiling and code optimization techniques.In this document we present a first dive into a new optimization technique which has the promise of offering both a high-level model for data reuses and a large field of potential applications, a technique which we refer to as generalized tiling. It finds its source in the already well-known loop tiling technique which has been applied with success to improve data locality for both register and cache-memory in the case of nested loops. This new "flavor" of tiling has a much broader perspective and is not limited to the case of nested loops. It is build on a new representation, the memory-use graph, which is tightly linked to a new model for both memory usage and communication requirements and which can be used for all forms of iterate code.Generalized tiling expresses data locality as an optimization problem for which multiple solutions are proposed. With the abstraction introduced by the memory-use graph it is possible to solve this optimization problem in different environments. For experimental evaluations we show how this new technique can be applied in the contexts of loops, nested or not, as well as for computer programs expressed within a dataflow language. With the anticipation of using generalized tiling also to distributed computations over the cores of a manycore architecture we also provide some insight into the methods that can be used to model communications and their characteristics on such architectures.As a final point, and in order to show the full expressiveness of the memory-use graph and even more the underlying memory usage and communication model, we turn towards the topic of performance debugging and the analysis of execution traces. Our goal is to provide feedback on the evaluated code and its potential for further improvement of data locality. Such traces may contain information about memory communications during an execution and show strong similarities with the previously studied optimization problem. This brings us to a short introduction to the algorithmics of directed graphs and the formulation of some new heuristics for the well-studied topic of reachability and the much less known problem of convex partitioning

APA, Harvard, Vancouver, ISO, and other styles

11

Travers, Nicolas. "Optimisation extensible dans un médiateur de données semi-structurées." Versailles-St Quentin en Yvelines, 2006. http://www.theses.fr/2006VERS0049.

Full text

Abstract:

Cette thèse propose un cadre d'évaluation pour des requêtes XQuery dans un contexte de médiation de données XML. Un médiateur doit fédérer des sources de données distribuées et hétérogènes. A cette fin, un modèle de représentation des requêtes est nécessaire. Ce modèle doit intégrer les problèmes de médiation et permettre de définir un cadre d'optimisation pour améliorer les performances. Le modèle des motifs d'arbres est souvent utilisé pour représenter les requêtes Xquery, mais il ne reconnait pas toutes les spécifications du langage. La complexité du langage XQuery fait qu'aucun modèle de représentation complet n'a été proposé pour reconnaitre toutes les spécifications. Ainsi, nous proposons un nouveau modèle de représentation pour toutes les requêtes XQuery non typées que nous appelons TGV. Avant de modéliser une requête, un étape de canonisation permet de produire une forma canonique pour ces requêtes, facilitant l'étape de traduction vers le modèle TGV. Ce modèle prend en compte le contexte de médiation et facilite l'étape d'optimisation. Les TGV définis sous forme de types abstraits de données facilitent l'intégration du modèle dans tout sytème en fonction du modèle de données. De plus, une algèbre d'évaluation est définie pour les TGV. Grâce à l'intégration d'annotations et d'un cadre pour règles de transformation, un optimisateur extensible manipule les TGV. Celui-ci repose sur des règles de transformations, un modèle de coût générique et une stratégie de recherche. Les TGV et l'optimisateur extensible sont intégrés dans le médiateur XLive, développé au laboratoire PRISM
This thesis proposes to evaluate XQuery queries into a mediation context. This mediator must federate several heterogeneous data sources with an appropriate query model. On this model, an optimization framework must be defined to increase performance. The well-known tree pattern model can represent a subset of XPath queries in a tree form. Because of the complexity of XQuery, no model has been proposed that is able to represent all the structural components of the language. Then, we propose a new logical model for XQuery queries called TGV. It aims at supporting the whole XQuery into a canonical form in order to check more XQuery specifications. This form allows us to translate in a unique way queries into our TGV model. This model takes into account a distributed heterogenous context and eases the optimization process. It integrates transformation rules, cost evaluation, and therefore, execution of XQuery queries. The TGV can be used as a basis for processing XQuery queries, since it is flexible, it provides abstracts data types wich can be implemented according to the underneath data model. Moreover, it allows user-defined annotating ans also cost-related annotating for cost estimation. Althouogh the model will be useful, it relies on XQuery complicates specifications. TGV are illustrated in this thesis with several figures on W3C's uses cases. Finally, a framework to define transformation rules is added to the extensible optimizer to increase the XLive mediator performances. The XLive mediation system has been developped at the PRISM laboratory

APA, Harvard, Vancouver, ISO, and other styles

12

Verlaine, Lionel. "Optimisation des requêtes dans une machine bases de données." Paris 6, 1986. http://www.theses.fr/1986PA066532.

Full text

Abstract:

CCette thèse propose des solutions optimisant l'évaluation de questions et la jointure. Ces propositions sont étudiées et mises en œuvre à partir du SGBD Sabrina issu du projet SABRE sur matériel Carrousel à la SAGEM. L'évaluation de questions permet d'optimiser le niveau logique du traitement d'une requête. La décomposition la plus pertinente est établie en fonction d'heuristiques simples. L'algorithme de jointure propose utilise des mécanismes minimisant à la fois le nombre d'entrées/sorties disque et le nombre de comparaisons. Il admet un temps d'exécution proportionnel au nombre de tuples. L'ordonnancement de jointures est résolu par un algorithme original de jointure multi-relations et par une méthode d'ordonnancement associée permettant un haut degré de parallélisme.

APA, Harvard, Vancouver, ISO, and other styles

13

Jouini, Khaled. "Optimisation de la localité spatiale des données temporelles et multiversions." Paris 9, 2008. https://bu.dauphine.psl.eu/fileviewer/index.php?doc=2008PA090016.

Full text

Abstract:

La gestion efficace des données temporelles et multiversions est cruciale pour nombre d'applications de base de données, des plus classiques aux plus récentes. La hiérarchie de mémoires est le goulot d'étranglement majeur pour les systèmes de gestion de base de données. Un des principaux moyens pour optimiser l'utilisation de la hiérarchie de mémoires et d'optimiser la localité spatiale des données, c'est-à-dire de placer de manière contiguë les données qui ont de grandes chances d'être lues au même moment. Le problème posé dans cette thèse est d'optimiser la localité spatiale des données temporelles et multiversions à tous les niveaux de la hiérarchie de mémoires, via les structures d'indexation et les stratégies de stockage. Cette thèse définit un modèle de coût, l'analyse en régime permanent, permettant d'estimer avec précision les performances des différentes structures d'indexation et de comprendre leur comportement. Ainsi, l'analyse fournit aux concepteurs de bases de données temporelles ou multiversions les outils leur permettant de choisir la structure d'indexation qui sied le mieux à leurs applications. Cette thèse étudie également l'impact de la redondance due au versionnement sur l'utilisation du cache de second niveau. La thèse propose à cet effet deux modèles de stockage qui, contrairement aux modèles de stockage standards, évitent la redondance due au versionnement et optimisent l'utilisation du cache de second niveau et de la bande passante de la mémoire vive
The efficient management of temporal and multiversion data is crucial for many traditional and emerging database applications. A major performance bottleneck for database systems is the memory hierarchy. One of the main means for optimizing the utilization of the memory hierarchy is to optimize data spatial locality, i. E. To put contiguously data that are likely to be read simultaneously. The problem studied in this thesis is to optimize temporal and multiversion data spatial locality at all levels of the memory hierarchy, using index structures and storage policies. In particular, this thesis proposes a cost model, the steady state analysis, allowing an accurate estimation of the performance of different index structures. The analysis provides database designers tools allowing them to determine the most suitable index structure, for given data and application characteristics. This thesis also studies the impact of version redundancy on L2 cache utilization. It proposes two storage models which, in contrast with the standard storage models, avoid version redundancy and optimize L2 cache and main memory bandwidth utilization

APA, Harvard, Vancouver, ISO, and other styles

14

Saidi, Selma. "Optimisation des transferts de données sur systèmes multiprocesseurs sur puce." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00875582.

Full text

Abstract:

Les systèmes multiprocesseurs sur puce, tel que le processeur CELL ou plus récemment Platform 2012, sont des architectures multicœurs hétérogènes constitués d'un processeur host et d'une fabric de calcul qui consiste en plusieurs petits cœurs dont le rôle est d'agir comme un accélérateur programmable. Les parties parallélisable d'une application, qui initialement est supposé etre executé par le host, et dont le calcul est intensif sont envoyés a la fabric multicœurs pour être exécutés. Ces applications sont en général des applications qui manipulent des tableaux trés larges de données, ces données sont stockées dans une memoire distante hors puce (off-chip memory) dont l 'accès est 100 fois plus lent que l 'accès par un cœur a une mémoire locale. Accéder ces données dans la mémoire off-chip devient donc un problème majeur pour les performances. une characteristiques principale de ces plateformes est une mémoire local géré par le software, au lieu d un mechanisme de cache, tel que les mouvements de données dans la hiérarchie mémoire sont explicitement gérés par le software. Dans cette thèse, l 'objectif est d'optimiser ces transfert de données dans le but de reduire/cacher la latence de la mémoire off-chip .

APA, Harvard, Vancouver, ISO, and other styles

15

Poulliat, Charly. "Allocation et optimisation de ressources pour la transmission de données multimédia." Cergy-Pontoise, 2004. http://www.theses.fr/2004CERG0271.

Full text

APA, Harvard, Vancouver, ISO, and other styles

16

Desroziers, Gérald. "Mise en œuvre, diagnostic et optimisation des schémas d'assimilation de données." Habilitation à diriger des recherches, Université Paul Sabatier - Toulouse III, 2007. http://tel.archives-ouvertes.fr/tel-00525615.

Full text

Abstract:

L'assimilation de données, telle qu'elle s'est développée en particulier en météorologie ou en océanographie, désigne le processus par lequel on cherche à estimer de la manière la plus précise possible l'état atmosphérique ou océanique à partir d'observations et en s'appuyant sur un modèle de prévision. Le formalisme de l'assimilation peut être appréhendé de multiples manières. Il conduit à des algorithmes divers, mais présentant entre eux des liens aujourd'hui assez clairement établis. Une première partie des travaux présentés correspond au développement de techniques visant à améliorer la représentation des covariances d'erreur d'ébauche qui jouent un rôle important dans un schéma d'analyse. Une autre thématique traitée concerne le gain apporté par le 4D-Var sur la qualité des prévisions et des réanalyses d'expériences comme FASTEX. Nous présentons également des travaux associés au développement théorique et pratique de diagnostics des schémas d'assimilation. Il est montré comment ces diagnostics permettent aussi de mesurer l'impact des observations dans une analyse. Des perspectives d'évolution de l'assimilation de données sont enfin indiquées.

APA, Harvard, Vancouver, ISO, and other styles

17

Gillet, Noel. "Optimisation de requêtes sur des données massives dans un environnement distribué." Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0553/document.

Full text

Abstract:

Les systèmes de stockage distribués sont massivement utilisés dans le contexte actuel des grandes masses de données. En plus de gérer le stockage de ces données, ces systèmes doivent répondre à une quantité toujours plus importante de requêtes émises par des clients distants afin d’effectuer de la fouille de données ou encore de la visualisation. Une problématique majeure dans ce contexte consiste à répartir efficacement les requêtes entre les différents noeuds qui composent ces systèmes afin de minimiser le temps de traitement des requêtes ( temps maximum et en moyenne d’une requête, temps total de traitement pour toutes les requêtes...). Dans cette thèse nous nous intéressons au problème d’allocation de requêtes dans un environnement distribué. On considère que les données sont répliquées et que les requêtes sont traitées par les noeuds stockant une copie de la donnée concernée. Dans un premier temps, des solutions algorithmiques quasi-optimales sont proposées lorsque les communications entre les différents noeuds du système se font de manière asynchrone. Le cas où certains noeuds du système peuvent être en panne est également considéré. Dans un deuxième temps, nous nous intéressons à l’impact de la réplication des données sur le traitement des requêtes. En particulier, un algorithme qui adapte la réplication des données en fonction de la demande est proposé. Cet algorithme couplé à nos algorithmes d’allocation permet de garantir une répartition des requêtes proche de l’idéal pour toute distribution de requêtes. Enfin, nous nous intéressons à l’impact de la réplication quand les requêtes arrivent en flux sur le système. Nous procédons à une évaluation expérimentale sur la base de données distribuées Apache Cassandra. Les expériences réalisées confirment l’intérêt de la réplication et de nos algorithmes d’allocation vis-à-vis des solutions présentes par défaut dans ce système
Distributed data store are massively used in the actual context of Big Data. In addition to provide data management features, those systems have to deal with an increasing amount of queries sent by distant users in order to process data mining or data visualization operations. One of the main challenge is to evenly distribute the workload of queries between the nodes which compose these system in order to minimize the treatment time. In this thesis, we tackle the problem of query allocation in a distributed environment. We consider that data are replicated and a query can be handle only by a node storing the concerning data. First, near-optimal algorithmic proposals are given when communications between nodes are asynchronous. We also consider that some nodes can be faulty. Second, we study more deeply the impact of data replication on the query treatement. Particularly, we present an algorithm which manage the data replication based on the demand on these data. Combined with our allocation algorithm, we guaranty a near-optimal allocation. Finally, we focus on the impact of data replication when queries are received as a stream by the system. We make an experimental evaluation using the distributed database Apache Cassandra. The experiments confirm the interest of our algorithmic proposals to improve the query treatement compared to the native allocation scheme in Cassandra

APA, Harvard, Vancouver, ISO, and other styles

18

Yagoub, Khaled. "Spécification et optimisation de sites Web à usage intensif de données." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS007V.

Full text

Abstract:

Un site Web à usage intensif de données (SWID) est un site Web qui gère un nombre important de pages dont le contenu est construit dynamiquement, à partir de grandes bases de données. C'est à dire que l'ensemble des pages Web constituant le site n'est pas construit et stocké une fois pour toutes, sur le serveur Web, pour être utilisé ; mais au contraire, les pages Web sont regénérées dynamiquement lorsque le site est parcouru par les utilisateurs. . Cette création demande d'extraire des données d'une base de données et de construire les pages HTML correspondantes. Dans ce contexte, la demande d'une page par un client peut n"cessiter une interaction coûteuse avec le système de gestion de base de données, pour la connexion à la base et l'exécution des requêtes nécessaires à la récupération des données, risquant ainsi d'augmenter considérablement le temps d'attente du client. Dans cette thèse nous adressons ce problème de performance en nous appuyant sur la spécification déclarative de sites Web. Nous proposons une architecture configurable de caches à plusieurs niveaux et sa mise en oeuvre dans le cadre de Weave, un système de gestion de sites Web développé à l'INRIA. Dans notre approche, il est possible de cacher des données extraites d'une base de données (sous forme de vues matérialisées), des fragments XML et/ou des pages HTML. Pour spécifier et personnaliser différentes stratégies de caching, nous offrons un langage de haut niveau, appelé WeaveRPL. Nous développons aussi une infrastructure de base permettant de compiler une spécification déclarative d'un site Web et de générer automatiquement une stratégie de caching optimale. Nous illustrons notre approche à l'aide d'un site Web construit à partir de la base de données TCP/D. Puis, nous évaluons expérimentalement, les performances de différentes stratégies de caching en utilisant notre plate-forme de test WeaveBench. Les résultats obtenus montrent clairement qu'une stratégie mixte est généralement la meilleure
A data-intensive web site (DIWS) is a Web site that accesses large numbers of pages whose content is dynamically extracted from a database. In this context, returning a Web page may require a costly interaction with the database system, for connection and querying, to dynamically extract its content. The database interaction cost adds up to the non-negligible base cost of Web page delivery, thereby increasing much the client waiting time. In this thesis, we address this performance problem. Our approach relies on the declarative specification of the Web site. We propose a customized cache system architecture and its implementation, in the context of Weave, a Web site managment system developed at INRIA. The system can cache database data (as materialized views), XML fragments, or HTML files. In addition, Weave comes along with the WeaveRPL langage for specifying both the Web site's content and customized data materialization within the site. We also develop a basic framework for automatic compilation of Web site specifications into optimal caching strategies. Our solution has been illustrated using a Web site derived from TCP/D benchmark database. Based on experiments using our test platform WeaveBench, we assess the performance of various caching strategies. The results clearky show that a mixed strategy is generally optimal

APA, Harvard, Vancouver, ISO, and other styles

19

Bradai, Benazouz. "Optimisation des Lois de Commande d’Éclairage Automobile par Fusion de Données." Mulhouse, 2007. http://www.theses.fr/2007MULH0863.

Full text

Abstract:

La conduite nocturne avec un système d’éclairage conventionnel n’est pas suffisamment sécurisante. En effet, si l’on roule beaucoup moins de nuit, plus de la moitié des accidents de la route arrivent pendant cette période. Dans le but de réduire ces accidents du trafic nocturne, le projet européen « Adaptive Front lighting System » (AFS) a été initié. L’objectif pour les constructeurs et équipementiers automobiles est d’aboutir en 2008 à un changement de réglementation de l’éclairage automobile. Pour cela, ils explorent les différents modes de réalisation possible de nouvelles fonctions d’éclairage basées sur la déformation du faisceau lumineux, et étudient la pertinence, l’efficacité par rapport à la situation de conduite, mais aussi les dangers associés à l’utilisation, pour ces fonctions, d’éclairage, d’informations issues du véhicule ou de l’environnement. Depuis 2003, des véhicules proposent d’orienter l’éclairage en virage, cette solution, ne tenant compte que des actions du conducteur sur le volant, permet d’améliorer la visibilité en orientant le faisceau vers l’intérieur du virage. Cependant, le profil de route (intersections, courbure, etc. ) n’étant pas toujours connu du conducteur, les performances liées à cette solution sont dès lors limitées. Or les systèmes embarqués de navigation, d’une part peuvent apporter des informations primordiales sur cette forme, et d’autre part disposent d’informations contextuelles (ouvrages d’art, nature de la route, rayon de virage, limitations de vitesse en vigueur…). Le sujet de cette thèse a pour objectif d’optimiser les lois de commande des systèmes d’éclairage en s’appuyant sur la fusion des informations issues des systèmes de navigation avec celles des capteurs embarqués dans le véhicule (caméras, …), tout en sachant jusqu’à quel point les systèmes actuels et futurs peuvent répondre à ces attentes de manière efficace et fiable. Ainsi, cette fusion des informations, appliquée ici à la prise de décision, permet de définir les situations et les contextes de conduite de l’environnement d’évolution du véhicule (autoroute, ville, etc. ) et de choisir la loi appropriée parmi les différentes lois de commande d’éclairage développées pour répondre aux fonctionnalités recherchées (code autoroute, code ville, code virage). Cette démarche permet de choisir en temps réel, et par anticipation, entre ces différentes lois de commande. Elle permet, par conséquent, l’amélioration de la robustesse du système d’éclairage. Deux points sont à l’origine de cette amélioration. Premièrement, à partir du système de navigation, nous avons développé un capteur virtuel d’horizon glissant événementiel permettant la détermination précise des différentes situations de conduite en utilisant un automate d’états finis. Il permet ainsi de pallier aux problèmes de la nature ponctuelle des informations du système de navigation. Deuxièmement, nous avons développé un capteur virtuel générique de détermination des situations de conduite basé sur la théorie des croyances en utilisant un système de navigation et la vision. Ce capteur combine les confiances en provenance des deux sources pour mieux distinguer les différentes situations et les différents contextes de conduite et de pallier aux problèmes des deux sources prises indépendamment. Il permet également de construire une confiance du système de navigation. Ce capteur générique est généralisable à des systèmes d’aide à la conduite (ADAS) autre que l’éclairage. Ceci a été montré en l’appliquant à un système de détection des limitations de vitesses réglementaires SLS (Speed Limit Support). Les deux capteurs virtuels développés ont été appliqués à l’optimisation de l’éclairage AFS et au système SLS. Ces deux systèmes ont été implémentés sur un véhicule de démonstration et ils sont actuellement opérationnels. Ils ont été évalués par différents types de conducteur allant des non experts aux experts de l’éclairage et des systèmes d’aide à la conduite (ADAS). Ils ont été également montrés auprès des constructeurs automobiles (PSA, Audi, Renault, Honda, etc. ) et au cours de différents « techdays » et ils ont prouvé leur fiabilité lors des démonstrations sur routes ouvertes avec des différentes situations et différents contextes de conduite
Night-time driving with conventional headlamps is particularly unsafe. Indeed, if one drives much less at night, more than half of the driving fatalities occur during this period. To reduce these figures, several automotive manufacturers and suppliers participated to the European project “Adaptive Front lighting System” (AFS). This project has the aim to define new lightings functions based on a beam adaptation to the driving situation. And, it has to end in 2008 with a change of regulation of the automotive lighting allowing so realisation of all new AFS functions. For that, they explore the possible realisation of such new lighting functions, and study the relevance, the efficiency according to the driving situation, but also the dangers associated with the use, for these lighting functions, of information from the vehicle or from the environment. Since 2003, some vehicles are equipped by bending lights, taking account only of actions of the driver on the steering wheel. These solutions make it possible to improve the visibility by directing the beam towards the interior of the bend. However, the road profile (intersections, bends, etc) not being always known for the driver, the performances related to these solutions are consequently limited. However the embedded navigation systems, on the one hand can contain information on this road profile, and on the other hand have contextual information (engineering works, road type, curve radius, speed limits …). The topic of this thesis aims to optimize lighting control laws based on fusion of navigation systems information with those of vehicle embedded sensors (cameras,…), with consideration of their efficiency and reliability. Thus, this information fusion, applied here to the decision-making, makes it possible to define driving situations and contexts of the vehicle evolution environment (motorway, city, etc) and to choose the appropriate law among the various of developed lighting control laws (code motorway lighting, town lighting, bending light). This approach makes it possible to choose in real time, and by anticipation, between these various lighting control laws. It allows, consequently, the improvement of the robustness of the lighting system. Two points are at the origin of this improvement. Firstly, using the navigation system information, we developed a virtual sensor of event-based electronic horizon analysis allowing an accurate determination of various driving situations. It uses a finite state machine. It thus makes it possible to mitigate the problems of the ponctual nature of the navigation system information. Secondly, we developed a generic virtual sensor of driving situations determination based on the evidence theory of using a navigation system and the vision. This sensor combines confidences coming from the two sources for better distinguishing between the various driving situations and contexts and to mitigate the problems of the two sources taken independently. It also allows building a confidence of the navigation system using some of their criteria. This generic sensor is generalizable with other assistance systems (ADAS) that lighting one. This was shown by applying it to a speed limit detection system SLS (Speed Limit Support). The two developed virtual sensors were applied to the optimization of lighting system (AFS) and for the SLS system. These two systems were implemented on an experimental vehicle (demonstration vehicle) and they are currently operational. They were evaluated by various types of driver going from non experts to experts. They were also shown to car manufacturers (PSA, Audi, Renault, Honda, etc. ) and during different techdays. They proved their reliability during these demonstrations on open roads with various driving situations and contexts

APA, Harvard, Vancouver, ISO, and other styles

20

Jeudy, Baptiste. "Optimisation de requêtes inductives : application à l'extraction sous contraintes de règles d'association." Lyon, INSA, 2002. http://theses.insa-lyon.fr/publication/2002ISAL0090/these.pdf.

Full text

Abstract:

L'utilisation de plus en plus généralisée de l'informatique permet de récolter de plus en plus de données de manière automatique, que ce soit en sciences (biologie, astronomie, etc) ou dans le commerce (en particulier sur internet). L'analyse de telles quantités de données est problématique. Les techniques d'extraction de connaissances dans les données (ECD) ont été conçues pour répondre à ce besoin. Dans cette thèse, nous avons utilisé la notion de base de données inductive comme cadre pour notre travail. Une base de données inductive est une généralisation des bases de données classiques dans lesquelles sont stockées non seulement des données mais aussi des propriétés apprises sur ces données. On peut alors voir le processus d'ECD comme l'interrogation d'une base de données inductive. Nous avons particulièrement étudié l'optimisation des requêtes inductives portant sur l'extraction des règles d'association et des itemsets. Dans ce cas, l'utilisateur peut préciser les règles ou les itemsets qui l'intéressent en utilisant des contraintes. Ces dernières peuvent, par exemple, porter sur la fréquence ou imposer des restrictions syntaxiques sur les itemsets ou les règles à extraire. Nous avons proposé différentes stratégies d'évaluation des requêtes d'extraction de règles ou d'itemsets en utilisant efficacement les contraintes (en particulier les contraintes dites monotones ou anti-monotones). Nous avons également étudié l'apport des représentations condensées dans l'optimisation de l'évaluation de ces requêtes et nos expériences montrent que l'utilisation simultanée des contraintes et des représentations condensées donne de très bons résultats. Nous avons aussi utilisé les représentations condensées comme caches pour l'optimisation de séquences de requêtes. Ici encore, les résultats sont bons et l'utilisation des représentations condensées permet d'obtenir des caches remarquablement petits
The increasingly generalized use of data processing makes it possible to collect more and more data in an automatic way, e. G. In sciences (biology, astronomy, etc) or in the trade (Internet). The analysis of such quantities of data is problematic. Knowledge Discovery in Databases (KDD) techniques were conceived to meet this need. In this thesis, we used the inductive database as a framework for our work. An inductive database is a generalization of the traditional databases in which the user can query not only the data but also properties learned on the data. One can then see the whole KDD process as the interrogation of an inductive database. In this thesis, we particularly studied the optimization of inductive queries relating to the extraction of association rules and itemsets. In this case, the user can specify the rules or the itemsets of interest by using constraints. These constraints can, e. G. , specify a frequency threshold or impose syntactic restrictions on the itemsets or the rules. We propose various strategies for the evaluation of rules and itemsets extraction queries by effectively using the constraints (in particular constraints known as monotonic and anti-monotonic). We studied the use of condensed representations in the optimization of the evaluation of these requests and our experiments show that the simultaneous use of the constraints and the condensed representations gives very good results. We also show how to use condensed representations as a cache for optimization of sequences of queries. Here still, the results are good and the use of the condensed representations makes it possible to obtain much smaller cache than with previous techniques

APA, Harvard, Vancouver, ISO, and other styles

21

Gueni, Billel. "Optimisation de requêtes XQuery imbriquées." Paris, Télécom ParisTech, 2009. http://www.theses.fr/2009ENST0035.

Full text

Abstract:

Dans cette thèse nous étudions l'optimisation de l'évaluation des requêtes XQuery dans les bases de données XML. Dans notre approche, nous introduisons une nouvelle technique qui exploite des possibilités de minimisation qui peuvent apparaître dans le cas des requêtes imbriquées. Plus précisément, nous proposons un algorithme de réécriture qui minimise les expressions des requêtes dans lesquelles des résultats intermédiaires sont jugés inutiles au calcul du résultat final. Les sous-expressions générant ces résultats intermédiaires sont élaguées. Notre algorithme est présenté sous forme de règles de réécriture. Il permet d'élaguer récursivement les sous-expressions inutiles, et peut ainsi gérer plusieurs niveaux d'imbrication. Il prend en entrée une expression XQuery et retourne en sortie une expression minimisée et équivalente à la première. Nous montrons l'efficacité de notre algorithme par les résultats des expériences que nous avons menées, et nous prouvons formellement l'équivalence entre la requête initiale et celle obtenue à la suite du processus d'élagage. Nous donnons aussi des extensions pour notre algorithme afin de prendre en compte des informations sur le schéma des données (DTD), étendre l'élagage à d'autre ensemble de requête de XQuery, et affiner l'analyse pour simplifier d'avantage les requêtes
We study in this thesis the optimization of XQuery evaluation in XML databases. As our general approach, we introduce techniques that exploit minimization opportunities on complex XQuery expressions, that involve composition-style nesting and schema information. Based on a large subset of XQuery, we describe rule-based algorithms that rewrite a query by recursively pruning the subexpressions whose results are not needed for the evaluation of the query. Given an input XQuery expression, our techniques will output a simplified yet equivalent XQuery expression. They are thus readily usable as an optimization module in any existing XQuery processor. In practice, our algorithms can drastically impact query evaluation time in various settings such as view-based query answering and access control, or query-by-example interfaces. We demonstrate by experiments the impact of our rewriting approach on query evaluation costs and we prove formally its correctness. We have given also extensions to our solution in order to take into account information about data schema (DTD), to extend the algorithm to other XQuery fragments and to refine the pruning analysis to simplify further the expressions

APA, Harvard, Vancouver, ISO, and other styles

22

Brahem, Mariem. "Optimisation de requêtes spatiales et serveur de données distribué - Application à la gestion de masses de données en astronomie." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLV009/document.

Full text

Abstract:

Les masses de données scientifiques générées par les moyens d'observation modernes, dont l’observation spatiale, soulèvent des problèmes de performances récurrents, et ce malgré les avancées des systèmes distribués de gestion de données. Ceci est souvent lié à la complexité des systèmes et des paramètres qui impactent les performances et la difficulté d’adapter les méthodes d’accès au flot de données et de traitement.Cette thèse propose de nouvelles techniques d'optimisations logiques et physiques pour optimiser les plans d'exécution des requêtes astronomiques en utilisant des règles d'optimisation. Ces méthodes sont intégrées dans ASTROIDE, un système distribué pour le traitement de données astronomiques à grande échelle.ASTROIDE allie la scalabilité et l’efficacité en combinant les avantages du traitement distribué en utilisant Spark avec la pertinence d’un optimiseur de requêtes astronomiques.Il permet l'accès aux données à l'aide du langage de requêtes ADQL, couramment utilisé.Il implémente des algorithmes de requêtes astronomiques (cone search, kNN search, cross-match, et kNN join) en exploitant l'organisation physique des données proposée.En effet, ASTROIDE propose une méthode de partitionnement des données permettant un traitement efficace de ces requêtes grâce à l'équilibrage de la répartition des données et à l'élimination des partitions non pertinentes. Ce partitionnement utilise une technique d’indexation adaptée aux données astronomiques, afin de réduire le temps de traitement des requêtes
The big scientific data generated by modern observation telescopes, raises recurring problems of performances, in spite of the advances in distributed data management systems. The main reasons are the complexity of the systems and the difficulty to adapt the access methods to the data. This thesis proposes new physical and logical optimizations to optimize execution plans of astronomical queries using transformation rules. These methods are integrated in ASTROIDE, a distributed system for large-scale astronomical data processing.ASTROIDE achieves scalability and efficiency by combining the benefits of distributed processing using Spark with the relevance of an astronomical query optimizer.It supports the data access using the query language ADQL that is commonly used.It implements astronomical query algorithms (cone search, kNN search, cross-match, and kNN join) tailored to the proposed physical data organization.Indeed, ASTROIDE offers a data partitioning technique that allows efficient processing of these queries by ensuring load balancing and eliminating irrelevant partitions. This partitioning uses an indexing technique adapted to astronomical data, in order to reduce query processing time

APA, Harvard, Vancouver, ISO, and other styles

23

De, Oliveira Castro Herrero Pablo. "Expression et optimisation des réorganisations de données dans du parallélisme de flots." Phd thesis, Université de Versailles-Saint Quentin en Yvelines, 2010. http://tel.archives-ouvertes.fr/tel-00580170.

Full text

Abstract:

Pour permettre une plus grande capacité de calcul les concepteurs de systèmes embarqués se tournent aujourd'hui vers les MPSoC. Malheureusement, ces systèmes sont difficiles à programmer. Un des problèmes durs est l'expression et l'optimisation des réorganisations de données au sein d'un programme. Dans cette thèse nous souhaitons proposer une chaîne de compilation qui : 1) propose une syntaxe simple et haut-niveau pour exprimer le découpage et la réorganisation des données d'un programme parallèle ; 2) définisse une exécution déterministe du programme (critique dans le cadre des systèmes embarqués) ; 3) optimise et adapte les programmes aux contraintes de l'architecture. Pour répondre au point 1) nous proposons un langage haut-niveau, SLICES, qui permet de décrire les réorganisation de données à travers des découpages multidimensionnels. Pour répondre au point 2) nous montrons qu'il est possible de compiler SLICES vers un langage de flots de données, SJD, qui s'inscrit dans le modèle des Cyclostatic Data-Flow et donc admet une exécution déterministe. Pour répondre au point 3) nous définissons un ensemble de transformations qui préservent la sémantique des programmes SJD. Nous montrons qu'il existe un sous-ensemble de ces transformations qui génère un espace de programmes équivalents fini. Nous proposons une heuristique pour explorer cet espace de manière à choisir la variante la plus adaptée à notre architecture. Enfin nous évaluons cette méthode sur deux problèmes classiques : la réduction de la mémoire consommée et la réduction des communications d'une application parallèle.

APA, Harvard, Vancouver, ISO, and other styles

24

Oliveira, Castro Herrero Pablo de. "Expression et optimisation des réorganisations de données dans du parallélisme de flots." Versailles-St Quentin en Yvelines, 2010. https://tel.archives-ouvertes.fr/tel-00580170.

Full text

Abstract:

Pour permettre une plus grande capacité de calcul, les concepteurs de systèmes embarqués se tournent aujourd'hui vers les multicœurs. Malheureusement, ces systèmes sont difficiles à programmer. Un des problèmes durs est l'expression et l'optimisation des réorganisations de données. Dans cette thèse nous souhaitons proposer une chaîne de compilation qui: 1) utilise une syntaxe simple et haut-niveau pour exprimer le découpage et la réorganisation des données d'un programme parallèle; 2) garantisse une exécution déterministe du programme (critique dans le cadre des systèmes embarqués); 3) optimise et adapte les programmes aux contraintes de l'architecture. Pour répondre au point 1) nous proposons un langage haut-niveau, SLICES, qui décrit les réorganisation de données à travers des découpages multidimensionnels. Pour répondre au point 2) nous montrons qu'il est possible de compiler SLICES vers un langage de flots de données, SJD, qui s'inscrit dans le modèle Cyclostatic Data-Flow et donc admet une exécution déterministe. Pour répondre au point 3) nous définissons un ensemble de transformations qui préservent la sémantique des programmes SJD. Nous montrons qu'il existe un sous-ensemble de ces transformations qui génère un espace de programmes équivalents fini. Nous proposons une heuristique pour explorer cet espace de manière à choisir la variante la plus adaptée à notre architecture. Enfin nous évaluons cette méthode sur deux problèmes classiques: la réduction de la mémoire consommée et la réduction du coût des communications d'une application parallèle
Embedded systems designers are moving to multi-cores to increase the performance of their applications. Yet multi-core systems are difficult to program. One hard problem is expressing and optimizing data reorganizations. In this thesis we would like to propose a compilation chain that: 1) uses a simple high-level syntax to express the data reorganization in a parallel application; 2) ensures the deterministic execution of the program (critical in an embedded context); 3) optimizes and adapts the programs to the target's constraints. To address point 1) we propose a high-level language, SLICES, describing data reorganizations through multidimensional slicings. To address point 2) we show that it is possible to compile SLICES to a data-flow language, SJD, that is built upon the Cyclostatic Data-Flow formalism and therefore ensures determinism. To address point 3) we define a set of transformations that preserve the semantics of SJD programs. We show that a subset of these transformations generates a finite space of equivalent programs. We show that this space can be efficiently explored with an heuristic to select the program variant more fit to the target's constraints. Finally we evaluate this method on two classic problems: reducing memory and reducing communication costs in a parallel application

APA, Harvard, Vancouver, ISO, and other styles

25

Boussahoua, Mohamed. "Optimisation de performances dans les entrepôts de données distribués NoSQL en colonnes." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSE2007.

Full text

Abstract:

Dans cette thèse, nous proposons des approches pour construire et développer des entrepôts de données (ED) selon le modèle NoSQL orienté colonnes. L’intérêt porté aux modèles NoSQL est motivé d’une part, par l’avènement des données massives et d’autre part, par le besoin de flexibilité et pour des raisons d'évolutivité et de performance. Ainsi, nous avons fait le choix du modèleNoSQL orienté colonnes car il est approprié aux traitements des requêtes décisionnelles qui sont définies en fonction d’un ensemble de colonnes (mesures et dimensions) issues de l’ED. En effet, la construction d’un cube OLAP nécessite l’accès aux attributs des tables des faits et des dimensions. Par conséquent, pour sélectionner une colonne (axe d’analyse), il faut charger toute la table de dimension concernée. Contrairement aux systèmes relationnels, dans les systèmes NoSQL en colonnes, il est possible d’accéder uniquement à la colonne souhaitée (ou un groupe des colonnes) puis de la charger directement en mémoire, ceci facilite l’application d’une fonction d’agrégation. Cependant, les systèmes NoSQL en colonnes ne disposent pas de schémas logiques ou des schémas physiques optimal afin d’exploiter directement (sans transformations ou sans restructuration) lesED. Les approches d'entreposage de données suivant les modèles NoSQL en colonnes exigent de revisiter les principes de la modélisation des ED et plus particulièrement au niveau de son schéma logique. L’étude des méthodes existantes relatives à l’utilisation du modèle NoSQL en colonnes pour stocker et gérer des ED, montre deux insuffisances majeures. Elles concernent les stratégies de partitionnement et de distribution aléatoire des données qui ne sont pas adaptées au traitement des données massives. La plupart des méthodes existantes fournissent des solutions partielles, ils se basent généralement sur un seul paramètre qui est le modèle conceptuel ou logique et sur certaines règles de passages des schémas relationnels aux schémas NoSQL en colonnes. Dans ce travail, nous abordons, d’un coté, les problèmes liés à la modélisation logique des ED NoSQL en colonnes ; dans ce cas, nous proposons un modèle logique de données non-relationnel adapté à l'implémentation des ED en NoSQL orienté colonnes. D’un autre côté, nous abordons les problèmes liés au partitionnement et à la distribution des ED dans les environnements distribués basés sur les systèmes NoSQL. Dans un premier temps, nous abordons le problème de la distribution des données dans les familles de colonnes. Dans ce cas, nous proposons notre deuxième approche de conception d'un schéma optimal de familles de colonnes qui constitue le schéma logique d’ED NoSQL en colonne. L’objectif est de proposer de nouveaux modèles logiques d’ED en intégrant les meilleures fonctionnalités du NoSQL en colonnes notamment le concept de famille de colonnes qui assure la fragmentation verticale naturelle des données. Nous étudions également la relation entre le concept de la clé de partition RowKey et le schéma de partition horizontale et de colocalisation des données dans le NoSQL en colonnes. L’objectif dans ce cas est d’optimiser les performances des traitements et l’exécution des requêtes décisionnelles en améliorant l’accès aux données. Ainsi, notre troisième contribution consiste en la mise en oeuvre d’une stratégie qui permet un partitionnement efficace de l’ED et un placement des données qui répond au mieux aux besoins des utilisateurs. Pour valider nos travaux, nous avons développé une plate-forme NoSQL en colonnes qui génère des schémas de familles de colonnes d’un ED NoSQL en colonnes selon les deux méthodes proposées (OEP ou K-means ) à partir d'une charge de requêtes sur un ED relationnel. Ainsi, cette plate-forme permet de générer une clé de partition RowKey définie en concaténant plusieurs attributs les plus fréquents pour définir un schéma de partitionnement horizontal et de localisation des données entreposées dans un système NoSQL en colonnes
The work presented in this thesis aims at proposing approaches to build data warehouses (DWs) by using the columnar NoSQL model. The use of NoSQL models is motivated by the advent of big data and the inability of the relational model, usually used to implement DW, to allow data scalability. Indeed, the NoSQL models are suitable for storing and managing massive data. They aredesigned to build databases whose storage model is the "key/value". Other models, then, appeared to account for the variability of the data: column oriented, document oriented and graph oriented. We have used the column NoSQL oriented model for building massive DWs because it is more suitable for decisional queries that are defined by a set of columns (measures and dimensions) from warehouse. Column family NoSQL databases offer storage techniques that are well adapted to DWs. Several scenarios are possible to develop DWs on these databases. We present in this thesis new solutions for logical and physical modeling of columnar NoSQL data warehouses. We have proposed a logic model called NLM (Naive Logical Model) to represent a NoSQL oriented columns DW and enable a better management by columnar NoSQL DBMS. We have proposed a new method to build a distributed DW using a column family NoSQL database. Our method is based on a strategy of grouping attributes from fact tables and dimensions, as families´ columns. In this purpose, we used two algorithms, the first one is a meta-heuristic algorithm, in this case the Particle Swarm Optimization : PSO, and the second one is the k-means algorithm. Furthermore, we have proposed a new method to build an efficient distributed DW inside column family NoSQL DBMSs. Our method based on the association rules method that allows to obtain groups of frequently used attributes in the workload. Hence, the partition keys RowKey, necessary to distribute data onto the different cluster nodes, are composed of those attributes groups.To validate our contributions, we have developed a software tool called RDW2CNoSQ (Relational Data Warehouse to Columnar NoSQL) to build a distributed data warehouse using a column family NoSQL Database. Also, we conducted several tests that have shown the effectiveness of different method that we proposed. Our experiments suggest that defining a good data partitioning and placement schemes during the implementation of the data warehouse with NoSQL HBase increase significantly the computation and querying performances

APA, Harvard, Vancouver, ISO, and other styles

26

Mahboubi, Hadj. "Optimisation de la performance des entrepôts de données XML par fragmentation et répartition." Phd thesis, Université Lumière - Lyon II, 2008. http://tel.archives-ouvertes.fr/tel-00350301.

Full text

Abstract:

Les entrepôts de données XML forment une base intéressante pour les applications décisionnelles qui exploitent des données hétérogènes et provenant de sources multiples. Cependant, les Systèmes de Gestion de Bases de Données (SGBD) natifs XML actuels présentent des limites en termes de volume de données gérable, d'une part, et de performance des requêtes d'interrogation complexes, d'autre part. Il apparaît donc nécessaire de concevoir des méthodes pour optimiser ces performances.

Pour atteindre cet objectif, nous proposons dans ce mémoire de pallier conjointement ces limitations par fragmentation puis par répartition sur une grille de données. Pour cela, nous nous sommes intéressés dans un premier temps à la fragmentation des entrepôts des données XML et nous avons proposé des méthodes qui sont à notre connaissance les premières contributions dans ce domaine. Ces méthodes exploitent une charge de requêtes XQuery pour déduire un schéma de fragmentation horizontale dérivée.

Nous avons tout d'abord proposé l'adaptation des techniques les plus efficaces du domaine relationnel aux entrepôts de données XML, puis une méthode de fragmentation originale basée sur la technique de classification k-means. Cette dernière nous a permis de contrôler le nombre de fragments. Nous avons finalement proposé une approche de répartition d'un entrepôt de données XML sur une grille. Ces propositions nous ont amené à proposer un modèle de référence pour les entrepôts de données XML qui unifie et étend les modèles existants dans la littérature.

Nous avons finalement choisi de valider nos méthodes de manière expérimentale. Pour cela, nous avons conçu et développé un banc d'essais pour les entrepôts de données XML : XWeB. Les résultats expérimentaux que nous avons obtenus montrent que nous avons atteint notre objectif de maîtriser le volume de données XML et le temps de traitement de requêtes décisionnelles complexes. Ils montrent également que notre méthode de fragmentation basée sur les k-means fournit un gain de performance plus élevé que celui obtenu par les méthodes de fragmentation horizontale dérivée classiques, à la fois en terme de gain de performance et de surcharge des algorithmes.

APA, Harvard, Vancouver, ISO, and other styles

27

Lopez-Enriquez, Carlos-Manuel. "HyQoZ - Optimisation de requêtes hybrides basée sur des contrats SLA." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM060/document.

Full text

Abstract:

On constate aujourd’hui une explosion de la quantité de données largement distribuées et produites par différents dispositifs (e.g. capteurs, dispositifs informatiques, réseaux, processus d’analyse) à travers de services dits de données. Dans ce contexte, il s’agit d’évaluer des requêtes dites hybrides car ils intègrent des aspects de requêtes classiques, mobiles et continues fournies par des services de données, statiques ou mobiles, en mode push ou pull. L’objectif de ma thèse est de proposer une approche pour l’optimisation de ces requêtes hybrides basée sur des préférences multicritère (i.e. SLA – Service Level Agreement). Le principe consiste à combiner les services de données et calcule pour construire un évaluateur de requêtes adapté au SLA requis par l’utilisateur, tout en considérant les conditions de QoS des services et du réseau
Today we are witnesses of the explosion of data producer massively by largely distributed of data produced by different devices (e.g. sensors, personal computers, laptops, networks) by means of data services. In this context, It is about evaluate queries named hybrid because they entails aspects related with classic queries, mobile and continuous provided by static or nomad data services in mode push or pull. The objective of my thesis is to propose an approach to optimize hybrid queries based in multi-criteria preferences (i.e. SLA – Service Level Agreement). The principle is to combine data services to construct a query evaluator adapted to the preferences expressed in the SLA whereas the state of services and network is considered as QoS measures

APA, Harvard, Vancouver, ISO, and other styles

28

Vandromme, Maxence. "Optimisation combinatoire et extraction de connaissances sur données hétérogènes et temporelles : application à l’identification de parcours patients." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10044.

Full text

Abstract:

Les données hospitalières présentent de nombreuses spécificités qui rendent difficilement applicables les méthodes de fouille de données traditionnelles. Dans cette thèse, nous nous intéressons à l'hétérogénéité de ces données ainsi qu'à leur aspect temporel. Dans le cadre du projet ANR ClinMine et d'une convention CIFRE avec la société Alicante, nous proposons deux nouvelles méthodes d'extraction de connaissances adaptées à ces types de données. Dans la première partie, nous développons l'algorithme MOSC (Multi-Objective Sequence Classification) pour la classification supervisée sur données hétérogènes, numériques et temporelles. Cette méthode accepte, en plus des termes binaires ou symboliques, des termes numériques et des séquences d'événements temporels pour former des ensembles de règles de classification. MOSC est le premier algorithme de classification supportant simultanément ces types de données. Dans la seconde partie, nous proposons une méthode de biclustering pour données hétérogènes, un problème qui n'a à notre connaissance jamais été exploré. Cette méthode, HBC (Heterogeneous BiClustering), est étendue pour supporter les données temporelles de différents types : événements temporels et séries temporelles irrégulières. HBC est utilisée pour un cas d'étude sur un ensemble de données hospitalières, dont l'objectif est d'identifier des groupes de patients ayant des profils similaires. Les résultats obtenus sont cohérents et intéressants d'un point de vue médical ; et amènent à la définition de cas d'étude plus précis. L'intégration dans une solution logicielle est également engagée, avec une version parallèle de HBC et un outil de visualisation des résultats
Hospital data exhibit numerous specificities that make the traditional data mining tools hard to apply. In this thesis, we focus on the heterogeneity associated with hospital data and on their temporal aspect. This work is done within the frame of the ANR ClinMine research project and a CIFRE partnership with the Alicante company. In this thesis, we propose two new knowledge discovery methods suited for hospital data, each able to perform a variety of tasks: classification, prediction, discovering patients profiles, etc.In the first part, we introduce MOSC (Multi-Objective Sequence Classification), an algorithm for supervised classification on heterogeneous, numeric and temporal data. In addition to binary and symbolic terms, this method uses numeric terms and sequences of temporal events to form sets of classification rules. MOSC is the first classification algorithm able to handle these types of data simultaneously. In the second part, we introduce HBC (Heterogeneous BiClustering), a biclustering algorithm for heterogeneous data, a problem that has never been studied so far. This algorithm is extended to support temporal data of various types: temporal events and unevenly-sampled time series. HBC is used for a case study on a set of hospital data, whose goal is to identify groups of patients sharing a similar profile. The results make sense from a medical viewpoint; they indicate that relevant, and sometimes new knowledge is extracted from the data. These results also lead to further, more precise case studies. The integration of HBC within a software is also engaged, with the implementation of a parallel version and a visualization tool for biclustering results

APA, Harvard, Vancouver, ISO, and other styles

29

Collobert, Ronan. "Algorithmes d'Apprentissage pour grandes bases de données." Paris 6, 2004. http://www.theses.fr/2004PA066063.

Full text

APA, Harvard, Vancouver, ISO, and other styles

30

Hidane, Moncef. "Décompositions multi-échelles de données définies sur des graphes." Caen, 2013. http://www.theses.fr/2013CAEN2088.

Full text

Abstract:

Cette thèse traite d'approches permettant la construction de décompositions multi-échelles de signaux définis sur des graphes pondérés généraux. Ce manuscrit traite de trois approches que nous avons développées. La première approche est basée sur un procédé variationnel itératif et hiérarchique et généralise la décomposition structure-texture, proposée initialement pour les images. Deux versions sont proposées : l'une basée sur un apriori quadratique et l'autre sur un apriori de type variation totale. L'étude de la convergence est effectuée et le choix des paramètres discuté dans chaque cas. Nous détaillons l'application des décompositions que nous obtenons au rehaussement de détails dans les images et les modèles 3D. La deuxième approche fournit une analyse multirésolution de l'espace des signaux sur un graphe donné. Cette construction repose sur l'organisation du graphe sous la forme d'une hiérarchie de partitions. Nous avons développé un algorithme permettant la construction adaptative de telles hiérarchies. Enfin, dans la troisième approche, nous adaptons le schéma de lifting à des signaux sur graphes. Cette adaptation pose divers problèmes pratiques. Nous nous sommes intéressés d'une part à l'étape de sous-échantillonnage, pour laquelle nous avons adopté une approche gloutonne, et d'autre part à l'itération de la transformée sur des sous-graphes induits
This thesis is concerned with approaches to the construction of multiscale decompositions of signals defined on general weighted graphs. This manuscript discusses three approaches that we have developed. The first approach is based on a variational and iterative process. It generalizes the structure-texture decomposition, originally proposed for images. Two versions are proposed: one is based on a quadratic prior while the other is based on a total variation prior. The study of the convergence is performed and the choice of parameters discussed in each case. We describe the application of the decompositions we get to the enhancement of details in images and 3D models. The second approach provides a multiresolution analysis of the space of signals on a given graph. This construction is based on the organization of the graph as a hierarchy of partitions. We have developed an adaptive algorithm for the construction of such hierarchies. Finally, in the third approach, we adapt the lifting scheme to signals on graphs. This adaptation raises a number of practical problems. We focused on the one hand on the subsampling step for which we adopted a greedy approach, and on the other hand on the iteration of the transform on induced subgraphs

APA, Harvard, Vancouver, ISO, and other styles

31

Asseraf, Mounir. "Extension et optimisation pour la segmentation de la distance de Kolmogorov-Smirnov." Paris 9, 1998. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1998PA090026.

Full text

Abstract:

La segmentation est une méthode qui entre dans le cadre de l'analyse des données multidimensionnelles ; elle se distingue des autres méthodes lorsqu'on passe à la phase descriptive des résultats, telle que la lisibilité des règles de décision. La segmentation peut être vue, d'une part, comme une méthode exploratoire et descriptive permettant de résumer et structurer, sous la forme d'un arbre binaire, un ensemble d'observations multidimensionnelles. D'autre part, comme un outil décisionnel et inférentiel visant à produire une règle de classement sur les objets appartenant à une partition connue a priori. Dans la phase décisionnelle, la segmentation emploie un ensemble d'outils statistiques et probabilistes (la théorie bayésienne, les techniques d'échantillonnage, l'estimation de paramètres). En pratique, plusieurs travaux sur la segmentation ont conduit récemment à développer des algorithmes d'aspects exploratoire et décisionnel, souvent fiables et efficaces ; quant aux règles de production elles sont aisément interprétables par des non-spécialistes de la statistique. On rencontre de nombreuses applications réalisées dans divers domaines tels que la médecine, la biologie ou la reconnaissance des formes. Dans cette thèse, on s'intéresse au critère de Kolmogorov-Smirnov, qui fait partie des outils de la segmentation sur les variables quantitatives. Plusieurs simulations ont conclu positivement, tant sur son pouvoir de discrimination assez puissant que sur sa robustesse et son efficacité asymptotique au sens de Bayes. La première phase de ce travail est consacrée à l'extension de ce critère aux variables qualitatives et aux propriétés asymptotiques. La deuxième phase porte sur la réduction de la complexité exponentielle pour la recherche d'une solution globalement optimale à une complexité polynomiale de degrés trois. La phase finale s'intéresse à la programmation de ce critère et à son intégration dans le logiciel Sicla.

APA, Harvard, Vancouver, ISO, and other styles

32

Baujoin, Corinne. "Analyse et optimisation d’un système de gestion de bases de données hiérarchique-relationnel : proposition d’une interface d’interrogation." Compiègne, 1985. http://www.theses.fr/1985COMPI209.

Full text

APA, Harvard, Vancouver, ISO, and other styles

33

Alami, Karim. "Optimisation des requêtes de préférence skyline dans des contextes dynamiques." Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0135.

Full text

Abstract:

Les requêtes de préférence sont des outils intéressants pour calculer des sous-ensembles représentatifs d'ensembles de données en entrée ou pour classer les tuples en fonction des préférences des utilisateurs. Dans cette thèse, nous abordons principalement l'optimisation des requêtes Skyline, une classe spéciale des requêtes de préférence, dans des contextes dynamiques. Dans une première partie, nous abordons la maintenance incrémentale de la structure d'indexation multidimensionnelle NSC qui a été démontrée efficace pour répondre aux requêtes skyline dans un contexte statique. Plus précisément, nous abordons (i) le cas des données dynamiques, c'est-à-dire que des tuples sont insérés ou supprimés à tout moment, et (ii) le cas des données en streaming, c'est-à-dire que les tuples sont insérés et écartés après un intervalle de temps spécifique. En cas de données dynamiques, nous repensons la structure et proposons des procédures pour gérer efficacement les insertions et les suppressions. En cas de données en streaming, nous proposons MSSD un pipeline de données qui gère les données par lot et maintient NSCt une variation de NSC. Dans une deuxième partie, nous abordons le cas des ordres dynamiques, c'est-à-dire que certains ou tous les attributs de l'ensemble de données sont catégoriques et chaque utilisateur exprime son propre ordre partiel sur le domaine de ces attributs. Nous proposons des algorithmes parallèles évolutifs qui décomposent une requête en un ensemble de sous-requêtes et traitent chaque sous-requête indépendamment. Pour optimiser davantage, nous proposons la matérialisation partielle des sous-requêtes et introduisons le problème de la sélection de sous-requêtes en fonction d'un coût
Preference queries are interesting tools to compute small representatives of datasets or to rank tuples based on the users’ preferences. In this thesis, we mainly focus on the optimization of Skyline queries, a special class of preference queries, in dynamic contexts. In a first part, we address the incremental maintenance of the multidimensional indexing structure NSC which has been shown efficient for answering skyline queries in a static context. More precisely, we address (i) the case of dynamic data, i.e. tuples are inserted or deleted at any time, and (ii) the case of streaming data, i.e. tuples are appended only, and discarded after a specific interval of time. In case of dynamic data, we redesign the structure and propose procedures to handle efficiently both insertions and deletions. In case of streaming data, we propose MSSD a data pipeline which operates in batch mode, and maintains NSCt a variation of NSC. In a second part, we address the case of dynamic orders, i.e, some or all attributes of the dataset are nominal and each user expresses his/her own partial order on these attributes’ domain. We propose highly scalable parallel algorithms that decompose an issued query into a set of sub-queries and process each sub-query independently. In a further step for optimization, we propose the partial materialization of sub-queries and introduce the problem of cost-driven sub-queries selection

APA, Harvard, Vancouver, ISO, and other styles

34

Guehis, Sonia. "Modélisation, production et optimisation des programmes SQL." Paris 9, 2009. https://bu.dauphine.psl.eu/fileviewer/index.php?doc=2009PA090076.

Full text

APA, Harvard, Vancouver, ISO, and other styles

35

Piat, Jonathan. "Modélisation flux de données et optimisation pour architecture multi-cœurs de motifs répétitifs." Phd thesis, INSA de Rennes, 2010. http://tel.archives-ouvertes.fr/tel-00564522.

Full text

Abstract:

Face au défi que représente la programmation des architectures multi-cœurs/processeurs, il est devenu nécessaire de proposer aux développeurs des outils adaptés permettant d'abstraire les notions inhérentes au parallélisme et facilitant le portage d'une application sur différentes architectures. La méthodologie AAA (Adéquation Algorithme Architecture) propose au développeur d'automatiser les étapes de partitionnement, ordonnancement à partir d'une description haut niveau de l'application et de l'architecture. Cette méthodologie permet donc le prototypage rapide d'une application sur différentes architectures avec un minimum d'effort et un résultat approchant l'optimal. Les apports de cette thèse se situent à la fois au niveau du modèle de spécification et de ses optimisations relatives au contexte des architectures parallèles. Le modèle flux de données répond aux problèmes de modélisation des applications fortement synchronisées par les données. Le sous-ensemble SDF (Synchronous Data Flow), limite l'expressivité du modèle mais apporte un complément d'information permettant une optimisation efficace et garantissant l'intégrité du calcul dans tous les contextes. Les travaux développés dans ce mémoire introduisent un nouveau modèle de hiérarchie dans SDF afin d'améliorer l'expressivité tout en préservant les propriétés du modèle initial. Ce modèle basé sur des interfaces, permet une approche plus naturelle pour le développeur accoutumé au langage C. Ce nouveau modèle apportant un complément d'information, nous proposons également un ensemble de traitement améliorant la prise en charge des motifs de répétition imbriqués. En effet le modèle de hiérarchie introduit en première partie permet la spécification de motifs dit de " nids de boucles " pouvant masquer le parallélisme potentiel. Il est donc nécessaire d'associer au modèle des traitements permettant de révéler ce parallélisme tout en préservant l'aspect factorisé du calcul. Les méthodes présentées sont adaptées du contexte des compilateurs pour supercalculateurs et de l'univers des réseaux systoliques.

APA, Harvard, Vancouver, ISO, and other styles

36

Fernandez, Pernas Jesus. "Optimisation et automatisation du traitement informatique des données spectroscopiques cérébrales (proton simple volume)." Caen, 2002. http://www.theses.fr/2002CAEN3079.

Full text

Abstract:

La SRM 1H est une technique utilisée pour étudier le métabolisme neuronal et glial par la quantification de paramètres biologiques. La précision de cette dernière s'avère délicate car de nombreux problèmes inhérents au signal RMN existent. Une description de ces problèmes ainsi que celle de méthodes de quantification existantes sont présentées dans le premier chapitre. Dans les second et troisième chapitres, des solutions innovantes sont proposées pour augmenter la précision et la reproductibilité du traitement des données spectrales : la sélection des CDILs pour améliorer le signal en éliminant les " mauvaises " acquisitions, la modélisation par paquets pour améliorer la quantification dans le domaine fréquentiel. L'ergonomie logicielle a été aussi perfectionnée grâce à une meilleure conception informatique. Dans le quatrième chapitre, trois applications cliniques permettent de tester dans des conditions in vivo ces solutions originales. Leurs avantages et inconvénients sont discutés dans le dernier chapitre

APA, Harvard, Vancouver, ISO, and other styles

37

Abbas, Issam. "Optimisation d'un langage fonctionnel de requêtes pour une base de données orienté-objet." Aix-Marseille 1, 1999. http://www.theses.fr/1999AIX11003.

Full text

Abstract:

Les techniques d'optimisation des requetes sont etroitement liees aux modeles et langages de requetes en question. Dans le cas de systemes relationnels par exemple, les techniques qui ont ete developpees s'appuient principalement sur le modele relationnel et l'algebre qui l'accompagne. Les limitations du modele relationnel, notamment pour modeliser des applications complexes, et le developpement du paradigme objet ont favorise l'emergence des systemes de bases de donnees oriente-objet (sgbdoo). A l'inverse du modele relationnel, il existe plusieurs modeles objets bien que l'on assiste aujourd'hui a une convergence vers le modele odmg. Cette multitude de modeles et leur complixite intrinseque, et l'absence d'une algebre objet unique, font que l'optimisation des langages declaratifs de requetes pour sgbdoo demeure une tache complique. Le travail que nous decrivons dans cette these concerne l'optimisation des langages de requetes pour sgbdoo. Nous nous sommes interesses a la definition d'une algebre qui sert de base a l'optimisation logique des langages fonctionnels de requetes. Nous voulons aussi fournir un langage algebrique intermediaire qui sert a la compilation et a l'optimisation d'un langage de requetes comme oql.

APA, Harvard, Vancouver, ISO, and other styles

38

Bekara, Maïza. "Optimisation de critères de choix de modèles pour un faible nombre de données." Paris 11, 2004. http://www.theses.fr/2004PA112139.

Full text

Abstract:

Dans ce travail, nous proposons un critère de choix de modèles fondé sur la divergence symétrique de Kullback. Le critère proposé, noté KICc, est une version améliorée du critère asymptotique KIC (Cavanaugh, Statistics and Probability Letters, vol. 42, 1999) pour un faible nombre de données. KICc est un estimateur exactement non biaisé pour les modèles de régression linéaires et approximativement non biaisé pour les modèles autorégressives et les modèles de régression non linéaires. Les deux critères KIC et KICc sont développés sous l'hypothèse que le modèle générateur est correctement spécifié ou sur-paramétré par le modèle candidat. Nous étudions, dans le cas où cette hypothèse n'est pas vérifiée, les propriétés du biais des deux estimateurs KIC et KICc et la qualité des modèles qu'ils sélectionnent. Nous considérons aussi le PKIC, une extension du critère KICc dans un cadre de modélisation où les données d'intérêt, appelées données futures, sont indirectement observées ou manquantes. Le KICc est proposé pour résoudre le problème de débruitage d'un signal déterministe noyé dans du bruit en utilisant une projection sur une base orthogonale. La séparation sous espaces signal et bruit est faite en retenant la base minimisant le critère KICc. Finalement, nous proposons une optimisation calculatoire d'un critère de sélection de modèles fondé sur le principe de la validation croisée et en utilisant la densité prédictive bayésienne comme modèle probabiliste pour les données futures. Le critère proposé, noté CVBPD, est un critère de sélection de modèles consistant pour les modèles de régression linéaire
In this work we propose a model selection criterion based on Kullback's symmetric divergence. The developed criterion, called KICc is a bias corrected version of the asymptotic criterion KIC (Cavanaugh, Statistics and Probability Letters, vol. 42, 1999). The correction is of particular use when the sample size is small or when the number of fitted parameters is moderate to large fraction of the sample size. KICc is an exactly unbiased estimator for linear regression models and appreciatively unbiased for autoregressive and nonlinear regression models. The two criteria KIC and KICc are developed under the assumption that the true model is correctly specified or overfitted by the candidate models. We investigate the bias properties and the model selection performance of the two criteria in the underfitted case. An extension of KICc, called PKIC is also developed for the case of future experiment where date of interest is missing or indirectly observed. The KICc is implemented to solve the problem of denoising by using orthogonal projection and thresholding. The threshold is obtained as the absolute value of the kth largest coefficient that minimizes KICc. Finally, we propose a computational optimization of a cross validation based model selection criterion that uses the Bayesian predictive density as candidate model and marginal likelihood as a cost function. The developed criterion, CVBPD, is a consistent model selection criterion for linear regression

APA, Harvard, Vancouver, ISO, and other styles

39

Piat, Jonathan. "Modélisation flux de données et optimisation pour architecture multi-coeurs de motifs répétitifs." Rennes, INSA, 2010. https://tel.archives-ouvertes.fr/tel-00564522.

Full text

Abstract:

Face au defi que represente la programmation des architectures multi-cŒurs/processeurs, il est devenu necessaire de proposer aux developpeurs des outils adaptes permettant d’abstraire les notions inherentes au parallelisme et facilitant le portage d’une application sur differentes architectures. La methodologie aaa (adequation algorithme architecture) propose au developpeur d’automatiser les etapes de partitionnement, ordonnancement a partir d’une description haut niveau de l’application et de l’architecture. Cette methodologie permet donc le prototypage rapide d’une application sur differentes architectures avec un minimum d’effort et un resultat approchant l’optimal. Les apports de cette these se situent a la fois au niveau du modele de specification et de ses optimisations relatives au contexte des architectures paralleles
Since applications such as video coding/decoding or digital communications with advanced features are becoming more complex, the need for computational power is rapidly increasing. In order to satisfy software requirements, the use of parallel architecture is a common answer. To reduce the software development effort for such architectures, it is necessary to provide the programmer with efficient tools capable of automatically solving communications and software partitioning/scheduling concerns. The algorithm architecture matching methodology helps the programmer by providing automatic transformation, partitioning and scheduling of an application for a given architecture this methodology relies on an application model that allow to extract the available parallelism. The contributions of this thesis are tackles both the problem of the model and the associated optimization for parallelism extraction

APA, Harvard, Vancouver, ISO, and other styles

40

Ziane, Mikal, and François Bouillé. "Optimisation de requêtes pour un système de gestion de bases de données parallèle." Paris 6, 1992. http://www.theses.fr/1992PA066689.

Full text

Abstract:

Dans le cadre du projet ESPRIT II EDS nous avons conçu et réalisé un optimiseur physique pour un système de gestion de bases de données parallèle. Cet optimiseur prend en compte plusieurs types de parallélisme, d'algorithmes parallèles et de stratégies de fragmentation. D'autre part, nous dégageons quels types de connaissance déterminent l'extensibilité et l'efficacité d'un optimiseur. Enfin, nous proposons une nouvelle méthode d'optimisation de la traversée de chemins dans les bases de données à objets, qui améliore les méthodes traditionnelles.

APA, Harvard, Vancouver, ISO, and other styles

41

Lu, Yanping. "Optimisation par essaim de particules application au clustering des données de grandes dimensions." Thèse, Université de Sherbrooke, 2009. http://savoirs.usherbrooke.ca/handle/11143/5112.

Full text

Abstract:

Clustering high-dimensional data is an important but difficult task in various data mining applications. A fundamental starting point for data mining is the assumption that a data object, such as text document, can be represented as a high-dimensional feature vector. Traditional clustering algorithms struggle with high-dimensional data because the quality of results deteriorates due to the curse of dimensionality. As the number of features increases, data becomes very sparse and distance measures in the whole feature space become meaningless. Usually, in a high-dimensional data set, some features may be irrelevant or redundant for clusters and different sets of features may be relevant for different clusters. Thus, clusters can often be found in different feature subsets rather than the whole feature space. Clustering for such data sets is called subspace clustering or projected clustering, aimed at finding clusters from different feature subspaces. On the other hand, the performance of many subspace/projected clustering algorithms drops quickly with the size of the subspaces in which the clusters are found. Also, many of them require domain knowledge provided by the user to help select and tune their settings, like the maximum distance between dimensional values, the threshold of input parameters and the minimum density, which are difficult to set. Developing effective particle swarm optimization (PSO) for clustering high-dimensional data is the main focus of this thesis. First, in order to improve the performance of the conventional PSO algorithm, we analyze the main causes of the premature convergence and propose a novel PSO algorithm, call InformPSO, based on principles of adaptive diffusion and hybrid mutation. Inspired by the physics of information diffusion, we design a function to achieve a better particle diversity, by taking into account their distribution and the number of evolutionary generations and by adjusting their"social cognitive" abilities. Based on genetic self-organization and chaos evolution, we build clonal selection into InformPSO to implement local evolution of the best particle candidate, gBest, and make use of a Logistic sequence to control the random drift of gBest. These techniques greatly contribute to breaking away from local optima. The global convergence of the algorithm is proved using the theorem of Markov chain. Experiments on optimization of unimodal and multimodal benchmark functions show that, comparing with some other PSO variants, InformPSO converges faster, results in better optima, is more robust, and prevents more effectively the premature convergence. Then, special treatments of objective functions and encoding schemes are proposed to tailor PSO for two problems commonly encountered in studies related to high-dimensional data clustering. The first problem is the variable weighting problem in soft projected clustering with known the number of clusters k . With presetting the number of clusters k, the problem aims at finding a set of variable weights for each cluster and is formulated as a nonlinear continuous optimization problem subjected to bound. constraints. A new algorithm, called PSOVW, is proposed to achieve optimal variable weights for clusters. In PSOVW, we design a suitable k -means objective weighting function, in which a change of variable weights is exponentially reflected. We also transform the original constrained variable weighting problem into a problem with bound constraints, using a non-normalized representation of variable weights, and we utilize a particle swarm optimizer to minimize the objective function in order to obtain global optima to the variable weighting problem in clustering. Our experimental results on both synthetic and real data show that the proposed algorithm greatly improves cluster quality. In addition, the results of the new algorithm are much less dependent on the initial cluster centroids. The latter problem aims at automatically determining the number of clusters k as well as identifying clusters. Also, it is formulated as a nonlinear optimization problem with bound constraints. For the problem of automatical determination of k , which is troublesome to most clustering algorithms, a PSO algorithm called autoPSO is proposed. A special coding of particles is introduced into autoPSO to represent partitions with different numbers of clusters in the same population. The DB index is employed as the objective function to measure the quality of partitions with similar or different numbers of clusters. autoPSO is carried out on both synthetic high-dimensional datasets and handcrafted low-dimensional datasets and its performance is compared to other selected clustering techniques. Experimental results indicate that the promising potential pertaining to autoPSO applicability to clustering high-dimensional data without the preset number of clusters k.

APA, Harvard, Vancouver, ISO, and other styles

42

Martinez, Medina Lourdes. "Optimisation des requêtes distribuées par apprentissage." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM015.

Full text

Abstract:

Les systèmes de gestion de données distribuées deviennent de plus en plus complexes. Ils interagissent avec des réseaux de dispositifs fixes et/ou mobiles, tels que des smartphones ou des tablettes, dispositifs hétérogènes, autonomes et possédant des limitations physiques. Ces dispositifs exécutent des applications permettant l'interaction des usagers (i.e. jeux virtuels, réseaux sociaux). Ces applications produisent et consomment des données à tout moment voire même en continu. Les caractéristiques de ces systèmes ajoutent des dimensions au problème de l'optimisation de requêtes, telles que la variabilité des objectifs d'optimisation, l'absence d'information sur les données (métadonnées) ou le manque d'une vision globale du système. Les techniques traditionnelles d'optimisation des requêtes n'abordent pas (ou très peu) les systèmes autonomes. Elles se basent sur les métadonnées et font des hypothèses très fortes sur le comportement du système. En plus, la majorité de ces techniques d'optimisation ciblent uniquement l'optimisation du temps d'exécution. La difficulté d'évaluation des requêtes dans les applications modernes incite à revisiter les techniques traditionnelles d'optimisation. Cette thèse fait face aux défis décris précédemment par l'adaptation du paradigme du Raisonnement à partir de cas (CBR pour Case-Based Reasoning) au problème de l'optimisation des requêtes. Cette adaptation, associée à une exploration pseudo-aléatoire de l'espace de solutions fournit un moyen pour optimiser des requêtes dans les contextes possédant très peu voire aucune information sur les données. Cette approche se concentre sur l'optimisation de requêtes en utilisant les cas générés précédemment dans l'évaluation de requêtes similaires. Un cas de requête et composé par : (i) la requête (le problème), (ii) le plan d'exécution (la solution) et (iii) les mesures de ressources utilisés par l'exécution du plan (l'évaluation de la solution). Cette thèse aborde également la façon que le processus CBR interagit avec le processus de génération de plan d'exécution de la requête qui doit permettre d'explorer l'espace des solutions. Ce processus utilise les heuristiques classiques et prennent des décisions de façon aléatoire lorsque les métadonnées viennent à manquer (e.g. pour l'ordre des jointures, la sélection des algorithmes, voire même le choix des protocoles d'acheminement de messages). Ce processus exploite également le CBR pour générer des plans pour des sous-requêtes, accélérant ainsi l'apprentissage de nouveaux cas. Les propositions de cette thèse ont été validées à l'aide du prototype CoBRA développé dans le contexte du projet UBIQUEST
Distributed data systems are becoming increasingly complex. They interconnect devices (e.g. smartphones, tablets, etc.) that are heterogeneous, autonomous, either static or mobile, and with physical limitations. Such devices run applications (e.g. virtual games, social networks, etc.) for the online interaction of users producing / consuming data on demand or continuously. The characteristics of these systems add new dimensions to the query optimization problem, such as multi-optimization criteria, scarce information on data, lack of global system view, among others. Traditional query optimization techniques focus on semi (or not at all) autonomous systems. They rely on information about data and make strong assumptions about the system behavior. Moreover, most of these techniques are centered on the optimization of execution time only. The difficulty for evaluating queries efficiently on nowadays applications motivates this work to revisit traditional query optimization techniques. This thesis faces these challenges by adapting the Case Based Reasoning (CBR) paradigm to query processing, providing a way to optimize queries when there is no prior knowledge of data. It focuses on optimizing queries using cases generated from the evaluation of similar past queries. A query case comprises: (i) the query, (ii) the query plan and (iii) the measures (computational resources consumed) of the query plan. The thesis also concerns the way the CBR process interacts with the query plan generation process. This process uses classical heuristics and makes decisions randomly (e.g. when there are no statistics for join ordering and selection of algorithms, routing protocols). It also (re)uses cases (existing query plans) for similar queries parts, improving the query optimization, and therefore evaluation efficiency. The propositions of this thesis have been validated within the CoBRa optimizer developed in the context of the UBIQUEST project

APA, Harvard, Vancouver, ISO, and other styles

43

Tang, Zhao Hui. "Optimisation de requêtes avec l'expression de chemin pour les bases de données orientées objets." Versailles-St Quentin en Yvelines, 1996. http://www.theses.fr/1996VERS0009.

Full text

Abstract:

Bien que beaucoup de problèmes à résoudre dans un système de bases de données objet sont similaires à ceux existant dans un système relationnel, il y a aussi plusieurs problèmes qui sont uniques. En particulier, chaque objet a un identifiant unique (oid) qui peut être utilisé pour référencer un autre objet. Cela fournit l'aspect navigation de sgbdo. Une requête objet peut inclure une expression de chemin pour la traversée de plusieurs collections. Le problème d'optimiser l'expression de chemin ressemble à celui du traitement de la jointure en système relationnel, mais il est plus complexe dans les systèmes objets. Cette thèse propose quatre approches pour aborder ce problème. D'abord, elle compare les performances de différentes méthodes de traversée de chemin, y compris la navigation, la jointure en avant ou en arrière, et la jointure par valeur, etc. , dans différentes situations. Elle propose une règle heuristique pour choisir éventuellement un opérateur naire. La deuxième partie de la thèse propose deux nouveaux opérateurs algébriques de navigation pour évaluer des expressions de chemin linéaires et en étoiles. Différentes stratégies de navigation sont étudiées. La troisième partie de la thèse introduit une adaptation de l'algorithme génétique pour explorer l'espace de recherche de plan d'exécution génère par une expression de chemin. Différents algorithmes combinatoires sont comparés. Enfin, cette thèse propose une méthode pour calibrer les bases de données objets en utilisant un modèle de coût générique, en particulier pour déduire le coût des traversées de chemins

APA, Harvard, Vancouver, ISO, and other styles

44

Coveliers, Alexandre. "Sensibilité aux jeux de données de la compilation itérative." Paris 11, 2007. http://www.theses.fr/2007PA112255.

Full text

Abstract:

Dans le cadre de la conception d’architecture de processeurs, la recherche de performances a entraîné une augmentation continue de la complexité de ces architectures. Cette augmentation de la complexité des architectures a rendu de plus en plus difficile l’exploitation de leurs performances potentielles. Afin d’améliorer l’exploitation des performances des architectures, de nouvelles stratégies d’optimisation intégrant des informations sur le comportement dynamique –i. E. Lors de l’exécution – du code ont été proposées, comme le principe de la compilation itérative. Ces approches permettent de déterminer des transformations plus pertinentes que celles obtenues par une analyse statique. Le principal écueil de ces méthodes de transformation de code réside dans le fait que les transformations du code sont déterminées à partir d’informations issues de l’exécution de l’application avec un jeu de données particulier. L’optimisation obtenue est donc dépendante du jeu de données utilisé pendant le processus d’optimisation. Dans cette thèse, nous étudions, pour deux méthodes de transformation de code itératives différentes, la variation des performances des applications optimisées en fonction des jeux de données utilisés. Nous introduisons différentes métriques afin de quantifier cette sensibilité. Nous proposons également des méthodes de sélection des jeux de données à utiliser pendant le processus de transformation de code afin d’obtenir un code optimisé exhibant de bonnes performances avec l’ensemble des jeux de données
In the context of architecture processor conception, the performance research leads to a constant growth of architecture complexity. This growth of architecture complexity made more difficult the exploitation of their potential performance. To improve architecture performance exploitation, new optimization techniques based on dynamic behavior –i. E. Run time behavior- has been proposed Iterative compilation is a such an optimization approach. This approach allows to determine more relevant transformation than those obtained by static analysis. The main drawback of this optimization method is based on the fact that the information that lead to the code transformation are specific to a particular data set. Thus the determined optimizations are dependent on the data set used during the optimization process. In this thesis, we study the optimized application performance variations according to the data set used for two iterative code transformation techniques. We introduce different metrics to quantify this sensitivity. Also, we propose data set selection methods for choosing which data set to use during code transformation process. Selected data sets enable to obtain an optimized code with good performance with all other available data sets

APA, Harvard, Vancouver, ISO, and other styles

45

Delot, Thierry. "Interrogation d'annuaires étendus : modèles, langage et optimisation." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0028.

Full text

Abstract:

Les travaux menés dans cette thèse se concentrent sur les problèmes de partage, d'interrogation et de médiation rencontrés dans les systèmes d'information de nouvelle génération qui s'articulent autour de sources de données, d'objets, et de composants largement distribués. Dans cet environnement, différents systèmes coexistent : des SGBD, des serveurs LDAP et des architectures à objets distribués. Les limites actuelles des services d'annuaires et leur interaction toujours plus grande avec l'environnemnet qui les entoure (SGBDs, objets,. . . ) nous a amené à étudier la définition d'un service d'annuaires capable, tout en conservant la flexibilité et la compatibilité avec les modèles existants, de proposer des fonctionnalités avancées telles que : la manipulation de données riches englobant des valeurs mais également des programmes, le support adapté pour le partage d'objets et des capacités d'interrogation étendues. En effet, les facilités d'interrogation dans LDAP sont relativement pauvres et il serait intéressant de les enrichir pour permettre des recherches plus complexes incluant des parcours de chemin, des calculs d'agrégats, etc. Le challenge consiste ici à trouver le bon compromis entre le pouvoir d'expression du langage et la charge imposée au service d'annuaires. L'introduction de nouvelles fonctionnalités dans le service d'annuaires a un impact important sur les performances du système, aussi bien du point de vue des temps de réponse que des ressources consommées pour évaluer une requête. Un autre aspect de cette intégration des annuaires avec leur environnement concerne le partage de données communes entre ces différents systèmes, comme les données d'identification par exemple. Pour assurer cette intégration, notre solution consiste à mettre en place une couche de médiation entre les deux systèmes, afin de permettre à un utilisateur de manipuler ses données en utilisant soit le modèle relationnel dans le cax des SGBD relationnels, soit le modèle LDAP.

APA, Harvard, Vancouver, ISO, and other styles

46

Ben, Saad Myriam. "Qualité des archives web : modélisation et optimisation." Paris 6, 2011. http://www.theses.fr/2011PA066446.

Full text

Abstract:

Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que nos travaux de thèse s'inscrivent. Nous nous intéressons aux deux mesures de qualité: la complétude temporelle et la cohérence temporelle qui sont très pertinentes pour évaluer les archives Web. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. Nous proposons ensuite une méthode pour évaluer l'importance des changements visuels ainsi détectés. Par la suite, nous modélisons l'importance des changements sous forme de patterns, par le modèle PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. En se basant sur PPaC, nous proposons différentes stratégies de crawling qui visent à améliorer la complétude et/ou la cohérence temporelle. Nos différentes stratégies ont été implémentées puis expérimentées aussi bien sur des pages simulées que sur de vraies pages Web. Les résultats obtenus démontrent que le modèle PPaC basé sur l'importance des changements est un instrument utile pour améliorer considérablement la qualité des archives.

APA, Harvard, Vancouver, ISO, and other styles

47

Collard, Martine. "Fouille de données, Contributions Méthodologiques et Applicatives." Habilitation à diriger des recherches, Université Nice Sophia Antipolis, 2003. http://tel.archives-ouvertes.fr/tel-01059407.

Full text

Abstract:

Les travaux présentés dans ce mémoire, ont été développés sur le thème de la découverte de motifs intéressants à travers la fouille de données et mis en oeuvre dans le cadre de la conception de systèmes d'information. Ils sont essentiellement consacrés aux problèmes soulevés par l'étape de fouille pour la découverte de modèles et de motifs fréquents. Ils sont à la fois d'ordre méthodologique et applicatif.

APA, Harvard, Vancouver, ISO, and other styles

48

Dukan, Laurent. "Étude critique et optimisation d'un système d'acquisition analogique-numérique rapide à hautes performances." Paris 11, 1987. http://www.theses.fr/1987PA112043.

Full text

Abstract:

Il s'agissait de répondre à un certain cahier des charges : concevoir et réaliser un système d'acquisition A/N rapide possédant une fréquence d'échantillonnage de 100 MHz, une résolution de 8 bits et une capacité mémoire total de 8 K octets·. Pour cela, nous avons utilisé deux convertisseurs flash 50 MHz-8 bits disposés en bascules, chacun connecté à une carte mémoire de 4 K octets. Deux cartes logiques (ECL et TTL) gèrent le fonctionnement d’ensemble ainsi que le transfert des données vers le calculateur IN11O. Le système ainsi architecturé possède donc 6 cartes électroniques. Doté de nombreuses fonctions, il permet en outre de ne coder que certaines parties temporelles d'un signal ("burst") et de fixer à l'avance le volume mémoire total de l'acquisition·. Dans un souci d'amélioration, nous avons développé par la suite, à l'aide du simulateur CIRCEC, un circuit Echantillonneur-bloqueur pouvant se placer en tête de notre système. L'ensemble de ce travail nous permit ainsi d'élaborer de nouvelles architectures globalement optimisées pour les technologies employées
This work deals principally with the question of High speed Analog Data Acquisition·. We constructed an Acquisition System based on 2 cascaded A/D converters (each with a capacity of 50 MHz-8 bits), with a sample rate of 100 MHz, a total accuracy of 8 bits, and a memory of 8 K-bytes. This system has a number of different functions, for example the "burst function" which consists in encoding only certain parts of the input signal or, for example, a function that permits the advance programming of the total volume of the acquisition memory·. The ensemble is subsequently connected to a computer, specifically tailored for the system (IN11O). In addition, v1e investigated the possibility of a high-speed sample-and-hold circuit, constructed in order to be connected to the input of the Acquisition System. This circuit was designed to be more performant than that which would have been strictly necessary for the connection. The system was designed to obtain a sample rate of 120 MHz with a corresponding accuracy of 12 bits. The study of the entire system (the sample-and-hold circuit in conjunction with the Analog Data Acquisition System), thus allowed for the development of new structures that made optimal use of the avail technology

APA, Harvard, Vancouver, ISO, and other styles

49

Dupuis, Sophie. "Optimisation automatique des chemins de données arithmétiques par l’utilisation des systèmes de numération redondants." Paris 6, 2009. http://www.theses.fr/2009PA066131.

Full text

Abstract:

Cette thèse présente l'optimisation des chemins de données arithmétiques par l’intégration automatique de l’arithmétique redondante dans le flot de conception VLSI, de façon à le rendre plus accessible. Les travaux effectués se découpent en 2 phases. La 1ère a pour objectif d’incorporer les opérateurs redondants et le savoir-faire lié à leur usage dans la synthèse bas niveau. Les bonnes performances intrinsèques de ces opérateurs montrent l’intérêt de celle approche. Trois algorithmes d’optimisation sont proposés, basés sur la redéfinition des enchaînements entre opérateurs. La 2nde est consacrée à la mise en place de l’environnement de conception dans lequel seront utilisés ces algorithmes. Il répond aux besoins liés à l’arithmétique et fournit un langage de description de circuits avec un haut niveau d’abstraction. Ces algorithmes ont été appliqués sur des circuits arithmétiques. Les résultats confirment que l'intégration de l'arithmétique redondante améliore nettement les performances

APA, Harvard, Vancouver, ISO, and other styles

50

Le, Hung-Cuong. "Optimisation d'accès au médium et stockage de données distribuées dans les réseaux de capteurs." Besançon, 2008. http://www.theses.fr/2008BESA2052.

Full text

Abstract:

Les réseaux de capteurs constituent un axe de recherche très fertile ces dernières années. Cette technique se développe dans différents domaines comme l'environnement, l'industrie, le commerce, la médecine, l'armée etc. Selon le type d'application, les problématiques peuvent être différentes. Dans cette thèse, nous nous sommes intéressés à deux problématiques: les protocoles d'accès au canal et le stockage de données distribuées. Le document est divisé en deux parties où la première partie est un état de l'art de différentes techniques existantes et la deuxième partie décrit notre contribution dans ces deux problématiques. Dans la première contribution, nous avons proposé deux protocoles d'accès au canal. Le premier optimise la durée de vie des réseaux de capteurs de type surveillance et le second réduit la latence de transmission dans les réseaux de capteurs orientés événements pour les applications critiques. Dans la deuxième contribution, nous nous sommes focalisés sur le modèle de stockage de données data-centric. Nous avons proposé une structure de regroupement des capteurs afm d'améliorer le routage et réduire le nombre de transmissions afin de prolonger la durée de vie d'un réseau de capteurs
Wireless sensor network is a very hot research topic tendency for the last few years. This technology can be applied into different domains as environment, industry, commerce, medicine, military etc. Depending on the application type, the problems and requirements might be different. In this thesis, we are interested in two major problems: the medium access control and the distributed data storage. The document is divided to two parts where the first part is a state of the art of different existing works and the second part describes our contribution. In the first contribution, we have proposed two MAC protocols. The first one optimizes the wireless sensor networks lifetime for surveillance applications and the second one reduces the transmission latency in event-driven wireless sensor networks for critical applications. In the second contribution, we have worked with several data storage models in wireless sensor network and we focus on the data-centric storage model. We have proposed a clustering structure for sensors to improve the routing and reduce the number of transmissions in order to prolong the network lifetime

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!