Log in

Relevant bibliographies by topics / Qualità dei dati / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Qualità dei dati.

Dissertations / Theses on the topic 'Qualità dei dati'

Author: Grafiati

Published: 4 June 2021

Last updated: 15 February 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Qualità dei dati.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Morlini, Gabriele. "Analisi della qualità dei dati in un’enterprise architecture utilizzando un sistema d’inferenza." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2012. http://amslaurea.unibo.it/3398/.

Full text

Abstract:

Lo scopo della tesi è definire un modello e identificare un sistema d’inferenza utile per l’analisi della qualità dei dati. Partendo da quanto descritto in ambito accademico e business, la definizione di un modello facilita l’analisi della qualità, fornendo una descrizione chiara delle tipologie di problemi a cui possono essere soggetti i dati. I diversi lavori in ambito accademico e business saranno confrontati per stabilire quali siano i problemi di qualità più diffusi, in modo da realizzare un modello che sia semplice e riutilizzabile. I sistemi d’inferenza saranno confrontati a livello teorico e pratico per individuare lo strumento più adatto nell’analisi della qualità dei dati in un caso applicativo. Il caso applicativo è caratterizzato da requisiti funzionali e non; il principale requisito funzionale è l’individuazione di problemi di qualità nei dati, mentre quello non funzionale è l’ usabilità dello strumento, per permettere ad un qualunque utente di esprimere dei controlli sulla qualità. Il caso applicativo considera dati di un’enterprise architecture reale ed è stato fornito dall’azienda Imola Informatica.

APA, Harvard, Vancouver, ISO, and other styles

2

Cristofaro, Roberta. "Analisi dell'effetto della qualità dei dati meteorologici sulla simulazione a lungo raggio della dispersione in atmosfera di inquinanti radioattivi." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2020.

Find full text

Abstract:

Una delle sfide scientifiche degli ultimi anni è avere dei modelli matematici più raffinati per simulare al meglio la dispersione di inquinanti in atmosfera. Il caso studiato affronta il problema di simulare la dispersione in atmosfera a lungo raggio di inquinanti radioattivi. Nel mondo ci sono centinaia di applicazioni mediche, industriali e accademiche che utilizzano potenti fonti radioattive, a cui si aggiunge anche il terrorismo radiologico, così cresce l’interesse da parte delle autorità internazionali competenti ad approfondire la tematica per stabilire maggiore sicurezza. Considerando un range di dispersione a lunga scala, per ricoprire anche aree intercontinentali è necessario che i dati meteo di input nei modelli siano accurati. I modelli invece prevedono dei sistemi di riferimento Lagrangiani. Nel seguente lavoro sono state analizzate le variazioni dovute all’utilizzo di due diversi dataset meteo su una simulazione di un avvenuto caso di emissione di Ru-106 già analizzato in ENEA. L’analisi ha evidenziato il peso della qualità dei dati meteo per la valutazione delle concentrazioni e della dispersione del plume radioattivo. Nel primo capitolo è stato trattato in modo generale l’inquinamento atmosferico per poi approfondire l’inquinamento radioattivo, analizzando le principali cause ed effetti. Nel secondo capitolo sono stati esposti i modelli matematici di dispersione in atmosfera, analizzando anche gli aspetti metereologici da parametrizzare e i modelli Lagrangiani. Nel terzo capitolo è stato approfondito il modello di dispersione Lagrangiano a particelle Flexpart, utilizzato per il calcolo delle simulazioni. Nel quarto capitolo è stato esposto il caso studio, analizzando attentamente le differenze tra i due dati meteo di input utilizzati nelle simulazioni. Nel quinto capitolo sono stati inseriti e analizzati i risultati ottenuti dalle simulazioni e nel sesto ed ultimo capitolo sono state redatte delle conclusioni del lavoro svolto.

APA, Harvard, Vancouver, ISO, and other styles

3

Zucchi, Erica. "La qualità del binario nelle linee AV/AC: studio dei dati rilevati dai treni diagnostici di RFI e analisi degli interventi manutentivi in previsione dell'aumento di velocità a 360 km/h." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2014. http://amslaurea.unibo.it/6767/.

Full text

Abstract:

Dal punto di vista geometrico, il tracciato delle linee AV/AC è determinato in funzione delle velocità di progetto, attualmente variabili tra 250 e 300 km/h, e in modo da limitare i parametri cinematici. In questa maniera è assicurata la corretta qualità di marcia dei treni ad alta velocità. La sovrastruttura ferroviaria è realizzata in modo da sopportare i carichi dinamici trasmessi dai convogli transitanti a elevate velocità, e da garantire la sicurezza della circolazione e il comfort di marcia. In particolare, la qualità del binario ferroviario è determinata attraverso una serie di parametri geometrici fondamentali, definiti da Rete Ferroviaria Italiana. A seconda dei valori assunti da tali parametri, il binario rientra in un livello di qualità geometrica: sono definiti tre livelli per i quali la circolazione ferroviaria avviene senza limitazioni e un livello che richiede l’imposizione di vincoli all’esercizio (rallentamenti o interruzioni). L’introduzione dei parametri geometrici e dei rispettivi valori di riferimento ha lo scopo di mantenere elevati livelli qualitativi e di sicurezza per l’infrastruttura ferroviaria, in materia di geometria dell’armamento. Infatti, il superamento di certe soglie da parte dei parametri, implica l’intervento manutentivo sul binario, al fine di ripristinare la corretta geometria e di garantire così la qualità della marcia dei treni. La politica è quella d’intervento prima del raggiungimento del quarto livello di qualità, per il quale sono necessarie restrizioni alla circolazione e interventi correttivi immediati.

APA, Harvard, Vancouver, ISO, and other styles

4

Cacchi, Alberto. "Valutazione dell'attività fisica tramite l'uso del Global Positioning System." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2017.

Find full text

Abstract:

Questo elaborato è stato strutturato in 3 diversi capitoli, nel capitolo 1 sono presentate informazioni generali su: che cosa sia un sistema GPS, come funzioni, i suoi principali errori e alcune implementazioni. Il capitolo 2 riguarda i sistemi GPS indoor di nuova tecnologia e le loro applicazioni. Mentre il capitolo 3 racchiude una analisi di alcuni studi, che riguarda l'utilità della raccolta dati, tramite sistemi GPS nell'ambito sportivo. In particolare nella prima parte si studia la validità e l'affidabilità delle misure GPS considerando l'evoluzione delle unità GPS stesse con l'aumento di frequenza di campionamento. Una volta verificati questi parametri, sono stati presi in considerazione nella seconda parte la raccolta di alcuni studi, riguardanti il monitoraggio dell'attività fisica di individui comuni in relazione all'ambiente in cui si trovano. Verificandone la qualità dei dati tramite lo studio della quantità dei dati persi. Infine nell'ultima parte viene focalizzata la ricerca sulle diverse variabili misurabili con il GPS: distanza totale, distanza relativa, velocità e carico sul corpo degli atleti, e come esse cambiano in relazione ai ruoli, alla competitività e all'età. Quest'ultima analisi è sviluppata nel contesto di vari sport di squadra.

APA, Harvard, Vancouver, ISO, and other styles

5

Kara, Madjid. "Data quality for the decision of the ambient systems." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLV009.

Full text

Abstract:

La qualité des données est une condition commune à tous les projets de technologie de l'information, elle est devenue un domaine de recherche complexe avec la multiplicité et l’expansion des différentes sources de données. Des chercheurs se sont penchés sur l’axe de la modélisation et l’évaluation des données, plusieurs approches ont été proposées mais elles étaient limitées à un domaine d’utilisation bien précis et n’offraient pas un profil de qualité nous permettant d’évaluer un modèle de qualité de données global. L’évaluation basée sur les modèles de qualité ISO a fait son apparition, néanmoins ces modèles ne nous guident pas pour leurs utilisation, le fait de devoir les adapter à chaque cas de figure sans avoir de méthodes précises. Notre travail se focalise sur les problèmes de la qualité des données d'un système ambiant où les contraintes de temps pour la prise de décision sont plus importantes par rapport aux applications traditionnelles. L'objectif principal est de fournir au système décisionnel une vision très spécifique de la qualité des données issues des capteurs. Nous identifions les aspects quantifiables des données capteurs pour les relier aux métriques appropriées de notre modèle de qualité de données spécifique. Notre travail présente les contributions suivantes : (i) création d’un modèle de qualité de données générique basé sur plusieurs standards de qualité existants, (ii) formalisation du modèle de qualité sous forme d’une ontologie qui nous permet l’intégration de ces modèles (de i), en spécifiant les différents liens, appelés relations d'équivalence, qui existent entre les critères composant ces modèles, (iii) proposition d’un algorithme d’instanciation pour extraire le modèle de qualité de données spécifique à partir du modèle de qualité de données générique, (iv) proposition d’une approche d’évaluation globale du modèle de qualité de données spécifique en utilisant deux processus, le premier processus consiste à exécuter les métriques reliées aux données capteurs et le deuxième processus récupère le résultat de cette exécution et utilise le principe de la logique floue pour l’évaluation des facteurs de qualité de notre modèle de qualité de données spécifique. Puis, l'expert établie des valeurs représentant le poids de chaque facteur en se basant sur la table d'interdépendance pour prendre en compte l'interaction entre les différents critères de données et on utilisera la procédure d'agrégation pour obtenir un degré de confiance. En ce basant sur ce résultat final, le composant décisionnel fera une analyse puis prendra une décision
Data quality is a common condition to all information technology projects; it has become a complex research domain with the multiplicity and expansion of different data sources. Researchers have studied the axis of modeling and evaluating data, several approaches have been proposed but they are limited to a specific use field and did not offer a quality profile enabling us to evaluate a global quality model. The evaluation based on ISO quality models has emerged; however, these models do not guide us for their use, having to adapt them to each scenario without precise methods. Our work focuses on the data quality issues of an ambient system where the time constraints for decision-making is greater compared to traditional applications. The main objective is to provide the decision-making system with a very specific view of the sensors data quality. We identify the quantifiable aspects of sensors data to link them to the appropriate metrics of our specified data quality model. Our work presents the following contributions: (i) creating a generic data quality model based on several existing data quality standards, (ii) formalizing the data quality models under an ontology, which allows integrating them (of i) by specifying various links, named equivalence relations between the criteria composing these models, (iii) proposing an instantiation algorithm to extract the specified data quality model from the generic data quality models, (iv) proposing a global evaluation approach of the specified data quality model using two processes, the first one consists in executing the metrics based on sensors data and the second one recovers the result of the first process and uses the concept of fuzzy logic to evaluate the factors of our specified data quality model. Then, the expert defines weight values based on the interdependence table of the model to take account the interaction between criteria and use the aggregation procedure to get a degree of confidence value. Based on the final result, the decisional component makes an analysis to make a decision

APA, Harvard, Vancouver, ISO, and other styles

6

Korcari, William. "Analisi del segnale temporale del sistema a tempo di volo dell'esperimento ALICE a LHC per le procedure di controllo di qualita dei dati." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2017. http://amslaurea.unibo.it/14607/.

Full text

Abstract:

Come migliorare l'algoritmo di Quality Assurance per il rivelatore TOF dell'esperimento ALICE ad LHC? Nel corso di questo elaborato si passerà attraverso una breve introduzione del Modello Standard e della fisica di cui si occupa l'esperimento ALICE a LHC, che illustrerà secondo quali principi l'apparato è stato costruito e quali sono i fenomeni di cui si va alla ricerca: il QGP, mostrato attraverso le sue molteplici conseguenze, da "Quarkonia" al "Jet Quenching". Verrà introdotto l'acceleratore di particelle LHC che ospita l'esperimento ALICE e i suoi rivelatori, protagonisti assoluti nello studio sul QGP e si porterà il focus sulla descrizione del rivelatore a tempo di volo TOF, dei suoi principi di funzionamento e delle sue caratteristiche significative per questo lavoro di tesi. Quindi si entrerà nel vivo della ottimizzazione dell'algoritmo di Quality Assurance, se ne vedrà lo stato attuale e la sua evoluzione nel tentativo di produrre una sua versione migliorata e più efficiente. Infine si confronteranno i risultati del nuovo algoritmo con la sua versione iniziale per valutare l'entità del miglioramento apportato.

APA, Harvard, Vancouver, ISO, and other styles

7

Peralta, Veronika. "Data Quality Evaluation in Data Integration Systems." Phd thesis, Université de Versailles-Saint Quentin en Yvelines, 2006. http://tel.archives-ouvertes.fr/tel-00325139.

Full text

Abstract:

Les besoins d'accéder, de façon uniforme, à des sources de données multiples, sont chaque jour plus forts, particulièrement, dans les systèmes décisionnels qui ont besoin d'une analyse compréhensive des données. Avec le développement des Systèmes d'Intégration de Données (SID), la qualité de l'information est devenue une propriété de premier niveau de plus en plus exigée par les utilisateurs. Cette thèse porte sur la qualité des données dans les SID. Nous nous intéressons, plus précisément, aux problèmes de l'évaluation de la qualité des données délivrées aux utilisateurs en réponse à leurs requêtes et de la satisfaction des exigences des utilisateurs en terme de qualité. Nous analysons également l'utilisation de mesures de qualité pour l'amélioration de la conception du SID et de la qualité des données. Notre approche consiste à étudier un facteur de qualité à la fois, en analysant sa relation avec le SID, en proposant des techniques pour son évaluation et en proposant des actions pour son amélioration. Parmi les facteurs de qualité qui ont été proposés, cette thèse analyse deux facteurs de qualité : la fraîcheur et l'exactitude des données. Nous analysons les différentes définitions et mesures qui ont été proposées pour la fraîcheur et l'exactitude des données et nous faisons émerger les propriétés du SID qui ont un impact important sur leur évaluation. Nous résumons l'analyse de chaque facteur par le biais d'une taxonomie, qui sert à comparer les travaux existants et à faire ressortir les problèmes ouverts. Nous proposons un canevas qui modélise les différents éléments liés à l'évaluation de la qualité tels que les sources de données, les requêtes utilisateur, les processus d'intégration du SID, les propriétés du SID, les mesures de qualité et les algorithmes d'évaluation de la qualité. En particulier, nous modélisons les processus d'intégration du SID comme des processus de workflow, dans lesquels les activités réalisent les tâches qui extraient, intègrent et envoient des données aux utilisateurs. Notre support de raisonnement pour l'évaluation de la qualité est un graphe acyclique dirigé, appelé graphe de qualité, qui a la même structure du SID et contient, comme étiquettes, les propriétés du SID qui sont relevants pour l'évaluation de la qualité. Nous développons des algorithmes d'évaluation qui prennent en entrée les valeurs de qualité des données sources et les propriétés du SID, et, combinent ces valeurs pour qualifier les données délivrées par le SID. Ils se basent sur la représentation en forme de graphe et combinent les valeurs des propriétés en traversant le graphe. Les algorithmes d'évaluation peuvent être spécialisés pour tenir compte des propriétés qui influent la qualité dans une application concrète. L'idée derrière le canevas est de définir un contexte flexible qui permet la spécialisation des algorithmes d'évaluation à des scénarios d'application spécifiques. Les valeurs de qualité obtenues pendant l'évaluation sont comparées à celles attendues par les utilisateurs. Des actions d'amélioration peuvent se réaliser si les exigences de qualité ne sont pas satisfaites. Nous suggérons des actions d'amélioration élémentaires qui peuvent être composées pour améliorer la qualité dans un SID concret. Notre approche pour améliorer la fraîcheur des données consiste à l'analyse du SID à différents niveaux d'abstraction, de façon à identifier ses points critiques et cibler l'application d'actions d'amélioration sur ces points-là. Notre approche pour améliorer l'exactitude des données consiste à partitionner les résultats des requêtes en portions (certains attributs, certaines tuples) ayant une exactitude homogène. Cela permet aux applications utilisateur de visualiser seulement les données les plus exactes, de filtrer les données ne satisfaisant pas les exigences d'exactitude ou de visualiser les données par tranche selon leur exactitude. Comparée aux approches existantes de sélection de sources, notre proposition permet de sélectionner les portions les plus exactes au lieu de filtrer des sources entières. Les contributions principales de cette thèse sont : (1) une analyse détaillée des facteurs de qualité fraîcheur et exactitude ; (2) la proposition de techniques et algorithmes pour l'évaluation et l'amélioration de la fraîcheur et l'exactitude des données ; et (3) un prototype d'évaluation de la qualité utilisable dans la conception de SID.

APA, Harvard, Vancouver, ISO, and other styles

8

Peralta, Costabel Veronika del Carmen. "Data quality evaluation in data integration systems." Versailles-St Quentin en Yvelines, 2006. http://www.theses.fr/2006VERS0020.

Full text

Abstract:

This thesis deals with data quality evaluation in Data Integration Systems (DIS). Specifically, we address the problems of evaluating the quality of the data conveyed to users in response to their queries and verifying if users’ quality expectations can be achieved. We also analyze how quality measures can be used for improving the DIS and enforcing data quality. Our approach consists in studying one quality factor at a time, analyzing its impact within a DIS, proposing techniques for its evaluation and proposing improvement actions for its enforcement. Among the quality factors that have been proposed, this thesis analyzes two of the most used ones: data freshness and data accuracy
Cette thèse porte sur la qualité des données dans les Systèmes d’Intégration de Données (SID). Nous nous intéressons, plus précisément, aux problèmes de l’évaluation de la qualité des données délivrées aux utilisateurs en réponse à leurs requêtes et de la satisfaction des exigences des utilisateurs en terme de qualité. Nous analysons également l’utilisation de mesures de qualité pour l’amélioration de la conception du SID et la conséquente amélioration de la qualité des données. Notre approche consiste à étudier un facteur de qualité à la fois, en analysant sa relation avec le SID, en proposant des techniques pour son évaluation et en proposant des actions pour son amélioration. Parmi les facteurs de qualité qui ont été proposés, cette thèse analyse deux facteurs de qualité : la fraîcheur et l’exactitude des données

APA, Harvard, Vancouver, ISO, and other styles

9

Issa, Subhi. "Linked data quality : completeness and conciseness." Electronic Thesis or Diss., Paris, CNAM, 2019. http://www.theses.fr/2019CNAM1274.

Full text

Abstract:

La large diffusion des technologies du Web Sémantique telles que le Resource Description Framework (RDF) permet aux individus de construire leurs bases de données sur le Web, d'écrire des vocabulaires et de définir des règles pour organiser et expliquer les relations entre les données selon les principes des données liées. En conséquence, une grande quantité de données structurées et interconnectées est générée quotidiennement. Un examen attentif de la qualité de ces données pourrait s'avérer très critique, surtout si d'importantes recherches et décisions professionnelles en dépendent. La qualité des données liées est un aspect important pour indiquer leur aptitude à être utilisées dans des applications. Plusieurs dimensions permettant d'évaluer la qualité des données liées sont identifiées, telles que la précision, la complétude, la provenance et la concision. Cette thèse se concentre sur l'évaluation de la complétude et l'amélioration de la concision des données liées. En particulier, nous avons d'abord proposé une approche de calcul de complétude fondée sur un schéma généré. En effet, comme un schéma de référence est nécessaire pour évaluer la complétude, nous avons proposé une approche fondée sur la fouille de données pour obtenir un schéma approprié (c.-à-d. un ensemble de propriétés) à partir des données. Cette approche permet de distinguer les propriétés essentielles des propriétés marginales pour générer, pour un ensemble de données, un schéma conceptuel qui répond aux attentes de l'utilisateur quant aux contraintes de complétude des données. Nous avons implémenté un prototype appelé "LOD-CM" pour illustrer le processus de dérivation d'un schéma conceptuel d'un ensemble de données fondé sur les besoins de l'utilisateur. Nous avons également proposé une approche pour découvrir des prédicats équivalents afin d'améliorer la concision des données liées. Cette approche s'appuie, en plus d'une analyse statistique, sur une analyse sémantique approfondie des données et sur des algorithmes d'apprentissage. Nous soutenons que l'étude de la signification des prédicats peut aider à améliorer l'exactitude des résultats. Enfin, un ensemble d'expériences a été mené sur des ensembles de données réelles afin d'évaluer les approches que nous proposons
The wide spread of Semantic Web technologies such as the Resource Description Framework (RDF) enables individuals to build their databases on the Web, to write vocabularies, and define rules to arrange and explain the relationships between data according to the Linked Data principles. As a consequence, a large amount of structured and interlinked data is being generated daily. A close examination of the quality of this data could be very critical, especially, if important research and professional decisions depend on it. The quality of Linked Data is an important aspect to indicate their fitness for use in applications. Several dimensions to assess the quality of Linked Data are identified such as accuracy, completeness, provenance, and conciseness. This thesis focuses on assessing completeness and enhancing conciseness of Linked Data. In particular, we first proposed a completeness calculation approach based on a generated schema. Indeed, as a reference schema is required to assess completeness, we proposed a mining-based approach to derive a suitable schema (i.e., a set of properties) from data. This approach distinguishes between essential properties and marginal ones to generate, for a given dataset, a conceptual schema that meets the user's expectations regarding data completeness constraints. We implemented a prototype called “LOD-CM” to illustrate the process of deriving a conceptual schema of a dataset based on the user's requirements. We further proposed an approach to discover equivalent predicates to improve the conciseness of Linked Data. This approach is based, in addition to a statistical analysis, on a deep semantic analysis of data and on learning algorithms. We argue that studying the meaning of predicates can help to improve the accuracy of results. Finally, a set of experiments was conducted on real-world datasets to evaluate our proposed approaches

APA, Harvard, Vancouver, ISO, and other styles

10

Heguy, Xabier. "Extensions de BPMN 2.0 et méthode de gestion de la qualité pour l'interopérabilité des données." Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0375/document.

Full text

Abstract:

Business Process Model and Notation (BPMN) est en train de devenir le standard le plus utilisé pour la modélisation de processus métiers. Une des principales améliorations de BPMN 2.0 par rapport à BPMN 1.2 est le fait que les objets de données comportent maintenant des éléments sémantiques. Toutefois, BPMN ne permet pas la représentation des mesures de la performance dans le cadre de l'interopérabilité liée aux échanges de données. Ceci représente une lacune dans l'utilisation de BPMN quand on veut représenter les problèmes entrainés par un manque d'interopérabilité dans les processus métiers. Nous proposons d'étendre le méta-modèle Meta-Object Facility meta-model et le XML Schema Definition de BPMN ainsi que sa représentation graphique dans le but de combler ce manque. L'extension, nommée performanceMeasurement, est définie en utilisant le mécanisme d'extension de BPMN. Ce nouvel élément permettra de représenter les mesures de performance dans le cadre de problèmes d'interopérabilité ainsi que dans celui où ces problèmes ont été résolus. L'utilisation de cette extension est illustrée dans un cas d'étude industriel réel
Business Process Model and Notation (BPMN) is being becoming the most used standard for business process modelling. One of the important upgrades of BPMN 2.0 with respect to BPMN 1.2 is the fact that Data Objects are now handling semantic elements. Nevertheless, BPMN doesn't enable the representation of performance measurement in the case of interoperability problems in the exchanged data object, which remains a limitation when using BPMN to express interoperability issues in enterprise processes. We propose to extend the Meta-Object Facility meta-model and the XML Schema Definition of BPMN as well as the notation in order to fill this gap. The extension, named performanceMeasurement, is defined using the BPMN Extension Mechanism. This new element will allow to represent performance measurement in the case of interoperability problems as well as interoperability concerns which have been solved. We illustrate the use of this extension with an example from a real industrial case

APA, Harvard, Vancouver, ISO, and other styles

11

El, Sibai Rayane. "Sampling, qualification and analysis of data streams." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS170/document.

Full text

Abstract:

Un système de surveillance environnementale collecte et analyse continuellement les flux de données générés par les capteurs environnementaux. L'objectif du processus de surveillance est de filtrer les informations utiles et fiables et d'inférer de nouvelles connaissances qui aident l'exploitant à prendre rapidement les bonnes décisions. L'ensemble de ce processus, de la collecte à l'analyse des données, soulève deux problèmes majeurs : le volume de données et la qualité des données. D'une part, le débit des flux de données générés n'a pas cessé d'augmenter sur les dernières années, engendrant un volume important de données continuellement envoyées au système de surveillance. Le taux d'arrivée des données est très élevé par rapport aux capacités de traitement et de stockage disponibles du système de surveillance. Ainsi, un stockage permanent et exhaustif des données est très coûteux, voire parfois impossible. D'autre part, dans un monde réel tel que les environnements des capteurs, les données sont souvent de mauvaise qualité, elles contiennent des valeurs bruitées, erronées et manquantes, ce qui peut conduire à des résultats défectueux et erronés. Dans cette thèse, nous proposons une solution appelée filtrage natif, pour traiter les problèmes de qualité et de volume de données. Dès la réception des données des flux, la qualité des données sera évaluée et améliorée en temps réel en se basant sur un modèle de gestion de la qualité des données que nous proposons également dans cette thèse. Une fois qualifiées, les données seront résumées en utilisant des algorithmes d'échantillonnage. En particulier, nous nous sommes intéressés à l'analyse de l'algorithme Chain-sample que nous comparons à d'autres algorithmes de référence comme l'échantillonnage probabiliste, l'échantillonnage déterministe et l'échantillonnage pondéré. Nous proposons aussi deux nouvelles versions de l'algorithme Chain-sample améliorant sensiblement son temps d'exécution. L'analyse des données du flux est également abordée dans cette thèse. Nous nous intéressons particulièrement à la détection des anomalies. Deux algorithmes sont étudiés : Moran scatterplot pour la détection des anomalies spatiales et CUSUM pour la détection des anomalies temporelles. Nous avons conçu une méthode améliorant l'estimation de l'instant de début et de fin de l'anomalie détectée dans CUSUM. Nos travaux ont été validés par des simulations et aussi par des expérimentations sur deux jeux de données réels et différents : Les données issues des capteurs dans le réseau de distribution de l'eau potable fournies dans le cadre du projet Waves et les données relatives au système de vélo en libre-service (Velib)
An environmental monitoring system continuously collects and analyzes the data streams generated by environmental sensors. The goal of the monitoring process is to filter out useful and reliable information and to infer new knowledge that helps the network operator to make quickly the right decisions. This whole process, from the data collection to the data analysis, will lead to two keys problems: data volume and data quality. On the one hand, the throughput of the data streams generated has not stopped increasing over the last years, generating a large volume of data continuously sent to the monitoring system. The data arrival rate is very high compared to the available processing and storage capacities of the monitoring system. Thus, permanent and exhaustive storage of data is very expensive, sometimes impossible. On the other hand, in a real world such as sensor environments, the data are often dirty, they contain noisy, erroneous and missing values, which can lead to faulty and defective results. In this thesis, we propose a solution called native filtering, to deal with the problems of quality and data volume. Upon receipt of the data streams, the quality of the data will be evaluated and improved in real-time based on a data quality management model that we also propose in this thesis. Once qualified, the data will be summarized using sampling algorithms. In particular, we focus on the analysis of the Chain-sample algorithm that we compare against other reference algorithms such as probabilistic sampling, deterministic sampling, and weighted sampling. We also propose two new versions of the Chain-sample algorithm that significantly improve its execution time. Data streams analysis is also discussed in this thesis. We are particularly interested in anomaly detection. Two algorithms are studied: Moran scatterplot for the detection of spatial anomalies and CUSUM for the detection of temporal anomalies. We have designed a method that improves the estimation of the start time and end time of the anomaly detected in CUSUM. Our work was validated by simulations and also by experimentation on two real and different data sets: The data issued from sensors in the water distribution network provided as part of the Waves project and the data relative to the bike sharing system (Velib)

APA, Harvard, Vancouver, ISO, and other styles

12

Diallo, Thierno Mahamoudou. "Discovering data quality rules in a master data management context." Thesis, Lyon, INSA, 2013. http://www.theses.fr/2013ISAL0067.

Full text

Abstract:

Le manque de qualité des données continue d'avoir un impact considérable pour les entreprises. Ces problèmes, aggravés par la quantité de plus en plus croissante de données échangées, entrainent entre autres un surcoût financier et un rallongement des délais. De ce fait, trouver des techniques efficaces de correction des données est un sujet de plus en plus pertinent pour la communauté scientifique des bases de données. Par exemple, certaines classes de contraintes comme les Dépendances Fonctionnelles Conditionnelles (DFCs) ont été récemment introduites pour le nettoyage de données. Les méthodes de nettoyage basées sur les CFDs sont efficaces pour capturer les erreurs mais sont limitées pour les corriger . L’essor récent de la gestion de données de référence plus connu sous le sigle MDM (Master Data Management) a permis l'introduction d'une nouvelle classe de règle de qualité de données: les Règles d’Édition (RE) qui permettent d'identifier les attributs en erreur et de proposer les valeurs correctes correspondantes issues des données de référence. Ces derniers étant de très bonne qualité. Cependant, concevoir ces règles manuellement est un processus long et coûteux. Dans cette thèse nous développons des techniques pour découvrir de manière automatique les RE à partir des données source et des données de référence. Nous proposons une nouvelle sémantique des RE basée sur la satisfaction. Grace à cette nouvelle sémantique le problème de découverte des RE se révèle être une combinaison de la découverte des DFCs et de l'extraction des correspondances entre attributs source et attributs des données de référence. Nous abordons d'abord la découverte des DFCs, en particulier la classe des DFCs constantes très expressives pour la détection d'incohérence. Nous étendons des techniques conçues pour la découverte des traditionnelles dépendances fonctionnelles. Nous proposons ensuite une méthode basée sur les dépendances d'inclusion pour extraire les correspondances entre attributs source et attributs des données de référence avant de construire de manière automatique les RE. Enfin nous proposons quelques heuristiques d'application des ER pour le nettoyage de données. Les techniques ont été implémenté et évalué sur des données synthétiques et réelles montrant la faisabilité et la robustesse de nos propositions
Dirty data continues to be an important issue for companies. The datawarehouse institute [Eckerson, 2002], [Rockwell, 2012] stated poor data costs US businesses $611 billion dollars annually and erroneously priced data in retail databases costs US customers $2.5 billion each year. Data quality becomes more and more critical. The database community pays a particular attention to this subject where a variety of integrity constraints like Conditional Functional Dependencies (CFD) have been studied for data cleaning. Repair techniques based on these constraints are precise to catch inconsistencies but are limited on how to exactly correct data. Master data brings a new alternative for data cleaning with respect to it quality property. Thanks to the growing importance of Master Data Management (MDM), a new class of data quality rule known as Editing Rules (ER) tells how to fix errors, pointing which attributes are wrong and what values they should take. The intuition is to correct dirty data using high quality data from the master. However, finding data quality rules is an expensive process that involves intensive manual efforts. It remains unrealistic to rely on human designers. In this thesis, we develop pattern mining techniques for discovering ER from existing source relations with respect to master relations. In this set- ting, we propose a new semantics of ER taking advantage of both source and master data. Thanks to the semantics proposed in term of satisfaction, the discovery problem of ER turns out to be strongly related to the discovery of both CFD and one-to-one correspondences between sources and target attributes. We first attack the problem of discovering CFD. We concentrate our attention to the particular class of constant CFD known as very expressive to detect inconsistencies. We extend some well know concepts introduced for traditional Functional Dependencies to solve the discovery problem of CFD. Secondly, we propose a method based on INclusion Dependencies to extract one-to-one correspondences from source to master attributes before automatically building ER. Finally we propose some heuristics of applying ER to clean data. We have implemented and evaluated our techniques on both real life and synthetic databases. Experiments show both the feasibility, the scalability and the robustness of our proposal

APA, Harvard, Vancouver, ISO, and other styles

13

Beretta, Valentina. "évaluation de la véracité des données : améliorer la découverte de la vérité en utilisant des connaissances a priori." Thesis, IMT Mines Alès, 2018. http://www.theses.fr/2018EMAL0002/document.

Full text

Abstract:

Face au danger de la désinformation et de la prolifération de fake news (fausses nouvelles) sur le Web, la notion de véracité des données constitue un enjeu crucial. Dans ce contexte, il devient essentiel de développer des modèles qui évaluent de manière automatique la véracité des informations. De fait, cette évaluation est déjà très difficile pour un humain, en raison notamment du biais de confirmation qui empêche d’évaluer objectivement la fiabilité des informations. De plus, la quantité d'informations disponibles sur le Web rend cette tâche quasiment impossible. Il est donc nécessaire de disposer d'une grande puissance de calcul et de développer des méthodes capables d'automatiser cette tâche.Dans cette thèse, nous nous concentrons sur les modèles de découverte de la vérité. Ces approches analysent les assertions émises par différentes sources afin de déterminer celle qui est la plus fiable et digne de confiance. Cette étape est cruciale dans un processus d'extraction de connaissances, par exemple, pour constituer des bases de qualité, sur lesquelles pourront s'appuyer différents traitements ultérieurs (aide à la décision, recommandation, raisonnement…). Plus précisément, les modèles de la littérature sont des modèles non supervisés qui reposent sur un postulat : les informations exactes sont principalement fournies par des sources fiables et des sources fiables fournissent des informations exactes.Les approches existantes faisaient jusqu'ici abstraction de la connaissance a priori d'un domaine. Dans cette contribution, nous montrons comment les modèles de connaissance (ontologies de domaine) peuvent avantageusement être exploités pour améliorer les processus de recherche de vérité. Nous insistons principalement sur deux approches : la prise en compte de la hiérarchisation des concepts de l'ontologie et l'identification de motifs dans les connaissances qui permet, en exploitant certaines règles d'association, de renforcer la confiance dans certaines assertions. Dans le premier cas, deux valeurs différentes ne seront plus nécessairement considérées comme contradictoires ; elles peuvent, en effet, représenter le même concept mais avec des niveaux de détail différents. Pour intégrer cette composante dans les approches existantes, nous nous basons sur les modèles mathématiques associés aux ordres partiels. Dans le second cas, nous considérons des modèles récurrents (modélisés en utilisant des règles d'association) qui peuvent être dérivés à partir des ontologies et de bases de connaissances existantes. Ces informations supplémentaires peuvent renforcer la confiance dans certaines valeurs lorsque certains schémas récurrents sont observés. Chaque approche est validée sur différents jeux de données qui sont rendus disponibles à la communauté, tout comme le code de calcul correspondant aux deux approches
The notion of data veracity is increasingly getting attention due to the problem of misinformation and fake news. With more and more published online information it is becoming essential to develop models that automatically evaluate information veracity. Indeed, the task of evaluating data veracity is very difficult for humans. They are affected by confirmation bias that prevents them to objectively evaluate the information reliability. Moreover, the amount of information that is available nowadays makes this task time-consuming. The computational power of computer is required. It is critical to develop methods that are able to automate this task.In this thesis we focus on Truth Discovery models. These approaches address the data veracity problem when conflicting values about the same properties of real-world entities are provided by multiple sources.They aim to identify which are the true claims among the set of conflicting ones. More precisely, they are unsupervised models that are based on the rationale stating that true information is provided by reliable sources and reliable sources provide true information. The main contribution of this thesis consists in improving Truth Discovery models considering a priori knowledge expressed in ontologies. This knowledge may facilitate the identification of true claims. Two particular aspects of ontologies are considered. First of all, we explore the semantic dependencies that may exist among different values, i.e. the ordering of values through certain conceptual relationships. Indeed, two different values are not necessary conflicting. They may represent the same concept, but with different levels of detail. In order to integrate this kind of knowledge into existing approaches, we use the mathematical models of partial order. Then, we consider recurrent patterns that can be derived from ontologies. This additional information indeed reinforces the confidence in certain values when certain recurrent patterns are observed. In this case, we model recurrent patterns using rules. Experiments that were conducted both on synthetic and real-world datasets show that a priori knowledge enhances existing models and paves the way towards a more reliable information world. Source code as well as synthetic and real-world datasets are freely available

APA, Harvard, Vancouver, ISO, and other styles

14

Ben, salem Aïcha. "Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD054/document.

Full text

Abstract:

De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur
Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The ﬁrst part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns oﬀer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the ﬁrst part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user

APA, Harvard, Vancouver, ISO, and other styles

15

Pol, Adrian Alan. "Machine Learning Anomaly Detection Applications to Compact Muon Solenoid Data Quality Monitoring." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS083.

Full text

Abstract:

La surveillance de la qualité des données qui proviennent des expériences de physique des hautes énergies est une tâche exigeante mais cruciale pour assurer que les analyses physiques sont basées en données de la meilleure qualité possible. Lors de l’expérience Compact Muon Solenoid opérant au Grand collisionneur de hadrons du CERN, le paradigme actuel d’évaluation de la qualité des données est basé sur l’examen détaillé d’un grand nombre de tests statistiques. Cependant, la complexité toujours croissante des détecteurs et le volume des données de surveillance appellent un changement de paradigme. Ici, les techniques de Machine Learning promettent une percée. Cette thèse traite du problème de l’automatisation applique à la surveillance de la qualité des données avec les méthodes de détection des anomalies d’apprentissage automatique. La grande dimensionnalité des données empêche l’utilisation de méthodes de détection classiques, pointant vers de nouvelles, basées sur l’apprentissage en profondeur. Les anomalies causées par un dysfonctionnement du détecteur sont difficiles à énumérer a priori et rares, ce qui limite la quantité de données étiquetées. Ainsi, cette thèse explore le paysage des algorithmes existants avec une attention particulière aux problèmes semi-supervisés et démontre leur validité et leur utilité sur des cas de test réels en utilisant les données de l’expérience. Dans le cadre de ce projet, l’infrastructure de surveillance a été encore optimisée et étendue, offrant des méthodes plus sensibles aux différents modes de défaillance
The Data Quality Monitoring of High Energy Physics experiments is a crucial and demanding task to deliver high-quality data used for physics analysis. At the Compact Muon Solenoid experiment operating at the CERN Large Hadron Collider, the current quality assessment paradigm, is based on the scrutiny of a large number of statistical tests. However, the ever increasing detector complexity and the volume of monitoring data call for a growing paradigm shift. Here, Machine Learning techniques promise a breakthrough. This dissertation deals with the problem of automating Data Quality Monitoring scrutiny with Machine Learning Anomaly Detection methods. The high-dimensionality of the data precludes the usage of classic detection methods, pointing to novel ones, based on deep learning. Anomalies caused by detector malfunctioning are difficult to enumerate a priori and rare, limiting the amount of labeled data. This thesis explores the landscape of existing algorithms with particular attention to semi-supervised problems and demonstrates their validity and usefulness on real test cases using the experiment data. As part of this project, the monitoring infrastructure was further optimized and extended, delivering methods with higher sensitivity to various failure modes

APA, Harvard, Vancouver, ISO, and other styles

16

Gooch, Michael J. "Accuracy optimisation and error detection in automatically generated elevation models derived using digital photogrammetry." Thesis, Loughborough University, 1999. https://dspace.lboro.ac.uk/2134/7347.

Full text

Abstract:

Users of current Digital Photogrammetric Systems (DPS) can now rapidly generate dense Digital Elevation Models (DEMs) with a minimal amount of training. This procedure is controlled through a set of strategy parameters embedded in the software. Previous research into the effect of these parameters on the resulting DEMs produc'ed mixed results, with some researchers finding that significant changes to the DEM can be made through manipulation of the parameters whilst others suggested that they have little effect. This thesis builds upon this early work to develop two systems that provide assistance for novice users. The first technique optimises the parameters with respect to DEM accuracy and takes the form of an expert system and compares the output from the DEM with a knowledge base to prescribe an improved set of parameters. The results suggest that the system works and can produce improvements in the accuracy of a DEM. It was found that in certain circumstances, changes to the parameters can have a significant effect on the resulting DEM, but this change does not occur across the entire DEM. The second aspect of the thesis details the development of a completely new approach that automatically detects low accuracy areas of the DEM and presents this information graphically. This is an important development since, as documented in the current literature, few quality control procedures are offered to users. The user can use this information to assist in the manual checking and editing of the final DEM, thus speeding up the workflow and improving the accuracy of the output. The results of tests (using the ERDAS Imagine OrthoMAX software) on a wide variety of imagery are presented and show that the technique reliably detects areas of a DEM with high errors. More significantly, the technique has also been tested on two other DPSs (Zeiss Phodis TS and VirtuoZo) and it was found that it worked well for the Zeiss system but could not be applied to the VirtuoZo software. This demonstrates that the research is not limited to the users of one software package and is of interest to the wider photogrammetric community.

APA, Harvard, Vancouver, ISO, and other styles

17

Lamer, Antoine. "Contribution à la prévention des risques liés à l’anesthésie par la valorisation des informations hospitalières au sein d’un entrepôt de données." Thesis, Lille 2, 2015. http://www.theses.fr/2015LIL2S021/document.

Full text

Abstract:

Introduction Le Système d'Information Hospitalier (SIH) exploite et enregistre chaque jours des millions d'informations liées à la prise en charge des patients : résultats d'analyses biologiques, mesures de paramètres physiologiques, administrations de médicaments, parcours dans les unités de soins, etc... Ces données sont traitées par des applications opérationnelles dont l'objectif est d'assurer un accès distant et une vision complète du dossier médical des patients au personnel médical. Ces données sont maintenant aussi utilisées pour répondre à d'autres objectifs comme la recherche clinique ou la santé publique, en particulier en les intégrant dans un entrepôt de données. La principale difficulté de ce type de projet est d'exploiter des données dans un autre but que celui pour lequel elles ont été enregistrées. Plusieurs études ont mis en évidence un lien statistique entre le respect d'indicateurs de qualité de prise en charge de l'anesthésie et le devenir du patient au cours du séjour hospitalier. Au CHRU de Lille, ces indicateurs de qualité, ainsi que les comorbidités du patient lors de la période post-opératoire pourraient être calculés grâce aux données recueillies par plusieurs applications du SIH. L'objectif de se travail est d'intégrer les données enregistrées par ces applications opérationnelles afin de pouvoir réaliser des études de recherche clinique.Méthode Dans un premier temps, la qualité des données enregistrées dans les systèmes sources est évaluée grâce aux méthodes présentées par la littérature ou développées dans le cadre ce projet. Puis, les problèmes de qualité mis en évidence sont traités lors de la phase d'intégration dans l'entrepôt de données. De nouvelles données sont calculées et agrégées afin de proposer des indicateurs de qualité de prise en charge. Enfin, deux études de cas permettent de tester l'utilisation du système développée.Résultats Les données pertinentes des applications du SIH ont été intégrées au sein d'un entrepôt de données d'anesthésie. Celui-ci répertorie les informations liées aux séjours hospitaliers et aux interventions réalisées depuis 2010 (médicaments administrées, étapes de l'intervention, mesures, parcours dans les unités de soins, ...) enregistrées par les applications sources. Des données agrégées ont été calculées et ont permis de mener deux études recherche clinique. La première étude a permis de mettre en évidence un lien statistique entre l'hypotension liée à l'induction de l'anesthésie et le devenir du patient. Des facteurs prédictifs de cette hypotension ont également étaient établis. La seconde étude a évalué le respect d'indicateurs de ventilation du patient et l'impact sur les comorbidités du système respiratoire.Discussion The data warehouse L'entrepôt de données développé dans le cadre de ce travail, et les méthodes d'intégration et de nettoyage de données mises en places permettent de conduire des analyses statistiques rétrospectives sur plus de 200 000 interventions. Le système pourra être étendu à d'autres systèmes sources au sein du CHRU de Lille mais également aux feuilles d'anesthésie utilisées par d'autres structures de soins
Introduction Hospital Information Systems (HIS) manage and register every day millions of data related to patient care: biological results, vital signs, drugs administrations, care process... These data are stored by operational applications provide remote access and a comprehensive picture of Electronic Health Record. These data may also be used to answer to others purposes as clinical research or public health, particularly when integrated in a data warehouse. Some studies highlighted a statistical link between the compliance of quality indicators related to anesthesia procedure and patient outcome during the hospital stay. In the University Hospital of Lille, the quality indicators, as well as the patient comorbidities during the post-operative period could be assessed with data collected by applications of the HIS. The main objective of the work is to integrate data collected by operational applications in order to realize clinical research studies.Methods First, the data quality of information registered by the operational applications is evaluated with methods … by the literature or developed in this work. Then, data quality problems highlighted by the evaluation are managed during the integration step of the ETL process. New data are computed and aggregated in order to dispose of indicators of quality of care. Finally, two studies bring out the usability of the system.Results Pertinent data from the HIS have been integrated in an anesthesia data warehouse. This system stores data about the hospital stay and interventions (drug administrations, vital signs …) since 2010. Aggregated data have been developed and used in two clinical research studies. The first study highlighted statistical link between the induction and patient outcome. The second study evaluated the compliance of quality indicators of ventilation and the impact on comorbity.Discussion The data warehouse and the cleaning and integration methods developed as part of this work allow performing statistical analysis on more than 200 000 interventions. This system can be implemented with other applications used in the CHRU of Lille but also with Anesthesia Information Management Systems used by other hospitals

APA, Harvard, Vancouver, ISO, and other styles

18

Serrano, Balderas Eva Carmina. "Preprocessing and analysis of environmental data : Application to the water quality assessment of Mexican rivers." Thesis, Montpellier, 2017. http://www.theses.fr/2017MONTS082/document.

Full text

Abstract:

Les données acquises lors des surveillances environnementales peuvent être sujettes à différents types d'anomalies (i.e., données incomplètes, inconsistantes, inexactes ou aberrantes). Ces anomalies qui entachent la qualité des données environnementales peuvent avoir de graves conséquences lors de l'interprétation des résultats et l’évaluation des écosystèmes. Le choix des méthodes de prétraitement des données est alors crucial pour la validité des résultats d'analyses statistiques et il est assez mal défini. Pour étudier cette question, la thèse s'est concentrée sur l’acquisition des données et sur les protocoles de prétraitement des données afin de garantir la validité des résultats d'analyse des données, notamment dans le but de recommander la séquence de tâches de prétraitement la plus adaptée. Nous proposons de maîtriser l'intégralité du processus de production des données, de leur collecte sur le terrain et à leur analyse, et dans le cas de l'évaluation de la qualité de l'eau, il s’agit des étapes d'analyse chimique et hydrobiologique des échantillons produisant ainsi les données qui ont été par la suite analysées par un ensemble de méthodes statistiques et de fouille de données. En particulier, les contributions multidisciplinaires de la thèse sont : (1) en chimie de l'eau: une procédure méthodologique permettant de déterminer les quantités de pesticides organochlorés dans des échantillons d'eau collectés sur le terrain en utilisant les techniques SPE–GC-ECD (Solid Phase Extraction - Gas Chromatography - Electron Capture Detector) ; (2) en hydrobiologie : une procédure méthodologique pour évaluer la qualité de l’eau dans quatre rivières Mexicaines en utilisant des indicateurs biologiques basés sur des macroinvertébrés ; (3) en science des données : une méthode pour évaluer et guider le choix des procédures de prétraitement des données produites lors des deux précédentes étapes ainsi que leur analyse ; et enfin, (4) le développement d’un environnement analytique intégré sous la forme d’une application développée en R pour l’analyse statistique des données environnementales en général et l’analyse de la qualité de l’eau en particulier. Enfin, nous avons appliqué nos propositions sur le cas spécifique de l’évaluation de la qualité de l’eau des rivières Mexicaines Tula, Tamazula, Humaya et Culiacan dans le cadre de cette thèse qui a été menée en partie au Mexique et en France
Data obtained from environmental surveys may be prone to have different anomalies (i.e., incomplete, inconsistent, inaccurate or outlying data). These anomalies affect the quality of environmental data and can have considerable consequences when assessing environmental ecosystems. Selection of data preprocessing procedures is crucial to validate the results of statistical analysis however, such selection is badly defined. To address this question, the thesis focused on data acquisition and data preprocessing protocols in order to ensure the validity of the results of data analysis mainly, to recommend the most suitable sequence of preprocessing tasks. We propose to control every step in the data production process, from their collection on the field to their analysis. In the case of water quality assessment, it comes to the steps of chemical and hydrobiological analysis of samples producing data that were subsequently analyzed by a set of statistical and data mining methods. The multidisciplinary contributions of the thesis are: (1) in environmental chemistry: a methodological procedure to determine the content of organochlorine pesticides in water samples using the SPE-GC-ECD (Solid Phase Extraction – Gas Chromatography – Electron Capture Detector) techniques; (2) in hydrobiology: a methodological procedure to assess the quality of water on four Mexican rivers using macroinvertebrates-based biological indices; (3) in data sciences: a method to assess and guide on the selection of preprocessing procedures for data produced from the two previous steps as well as their analysis; and (4) the development of a fully integrated analytics environment in R for statistical analysis of environmental data in general, and for water quality data analytics, in particular. Finally, within the context of this thesis that was developed between Mexico and France, we have applied our methodological approaches on the specific case of water quality assessment of the Mexican rivers Tula, Tamazula, Humaya and Culiacan

APA, Harvard, Vancouver, ISO, and other styles

19

Da, Silva Carvalho Paulo. "Plateforme visuelle pour l'intégration de données faiblement structurées et incertaines." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4020/document.

Full text

Abstract:

Nous entendons beaucoup parler de Big Data, Open Data, Social Data, Scientific Data, etc. L’importance qui est apportée aux données en général est très élevée. L’analyse de ces données est importante si l’objectif est de réussir à en extraire de la valeur pour pouvoir les utiliser. Les travaux présentés dans cette thèse concernent la compréhension, l’évaluation, la correction/modification, la gestion et finalement l’intégration de données, pour permettre leur exploitation. Notre recherche étudie exclusivement les données ouvertes (DOs - Open Data) et plus précisément celles structurées sous format tabulaire (CSV). Le terme Open Data est apparu pour la première fois en 1995. Il a été utilisé par le groupe GCDIS (Global Change Data and Information System) (États-Unis) pour encourager les entités, possédant les mêmes intérêts et préoccupations, à partager leurs données [Data et System, 1995]. Le mouvement des données ouvertes étant récent, il s’agit d’un champ qui est actuellement en grande croissance. Son importance est actuellement très forte. L’encouragement donné par les gouvernements et institutions publiques à ce que leurs données soient publiées a sans doute un rôle important à ce niveau
We hear a lot about Big Data, Open Data, Social Data, Scientific Data, etc. The importance currently given to data is, in general, very high. We are living in the era of massive data. The analysis of these data is important if the objective is to successfully extract value from it so that they can be used. The work presented in this thesis project is related with the understanding, assessment, correction/modification, management and finally the integration of the data, in order to allow their respective exploitation and reuse. Our research is exclusively focused on Open Data and, more precisely, Open Data organized in tabular form (CSV - being one of the most widely used formats in the Open Data domain). The first time that the term Open Data appeared was in 1995 when the group GCDIS (Global Change Data and Information System) (from United States) used this expression to encourage entities, having the same interests and concerns, to share their data [Data et System, 1995]. However, the Open Data movement has only recently undergone a sharp increase. It has become a popular phenomenon all over the world. Being the Open Data movement recent, it is a field that is currently growing and its importance is very strong. The encouragement given by governments and public institutions to have their data published openly has an important role at this level

APA, Harvard, Vancouver, ISO, and other styles

20

Chamekh, Fatma. "L’évolution du web de données basée sur un système multi-agents." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE3083/document.

Full text

Abstract:

Cette thèse porte sur la modélisation d’un système d’aide à l’évolution du web de données en utilisant un système multi-agents. Plus particulièrement, elle a pour but de guider l’utilisateur dans sa démarche de modification d’une base de connaissances RDF. Elle aborde les problématiques suivantes : intégrer de nouveaux triplets résultant de l'annotation des documents, proposer le changement adéquat dans les deux niveaux, ontologie et données, en se basant sur des mesures de similarités, analyser les effets de changements sur la qualité des données et la gestion des versions en prenant en considération d'éventuels conflits. Cette question de recherche complexe engendre plusieurs problématiques dont les réponses sont dépendantes les unes des autres. Pour cela, nous nous sommes orientées vers le paradigme agent pour décomposer le problème. Il s’agit de répartir les tâches dans des agents. La coopération entre les agents permet de répondre au besoin de dépendance évoqué ci-dessus pour bénéficier de l’aspect dynamique et combler les inconvénients d’un système modulaire classique. Le choix d’un tel écosystème nous a permis de proposer une démarche d’évaluation de la qualité des données en employant un modèle d’argumentation. Il s’agit d’établir un consensus entre les agents pour prendre en considération les trois dimensions intrinsèques : la cohérence, la concision la complétude, la validation syntaxique et sémantique. Nous avons modélisé les métriques d’évaluation de chaque dimension sous forme d’arguments. L’acceptation ou pas d’un argument se décide via les préférences des agents.Chaque modification donne lieu à une nouvelle version de la base de connaissances RDF. Nous avons choisi de garder la dernière version de la base de connaissances. Pour cette raison, nous avons choisi de préserver les URI des ressources. Pour garder la trace des changements, nous annotons chaque ressource modifiée. Néanmoins, une base de connaissances peut être modifiée par plusieurs collaborateurs ce qui peut engendrer des conflits. Ils sont conjointement le résultat d’intégration de plusieurs données et le chevauchement des buts des agents. Pour gérer ces conflits, nous avons défini des règles. Nous avons appliqué notre travail de recherche au domaine de médecine générale
In this thesis, we investigate the evolution of RDF datasets from documents and LOD. We identify the following issues : the integration of new triples, the proposition of changes by taking into account the data quality and the management of differents versions.To handle with the complexity of the web of data evolution, we propose an agent based argumentation framework. We assume that the agent specifications could facilitate the process of RDF dataset evolution. The agent technology is one of the most useful solution to cope with a complex problem. The agents work as a team and are autonomous in the sense that they have the ability to decide themselves which goals they should adopt and how these goals should be acheived. The Agents use argumentation theory to reach a consensus about the best change alternative. Relatively to this goal, we propose an argumentation model based on the metric related to the intrinsic dimensions.To keep a record of all the occured modifications, we are focused on the ressource version. In the case of a collaborative environment, several conflicts could be generated. To manage those conflicts, we define rules.The exploited domain is general medecine

APA, Harvard, Vancouver, ISO, and other styles

21

Djedaini, Mahfoud. "Automatic assessment of OLAP exploration quality." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4038/document.

Full text

Abstract:

Avant l’arrivée du Big Data, la quantité de données contenues dans les bases de données était relativement faible et donc plutôt simple à analyser. Dans ce contexte, le principal défi dans ce domaine était d’optimiser le stockage des données, mais aussi et surtout le temps de réponse des Systèmes de Gestion de Bases de Données (SGBD). De nombreux benchmarks, notamment ceux du consortium TPC, ont été mis en place pour permettre l’évaluation des différents systèmes existants dans des conditions similaires. Cependant, l’arrivée de Big Data a complètement changé la situation, avec de plus en plus de données générées de jour en jour. Parallèlement à l’augmentation de la mémoire disponible, nous avons assisté à l’émergence de nouvelles méthodes de stockage basées sur des systèmes distribués tels que le système de fichiers HDFS utilisé notamment dans Hadoop pour couvrir les besoins de stockage technique et le traitement Big Data. L’augmentation du volume de données rend donc leur analyse beaucoup plus difficile. Dans ce contexte, il ne s’agit pas tant de mesurer la vitesse de récupération des données, mais plutôt de produire des séquences de requêtes cohérentes pour identifier rapidement les zones d’intérêt dans les données, ce qui permet d’analyser ces zones plus en profondeur, et d’extraire des informations permettant une prise de décision éclairée
In a Big Data context, traditional data analysis is becoming more and more tedious. Many approaches have been designed and developed to support analysts in their exploration tasks. However, there is no automatic, unified method for evaluating the quality of support for these different approaches. Current benchmarks focus mainly on the evaluation of systems in terms of temporal, energy or financial performance. In this thesis, we propose a model, based on supervised automatic leaming methods, to evaluate the quality of an OLAP exploration. We use this model to build an evaluation benchmark of exploration support sys.terns, the general principle of which is to allow these systems to generate explorations and then to evaluate them through the explorations they produce

APA, Harvard, Vancouver, ISO, and other styles

22

Plumejeaud, Christine. "Modèles et méthodes pour l'information spatio-temporelle évolutive." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00630984.

Full text

Abstract:

Cette thèse se situe dans le domaine de la modélisation spatio-temporelle, et nos travaux portent plus particulièrement sur la gestion de l'information statistique territoriale. Aujourd'hui, la mise à disposition d'un grand volume d'informations statistiques territoriales par différents producteurs (Eurostat, l'INSEE, l'Agence Européenne de l'Environnement, l'ONU, etc.) offre une perspective d'analyses riches, permettant de combiner des données portant sur des thématiques diverses (économiques, sociales, environnementales), à des niveaux d'étude du territoire multiples : du local (les communes) au global (les états). Cependant, il apparaît que les supports, les définitions, les modalités de classification, et le niveau de fiabilité de ces données ne sont pas homogènes, ni dans l'espace, ni dans le temps. De ce fait, les données sont difficilement comparables. Cette hétérogénéité est au cœur de notre problématique, et pour lui faire face, c'est-à-dire l'appréhender, la mesurer et la contrôler, nous faisons dans cette thèse trois propositions pour permettre in fine une exploitation avisée de ce type de données. La première proposition a pour cible le support de l'information statistique territoriale, et cherche à rendre compte à la fois de son caractère évolutif et de son caractère hiérarchique. La deuxième proposition traite du problème de variabilité sémantique des valeurs statistiques associées au support, au moyen de métadonnées. Nous proposons un profil adapté du standard ISO 19115, facilitant l'acquisition de ces métadonnées pour des producteurs de données. La troisième proposition explore la mise à disposition d'outils pour analyser et explorer ces informations dans un mode interactif. Nous proposons une plate-forme dédiée aux analyses statistiques et visant à repérer des valeurs exceptionnelles (outliers en anglais), et à les mettre en relation avec leur origine, et les modalités de leur production.

APA, Harvard, Vancouver, ISO, and other styles

23

Sellier, Elodie. "Traitement de l'information issue d'un réseau de surveillance de la paralysie cérébrale : qualité et analyse des données." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00770324.

Full text

Abstract:

Le réseau européen de paralysie cérébrale nommé Surveillance of Cerebral Palsy in Europe (SCPE) est né de la volonté de différents registres européens de s'associer afin d'harmoniser leurs données et de créer une base de données commune. Aujourd'hui il compte 24 registres dont 16 actifs. La base contient plus de 14000 cas d'enfants avec paralysie cérébrale (PC) nés entre 1976 et 2002. Elle permet de fournir des estimations précises sur les taux de prévalence de la PC, notamment dans les différents sous-groupes d'enfants (sous groupes d'âge gestationnel ou de poids de naissance, type neurologique de PC). La thèse s'est articulée autour de la base de données commune du réseau SCPE. Dans un premier temps, nous avons réalisé un état des lieux de la qualité des données de la base commune, puis développé de nouveaux outils pour l'amélioration de la qualité des données. Nous avons notamment mis en place un retour d'informations personnalisé aux registres registre suite à chaque soumission de données et écrit un guide d'aide à l'analyse des données. Nous avons également mené deux études de reproductibilité de la classification des enfants. La première étude incluait des médecins visualisant des séquences vidéos d'enfants avec ou sans PC. La deuxième étude incluait différents professionnels travaillant dans les registres qui avaient à leur disposition une description écrite de l'examen clinique des enfants. L'objectif de ces études originales était d'évaluer si face à un même enfant, les différents professionnels le classaient de la même manière pour le diagnostic de PC, le type neurologique et la sévérité de l'atteinte motrice. Les résultats ont montré une reproductibilité excellente pour les pédiatres ayant visualisé les vidéos et bonne pour les professionnels ayant classé les enfants à partir de la description écrite. Dans un second temps, nous avons réalisé des travaux sur l'analyse des données à partir de deux études : l'analyse de la tendance du taux de prévalence de la PC chez les enfants nés avec un poids >2499g entre 1980 et 1998 et l'analyse du taux de prévalence de la PC associée à l'épilepsie chez les enfants nés entre 1976 et 1998. Ces travaux ont porté principalement sur les méthodes d'analyse des tendances dans le temps du taux de prévalence, et sur la prise en compte des interactions tendance-registre.

APA, Harvard, Vancouver, ISO, and other styles

24

Nguyen, Thanh Binh. "L'interrogation du web de données garantissant des réponses valides par rapport à des critères donnés." Thesis, Orléans, 2018. http://www.theses.fr/2018ORLE2053/document.

Full text

Abstract:

Le terme Linked Open Data (LOD) (ou données ouvertes liées) a été introduit pour la première fois par Tim Berners-Lee en 2006. Depuis, les LOD ont connu une importante évolution. Aujourd’hui,nous pouvons constater les milliers de jeux de données présents sur le Web de données. De ce fait, la communauté de recherche s’est confrontée à un certain nombre de défis concernant la récupération et le traitement de données liées.Dans cette thèse, nous nous intéressons au problème de la qualité des données extraites de diverses sources du LOD et nous proposons un système d’interrogation contextuelle qui garantit la qualité des réponses par rapport à un contexte spécifié par l’utilisateur. Nous définissons un cadre d’expression de contraintes et proposons deux approches : l’une naïve et l’autre de réécriture, permettant de filtrer dynamiquement les réponses valides obtenues à partir des sources éventuellement non-valides, ceci au moment de la requête et non pas en cherchant à les valider dans les sources des données. L’approche naïve exécute le processus de validation en générant et en évaluant des sous-requêtes pour chaque réponse candidate en fonction de chaque contrainte. Alors que l’approche de réécriture utilise les contraintes comme des règles de réécriture pour reformuler la requête en un ensemble de requêtes auxiliaires, de sorte que les réponses à ces requêtes réécrites ne sont pas seulement les réponses de la requête initiale mais aussi des réponses valides par rapport à toutes les contraintes intégrées. La preuve de la correction et de la complétude de notre système de réécriture est présentée après un travail de formalisation de la notion de réponse valide par rapport à un contexte. Ces deux approches ont été évaluées et ont montré la praticabilité de notre système.Ceci est notre principale contribution: nous étendons l’ensemble de systèmes de réécriture déjà connus(Chase, C&BC, PerfectRef, Xrewrite, etc.) avec une nouvelle solution efficace pour ce nouveau défi qu’est le filtrage des résultats en fonction d’un contexte utilisateur. Nous généralisons également les conditions de déclenchement de contraintes par rapport aux solutions existantes, en utilisant la notion de one-way MGU
The term Linked Open Data (LOD) is proposed the first time by Tim Berners-Lee since 2006.Since then, LOD has evolved impressively with thousands datasets on the Web of Data, which has raised a number of challenges for the research community to retrieve and to process LOD.In this thesis, we focus on the problem of quality of retrieved data from various sources of the LOD and we propose a context-driven querying system that guarantees the quality of answers with respect to the quality context defined by users. We define a fragment of constraints and propose two approaches: the naive and the rewriting, which allows us to filter dynamically valid answers at the query time instead of validating them at the data source level. The naive approach performs the validation process by generating and evaluating sub-queries for each candidate answer w.r.t. each constraint. While the rewriting approach uses constraints as rewriting rules to reformulate query into a set of auxiliary queries such that the answers of rewritten-queries are not only the answers of the query but also valid answers w.r.t. all integrated constraints. The proof of the correction and completeness of our rewriting system is presented after formalizing the notion of a valid answers w.r.t. a context. These two approaches have been evaluated and have shown the feasibility of our system.This is our main contribution: we extend the set of well-known query-rewriting systems (Chase, Chase& backchase, PerfectRef, Xrewrite, etc.) with a new effective solution for the new purpose of filtering query results based on constraints in user context. Moreover, we also enlarge the trigger condition of the constraint compared with other works by using the notion of one-way MGU

APA, Harvard, Vancouver, ISO, and other styles

25

Maillot, Pierre. "Nouvelles méthodes pour l'évaluation, l'évolution et l'interrogation des bases du Web des données." Thesis, Angers, 2015. http://www.theses.fr/2015ANGE0007/document.

Full text

Abstract:

Le Web des données offre un environnement de partage et de diffusion des données, selon un cadre particulier qui permet une exploitation des données tant par l’humain que par la machine. Pour cela, le framework RDF propose de formater les données en phrases élémentaires de la forme (sujet, relation, objet) , appelées triplets. Les bases du Web des données, dites bases RDF, sont des ensembles de triplets. Dans une base RDF, l’ontologie – données structurelles – organise la description des données factuelles. Le nombre et la taille des bases du Web des données n’a pas cessé de croître depuis sa création en 2001. Cette croissance s’est même accélérée depuis l’apparition du mouvement du Linked Data en 2008 qui encourage le partage et l’interconnexion de bases publiquement accessibles sur Internet. Ces bases couvrent des domaines variés tels que les données encyclopédiques (e.g. Wikipédia), gouvernementales ou bibliographiques. L’utilisation et la mise à jour des données dans ces bases sont faits par des communautés d’utilisateurs liés par un domaine d’intérêt commun. Cette exploitation communautaire se fait avec le soutien d’outils insuffisamment matures pour diagnostiquer le contenu d’une base ou pour interroger ensemble les bases du Web des données. Notre thèse propose trois méthodes pour encadrer le développement, tant factuel qu’ontologique, et pour améliorer l’interrogation des bases du Web des données. Nous proposons d’abord une méthode pour évaluer la qualité des modifications des données factuelles lors d’une mise à jour par un contributeur. Nous proposons ensuite une méthode pour faciliter l’examen de la base par la mise en évidence de groupes de données factuelles en conflit avec l’ontologie. L’expert qui guide l’évolution de cette base peut ainsi modifier l’ontologie ou les données. Nous proposons enfin une méthode d’interrogation dans un environnement distribué qui interroge uniquement les bases susceptibles de fournir une réponse
The web of data is a mean to share and broadcast data user-readable data as well as machine-readable data. This is possible thanks to rdf which propose the formatting of data into short sentences (subject, relation, object) called triples. Bases from the web of data, called rdf bases, are sets of triples. In a rdf base, the ontology – structural data – organize the description of factual data. Since the web of datacreation in 2001, the number and sizes of rdf bases have been constantly rising. This increase has accelerated since the apparition of linked data, which promote the sharing and interlinking of publicly available bases by user communities. The exploitation – interrogation and edition – by theses communities is made without adequateSolution to evaluate the quality of new data, check the current state of the bases or query together a set of bases. This thesis proposes three methods to help the expansion at factual and ontological level and the querying of bases from the web ofData. We propose a method designed to help an expert to check factual data in conflict with the ontology. Finally we propose a method for distributed querying limiting the sending of queries to bases that may contain answers

APA, Harvard, Vancouver, ISO, and other styles

26

Plana, Puig Queralt. "Automated Data Collection and Management at Enhanced Lagoons for Wastewater Treatment." Master's thesis, Université Laval, 2015. http://hdl.handle.net/20.500.11794/26531.

Full text

Abstract:

Les stations de mesure automatiques sont utilisées pour suivre et contrôler des usines de traitement des eaux usées. Ce suivi en continu à haute fréquence est devenu indispensable afin de réduire les impacts négatifs sur l’environnement car les caractéristiques de l’eau varient rapidement dans l’espace et dans le temps. Toutefois, même s’il y a eu des progrès considérables, ces dernières années, de la technologie de mesure, les instruments sont encore chers. Aussi des problèmes de colmatage, d’encrassement ou de mauvaise calibration sont assez fréquents à cause du contact avec les eaux usées. La fiabilité des mesures en ligne et en continu est affectée négativement. Par conséquent, un bon entretien des instruments est essentiel, ainsi que la validation des données collectées, afin de détecter d’éventuelles valeurs aberrantes. Dans le contexte de ce mémoire, en collaboration avec Bionest®, une méthodologie est proposée pour attaquer ces problèmes. Deux cas d’études en étangs aérés au Québec ont été considérés, avec l’objectif d’optimiser les activités d’entretien, de réduire les données non fiables et d’obtenir des grandes séries de données représentatives.
Automated monitoring stations have been used to monitor and control wastewater treatment plants. Their capability to monitor at high frequency has become essential to reduce the negative impacts to the environment since the wastewater characteristics have an elevated spatial and time variability. Over the last few years, the technology used to build these automatic monitoring stations, for example the sensors, has been improved. However, the instrumentation is still expensive. Also, in wastewater uses, basic problems like fouling, bad calibration or clogging are frequently affecting the reliability of the continuous on-line measurements. Thus, a good maintenance of the instruments, as well as a validation of the collected data to detect faults is required. In the context of this thesis, in collaboration with Bionest®, a methodology has been developed to deal with these problems for two facultative/aerated lagoon case studies in Québec, with the objective of optimizing the maintenance activities, of reducing the fraction of unreliable data and of obtaining large representative data series.

APA, Harvard, Vancouver, ISO, and other styles

27

Zaidi, Houda. "Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1094/document.

Full text

Abstract:

La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés
Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns

APA, Harvard, Vancouver, ISO, and other styles

28

Da, Silva Veith Alexandre. "Quality of Service Aware Mechanisms for (Re)Configuring Data Stream Processing Applications on Highly Distributed Infrastructure." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEN050/document.

Full text

Abstract:

Une grande partie de ces données volumineuses ont plus de valeur lorsqu'elles sont analysées rapidement, au fur et à mesure de leur génération. Dans plusieurs scénarios d'application émergents, tels que les villes intelligentes, la surveillance opérationnelle de grandes infrastructures et l'Internet des Objets (Internet of Things), des flux continus de données doivent être traités dans des délais très brefs. Dans plusieurs domaines, ce traitement est nécessaire pour détecter des modèles, identifier des défaillances et pour guider la prise de décision. Les données sont donc souvent rassemblées et analysées par des environnements logiciels conçus pour le traitement de flux continus de données. Ces environnements logiciels pour le traitement de flux de données déploient les applications sous-la forme d'un graphe orienté ou de dataflow. Un dataflow contient une ou plusieurs sources (i.e. capteurs, passerelles ou actionneurs); opérateurs qui effectuent des transformations sur les données (e.g., filtrage et agrégation); et des sinks (i.e., éviers qui consomment les requêtes ou stockent les données). Nous proposons dans cette thèse un ensemble de stratégies pour placer les opérateurs dans une infrastructure massivement distribuée cloud-edge en tenant compte des caractéristiques des ressources et des exigences des applications. En particulier, nous décomposons tout d'abord le graphe d'application en identifiant quelques comportements tels que des forks et des joints, puis nous le plaçons dynamiquement sur l'infrastructure. Des simulations et un prototype prenant en compte plusieurs paramètres d'application démontrent que notre approche peut réduire la latence de bout en bout de plus de 50% et aussi améliorer d'autres métriques de qualité de service. L'espace de recherche de solutions pour la reconfiguration des opérateurs peut être énorme en fonction du nombre d'opérateurs, de flux, de ressources et de liens réseau. De plus, il est important de minimiser le coût de la migration tout en améliorant la latence. Des travaux antérieurs, Reinforcement Learning (RL) et Monte-Carlo Tree Searh (MCTS) ont été utilisés pour résoudre les problèmes liés aux grands nombres d’actions et d’états de recherche. Nous modélisons le problème de reconfiguration d'applications sous la forme d'un processus de décision de Markov (MDP) et étudions l'utilisation des algorithmes RL et MCTS pour concevoir des plans de reconfiguration améliorant plusieurs métriques de qualité de service
A large part of this big data is most valuable when analysed quickly, as it is generated. Under several emerging application scenarios, such as in smart cities, operational monitoring of large infrastructure, and Internet of Things (IoT), continuous data streams must be processed under very short delays. In multiple domains, there is a need for processing data streams to detect patterns, identify failures, and gain insights. Data is often gathered and analysed by Data Stream Processing Engines (DSPEs).A DSPE commonly structures an application as a directed graph or dataflow. A dataflow has one or multiple sources (i.e., gateways or actuators); operators that perform transformations on the data (e.g., filtering); and sinks (i.e., queries that consume or store the data). Most complex operator transformations store information about previously received data as new data is streamed in. Also, a dataflow has stateless operators that consider only the current data. Traditionally, Data Stream Processing (DSP) applications were conceived to run in clusters of homogeneous resources or on the cloud. In a cloud deployment, the whole application is placed on a single cloud provider to benefit from virtually unlimited resources. This approach allows for elastic DSP applications with the ability to allocate additional resources or release idle capacity on demand during runtime to match the application requirements.We introduce a set of strategies to place operators onto cloud and edge while considering characteristics of resources and meeting the requirements of applications. In particular, we first decompose the application graph by identifying behaviours such as forks and joins, and then dynamically split the dataflow graph across edge and cloud. Comprehensive simulations and a real testbed considering multiple application settings demonstrate that our approach can improve the end-to-end latency in over 50% and even other QoS metrics. The solution search space for operator reassignment can be enormous depending on the number of operators, streams, resources and network links. Moreover, it is important to minimise the cost of migration while improving latency. Reinforcement Learning (RL) and Monte-Carlo Tree Search (MCTS) have been used to tackle problems with large search spaces and states, performing at human-level or better in games such as Go. We model the application reconfiguration problem as a Markov Decision Process (MDP) and investigate the use of RL and MCTS algorithms to devise reconfiguring plans that improve QoS metrics

APA, Harvard, Vancouver, ISO, and other styles

29

Hammond, Janelle K. "Méthodes des bases réduites pour la modélisation de la qualité de l'air urbaine." Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1230/document.

Full text

Abstract:

L'objectif principal de cette thèse est le développement d'outils numériques peu coûteux pour la cartographie de concentrations de polluants a partir de mesures et de modèles déterministes avancés. Le développement mondial et l'urbanisation des populations génèrent une hausse d’émissions et d'expositions. A n d'estimer les expositions individuelles et évaluer leur association à des pathologies diverses, les campagnes de mesure de qualité de l'air, et des études épidémiologiques sur les effets de santé de la pollution sont devenues plus courantes. Cependant, les concentrations de pollution de l'air sont très variables en temps et en espace. La sensibilité et la précision de ces études est souvent détériorée par de mauvais classements des expositions dus aux estimations grossières des expositions individuelles. Les méthodes d'assimilation de données intègrent des données de mesures et des modèles mathématiques a n de mieux approximer le champ de concentration. Quand ces méthodes sont basées sur un modèle de qualité de l'air (AQM) déterministe avancé, elles sont capables de fournir des approximations détaillées et de petite échelle. Ces informations précises permettront de meilleures estimations d'exposition. Néanmoins, ces méthodes sont souvent tr es coûteuses. Elles nécessitent la résolution a plusieurs reprises du modèle, qui peut être coûteux soi-même. Dans ce travail nous enquêtons sur la combinaison des méthodes des bases réduites (RB) et d'assimilation de données pour des AQM avancés a l'échelle urbaine. Nous souhaitons diminuer le coût de résolution en exploitant les RB, et incorporer des données de mesure a n d'améliorer la qualité de la solution. On étend la méthode de Parameterized-Background Data-Weak (PBDW) pour des AQMs basés sur la physique. Cette méthode est capable d'estimer de façon rapide et "online" des concentrations de polluants à l'échelle du quartier. Elle se sert des AQMs disponibles dans une procédure non intrusive et efficace par rapport aux temps de calculs pour réduire le coût de résolution par des centaines de fois. Les résultats de PBDW sont comparés à la méthode d'interpolation empirique généralisée (GEIM) et à une méthode inverse usuelle, la méthode adjointe, a n de mesurer l'efficacité de la PBDW. Cette comparaison montre la possibilité d'augmenter la précision de la solution, et d'une grande réduction en temps de calcul par rapport à des méthodes classiques. Dans nos applications sur un modèle imparfait, l'étude a fourni des estimations d'état avec erreur d'approximation de moins de 10% presque partout. Les résultats se montrent prometteurs pour la reconstruction en temps réel de champs de pollution sur de grands domaines par la PBDW
The principal objective of this thesis is the development of low-cost numerical tools for spatial mapping of pollutant concentrations from field observations and advanced deterministic models. With increased pollutant emissions and exposure due to mass urbanization and development worldwide, air quality measurement campaigns and epidemiology studies of the association between air pollution and adverse health effects have become increasingly common. However, as air pollution concentrations are highly variable spatially and temporally, the sensitivity and accuracy of these epidemiology studies is often deteriorated by exposure misclassi cation due to poor estimates of individual exposures. Data assimilation methods incorporate available measurement data and mathematical models to provide improved approximations of the concentration. These methods, when based on an advanced deterministic air quality models (AQMs), could provide spatially-rich small-scale approximations and can enable better estimates of effects and exposures. However, these methods can be computationally expensive. They require repeated solution of the model, which could itself be costly. In this work we investigate a combined reduced basis (RB) data assimilation method for use with advanced AQMs on urban scales. We want to diminish the cost of resolution, using RB arguments, and incorporate measurement data to improve the quality of the solution. We extend the Parameterized-Background Data-Weak (PBDW) method to physically-based AQMs. This method can rapidly estimate "online" pollutant concentrations at urban scale, using available AQMs in a non-intrusive and computationally effcient manner, reducing computation times by factors up to hundreds. We apply this method in case studies representing urban residential pollution of PM2.5, and we study the stability of the method depending on the placement or air quality sensors. Results from the PBDW are compared to the Generalized Empirical Interpolation Method (GEIM) and a standard inverse problem, the adjoint method, in order to measure effciency of the method. This comparison shows possible improvement in precision and great improvement in computation cost with respect to classical methods. We fi nd that the PBDW method shows promise for the real-time reconstruction of a pollution eld in large-scale problems, providing state estimation with approximation error generally under 10% when applied to an imperfect model

APA, Harvard, Vancouver, ISO, and other styles

30

Ferhat, Fouad. "Une analyse économique de la qualité et de l'efficience des universités et des systèmes universitaires : une comparaison au niveau international." Thesis, Paris 1, 2016. http://www.theses.fr/2016PA01E040/document.

Full text

Abstract:

Cette thèse propose une analyse économique de la qualité et de l'efficience des universités et des systèmes universitaires au niveau international, à travers l'utilisation des indicateurs intrants et extrants et la méthode d'enveloppement des données (Data Envelopment Analysis DEA). La thèse est composée de quatre chapitres. Le premier chapitre intitulé "les classements des universités : une mise en perspective critique" présente et évalue la pertinence des indicateurs intrants/extrants les plus utilisés par les classements des universités. Il est l'occasion d'exposer un certain nombre de critiques présentes dans la littérature et de focaliser sur un problème méthodologique répandu dans les classements. Il s'agit de l'utilisation des inputs (intrants) comme des mesures de la qualité des universités. Une telle pratique confond moyen et résultat et fait l'impasse sur les concepts de base des modèles de comptabilité en termes de fonction de production et d'efficience. Le deuxième chapitre intitulé "caractéristiques et classements des universités : autour de quelques facteurs capables d'expliquer les différences de performance entre les universités", compare les résultats de deux classements: QS-Times et Shanghai et propose une liste de facteurs capables d'expliquer pourquoi il existe de telles différences de qualité, selon ces classements, entre les universités. [...] Le troisième chapitre intitulé "la performance et l'efficience des universités et leurs déterminants: une évaluation à partir des classements mondiaux des universités et de la méthode DEA" évalue sur la base d'une méthode DEA l'efficience de 214 universités issues de 13 pays différentes afin de savoir si les universités les mieux classées parmi les classements traditionnels sont aussi les universités qui utilisent le mieux leurs ressources. [...] Enfin, le quatrième chapitre, titré "l'efficience des systèmes universitaires de 35 pays et leurs déterminants: une évaluation par la méthode DEA et le calcul des indices de Malmquist (2006-2012)" évalue l'efficience et les performances des systèmes universitaires de 35 pays. Il propose de nouveaux scores d'efficience globale qui viennent compléter les deux premières études sur ce sujet d’Agasisti (2011) et St. Aubyn et al (2009). Les nouveautés par rapport à l'article d'Agasisti (2011) sont au nombre de cinq: l'échantillon est plus important (35 pays au lieu de 18), la période d'observation est actualisée, l'évolution de l'efficience entre deux périodes est calculée, le nombre des intrants et des extrants incorporé dans chaque modèle est plus élevé et un modèle spécifique d'évaluation de l'efficience de la recherche est proposé. Il conforte la thèse selon laquelle les systèmes universitaires de la Suisse et du Royaume-Uni sont les plus efficients. Il montre aussi sur la base d'un calcul des indices de Malmquist qu'entre 2006 et 2012 l'efficience en matière d'enseignement des 35 systèmes universitaires évalués a eu tendance à diminuer alors que l'efficience de la recherche et de l'attractivité- réputation de ces mêmes systèmes a plutôt eu tendance à augmenter. Ce qui permet de mieux évaluer l'effet des réformes inspirées par l'usage du classement de Shanghai sur les systèmes universitaires. Ces réformes conduisent les enseignants-chercheurs à délaisser l'enseignement pour la recherche
This thesis aims to economically analyze the quality and efficiency of universities and university systems at an international level of comparison, by using input/output indicators and the Data Envelopment Analysis (DEA) method. The thesis is composed of four chapters. The first chapter entitled "university rankings: a critical perspective" presents and evaluates the relevance of inputs/outputs indicators used by most university rankings. It is the opportunity to present a number of criticisms found in the literature and focus on a common methodological problem in the rankings. It is the use of inputs as measures of university quality. This practice confuses means and results and ignores the basic concepts of accounting models in terms of production functions and efficiency. The second chapter entitled "characteristics and rankings of universities : around some factors that can explain the differences in performance between universities", compares the results of two rankings: QS-Times and Shanghai and offers a list of factors that may explain why there are such differences in quality, according to these rankings between universities. [...] The third chapter entitled "performance and efficiency of universities and their determinants: an evaluation using world university rankings and DEA methodology" evaluates on the basis of a DEA methodology the efficiency of 214 universities from 13 different countries, in order to find if the top ranked universities among traditional rankings are also universities that best utilize their financial and human resources. [...] The fourth chapter titled "efficiency of university systems in 35 countries and its determinants: an assessment by DEA methodology and the calculation of Malmquist indices (2006-2012)" assesses the efficiency and performance of university systems of 35 countries. It offers new scores for overall efficiency that complement the first two studies on this topic in the literature by Agasisti (2011) and St.Aubyn et al (2009). Compared to the article of Agasisti (2011), we identify five new developments in our study : the sample is higher (35 countries instead of 18), the observation period is updated, the evolution of efficiency between two periods is calculated, the number of inputs and outputs incorporated into each model is higher and a specific model for evaluating the efficiency of research is proposed. Our study confirms the thesis that the university systems of Switzerland and the United Kingdom are the most efficient. It also shows based on the calculations of Malmquist indices between 2006 and 2012 that teaching efficiency of 35 reviewed university systems has a tendency of declining while the research efficiency and that of attractivity-reputation is rather increasing. This allows a better assessment of the impact of reforms inspired by the Shanghai ranking on university systems. These reforms led the academic staff of universities to abandon their focus on teaching in favor of research activities

APA, Harvard, Vancouver, ISO, and other styles

31

Wang, Leye. "Facilitating mobile crowdsensing from both organizers’ and participants’ perspectives." Thesis, Evry, Institut national des télécommunications, 2016. http://www.theses.fr/2016TELE0008/document.

Full text

Abstract:

La collecte participative des données mobiles est un nouveau paradigme dédié aux applications de détection urbaines utilisant une foule de participants munis de téléphones intelligents. Pour mener à bien les tâches de collecte participative des données mobiles, diverses préoccupations relatives aux participants et aux organisateurs doivent être soigneusement prises en considération. Pour les participants, la principale préoccupation porte sur la consommation d'énergie, le coût des données mobiles, etc. Pour les organisateurs, la qualité des données et le budget sont les deux préoccupations essentielles. Dans cette thèse, deux mécanismes de collecte participative des données mobiles sont proposés : le téléchargement montant collaboratif des données et la collecte clairsemée des données mobiles. Pour le téléchargement montant collaboratif des données, deux procédés sont proposés 1) « effSense », qui fournit la meilleure solution permettant d’économiser la consommation d'énergie aux participants ayant un débit suffisant, et de réduire le coût des communications mobiles aux participants ayant un débit limité; 2) « ecoSense », qui permet de réduire le remboursement incitatif par les organisateurs des frais associés au coût des données mobiles des participants. Dans la collecte clairsemée des données mobiles, les corrélations spatiales et temporelles entre les données détectées sont exploitées pour réduire de manière significative le nombre de tâches allouées et, par conséquent, le budget associé aux organisateurs, tout en assurant la qualité des données. De plus, l’intimité différentielle est afin de répondre au besoin de préservation de la localisation des participants
Mobile crowdsensing is a novel paradigm for urban sensing applications using a crowd of participants' sensor-equipped smartphones. To successfully complete mobile crowdsensing tasks, various concerns of participants and organizers need to be carefully considered. For participants, primary concerns include energy consumption, mobile data cost, privacy, etc. For organizers, data quality and budget are two critical concerns. In this dissertation, to address both participants' and organizers' concerns, two mobile crowdsensing mechanisms are proposed - collaborative data uploading and sparse mobile crowdsensing. In collaborative data uploading, participants help each other through opportunistic encounters and data relays in the data uploading process of crowdsensing, in order to save energy consumption, mobile data cost, etc. Specifically, two collaborative data uploading procedures are proposed (1) effSense, which helps participants with enough data plan to save energy consumption, and participants with little data plan to save mobile data cost; (2) ecoSense, which reduces organizers' incentive refund that is paid for covering participants' mobile data cost. In sparse mobile crowdsensing, spatial and temporal correlations among sensed data are leveraged to significantly reduce the number of allocated tasks thus organizers' budget, still ensuring data quality. Specifically, a sparse crowdsensing task allocation framework, CCS-TA, is implemented with compressive sensing, active learning, and Bayesian inference techniques. Furthermore, differential privacy is introduced into sparse mobile crowdsensing to address participants' location privacy concerns

APA, Harvard, Vancouver, ISO, and other styles

32

Bouali, Tarek. "Platform for efficient and secure data collection and exploitation in intelligent vehicular networks." Thesis, Dijon, 2016. http://www.theses.fr/2016DIJOS003/document.

Full text

Abstract:

De nos jours, la filiale automobile connait une évolution énorme en raison de la croissance évolutive des technologies de communication, des aptitudes de détection et de perception de l’environnement, et des capacités de stockage et de traitement présentes dans les véhicules. En effet, une voiture est devenue une sorte d'agent mobile capable de percevoir son environnement et d’en collecter des informations, de communiquer avec les autres véhicules ou infrastructures présentes sur la route, et de traiter les données collectées. Ces progrès stimulent le développement de plusieurs types d'applications qui vont permettre d'améliorer la sécurité et l'efficacité de conduite et de rendre le voyage des automobilistes plus confortable. Cependant, ce développement repose beaucoup sur les données collectées et donc ne pourra se faire que via une collecte sécurisée et un traitement efficace de ces données détectées. La collecte de données dans un réseau véhiculaire a toujours été un véritable défi en raison des caractéristiques spécifiques de ces réseaux fortement dynamiques (changement fréquent de topologie, vitesse élevée des véhicules et fragmentation fréquente du réseau), qui conduisent à des communications opportunistes et non durables. L'aspect sécurité, reste un autre maillon faible de ces réseaux sans fils vu qu'ils sont par nature vulnérables à diverses types d'attaques visant à falsifier les données recueillies et affecter leur intégrité. En outre, les données recueillies ne sont pas compréhensibles par eux-mêmes et ne peuvent pas être interprétées et comprises si montrées directement à un conducteur ou envoyées à d'autres nœuds dans le réseau. Elles doivent être traitées et analysées pour extraire les caractéristiques significatives et informations pour développer des applications utiles et fiables. En plus, les applications développées ont toujours des exigences différentes en matière de qualité de service (QdS). Plusieurs travaux de recherche et projets ont été menées pour surmonter les défis susmentionnés. Néanmoins, ils n'ont pas abouti à la perfection et souffrent encore de certaines faiblesses. Pour cette raison, nous focalisons nos efforts durant cette thèse au développement d’une plateforme de collecte efficace et sécurisée de données dans un réseau de véhicules ainsi que l’exploitation de ces données par des applications améliorant le voyage des automobilistes et la connectivité des véhicules. Pour ce faire, nous proposons une première solution visant à déployer de manière optimale des véhicules, qui auront la tâche de recueillir des données, dans une zone urbaine. Ensuite, nous proposons un nouveau protocole de routage sécurisé permettant de relayer les données collectées vers une destination en se basant sur un système de détection et d'expulsion des véhicules malveillants. Ce protocole est par la suite amélioré avec un nouveau mécanisme de prévention d'intrusion permettant de détecter des attaquants au préalable en utilisant les filtres de Kalman. En deuxième partie de thèse, nous nous sommes concentré sur l’exploitation de ces données en développant une première application capable de calculer de manière fine l’itinéraire le plus économique pour les automobilistes ou tout gestionnaire de flottes de véhicules. Cette solution est basée sur les données influents sur la consommation de carburant et collectées à partir des véhicules eux mêmes et aussi d’autres sources d’informations dans l’Internet et accessibles via des API spécifiques. Enfin, un mécanisme spatio-temporel permettant de choisir le meilleur médium de communication disponible a été développé. Ce dernier est basé sur la logique floue et considère les informations recueillies sur les réseaux, les utilisateurs et les applications pour préserver de meilleure qualité de service
Nowadays, automotive area is witnessing a tremendous evolution due to the increasing growth in communication technologies, environmental sensing & perception aptitudes, and storage & processing capacities that we can find in recent vehicles. Indeed, a car is being a kind of intelligent mobile agent able to perceive its environment, sense and process data using on-board systems and interact with other vehicles or existing infrastructure. These advancements stimulate the development of several kinds of applications to enhance driving safety and efficiency and make traveling more comfortable. However, developing such advanced applications relies heavily on the quality of the data and therefore can be realized only with the help of a secure data collection and efficient data treatment and analysis. Data collection in a vehicular network has been always a real challenge due to the specific characteristics of these highly dynamic networks (frequent changing topology, vehicles speed and frequent fragmentation), which lead to opportunistic and non long lasting communications. Security, remains another weak aspect in these wireless networks since they are by nature vulnerable to various kinds of attacks aiming to falsify collected data and affect their integrity. Furthermore, collected data are not understandable by themselves and could not be interpreted and understood if directly shown to a driver or sent to other nodes in the network. They should be treated and analyzed to extract meaningful features and information to develop reliable applications. In addition, developed applications always have different requirements regarding quality of service (QoS). Several research investigations and projects have been conducted to overcome the aforementioned challenges. However, they still did not meet perfection and suffer from some weaknesses. For this reason, we focus our efforts during this thesis to develop a platform for a secure and efficient data collection and exploitation to provide vehicular network users with efficient applications to ease their travel with protected and available connectivity. Therefore, we first propose a solution to deploy an optimized number of data harvesters to collect data from an urban area. Then, we propose a new secure intersection based routing protocol to relay data to a destination in a secure manner based on a monitoring architecture able to detect and evict malicious vehicles. This protocol is after that enhanced with a new intrusion detection and prevention mechanism to decrease the vulnerability window and detect attackers before they persist their attacks using Kalman filter. In a second part of this thesis, we concentrate on the exploitation of collected data by developing an application able to calculate the most economic itinerary in a refined manner for drivers and fleet management companies. This solution is based on several information that may affect fuel consumption, which are provided by vehicles and other sources in Internet accessible via specific APIs, and targets to economize money and time. Finally, a spatio-temporal mechanism allowing to choose the best available communication medium is developed. This latter is based on fuzzy logic to assess a smooth and seamless handover, and considers collected information from the network, users and applications to preserve high quality of service

APA, Harvard, Vancouver, ISO, and other styles

33

Saif, Abdulqawi. "Experimental Methods for the Evaluation of Big Data Systems." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0001.

Full text

Abstract:

À l’ère du big data, de nombreux systèmes et applications sont créés pour collecter, stocker et analyser des données volumineuses dans des domaines divers. Bien que les systèmes big data fassent l’objet de multiples évaluations au cours de leur cycle de développement, les secteurs de recherches public et privé encouragent les chercheurs à faire des expérimentations supplémentaires afin d’assurer la qualité de leurs services et comprendre leur performance dans des contextes et des configurations variées. Cependant, les défis expérimentaux des systèmes big data ne sont pas triviaux. Alors que de nombreux travaux de recherche utilisent encore de vieilles méthodes expérimentales pour faire face à de tels défis, nous pensons que l’activité d’expérimentation peut être améliorée en proposant des méthodes expérimentales flexibles et à jour. Dans cette thèse, nous abordons des défis particuliers pour améliorer le contexte expérimental et l’observabilité des expériences big data. Premièrement, nous permettons la personnalisation de la performance de ressources environnementales où les expériences s’exécutent, en encourageant les chercheurs à effectuer des expériences à l’échelle sur des configurations hétérogènes. Nous contribuons ensuite aux outils expérimentaux IOscope et MonEx pour améliorer l’observabilité. IOscope permet d’effectuer des observations de bas niveau sur la pile d’entrée/sortie afin de détecter d’éventuels problèmes de performance sur l’environnement d’exécution. IOscope est développé pour convaincre que les techniques d’évaluation de haut niveau doivent être accompagnées par ces outils complémentaires afin de comprendre la performance. En revanche, le framework MonEx fonctionne aux niveaux supérieurs pour faciliter la collecte de données expérimentales. MonEx est le premier outil qui fait du monitoring autour des expériences indépendamment des environnements expérimentaux sous-jacents. Nous appliquons enfin des statistiques pour améliorer les conceptions expérimentales, en réduisant le nombre de scénarios expérimentaux et en obtenant un ensemble raffiné de facteurs expérimentaux aussi rapidement que possible. Enfin, toutes les contributions se complètent pour faciliter l’activité d’expérimentation en travaillant sur presque toutes les phases du cycle de vie des expériences big data
In the era of big data, many systems and applications are created to collect, to store, and to analyze massive data in multiple domains. Although those – big data systems – are subjected to multiple evaluations during their development life-cycle, academia and industry encourage further experimentation to ensure their quality of service and to understand their performance under various contexts and configurations. However, the experimental challenges of big data systems are not trivial. While many pieces of research still employ legacy experimental methods to face such challenges, we argue that experimentation activity can be improved by proposing flexible experimental methods. In this thesis, we address particular challenges to improve experimental context and observability for big data experiments. We firstly enable experiments to customize the performance of their environmental resources, encouraging researchers to perform scalable experiments over heterogeneous configurations. We then introduce two experimental tools: IOscope and MonEx to improve observability. IOscope allows performing low-level observations on the I/O stack to detect potential performance issues in target systems, convincing that the high-level evaluation techniques should be accompanied by such complementary tools to understand systems’ performance. In contrast, MonEx framework works on higher levels to facilitate experimental data collection. MonEx opens directions to practice experiment-based monitoring independently from the underlying experimental environments. We finally apply statistics to improve experimental designs, reducing the number of experimental scenarios and obtaining a refined set of experimental factors as fast as possible. At last, all contributions complement each other to facilitate the experimentation activity by working almost on all phases of big data experiments’ life-cycle

APA, Harvard, Vancouver, ISO, and other styles

34

Girres, Jean-François. "Modèle d'estimation de l'imprécision des mesures géométriques de données géographiques." Thesis, Paris Est, 2012. http://www.theses.fr/2012PEST1080/document.

Full text

Abstract:

De nombreuses applications SIG reposent sur des mesures de longueur ou de surface calculées à partir de la géométrie des objets d'une base de données géographiques (comme des calculs d'itinéraires routiers ou des cartes de densité de population par exemple). Cependant, aucune information relative à l'imprécision de ces mesures n'est aujourd'hui communiquée à l'utilisateur. En effet, la majorité des indicateurs de précision géométrique proposés porte sur les erreurs de positionnement des objets, mais pas sur les erreurs de mesure, pourtant très fréquentes. Dans ce contexte, ce travail de thèse cherche à mettre au point des méthodes d'estimation de l'imprécision des mesures géométriques de longueur et de surface, afin de renseigner un utilisateur dans une logique d'aide à la décision. Pour répondre à cet objectif, nous proposons un modèle permettant d'estimer les impacts de règles de représentation (projection cartographique, non-prise en compte du terrain, approximation polygonale des courbes) et de processus de production (erreur de pointé et généralisation cartographique) sur les mesures géométriques de longueur et de surface, en fonction des caractéristiques des données vectorielles évaluées et du terrain que ces données décrivent. Des méthodes d'acquisition des connaissances sur les données évaluées sont également proposées afin de faciliter le paramétrage du modèle par l'utilisateur. La combinaison des impacts pour produire une estimation globale de l'imprécision de mesure demeure un problème complexe et nous proposons des premières pistes de solutions pour encadrer au mieux cette erreur cumulée. Le modèle proposé est implémenté au sein du prototype EstIM (Estimation de l'Imprécision des Mesures)
Many GIS applications are based on length and area measurements computed from the geometry of the objects of a geographic database (such as route planning or maps of population density, for example). However, no information concerning the imprecision of these measurements is now communicated to the final user. Indeed, most of the indicators on geometric quality focuses on positioning errors, but not on measurement errors, which are very frequent. In this context, this thesis seeks to develop methods for estimating the imprecision of geometric measurements of length and area, in order to inform a user for decision support. To achieve this objective, we propose a model to estimate the impacts of representation rules (cartographic projection, terrain, polygonal approximation of curves) and production processes (digitizing error, cartographic generalisation) on geometric measurements of length and area, according to the characteristics and the spatial context of the evaluated objects. Methods for acquiring knowledge about the evaluated data are also proposed to facilitate the parameterization of the model by the user. The combination of impacts to produce a global estimation of the imprecision of measurement is a complex problem, and we propose approaches to approximate the cumulated error bounds. The proposed model is implemented in the EstIM prototype (Estimation of the Imprecision of Measurements)

APA, Harvard, Vancouver, ISO, and other styles

35

Maarof, Salman. "L'applicabilité du système de comptabilité nationale 1993 en Syrie." Thesis, Paris Est, 2011. http://www.theses.fr/2011PEST0061.

Full text

Abstract:

Bien que le SCN 1993 ait été mis en place depuis plus de quinze ans, certains pays ne l'ont toujours pas mis en application, tandis que d'autres affirment l'appliquer sans qu'en réalité il ne le soit parfaitement.Les difficultés de la mise en œuvre du SCN 1993 s'expliquent par plusieurs raisons parmi lesquelles nous pouvons répertorier la disponibilité des sources de données et les bases de données.La Syrie n'a pas adapté le SCN 1993, et les comptes nationaux syriens sont aujourd'hui encore établis selon le SCN 1968.Dans notre recherche, nous avons analysé la qualité des données des comptes nationaux pour réaliser une application complète du SCN 1993 au département des comptes nationaux de Syrie.Ce système n'est certes pas en cours, mais l'application complète donnerait une réelle image de l'économie syrienne. Afin de réaliser cet objectif, et en profitant des expériences que nous offrent les autres pays, il était indispensable d'analyser la qualité des données de la comptabilité nationale produites au sein du département de la comptabilité nationale. Ce travail doit nous permettre de connaître la capacité de la Syrie à répondre aux recommandations du SCN 1993.Le SCN 2008 publié récemment, ne fait qu'approfondir le besoin d'adapter le système syrien au SCN. .Il est essentiel de garder à l'esprit que l'objectif n'est pas d'annoncer avec précipitation appliquer le système, mais il est urgent de produire et d'être capable de faire de vraies données et ainsi d'appliquer sainement le SCN.Cette recherche n'est pas un aboutissement mais se veut au contraire être le point de départ de d'une réflexion approfondie sur la refonte complète de la comptabilité nationale syrienne qui permettra de produire des données saines qui reflètent la réalité économique et permettent d'établir des stratégies économiques et de permettre le développement économique de la Syrie
Although the SNA 1993 has been established for over fifteen years, some countries have still not yet implemented, while others pretend implementing it, without it being correctly applied.The difficulties in the implementation of the SNA 1993 are explained by a few main reasons among which we can identify the availability of data sources and databases.Syria has still not adopted the SNA 1993, and the Syrian national accounts are still set according to the 1968 SNA.In our research, we analyzed the quality of national accounts data to make a good applicability of the 1993 SNA of national accounts department of Syria.To achieve this goal, and taking advantage of the experiences that other countries offer us, it was necessary to analyze the quality of national accounts data produced in the department of the national accounts.The work should enable us to know our ability to respond to the recommendations of the system 93.The SNA 2008 has recently been published, however, we believe that when we are able to generate sound data, we will also be able to practice any developed system.It is essential to keep in mind that the goal is not to announce has only the implementation of the system. But it is urgent to produce and be able to do real data and to apply reasonably well the SNA.This research is not an end but will instead be the starting point of the national accounts, in order to produce sound data that reflect the reality of the economic in the future, for the establishment of economic strategies and economic development of Syria

APA, Harvard, Vancouver, ISO, and other styles

36

Irain, Malik. "Plateforme d'analyse de performances des méthodes de localisation des données dans le cloud basées sur l'apprentissage automatique exploitant des délais de messages." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30195.

Full text

Abstract:

L'utilisation du cloud est une nécessité aujourd'hui, les données produites et utilisées par tous les types d'utilisateurs (individus particuliers, entreprises, structures administratives) ayant atteint une masse trop importante pour être stockées autrement. L'utilisation du cloud nécessite la signature, explicite ou non, d'un contrat avec un fournisseur de service de stockage. Ce contrat mentionne les niveaux de qualité de service requis selon différents critères. Parmi ces critères se trouve la localisation des données. Cependant, ce critère n'est pas facilement vérifiable par un utilisateur. C'est pour cela que la recherche dans le domaine de la vérification de localisation de données a suscité plusieurs travaux depuis quelques années, mais les solutions proposées restent encore perfectibles. Le travail proposé dans le cadre de cette thèse consiste à étudier les solutions de vérification de localisation par les clients, c'est-à-dire les solutions estimant la localisation des données et fonctionnant à l'aide de points de repère. L'approche à investiguer peut être résumée comme suit : en exploitant les délais de communication et en utilisant des modèles de temps de traversée du réseau, estimer, avec une certaine erreur de distance, la localisation des données. Pour cela, le travail réalisé est le suivant : • Une revue de l'état de l'art des différentes méthodes permettant aux utilisateurs de connaitre la localisation de leurs données. • La conception d'une notation unifiée pour les méthodes étudiées dans la revue de l'état de l'art, avec une proposition de deux scores pour évaluer et comparer les méthodes. • La mise en place d'une plateforme de collecte de mesures réseau. Grâce à cette plateforme, deux jeux de données ont été récoltés, un au niveau national et l'autre un niveau mondial. Ces deux jeux de données permettent d'évaluer les différentes méthodes présentées dans la revue de l'état de l'art. • La mise en place d'une architecture d'évaluation à partir des deux jeux de données et des scores définis, afin d'établir la qualité des méthodes (taux de succès) et la qualité des résultats (précision du résultat) grâce aux scores proposés
Cloud usage is a necessity today, as data produced and used by all types of users (individuals, companies, administrative structures) has become too large to be stored otherwise. It requires to sign, explicitly or not, a contract with a cloud storage provider. This contract specifies the levels of quality of service required for various criteria. Among these criteria is the location of the data. However, this criterion is not easily verifiable by a user. This is why research in the field of data localization verification has led to several studies in recent years, but the proposed solutions can still be improved. The work proposed in this thesis consists in studying solutions of location verification by a user, i.e. solutions that estimate data location and operate using landmarks. The implemented approach can be summarized as follows: exploiting communication delays and using network time models to estimate, with some distance error, data location. To this end, the work carried out is as follows: • A survey of the state of the art on the different methods used to provide users with location information. • The design of a unified notation for the methods studied in the survey, with a proposal of two scores to assess methods. • Implementation of a network measurements collecting platform. Thanks to this platform, two datasets were collected, at both national level and international level. These two data sets are used to evaluate the different methods presented in the state of the art survey. • Implementation of an evaluation architecture based on the two data sets and the defined scores. This allows us to establish the quality of the methods (success rate) and the quality of the results (accuracy of the result) thanks to the proposed scores

APA, Harvard, Vancouver, ISO, and other styles

37

Alili, Hiba. "Intégration de données basée sur la qualité pour l'enrichissement des sources de données locales dans le Service Lake." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLED019.

Full text

Abstract:

De nos jours, d’énormes volumes de données sont créés en continu et les utilisateurs s’attendent à ce que ceux-ci soient collectés, stockés et traités quasiment en temps réel. Ainsi, les lacs de données sont devenus une solution attractive par rapport aux entrepôts de données classiques coûteux et fastidieux (nécessitant une démarche ETL), pour les entreprises qui souhaitent stocker leurs données. Malgré leurs volumes, les données stockées dans les lacs de données des entreprises sont souvent incomplètes voire non mises à jour vis-à-vis des besoins (requêtes) des utilisateurs.Les sources de données locales ont donc besoin d’être enrichies. Par ailleurs, la diversité et l’expansion du nombre de sources d’information disponibles sur le web a rendu possible l’extraction des données en temps réel. Ainsi, afin de permettre d’accéder et de récupérer l’information de manière simple et interopérable, les sources de données sont de plus en plus intégrées dans les services Web. Il s’agit plus précisément des services de données, y compris les services DaaS du Cloud Computing. L’enrichissement manuel des sources locales implique plusieurs tâches fastidieuses telles que l’identification des services pertinents, l’extraction et l’intégration de données hétérogènes, la définition des mappings service-source, etc. Dans un tel contexte, nous proposons une nouvelle approche d’intégration de données centrée utilisateur. Le but principal est d’enrichir les sources de données locales avec des données extraites à partir du web via les services de données. Cela permettrait de satisfaire les requêtes des utilisateurs tout en respectant leurs préférences en terme de coût d’exécution et de temps de réponse et en garantissant la qualité des résultats obtenus
In the Big Data era, companies are moving away from traditional data-warehouse solutions whereby expensive and timeconsumingETL (Extract, Transform, Load) processes are used, towards data lakes in order to manage their increasinglygrowing data. Yet the stored knowledge in companies’ databases, even though in the constructed data lakes, can never becomplete and up-to-date, because of the continuous production of data. Local data sources often need to be augmentedand enriched with information coming from external data sources. Unfortunately, the data enrichment process is one of themanual labors undertaken by experts who enrich data by adding information based on their expertise or select relevantdata sources to complete missing information. Such work can be tedious, expensive and time-consuming, making itvery promising for automation. We present in this work an active user-centric data integration approach to automaticallyenrich local data sources, in which the missing information is leveraged on the fly from web sources using data services.Accordingly, our approach enables users to query for information about concepts that are not defined in the data sourceschema. In doing so, we take into consideration a set of user preferences such as the cost threshold and the responsetime necessary to compute the desired answers, while ensuring a good quality of the obtained results

APA, Harvard, Vancouver, ISO, and other styles

38

Hoang, Cong Tuan. "Prise en compte des fluctuations spatio-temporelles pluies-débits pour une meilleure gestion de la ressource en eau et une meilleure évaluation des risques." Phd thesis, Université Paris-Est, 2011. http://pastel.archives-ouvertes.fr/pastel-00658537.

Full text

Abstract:

Réduire la vulnérabilité et accroître la résilience des sociétés d'aujourd'hui aux fortes précipitations et inondations exige de mieux caractériser leur très forte variabilité spatio-temporelle observable sur une grande gamme d'échelle. Nous mettons donc en valeur tout au long de cette thèse l'intérêt méthodologique d'une approche multifractale comme étant la plus appropriée pour analyser et simuler cette variabilité. Cette thèse aborde tout d'abord le problème de la qualité des données, qui dépend étroitement de la résolution temporelle effective de la mesure, et son influence sur l'analyse multifractale et la détermination de lois d'échelle des processus de précipitations. Nous en soulignons les conséquences pour l'hydrologie opérationnelle. Nous présentons la procédure SERQUAL qui permet de quantifier cette qualité et de sélectionner les périodes correspondant aux critères de qualité requise. Un résultat surprenant est que les longues chronologies de pluie ont souvent une résolution effective horaire et rarement de 5 minutes comme annoncée. Ensuite, cette thèse se penche sur les données sélectionnées pour caractériser la structure temporelle et le comportement extrême de la pluie. Nous analysons les sources d'incertitudes dans les méthodes multifractales " classiques " d'estimation des paramètres et nous en déduisons des améliorations pour tenir compte, par exemple, de la taille finie des échantillons et des limites de la dynamique des capteurs. Ces améliorations sont utilisées pour obtenir les caractéristiques multifractales de la pluie à haute résolution de 5 minutes pour plusieurs départements de la France (à savoir, les départements 38, 78, 83 et 94) et pour aborder la question de l'évolution des précipitations durant les dernières décennies dans le cadre du changement climatique. Cette étude est confortée par l'analyse de mosaïques radars concernant trois événements majeurs en région parisienne. Enfin, cette thèse met en évidence une autre application des méthodes développées, à savoir l'hydrologie karstique. Nous discutons des caractéristiques multifractales des processus de précipitation et de débit à différentes résolutions dans deux bassins versant karstiques au sud de la France. Nous analysons, en utilisant les mesures journalière, 30 minutes et 3 minutes, la relation pluie-débit dans le cadre multifractal. Ceci est une étape majeure dans la direction d'une définition d'un modèle multi-échelle pluie-débit du fonctionnement des bassins versants karstiques

APA, Harvard, Vancouver, ISO, and other styles

39

Taillandier, Patrick. "Révision automatique des connaissances guidant l'exploration informée d'arbres d'états : application au contexte de la généralisation de données géographiques." Phd thesis, Université Paris-Est, 2008. http://tel.archives-ouvertes.fr/tel-00481927.

Full text

Abstract:

Cette thèse traite de la révision automatique des connaissances contenues dans les systèmes fonctionnant par exploration informée d'arbres d'états. Ces systèmes, de par leur performance, sont employés dans de nombreux domaines applicatifs. En particulier, des travaux ont proposés d'utiliser cette approche dans le cadre de l'automatisation de la généralisation de données géographiques. La généralisation de données géographique s'intéresse à la dérivation, à partir de données géographiques détaillées, de données moins détaillées adaptées à un besoin particulier (e.g. changement d'échelle). Son automatisation, enjeu majeur pour les agences cartographiques telles que l'Institut Géographique National (IGN), est particulièrement complexe. Les performances des systèmes basés sur l'exploration informée d'arbres d'états sont directement dépendantes de la qualité de leurs connaissances (heuristiques). Or, la définition et la mise à jour de ces dernières s'avèrent généralement fastidieuses. Dans le cadre de cette thèse, nous proposons une approche de révision hors ligne des connaissances basée sur le traçage du système et sur l'analyse de ces traces. Ces traces sont ainsi utilisées par un module de révision qui est chargé d'explorer l'espace des connaissances possibles et d'en modifier en conséquence les connaissances du système. Des outils de diagnostic en ligne de la qualité des connaissances permettent de déterminer quand déclencher le processus de révision hors ligne des connaissances. Pour chaque méthode et approche que nous présentons, une mise en oeuvre est détaillée et expérimentée dans le cadre de l'automatisation de la généralisation de données géographiques

APA, Harvard, Vancouver, ISO, and other styles

40

Ben, Hassine Soumaya. "Évaluation et requêtage de données multisources : une approche guidée par la préférence et la qualité des données : application aux campagnes marketing B2B dans les bases de données de prospection." Thesis, Lyon 2, 2014. http://www.theses.fr/2014LYO22012/document.

Full text

Abstract:

Avec l’avènement du traitement distribué et l’utilisation accrue des services web inter et intra organisationnels alimentée par la disponibilité des connexions réseaux à faibles coûts, les données multisources partagées ont de plus en plus envahi les systèmes d’informations. Ceci a induit, dans un premier temps, le changement de leurs architectures du centralisé au distribué en passant par le coopératif et le fédéré ; et dans un deuxième temps, une panoplie de problèmes d’exploitation allant du traitement des incohérences des données doubles à la synchronisation des données distribuées. C’est le cas des bases de prospection marketing où les données sont enrichies par des fichiers provenant de différents fournisseurs.Nous nous intéressons au cadre particulier de construction de fichiers de prospection pour la réalisation de campagnes marketing B-to-B, tâche traitée manuellement par les experts métier. Nous visons alors à modéliser le raisonnement de brokers humains, afin d’optimiser et d’automatiser la sélection du « plan fichier » à partir d’un ensemble de données d’enrichissement multisources. L’optimisation en question s’exprimera en termes de gain (coût, qualité) des données sélectionnées, le coût se limitant à l’unique considération du prix d’utilisation de ces données.Ce mémoire présente une triple contribution quant à la gestion des bases de données multisources. La première contribution concerne l’évaluation rigoureuse de la qualité des données multisources. La deuxième contribution porte sur la modélisation et l’agrégation préférentielle des critères d’évaluation qualité par l’intégrale de Choquet. La troisième contribution concerne BrokerACO, un prototype d’automatisation et d’optimisation du brokering multisources basé sur l’algorithme heuristique d’optimisation par les colonies de fourmis (ACO) et dont la Pareto-optimalité de la solution est assurée par l’utilisation de la fonction d’agrégation des préférences des utilisateurs définie dans la deuxième contribution. L’efficacité du prototype est montrée par l’analyse de campagnes marketing tests effectuées sur des données réelles de prospection
In Business-to-Business (B-to-B) marketing campaigns, manufacturing “the highest volume of sales at the lowest cost” and achieving the best return on investment (ROI) score is a significant challenge. ROI performance depends on a set of subjective and objective factors such as dialogue strategy, invested budget, marketing technology and organisation, and above all data and, particularly, data quality. However, data issues in marketing databases are overwhelming, leading to insufficient target knowledge that handicaps B-to-B salespersons when interacting with prospects. B-to-B prospection data is indeed mainly structured through a set of independent, heterogeneous, separate and sometimes overlapping files that form a messy multisource prospect selection environment. Data quality thus appears as a crucial issue when dealing with prospection databases. Moreover, beyond data quality, the ROI metric mainly depends on campaigns costs. Given the vagueness of (direct and indirect) cost definition, we limit our focus to price considerations.Price and quality thus define the fundamental constraints data marketers consider when designing a marketing campaign file, as they typically look for the "best-qualified selection at the lowest price". However, this goal is not always reachable and compromises often have to be defined. Compromise must first be modelled and formalized, and then deployed for multisource selection issues. In this thesis, we propose a preference-driven selection approach for multisource environments that aims at: 1) modelling and quantifying decision makers’ preferences, and 2) defining and optimizing a selection routine based on these preferences. Concretely, we first deal with the data marketer’s quality preference modelling by appraising multisource data using robust evaluation criteria (quality dimensions) that are rigorously summarized into a global quality score. Based on this global quality score and data price, we exploit in a second step a preference-based selection algorithm to return "the best qualified records bearing the lowest possible price". An optimisation algorithm, BrokerACO, is finally run to generate the best selection result

APA, Harvard, Vancouver, ISO, and other styles

41

Robinson-Bryant, Federica. "Defining a Stakeholder-Relative Model to Measure Academic Department Efficiency at Achieving Quality in Higher Education." Doctoral diss., University of Central Florida, 2013. http://digital.library.ucf.edu/cdm/ref/collection/ETD/id/5842.

Full text

Abstract:

In a time of strained resources and dynamic environments, the importance of effective and efficient systems is critical. This dissertation was developed to address the need to use feedback from multiple stakeholder groups to define quality and assess an entity's efficiency at achieving such quality. A decision support model with applicability to diverse domains was introduced to outline the approach. Three phases, (1) quality model development, (2) input-output selection and (3) relative efficiency assessment, captured the essence of the process which also delineates the approach per tool applied. This decision support model was adapted in higher education to assess academic departmental efficiency at achieving stakeholder-relative quality. Phase 1 was accomplished through a three round, Delphi-like study which involved user group refinement. Those results were compared to the criteria of an engineering accreditation body (ABET) to support the model's validity to capture quality in the College of Engineering & Computer Science, its departments and programs. In Phase 2 the Analytic Hierarchy Process (AHP) was applied to the validated model to quantify the perspective of students, administrators, faculty and employers (SAFE). Using the composite preferences for the collective group (n=74), the model was limited to the top 7 attributes which accounted for about 55% of total preferences. Data corresponding to the resulting variables, referred to as key performance indicators, was collected using various information sources and infused in the data envelopment analysis (DEA) methodology (Phase 3). This process revealed both efficient and inefficient departments while offering transparency of opportunities to maximize quality outputs. Findings validate the potential of the Delphi-like, analytic hierarchical, data envelopment analysis approach for administrative decision-making in higher education. However, the availability of more meaningful metrics and data is required to adapt the model for decision making purposes. Several recommendations were included to improve the usability of the decision support model and future research opportunities were identified to extend the analyses inherent and apply the model to alternative areas.
Ph.D.
Doctorate
Industrial Engineering and Management Systems
Engineering and Computer Science
Industrial Engineering

APA, Harvard, Vancouver, ISO, and other styles

42

Ben, Khedher Anis. "Amélioration de la qualité des données produits échangées entre l'ingénierie et la production à travers l'intégration de systèmes d'information dédiés." Thesis, Lyon 2, 2012. http://www.theses.fr/2012LYO20012.

Full text

Abstract:

Le travail présenté dans ce mémoire de thèse apporte sa contribution à l'amélioration de la qualité des données échangées entre la production et les services d'ingénierie dédiés à la conception du produit et du système de production associé. Cette amélioration de la qualité des données passe par l'étude des interactions entre la gestion du cycle de vie du produit et la gestion de la production.Ces deux concepts étant supportés, tout ou partie, par des systèmes d'information industriels, l'étude de leurs interactions a ensuite conduit à l'intégration de ces systèmes d'information (PLM, ERP et MES). Dans un contexte de forte concurrence et de mondialisation, les entreprises sont obligées d'innover et de minimiser les coûts, notamment ceux de production. Face à ces enjeux, le volume des données de production et leur fréquence de modification ne cessent d'augmenter en raison de la réduction constante de la durée de vie et de mise sur le marché des produits, de la personnalisation accrue des produits et en n de la généralisation des démarches d'amélioration continue en production. La conséquence directe est alors la nécessité de formaliser et de gérer l'ensemble des données de production devant être fournies aux opérateurs de production et aux machines. Suite à une analyse du point de vue de la qualité des données pour chaque architecture existante démontrant ainsi leur incapacité à répondre à cette problématique, une architecture basée sur l'intégration des trois systèmes d'information directement impliqués dans la production (PLM, ERP et MES) a été proposée. Cette architecture nous a menés à deux sous-problématiques complémentaires qui sont respectivement la construction d'une architecture basée sur des Web Services permettant d'améliorer l'accessibilité, la sécurité et la complétude des données échangées, et la construction d'une architecture d'intégration, basée sur les ontologies, permettant d'offrir des mécanismes d'intégration basés sur la sémantique dans le but d'assurer la bonne interprétation des données échangées.Enfin, la maquette de l'outil logiciel supportant la solution proposée et permettant d'assurer l'intégration des données échangées entre ingénierie et production a été réalisée
The research work contributes to improve the quality of data exchanged between the production and the engineering units which dedicated to product design and production system design. This improvement is qualified by studying the interactions between the product life cycle management and the production management. These two concepts are supported, wholly or partly by industrial information systems, the study of the interactions then lead to the integration of information systems (PLM, ERP and MES).In a highly competitive environment and globalization, companies are forced to innovate and reduce costs, especially the production costs. Facing with these challenges, the volume and frequency change of production data are increasing due to the steady reduction of the lifetime and the products marketing, the increasing of product customization and the generalization of continuous improvement in production. Consequently, the need to formalize and manage all production data is required. These data should be provided to the production operators and machines.After analysis the data quality for each existing architecture demonstrating the inability to address this problem, an architecture, based on the integration of three information systems involved in the production (PLM, ERP and MES) has been proposed. This architecture leads to two complementary sub-problems. The first one is the development of an architecture based on Web services to improve the accessibility, safety and completeness of data exchanged. The second is the integration architecture of integration based on ontologies to offer the integration mechanisms based on the semantics in order to ensure the correct interpretation of the data exchanged. Therefore, the model of the software tool supports the proposed solution and ensures that integration of data exchanged between engineering and production was carried out

APA, Harvard, Vancouver, ISO, and other styles

43

Wolley, Chirine. "Apprentissage supervisé à partir des multiples annotateurs incertains." Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM4070/document.

Full text

Abstract:

En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement des labels. Néanmoins, le principal inconvénient de ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d'expertise très hétérogènes. De telles données ne sont alors pas forcément fiables. Par conséquent, la gestion de l'incertitude des annotateurs est un élément clé pour l'apprentissage à partir de multiples annotateurs non experts. Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l'incertitude des annotateurs et la qualité des données durant la phase d'apprentissage. Trois modèles sont proposés: IGNORE permet de classer de nouvelles instances tout en évaluant les annotateurs en terme de performance d'annotation qui dépend de leur incertitude. X-IGNORE intègre la qualité des données en plus de l'incertitude des juges. En effet, X-IGNORE suppose que la performance des annotateurs dépend non seulement de leur incertitude mais aussi de la qualité des données qu'ils annotent. Enfin, ExpertS répond au problème de sélection d'annotateurs durant l'apprentissage. ExpertS élimine les annotateurs les moins performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts) lors de l'étape d'apprentissage. De nombreuses expérimentations effectuées sur des données synthétiques et réelles montrent la performance et la stabilité de nos modèles par rapport à différents algorithmes de la littérature
In supervised learning tasks, obtaining the ground truth label for each instance of the training dataset can be difficult, time-consuming and/or expensive. With the advent of infrastructures such as the Internet, an increasing number of web services propose crowdsourcing as a way to collect a large enough set of labels from internet users. The use of these services provides an exceptional facility to collect labels from anonymous annotators, and thus, it considerably simplifies the process of building labels datasets. Nonetheless, the main drawback of crowdsourcing services is their lack of control over the annotators and their inability to verify and control the accuracy of the labels and the level of expertise for each labeler. Hence, managing the annotators' uncertainty is a clue for learning from imperfect annotations. This thesis provides three algorithms when learning from multiple uncertain annotators. IGNORE generates a classifier that predict the label of a new instance and evaluate the performance of each annotator according to their level of uncertainty. X-Ignore, considers that the performance of the annotators both depends on their uncertainty and on the quality of the initial dataset to be annotated. Finally, ExpertS deals with the problem of annotators' selection when generating the classifier. It identifies experts annotators, and learn the classifier based only on their labels. We conducted in this thesis a large set of experiments in order to evaluate our models, both using experimental and real world medical data. The results prove the performance and accuracy of our models compared to previous state of the art solutions in this context

APA, Harvard, Vancouver, ISO, and other styles

44

Gazdar, Kaouthar. "Institutions, développement financier et croissance économique dans la région MENA." Thesis, Reims, 2011. http://www.theses.fr/2011REIME002/document.

Full text

Abstract:

Cette thèse examine (i) l'impact du secteur bancaire et des marchés financiers sur la croissance économique, (ii) l'effet de la qualité institutionnelle sur la détermination du développement financier, (iii) Comment la qualité des institutions affecté la relation entre le développement financier et la croissance économique. A cette fin, nous construisons un indice de qualité institutionnel pour les pays de la région MENA. Appliquant la méthode d'estimation des moindres carrés généralisés (MCG) pour un échantillon de 18 pays de la région MENA pour la période de 1984-2007 nous constatons que ni le secteur bancaire ni les marchés financiers ne contribuent à la croissance économique et qu'ils l'affectent même négativement. Adoptant l'approche d'estimation sur données de panel et celle des variables instrumentales (IV) nos résultats montrent l'importance de l'environnement institutionnel dans la détermination du développement financier de la région MENA. En outre, nos résultats montrent que la qualité des institutions a un important effet dans la relation entre développement financier et croissance économique. Plus précisément, elle permet d'atténuer l'effet négatif du développement financier sur la croissance économique. Par conséquent, nos résultats fournissent une évidence empirique, que pour que le développement financier puisse contribuer à la croissance économique, les pays de la région MENA doivent avoir un certain niveau de développement institutionnel. Examinant l'effet non-linéaire de la qualité des institutions sur la relation entre développement financier et croissance économique nos résultats montrent que la relation entre développement du secteur bancaire et croissance économique présente la forme du "U-inversé", par contre cette forme n'est pas observée lorsque les marchés financiers sont considérés
This thesis examines (i) the impact of banks and stock markets on economic growth (ii) the effect of institutional quality in determining financial development and (iii) how institutional quality affects the finance-growth nexus in the MENA region. To this end, we construct a yearly institutional index for MENA countries. Applying the generalized method- of-moments (GMM) estimators developed for dynamic panel data for a sample of 18 MENA countries over 1984-2007 period, we find that both bank and stock market development are unimportant or even harmful for economic growth. Considering both a panel data and the instrumental variable (IV) approaches of estimation, our results outline the importance of institutional quality in determining financial development in MENA region. Moreover, our results show that institutional quality affects the finance growth nexus in MENA countries. In fact, it mitigates the negative effect of financial development on economic growth. Therefore, our results provide empirical evidence that in order for financial development to contribute to economic growth, MENA countries must possess certain level of institutional quality. Examining the non-linear effect of institutional quality on the finance-growth nexus, our results show that banking sector development and growth exhibit an inverted-U shaped relationship. However, we do not find the same pattern in the stock market-growth relationship

APA, Harvard, Vancouver, ISO, and other styles

45

Ferret, Laurie. "Anticoagulants oraux, réutilisation de données hospitalières informatisées dans une démarche de soutien à la qualité des soins." Thesis, Lille 2, 2015. http://www.theses.fr/2015LIL2S016/document.

Full text

Abstract:

Introduction :Les anticoagulants oraux soulèvent des problématiques majeures en termes de risque hémorragique et de bon usage. L’informatisation du dossier médical offre la possibilité d’accéder à de grandes bases de données que l’on peut exploiter de manière automatisée. L’objectif de ce travail est de montrer comment la réutilisation de données peut permettre d’étudier des problématiques liées aux anticoagulants et accompagner une démarche d’assurance de la qualité des soins. MéthodesCe travail a été réalisé sur les données informatisées (97 355 séjours) d’un centre hospitalier général. Pour chaque séjour nous disposons des données diagnostiques, biologiques, médicamenteuses, administratives et des courriers de sortie. Ce travail est organisé autour de 3 axes :Axe I. L’objectif est d’évaluer la qualité de la détection des facteurs pouvant majorer l’effet anticoagulant des antivitamines K (AVK), à l’aide de règles développées au cours de du projet européen PSIP (convention de subvention n° 216130). Une revue des cas sur une année a permis de calculer la valeur prédictive positive et la sensibilité des règles. Axe II. Nous avons réalisé une étude de cohorte historique sur les données de 2007 à 2012 pour déterminer les éléments majeurs impliqués dans l’élévation du risque hémorragique sous AVK dans la réalité clinique. Les cas étaient les séjours présentant une élévation de l’INR au-delà de 5, les témoins n’en présentaient pas. Axe III. Nous avons mis la réutilisation de données au service de l’étude de la qualité des prescriptions. D’une part nous avons évalué le suivi des recommandations de traitement du risque thromboembolique dans la fibrillation atriale (FA) chez la personne âgée, d’autre part nous avons étudié les modalités de prescription des anticoagulants oraux directs (AOD).Résultats : Axe I : La valeur prédictive positive des règles de détection des facteurs favorisant l’élévation de l’INR sous AVK est de 22,4%, leur sensibilité est de 84,6%. Les règles les plus contributives sont les règles de détection d’un syndrome infectieux et de l’administration d’amiodarone. Axe II : Les facteurs majeurs d’élévation du risque hémorragique sous AVK mis en évidence par l’étude de cohorte sont le syndrome infectieux, le cancer, l’hyprotidémie et l’insuffisance hépatique. Axe III : Le taux de suivi des recommandations dans la fibrillation atriale chez le sujet âgé est de 47.8%. Seuls 45% des patients reçoivent des anticoagulants oraux, 22,9% ne reçoivent aucun traitement antithrombotique et 32,1% reçoivent des antiagrégants plaquettaires. Les AOD sont quant à eux prescrits à des posologies inadaptées chez 15 à 31,4% des patients, respectivement pour le dabigatran et le rivaroxaban. Ces erreurs sont principalement des sous-dosages en AOD dans la FA de la personne âgée (82.6%). Discussion : L’informatisation des dossiers médicaux a permis la constitution de grandes bases de données médico-administratives, qui peuvent être utilisées à des fins variées comme nous le montrons dans ce travail. Dans le premier axe nous avons montré que des systèmes d’aide à la décision à base de règles permettent de caractériser les facteurs impliqués dans les surdosages en AVK avec une bonne sensibilité mais avec une faible valeur prédictive positive. Le second axe a montré que l’on pouvait utiliser ces données à des fins exploratoires pour identifier les facteurs liés à l’élévation de l’INR chez les patients recevant des AVK en pratique réelle. Le troisième axe montre que les systèmes à base de règles peuvent aussi être utilisés pour identifier des prescriptions inappropriées à des fins d’amélioration de la qualité des soins. Dans le domaine de l’anticoagulation ce travail ouvre des perspectives innovantes en vue de l’amélioration de la qualité des soins
Introduction :Oral anticoagulants raise major issues in terms of bleeding risk and appropriate use. The computerization of medical records offers the ability to access large databases that can be explored automatically. The objective of this work is to show how routinely collected data can be reused to study issues related to anticoagulants in a supportive approach to quality of care.MethodsThis work was carried out on the electronic data (97,355 records) of a community hospital. For each inpatient stay we have diagnostic, biological, drug and administrative data, and the discharge letters. This work is organized around three axes:Axis I. The objective is to evaluate the accuracy of the detection of factors that may increase the anticoagulant effect of vitamin K antagonists (VKA), using rules developed in the PSIP european project (grant agreement N° 216130). A case review on one year enabled the calculation of the positive predictive value and sensitivity of the rules. Axis II. We conducted a cohort study on data from 2007 to 2012 to determine the major elements involved in raising the risk of bleeding related to VKA in clinical reality. Cases were the stays with an elevation of the INR beyond 5, the controls did not have.Axis III. We made data reuse serve a study of the quality of the prescriptions. On the one hand we assessed treatment of the thromboembolic risk recommendations in atrial fibrillation (AF) in the elderly, on the other hand we investigated the prescription of direct oral anticoagulants.Results : Axis I : The positive predictive value of the rules intended to detect the factors favoring the elevation of INR in case of treatment with VKA is 22.4%, the sensitivity is 84.6%. The main contributive rules are the ones intended to detect an infectious syndrome and amiodarone.Axis II : The major factor increasing the INR with VKA treatment highlighted by the cohort study are infectious syndrome, cancer, hepatic insufficiency and hypoprotidemia. The recommendations compliance rate in atrial fibrillation in the elderly is 47.8%. Only 45% of patients receive oral anticoagulants, 22.9% do not receive antithrombotic treatment at all and 32.1% received platelet aggregation inhibitors. Direct oral anticoagulants are prescribed at inadequate dosages in 15 to 31.4% of patients, respectively for dabigatran and rivaroxaban. These errors are mainly underdosages in the elderly with atrial fibrillation (82.6%).Discussion : The computerization of medical records has led to the creation of large medical databases, which can be used for various purposes as we show in this work. In the first work axis we have shown that rule-based decision support systems detect the contributing factors for VKA overdose with a good sensitivity but a low positive predictive value. The second line shows that we could use the data for exploratory purposes to identify factors associated with increased INR in patients receiving VKA in “real life practice”. The third line shows that the rule-based systems can also be used to identify inappropriate prescribing for the purpose of improving the quality of care. In the field of anticoagulation this work opens up innovative perspectives for improving the quality of care

APA, Harvard, Vancouver, ISO, and other styles

46

Nguyen, Hoang Viet Tuan. "Prise en compte de la qualité des données lors de l’extraction et de la sélection d’évolutions dans les séries temporelles de champs de déplacements en imagerie satellitaire." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAA011.

Full text

Abstract:

Ce travail de thèse traite de la découverte de connaissances à partir de Séries Temporelles de Champs de Déplacements (STCD) obtenues par imagerie satellitaire. De telles séries occupent aujourd'hui une place centrale dans l'étude et la surveillance de phénomènes naturels tels que les tremblements de terre, les éruptions volcaniques ou bien encore le déplacement des glaciers. En effet, ces séries sont riches d'informations à la fois spatiales et temporelles et peuvent aujourd'hui être produites régulièrement à moindre coût grâce à des programmes spatiaux tels que le programme européen Copernicus et ses satellites phares Sentinel. Nos propositions s'appuient sur l'extraction de motifs Séquentiels Fréquents Groupés (SFG). Ces motifs, à l'origine définis pour l'extraction de connaissances à partir des Séries Temporelles d’Images Satellitaires (STIS), ont montré leur potentiel dans de premiers travaux visant à dépouiller une STCD. Néanmoins, ils ne permettent pas d'utiliser les indices de confiance intrinsèques aux STCD et la méthode de swap randomisation employée pour sélectionner les motifs les plus prometteurs ne tient pas compte de leurs complémentarités spatiotemporelles, chaque motif étant évalué individuellement. Notre contribution est ainsi double. Une première proposition vise tout d'abord à associer une mesure de fiabilité à chaque motif en utilisant les indices de confiance. Cette mesure permet de sélectionner les motifs portés par des données qui sont en moyenne suffisamment fiables. Nous proposons un algorithme correspondant pour réaliser les extractions sous contrainte de fiabilité. Celui-ci s'appuie notamment sur une recherche efficace des occurrences les plus fiables par programmation dynamique et sur un élagage de l'espace de recherche grâce à une stratégie de push partiel, ce qui permet de considérer des STCD conséquentes. Cette nouvelle méthode a été implémentée sur la base du prototype existant SITS-P2miner, développé au sein du LISTIC et du LIRIS pour extraire et classer des motifs SFG. Une deuxième contribution visant à sélectionner les motifs les plus prometteurs est également présentée. Celle-ci, basée sur un critère informationnel, permet de prendre en compte à la fois les indices de confiance et la façon dont les motifs se complètent spatialement et temporellement. Pour ce faire, les indices de confiance sont interprétés comme des probabilités, et les STCD comme des bases de données probabilistes dont les distributions ne sont que partielles. Le gain informationnel associé à un motif est alors défini en fonction de la capacité de ses occurrences à compléter/affiner les distributions caractérisant les données. Sur cette base, une heuristique est proposée afin de sélectionner des motifs informatifs et complémentaires. Cette méthode permet de fournir un ensemble de motifs faiblement redondants et donc plus faciles à interpréter que ceux fournis par swap randomisation. Elle a été implémentée au sein d'un prototype dédié. Les deux propositions sont évaluées à la fois quantitativement et qualitativement en utilisant une STCD de référence couvrant des glaciers du Groenland construite à partir de données optiques Landsat. Une autre STCD que nous avons construite à partir de données radar TerraSAR-X couvrant le massif du Mont-Blanc est également utilisée. Outre le fait d'être construites à partir de données et de techniques de télédétection différentes, ces séries se différencient drastiquement en termes d'indices de confiance, la série couvrant le massif du Mont-Blanc se situant à des niveaux de confiance très faibles. Pour les deux STCD, les méthodes proposées ont été mises en œuvre dans des conditions standards au niveau consommation de ressources (temps, espace), et les connaissances des experts sur les zones étudiées ont été confirmées et complétées
This PhD thesis deals with knowledge discovery from Displacement Field Time Series (DFTS) obtained by satellite imagery. Such series now occupy a central place in the study and monitoring of natural phenomena such as earthquakes, volcanic eruptions and glacier displacements. These series are indeed rich in both spatial and temporal information and can now be produced regularly at a lower cost thanks to spatial programs such as the European Copernicus program and its famous Sentinel satellites. Our proposals are based on the extraction of grouped frequent sequential patterns. These patterns, originally defined for the extraction of knowledge from Satellite Image Time Series (SITS), have shown their potential in early work to analyze a DFTS. Nevertheless, they cannot use the confidence indices coming along with DFTS and the swap method used to select the most promising patterns does not take into account their spatiotemporal complementarities, each pattern being evaluated individually. Our contribution is thus double. A first proposal aims to associate a measure of reliability with each pattern by using the confidence indices. This measure allows to select patterns having occurrences in the data that are on average sufficiently reliable. We propose a corresponding constraint-based extraction algorithm. It relies on an efficient search of the most reliable occurrences by dynamic programming and on a pruning of the search space provided by a partial push strategy. This new method has been implemented on the basis of the existing prototype SITS-P2miner, developed by the LISTIC and LIRIS laboratories to extract and rank grouped frequent sequential patterns. A second contribution for the selection of the most promising patterns is also made. This one, based on an informational criterion, makes it possible to take into account at the same time the confidence indices and the way the patterns complement each other spatially and temporally. For this aim, the confidence indices are interpreted as probabilities, and the DFTS are seen as probabilistic databases whose distributions are only partial. The informational gain associated with a pattern is then defined according to the ability of its occurrences to complete/refine the distributions characterizing the data. On this basis, a heuristic is proposed to select informative and complementary patterns. This method provides a set of weakly redundant patterns and therefore easier to interpret than those provided by swap randomization. It has been implemented in a dedicated prototype. Both proposals are evaluated quantitatively and qualitatively using a reference DFTS covering Greenland glaciers constructed from Landsat optical data. Another DFTS that we built from TerraSAR-X radar data covering the Mont-Blanc massif is also used. In addition to being constructed from different data and remote sensing techniques, these series differ drastically in terms of confidence indices, the series covering the Mont-Blanc massif being at very low levels of confidence. In both cases, the proposed methods operate under standard conditions of resource consumption (time, space), and experts’ knowledge of the studied areas is confirmed and completed

APA, Harvard, Vancouver, ISO, and other styles

47

Walstra, Jan. "Historical aerial photographs and digital photogrammetry for landslide assessment." Thesis, Loughborough University, 2006. https://dspace.lboro.ac.uk/2134/2501.

Full text

Abstract:

This study demonstrates the value of historical aerial photographs as a source for monitoring long-term landslide evolution, which can be unlocked by using appropriate photogrammetric methods. The understanding of landslide mechanisms requires extensive data records; a literature review identified quantitative data on surface movements as a key element for their analysis. It is generally acknowledged that, owing to the flexibility and high degree of automation of modern digital photogrammetric techniques, it is possible to derive detailed quantitative data from aerial photographs. In spite of the relative ease of such techniques, there is only scarce research available on data quality that can be achieved using commonly available material, hence the motivation of this study. In two landslide case-studies (the Mam Tor and East Pentwyn landslides) the different types of products were explored, that can be derived from historical aerial photographs. These products comprised geomorphological maps, automatically derived elevation models (DEMs) and displacement vectors. They proved to be useful and sufficiently accurate for monitoring landslide evolution. Comparison with independent survey data showed good consistency, hence validating the techniques used. A wide range of imagery was used in terms of quality, media and format. Analysis of the combined datasets resulted in improvements to the stochastic model and establishment of a relationship between image ground resolution and data accuracy. Undetected systematic effects provided a limiting constraint to the accuracy of the derived data, but the datasets proved insufficient to quantify each factor individually. An important advancement in digital photogrammetry is image matching, which allows automation of various stages of the working chain. However, it appeared that the radiometric quality of historical images may not always assure good results, both for extracting DEMs and vectors using automatic methods. It can be concluded that the photographic archive can provide invaluable data for landslide studies, when modern photogrammetric techniques are being used. As ever, independent and appropriate checks should always be included in any photogrammetric design.

APA, Harvard, Vancouver, ISO, and other styles

48

Guemeida, Abdelbasset. "Contributions à une nouvelle approche de Recherche d'Information basée sur la métaphore de l'impédance et illustrée sur le domaine de la santé." Phd thesis, Université Paris-Est, 2009. http://tel.archives-ouvertes.fr/tel-00581322.

Full text

Abstract:

Les récentes évolutions dans les technologies de l'information et de la communication, avec le développement de l'Internet, conduisent à l'explosion des volumes des sources de données. Des nouveaux besoins en recherche d'information émergent pour traiter l'information en relation aux contextes d'utilisation, augmenter la pertinence des réponses et l'usabilité des résultats produits, ainsi que les possibles corrélations entre sources de données, en rendant transparentes leurs hétérogénéités. Les travaux de recherche présentés dans ce mémoire apportent des contributions à la conception d'une Nouvelle Approche de Recherche d'Information (NARI) pour la prise de décision. NARI vise à opérer sur des grandes masses de données cataloguées, hétérogènes, qui peuvent être géo référencées. Elle est basée sur des exigences préliminaires de qualité (standardisation, réglementations), exprimées par les utilisateurs, représentées et gérées à l'aide des métadonnées. Ces exigences conduisent à pallier le manque de données ou leur insuffisante qualité, pour produire une information de qualité suffisante par rapport aux besoins décisionnels. En utilisant la perspective des utilisateurs, on identifie et/ou on prépare des sources de données, avant de procéder à l'étape d'intégration des contenus. L'originalité de NARI réside dans la métaphore de l'écart d'impédance (phénomène classique lorsque on cherche à connecter deux systèmes physiques hétérogènes). Cette métaphore, dont R. Jeansoulin est à l'origine, ainsi que l'attention portée au cadre réglementaire, en guident la conception. NARI est structurée par la dimension géographique (prise en compte de divers niveaux de territoires, corrélations entre plusieurs thématiques) : des techniques d'analyse spatiale supportent des tâches de la recherche d'information, réalisées souvent implicitement par les décideurs. Elle s'appuie sur des techniques d'intégration de données (médiation, entrepôts de données), des langages de représentation des connaissances et des technologies et outils relevant du Web sémantique, pour supporter la montée en charge, la généralisation et la robustesse théorique de l'approche. NARI est illustrée sur des exemples relevant de la santé

APA, Harvard, Vancouver, ISO, and other styles

49

Heurteau, Foulon Stéphanie. "Prévalence, qualité de vie et coût de la Leucémie Myéloïde Chronique en France Using healthcare claims data to analyze the prevalence of BCR-ABL-positive chronic myeloid leukemia in France: A nationwide population-based study Health state utility and quality of life measures in patients with chronic myeloid leukemia in France." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS574.

Full text

Abstract:

La leucémie myéloïde chronique (LMC) est une hémopathie maligne rare dont le pronostic a été transformé à partir des années 2000 par les inhibiteurs de tyrosine kinase (ITK). L’augmentation spectaculaire de l’espérance de vie des patients a conduit à une augmentation de la prévalence de la LMC. D’une maladie mortelle à moyen terme, la LMC est devenue une maladie chronique nécessitant la prise quotidienne d’ITK pendant plusieurs années. Les ITK sont des traitements onéreux qui, pris au long cours par un nombre croissant de patients, augmentent le fardeau économique de la maladie. Ces traitements ne sont pas dénués d’effets secondaires qui peuvent altérer la qualité de vie des patients. En France, il existe cependant peu de données sur la prévalence, la qualité de vie et les coûts induits par la maladie.Le Système National des Données de Santé (SNDS) est une base de données médico-administratives couvrant 98,8% de la population française et contenant les données exhaustives de consommation de soins remboursés par l’Assurance Maladie. Nous avons construit et validé un algorithme d’identification des patients ayant une LMC dans le SNDS à partir de leur consommation de soins et estimé la prévalence de la maladie au 31 décembre 2014. Sur la population de patients identifiés par l’algorithme, nous avons estimé le coût des ITK en 2013 et en 2014 en adoptant la perspective de l’Assurance Maladie. Nous avons complété ce travail par une enquête transversale réalisée en 2018 auprès de patients atteints de LMC pour recueillir leurs données de qualité de vie à l’aide d’un questionnaire générique (EuroQol EQ-5D-3L), d’un questionnaire spécifique au cancer (EORTC-QLQ-C30) complété par son module spécifique à la LMC (EORTC-QLQ-CML-24).L’algorithme a identifié 10 789 patients ayant une LMC en France au 31 décembre 2014, correspondant à une prévalence brute de la maladie de 16,3 pour 100 000 habitants [intervalle de confiance à 95% 16,0-16,6]. Pour la population prévalente de 10 158 patients atteints de LMC en 2013, le montant total des ITK remboursés par l’Assurance Maladie était de 238 millions d’euros, tous régimes confondus. Ce montant s’élevait à 247 millions d’euros pour les 10 789 patients prévalents en 2014. En 2014, l’imatinib représentait environ 55% de ce montant, suivi par le nilotinib (22%) et le dasatinib (22%). La qualité de vie des patients ayant une LMC est sensiblement altérée par rapport à celle de la population générale de même sexe et de même âge avec une altération de la fonction sociale, du niveau d’activité et de la fonction cognitive. La fatigue, la dyspnée et la douleur sont des symptômes marqués. La valeur moyenne d’utilité (écart-type) était de 0,72 (0,25) pour les patients en phase chronique et de 0,84 (0,21) pour les patients en rémission sans traitement.Au-delà des résultats épidémiologiques, cliniques et économiques, ce travail démontre la faisabilité, la pertinence mais aussi la complexité de l’utilisation d’une base de de données telle que le SNDS pour étudier des pathologies rares comme la LMC
Chronic myeloid leukemia (CML) is a rare myeloproliferative neoplasm whose prognosis has been transformed since the 2000s by tyrosine kinase inhibitors (TKI). The dramatic increase in patients' life expectancy has led to an increase in the prevalence of CML. CML has become a chronic disease that requires daily TKI treatment for several years, but which is compatible with a normal life span for the majority of patients. TKI are expensive treatments that, taken over the long term by an increasing number of patients, increase the economic burden of the disease. TKI have side effects that affect patients' quality of life. In France, however, there is little data on the prevalence of CML, on the economic burden and quality of life.The National Health Data System (Système National des Données de Santé, SNDS) is a health care claims database that covers 98,8% of the French population and contains exhaustive data on health cares reimbursed by the Health Insurance. We built and validated an algorithm identifying patients with CML in the SNDS, based on their healthcare consumption and estimated the prevalence of the disease on December 31st, 2014. On the population identified by the algorithm, we estimated the cost of TKI in 2013 and 2014 from a health insurance perspective. We also conducted a survey in CML patients to collect their quality of life data using generic (EuroQol EQ-5D-3L), cancer-specific (EORTC-QLQ-C30) and CML-specific (EORTC-QLQ-CML-24) questionnaires. Utility values in CML patients were assessed using the French EQ-5D-3L value set.The algorithm identified 10,789 patients with CML in France in 2014, corresponding to a crude prevalence of the disease of 16.3 per 100,000 inhabitants [95% confidence interval 16.0-16.6]. In the 10,158 prevalent CML patients in 2013, the reimbursement for TKI amounted to €238 million, all insurance schemes combined. This amount increased to €247 million for the 10,789 patients prevalent in 2014. In 2014, imatinib accounted for about 55% of TKI reimbursements, followed by nilotinib (22%) and dasatinib (22%). The quality of life in CML patients was significantly impaired compared to the general population of the same sex and age, mainly in the dimensions of social functioning, role functioning and cognitive functioning. Fatigue, dyspnea and pain were the symptoms with the highest deviation from general population norms. The mean utility score (standard deviation) was 0.72 (0.25) for patients in chronic phase and 0.84 (0.21) for patients in remission without treatment.Beyond the epidemiological, clinical and economic results, this work demonstrates that using a database such as the SNDS for research is feasible, relevant but also complex in rare diseases such as CML

APA, Harvard, Vancouver, ISO, and other styles

50

Yahyaoui, Hasna. "Méthode d'analyse de données pour le diagnostic a posteriori de défauts de production - Application au secteur de la microélectronique." Thesis, Saint-Etienne, EMSE, 2015. http://www.theses.fr/2015EMSE0795/document.

Full text

Abstract:

La maîtrise du rendement d’un site de fabrication et l’identification rapide des causes de perte de qualité restent un défi quotidien pour les industriels, qui font face à une concurrence continue. Dans ce cadre, cette thèse a pour ambition de proposer une démarche d’analyse permettant l’identification rapide de l’origine d’un défaut, à travers l’exploitation d’un maximum des données disponibles grâce aux outils de contrôle qualité, tel que la FDC, la métrologie, les tests paramétriques PT, et le tri électriques EWS. Nous avons proposé une nouvelle méthode hybride de fouille de données, nommée CLARIF, qui combine trois méthodes de fouille de données à savoir, le clustering, les règles d’association et l’induction d’arbres de décision. Cette méthode se base sur la génération non supervisée d’un ensemble de modes de production potentiellement problématiques, qui sont caractérisés par des conditions particulières de production. Elle permet, donc, une analyse qui descend au niveau des paramètres de fonctionnement des équipements. L’originalité de la méthode consiste dans (1) une étape de prétraitement pour l’identification de motifs spatiaux à partir des données de contrôle, (2) la génération non supervisée de modes de production candidats pour expliquer le défaut. Nous optimisons la génération des règles d’association à travers la proposition de l’algorithme ARCI, qui est une adaptation du célèbre algorithme de fouille de règles d’association, APRIORI, afin de permettre d’intégrer les contraintes spécifiques à la problématique de CLARIF, et des indicateurs de qualité de filtrage des règles à identifier, à savoir la confiance, la contribution et la complexité. Finalement, nous avons défini un processus d’Extraction de Connaissances à partir des Données, ECD permettant de guider l’utilisateur dans l’application de CLARIF pour expliquer une perte de qualité locale ou globale
Controlling the performance of a manufacturing site and the rapid identification of quality loss causes remain a daily challenge for manufacturers, who face continuing competition. In this context, this thesis aims to provide an analytical approach for the rapid identification of defect origins, by exploring data available thanks to different quality control systems, such FDC, metrology, parametric tests PT and the Electrical Wafer Sorting EWS. The proposed method, named CLARIF, combines three complementary data mining techniques namely clustering, association rules and decision trees induction. This method is based on unsupervised generation of a set of potentially problematic production modes, which are characterized by specific manufacturing conditions. Thus, we provide an analysis which descends to the level of equipment operating parameters. The originality of this method consists on (1) a pre-treatment step to identify spatial patterns from quality control data, (2) an unsupervised generation of manufacturing modes candidates to explain the quality loss case. We optimize the generation of association rules through the proposed ARCI algorithm, which is an adaptation of the famous association rules mining algorithm, APRIORI to integrate the constraints specific to our issue and filtering quality indicators, namely confidence, contribution and complexity, in order to identify the most interesting rules. Finally, we defined a Knowledge Discovery from Databases process, enabling to guide the user in applying CLARIF to explain both local and global quality loss problems

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!