Log in

Relevant bibliographies by topics / Extraction de Connaissances de Données / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Extraction de Connaissances de Données.

Dissertations / Theses on the topic 'Extraction de Connaissances de Données'

Author: Grafiati

Published: 4 June 2021

Last updated: 4 February 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Extraction de Connaissances de Données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Azé, Jérôme. "Extraction de Connaissances à partir de Données Numériques et Textuelles." Phd thesis, Université Paris Sud - Paris XI, 2003. http://tel.archives-ouvertes.fr/tel-00011196.

Full text

Abstract:

Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.<br />L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.<br />Les experts des données ont souvent des difficultés pour déterminer ce support.<br />Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.<br />Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".<br />Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.<br />Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.<br /><br />Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.<br />Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.<br />Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.<br /><br />Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.<br />Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.<br />Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.<br />Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.

APA, Harvard, Vancouver, ISO, and other styles

2

Masseglia, Florent. "Extraction de connaissances : réunir volumes de données et motifs significatifs." Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00788309.

Full text

Abstract:

L'analyse et la fouille des données d'usages sont indissociables de la notion d'évolution dynamique. Considérons le cas des sites Web, par exemple. Le dynamisme des usages sera lié au dynamisme des pages qui les concernent. Si une page est créée, et qu'elle présente de l'intérêt pour les utilisateurs, alors elle sera consultée. Si la page n'est plus d'actualité, alors les consultations vont baisser ou disparaître. C'est le cas, par exemple, des pages Web de conférences scientifiques qui voient des pics successifs de consultation lorsque les appels à communications sont diffusés, puis le jour de la date limite d'envoi des résumés, puis le jour de la date limite d'envoi des articles. Dans ce mémoire d'habilitation à diriger des recherches, je propose une synthèse des travaux que j'ai dirigés ou co-dirigés, en me basant sur des extraits de publications issues de ces travaux. La première contribution concerne les difficultés d'un processus de fouille de données basé sur le support minimum. Ces difficultés viennent en particulier des supports très bas, à partir desquels des connaissances utiles commencent à apparaître. Ensuite, je proposerai trois déclinaisons de cette notion d'évolution dans l'analyse des usages : l'évolution en tant que connaissance (des motifs qui expriment l'évolution) ; l'évolution des données (en particulier dans le traitement des flux de données) ; et l'évolution des comportements malicieux et des techniques de défense.

APA, Harvard, Vancouver, ISO, and other styles

3

Dubois, Vincent. "Apprentissage approximatif et extraction de connaissances à partir de données textuelles." Nantes, 2003. http://www.theses.fr/2003NANT2001.

Full text

Abstract:

La problématique de cette thèse est l'extraction de connaissances à partir de données textuelles (KDT) en se basant sur la théorie des ensembles approximatifs (RST) et l'apprentissage symbolique et numérique. Les contributions sont : (1) l'extension des espaces de versions (espaces de versions approximatifs (RVS)), (2) l'application des RVS au KDT, (3) la découverte et visualisation de graphes à partir de textes. Tout d'abord, nous définissons les espaces de versions approximatifs (RVS), en construisant des opérateurs d'approximation, ce qui aboutit à un cadre général pour l'apprentissage symbolique automatique. L'introduction de la notion de consistance approximative conduit à l'utilisation de concepts presque consistants avec les données. En pratique, cela a pour effet d'étendre l'interprétation des concepts lors de l'apprentissage, et de traiter les données inconsistantes à l'aide de regroupement des exemples. . .

APA, Harvard, Vancouver, ISO, and other styles

4

Jouve, Pierre-Emmanuel. "Apprentissage non supervisé et extraction de connaissances à partir de données." Lyon 2, 2003. http://theses.univ-lyon2.fr/documents/lyon2/2003/jouve_pe.

Full text

Abstract:

Les travaux constituant cette dissertation concernent la classification non supervisée. Cette problématique, commune à de multiples domaines (et ainsi connue sous diverses acceptions : apprentissage/classification non supervisé(e) en reconnaissance de formes, taxonomie en sciences de la vie, typologie en sciences humaines. . . ), est ici envisagée selon la perspective Ingénierie des Connaissances et plus spécifiquement dans le cadre de son intégration au sein du processus dExtraction de Connaissances à partir de Données (ECD). D'une part, nos travaux participent à l'amélioration du processus de classification non supervisée, et ce, selon divers axes propres ou non à l'ECD (coût calculatoire et utilisabilité des méthodes, formes et distribution des données traitées, forme des connaissances extraites, sélection de variables pour l'apprentissage non supervisé. . . ) mais aussi à l'évaluation de la qualité d'un processus de classification non supervisée (estimation de la validité des résultats issus du processus). D'autre part ces travaux visent à illustrer le lien très étroit unissant apprentissage non supervisé et apprentissage supervisé et à monter l'intérêt d'une intéraction antre ces deux types de processus. Concrètement, ces divers problèmes sont abordé et présentés au travers d'une nouvelle méthode de classification non supervisée, de deux nouveaux indices et d'une méthodologie dédiés à l'évaluation/comparaison de la validité de classification non superviséé, de méthodes de sélection de variables pour l'apprentissage non supervisé et l'apprentissage supervisé, de plusieurs méthodes pour l'agrégation de classification non supervisée.

APA, Harvard, Vancouver, ISO, and other styles

5

Zeitouni, Karine. "Analyse et extraction de connaissances des bases de données spatio-temporelles." Habilitation à diriger des recherches, Université de Versailles-Saint Quentin en Yvelines, 2006. http://tel.archives-ouvertes.fr/tel-00325468.

Full text

Abstract:

Ces dernières années ont vu une croissance phénoménale dans la production et la diffusion des données spatiales de sources aussi variées qu'hétérogènes. Cela a généré des besoins d'intégration dans des entrepôts de données et des perspectives d'analyse exploratoire et de fouille de données spatiales et spatiotemporelles. Nos travaux se placent dans ce contexte visant l'analyse et l'extraction des connaissances depuis les bases de données spatiotemporelles. Ils traitent différents aspects allant de la modélisation avancée des données spatiales, à la fouille de ces données en passant par leur intégration dans un entrepôt, l'optimisation des requêtes et l'analyse en ligne. Ainsi, nous décrivons nos approches pour la modélisation 3D, puis pour la modélisation spatiotemporelle d'objets mobiles. Ensuite, l'intégration de données spatiales est traitées selon deux aspects : l'intégration de formats et l'intégration de données par l'appariement géométrique. Une architecture d'entrepôt de données spatiales basée sur les standards XML et GML est proposée, puis dotée d'une technique d'optimisation de requêtes spatiales basée sur un cache sémantique. L'exploration des données spatiotemporelles a donné lieu à des solutions originales extension de l'OLAP. Enfin, différentes approches sont proposées pour la fouille de données spatiales. Nous avons ouvert le spectre de nos recherches à la fouille d'autres données complexes, telles que les données séquentielles et textuelles. Ces travaux ainsi que les développements futurs sont exposés dans ce mémoire.

APA, Harvard, Vancouver, ISO, and other styles

6

Gaumer, Gaëtan. "Résumé de données en extraction de connaissances à partir des données (ECD) : application aux données relationnelles et textuelles." Nantes, 2003. http://www.theses.fr/2003NANT2025.

Full text

Abstract:

Les travaux présentés dans cette thèse ont été réalisés dans le cadre d'un contrat CNET JMINER, dont le but est l'étude de pré-traitement et post-traitements en extraction de connaissances à partir des données, appliqués aux lettres de réclamation de France Télécom. Les caractéristiques particulières des données de cette application ont orienté nos travaux de recherche. Nous nous sommes tout d'abord intéressés aux problèmes liés à l'extraction de connaissances à partir de très importants volumes de données. Nous proposons, pour résoudre ces problèmes, de remplacer les données à traiter par un résumé de ces données possédant les mêmes caractéristiques. Cette proposition s'est concrétisée par le développement du logiciel CFSUMM, un système de création de résumés de données utilisant des mesures de similarités et d'indiscernabilités entre instances. Nous montrons pourquoi et comment les caractéristiques de ce logiciel le destine particulièrementà la réduction d'importants volumes de données, qu'ils soient issus de bases de données relationnelles ou d'indexation de documents non structurés (texte, html, etc). . .

APA, Harvard, Vancouver, ISO, and other styles

7

Godreau, Victor. "Extraction des connaissances à partir des données de la surveillance de l'usinage." Thesis, Nantes, 2017. http://www.theses.fr/2017NANT4104.

Full text

Abstract:

Dans le cadre des recherches sur l’industrie 4.0, la surveillance des procédés de fabrication est un sujet clé. De grandes quantités d’information, transitant dans les machines de fabrications, sont mesurables et peuvent être utilisées dans les entreprises pour optimiser de nombreux processus. Ces processus, de la conception à la qualité en passant par la maintenance, sont tous intéressés par les données de terrain issues de la production pour réaliser une amélioration continue. Il faut donc capitaliser ces données puis les traiter afin de les rendre pertinentes pour chacun des utilisateurs. Le broutement est un phénomène d’instabilité de la coupe en usinage qui dégrade la qualité des pièces usinées. Dans une première partie, un modèle de simulation numérique a été réalisé pour lier les vibrations mesurées en machine et leurs impacts sur la qualité de la pièce finie. De nouvelles données concernant la qualité sont donc prédites par la surveillance. Dans une seconde partie, des méthodes d’extraction des connaissances dans les données sont adaptées et appliquées aux données capitalisées en usinage. Cette étude, concernant la maintenance des moyens de production, tend à répondre à la question de l’impact des évènements survenant en usinage sur la durée de vie des broches. Finalement, les derniers travaux porteront sur l’intégration des systèmes de surveillance dans les entreprises et sur la création d’indicateurs de performance adaptés à chaque service, pour tirer parti, au maximum, du potentiel de ces données<br>In the industry 4.0 research field, the monitoring of the process is a key issue. Milling machines are in the center of an important flow of information that are measurable and that can be used to improve company processes. Those processes (conception, industrialization, quality, maintenance) are all interested in field manufacturing data to continuously improve themselves. Capitalizing this data flow and transform it into relevant criteria for all services, is then necessary. Chatter is an instability phenomenon of the cut during machining. It deteriorates the quality of machined part surfaces. In a first part, a numerical model has been created to link the vibration measured during machining to their impact on finished part quality. So, new data concerning quality issues is collected. In a second part, methods of knowledge discovery in databases are adapted and applied to monitoring data. This study, concern a maintenance issue. It tends to answer the question: which kind of machining events impacts the wear of machining spindles. Finally, last works will talk about the integration of monitoring systems in the information system of industries and the computation of new Key Performance Indicators (KPI) adapted to each specific need of factories to take advantage of the full potential of the monitoring data

APA, Harvard, Vancouver, ISO, and other styles

8

Bendou, Mohamed. "Extraction de connaissances à partir des données à l'aide des réseaux bayésiens." Paris 11, 2003. http://www.theses.fr/2003PA112053.

Full text

Abstract:

L'objectif principal de cette thèse se focalise essentiellement sur la conception de nouveaux algorithmes d'apprentissage de réseaux Bayésiens, plus précis, plus efficaces, plus robustes en présence du bruit et, donc, plus adaptés aux tâches pratiques d'ECD. Partant de l'observation que la plupart des optima locaux dans l'espace des structures de réseaux bayésiens sont directement liés à l'existence des classes d'équivalence (ensembles de structures encodant les mêmes relations d'indépendance conditionnelle, représentées par des graphes semi-orientés), nous avons concentré une partie importante de nos recherches sur l'élaboration d'une nouvelle famille d'algorithmes d'apprentissage: EQ, qui explorent directement l'espace des classes d'équivalence, ainsi que sur le développement d'une "boîte à outils" théoriques et algorithmiques pour l'analyse et le traitement des graphes semi-orientés. Nous avons pu démontrer que les gains de précision significatifs apportés par ce type d'approche peuvent être obtenus tout en conservant des temps de calcul comparables à ceux des approches classiques. Ainsi, nous avons contribué au regain d'intérêt actuel pour l'apprentissage des classes d'équivalence de réseaux bayésiens (considéré pendant longtemps comme trop complexe par la communauté scientifique). Enfin, un autre volet de nos recherches a été consacré à l'analyse des effets du bruit présent dans les données sur l'apprentissage des réseaux Bayésiens. Nous avons analysé et expliqué l'augmentation de la complexité des réseaux Bayésiens appris à partir de données bruitées et montré que, contrairement aux sur-spécialisations classiques affectant les autres classes de méthodes d'apprentissage, ce phénomène est justifié théoriquement et bénéfique pour le pouvoir prédictif des modèles appris<br>The main objective of this thesis basically focuses on developing a new kind of learning algorithms of Bayésiens networks, more accurate, efficient and robust in presence of the noise and, therefore, adapted to KDD tasks. Since most of local optima in the space of networks bayésiens structures are caused directly by the existence of equivalence classes (sets of structures encoding the same conditional independence relations, represented by the partially oriented graphs), we concentrated important part of our researches on the development of a new family of learning algorithms: EQ. These algorithms directly explore the space of equivalence classes. We also developed theoretical and algorithmic tools for the analysis and the treatment of partially oriented graphs. We could demonstrate that a meaningful precision gains brought by this kind of approach can be obtained in a comparable time than the classical approaches. We, thus, contributed to the present interest renewal for the learning of equivalence classes of bayesian networks (considered for a long time as too complex by the scientific community). Finally, another aspect of our research has been dedicated to the analysis of noise effects in data on the learning of the Bayesians networks. We analyzed and explained the increase of the complexity of learned Bayesian networks learned from noisy data and shown that, unlike classical over-fitting which affects other classes of learning methods, this phenomenon is theoretically justified by the alteration of the conditional independence relations between the variables and is beneficial for the predictive power of the learned models

APA, Harvard, Vancouver, ISO, and other styles

9

Munteanu, Paul. "Extraction de connaissances dans les bases de données parole : apport de l'apprentissage symbolique." Grenoble INPG, 1996. http://www.theses.fr/1996INPG0207.

Full text

Abstract:

L'objectif principal de cette these est d'apporter des arguments, d'ordre theorique et experimental, pour soutenir l'interet des methodes d'apprentissage symbolique dans la recherche en communication parlee proche des signaux physiques. Dans un premier temps, nous presentons nos contributions en apprentissage symbolique qui visent a repondre a certaines particularites de ce domaine. Pmbc est un algorithme original d'apprentissage par generalisations successives dans les espaces numeriques, qui combine des heuristiques issues de l'apprentissage non-supervise, de la classification statistique et de l'induction de regles. L'analyse theorique sur laquelle est fonde notre deuxieme algorithme, idf, fournit une explication rigoureuse et des perspectives d'amelioration des heuristiques generalement utilisees dans l'induction d'arbres de decision, notamment dans le traitement des attributs numeriques. Les performances de ces deux algorithmes ont ete validees sur un grand nombre de bases de donnees utilisees generalement pour la comparaison des resultats d'apprentissage. Notre troisieme contribution, copac, est un environnement informatique d'induction interactive de regles de classification qui met l'accent sur la cooperation entre les methodes d'apprentissage automatique et les experts humains. Nous presentons ensuite des resultats experimentaux encourageants obtenus sur deux problemes representatifs des besoins en recherche dans le domaine de la parole: l'acquisition de connaissances prosodiques pour l'amelioration de l'acces lexical et la caracterisation des occlusives sourdes. La derniere partie de cette these est consacree a l'integration des methodes d'apprentissage symbolique dans l'environnement sidoc de gestion de donnees et de connaissances sur la parole, fonde sur le modele objet

APA, Harvard, Vancouver, ISO, and other styles

10

Ghoorah, Anisah. "Extraction de Connaissances pour la Modelisation tri-dimensionnelle de l'Interactome Structural." Phd thesis, Université de Lorraine, 2012. http://tel.archives-ouvertes.fr/tel-00762444.

Full text

Abstract:

L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK. Le système KBDOCK couvre plus de 2,700 hetero DDIs non-redondantes correspondant à 1,439 DFBSs localisés sur 947 domaines Pfam distincts. KBDOCK a permis de réaliser plusieurs études étendues. Par exemple, KBDOCK a été utilisé pour montrer que: (1) après de 70% de familles de domaines protéiques n'ont qu'un seul DFBS et les autres familles en ont un petit nombre seulement, ce qui suggère que les DDIs re-utilisent souvent les mêmes sites de liaison; (2) plus de 80% de DFBSs interagissent avec une seule famille de domaines protéiques et les autres DFBSs interagissent avec un petit nombre de familles, ce qui indique que la plupart des DFBSs sont principalement monogames dans leur interactions avec les autres domaines protéiques; (3) les DFBSs impliqués dans des interactions présentent des régularités en terme de structure secondaire, ce qui pourrait servir comme un descripteur complémentaire dans la prédiction d'interaction; (4) lorsque les domaines re-utilisent leur DFBS, le docking orienté vient améliorer les prédictions. Ainsi, KBDOCK constitue une ressource unifiée qui permet d'enrichir les connaissances sur l'interactome structural.

APA, Harvard, Vancouver, ISO, and other styles

11

Ghoorah, Anisah W. "Extraction de connaissances pour la modélisation tri-dimensionnelle de l'interactome structural." Thesis, Université de Lorraine, 2012. http://www.theses.fr/2012LORR0204/document.

Full text

Abstract:

L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK<br>Understanding how the protein interactome works at a structural level could provide useful insights into the mechanisms of diseases. Comparative homology modelling and ab initio protein docking are two computational methods for modelling the three-dimensional (3D) structures of protein-protein interactions (PPIs). Previous studies have shown that both methods give significantly better predictions when they incorporate experimental PPI information. However, in general, PPI information is often not available in an easily accessible way, and cannot be re-used by 3D PPI modelling algorithms. Hence, there is currently a need to develop a reliable framework to facilitate the reuse of PPI data. This thesis presents a systematic knowledge-based approach for representing, describing and manipulating 3D interactions to study PPIs on a large scale and to facilitate knowledge-based modelling of protein-protein complexes. The main contributions of this thesis are: (1) it describes an integrated database of non-redundant 3D hetero domain interactions; (2) it presents a novel method of describing and clustering DDIs according to the spatial orientations of the binding partners, thus introducing the notion of "domain family-level binding sites" (DFBS); (3) it proposes a structural classification of DFBSs similar to the CATH classification of protein folds, and it presents a study of secondary structure propensities of DFBSs and interaction preferences; (4) it introduces a systematic case-base reasoning approach to model on a large scale the 3D structures of protein complexes from existing structural DDIs. All these contributions have been made publicly available through a web server (http://kbdock.loria.fr)

APA, Harvard, Vancouver, ISO, and other styles

12

Objois, Matthieu. "Langages de requêtes temporels, extraction de connaissances temporelles et application aux flux de données." Paris 11, 2007. http://www.theses.fr/2007PA112092.

Full text

Abstract:

Une base de données temporelle est vue comme une suite finie de bases de données relationnelles classiques. Dans ce cadre, nous considérons tout d'abord un problème ouvert concernant l'expressivité relative de langages de requêtes temporels connus : le langage mu-TL d'une part (Vardi, 1988), et les langages T-FIXPOINT et T-WHILE d'autre part (Abiteboul et al. , 1999). Nous montrons que ces langages sont équivalents pour la majorité des bases de données temporelles. Nous partons ensuite du constat que les langages temporels connus ne permettent pas d'extraire des informations qui sont elles-mêmes temporelles. Nous proposons des langages qui réalisent cette extraction, et nous en analysons les propriétés. Enfin, nous considérons le traitement des flux de données. Dans la littérature, deux paradigmes ont été introduit pour poser des requêtes continues sur les flux : les approches mono-données et les approches avec fenêtre. Nous formalisons ces deux paradigmes par des machines à états inspirées de la machine de Turing, et nous montrons que ces machines ont la même expressivité relative, sous certaines hypothèses<br>A temporal database can be seen as a finite sequence of classical relational databases. Within this framework, we first consider an open problem concerning the relative expressive power of some known temporal query languages: mu-TL (Vardi, 1988) on the one hand, and T-FIXPOINT and T-WHILE (Abiteboul et al. , 1999) on the other hand. We prove that these languages are equivalent over most temporal databases. On the basis that known temporal query languages do not allow to extract temporal information, we then introduce and define query languages able to extract such information, and we analyse their properties. Finally, we consider data streams. In the literature, two paradigms have been introduced to continuously query streams: the single-data approach and the window approach. We formalize both paradigms by the way of Turing-like state machines, and we show that the machines have the same expressive power, under some hypothesis

APA, Harvard, Vancouver, ISO, and other styles

13

Dahabiah, Anas. "Extraction de connaissances et indexation de données multimédia pour la détection anticipée d'événements indésirables." Télécom Bretagne, 2010. http://www.theses.fr/2010TELB0117.

Full text

Abstract:

Tout système ayant pour but d'analyser ou d'organiser automatiquement un ensemble de données ou de connaissances doit utiliser, sous une forme ou une autre, un opérateur de similarité dont le but est d'établir les ressemblances ou les relations qui existent entre les informations manipulées. Cette notion de similarité a fait l'objet d'importantes recherches dans des domaines extrêmement divers où les informations peuvent comporter des données hétérogènes au niveau de l'échelle de mesure (quantitatives, qualitatives, ordinales, etc. ), et qui peuvent être affectées par des différents types d'imperfection (imprécision, incertitude, ambigüité, ignorance, etc. ). Néanmoins, toutes les mesures qui ont été proposées auparavant prennent en compte uniquement quelques formes de l'hétérogénéité et d'imperfection en négligeant les autres et/ou en ignorant l'existence simultanée de tous ces aspects. De surcroît les approches conçues pour traiter simultanément l'hétérogénéité et l'imperfection de l'information requièrent la définition de nombreuses contraintes et une lourde mise en place. Ces mesures consomment également un temps considérable lors du traitement d'une masse importante de données, comme c'est le cas des différentes applications de Fouille de Données. Dans cette thèse, nous montrons que la théorie des possibilités peut traiter aisément l'hétérogénéité et l'imperfection de l'information offrant, en plus, aux utilisateurs l'option d'exprimer et d'intégrer leurs points de vue lors du calcul de similarité, via des fonctions de tolérance que nous avons proposées. Cette modélisation possibiliste de la similarité a été matérialisée via divers modèles représentatifs spatiaux, graphiques, et structurels, et a été exploitée dans un certain nombre d'applications de Fouille de Données (classification, ordination, estimation) en utilisant une base de données médicales. Nous montrons via les différents exemples que la généralité, la rapidité, la simplicité et l'efficacité de cette approche sont toujours garanties<br>Similarity measuring is the essential quoin of the majority of data mining techniques and tasks in which information elements can take any type (quantities, qualitative, binary, ordinal, etc. ) and may be affected with various forms of imperfection (uncertainty, imprecision, ambiguity, etc. ). Additionally, the points of view of the experts and data owners must sometimes be considered and integrated even if presented in ambiguous or imprecise manners. Nonetheless, all the existing methods and approaches have partially handled some aspects of the aforementioned points disregarding the others. In reality, the heterogeneity, the imperfection, and the personalization have been separately conducted in prior works, using some constraints and assumptions that can overburden the procedure, limit their applications, and increase its computing time which is a crucial issue in data mining. In this thesis, we propose a novel approach essentially based on possibility theory to deal with all the aforementioned aspects within a unified general integrated framework. In order to get deeper insight and understanding of the information elements, the possibilistic modeling has been materialized via spatial, graphical and structural representations and applied to several data mining tasks using a medical database

APA, Harvard, Vancouver, ISO, and other styles

14

Vandromme, Maxence. "Optimisation combinatoire et extraction de connaissances sur données hétérogènes et temporelles : application à l’identification de parcours patients." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10044.

Full text

Abstract:

Les données hospitalières présentent de nombreuses spécificités qui rendent difficilement applicables les méthodes de fouille de données traditionnelles. Dans cette thèse, nous nous intéressons à l'hétérogénéité de ces données ainsi qu'à leur aspect temporel. Dans le cadre du projet ANR ClinMine et d'une convention CIFRE avec la société Alicante, nous proposons deux nouvelles méthodes d'extraction de connaissances adaptées à ces types de données. Dans la première partie, nous développons l'algorithme MOSC (Multi-Objective Sequence Classification) pour la classification supervisée sur données hétérogènes, numériques et temporelles. Cette méthode accepte, en plus des termes binaires ou symboliques, des termes numériques et des séquences d'événements temporels pour former des ensembles de règles de classification. MOSC est le premier algorithme de classification supportant simultanément ces types de données. Dans la seconde partie, nous proposons une méthode de biclustering pour données hétérogènes, un problème qui n'a à notre connaissance jamais été exploré. Cette méthode, HBC (Heterogeneous BiClustering), est étendue pour supporter les données temporelles de différents types : événements temporels et séries temporelles irrégulières. HBC est utilisée pour un cas d'étude sur un ensemble de données hospitalières, dont l'objectif est d'identifier des groupes de patients ayant des profils similaires. Les résultats obtenus sont cohérents et intéressants d'un point de vue médical ; et amènent à la définition de cas d'étude plus précis. L'intégration dans une solution logicielle est également engagée, avec une version parallèle de HBC et un outil de visualisation des résultats<br>Hospital data exhibit numerous specificities that make the traditional data mining tools hard to apply. In this thesis, we focus on the heterogeneity associated with hospital data and on their temporal aspect. This work is done within the frame of the ANR ClinMine research project and a CIFRE partnership with the Alicante company. In this thesis, we propose two new knowledge discovery methods suited for hospital data, each able to perform a variety of tasks: classification, prediction, discovering patients profiles, etc.In the first part, we introduce MOSC (Multi-Objective Sequence Classification), an algorithm for supervised classification on heterogeneous, numeric and temporal data. In addition to binary and symbolic terms, this method uses numeric terms and sequences of temporal events to form sets of classification rules. MOSC is the first classification algorithm able to handle these types of data simultaneously. In the second part, we introduce HBC (Heterogeneous BiClustering), a biclustering algorithm for heterogeneous data, a problem that has never been studied so far. This algorithm is extended to support temporal data of various types: temporal events and unevenly-sampled time series. HBC is used for a case study on a set of hospital data, whose goal is to identify groups of patients sharing a similar profile. The results make sense from a medical viewpoint; they indicate that relevant, and sometimes new knowledge is extracted from the data. These results also lead to further, more precise case studies. The integration of HBC within a software is also engaged, with the implementation of a parallel version and a visualization tool for biclustering results

APA, Harvard, Vancouver, ISO, and other styles

15

Rioult, François. "Extraction de connaissances dans les bases de données comportant des valeurs manquantes ou un grand nombre d'attributs." Caen, 2005. http://www.theses.fr/2005CAEN2035.

Full text

Abstract:

L'extraction de motifs est une tâche centrale pour l'extraction de connaissances dans les bases de données et cette thèse traite de deux cas génériques et particulièrement utiles dans de nombreuses applications : les bases de données entachées de valeurs manquantes ou comportant un grand nombre d'attributs. Sans traitement particulier, les valeurs manquantes sont source de graves dommages dans les connaissances extraites. Nous proposons un mécanisme de désactivation temporaire des objets incomplets, qui permet par des calculs dans une base incomplète de mettre en évidence des propriétés compatibles avec la base complète. Ces propriétés sont exploitées avec celles de la base opposée pour proposer une méthode originale de construction de règles d'association informatives généralisées. De nombreuses applications concernent des données comportant un grand nombre d'attributs, comme l'analyse du génome qui produit des données sur des dizaines de milliers de gènes, mais les expériences biologiques sont coûteuses donc peu nombreuses. En utilisant un principe de transposition et les propriétés de la connexion de Galois, nous avons développé un cadre formel pour l'extraction de motifs contraints dans ces données, qui permet de choisir l'orientation de la base de données la plus favorable pour les algorithmes d'extraction. Les contraintes de recherche sont également transposables et permettent d'obtenir les motifs contraints en menant les extractions dans le contexte transposée. Enfin, l'utilisation de règles d'association généralisées à des fins d'apprentissage supervisé et de motifs émergents forts complète ces travaux pour des applications médicales et génomiques.

APA, Harvard, Vancouver, ISO, and other styles

16

Ben, Ahmed Walid. "SAFE-Next : une approche systémique pour l'extraction de connaissances de données : application à la construction et à l'interprétation de scénarios d'accidents de la route." Châtenay-Malabry, Ecole centrale de Paris, 2005. http://www.theses.fr/2005ECAP0982.

Full text

Abstract:

Aujourd’hui, l’informatisation des saisies de données et la puissance des systèmes de collecte conduisent à la construction de grandes Bases de Données (BD). L’exploitation de ces millions de données fait appel à des techniques d’Extraction de Connaissances de Données (ECD) et des techniques d’Ingénierie des Connaissances (IC). Dans ce travail de thèse, nous proposons une nouvelle approche, appelée SAFE-Next (Systemic Approach For Enhanced kNowledge Extraction) qui intègre les quatre approches suivantes : La première est appelée ASMEC (Approche Systémique de Modélisation des Connaissances). Elle consiste en une méthode de modélisation des connaissances multi-vues et selon une architecture à plusieurs niveaux d’abstraction. La deuxième approche, AICEF (Approche d’Incorporation des Connaissances Expertes dans la Fouille de données), propose l’élaboration et l’utilisation de métadonnées multi-vues comme un moyen pour l’incorporation des connaissances formalisées par ASMEC dans le processus d’ECD. La troisième approche, ASAIC (Approche Systémique d’Analyse d’Impact de Changement), utilise le modèle de connaissances d’ASMEC pour une analyse interactive et multi-vues de l’impact d’un changement sur un système. La quatrième approche, ASEM (Approche Systémique d’Evaluation de Modèles), fournit un modèle général d’évaluation de modèles de connaissances. SAFE-Next a été appliquée dans le domaine de l’accidentologie pour l’élaboration de Scénarios-Type d’Accidents (STA) multi-vues. Ces STA sont utilisés comme un moyen de communication entre les accidentologistes et les concepteurs pour le développement des systèmes de sécurité embarqués dans les véhicules.

APA, Harvard, Vancouver, ISO, and other styles

17

Plantevit, Marc. "Extraction De Motifs Séquentiels Dans Des Données Multidimensionelles." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00319242.

Full text

Abstract:

L'extraction de motifs séquentiels est devenue, depuis son introduction, une technique majeure du domaine de la fouille de données avec de nombreuses applications (analyse du comportement des consommateurs, bioinformatique, sécurité, musique, etc.). Les motifs séquentiels permettent la découverte de corrélations entre événements en fonction de leurs chronologies d'apparition. Il existe de nombreux algorithmes permettant l'extraction de tels motifs. Toutefois, ces propositions ne prennent en compte qu'une seule dimension d'analyse (e.g le produit dans les applications de type étude des achats des consommateurs) alors que la plupart des données réelles sont multidimensionnelles par nature. Dans ce manuscrit, nous définissons les motifs séquentiels multidimensionnels afin de prendre en compte les spécificités inhérentes aux bases de données multidimensionnelles (plusieurs dimensions, hiérarchies, valeurs agrégées). Nous définissons des algorithmes permettant l'extraction de motifs séquentiels multi- dimensionnels en tenant compte des ces spécificités. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. Nous nous intéressons également à l'extraction de comportements temporels atypiques dans des données multidimensionnelles. Nous montrons qu'il peut y avoir plusieurs interprétations d'un comportement atypique (fait ou connaissance). En fonction de chaque interprétation, nous proposons une méthode d'extraction de tels comportements. Ces méthodes sont également validées par des expérimentations sur des données réelles.

APA, Harvard, Vancouver, ISO, and other styles

18

Raïssi, Chedy. "Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00351626.

Full text

Abstract:

Extraction de séquences fréquentes : des bases de données statiques aux flots de données Il est reconnu aujourd'hui que l'être humain est généralement noyé sous une profusion d'informations et que sa capacité d'analyse n'est plus capable de faire face au volume sans cesse croissant de données. C'est dans ce contexte qu'est né le processus d'Extraction de Connaissance dans les bases de Données. Un des buts de ce processus est de passer d'un grand volume d'informations à un petit ensemble de connaissances à fortes valeurs ajoutées pour l'analyste ou le décideur. De plus, le processus d'ECD n'est pas un processus monolithique et univoque au cours duquel il s'agirait d'appliquer un principe général à tous les types de données stockées ou récupérées. Ainsi, une des étapes de ce processus qu'est la fouille de données peut se dériver sous plusieurs formes tels que : le clustering, la classification, l'extraction d'itemset et de règles d'associations, l'extraction de structures plus complexes tels que les épisodes, les graphes ou comme dans le cadre de cette thèse l'extraction de motifs séquentiels. Malheureusement, dans un monde sans cesse en évolution, le contexte dans lequel les travaux d'ECD ont été définis ces dernières années considérait que les données, sur lesquelles la fouille était réalisée, étaient disponibles dans des bases de données statiques. Aujourd'hui, suite au développement de nouvelles technologies et applications associées, nous devons faire face à de nouveaux modèles dans lesquels les données sont disponibles sous la forme de flots. Une question se pose alors : quid des approches d'extraction de connaissances traditionnelles ? Dans ce mémoire, nous présentons un ensemble de résultat sur les motifs séquentiels dans les bases de données d'un point de vue des représentations condensées et des méthodes d'échantillonnage puis nous étendons nos différentes approches afin de prendre en compte le nouveau modèle des flots de données. Nous présentons des algorithmes permettant ainsi l'extraction de motifs séquentiels (classiques et multidimensionnels) sur les flots. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions.

APA, Harvard, Vancouver, ISO, and other styles

19

Inthasone, Somsack. "Techniques d'extraction de connaissances en biodiversité." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4013/document.

Full text

Abstract:

Les données sur la biodiversité sont généralement représentées et stockées dans différents formats. Cela rend difficile pour les biologistes leur agrégation et leur intégration afin d'identifier et découvrir des connaissances pertinentes dans le but, par exemple, de classer efficacement des spécimens. Nous présentons ici l'entrepôt de données BioKET issu de la consolidation de données hétérogènes de différentes sources. Actuellement, le champ d'application de BioKET concerne la botanique. Sa construction a nécessité, notamment, d'identifier et analyser les ontologies et bases botaniques existantes afin de standardiser et lier les descripteurs utilisés dans BioKET. Nous avons également développé une méthodologie pour la construction de terminologies taxonomiques, ou thésaurus, à partir d'ontologies de plantes et d'informations géo-spatiales faisant autorité. Les données de biodiversité et botanique de quatre fournisseurs majeurs et de deux systèmes d'informations géo-spatiales ont été intégrées dans BioKET. L'utilité d'un tel entrepôt de données a été démontrée par l'application de méthodes d'extraction de modèles de connaissances, basées sur les approches classiques Apriori et de la fermeture de Galois, à des ensembles de données générées à partir de BioKET. En utilisant ces méthodes, des règles d'association et des clusters conceptuels ont été extraits pour l'analyse des statuts de risque de plantes endémiques au Laos et en Asie du Sud-Est. En outre, BioKET est interfacé avec d'autres applications et ressources, tel que l'outil GeoCAT pour l'évaluation géo-spatiale des facteurs de risques, afin de fournir un outil d'analyse performant pour les données de biodiversité<br>Biodiversity data are generally stored in different formats. This makes it difficult for biologists to combine and integrate them in order to retrieve useful information and discover novel knowledge for the purpose of, for example, efficiently classifying specimens. In this work, we present the BioKET data warehouse which is a consolidation of heterogeneous data stored in different formats and originating from different sources. For the time being, the scope of BioKET is botanical. Its construction required, among others things, to identify and analyze existing botanical ontologies, to standardize and relate terms in BioKET. We also developed a methodology for mapping and defining taxonomic terminologies, that are controlled vocabularies with hierarchical structures from authoritative plant ontologies, Google Maps, and OpenStreetMap geospatial information system. Data from four major biodiversity and botanical data providers and from the two previously mentioned geospatial information systems were then integrated in BioKET. The usefulness of such a data warehouse was demonstrated by applying classical knowledge pattern extraction methods, based on the classical Apriori and Galois closure based approaches, to several datasets generated from BioKET extracts. Using these methods, association rules and conceptual bi-clusters were extracted to analyze the risk status of plants endemic to Laos and Southeast Asia. Besides, BioKET is interfaced with other applications and resources, like the GeoCAT Geospatial Conservation Assessment Tool, to provide a powerful analysis tool for biodiversity data

APA, Harvard, Vancouver, ISO, and other styles

20

Plantié, Michel. "Extraction automatique de connaissances pour la décision multicritère." Phd thesis, Ecole Nationale Supérieure des Mines de Saint-Etienne, 2006. http://tel.archives-ouvertes.fr/tel-00353770.

Full text

Abstract:

Cette thèse, sans prendre parti, aborde le sujet délicat qu'est l'automatisation cognitive. Elle propose la mise en place d'une chaîne informatique complète pour supporter chacune des étapes de la décision. Elle traite en particulier de l'automatisation de la phase d'apprentissage en faisant de la connaissance actionnable--la connaissance utile à l'action--une entité informatique manipulable par des algorithmes.<br />Le modèle qui supporte notre système interactif d'aide à la décision de groupe (SIADG) s'appuie largement sur des traitements automatiques de la connaissance. Datamining, multicritère et optimisation sont autant de techniques qui viennent se compléter pour élaborer un artefact de décision qui s'apparente à une interprétation cybernétique du modèle décisionnel de l'économiste Simon. L'incertitude épistémique inhérente à une décision est mesurée par le risque décisionnel qui analyse les facteurs discriminants entre les alternatives. Plusieurs attitudes dans le contrôle du risque décisionnel peuvent être envisagées : le SIADG peut être utilisé pour valider, vérifier ou infirmer un point de vue. Dans tous les cas, le contrôle exercé sur l'incertitude épistémique n'est pas neutre quant à la dynamique du processus de décision. L'instrumentation de la phase d'apprentissage du processus décisionnel conduit ainsi à élaborer l'actionneur d'une boucle de rétroaction visant à asservir la dynamique de décision. Notre modèle apporte un éclairage formel des liens entre incertitude épistémique, risque décisionnel et stabilité de la décision.<br />Les concepts fondamentaux de connaissance actionnable (CA) et d'indexation automatique sur lesquels reposent nos modèles et outils de TALN sont analysés. La notion de connaissance actionnable trouve dans cette vision cybernétique de la décision une interprétation nouvelle : c'est la connaissance manipulée par l'actionneur du SIADG pour contrôler la dynamique décisionnelle. Une synthèse rapide des techniques d'apprentissage les plus éprouvées pour l'extraction automatique de connaissances en TALN est proposée. Toutes ces notions et techniques sont déclinées sur la problématique spécifique d'extraction automatique de CAs dans un processus d'évaluation multicritère. Enfin, l'exemple d'application d'un gérant de vidéoclub cherchant à optimiser ses investissements en fonction des préférences de sa clientèle reprend et illustre le processus informatisé dans sa globalité.

APA, Harvard, Vancouver, ISO, and other styles

21

Raissi, Chedy. "Extraction de séquences fréquentes : des bases de données statiques aux flots de données." Montpellier 2, 2008. http://www.theses.fr/2008MON20063.

Full text

APA, Harvard, Vancouver, ISO, and other styles

22

Galarraga, Del Prado Luis. "Extraction des règles d'association dans des bases de connaissances." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0050/document.

Full text

Abstract:

Le développement rapide des techniques d’extraction d’information a permis de construire de vastes bases de connaissances généralistes. Ces bases de connaissances contiennent des millions de faits portant sur des entités du monde réel, comme des personnes, des lieux, ou des organisations. Ces faits sont accessibles aux ordinateurs, et leur permettent ainsi de “comprendre” le monde réel. Ces bases trouvent donc de nombreuses applications, notamment pour la recherche d’information, le traitement de requêtes, et le raisonnement automatique. Les nombreuses informations contenues dans les bases de connaissances peuvent également être utilisées pour découvrir des motifs intéressants et fréquents dans les données. Cette tâche, l’extraction de règles d’association, permet de comprendre la structure des données ; les règles ainsi obtenues peuvent être employées pour l’analyse de données, la prédiction, et la maintenance de données, entre autres applications. Cette thèse présente deux contributions principales. En premier lieu, nous proposons une nouvelle méthode pour l’extraction de règles d’association dans les bases de connaissances. Cette méthode s’appuie sur un modèle d’extraction qui convient particulièrement aux bases de connaissances potentiellement incomplètes, comme celles qui sont extraites à partir des données du Web. En second lieu, nous montrons que l’extraction de règles peut être utilisée sur les bases de connaissances pour effectuer de nombreuses tâches orientées vers les données. Nous étudions notamment la prédiction de faits, l’alignement de schémas, la mise en forme canonique de bases de connaissances ouvertes, et la prédiction d’annotations de complétude<br>The continuous progress of information extraction (IE) techniques has led to the construction of large general-purpose knowledge bases (KBs). These KBs contain millions of computer-readable facts about real-world entities such as people, organizations and places. KBs are important nowadays because they allow computers to “understand” the real world. They are used in multiple applications in Information Retrieval, Query Answering and Automatic Reasoning, among other fields. Furthermore, the plethora of information available in today’s KBs allows for the discovery of frequent patterns in the data, a task known as rule mining. Such patterns or rules convey useful insights about the data. These rules can be used in several applications ranging from data analytics and prediction to data maintenance tasks. The contribution of this thesis is twofold : First, it proposes a method to mine rules on KBs. The method relies on a mining model tailored for potentially incomplete webextracted KBs. Second, the thesis shows the applicability of rule mining in several data-oriented tasks in KBs, namely facts prediction, schema alignment, canonicalization of (open) KBs and prediction of completeness

APA, Harvard, Vancouver, ISO, and other styles

23

Oudni, Amal. "Fouille de données par extraction de motifs graduels : contextualisation et enrichissement." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066437/document.

Full text

Abstract:

Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription<br>This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription

APA, Harvard, Vancouver, ISO, and other styles

24

Valétudie, Georges. ""Nouvelles méthodes en Data-Mining et extraction de connaissances à partir de données :application au complexe mycobacterium tuberculosis"." Antilles-Guyane, 2006. http://www.theses.fr/2006AGUY0151.

Full text

Abstract:

Le besoin de tratement et d'extraction de connaissances à partir de larges bases de données en constante augmentation, a été à l'origine du développement de techniques et méthodes liées au data-Mining ou Knowledge discovery in databases. Cette discipline en pleine effervecence,regroupe différents domaines de compétences,intégrant notamment les techniques de gestion de base de données et les méthodes d'apprentissage et de prediction. Les procédures de traitement et d'analyse de données séquentielles. Ceci permet de déterminer les séquences les plus discriminantes de classes d'individus,définies à priori par les experts du domaine, et d'automatiser par des règles de connaissances,les procédures de traitement de séquences d'ADN. Nous avons donc cherché à mettre en oeuvre, des systèmes de spoligotypage. Nous avons mesuré l'impact de méthodes adaptées à notre domaine d'application en terme de performances, en tenant compte des contraintes qu'elles imposent. Par ailleurs, nous avons conçu un indice permettant de mieux prendre en compte l'aspect séquentiel de nos données, et presenté une méthode solidement basée sur l'inférence statistique,permettant de définir des règles de décisions concises, à partir d'une représentation condensée sous la forme d'un AEF. Bien qu'il soit encore prématuré de procéder à une sélection de méthodes, les expérimentations menées ont fourni de bons résultat. En fait, l'étude des possibilités d'approches coopératives entre méthodes semble être une voie pleine de promesses. Le champ d'étude reste encore vaste, pour un domaine d'application ou l'apport des méthodes d'extration automatique de connaissances demeure sans contexte un atout majeur<br>The needs fo knowledge processing from increasing large databases has been the source for the development of techniques and methods related to Data-Mining (also called knowledge Discovery from Databases). This field is composed of various subfields, in particular techniques for dabatase management, learning and prediction. Data processing and analtsis are both expensive and lengthy in epidemiology. So, we are interested in models tailored to knowledge extraction from sequential data, in order to determine the most discriminating seqeunces of classes of data a priori defined by the experts of the field, and to automate with knowledge rules the treatment of DNA sequences. So, we try to implement systems for surpervised classification, in order to train and predict sequential data, i. E. Spoligotypes in our case. For this objective, we introduced methods adated to our application field(expert rules,Markov chains,Decision trees,. . . ), including classifiers systems, which present the interest of a constzant interaction with their environment and the exploitation of genetic algorithms for their evolution. We have measured their performances, taking their constraints into account. In addition, we have devised an index allowing us to take into account in a better way the sequential form of our data, and we have presented a method based on statistical inference , which allows us to define rules with the condensed representation of a DFA. Our experiments displays promising good results, althourgh it is too early tonperform a selection among the methods. Rather, the possibility of a cooperative approach among methods seems to be more promising. Anyway, the contribution of the sequence-mining methods for knowledge extraction remains a major asset for this application field

APA, Harvard, Vancouver, ISO, and other styles

25

Haddad, Mohamed Hatem. "Extraction et impact des connaissances sur les performances des systèmes de recherche d'information." Phd thesis, Université Joseph Fourier (Grenoble), 2002. http://tel.archives-ouvertes.fr/tel-00004459.

Full text

Abstract:

Dans un contexte riche d'information, un système de recherche d'information doit être capable de trouver les meilleurs résultats possibles dans un océan d'information. Notre étude s'intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d'analyse d'une approche linguistique (extraction et structuration) à la capacité d'une approche statistique de traiter de gros corpus. L'approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d'association. L'approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l'information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l'extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d'un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée ``quantité d'information'', est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d'une approche statistique et d'une approche linguistique affine les connaissances extraites et améliore les performances d'un système de recherche d'information.

APA, Harvard, Vancouver, ISO, and other styles

26

Serrano, Laurie. "Vers une capitalisation des connaissances orientée utilisateur : extraction et structuration automatiques de l'information issue de sources ouvertes." Caen, 2014. http://www.theses.fr/2014CAEN2011.

Full text

Abstract:

Face à l’augmentation vertigineuse des informations disponibles librement (notamment sur le Web), repérer efficacement celles qui présentent un intérêt s’avère une tâche longue et complexe. Les analystes du renseignement d’origine sources ouvertes sont particulièrement concernés par ce phénomène. En effet, ceux-ci recueillent manuellement une grande partie des informations d'intérêt afin de créer des fiches de connaissance résumant le savoir acquis à propos d’une entité. Dans ce contexte, cette thèse a pour objectif de faciliter et réduire le travail des acteurs du renseignement et de la veille. Nos recherches s’articulent autour de trois axes : la modélisation de l’information, l'extraction d’information et la capitalisation des connaissances. Nous avons réalisé un état de l’art de ces différentes problématiques afin d'élaborer un système global de capitalisation des connaissances. Notre première contribution est une ontologie dédiée à la représentation des connaissances spécifiques au renseignement et pour laquelle nous avons défini et modélisé la notion d'événement dans ce domaine. Par ailleurs, nous avons élaboré et évalué un système d’extraction d’événements fondé sur deux approches actuelles en extraction d'information : une première méthode symbolique et une seconde basée sur la découverte de motifs séquentiels fréquents. Enfin, nous avons proposé un processus d’agrégation sémantique des événements afin d'améliorer la qualité des fiches d'événements obtenues et d'assurer le passage du texte à la connaissance. Celui-ci est fondé sur une similarité multidimensionnelle entre événements, exprimée par une échelle qualitative définie selon les besoins des utilisateurs<br>Due to the considerable increase of freely available data (especially on the Web), the discovery of relevant information from textual content is a critical challenge. Open Source Intelligence (OSINT) specialists are particularly concerned by this phenomenon as they try to mine large amounts of heterogeneous information to acquire actionable intelligence. This collection process is still largely done by hand in order to build knowledge sheets summarizing all the knowledge acquired about a specific entity. Given this context, the main goal of this thesis work is to reduce and facilitate the daily work of intelligence analysts. For this sake, our researches revolve around three main axis: knowledge modeling, text mining and knowledge gathering. We explored the literature related to these different domains to develop a global knowledge gathering system. Our first contribution is the building of a domain ontology dedicated to knowledge representation for OSINT purposes and that comprises a specific definition and modeling of the event concept for this domain. Secondly, we have developed and evaluated an event recognition system which is based on two different extraction approaches: the first one is based on hand-crafted rules and the second one on a frequent pattern learning technique. As our third contribution, we proposed a semantic aggregation process as a necessary post-processing step to enhance the quality of the events extracted and to convert extraction results into actionable knowledge. This is achieved by means of multiple similarity measures between events, expressed according a qualitative scale which has been designed following our final users' needs

APA, Harvard, Vancouver, ISO, and other styles

27

Coulet, Adrien. "Construction et utilisation d'une base de connaissances pharmacogénomique pour l'intégration de données et la découverte de connaissances." Phd thesis, Université Henri Poincaré - Nancy I, 2008. http://tel.archives-ouvertes.fr/tel-00332407.

Full text

Abstract:

Cette thèse porte sur l'utilisation d'ontologies et de bases de connaissances pour guider différentes étapes du processus d'Extraction de Connaissances à partir de Bases de Données (ECBD) et sur une application en pharmacogénomique. Les données relatives à ce domaine sont hétérogènes, complexes, et distribuées dans diverses bases de données, ce qui rend cruciale l'étape préliminaire de préparation et d'intégration des données à fouiller. Je propose pour guider cette étape une approche originale d'intégration de données qui s'appuie sur une représentation des connaissances du domaine sous forme de deux ontologies en logiques de description : SNP-Ontology et SO-Pharm. Cette approche a été implémentée grâce aux technologies du Web sémantique et conduit au peuplement d'une base de connaissances pharmacogénomique. Le fait que les données à fouiller soient alors disponibles dans une base de connaissances entraîne de nouvelles potentialités pour le processus d'extraction de connaissances. Je me suis d'abord intéressé au problème de la sélection des données les plus pertinentes à fouiller en montrant comment la base de connaissances peut être exploitée dans ce but. Ensuite j'ai décrit et appliqué à la pharmacogénomique, une méthode qui permet l'extraction de connaissances directement à partir d'une base de connaissances. Cette méthode appelée Analyse des Assertions de Rôles (ou AAR) permet d'utiliser des algorithmes de fouille de données sur un ensemble d'assertions de la base de connaissances pharmacogénomique et d'expliciter des connaissances nouvelles et pertinentes qui y étaient enfouies.

APA, Harvard, Vancouver, ISO, and other styles

28

Jouve, Pierre-Emmanuel Nicoloyannis Nicolas. "Apprentissage non supervisé et extraction de connaissances à partir de données." Lyon : Université Lumière Lyon 2, 2003. http://demeter.univ-lyon2.fr/sdx/theses/lyon2/2003/jouve_pe.

Full text

APA, Harvard, Vancouver, ISO, and other styles

29

Duthil, Benjamin. "De l'extraction des connaissances à la recommandation." Phd thesis, Montpellier 2, 2012. http://tel.archives-ouvertes.fr/tel-00771504.

Full text

Abstract:

Les technologies de l'information et le succès des services associés (forums, sites spécialisés, etc) ont ouvert la voie à un mode d'expression massive d'opinions sur les sujets les plus variés (e-commerce, critiques artistiques, etc). Cette profusion d'opinions constitue un véritable eldorado pour l'internaute, mais peut rapidement le conduire à une situation d'indécision car,les avis déposés peuvent être fortement disparates voire contradictoires. Pour une gestion fiable et pertinente de l'information contenue dans ces avis, il est nécessaire de mettre en place des systèmes capables de traiter directement les opinions exprimées en langage naturel afin d'en contrôler la subjectivité et de gommer les effets de lissage des traitements statistiques. La plupart des systèmes dits de recommandation ne prennent pas en compte toute la richesse sémantique des critiques et leur associent souvent des systèmes d'évaluation qui nécessitent une implication conséquente et des compétences particulières chez l'internaute. Notre objectif est de minimiser l'intervention humaine dans le fonctionnement collaboratif des systèmes de recommandation en automatisant l'exploitation des données brutes que constituent les avis en langage naturel. Notre approche non supervisée de segmentation thématique extrait les sujets d'intérêt des critiques, puis notre technique d'analyse de sentiments calcule l'opinion exprimée sur ces critères. Ces méthodes d'extraction de connaissances combinées à des outils d'analyse multicritère adaptés à la fusion d'avis d'experts ouvrent la voie à des systèmes de recommandation pertinents, fiables et personnalisés.

APA, Harvard, Vancouver, ISO, and other styles

30

Bouguessa, Mohamed. "Classification non supervisée des données de hautes dimensions et extraction des connaissances dans les services WEB de question-réponse." Thèse, Université de Sherbrooke, 2009. http://savoirs.usherbrooke.ca/handle/11143/5096.

Full text

Abstract:

Cette thèse à publication propose d'étudier deux problématiques différentes : 1) la classification non supervisée (clustering) des données de hautes dimensions, et 2) l'extraction des connaissances dans les services Web de question-réponse. Nos contributions sont présentées à travers trois chapitres. Dans le premier chapitre, nous proposons un algorithme de projected clustering nomme PCKA (Projected Clustering based on the K-means Algorithm). Contrairement à la vaste majorité des approches existantes, PCKA est capable de découvrir des structures de clusters qui existent dans différents sous-espaces de faibles dimensionnalités et ce en utilisant une mesure de similarité bien adaptée aux caractéristiques particulières des données multidimensionnelles. La fiabilité de PCKA est illustrée à travers des tests et des comparaisons avec les approches existantes sur une variété de données synthétiques et réelles. Le deuxième chapitre aborde le problème de l'identification des utilisateurs experts dans les forums Internet de question-réponse. Notre contribution inclut le développement d'une approche probabiliste qui se base sur le modèle de mélange de distributions de la loi Gamma. Notre approche permet de séparer, de façon systématique, les utilisateurs experts des non-experts alors que les approches existantes fournissent une liste ordonnée d'utilisateurs seulement. Le troisième chapitre étudie le problème de l'identification des communautés dans les forums Internet de question-réponse. Notre contribution inclut l'introduction du nouveau concept de "communauté de partage des connaissances". Ces communautés sont définies par les interactions entre les utilisateurs experts et non-experts. Pour identifier ce type de communauté nous représentons notre environnement sous la forme des données transactionnelles et nous proposons un algorithme de clustering nomme TRANCLUS (TRAnsaction CLUStering). Les clusters identifies par TRANCLUS représentent les communautés que nous cherchons à découvrir. Notre approche est validée sur des données extraites de plusieurs forums de Yahoo! Answers.

APA, Harvard, Vancouver, ISO, and other styles

31

Badra, Fadi. "Extraction de connaissances d'adaptation en raisonnement à partir de cas." Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00438140.

Full text

Abstract:

Cette thèse se situe à l'intersection de trois domaines de recherche : le raisonnement à partir de cas, l'extraction de connaissances et la représentation des connaissances. Raisonner à partir de cas consiste à résoudre un nouveau problème en utilisant un ensemble de problèmes déjà résolus, appelés cas. Dans cette thèse, un langage de représentation des variations entre cas est introduit. Nous montrons comment ce langage peut être utilisé pour représenter les connaissances d'adaptation et pour modéliser la phase d'adaptation en raisonnement à partir de cas. Ce langage est ensuite appliqué à la tâche d'apprentissage de connaissances d'adaptation. Un processus d'extraction de connaissances, appelé CabamakA, est mis au point. Ce processus permet d'apprendre des connaissances d'adaptation par généralisation à partir d'une représentation des variations entre cas. Une discussion est ensuite menée sur les conditions d'opérationnalisation de CabamakA au sein d'un processus d'acquisition de connaissances. L'étude aboutit à la proposition d'un nouveau type d'approche pour l'acquisition de connaissances d'adaptation dans lequel le processus d'extraction de connaissances est déclenché de manière opportuniste au cours d'une session particulière de résolution de problèmes. Les diérents concepts introduits dans la thèse sont illustrés dans le domaine culinaire à travers leur application au système de raisonnement à partir de cas Taaable, qui constitue le contexte applicatif de l'étude.

APA, Harvard, Vancouver, ISO, and other styles

32

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00179506.

Full text

Abstract:

La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.

APA, Harvard, Vancouver, ISO, and other styles

33

Rioult, François. "Extraction de connaissances dans les bases de donn'ees comportant des valeurs manquantes ou un grand nombre d'attributs." Phd thesis, Université de Caen, 2005. http://tel.archives-ouvertes.fr/tel-00252089.

Full text

Abstract:

L'extraction de connaissances dans les bases de données est une discipline récente visant à la découverte de nouvelles connaissances. L'extraction de motifs y est une tâche centrale et cette thèse traite de deux cas présentant un caractère générique et particulièrement utile dans de nombreuses applications : celui des bases de données entachées de valeurs manquantes ou comportant un grand nombre d'attributs. Le premier cas est un problème ancien concernant les données issues du monde réel. Sans traitement particulier, les valeurs manquantes sont sources de graves dommages dans les connaissances extraites. Pour faire face à ce problème, nous proposons un mécanisme de désactivation temporaire des objets incomplets. Il permet d'effectuer des calculs dans une base incomplète, qui mettent en évidence des propriétés des données qui sont compatibles avec les propriétés de la base complète. Nous montrons un résultat de consistance des motifs k-libres extraits dans la base avec des valeurs manquantes. Ces propriétés sont exploitées avec celles issues de la base opposée pour proposer une méthode originale de construction de règles d'association informatives généralisées. Un outil logiciel a été développé pour l'extraction des motifs k-libres en présence de données incomplètes. Le deuxième cas concerne les bases de données aux dimensions inhabituelles, comportant nettement plus d'attributs que d'objets, configuration rendant difficile voire impossible l'application des algorithmes classiques. De nombreuses applications sont caractérisées par des données de ce type. Par exemple le domaine scientifique émergent de l'analyse du génome produit des données sur des dizaines de milliers de gènes, mais les expériences biologiques qui déterminent la séquence de gènes sont coûteuses et donc peu nombreuses. Nous avons développé un cadre formel pour l'extraction de motifs contraints dans ces données, en utilisant un principe de transposition et les propriétés de la connexion de Galois. Ce cadre permet de choisir l'orientation de la base de données qui est la plus favorable pour les algorithmes d'extraction. Les contraintes de recherche sont également transposables, et permettent d'obtenir les motifs contraints en menant les extractions dans le contexte transposée. Enfin, à partir des contributions précédentes, l'utilisation de règles d'association généralisées à des fins d'apprentissage supervisé et de motifs émergents forts complète ces travaux dans le cadre d'applications concernant des données médicales et génomiques.

APA, Harvard, Vancouver, ISO, and other styles

34

Wajnberg, Mickaël. "Analyse relationnelle de concepts : une méthode polyvalente pour l'extraction de connaissances." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0136.

Full text

Abstract:

À une époque où les données, souvent interprétées comme une «réalité terrain»,sont produites dans des quantités gargantuesques, un besoin de compréhension et d’interprétation de ces données se développe en parallèle. Les jeux de données étant maintenant principalement relationnels, il convient de développer des méthodes qui permettent d’extraire de l’information pertinente décrivant à la fois les objets et les relations entre eux. Les règles d’association, adjointes des mesures de confiance et de support, décrivent les co-occurences entre les caractéristiques des objets et permettent d’exprimer et d’évaluer de manière explicite l’information contenue dans un jeu de données. Dans cette thèse, on présente et développe l’analyse relationnelle de concepts pour extraire des règles traduisant tant les caractéristiques propres d’un ensemble d’objets que les liens avec d’autres ensembles. Une première partie développe la théorie mathématique de la méthode, alors que la seconde partie propose trois cas d’application pour étayer l’intérêt d’un tel développement. Les études sont réalisées dans des domaines variés montrant ainsi la polyvalence de la méthode : un premier cas traite l’analyse d’erreur en production industrielle métallurgique, un second cas est réalisé en psycholinguistique pour l’analyse de dictionnaires et un dernier cas montre les possibilités de la méthode en ingénierie de connaissance<br>At a time where data, often interpreted as "ground truth", are produced in gigantic quantities, a need for understanding and interpretability emerges in parallel. Dataset are nowadays mainly relational, therefore developping methods that allows relevant information extraction describing both objects and relation among them is a necessity. Association rules, along with their support and confidence metrics, describe co-occurrences of object features, hence explicitly express and evaluate any information contained in a dataset. In this thesis, we present and develop the relational concept analysis approach to extract the association rules that translate objects proper features along with the links with sets of objects. A first part present the mathematical part of the method, while a second part highlights three case studies to assess the pertinence of such a development. Case studies cover various domains to demonstrate the method polyvalence: the first case deals with error analysis in industrial production, the second covers psycholinguistics for dictionary analysis and the last one shows the method application in knowledge engineering

APA, Harvard, Vancouver, ISO, and other styles

35

Pennerath, Frédéric. "Méthodes d'extraction de connaissances à partir de données modélisables par des graphes : Application à des problèmes de synthèse organique." Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00436568.

Full text

Abstract:

Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d'intervalle entre graphes et adaptée à l'extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants.

APA, Harvard, Vancouver, ISO, and other styles

36

Traoré, Boukaye Boubacar. "Modélisation des informations et extraction des connaissances pour la gestion des crises." Thesis, Toulouse, INPT, 2018. http://www.theses.fr/2018INPT0153.

Full text

Abstract:

L’essor des technologies émergentes de collecte de données offre des opportunités nouvelles pour diverses disciplines scientifiques. L’informatique est appelé à jouer sa partition par le développement de techniques d’analyse intelligente des données pour apporter un certain éclairage dans la résolution de problèmes complexes. Le contenu de ce mémoire de recherche doctorale s’inscrit dans la problématique générale de l’extraction des connaissances à partir de données par les techniques informatiques. Ce travail de thèse s’intéresse dans un premier temps à la problématique de la modélisation des informations pour la gestion de crise nécessitant des prises en charge médicale, à l’aide d’une collaboration des applications informatiques de la télémédecine. Nous avons proposé une méthodologie de gestion d’une crise à distance en trois étapes. Elle est principalement axée sur la collaboration des actes de télémédecine (Téléconsultation, Téléexpertise, Télésurveillance, Téléassistance, et la Régulation médicale), de la phase de transport des victimes à la phase de traitements médicaux dans et/ou entre les structures de santé. Cette méthodologie permet non seulement de mettre à la disposition des gestionnaires de crise un système d'aide à la décision informatisé, mais aussi de minimiser les coûts financiers et réduire le temps de réponse des secours à travers une gestion organisée de la crise. Dans un deuxième temps, nous avons étudié en détail l’extraction de la connaissance à l’aide des techniques de data mining sur les images satellitaires afin de découvrir des zones à risques d’épidémie, dont l’étude de cas a porté sur l’épidémie de choléra dans la région de Mopti, au Mali. Ainsi, une méthodologie de six phases a été présentée en mettant en relation les données collectées sur le terrain et les données satellitaires pour prévenir et surveiller plus efficacement les crises d’épidémie. Les résultats nous indiquent qu’à 66% le taux de contamination est lié au fleuve Niger, en plus de certains facteurs sociétaux comme le jet des ordures en période hivernale. Par conséquent, nous avons pu établir le lien entre l’épidémie et son environnement d’évolution, ce qui permettra aux décideurs de mieux gérer une éventuelle crise d’épidémie. Et enfin, en dernier lieu, pendant une situation de crise d’épidémie, nous nous sommes focalisés sur l’analyse médicale, plus précisément par l’usage des microscopes portables afin de confirmer ou non la présence des agents pathogènes dans les prélèvements des cas suspects. Pour ce faire, nous avons présenté une méthodologie de six phases, basée sur les techniques du deep learning notamment l’une des techniques des réseaux de neurones convolutifs, l’apprentissage par transfert qui tirent parti des systèmes complexes avec des invariants permettant la modélisation et l'analyse efficace de grandes quantités de données. Le principe consiste à entraîner les réseaux de neurones convolutifs à la classification automatique d’images des agents pathogènes. Par exemple dans notre cas d’étude, cette approche a été utilisée pour distinguer une image microscopique contenant le virus de l’épidémie de choléra appelé Vibrio cholerae d’une image microscopique contenant le virus de l’épidémie du paludisme appelé Plasmodium. Ceci nous a permis d’obtenir un taux de réussite de classification de 99%. Par la suite, l’idée est de déployer cette solution de reconnaissance d’images d’agents pathogènes dans les microscopes portables intelligents pour les analyses de routine et applications de diagnostic médical dans la gestion de situations de crise. Ce qui permettra de combler le manque de spécialistes en manipulation microscopique et un gain de temps considérable dans l’analyse des prélèvements avec des mesures précises favorisant l’accomplissement du travail dans de meilleures conditions<br>The rise of emerging data collection technologies offers new opportunities for various scientific disciplines. IT is expected to play its part by developing intelligent data analysis techniques to provide some insight into solving complex problems. The content of this doctoral research dissertation is part of the general problem of extracting knowledge from data by computer techniques. This PhD work focuses, firstly, to the problem of information modeling for crisis management requiring medical care, using a collaboration of computer applications of telemedicine. We proposed a methodology for managing a remote crisis in three stages. It is mainly focused on the collaboration of telemedicine acts (Teleconsultation, Teleexpertise, Telemonitoring, Remote Assistance, and Medical Regulation), from the transport phase of victims to the phase of medical treatment in and / or between health structures. This methodology not only helps to provide crisis managers with a computerized decision aid system, but also to minimize the financial costs and to reduce the response time of emergency through an organized management of the crisis. Secondly, we studied in detail the extraction of knowledge using data mining techniques on satellite images to discover epidemic r risk areas, including the case study focused on the cholera epidemic in the region of Mopti, Mali. Thus, a methodology of six phases was presented by relating the data collected in the field and satellite data to prevent and more effectively monitor the epidemic crises. The results show that 66% of the contamination rate is related to the Niger River, in addition to certain societal factors such as garbage dumps in winter. As a result, we have been able to establish the link between the epidemic and its development environment, which will enable decision makers to better manage a possible crisis of epidemic. And finally, during an epidemic crisis situation, we focused on medical analysis, more specifically by the use of portable microscopes to confirm or not the presence of pathogens in samples of case suspects. To do this, we have presented a methodology in six phases, based on the techniques of deep learning including one of convolutional neural network techniques, transfer learning that take advantage of complex systems and analysis of large amounts of data. The idea is to train networks convolutional neural automatic image classification pathogens. For example in our case study, this approach was used to distinguish a microscopic image containing the cholera epidemic virus called Vibrio cholerae from a microscopic image containing the malaria epidemic virus called Plasmodium. This allowed us to obtain good performances with a classification accuracy of 99%. Subsequently, the idea is to deploy this pathogen image recognition solution in intelligent portable microscopes for routine analysis and medical diagnostic applications in crisis management. This will make it possible to fill the lack of specialists in microscopic manipulation and a considerable time saving in the analysis of the samples with precise measures favoring the accomplishment of the work under better conditions

APA, Harvard, Vancouver, ISO, and other styles

37

ARMAND, Stéphane. "Analyse Quantifiée de la Marche : extraction de connaissances à partir de données pour l'aide à l'interprétation clinique de la marche digitigrade." Phd thesis, Université de Valenciennes et du Hainaut-Cambresis, 2005. http://tel.archives-ouvertes.fr/tel-00010618.

Full text

Abstract:

L'Analyse Quantifiée de la Marche (AQM) est un examen permettant d'identifier et de quantifier les défauts de marche d'un patient à partir de données biomécaniques. L'interprétation de cet examen, conduisant à l'explication des défauts de marche, est ardue. Parmi ces défauts, la marche digitigrade est un des plus courants et pour lequel l'identification des causes demeure difficile. Ce travail propose de fournir une aide à l'interprétation des données de l'AQM pour la marche digitigrade. Afin d'atteindre cet objectif, une méthode d'Extraction de Connaissances à partir de Données (ECD) est utilisée en combinant un apprentissage automatique non-supervisé et supervisé, pour extraire objectivement des connaissances intrinsèques et discriminantes des données de l'AQM. L'apprentissage non-supervisé (c-moyennes floues) a permis d'identifier trois patrons de marche digitigrade à partir de la cinématique de la cheville provenant d'une base de données de plus de 2500 AQM (Institut Saint-Pierre, Palavas, 34). L'apprentissage supervisé est utilisé pour expliquer ces trois patrons de marche par des mesures cliniques sous la forme de règles induites à partir d'arbres de décision flous. Les règles les plus significatives et interprétables (12) sont sélectionnées pour créer une base de connaissances qui est validée au regard de la littérature et des experts. Ces règles peuvent servir d'aide à l'interprétation des données de l'AQM pour la marche digitigrade. Ce travail ouvre différentes perspectives de recherche allant de la généralisation de la méthode utilisée à la création d'un simulateur de marche pathologique.

APA, Harvard, Vancouver, ISO, and other styles

38

Armand, Stéphane. "Analyse quantifiée de la marche : extraction de connaissances à partir de données pour l'aide à l'interprétation clinique de la marche digitigrade." Valenciennes, 2005. http://ged.univ-valenciennes.fr/nuxeo/site/esupversions/6cfbb62f-d5e4-4bd3-b7b3-96618bf3ceea.

Full text

Abstract:

L'Analyse Quantifiée de la Marche (AQM) est un examen permettant d'identifier et de quantifier les défauts de marche d'un patient à partir de données biomécaniques. L'interprétation de cet examen, conduisant à l'explication des défauts de marche, est ardue. Parmi ces défauts, la marche digitigrade est un des plus courants et pour lequel l'identification des causes demeure difficile. Ce travail propose de fournir une aide à l'interprétation des données de l'AQM pour la marche digitigrade. Afin d'atteindre cet objectif, une méthode d'Extraction de Connaissances à partir de Données (ECD) est utilisée en combinant un apprentissage automatique non-supervisé et supervisé, pour extraire objectivement des connaissances intrinsèques et discrimantes des données de l'AQM. L'apprentissage non-supervisé (c-moyennes floues) a permis d'identifier trois patrons de marche digitigrade à partir de la cinématique de la cheville provenant d'une base de données de plus de 2500 AQM (Institut Saint-Pierre, Palavas, 34). L'apprentissage supervisé est utilisé pour expliquer ces trois patrons de marche par des mesures cliniques sous la forme de règles induites à partir d'arbres de décision flous. Les règles les plus significatives et interprétables (12) sont sélectionnées pour créer une base de connaissances qui est validée au regard de la littérature et des experts. Ces règles peuvent servir d'aide à l'interprétation des données de l'AQM pour la marche digitigrade. Ce travail ouvre différentes perspectives de recherche allant de la généralisation de la méthode utilisée à la création d'un simulateur de marche pathologique<br>Clinical Gait Analysis (CGA) is used to identify and quantify gait deviations from biomechanical data. Interpreting CGA, which provides the explanations for the identified gait deviations, is a complex task. Toe-walking is one of the most common gait deviations, and identifying its causes is difficult. This research had for objective to provide a support tool for interpreting toe-walker CGAs. To reach this objective, a Knowledge Discovery in Databases (KDD) method combining unsupervised and supervised machine learning is used to extract objectively intrinsic and discriminant knowledge from CGA data. The unsupervised learning (fuzzy c-means) allowed three toe-walking patterns to be identified from ankle kinematics extracted from a database of more than 2500 CGA (Institut Saint-Pierre, Palavas, 34). The supervised learning was employed to explain these three gait patterns through clinical measurement using induced rules from fuzzy decision trees. The most significant and interpretable rules (12) were selected to create a knowledge base that has been validated in terms of the literature and experts. These rules can be used to facilitate the interpretation of toe-walker CGA data. This research opens several prospective paths of investigation, ranging from the development of a generic method based on the proposed method for studying movement to the creation of a pathologic gait simulator

APA, Harvard, Vancouver, ISO, and other styles

39

Le, Duff Franck. "Enrichissement quantitatif et qualitatif de relations conceptuelles des bases de connaissances médicales par extraction et héritage automatique par des méthodes informatiques et probabilistes." Rennes 1, 2006. http://www.theses.fr/2006REN1B094.

Full text

Abstract:

Le projet de Système du Langage Unifié Médical (UMLS) vise à élaborer un entrepôt de termes, concepts et rapports entre concepts à partir de plusieurs classifications médicales. Cette thèse décrit la possibilité d'enrichir automatiquement avec des liens "sensés" la base de connaissances UMLS en employant la description des maladies d'autres bases de connaissance, dans notre cas l'ADM (Aide au Diagnostic Médical) et la SNOMED internationale. Malgré les contraintes et les difficultés pour qualifier les liens interconceptuels, les résultats prouvent qu'il est possible de trouver, de créer et de typer de nouveaux liens et de les intégrer ensuite automatiquement dans la base UMLS. Un des intérêts de ce travail est que l'étude automatisée des rapprochements entre bases pourrait être employé avec d'autres bases de connaissances comme des bases de données de systèmes experts et permettre la navigation sémantique dans un réseau de concepts actuellement encore trop dépourvu d'intelligence.

APA, Harvard, Vancouver, ISO, and other styles

40

Pugeault, Florence. "Extraction dans les textes de connaissances structurées : une méthode fondée sur la sémantique lexicale linguistique." Toulouse 3, 1995. http://www.theses.fr/1995TOU30164.

Full text

Abstract:

Cette these presente des travaux qui s'inscrivent dans le cadre de l'informatique linguistique et plus precisement dans le domaine de l'extraction de connaissances a partir de textes. Notre but est d'aller au-dela de l'indexation classique par mots-cles en representant l'information retenue comme pertinente sous une forme structuree. Ce projet a fait l'objet d'une collaboration avec la direction des etudes et des recherches d'edf. Pour representer le contenu semantique de textes rediges sans contrainte d'expression, nous avons distingue trois niveaux d'analyse: le niveau pragmatique, le niveau linguistique et le niveau conceptuel. Le niveau pragmatique permet le decoupage d'un texte selon ses parties rhetoriques qui correspondent a des articulations. Le niveau linguistique consiste a structurer les fragments de phrases pertinents pour chaque articulation sous la forme de structures predicatives etiquetees par des roles thematiques precis. Enfin, le niveau conceptuel vise a ameliorer la qualite d'exploitation des resultats du niveau linguistique, notamment en vue de l'interrogation de bases documentaires. Apres analyse de differentes approches, nous avons retenu la lcs (structure lexicale conceptuelle), theorie de jackendoff, pour representer conceptuellement les predicats consideres. Notre contribution sur le plan linguistique a consiste en un travail en profondeur sur la definition de l'ensemble des ressources linguistiques necessaires aux differentes etapes d'analyse que nous avons identifiees. Nous avons notamment defini un ensemble de roles thematiques qio ont une dimension cognitive et un certain nombre de donnees supplementaires en relation avec la lcs (primitives, etc. ). Nous avons aussi caracterise des elements de methode pour la definition de ressources lcs specifiques a un corpus donne. Nos analyses ont ete validees par la mise en uvre du prototype papins (prototype d'analyse pour la production d'index semantiques) que nous avons developpe en prolog

APA, Harvard, Vancouver, ISO, and other styles

41

Grissa, Dhouha. "Etude comportementale des mesures d'intérêt d'extraction de connaissances." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2013. http://tel.archives-ouvertes.fr/tel-01023975.

Full text

Abstract:

La recherche de règles d'association intéressantes est un domaine important et actif en fouille de données. Puisque les algorithmes utilisés en extraction de connaissances à partir de données (ECD), ont tendance à générer un nombre important de règles, il est difficile à l'utilisateur de sélectionner par lui même les connaissances réellement intéressantes. Pour répondre à ce problème, un post-filtrage automatique des règles s'avère essentiel pour réduire fortement leur nombre. D'où la proposition de nombreuses mesures d'intérêt dans la littérature, parmi lesquelles l'utilisateur est supposé choisir celle qui est la plus appropriée à ses objectifs. Comme l'intérêt dépend à la fois des préférences de l'utilisateur et des données, les mesures ont été répertoriées en deux catégories : les mesures subjectives (orientées utilisateur ) et les mesures objectives (orientées données). Nous nous focalisons sur l'étude des mesures objectives. Néanmoins, il existe une pléthore de mesures objectives dans la littérature, ce qui ne facilite pas le ou les choix de l'utilisateur. Ainsi, notre objectif est d'aider l'utilisateur, dans sa problématique de sélection de mesures objectives, par une approche par catégorisation. La thèse développe deux approches pour assister l'utilisateur dans sa problématique de choix de mesures objectives : (1) étude formelle suite à la définition d'un ensemble de propriétés de mesures qui conduisent à une bonne évaluation de celles-ci ; (2) étude expérimentale du comportement des différentes mesures d'intérêt à partir du point de vue d'analyse de données. Pour ce qui concerne la première approche, nous réalisons une étude théorique approfondie d'un grand nombre de mesures selon plusieurs propriétés formelles. Pour ce faire, nous proposons tout d'abord une formalisation de ces propriétés afin de lever toute ambiguïté sur celles-ci. Ensuite, nous étudions, pour différentes mesures d'intérêt objectives, la présence ou l'absence de propriétés caractéristiques appropriées. L'évaluation des mesures est alors un point de départ pour une catégorisation de celle-ci. Différentes méthodes de classification ont été appliquées : (i) méthodes sans recouvrement (CAH et k-moyennes) qui permettent l'obtention de groupes de mesures disjoints, (ii) méthode avec recouvrement (analyse factorielle booléenne) qui permet d'obtenir des groupes de mesures qui se chevauchent. Pour ce qui concerne la seconde approche, nous proposons une étude empirique du comportement d'une soixantaine de mesures sur des jeux de données de nature différente. Ainsi, nous proposons une méthodologie expérimentale, où nous cherchons à identifier les groupes de mesures qui possèdent, empiriquement, un comportement semblable. Nous effectuons par la suite une confrontation avec les deux résultats de classification, formel et empirique dans le but de valider et mettre en valeur notre première approche. Les deux approches sont complémentaires, dans l'optique d'aider l'utilisateur à effectuer le bon choix de la mesure d'intérêt adaptée à son application.

APA, Harvard, Vancouver, ISO, and other styles

42

Elmi, Rayaleh Waïss. "Extraction de connaissances en imagerie microspectrométrique par analyse chimiométrique : application à la caractérisation des constituants d'un calcul urinaire." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2006. http://tel.archives-ouvertes.fr/tel-00270116.

Full text

Abstract:

L'imagerie spectroscopique classique utilisant la sélection d'une bande spectrale d'absorption spécifique pour chaque composé d'un mélange a atteint ses limites lors d'analyse d'échantillons complexes naturels ou industriels. Les méthodes chimiométriques sont alors un précieux outil pour s'affranchir à la fois des limitations dues aux recouvrements spectraux et certaines limitations instrumentales. Cependant une optimisation et une adaptation des méthodologies de résolution aux cas concrets sous analyse sont nécessaires. Notre étude a ciblé les différents traitements chimiométriques permettant de mieux extraire les images microspectrométriques des constituants d'un mélange. Dans une première étape, une optimisation est effectuée sur des données synthétiques pour un ensemble des méthodes de résolution multivariées. Parmi celles-ci, OPA(var) (Orthogonal Projection Approach par sélection des variables) s'est révélée être le plus efficace qualitativement. Puis, la démarche originale mettant en oeuvre le couplage des méthodes chimiométriques de l'optimisation avec MCR-ALS (Multivariate Curve Resolution - Alternating Least Squares) a été réalisée. La capacité de résolution de MCR-ALS se trouve considérablement renforcée par ce couplage. Ensuite, au niveau du pixel, les contraintes liées au rang local ont été spécifiées et appliquées. La pertinence du couplage réalisé et l'efficacité d'extraction par les contraintes du rang local ont été mises en évidence dans les nombreux cas étudiés. L'application de cette méthodologie d'analyse, mise en place, sur des données réelles issues de la micro- spectrométrie Raman a abouti d'une manière concluante. Les constituants d'un calcul urinaire sont identifiés par leurs spectres respectifs grâce à une bibliothèque de référence. Chaque image extraite indique la répartition du composé correspondant dans la partie analysée par l'intermédiaire d'une échelle de couleur adaptée. En effet, dans ce type de pathologie, une bonne identification de la chronologie de formation de différents constituants permet un meilleur diagnostic et un traitement médical adapté. Dans notre étude, la reproduction efficace des images microspectrométriques de grande qualité par les méthodes chimiométriques est prouvée même dans un cas réel complexe.

APA, Harvard, Vancouver, ISO, and other styles

43

Maillot, Pierre. "Nouvelles méthodes pour l'évaluation, l'évolution et l'interrogation des bases du Web des données." Thesis, Angers, 2015. http://www.theses.fr/2015ANGE0007/document.

Full text

Abstract:

Le Web des données offre un environnement de partage et de diffusion des données, selon un cadre particulier qui permet une exploitation des données tant par l’humain que par la machine. Pour cela, le framework RDF propose de formater les données en phrases élémentaires de la forme (sujet, relation, objet) , appelées triplets. Les bases du Web des données, dites bases RDF, sont des ensembles de triplets. Dans une base RDF, l’ontologie – données structurelles – organise la description des données factuelles. Le nombre et la taille des bases du Web des données n’a pas cessé de croître depuis sa création en 2001. Cette croissance s’est même accélérée depuis l’apparition du mouvement du Linked Data en 2008 qui encourage le partage et l’interconnexion de bases publiquement accessibles sur Internet. Ces bases couvrent des domaines variés tels que les données encyclopédiques (e.g. Wikipédia), gouvernementales ou bibliographiques. L’utilisation et la mise à jour des données dans ces bases sont faits par des communautés d’utilisateurs liés par un domaine d’intérêt commun. Cette exploitation communautaire se fait avec le soutien d’outils insuffisamment matures pour diagnostiquer le contenu d’une base ou pour interroger ensemble les bases du Web des données. Notre thèse propose trois méthodes pour encadrer le développement, tant factuel qu’ontologique, et pour améliorer l’interrogation des bases du Web des données. Nous proposons d’abord une méthode pour évaluer la qualité des modifications des données factuelles lors d’une mise à jour par un contributeur. Nous proposons ensuite une méthode pour faciliter l’examen de la base par la mise en évidence de groupes de données factuelles en conflit avec l’ontologie. L’expert qui guide l’évolution de cette base peut ainsi modifier l’ontologie ou les données. Nous proposons enfin une méthode d’interrogation dans un environnement distribué qui interroge uniquement les bases susceptibles de fournir une réponse<br>The web of data is a mean to share and broadcast data user-readable data as well as machine-readable data. This is possible thanks to rdf which propose the formatting of data into short sentences (subject, relation, object) called triples. Bases from the web of data, called rdf bases, are sets of triples. In a rdf base, the ontology – structural data – organize the description of factual data. Since the web of datacreation in 2001, the number and sizes of rdf bases have been constantly rising. This increase has accelerated since the apparition of linked data, which promote the sharing and interlinking of publicly available bases by user communities. The exploitation – interrogation and edition – by theses communities is made without adequateSolution to evaluate the quality of new data, check the current state of the bases or query together a set of bases. This thesis proposes three methods to help the expansion at factual and ontological level and the querying of bases from the web ofData. We propose a method designed to help an expert to check factual data in conflict with the ontology. Finally we propose a method for distributed querying limiting the sending of queries to bases that may contain answers

APA, Harvard, Vancouver, ISO, and other styles

44

Li, Jinpeng. "Extraction de connaissances symboliques et relationnelles appliquée aux tracés manuscrits structurés en-ligne." Phd thesis, Nantes, 2012. http://tel.archives-ouvertes.fr/tel-00785984.

Full text

Abstract:

Notre travail porte sur l'extraction de connaissances sur des langages graphiques dont les symboles sont a priori inconnus. Nous formons l'hypothèse que l'observation d'une grande quantité de documents doit permettre de découvrir les symboles composant l'alphabet du langage considéré. La difficulté du problème réside dans la nature bidimensionnelle et manuscrite des langages graphiques étudiés. Nous nous plaçons dans le cadre de tracés en-ligne produit par des interfaces de saisie de type écrans tactiles, tableaux interactifs ou stylos électroniques. Le signal disponible est alors une trajectoire échantillonnée produisant une séquence de traits, eux-mêmes composés d'une séquence de points. Un symbole, élément de base de l'alphabet du langage, est donc composé d'un ensemble de traits possédant des propriétés structurelles et relationnelles spécifiques. L'extraction des symboles est réalisée par la découverte de sous-graphes répétitifs dans un graphe global modélisant les traits (noeuds) et leur relations spatiales (arcs) de l'ensemble des documents. Le principe de description de longueur minimum (MDL : Minimum Description Length) est mis en oeuvre pour choisir les meilleurs représentants du lexique des symboles. Ces travaux ont été validés sur deux bases expérimentales. La première est une base d'expressions mathématiques simples, la seconde représente des graphiques de type organigramme. Sur ces bases, nous pouvons évaluer la qualité des symboles extraits et comparer à la vérité terrain. Enfin, nous nous sommes intéressés à la réduction de la tâche d'annotation d'une base en considérant à la fois les problématiques de segmentation et d'étiquetage des différents traits.

APA, Harvard, Vancouver, ISO, and other styles

45

Candillier, Christophe. "Méthodes d'Extraction de Connaissances à partir de Données (ECD) appliquées aux Systèmes d'Information Géographiques (SIG)." Phd thesis, Université de Nantes, 2006. http://tel.archives-ouvertes.fr/tel-00101491.

Full text

Abstract:

Le travail effectué durant cette thèse concerne l'étude des méthodes d'Extraction de Connaissances à partir de Données (ECD) dans le cadre des Systèmes d'Information Géographiques (SIG). Nous avons non seulement mis en œuvre et amélioré des méthodes d'ECD classique (Classification de Données, Visualisation de Classifications) mais aussi des méthodes d'ECD spatiales liées à des méthodes d'analyse spatiale (Lissage Spatial, Détermination de Pôles, Sectorisation). Nous avons effectué notre travail de recherche au sein de la société GÉOBS spécialisée dans l'analyse des données géographiques (spatiales), et nous avons donc expérimenté, appliqué et vérifié ces méthodes sur des jeux de données fournis par GÉOBS et liés à des problématiques de Développement Économique, de Géomarketing, d'Analyse de Risque, d'Environnement, de Santé, etc. Ce mémoire offre une vision globale concernant un ensemble de problématiques et de méthodes d'analyse. Il met ainsi en avant la complémentarité des méthodes utilisées qui sont souvent connectées entre elles soit du point de vue technique soit du point de vue de leur utilisation. Finalement, ce fut un travail très enrichissant car il a touché à de nombreuses problématiques et à d'aussi nombreuses méthodes d'extraction de connaissances.

APA, Harvard, Vancouver, ISO, and other styles

46

Ben, Salamah Janan. "Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle." Thesis, Paris 4, 2017. http://www.theses.fr/2017PA040137.

Full text

Abstract:

Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale<br>In this thesis, we proposed a multilingual generic approach for the automatic information extraction. Particularly, events extraction of price variation and temporal information extraction linked to temporal referential. Our approach is based on the constitution of several semantic maps by textual analysis in order to formalize the linguistic traces expressed by categories. We created a database for an expert system to identify and annotate information (categories and their characteristics) based on the contextual rule groups. Two algorithms AnnotEC and AnnotEV have been applied in the SemanTAS platform to validate our assumptions. We have obtained a satisfactory result; Accuracy and recall are around 80%. We presented extracted knowledge by a summary file. In order to approve the multilingual aspect of our approach, we have carried out experiments on French and Arabic. We confirmed the scalability level by the annotation of large corpus

APA, Harvard, Vancouver, ISO, and other styles

47

Tang, My Thao. "Un système interactif et itératif extraction de connaissances exploitant l'analyse formelle de concepts." Thesis, Université de Lorraine, 2016. http://www.theses.fr/2016LORR0060/document.

Full text

Abstract:

Dans cette thèse, nous présentons notre méthodologie de la connaissance interactive et itérative pour une extraction des textes - le système KESAM: Un outil pour l'extraction des connaissances et le Management de l’Annotation Sémantique. Le KESAM est basé sur l'analyse formelle du concept pour l'extraction des connaissances à partir de ressources textuelles qui prend en charge l'interaction aux experts. Dans le système KESAM, l’extraction des connaissances et l'annotation sémantique sont unifiées en un seul processus pour bénéficier à la fois l'extraction des connaissances et l'annotation sémantique. Les annotations sémantiques sont utilisées pour formaliser la source de la connaissance dans les textes et garder la traçabilité entre le modèle de la connaissance et la source de la connaissance. Le modèle de connaissance est, en revanche, utilisé afin d’améliorer les annotations sémantiques. Le processus KESAM a été conçu pour préserver en permanence le lien entre les ressources (textes et annotations sémantiques) et le modèle de la connaissance. Le noyau du processus est l'Analyse Formelle de Concepts (AFC) qui construit le modèle de la connaissance, i.e. le treillis de concepts, et assure le lien entre le modèle et les annotations des connaissances. Afin d'obtenir le résultat du treillis aussi près que possible aux besoins des experts de ce domaine, nous introduisons un processus itératif qui permet une interaction des experts sur le treillis. Les experts sont invités à évaluer et à affiner le réseau; ils peuvent faire des changements dans le treillis jusqu'à ce qu'ils parviennent à un accord entre le modèle et leurs propres connaissances ou le besoin de l’application. Grâce au lien entre le modèle des connaissances et des annotations sémantiques, le modèle de la connaissance et les annotations sémantiques peuvent co-évoluer afin d'améliorer leur qualité par rapport aux exigences des experts du domaine. En outre, à l'aide de l’AFC de la construction des concepts avec les définitions des ensembles des objets et des ensembles d'attributs, le système KESAM est capable de prendre en compte les deux concepts atomiques et définis, à savoir les concepts qui sont définis par un ensemble des attributs. Afin de combler l'écart possible entre le modèle de représentation basé sur un treillis de concept et le modèle de représentation d'un expert du domaine, nous présentons ensuite une méthode formelle pour l'intégration des connaissances d’expert en treillis des concepts d'une manière telle que nous pouvons maintenir la structure des concepts du treillis. La connaissance d’expert est codée comme un ensemble de dépendance de l'attribut qui est aligné avec l'ensemble des implications fournies par le concept du treillis, ce qui conduit à des modifications dans le treillis d'origine. La méthode permet également aux experts de garder une trace des changements qui se produisent dans le treillis d'origine et la version finale contrainte, et d'accéder à la façon dont les concepts dans la pratique sont liés à des concepts émis automatiquement à partir des données. Nous pouvons construire les treillis contraints sans changer les données et fournir la trace des changements en utilisant des projections extensives sur treillis. À partir d'un treillis d'origine, deux projections différentes produisent deux treillis contraints différents, et, par conséquent, l'écart entre le modèle de représentation basée sur un treillis de réflexion et le modèle de représentation d'un expert du domaine est rempli avec des projections<br>In this thesis, we present a methodology for interactive and iterative extracting knowledge from texts - the KESAM system: A tool for Knowledge Extraction and Semantic Annotation Management. KESAM is based on Formal Concept Analysis for extracting knowledge from textual resources that supports expert interaction. In the KESAM system, knowledge extraction and semantic annotation are unified into one single process to benefit both knowledge extraction and semantic annotation. Semantic annotations are used for formalizing the source of knowledge in texts and keeping the traceability between the knowledge model and the source of knowledge. The knowledge model is, in return, used for improving semantic annotations. The KESAM process has been designed to permanently preserve the link between the resources (texts and semantic annotations) and the knowledge model. The core of the process is Formal Concept Analysis that builds the knowledge model, i.e. the concept lattice, and ensures the link between the knowledge model and annotations. In order to get the resulting lattice as close as possible to domain experts' requirements, we introduce an iterative process that enables expert interaction on the lattice. Experts are invited to evaluate and refine the lattice; they can make changes in the lattice until they reach an agreement between the model and their own knowledge or application's need. Thanks to the link between the knowledge model and semantic annotations, the knowledge model and semantic annotations can co-evolve in order to improve their quality with respect to domain experts' requirements. Moreover, by using FCA to build concepts with definitions of sets of objects and sets of attributes, the KESAM system is able to take into account both atomic and defined concepts, i.e. concepts that are defined by a set of attributes. In order to bridge the possible gap between the representation model based on a concept lattice and the representation model of a domain expert, we then introduce a formal method for integrating expert knowledge into concept lattices in such a way that we can maintain the lattice structure. The expert knowledge is encoded as a set of attribute dependencies which is aligned with the set of implications provided by the concept lattice, leading to modifications in the original lattice. The method also allows the experts to keep a trace of changes occurring in the original lattice and the final constrained version, and to access how concepts in practice are related to concepts automatically issued from data. The method uses extensional projections to build the constrained lattices without changing the original data and provide the trace of changes. From an original lattice, two different projections produce two different constrained lattices, and thus, the gap between the representation model based on a concept lattice and the representation model of a domain expert is filled with projections

APA, Harvard, Vancouver, ISO, and other styles

48

Karouach, Saïd. "Visualisations interactives pour la découverte de connaissances, concepts, méthodes et outils." Toulouse 3, 2003. http://www.theses.fr/2003TOU30082.

Full text

APA, Harvard, Vancouver, ISO, and other styles

49

Voisin, Bruno. "Approche extraction de connaissance de l'analyse de données astronomiques : application à l'identification croisée multi-[lambda]." Toulon, 2002. http://www.theses.fr/2002TOUL0011.

Full text

APA, Harvard, Vancouver, ISO, and other styles

50

Ghemtio, Wafo Léo Aymar. "Simulation numérique et approche orientée connaissance pour la découverte de nouvelles molécules thérapeutiques." Thesis, Nancy 1, 2010. http://www.theses.fr/2010NAN10103/document.

Full text

Abstract:

L’innovation thérapeutique progresse traditionnellement par la combinaison du criblage expérimental et de la modélisation moléculaire. En pratique, cette dernière approche est souvent limitée par la pénurie de données expérimentales, particulièrement les informations structurales et biologiques. Aujourd'hui, la situation a complètement changé avec le séquençage à haut débit du génome humain et les avancées réalisées dans la détermination des structures tridimensionnelles des protéines. Cette détermination permet d’avoir accès à une grande quantité de données pouvant servir à la recherche de nouveaux traitements pour un grand nombre de maladies. À cet égard, les approches informatiques permettant de développer des programmes de criblage virtuel à haut débit offrent une alternative ou un complément aux méthodes expérimentales qui font gagner du temps et de l’argent dans la découverte de nouveaux traitements.Cependant, la plupart de ces approches souffrent des mêmes limitations. Le coût et la durée des temps de calcul pour évaluer la fixation d'une collection de molécules à une cible, qui est considérable dans le contexte du haut débit, ainsi que la précision des résultats obtenus sont les défis les plus évidents dans le domaine. Le besoin de gérer une grande quantité de données hétérogènes est aussi particulièrement crucial.Pour surmonter les limitations actuelles du criblage virtuel à haut débit et ainsi optimiser les premières étapes du processus de découverte de nouveaux médicaments, j’ai mis en place une méthodologie innovante permettant, d’une part, de gérer une masse importante de données hétérogènes et d’en extraire des connaissances et, d’autre part, de distribuer les calculs nécessaires sur les grilles de calcul comportant plusieurs milliers de processeurs, le tout intégré à un protocole de criblage virtuel en plusieurs étapes. L’objectif est la prise en compte, sous forme de contraintes, des connaissances sur le problème posé afin d’optimiser la précision des résultats et les coûts en termes de temps et d’argent du criblage virtuel<br>Therapeutic innovation has traditionally benefited from the combination of experimental screening and molecular modelling. In practice, however, the latter is often limited by the shortage of structural and biological information. Today, the situation has completely changed with the high-throughput sequencing of the human genome, and the advances realized in the three-dimensional determination of the structures of proteins. This gives access to an enormous amount of data which can be used to search for new treatments for a large number of diseases. In this respect, computational approaches have been used for high-throughput virtual screening (HTVS) and offer an alternative or a complement to the experimental methods, which allow more time for the discovery of new treatments.However, most of these approaches suffer the same limitations. One of these is the cost and the computing time required for estimating the binding of all the molecules from a large data bank to a target, which can be considerable in the context of the high-throughput. Also, the accuracy of the results obtained is another very evident challenge in the domain. The need to manage a large amount of heterogeneous data is also particularly crucial.To try to surmount the current limitations of HTVS and to optimize the first stages of the drug discovery process, I set up an innovative methodology presenting two advantages. Firstly, it allows to manage an important mass of heterogeneous data and to extract knowledge from it. Secondly, it allows distributing the necessary calculations on a grid computing platform that contains several thousand of processors. The whole methodology is integrated into a multiple-step virtual screening funnel. The purpose is the consideration, in the form of constraints, of the knowledge available about the problem posed in order to optimize the accuracy of the results and the costs in terms of time and money at various stages of high-throughput virtual screening

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!