Academic literature on the topic 'Extraction de Connaissances de Données'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Extraction de Connaissances de Données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Dissertations / Theses on the topic "Extraction de Connaissances de Données"

1

Azé, Jérôme. "Extraction de Connaissances à partir de Données Numériques et Textuelles." Phd thesis, Université Paris Sud - Paris XI, 2003. http://tel.archives-ouvertes.fr/tel-00011196.

Full text
Abstract:
Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.<br />L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.<br />Les experts des données ont souvent des difficultés pour déterminer ce support.<br />Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.<br />Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".<br />Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.<br />Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.<br /><br />Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.<br />Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.<br />Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.<br /><br />Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.<br />Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.<br />Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.<br />Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.
APA, Harvard, Vancouver, ISO, and other styles
2

Masseglia, Florent. "Extraction de connaissances : réunir volumes de données et motifs significatifs." Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00788309.

Full text
Abstract:
L'analyse et la fouille des données d'usages sont indissociables de la notion d'évolution dynamique. Considérons le cas des sites Web, par exemple. Le dynamisme des usages sera lié au dynamisme des pages qui les concernent. Si une page est créée, et qu'elle présente de l'intérêt pour les utilisateurs, alors elle sera consultée. Si la page n'est plus d'actualité, alors les consultations vont baisser ou disparaître. C'est le cas, par exemple, des pages Web de conférences scientifiques qui voient des pics successifs de consultation lorsque les appels à communications sont diffusés, puis le jour de la date limite d'envoi des résumés, puis le jour de la date limite d'envoi des articles. Dans ce mémoire d'habilitation à diriger des recherches, je propose une synthèse des travaux que j'ai dirigés ou co-dirigés, en me basant sur des extraits de publications issues de ces travaux. La première contribution concerne les difficultés d'un processus de fouille de données basé sur le support minimum. Ces difficultés viennent en particulier des supports très bas, à partir desquels des connaissances utiles commencent à apparaître. Ensuite, je proposerai trois déclinaisons de cette notion d'évolution dans l'analyse des usages : l'évolution en tant que connaissance (des motifs qui expriment l'évolution) ; l'évolution des données (en particulier dans le traitement des flux de données) ; et l'évolution des comportements malicieux et des techniques de défense.
APA, Harvard, Vancouver, ISO, and other styles
3

Dubois, Vincent. "Apprentissage approximatif et extraction de connaissances à partir de données textuelles." Nantes, 2003. http://www.theses.fr/2003NANT2001.

Full text
Abstract:
La problématique de cette thèse est l'extraction de connaissances à partir de données textuelles (KDT) en se basant sur la théorie des ensembles approximatifs (RST) et l'apprentissage symbolique et numérique. Les contributions sont : (1) l'extension des espaces de versions (espaces de versions approximatifs (RVS)), (2) l'application des RVS au KDT, (3) la découverte et visualisation de graphes à partir de textes. Tout d'abord, nous définissons les espaces de versions approximatifs (RVS), en construisant des opérateurs d'approximation, ce qui aboutit à un cadre général pour l'apprentissage symbolique automatique. L'introduction de la notion de consistance approximative conduit à l'utilisation de concepts presque consistants avec les données. En pratique, cela a pour effet d'étendre l'interprétation des concepts lors de l'apprentissage, et de traiter les données inconsistantes à l'aide de regroupement des exemples. . .
APA, Harvard, Vancouver, ISO, and other styles
4

Jouve, Pierre-Emmanuel. "Apprentissage non supervisé et extraction de connaissances à partir de données." Lyon 2, 2003. http://theses.univ-lyon2.fr/documents/lyon2/2003/jouve_pe.

Full text
Abstract:
Les travaux constituant cette dissertation concernent la classification non supervisée. Cette problématique, commune à de multiples domaines (et ainsi connue sous diverses acceptions : apprentissage/classification non supervisé(e) en reconnaissance de formes, taxonomie en sciences de la vie, typologie en sciences humaines. . . ), est ici envisagée selon la perspective Ingénierie des Connaissances et plus spécifiquement dans le cadre de son intégration au sein du processus dExtraction de Connaissances à partir de Données (ECD). D'une part, nos travaux participent à l'amélioration du processus de classification non supervisée, et ce, selon divers axes propres ou non à l'ECD (coût calculatoire et utilisabilité des méthodes, formes et distribution des données traitées, forme des connaissances extraites, sélection de variables pour l'apprentissage non supervisé. . . ) mais aussi à l'évaluation de la qualité d'un processus de classification non supervisée (estimation de la validité des résultats issus du processus). D'autre part ces travaux visent à illustrer le lien très étroit unissant apprentissage non supervisé et apprentissage supervisé et à monter l'intérêt d'une intéraction antre ces deux types de processus. Concrètement, ces divers problèmes sont abordé et présentés au travers d'une nouvelle méthode de classification non supervisée, de deux nouveaux indices et d'une méthodologie dédiés à l'évaluation/comparaison de la validité de classification non superviséé, de méthodes de sélection de variables pour l'apprentissage non supervisé et l'apprentissage supervisé, de plusieurs méthodes pour l'agrégation de classification non supervisée.
APA, Harvard, Vancouver, ISO, and other styles
5

Zeitouni, Karine. "Analyse et extraction de connaissances des bases de données spatio-temporelles." Habilitation à diriger des recherches, Université de Versailles-Saint Quentin en Yvelines, 2006. http://tel.archives-ouvertes.fr/tel-00325468.

Full text
Abstract:
Ces dernières années ont vu une croissance phénoménale dans la production et la diffusion des données spatiales de sources aussi variées qu'hétérogènes. Cela a généré des besoins d'intégration dans des entrepôts de données et des perspectives d'analyse exploratoire et de fouille de données spatiales et spatiotemporelles. Nos travaux se placent dans ce contexte visant l'analyse et l'extraction des connaissances depuis les bases de données spatiotemporelles. Ils traitent différents aspects allant de la modélisation avancée des données spatiales, à la fouille de ces données en passant par leur intégration dans un entrepôt, l'optimisation des requêtes et l'analyse en ligne. Ainsi, nous décrivons nos approches pour la modélisation 3D, puis pour la modélisation spatiotemporelle d'objets mobiles. Ensuite, l'intégration de données spatiales est traitées selon deux aspects : l'intégration de formats et l'intégration de données par l'appariement géométrique. Une architecture d'entrepôt de données spatiales basée sur les standards XML et GML est proposée, puis dotée d'une technique d'optimisation de requêtes spatiales basée sur un cache sémantique. L'exploration des données spatiotemporelles a donné lieu à des solutions originales extension de l'OLAP. Enfin, différentes approches sont proposées pour la fouille de données spatiales. Nous avons ouvert le spectre de nos recherches à la fouille d'autres données complexes, telles que les données séquentielles et textuelles. Ces travaux ainsi que les développements futurs sont exposés dans ce mémoire.
APA, Harvard, Vancouver, ISO, and other styles
6

Gaumer, Gaëtan. "Résumé de données en extraction de connaissances à partir des données (ECD) : application aux données relationnelles et textuelles." Nantes, 2003. http://www.theses.fr/2003NANT2025.

Full text
Abstract:
Les travaux présentés dans cette thèse ont été réalisés dans le cadre d'un contrat CNET JMINER, dont le but est l'étude de pré-traitement et post-traitements en extraction de connaissances à partir des données, appliqués aux lettres de réclamation de France Télécom. Les caractéristiques particulières des données de cette application ont orienté nos travaux de recherche. Nous nous sommes tout d'abord intéressés aux problèmes liés à l'extraction de connaissances à partir de très importants volumes de données. Nous proposons, pour résoudre ces problèmes, de remplacer les données à traiter par un résumé de ces données possédant les mêmes caractéristiques. Cette proposition s'est concrétisée par le développement du logiciel CFSUMM, un système de création de résumés de données utilisant des mesures de similarités et d'indiscernabilités entre instances. Nous montrons pourquoi et comment les caractéristiques de ce logiciel le destine particulièrementà la réduction d'importants volumes de données, qu'ils soient issus de bases de données relationnelles ou d'indexation de documents non structurés (texte, html, etc). . .
APA, Harvard, Vancouver, ISO, and other styles
7

Godreau, Victor. "Extraction des connaissances à partir des données de la surveillance de l'usinage." Thesis, Nantes, 2017. http://www.theses.fr/2017NANT4104.

Full text
Abstract:
Dans le cadre des recherches sur l’industrie 4.0, la surveillance des procédés de fabrication est un sujet clé. De grandes quantités d’information, transitant dans les machines de fabrications, sont mesurables et peuvent être utilisées dans les entreprises pour optimiser de nombreux processus. Ces processus, de la conception à la qualité en passant par la maintenance, sont tous intéressés par les données de terrain issues de la production pour réaliser une amélioration continue. Il faut donc capitaliser ces données puis les traiter afin de les rendre pertinentes pour chacun des utilisateurs. Le broutement est un phénomène d’instabilité de la coupe en usinage qui dégrade la qualité des pièces usinées. Dans une première partie, un modèle de simulation numérique a été réalisé pour lier les vibrations mesurées en machine et leurs impacts sur la qualité de la pièce finie. De nouvelles données concernant la qualité sont donc prédites par la surveillance. Dans une seconde partie, des méthodes d’extraction des connaissances dans les données sont adaptées et appliquées aux données capitalisées en usinage. Cette étude, concernant la maintenance des moyens de production, tend à répondre à la question de l’impact des évènements survenant en usinage sur la durée de vie des broches. Finalement, les derniers travaux porteront sur l’intégration des systèmes de surveillance dans les entreprises et sur la création d’indicateurs de performance adaptés à chaque service, pour tirer parti, au maximum, du potentiel de ces données<br>In the industry 4.0 research field, the monitoring of the process is a key issue. Milling machines are in the center of an important flow of information that are measurable and that can be used to improve company processes. Those processes (conception, industrialization, quality, maintenance) are all interested in field manufacturing data to continuously improve themselves. Capitalizing this data flow and transform it into relevant criteria for all services, is then necessary. Chatter is an instability phenomenon of the cut during machining. It deteriorates the quality of machined part surfaces. In a first part, a numerical model has been created to link the vibration measured during machining to their impact on finished part quality. So, new data concerning quality issues is collected. In a second part, methods of knowledge discovery in databases are adapted and applied to monitoring data. This study, concern a maintenance issue. It tends to answer the question: which kind of machining events impacts the wear of machining spindles. Finally, last works will talk about the integration of monitoring systems in the information system of industries and the computation of new Key Performance Indicators (KPI) adapted to each specific need of factories to take advantage of the full potential of the monitoring data
APA, Harvard, Vancouver, ISO, and other styles
8

Bendou, Mohamed. "Extraction de connaissances à partir des données à l'aide des réseaux bayésiens." Paris 11, 2003. http://www.theses.fr/2003PA112053.

Full text
Abstract:
L'objectif principal de cette thèse se focalise essentiellement sur la conception de nouveaux algorithmes d'apprentissage de réseaux Bayésiens, plus précis, plus efficaces, plus robustes en présence du bruit et, donc, plus adaptés aux tâches pratiques d'ECD. Partant de l'observation que la plupart des optima locaux dans l'espace des structures de réseaux bayésiens sont directement liés à l'existence des classes d'équivalence (ensembles de structures encodant les mêmes relations d'indépendance conditionnelle, représentées par des graphes semi-orientés), nous avons concentré une partie importante de nos recherches sur l'élaboration d'une nouvelle famille d'algorithmes d'apprentissage: EQ, qui explorent directement l'espace des classes d'équivalence, ainsi que sur le développement d'une "boîte à outils" théoriques et algorithmiques pour l'analyse et le traitement des graphes semi-orientés. Nous avons pu démontrer que les gains de précision significatifs apportés par ce type d'approche peuvent être obtenus tout en conservant des temps de calcul comparables à ceux des approches classiques. Ainsi, nous avons contribué au regain d'intérêt actuel pour l'apprentissage des classes d'équivalence de réseaux bayésiens (considéré pendant longtemps comme trop complexe par la communauté scientifique). Enfin, un autre volet de nos recherches a été consacré à l'analyse des effets du bruit présent dans les données sur l'apprentissage des réseaux Bayésiens. Nous avons analysé et expliqué l'augmentation de la complexité des réseaux Bayésiens appris à partir de données bruitées et montré que, contrairement aux sur-spécialisations classiques affectant les autres classes de méthodes d'apprentissage, ce phénomène est justifié théoriquement et bénéfique pour le pouvoir prédictif des modèles appris<br>The main objective of this thesis basically focuses on developing a new kind of learning algorithms of Bayésiens networks, more accurate, efficient and robust in presence of the noise and, therefore, adapted to KDD tasks. Since most of local optima in the space of networks bayésiens structures are caused directly by the existence of equivalence classes (sets of structures encoding the same conditional independence relations, represented by the partially oriented graphs), we concentrated important part of our researches on the development of a new family of learning algorithms: EQ. These algorithms directly explore the space of equivalence classes. We also developed theoretical and algorithmic tools for the analysis and the treatment of partially oriented graphs. We could demonstrate that a meaningful precision gains brought by this kind of approach can be obtained in a comparable time than the classical approaches. We, thus, contributed to the present interest renewal for the learning of equivalence classes of bayesian networks (considered for a long time as too complex by the scientific community). Finally, another aspect of our research has been dedicated to the analysis of noise effects in data on the learning of the Bayesians networks. We analyzed and explained the increase of the complexity of learned Bayesian networks learned from noisy data and shown that, unlike classical over-fitting which affects other classes of learning methods, this phenomenon is theoretically justified by the alteration of the conditional independence relations between the variables and is beneficial for the predictive power of the learned models
APA, Harvard, Vancouver, ISO, and other styles
9

Munteanu, Paul. "Extraction de connaissances dans les bases de données parole : apport de l'apprentissage symbolique." Grenoble INPG, 1996. http://www.theses.fr/1996INPG0207.

Full text
Abstract:
L'objectif principal de cette these est d'apporter des arguments, d'ordre theorique et experimental, pour soutenir l'interet des methodes d'apprentissage symbolique dans la recherche en communication parlee proche des signaux physiques. Dans un premier temps, nous presentons nos contributions en apprentissage symbolique qui visent a repondre a certaines particularites de ce domaine. Pmbc est un algorithme original d'apprentissage par generalisations successives dans les espaces numeriques, qui combine des heuristiques issues de l'apprentissage non-supervise, de la classification statistique et de l'induction de regles. L'analyse theorique sur laquelle est fonde notre deuxieme algorithme, idf, fournit une explication rigoureuse et des perspectives d'amelioration des heuristiques generalement utilisees dans l'induction d'arbres de decision, notamment dans le traitement des attributs numeriques. Les performances de ces deux algorithmes ont ete validees sur un grand nombre de bases de donnees utilisees generalement pour la comparaison des resultats d'apprentissage. Notre troisieme contribution, copac, est un environnement informatique d'induction interactive de regles de classification qui met l'accent sur la cooperation entre les methodes d'apprentissage automatique et les experts humains. Nous presentons ensuite des resultats experimentaux encourageants obtenus sur deux problemes representatifs des besoins en recherche dans le domaine de la parole: l'acquisition de connaissances prosodiques pour l'amelioration de l'acces lexical et la caracterisation des occlusives sourdes. La derniere partie de cette these est consacree a l'integration des methodes d'apprentissage symbolique dans l'environnement sidoc de gestion de donnees et de connaissances sur la parole, fonde sur le modele objet
APA, Harvard, Vancouver, ISO, and other styles
10

Ghoorah, Anisah. "Extraction de Connaissances pour la Modelisation tri-dimensionnelle de l'Interactome Structural." Phd thesis, Université de Lorraine, 2012. http://tel.archives-ouvertes.fr/tel-00762444.

Full text
Abstract:
L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK. Le système KBDOCK couvre plus de 2,700 hetero DDIs non-redondantes correspondant à 1,439 DFBSs localisés sur 947 domaines Pfam distincts. KBDOCK a permis de réaliser plusieurs études étendues. Par exemple, KBDOCK a été utilisé pour montrer que: (1) après de 70% de familles de domaines protéiques n'ont qu'un seul DFBS et les autres familles en ont un petit nombre seulement, ce qui suggère que les DDIs re-utilisent souvent les mêmes sites de liaison; (2) plus de 80% de DFBSs interagissent avec une seule famille de domaines protéiques et les autres DFBSs interagissent avec un petit nombre de familles, ce qui indique que la plupart des DFBSs sont principalement monogames dans leur interactions avec les autres domaines protéiques; (3) les DFBSs impliqués dans des interactions présentent des régularités en terme de structure secondaire, ce qui pourrait servir comme un descripteur complémentaire dans la prédiction d'interaction; (4) lorsque les domaines re-utilisent leur DFBS, le docking orienté vient améliorer les prédictions. Ainsi, KBDOCK constitue une ressource unifiée qui permet d'enrichir les connaissances sur l'interactome structural.
APA, Harvard, Vancouver, ISO, and other styles
More sources
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography