To see the other types of publications on this topic, follow the link: Mesure de similarité sémantique.

Dissertations / Theses on the topic 'Mesure de similarité sémantique'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Mesure de similarité sémantique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Harispe, Sébastien. "Knowledge-based Semantic Measures : From Theory to Applications." Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20038/document.

Full text
Abstract:
Les notions de proximité, de distance et de similarité sémantiques sont depuis longtemps jugées essentielles dans l'élaboration de nombreux processus cognitifs et revêtent donc un intérêt majeur pour les communautés intéressées au développement d'intelligences artificielles. Cette thèse s'intéresse aux différentes mesures sémantiques permettant de comparer des unités lexicales, des concepts ou des instances par l'analyse de corpus de textes ou de représentations de connaissance (e.g. ontologies). Encouragées par l'essor des technologies liées à l'Ingénierie des Connaissances et au Web sémantique, ces mesures suscitent de plus en plus d'intérêt à la fois dans le monde académique et industriel. Ce manuscrit débute par un vaste état de l'art qui met en regard des travaux publiés dans différentes communautés et souligne l'aspect interdisciplinaire et la diversité des recherches actuelles dans ce domaine. Cela nous a permis, sous l'apparente hétérogénéité des mesures existantes, de distinguer certaines propriétés communes et de présenter une classification générale des approches proposées. Par la suite, ces travaux se concentrent sur les mesures qui s'appuient sur une structuration de la connaissance sous forme de graphes sémantiques, e.g. graphes RDF(S). Nous montrons que ces mesures reposent sur un ensemble réduit de primitives abstraites, et que la plupart d'entre elles, bien que définies indépendamment dans la littérature, ne sont que des expressions particulières de mesures paramétriques génériques. Ce résultat nous a conduits à définir un cadre théorique unificateur pour les mesures sémantiques. Il permet notamment : (i) d'exprimer de nouvelles mesures, (ii) d'étudier les propriétés théoriques des mesures et (iii) d'orienter l'utilisateur dans le choix d'une mesure adaptée à sa problématique. Les premiers cas concrets d'utilisation de ce cadre démontrent son intérêt en soulignant notamment qu'il permet l'analyse théorique et empirique des mesures avec un degré de détail particulièrement fin, jamais atteint jusque-là. Plus généralement, ce cadre théorique permet de poser un regard neuf sur ce domaine et ouvre de nombreuses perspectives prometteuses pour l'analyse des mesures sémantiques. Le domaine des mesures sémantiques souffre d'un réel manque d'outils logiciels génériques et performants ce qui complique à la fois l'étude et l'utilisation de ces mesures. En réponse à ce manque, nous avons développé la Semantic Measures Library (SML), une librairie logicielle dédiée au calcul et à l'analyse des mesures sémantiques. Elle permet d'utiliser des centaines de mesures issues à la fois de la littérature et des fonctions paramétriques étudiées dans le cadre unificateur introduit. Celles-ci peuvent être analysées et comparées à l'aide des différentes fonctionnalités proposées par la librairie. La SML s'accompagne d'une large documentation, d'outils logiciels permettant son utilisation par des non informaticiens, d'une liste de diffusion, et de façon plus large, se propose de fédérer les différentes communautés du domaine afin de créer une synergie interdisciplinaire autour la notion de mesures sémantiques : http://www.semantic-measures-library.org Cette étude a également conduit à différentes contributions algorithmiques et théoriques, dont (i) la définition d'une méthode innovante pour la comparaison d'instances définies dans un graphe sémantique – nous montrons son intérêt pour la mise en place de système de recommandation à base de contenu, (ii) une nouvelle approche pour comparer des concepts représentés dans des taxonomies chevauchantes, (iii) des optimisations algorithmiques pour le calcul de certaines mesures sémantiques, et (iv) une technique d'apprentissage semi-supervisée permettant de cibler les mesures sémantiques adaptées à un contexte applicatif particulier en prenant en compte l'incertitude associée au jeu de test utilisé. Travaux validés par plusieurs publications et communications nationales et internationales<br>The notions of semantic proximity, distance, and similarity have long been considered essential for the elaboration of numerous cognitive processes, and are therefore of major importance for the communities involved in the development of artificial intelligence. This thesis studies the diversity of semantic measures which can be used to compare lexical entities, concepts and instances by analysing corpora of texts and knowledge representations (e.g., ontologies). Strengthened by the development of Knowledge Engineering and Semantic Web technologies, these measures are arousing increasing interest in both academic and industrial fields.This manuscript begins with an extensive state-of-the-art which presents numerous contributions proposed by several communities, and underlines the diversity and interdisciplinary nature of this domain. Thanks to this work, despite the apparent heterogeneity of semantic measures, we were able to distinguish common properties and therefore propose a general classification of existing approaches. Our work goes on to look more specifically at measures which take advantage of knowledge representations expressed by means of semantic graphs, e.g. RDF(S) graphs. We show that these measures rely on a reduced set of abstract primitives and that, even if they have generally been defined independently in the literature, most of them are only specific expressions of generic parametrised measures. This result leads us to the definition of a unifying theoretical framework for semantic measures, which can be used to: (i) design new measures, (ii) study theoretical properties of measures, (iii) guide end-users in the selection of measures adapted to their usage context. The relevance of this framework is demonstrated in its first practical applications which show, for instance, how it can be used to perform theoretical and empirical analyses of measures with a previously unattained level of detail. Interestingly, this framework provides a new insight into semantic measures and opens interesting perspectives for their analysis.Having uncovered a flagrant lack of generic and efficient software solutions dedicated to (knowledge-based) semantic measures, a lack which clearly hampers both the use and analysis of semantic measures, we consequently developed the Semantic Measures Library (SML): a generic software library dedicated to the computation and analysis of semantic measures. The SML can be used to take advantage of hundreds of measures defined in the literature or those derived from the parametrised functions introduced by the proposed unifying framework. These measures can be analysed and compared using the functionalities provided by the library. The SML is accompanied by extensive documentation, community support and software solutions which enable non-developers to take full advantage of the library. In broader terms, this project proposes to federate the several communities involved in this domain in order to create an interdisciplinary synergy around the notion of semantic measures: http://www.semantic-measures-library.org This thesis also presents several algorithmic and theoretical contributions related to semantic measures: (i) an innovative method for the comparison of instances defined in a semantic graph – we underline in particular its benefits in the definition of content-based recommendation systems, (ii) a new approach to compare concepts defined in overlapping taxonomies, (iii) algorithmic optimisation for the computation of a specific type of semantic measure, and (iv) a semi-supervised learning-technique which can be used to identify semantic measures adapted to a specific usage context, while simultaneously taking into account the uncertainty associated to the benchmark in use. These contributions have been validated by several international and national publications
APA, Harvard, Vancouver, ISO, and other styles
2

Cayèré, Cécile. "Modélisation de trajectoires sémantiques et calcul de similarité intégrés à un ETL." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS042.

Full text
Abstract:
Cette dernière décennie, nous avons pu constater une montée en popularité des applications mobiles basées sur la localisation des téléphones. Ces applications collectent des traces de mobilité qui retracent le déplacement des utilisateurs au cours du temps. Dans le projet régional DA3T, nous faisons l’hypothèse que l’analyse des traces de mobilité de touristes peut aider les aménageurs dans la gestion et la valorisation des territoires touristiques. L’objectif est de concevoir des méthodes et des outils d’aide à l’analyse de ces traces. Cette thèse s’intéresse au traitement des traces de mobilité et propose une plateforme modulaire permettant de créer et d’exécuter des chaînes de traitement sur ces données. Au fil des modules d’une chaîne de traitement, la trace de mobilité brute évolue en trajectoires sémantiques. Les contributions de cette thèse sont : (i) un modèle de trajectoire sémantique multi-niveau et multi-aspect et (ii) deux mesures calculant la similarité entre deux trajectoires sémantiques s’intéressant aux dimensions spatiales, temporelle et thématique. Notre modèle (i) est utilisé comme modèle de transition entre les modules d’une chaîne de traitement. Nous l’avons mis à l’épreuve en instanciant des trajectoires sémantiques issues de différents jeux de données de domaines variés. Nos deux mesures (ii) sont intégrées à notre plateforme comme modules de traitement. Ces mesures présentent des originalités : l’une est la combinaison de sous-mesures, chacune permettant d’évaluer la similarité des trajectoires sur les trois dimensions et selon trois niveaux de granularité différents, l’autre est la combinaison de deux sous-mesures bidimensionnelles centrées autour d’une dimension en particulier. Nous avons évalué nos deux mesures en les comparant à d’autres mesures et à l’avis de géographes<br>Over the last decade, we have seen a rise in popularity of mobile applications based on phone location. These applications collect mobility tracks which describe the movement of users overtime. In the DA3T regional project, we hypothesise that the analysis of tourists’ mobility tracks can help planners in the management and enhancement of tourist areas. The objective is to design methods and tools to help analyse these tracks. This thesis focuses on the processing of mobility tracks and proposes a modular platform for creating and executing processing chains on these data. Throughout the modules of a processing chain, the raw mobility track evolves into semantic trajectories. The contributions of this thesis are: (i) a multi-level and multi-aspect semantic trajectory model and (ii) two measures that compute the similarity between two semantic trajectories along spatial, temporal and thematic dimensions. Our model (i) is used as a transition model between modules of a processing chain. We tested it by instantiating semantic trajectories from different datasets of various domains. Our two measures (ii) are integrated in our platform as processing modules. These measures present originalities: one is the combination of sub-measures, each allowing to evaluate the similarity of trajectories on the three dimensions and according to three different levels of granularity, the other is the combination of two bidimensional sub-measures centred around a particular dimension. We evaluated our two measures by comparing them to other measures and to the opinion of geographers
APA, Harvard, Vancouver, ISO, and other styles
3

Aimé, Xavier. "Gradients de prototypicalité, mesures de similarité et de proximité sémantique : une contribution à l'Ingénierie des Ontologies." Phd thesis, Université de Nantes, 2011. http://tel.archives-ouvertes.fr/tel-00660916.

Full text
Abstract:
En psychologie cognitive, la notion de prototype apparaît de manière centrale dans les représentations conceptuelles. Dans le cadre de nos travaux, nous proposons d'introduire cette notion au sein des activités relevant de l'Ingénierie des Ontologies et de ses modèles de représentation. L'approche sémiotique que nous avons développée est fondée sur les trois dimensions d'une conceptualisation que sont l'intension (les propriétés), l'expression (les termes), et l'extension (les instances). Elle intègre, en sus de l'ontologie, des connaissances supplémentaires propres à l'utilisateur (pondération des propriétés, corpus, instances). Pratiquement, il s'agit de pondérer les liens "is-a", les termes et les instances d'une hiérarchie de concepts, au moyen de gradients de prototypicalité respectivement conceptuelle, lexicale et extensionnelle. Notre approche a été mise en oeuvre dans un système industriel de gestion documentaire et de recherche d'information pour la société Tennaxia - société de veille juridique dans le domaine de l'Environnement. Elle a conduit au développement d'une ontologie du domaine Hygiène-Sécurité-Environnement, et de deux applications logicielles : l'application TooPrag dédiée au calcul des différents gradients de prototypicalité, et le moteur de Recherche d'Information sémantique Theseus qui exploite les gradients de prototypicalité. Nous avons enfin étendu notre approche à la définition de deux nouvelles mesures sémantiques, en nous inspirant des lois de similarité et de proximité de la théorie de la perception : Semiosem, une mesure de similarité, et Proxem, une mesure de proximité.
APA, Harvard, Vancouver, ISO, and other styles
4

Aseervatham, Sujeevan. "Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles." Phd thesis, Université Paris-Nord - Paris XIII, 2007. http://tel.archives-ouvertes.fr/tel-00274627.

Full text
Abstract:
Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d'apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d'experts sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d'apprentissage.<br />Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes.<br />Le premier axe porte sur l'étude des problématiques liées au traitement de données textuelles structurées par des approches à base de noyaux. Nous présentons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d'une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé, lors d'un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44. <br />Le second axe porte sur l'étude des concepts latents extraits par des méthodes statistiques telles que l'analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d'une source externe et des concepts statistiques issus de la LSA. Nous montrons qu'un noyau intégrant les deux types de concepts permet d'améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d'extraire des concepts latents permettant d'obtenir une représentation plus fine des documents.
APA, Harvard, Vancouver, ISO, and other styles
5

Benabderrahmane, Sidahmed. "Prise en compte des connaissances du domaine dans l'analyse transcriptomique : Similarité sémantique, classification fonctionnelle et profils flous : application au cancer colorectal." Phd thesis, Université Henri Poincaré - Nancy I, 2011. http://tel.archives-ouvertes.fr/tel-00653169.

Full text
Abstract:
L'analyse bioinformatique des données de transcriptomique a pour but d'identifier les gènes qui présentent des variations d'expression entre différentes situations, par exemple entre des échantillons de tissu sain et de tissu malade et de caractériser ces gènes à partir de leurs annotations fonctionnelles. Dans ce travail de thèse, je propose quatre contributions pour la prise en compte des connaissances du domaine dans ces méthodes. Tout d'abord je définis une nouvelle mesure de similarité sémantique et fonctionnelle (IntelliGO) entre les gènes, qui exploite au mieux les annotations fonctionnelles issues de l'ontologie GO ('Gene Ontology'). Je montre ensuite, grâce à une méthodologie d'évaluation rigoureuse, que la mesure IntelliGO est performante pour la classification fonctionnelle des gènes. En troisième contribution je propose une approche différentielle avec affectation floue pour la construction de profils d'expression différentielle (PED). Je définis alors un algorithme d'analyse de recouvrement entre classes fonctionnelles et ensemble des références, ici les PEDs, pour mettre en évidence des gènes ayant à la fois les mêmes variations d'expression et des annotations fonctionnelles similaires. Cette méthode est appliquée à des données expérimentales produites à partir d'échantillons de tissus sains, de tumeur colo-rectale et de lignée cellulaire cancéreuse. Finalement, la mesure de similarité IntelliGO est généralisée à d'autres vocabulaires structurés en graphe acyclique dirigé et enraciné (rDAG) comme l'est l'ontologie GO, avec un exemple d'application concernant la réduction sémantique d'attributs avant la fouille.
APA, Harvard, Vancouver, ISO, and other styles
6

El, Khelifi Aymen. "Approche générique d’extraction automatique des événements et leur exploitation." Thesis, Paris 4, 2012. http://www.theses.fr/2012PA040189.

Full text
Abstract:
Dans le cadre de notre thèse, nous avons proposé une approche générique d’extraction automatique des événements et de leur exploitation. L’approche est organisée en quatre composantes indépendantes et réutilisables. Une première composante de prétraitement, où les textes sont nettoyés et segmentés. Au cours de la seconde étape, les événements sont extraits en sebasant sur notre algorithme AnnotEC qui dispose d’une complexité polynomiale et qui est associé à des cartes sémantiques et des ressources linguistiques dédiées. Nous avons mis en place deux nouvelles mesures de similarité SimCatégoreille et SimEvent pour regrouper les événementssimilaires dans le cadre de la troisième composante de clustering. Les annotations, ajoutées tout au long des trois premières étapes, sont exploitées au niveau de la dernière composante par le bais des fichiers de synthèse paramétrables par l’utilisateur.L’approche a été évaluée sur un corpus issu du Web 2.0. Nous avons comparé les résultats avec des méthodes d’apprentissage automatique et des méthodes linguistiques par compilation et nous avons obtenu de meilleurs résultats<br>In the framework of our thesis, we proposed a generic approach for the automatic extraction of events and their exploitation. This approach is divided into four independent and reusable components. The first component of pretreatment, in which texts are cleaned and segmented. During the second stage, events are extracted based on our algorithm AnnotEC which has polynomial complexity. AnnotEC is associated with semantic maps and dedicated linguistic resources. We have proposed two new similarity measures SimCatégoreille and SimEvent to group similar events using clustering algorithms.Annotations, added throughout the first three steps, are used at the last component by summarizing files configurable by users. The approach was evaluated on a corpus of Web 2.0, we compared the obtained results with machine learning methods and linguistic compiling methods and we got good results
APA, Harvard, Vancouver, ISO, and other styles
7

Benabderrahmane, Sidahmed. "Prise en compte des connaissances du domaine dans l'analyse transcriptomique : Similarité sémantique, classification fonctionnelle et profils flous : application au cancer colorectal." Electronic Thesis or Diss., Nancy 1, 2011. http://www.theses.fr/2011NAN10097.

Full text
Abstract:
L'analyse bioinformatique des données de transcriptomique a pour but d'identifier les gènes qui présentent des variations d'expression entre différentes situations, par exemple entre des échantillons de tissu sain et de tissu malade et de caractériser ces gènes à partir de leurs annotations fonctionnelles. Dans ce travail de thèse, je propose quatre contributions pour la prise en compte des connaissances du domaine dans ces méthodes. Tout d'abord je définis une nouvelle mesure de similarité sémantique et fonctionnelle (IntelliGO) entre les gènes, qui exploite au mieux les annotations fonctionnelles issues de l'ontologie GO ('Gene Ontology'). Je montre ensuite, grâce à une méthodologie d'évaluation rigoureuse, que la mesure IntelliGO est performante pour la classification fonctionnelle des gènes. En troisième contribution je propose une approche différentielle avec affectation floue pour la construction de profils d'expression différentielle (PED). Je définis alors un algorithme d'analyse de recouvrement entre classes fonctionnelles et ensemble des références, ici les PEDs, pour mettre en évidence des gènes ayant à la fois les mêmes variations d'expression et des annotations fonctionnelles similaires. Cette méthode est appliquée à des données expérimentales produites à partir d'échantillons de tissus sains, de tumeur colo-rectale et de lignée cellulaire cancéreuse. Finalement, la mesure de similarité IntelliGO est généralisée à d'autres vocabulaires structurés en graphe acyclique dirigé et enraciné (rDAG) comme l'est l'ontologie GO, avec un exemple d'application concernant la réduction sémantique d'attributs avant la fouille<br>Bioinformatic analyses of transcriptomic data aims to identify genes with variations in their expression level in different tissue samples, for example tissues from healthy versus seek patients, and to characterize these genes on the basis of their functional annotation. In this thesis, I present four contributions for taking into account domain knowledge in these methods. Firstly, I define a new semantic and functional similarity measure which optimally exploits functional annotations from Gene Ontology (GO). Then, I show, thanks to a rigorous evaluation method, that this measure is efficient for the functional classification of genes. In the third contribution, I propose a differential approach with fuzzy assignment for building differential expression profiles (DEPs). I define an algorithm for analyzing overlaps between functional clusters and reference sets such as DEPs here, in order to point out genes that have both similar functional annotation and similar variations in expression. This method is applied to experimental data produced from samples of healthy tissue, colorectal tumor and cancerous cultured cell line. Finally the similarity measure IntelliGO is generalized to another structured vocabulary organized as GO as a rooted directed acyclic graph, with an application concerning the semantic reduction of attributes before mining
APA, Harvard, Vancouver, ISO, and other styles
8

Mazuel, Laurent. "Traitement de l'hétérogénéité sémantique dans les interactions humain-agent et agent-agent." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2008. http://tel.archives-ouvertes.fr/tel-00413004.

Full text
Abstract:
Le thème général de cette thèse est le traitement de l'hétérogénéité sémantique dans les interactions humain-agent et agent-agent. Plus précisément, nous étudions le cas où un agent informatique muni d'un modèle de représentation de ses connaissances doit traiter des demandes envoyées par d'autres interlocuteurs, qu'il s'agisse d'utilisateurs humains ou d'agents informatiques.<br />La plupart des approches segmentent ce traitement en fonction de l'émetteur de la demande (humain ou agent). Nous pensons au contraire qu'il est possible de proposer un modèle d'interaction commun aux deux situations. Ainsi, nous présentons d'abord un algorithme d'interprétation sémantique de la commande indépendant du type d'interaction (humain-agent ou agent-agent). Cet algorithme considère le rapport entre « ce qui est compris » de la commande et « ce qui est possible » pour la machine. Ce rapport intervient dans un système de sélection de réponses basé sur une mesure de degré de relation sémantique. Nous proposons ensuite une telle mesure, conçue pour prendre en compte plus d'informations que la plupart des mesures actuelles.<br />Nous étudions ensuite les implémentations que nous avons faites dans les cadres humain-agent et agent-agent. Pour l'implémentation humain-agent, l'une des spécificités est l'utilisation d'une langue naturelle, impliquant le besoin d'utiliser des outils de modélisation de la langue. Pour l'implémentation agent-agent, nous proposerons une adaptation de notre architecture, en s'appuyant sur des protocoles d'interactions entre agents.
APA, Harvard, Vancouver, ISO, and other styles
9

Albitar, Shereen. "De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM4343/document.

Full text
Abstract:
Cette thèse porte sur l’impact de l’usage de la sémantique dans le processus de la classification supervisée de textes. Cet impact est évalué au travers d’une étude expérimentale sur des documents issus du domaine médical et en utilisant UMLS (Unified Medical Language System) en tant que ressource sémantique. Cette évaluation est faite selon quatre scénarii expérimentaux d’ajout de sémantique à plusieurs niveaux du processus de classification. Le premier scénario correspond à la conceptualisation où le texte est enrichi avant indexation par des concepts correspondant dans UMLS ; le deuxième et le troisième scénario concernent l’enrichissement des vecteurs représentant les textes après indexation dans un sac de concepts (BOC – bag of concepts) par des concepts similaires. Enfin le dernier scénario utilise la sémantique au niveau de la prédiction des classes, où les concepts ainsi que les relations entre eux, sont impliqués dans la prise de décision. Le premier scénario est testé en utilisant trois des méthodes de classification: Rocchio, NB et SVM. Les trois autres scénarii sont uniquement testés en utilisant Rocchio qui est le mieux à même d’accueillir les modifications nécessaires. Au travers de ces différentes expérimentations nous avons tout d’abord montré que des améliorations significatives pouvaient être obtenues avec la conceptualisation du texte avant l’indexation. Ensuite, à partir de représentations vectorielles conceptualisées, nous avons constaté des améliorations plus modérées avec d’une part l’enrichissement sémantique de cette représentation vectorielle après indexation, et d’autre part l’usage de mesures de similarité sémantique en prédiction<br>The main interest of this research is the effect of using semantics in the process of supervised text classification. This effect is evaluated through an experimental study on documents related to the medical domain using the UMLS (Unified Medical Language System) as a semantic resource. This evaluation follows four scenarios involving semantics at different steps of the classification process: the first scenario incorporates the conceptualization step where text is enriched with corresponding concepts from UMLS; both the second and the third scenarios concern enriching vectors that represent text as Bag of Concepts (BOC) with similar concepts; the last scenario considers using semantics during class prediction, where concepts as well as the relations between them are involved in decision making. We test the first scenario using three popular classification techniques: Rocchio, NB and SVM. We choose Rocchio for the other scenarios for its extendibility with semantics. According to experiment, results demonstrated significant improvement in classification performance using conceptualization before indexing. Moderate improvements are reported using conceptualized text representation with semantic enrichment after indexing or with semantic text-to-text semantic similarity measures for prediction
APA, Harvard, Vancouver, ISO, and other styles
10

Hoffmann, Patrick. "Similarité sémantique inter ontologies basée sur le contexte." Phd thesis, Université Claude Bernard - Lyon I, 2008. http://tel.archives-ouvertes.fr/tel-00363300.

Full text
Abstract:
Cette thèse étudie l'intérêt du contexte pour améliorer l'interopérabilité entre ontologies hétérogènes, d'une manière qui permette leur évolution indépendante. Lors de collaborations, les organisations échangent leurs données, qui sont décrites par des concepts définis dans des ontologies. L'objectif est d'obtenir un service d'évaluation de tels concepts, basé sur le contexte.<br />Nous proposons une méthodologie pour déterminer, modeler et utiliser le contexte. En l'appliquant, nous découvrons trois usages du contexte qui contribuent à améliorer la réconciliation d'ontologies : Nous proposons de désambiguïser les sens pragmatiques possibles des concepts en comparant les "perspectives" avec lesquelles les concepts ont été développés ; de personnaliser en considérant le contexte des agents, constitué d'une sélection pertinente parmi les domaines et tâches de l'organisation ; d'évaluer la pertinence des données associées au concept pour la tâche qui a suscité le besoin en interopérabilité.
APA, Harvard, Vancouver, ISO, and other styles
11

Berrahou, Soumia Lilia. "Extraction d'arguments de relations n-aires dans les textes guidée par une RTO de domaine." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS019/document.

Full text
Abstract:
Aujourd'hui, la communauté scientifique a l'opportunité de partager des connaissances et d'accéder à de nouvelles informations à travers les documents publiés et stockés dans les bases en ligne du web. Dans ce contexte, la valorisation des données disponibles reste un défi majeur pour permettre aux experts de les réutiliser et les analyser afin de produire de la connaissance du domaine. Pour être valorisées, les données pertinentes doivent être extraites des documents puis structurées. Nos travaux s'inscrivent dans la problématique de la capitalisation des données expérimentales issues des articles scientifiques, sélectionnés dans des bases en ligne, afin de les réutiliser dans des outils d'aide à la décision. Les mesures expérimentales (par exemple, la perméabilité à l'oxygène d'un emballage ou le broyage d'une biomasse) réalisées sur différents objets d'études (par exemple, emballage ou procédé de bioraffinerie) sont représentées sous forme de relations n-aires dans une Ressource Termino-Ontologique (RTO). La RTO est modélisée pour représenter les relations n-aires en associant une partie terminologique et/ou linguistique aux ontologies afin d'établir une distinction claire entre la manifestation linguistique (le terme) et la notion qu'elle dénote (le concept). La thèse a pour objectif de proposer une contribution méthodologique d'extraction automatique ou semi-automatique d'arguments de relations n-aires provenant de documents textuels afin de peupler la RTO avec de nouvelles instances. Les méthodologies proposées exploitent et adaptent conjointement des approches de Traitement automatique de la Langue (TAL) et de fouille de données, le tout s'appuyant sur le support sémantique apporté par la RTO de domaine. De manière précise, nous cherchons, dans un premier temps, à extraire des termes, dénotant les concepts d'unités de mesure, réputés difficiles à identifier du fait de leur forte variation typographique dans les textes. Après la localisation de ces derniers par des méthodes de classification automatique, les variants d'unités sont identifiés en utilisant des mesures d'édition originales. La seconde contribution méthodologique de nos travaux repose sur l'adaptation et la combinaison de méthodes de fouille de données (extraction de motifs et règles séquentiels) et d'analyse syntaxique pour identifier les instances d'arguments de la relation n-aire recherchée<br>Today, a huge amount of data is made available to the research community through several web-based libraries. Enhancing data collected from scientific documents is a major challenge in order to analyze and reuse efficiently domain knowledge. To be enhanced, data need to be extracted from documents and structured in a common representation using a controlled vocabulary as in ontologies. Our research deals with knowledge engineering issues of experimental data, extracted from scientific articles, in order to reuse them in decision support systems. Experimental data can be represented by n-ary relations which link a studied object (e.g. food packaging, transformation process) with its features (e.g. oxygen permeability in packaging, biomass grinding) and capitalized in an Ontological and Terminological Ressource (OTR). An OTR associates an ontology with a terminological and/or a linguistic part in order to establish a clear distinction between the term and the notion it denotes (the concept). Our work focuses on n-ary relation extraction from scientific documents in order to populate a domain OTR with new instances. Our contributions are based on Natural Language Processing (NLP) together with data mining approaches guided by the domain OTR. More precisely, firstly, we propose to focus on unit of measure extraction which are known to be difficult to identify because of their typographic variations. We propose to rely on automatic classification of texts, using supervised learning methods, to reduce the search space of variants of units, and then, we propose a new similarity measure that identifies them, taking into account their syntactic properties. Secondly, we propose to adapt and combine data mining methods (sequential patterns and rules mining) and syntactic analysis in order to overcome the challenging process of identifying and extracting n-ary relation instances drowned in unstructured texts
APA, Harvard, Vancouver, ISO, and other styles
12

Tekli, Joe M. "Framework d'évaluation de similarité structurelle de documents et grammaires XML." Dijon, 2009. http://www.theses.fr/2009DIJOS034.

Full text
APA, Harvard, Vancouver, ISO, and other styles
13

Zargayouna, Haïfa. "Indexation sémantique de documents XML." Paris 11, 2005. http://www.theses.fr/2005PA112365.

Full text
Abstract:
Les documents XML, posent de nouveaux défis et imposent de nouvelles méthodes de traitement d'information. Ils présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans différents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Le Web sémantique repose sur la capacité de XML à définir des balises "personnalisées" et de standards pour décrire formellement la signification de laterminologie employée dans les documents Web. L'intérêt de l'utilisation de l'ontologie en Recherche d'information a redoublé avec le Web sémantique. Nous nous inscrivons dans cette optique en défendant la thèse qu'une description fine des documents est coûteuse et qu'il serait utile d'avoir une représentation intermédiaire pour retrouver les informations pertinentes. L'objectif de nos travaux est de proposer des méthodes qui mettent à profit la structure et le contenu sémantique des documents. Le modèle que nous proposons repose sur : 1. Un modèle générique qui permet d'indexer des documents qui possèdent des structures hétérogènes et qui permet de retrouver et d'apparier ces structures. 2. Un langage de requête qui à la différence des langages de requêtes qui existent est plus intuitif et repose sur une syntaxe XML. Notre langage permet de poser des requêtes vagues sur la structure et sur le contenu ainsi que des requêtes simples mots-clés. La prise en compte de la sémantique est totalement transparente à l'utilisateur<br>XML documents address new challenges and impose new methods for accessing information. They present the advantage of an explicit structure which facilitates their presentation and their exploitation in various contexts. The aim of Semi-structured Information Retrieval (SIR) is to take this structure into account and to integrate it to the representation of the content of semi-structured documents. The Semantic Web (SW) relies on the capacity of XML to define “personalised” tags and standards to describe the signification of the terminology used by means of formal ontologies. The use of ontologies in Information Retrieval has gained interest with the SW. We aim at showing that it is useful to have an intermediate representation of documents as a formal description of the textual content is expensive. In this work we propose new methods that take advantage of the structure and semantics of the documents. The proposed model relies on: 1. A generic model which allows to index documents with heterogeneous structure and provides a matching of these structures. 2. A query language which, unlike the existing query languages, is intuitive and has an XML syntax. The proposed language enables to ask requests on semi-structured documents by keywords and with vague conditions on structure. The semantics are handled in a completely transparent way for the user
APA, Harvard, Vancouver, ISO, and other styles
14

Taddesse, Fekade Getahun. "Framework de gestion sémantique de flux d'actualités." Phd thesis, Université de Bourgogne, 2010. http://tel.archives-ouvertes.fr/tel-00589911.

Full text
Abstract:
Dans le monde du Web, on retrouve les formats RSS et Atom (feeds) qui sont, sans doute, les formats XML les plus populaires et les plus utilisés. Ces formats permettent aux, entre autres, communautés Web, industriels, et services web de publier et d'échanger des documents XML. En outre, ils permettent à un utilisateur de consulter librement des données/informations sans avoir à basculer d'un site à un autre, et cela à l'aide d'applications logicielles. Dans ce cas, l'utilisateur enregistre ses fournisseurs de flux favoris, chaque fournisseur diffuse la liste des nouveaux éléments qui ont été modifiés depuis le dernier téléchargement. Cependant, l'enregistrement d'un certain nombre de sources de flux dans un agrégateur de flux engendre à la fois des problèmes d'hétérogénéité (à cause des différences structurelles et de contenu) et des problèmes de surcharges d'information. Par ailleurs, aucun des agrégateurs de flux existants n'offre une approche qui intègre (ou fusionne) les flux en tenant compte de leurs similarités, du contexte de l'utilisateur et de ses préférences. Dans cette thèse, nous proposons un framework formel qui permet de traiter l'hétérogénéité, l'intégration et l'interrogation des flux d'actualités. Ce framework est fondé sur une représentation arborescente d'un flux et possède trois éléments principaux qui sont les suivants: comparateur de flux, intégrateur de flux, et processeur de requêtes. Le comparateur de flux permet de mesurer le degré de similarité entre deux éléments/flux en utilisant une base de connaissance intégrant une approche ascendante et progressive. Nous proposons une mesure de similarité à base de concept capable de calculer la similarité entre les flux selon le nombre de leurs concepts communs (et différents) et leurs proximités sémantiques. Nous montrons également comment définir et identifier la relation exclusive entre deux textes ou éléments. L'intégrateur de flux permet de fusionner plusieurs flux provenant de différentes sources tout en tenant compte du contexte de l'utilisateur. Nous montrons dans notre étude comment représenter le contexte d'utilisateur ainsi que ses préférences. Nous fournissons un ensemble prédéfini de règles de fusion qui peuvent être enrichies et adaptées par chaque utilisateur. Quant au processeur de requêtes, il se base sur une étude formelle et plus précisément sur une algèbre dédiée à la fusion des flux continus d'actualités que nous proposons ici. Les opérateurs proposés dans cette algèbre sont aidés par des fonctions à base de similarité. Nous catégorisons les opérateurs de flux selon trois catégories: opérateurs d'extraction, opérateurs ensemblistes et opérateur de fusion. Nous montrons que l'opérateur de fusion généralise l'opération de jointure et les opérateurs ensemblistes. Nous fournissons également un ensemble de règles de réécriture et d'équivalence de requêtes pour la simplification et l'optimisation des requêtes. Enfin, nous présentons un prototype nommé "Easy RSS Manager" (EasyRSSManager). Ce prototype est un lecteur sémantique de flux et un composant sémantique pour l'interrogation des fenêtres de flux. EasyRSSManager a été utilisé pour valider, démontrer et tester la faisabilité des différentes propositions de notre étude. En particulier, nous avons testé la complexité en temps et la pertinence de nos approches en utilisant à la fois des données réelles et syntaxiques.
APA, Harvard, Vancouver, ISO, and other styles
15

Hussain, Syed Fawad. "Une nouvelle mesure de co-similarité : applications aux données textuelles et génomique." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM049.

Full text
Abstract:
La classification de données (apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grands nombre de propriétés, il devient nécessaire d'adapter les méthodes classique, notamment au niveau des métriques, afin de maintenir des classes pertinentes; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche circulaire, nous mettons en correspondance des documents sans mots communs mais juste des mots similaires. Cette approche s'effectue sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendu pour tirer partie de connaissances "a priori" pour réaliser des tâches de catégorisation de textes: l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadn conceptuel, exprimable en terme de la théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, pour le co-clustering et la catégorisation sur les jeux d données qui ont été testés<br>Clustering is the unsupervised classification of patterns (observations, data items, or feature vectors) into homogeneous and contrasted groups (clusters As datasets become larger and more varied, adaptations to existing algorithms are required to maintain the quality of cluster. Ln this regard, high¬dimensional data poses sorne problems for traditional clustering algorithms known as the curse of dimensionality. This thesis proposes a co-similarity based algorithm that is based on the concept of higher-order co-occurrences, which are extracted from the given data. Ln the case of text analysis, for example, document similarity is calculated based on word similarity, which in turn is calculated on the basis of document similarity. Using this iterative approach, we can bring similar documents closer together even if they do not share the same words but share similar words. This approach doesn't need externallinguistic resources like a thesaurus Furthermore this approach can also be extended to incorporate prior knowledge from a training dataset for the task of text categorization. Prior categor labels coming from data in the training set can be used to influence similarity measures between worlds to better classify incoming test dataset among the different categories. Thus, the same conceptual approach, that can be expressed in the framework of the graph theory, can be used for both clustering and categorization task depending on the amount of prior information available. Our results show significant increase in the accuracy with respect to the state of the art of both one-way and two-way clustering on the different datasets that were tested
APA, Harvard, Vancouver, ISO, and other styles
16

Hussain, Syed Fawad. "Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00525366.

Full text
Abstract:
La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés.
APA, Harvard, Vancouver, ISO, and other styles
17

Combier, Camille. "Mesures de similarité pour cartes généralisées." Phd thesis, Université Claude Bernard - Lyon I, 2012. http://tel.archives-ouvertes.fr/tel-00995382.

Full text
Abstract:
Une carte généralisée est un modèle topologique permettant de représenter implicitementun ensemble de cellules (sommets, arêtes, faces , volumes, . . .) ainsi que l'ensemblede leurs relations d'incidence et d'adjacence au moyen de brins et d'involutions. Les cartes généralisées sont notamment utilisées pour modéliser des images et objets3D. A ce jour il existe peu d'outils permettant l'analyse et la comparaison de cartes généralisées.Notre objectif est de définir un ensemble d'outils permettant la comparaisonde cartes généralisées.Nous définissons tout d'abord une mesure de similarité basée sur la taille de la partiecommune entre deux cartes généralisées, appelée plus grande sous-carte commune.Nous définissons deux types de sous-cartes, partielles et induites, la sous-carte induitedoit conserver toutes les involutions tandis que la sous-carte partielle autorise certaines involutions à ne pas être conservées. La sous-carte partielle autorise que les involutionsne soient pas toutes conservées en analogie au sous-graphe partiel pour lequelles arêtes peuvent ne pas être toutes présentes. Ensuite nous définissons un ensembled'opérations de modification de brins et de coutures pour les cartes généralisées ainsiqu'une distance d'édition. La distance d'édition est égale au coût minimal engendrépar toutes les successions d'opérations transformant une carte généralisée en une autrecarte généralisée. Cette distance permet la prise en compte d'étiquettes, grâce à l'opérationde substitution. Les étiquettes sont posées sur les brins et permettent d'ajouter del'information aux cartes généralisées. Nous montrons ensuite, que pour certains coûtsnotre distance d'édition peut être calculée directement à partir de la plus grande souscartecommune.Le calcul de la distance d'édition est un problème NP-difficile. Nous proposons unalgorithme glouton permettant de calculer en temps polynomial une approximation denotre distance d'édition de cartes. Nous proposons un ensemble d'heuristiques baséessur des descripteurs du voisinage des brins de la carte généralisée permettant de guiderl'algorithme glouton, et nous évaluons ces heuristiques sur des jeux de test générésaléatoirement, pour lesquels nous connaissons une borne de la distance.Nous proposons des pistes d'utilisation de nos mesures de similarités dans le domainede l'analyse d'image et de maillages. Nous comparons notre distance d'éditionde cartes généralisées avec la distance d'édition de graphes, souvent utilisée en reconnaissancede formes structurelles. Nous définissons également un ensemble d'heuristiquesprenant en compte les étiquettes de cartes généralisées modélisant des images etdes maillages. Nous mettons en évidence l'aspect qualitatif de notre appariement, permettantde mettre en correspondance des zones de l'image et des points du maillages.
APA, Harvard, Vancouver, ISO, and other styles
18

Le, Capitaine Hoel. "Opérateurs d'agrégation pour la mesure de similarité. Application à l'ambiguïté en reconnaissance de formes." Phd thesis, Université de La Rochelle, 2009. http://tel.archives-ouvertes.fr/tel-00438516.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à deux problèmes de reconnaissance de formes : l'option de rejet en classification supervisée, et la détermination du nombre de classes en classification non supervisée. Le premier problème consiste à déterminer les zones de l'espace des attributs où les observations n'appartiennent pas clairement à une seule classe. Le second problème repose sur l'analyse d'un nuage d'observations pour lesquelles on ne connait pas les classes d'appartenance. L'objectif est de dégager des structures permettant de distinguer les différentes classes, et en particulier de trouver leur nombre. Pour résoudre ces problèmes, nous fondons nos propositions sur des opérateurs d'agrégation, en particulier des normes triangulaires. Nous définissons de nouvelles mesures de similarité permettant la caractérisation de situations variées. En particulier, nous proposons de nouveaux types de mesures de similarité : la similarité d'ordre, la similarité par blocs, et enfin la similarité par une approche logique. Ces différentes mesures de similarité sont ensuite appliquées aux problèmes évoqués précédemment. Le caractère générique des mesures proposées permet de retrouver de nombreuses propositions de la littérature, ainsi qu'une grande souplesse d'utilisation en pratique. Des résultats expérimentaux sur des jeux de données standard des domaines considérés viennent valider notre approche.
APA, Harvard, Vancouver, ISO, and other styles
19

Le, Capitaine Hoël. "Opérateurs d'agrégation pour la mesure de similarité : application à l'ambiguïté en reconnaissance de forme." La Rochelle, 2009. http://www.theses.fr/2009LAROS281.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à deux problèmes de reconnaissance de formes : l'option de rejet en classification supervisée, et la détermination du nombre de classes en classification non supervisée. Le premier problème consiste à déterminer les zones de l'espace des attributs où les observations n'appartiennent pas clairement à une seule classe. Le second problème repose sur l'analyse d'un nuage d'observations et pour lesquelles on ne connait pas sa classe d'appartenance. L'objectif est de dégager des structures permettant de distinguer les différentes classes, et en particulier de trouver leur nombre. Pour résoudre ces problèmes, nous fondons nos propositions sur des opérateurs d'agrégation, en particulier des normes triangulaires. Nous définissons de nouvelles mesures de similarité permettant la caractérisation de situations variées. En particulier, nous proposons de nouveaux types de mesures de similarité : la similarité d'ordre, la similarité par blocs, et enfin la similarité par une approche logique. Ces différentes mesures de similarité sont ensuite appliquées aux problèmes évoqués précédemment. Le caractère générique des mesures proposées permet de retrouver de nombreuses propositions de la littérature, ainsi qu'une grande souplesse d'utilisation en pratique. Des résultats expérimentaux sur des jeux de données standard des domaines considérés viennent valider notre approche<br>In this thesis, we are interested in two problems of pattern recognition : the reject option in supervised classification, and determining the number of classes in unsupervised classification. The first problem consists in finding the areas in the feature space where samples do not clearly belong to one class. The second problem is based on the analysis of a cloud of observations which are unlabeled. The objective is to define structures that distinguish different classes, and in particular to find the number of classes. In order to solve these problems, our approach is based on the use of similarity measures allowing to discriminate various situations. In particular, we propose new kinds of similarity measures: the order similarity, the blockwise similarity, and eventually a logic-based similarity measure. These different measures are then applied to the aforementioned problems. The genericity of the proposed measure enables to retrieve usual criterions from the literature, as well as a great versatility in practice. Experimental results on benchmarks datasets for both problems validate our approach
APA, Harvard, Vancouver, ISO, and other styles
20

Zghal, Sami. "Contributions à l'alignement d'ontologies OWL par agrégation de similarités." Thesis, Artois, 2010. http://www.theses.fr/2010ARTO0409/document.

Full text
Abstract:
Dans le cadre de cette thèse, nous avons proposé plusieurs méthodes d'alignement à savoir: la méthode EDOLA, la méthode SODA et la méthode OACAS. Les trois méthodes procèdent dans une première phase à la transformation des deux ontologies à aligner sous la forme d'un graphe, O-Graph, pour chaque ontologie. Ces graphes permettent la représentation des ontologies sous une forme facile à l'exploitation. La méthode EDOLA est une approche se basant sur un modèle de calcul des similarités locale et globale. Ce modèle suit la structure du graphe pour calculer les mesures de similarité entre les noeuds des deux ontologies. Le module d'alignement associe pour chaque catégorie de noeuds une fonction d'agrégation. La fonction d'agrégation prend en considération toutes les mesures de similarités entre les couples de noeuds voisins au couple de noeud à apparier. La méthode SODA est une amélioration de la méthode EDOLA. En effet, la méthode SODA opère sur les ontologies OWL-DL, pour les aligner, à la place des ontologies décrites en OWL-Lite. La méthode SODA est une approche structurelle pour l'alignement d'ontologies OWL-DL. Elle opère en 3 étapes successives. La première étape permet de calculer la similarité linguistique à travers des mesures de similarité plus adaptées aux descripteurs des constituants des ontologies à apparier. La seconde étape détermine la similarité structurelle en exploitant la structure des deux graphes O-Graphs. La troisième étape déduit la similarité sémantique, en prenant en considération les deux types de similarités déjà calculées. La méthode d'alignement, OACAS, opère en 3 étapes successives pour produire l'alignement. La première étape permet de calculer la similarité linguistique composée. La similarité linguistique composée prend en considération tous les descripteurs des entités ontologiques à aligner. La seconde étape détermine la similarité de voisinage par niveau. La troisième étape agrège les composants de la similarité linguistique composée et la similarité de voisinage par niveau pour déterminer la similarité agrégée<br>In this thesis, we have proposed three ontology alignment methods: EDOLA (Extended Diameter OWL-Lite Alignment) method, SODA (Structural Ontology OWL-DL Alignment) method and OACAS (Ontologies Alignment using Composition and Aggregation of Similarities) method. These methods rely on aggregation and composition of similarities and check the spread structure of the ontologies to be aligned. EDOLA method allows to align OWL-Lite ontologies whereas SODA and OACAS consider OWL-DL ontologies. The three proposed methods operate in a first step by transforming both ontologies to aligned as a graph, named O-Graph, for each ontology. This graph reproduces OWL ontologies to be easily manipulated during the alignment process. The obtained graphs describe all the information contained in the ontologies: entities, relations between entities and instances. Besides, the EDOLA method is a new approach that computes local and global similarities using a propagation technique of similarities through the O-Graphs. This model explores the structure of the considered O-Graphs to compute the similarity values between the nodes of both ontologies. The alignment model associates for each category of nodes an aggregation function. This function takes in consideration all the similarity measures of the couple of nodes to match. This aggregation function explores all descriptive information of this couple. EDOLA operates in two succesive steps. The first step computes the local similarity, terminological one, whereas the second step computes the global one. The SODA method is an improved version of EDOLA. In fact, it uses OWL-DL ontologies. SODA method is a structures approach for OWL-DL ontologies. The method operates in three successive steps and explores the structure the ontologies using O-Graphs. The first step computes linguistic similarity using appropriate similarity measures corresponding to the descriptors of ontological entities. The second step allows to compute structural similarity using the two graphs O-Graphs. The third step deduces the semantic similarity, by combining both similarities already computed, in order to outperform the alignment task
APA, Harvard, Vancouver, ISO, and other styles
21

Pais, Sebastião. "Mesures de similarité distributionnelle asymétrique pour la détection de l'implication textuelle par généralité." Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2013. http://pastel.archives-ouvertes.fr/pastel-00962176.

Full text
Abstract:
Textual Entailment vise à capturer les principaux besoins d'inférence sémantique dans les applications de Traitement du Langage Naturel. Depuis 2005, dans la Textual Entailment reconnaissance tâche (RTE), les systèmes sont appelés à juger automatiquement si le sens d'une portion de texte, le texte - T, implique le sens d'un autre texte, l'hypothèse - H. Cette thèse nous nous intéressons au cas particulier de l'implication, l'implication de généralité. Pour nous, il ya différents types d'implication, nous introduisons le paradigme de l'implication textuelle en généralité, qui peut être définie comme l'implication d'une peine spécifique pour une phrase plus générale, dans ce contexte, le texte T implication Hypothèse H, car H est plus générale que T.Nous proposons des méthodes sans surveillance indépendante de la langue de reconnaissance de l'implication textuelle par la généralité, pour cela, nous présentons une mesure asymétrique informatif appelée Asymmetric simplifié InfoSimba, que nous combinons avec différentes mesures d'association asymétriques à reconnaître le cas spécifique de l'implication textuelle par la généralité.Cette thèse, nous introduisons un nouveau concept d'implication, les implications de généralité, en conséquence, le nouveau concept d'implications de la reconnaissance par la généralité, une nouvelle orientation de la recherche en Traitement du Langage Naturel.
APA, Harvard, Vancouver, ISO, and other styles
22

Ralalason, Bachelin. "Représentation multi-facette des documents pour leur accès sémantique." Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00550650.

Full text
Abstract:
La recherche d'information (RI) est un domaine prépondérant dans la vie contemporaine car elle permet de disposer d'éléments d'informations qui permettent d'agir et de prendre des décisions face à une situation donnée. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maîtrisons pas. La disponibilité et la pertinence de ces nouvelles informations ont donc une très grande influence sur la prise de décision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots représentatifs des documents afin de permettre leur recherche ultérieure. Dans ces méthodes, les documents et les requêtes sont considérées comme des sacs de mots, non porteurs de sens. L'une des méthodes innovantes actuelles est l'indexation et la recherche sémantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considérant la sémantique des éléments textuels. Nous nous intéressons à cet aspect de la RI en considérant une indexation et une recherche à base d'ontologies de domaine. Les solutions que nous proposons visent à améliorer la pertinence des réponses d'un système par rapport au thème de la recherche. Le discours contenu dans un document ou dans une requête ne sont pas les seuls éléments à prendre en compte pour espérer mieux satisfaire l'utilisateur. D'autres éléments relatifs au contexte de sa recherche doivent aussi être pris en compte. La granularité des informations à restituer à l'utilisateur est un autre aspect. Nous nous sommes intéressés à ces différents aspects et avons développé un méta-modèle de représentation multi-facette des documents en vue de leur accès sémantique. Dans notre modèle, le document est vu selon différentes dimensions dont la structure logique, la structure physique, la sémantique des contenus ainsi que leurs évolutions dans le temps. Nous avons également proposé des mesures de similarité sémantique entre concepts et une fonction de similarité entre les graphes d'annotation des requêtes et ceux des documents. Pour évaluer et valider nos solutions, nous avons instancié ce modèle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons également évalué les résultats en termes de rappel/précision des fonctions que nous avons proposées et montré leur supériorité par rapport à l'état de l'art.
APA, Harvard, Vancouver, ISO, and other styles
23

Wieczorek, Samuel. "Une mesure d'inclusion entre objets structurés : application à la classification de molécules." Phd thesis, Grenoble 1, 2009. http://www.theses.fr/2009GRE10121.

Full text
Abstract:
L'identification de molécules bio-actives est un problème majeur pour la recherche thérapeutique et la recherche en biologie. La découverte de ces molécules repose largement sur le criblage de très grandes collections de molécules mais qui restent petites devant la taille de l'espace chimique. Dans ce contexte, les scientifiques sont demandeurs d'outils d'analyse automatique de chimiothèques et de molécules. L'objectif de cette thèse est de fournir un outil de comparaison des molécules et plus généralement d'objets structurés. Nous proposons dans ce travail un algorithme générique qui identifie plusieurs sous-structures communes à entre deux objets, représentés par des graphes ou des formules logiques et évalue un degré d'inclusion entre ces objets. Ce degré d'inclusion correspond à un test de subsomption à valeur réelle entre formules logiques qui pourrait compléter le test de theta-subsomption classique dans les algorithmes d'apprentissage relationnel. Dans le domaine de la chimie, une mesure de similarité moléculaire a été définie à partir de deux degrés d'inclusion pour classer des molécules. L'algorithme se révèle être plus performant que les mesures de similarité et fonctions noyau auxquelles il a été comparé. Il pourra être envisagé de l'utiliser dans des problèmes de prédiction de bio-activité<br>The identification of bioactive molecules is a major problem in biology and medicinal chemistry. The discovery of such molecules is mainly based on the screening of large chemical libraries, that are small regarding the size of the chemical space. In this context, scientists need automatic tools to analyze and design rational chemical libraries. The subject of this thesis is to provide a tool that is able to compare molecules or, more generally, structured objects. We propose a generic algorithm which identifies several common substructures between two structured objects (such as graphs or logical formulae), and evaluates an inclusion index between theses objects. This inclusion index corresponds to a real value subsumption test, and should complete the theta subsumption test which is classically used in relational learning algorithms. In the field of chemistry, a molecular similarity measure, defined with two inclusion indexes, allows to classify compounds with respect to their structures. The algorithm is more efficient than the molecular similarity measures or the kernel functions it was compared to. The algorithm may be used to predict the bioactivity of chemical compounds
APA, Harvard, Vancouver, ISO, and other styles
24

Wieczorek, Samuel. "Une mesure d'inclusion entre objets structurés : application à la classification de molécules." Phd thesis, Université Joseph Fourier (Grenoble), 2009. http://tel.archives-ouvertes.fr/tel-00406361.

Full text
Abstract:
L'identification de molécules bio-actives est un problème majeur pour la recherche thérapeutique et la recherche en biologie. La découverte de ces molécules repose largement sur le criblage de très grandes collections de molécules mais qui restent petites devant la taille de l'espace chimique. Dans ce contexte, les scientifiques sont demandeurs d'outils d'analyse automatique de chimiothèques et de molécules.<br />L'objectif de cette thèse est de fournir un outil de comparaison des molécules et plus généralement d'objets structurés. Nous proposons dans ce travail un algorithme générique qui identifie plusieurs sous-structures communes à entre deux objets, représentés par des graphes ou des formules logiques et évalue un degré d'inclusion entre ces objets.<br /><br />Ce degré d'inclusion correspond à un test de subsomption à valeur réelle entre formules logiques qui pourrait compléter le test de theta-subsomption classique dans les algorithmes d'apprentissage relationnel. Dans le domaine de la chimie, une mesure de similarité moléculaire a été définie à partir de deux degrés d'inclusion pour classer des molécules. L'algorithme se révèle être plus performant que les mesures de similarité et fonctions noyau auxquelles il a été comparé. Il pourra être envisagé de l'utiliser dans des problèmes de prédiction de bio-activité.
APA, Harvard, Vancouver, ISO, and other styles
25

Pais, Sebastião. "Mesures de similarité distributionnelle asymétrique pour la détection de l’implication textuelle par généralité." Thesis, Paris, ENMP, 2013. http://www.theses.fr/2013ENMP0063/document.

Full text
Abstract:
Textual Entailment vise à capturer les principaux besoins d'inférence sémantique dans les applications de Traitement du Langage Naturel. Depuis 2005, dans la Textual Entailment reconnaissance tâche (RTE), les systèmes sont appelés à juger automatiquement si le sens d'une portion de texte, le texte - T, implique le sens d'un autre texte, l'hypothèse - H. Cette thèse nous nous intéressons au cas particulier de l'implication, l'implication de généralité. Pour nous, il ya différents types d'implication, nous introduisons le paradigme de l'implication textuelle en généralité, qui peut être définie comme l'implication d'une peine spécifique pour une phrase plus générale, dans ce contexte, le texte T implication Hypothèse H, car H est plus générale que T.Nous proposons des méthodes sans surveillance indépendante de la langue de reconnaissance de l'implication textuelle par la généralité, pour cela, nous présentons une mesure asymétrique informatif appelée Asymmetric simplifié InfoSimba, que nous combinons avec différentes mesures d'association asymétriques à reconnaître le cas spécifique de l'implication textuelle par la généralité.Cette thèse, nous introduisons un nouveau concept d'implication, les implications de généralité, en conséquence, le nouveau concept d'implications de la reconnaissance par la généralité, une nouvelle orientation de la recherche en Traitement du Langage Naturel<br>Textual Entailment aims at capturing major semantic inference needs across applications in Natural Language Processing. Since 2005, in the Textual Entailment recognition (RTE) task, systems are asked to automatically judge whether the meaning of a portion of text, the Text - T, entails the meaning of another text, the Hypothesis - H. This thesis we focus a particular case of entailment, entailment by generality. For us, there are various types of implication, we introduce the paradigm of Textual Entailment by Generality, which can be defined as the entailment from a specific sentence towards a more general sentence, in this context, the Text T entailment Hypothesis H, because H is more general than T. We propose methods unsupervised language-independent for Recognizing Textual Entailment by Generality, for this we present an Informative Asymmetric Measure called the Simplified Asymmetric InfoSimba, which we combine with different asymmetric association measures to recognizingthe specific case of Textual Entailment by Generality.This thesis, we introduce the new concept of implication, implications by generality, in consequence, the new concept of recognition implications by generality, a new direction of research in Natural Language Processing
APA, Harvard, Vancouver, ISO, and other styles
26

Casagrande, Annette. "Proposition d'une mesure de voisinage entre textes : Application à la veille stratégique." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00773087.

Full text
Abstract:
La veille anticipative stratégique et intelligence collective (VASIC) proposée par Lesca est une méthode aidant les entreprises à se mettre à l'écoute de leur environnement pour anticiper des opportunités ou des risques. Cette méthode nécessite la collecte d'informations. Or, avec le développement des technologies de l'information, les salariés font face à une surabondance d'informations. Afin d'aider à pérenniser le dispositif de veille stratégique, il est nécessaire de mettre en place des outils pour gérer la surinformation. Dans cette thèse, nous proposons une mesure de voisinage pour estimer si deux informations sont proches ; nous avons créé un prototype, nommé Alhena, basé sur cette mesure. Nous démontrons les propriétés de notre mesure ainsi que sa pertinence dans le cadre de la veille stratégique. Nous montrons également que le prototype peut servir dans d'autres domaines tels que la littérature, l'informatique et la psychologie. Ce travail est pluridisciplinaire : il aborde des aspects de veille stratégique (en sciences de gestion), de la recherche d'informations, d'informatique linguistique et de mathématiques. Nous nous sommes attachés à partir d'un problème concret en sciences de gestion à proposer un outil qui opérationnalise des techniques informatiques et mathématiques en vue d'une aide à la décision (gain de temps, aide à la lecture,...).
APA, Harvard, Vancouver, ISO, and other styles
27

Iltache, Samia. "Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats." Thesis, Toulouse 2, 2018. http://www.theses.fr/2018TOU20121.

Full text
Abstract:
L’expansion du web et le développement des technologies de l’information ont contribué à la prolifération des documents numériques en ligne. Cette disponibilité de l’information présente l’avantage de rendre la connaissance accessible à tous mais soulève de nombreux problèmes quant à l’accès à l’information pertinente, répondant à un besoin utilisateur. Un premier problème est lié à l’extraction de l’information utile parmi celle qui est disponible. Un second problème concerne l’appropriation de ces connaissances qui parfois, se traduit par du plagiat. L’objectif de cette thèse est le développement d’un modèle permettant de mieux caractériser les documents afin d’en faciliter l’accès mais aussi de détecter ceux présentant un risque de plagiat. Ce modèle s’appuie sur des ontologies de domaine pour la classification des documents et pour le calcul de la similarité des documents appartenant à un même domaine. Nous nous intéressons plus spécifiquement aux articles scientifiques, et notamment à leurs résumés, textes courts et relativement structurés. Il s’agit dès lors de déterminer comment évaluer la proximité/similarité sémantique de deux articles à travers l'examen de leurs résumés respectifs. Considérant qu’une ontologie de domaine regroupe les connaissances relatives à un domaine scientifique donné, notre processus est basé sur deux actions :(i) Une classification automatique des documents dans un domaine choisi parmi plusieurs domaines candidats. Cette classification détermine le sens d’un document à partir du contexte global dans lequel s’inscrit son contenu. (ii) Une comparaison des textes réalisée sur la base de la construction de ce que nous appelons le périmètre sémantique de chaque résumé et sur un enrichissement mutuel effectué lors de la comparaison des graphes des résumés. La comparaison sémantique des résumés s’appuie sur une segmentation de leur contenu respectif en zones, unités documentaires, reflétant leur structure logique<br>The expansion of the web and the development of different information technologies have contributed to the proliferation of digital documents online. This availability of information has the advantage of making knowledge accessible to all. However, many problems emerged regarding access to relevant information that meets a user's need. The first problem is related to the extraction of the useful available information. A second problem concerns the use of this knowledge which sometimes results in plagiarism.The aim of this thesis is the development of a model that better characterizes documents to facilitate their access and also to detect those with a risk of plagiarism. This model is based on domain ontologies for the classification of documents and for calculating the similarity of documents belonging to the same domain as well. We are particularly interested in scientific papers, specifically their abstracts, short texts that are relatively well structured. The problem is, therefore, to determine how to assess the semantic proximity/similarity of two papers by examining their respective abstracts. Forasmuch as the domain ontology provides a useful way to represent knowledge relative to a given domain, our process is based on two actions:(i) An automatic classification of documents in a domain selected from several candidate domains. This classification determines the meaning of a document from the global context in which its content is used. (ii) A comparison of the texts performed on the basis of the construction of the semantic perimeter of each abstract and on a mutual enrichment performed when comparing the graphs of the abstracts. The semantic comparison of the abstracts is based on a segmentation of their respective content into zones, documentary units, reflecting their logical structure. It is on the comparison of the conceptual graphs of the zones playing the same role that the calculation of the similarity of the abstracts relies
APA, Harvard, Vancouver, ISO, and other styles
28

Fiorini, Nicolas. "Semantic similarities at the core of generic indexing and clustering approaches." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS178/document.

Full text
Abstract:
Pour exploiter efficacement une masse toujours croissante de documents électroniques, une branche de l'Intelligence Artificielle s'est focalisée sur la création et l'utilisation de systèmes à base de connaissance. Ces approches ont prouvé leur efficacité, notamment en recherche d'information. Cependant elles imposent une indexation sémantique des ressources exploitées, i.e. que soit associé à chaque ressource un ensemble de termes qui caractérise son contenu. Pour s'affranchir de toute ambiguïté liée au langage naturel, ces termes peuvent être remplacés par des concepts issus d'une ontologie de domaine, on parle alors d'indexation conceptuelle.Le plus souvent cette indexation est réalisée en procédant à l'extraction des concepts du contenu même des documents. On note, dans ce cas, une forte dépendance des techniques associées à ce traitement au type de document et à l'utilisation d'algorithmes dédiés. Pourtant une des forces des approches conceptuelles réside dans leur généricité. En effet, par l'exploitation d'indexation sémantique, ces approches permettent de traiter de la même manière un ensemble d'images, de gènes, de textes ou de personnes, pour peu que ceux-ci aient été correctement indexés. Cette thèse explore ce paradigme de généricité en proposant des systèmes génériques et en les comparant aux approches existantes qui font référence. L'idée est de se reposer sur les annotations sémantiques et d'utiliser des mesures de similarité sémantique afin de créer des approches performantes. De telles approches génériques peuvent par la suite être enrichies par des modules plus spécifiques afin d'améliorer le résultat final. Deux axes de recherche sont suivis dans cette thèse. Le premier et le plus riche est celui de l'indexation sémantique. L'approche proposée exploite la définition et l'utilisation de documents proches en contenu pour annoter un document cible. Grâce à l'utilisation de similarités sémantiques entre les annotations des documents proches et à l'utilisation d'une heuristique, notre approche, USI (User-oriented Semantic Indexer), permet d'annoter des documents plus rapidement que les méthodes existantes en fournissant une qualité comparable. Ce processus a ensuite été étendu à une autre tâche, la classification. Le tri est une opération indispensable à laquelle l'Homme s'est attaché depuis l'Antiquité, qui est aujourd'hui de plus en plus automatisée. Nous proposons une approche de classification hiérarchique qui se base sur les annotations sémantiques des documents à classifier. Là encore, la méthode est indépendante des types de documents puisque l'approche repose uniquement sur leur annotations. Un autre avantage de cette approche est le fait que lorsque des documents sont rassemblés, le groupe qu'il forme est automatiquement annoté (suivant notre algorithme d'indexation). Par conséquent, le résultat fourni est une hiérarchie de classes contenant des documents, chaque classe étant annotée. Cela évite l'annotation manuelle fastidieuse des classes par l'exploration des documents qu'elle contient comme c'est souvent le cas.L'ensemble de nos travaux a montré que l'utilisation des ontologies permettait d'abstraire plusieurs processus et ainsi de réaliser des approches génériques. Cette généricité n'empêche en aucun cas d'être couplée à des approches plus spécifiques, mais constitue en soi une simplicité de mise en place dès lors que l'on dispose de documents annotés sémantiquement<br>In order to improve the exploitation of even growing number of electronic documents, Artificial Intelligence has dedicated a lot of effort to the creation and use of systems grounded on knowledge bases. In particular in the information retrieval field, such semantic approaches have proved their efficiency.Therefore, indexing documents is a necessary task. It consists of associating them with sets of terms that describe their content. These terms can be keywords but also concepts from an ontology, in which case the annotation is said to be semantic and benefit from the inherent properties of ontologies which are the absence of ambiguities.Most approaches designed to annotate documents have to parse them and extract concepts from this parsing. This underlines the dependance of such approaches to the type of documents, since parsing requires dedicated algorithms.On the other hand, approaches that solely rely on semantic annotations can ignore the document type, enabling the creation of generic processes. This thesis capitalizes on genericity to build novel systems and compare them to state-of-the-art approaches. To this end, we rely on semantic annotations coupled with semantic similarity measures. Of course, such generic approaches can then be enriched with type-specific ones, which would further increase the quality of the results.First of all, this work explores the relevance of this paradigm for indexing documents. The idea is to rely on already annotated close documents to annotate a target document. We define a heuristic algorithm for this purpose that uses the semantic annotations of these close documents and semantic similarities to provide a generic indexing method. This results in USI (User-oriented Semantic Indexer) that we show to perform as well as best current systems while being faster.Second of all, this idea is extended to another task, clustering. Clustering is a very common and ancient process that is very useful for finding documents or understanding a set of documents. We propose a hierarchical clustering algorithm that reuses the same components of classical methods to provide a novel one applicable to any kind of documents. Another benefit of this approach is that when documents are grouped together, the group can be annotated by using our indexing algorithm. Therefore, the result is not only a hierarchy of clusters containing documents as clusters are actually described by concepts as well. This helps a lot to better understand the results of the clustering.This thesis shows that apart from enhancing classical approaches, building conceptual approaches allows us to abstract them and provide a generic framework. Yet, while bringing easy-to-set-up methods – as long as documents are semantically annotated –, genericity does not prevent us from mixing these methods with type-specific ones, in other words creating hybrid methods
APA, Harvard, Vancouver, ISO, and other styles
29

Uzan, Pierre. "Vers une logique du temps sémantique : irréversibilité, mesure-quantique et processus de la représentation." Paris 1, 1998. http://www.theses.fr/1998PA010561.

Full text
Abstract:
L'irréversibilité n'est pas une propriété intrinsèque des "objets"-en-soi mais relève d'une théorie de la connaissance. Elle ne peut donc trouver à s'exprimer dans la conception réaliste du temps linéaire qui est sous-jacente à l'ensemble de la physique, conception selon laquelle "passé" et "futur" sont interchangeables. L'irréversibilité ne peut être "légalisée" que si l'on adopte la conception d'un temps relationnel constituant l'expression même du processus inter-subjectif de la représentation. Considérant, à partir des analyses de Bohr, l'opération de mesure dans le domaine quantique comme paradigme d'acte sémantique, nous élaborons d'abord une théorie du temps "quantique" où ce dernier est définie comme le processus d'enregistrement et de traitement, par la mémoire inter-subjective de l'observateur impersonnel, de l'"information" obtenue par des mesures. Dans les modèles arborescents de la théorie du temps quantique où la relation d'antériorité temporelle est définie à partir de la relation d'ordre partielle sur l'ensemble des états de la mémoire (les "instants" du temps quantique), l'irréversibilité peut alors trouver son expression : d'une part, grâce à l'anisotropie de ses modèles; d'autre part, en ce qu'une évaluation complète des quantités d'information nécessaires pour prédire l'évolution d'un phénomène est rendue possible. En outre, la notion de "mesure du temps" acquiert sa pleine signification: la notion de "durée caractéristique d'un phénomène" peut être interprétée de façon tout à fait universelle en terme de quantité d'information. Nous proposons enfin une généralisation de cette théorie : les actes sémantiques sont alors modélisés comme des "actes de langage" réalisables à l'aide d'une hypothétique "langue" universelle des signifiants humains; alors que notre univers symbolique est modélisé comme un "texte" écrit avec cette même "langue". Une "de-anthropisation" du processus de la représentation est aussi proposée. Nous ébauchons une esquisse de théorie du temps sémantique où ce dernier constitue l'expression générale du processus de la représentation. C'est à dire du processus de la connaissance du sujet, vide de tout contenu empirique et conçu de façon purement formelle comme l'ensemble des conditions de possibilité de "connaitre", et du sens, dont l'état est modélisé comme un "texte" universel écrit avec une "langue" archétypale<br>Irreversibility is not an intrinsic property of the "objects" but is answerable to a theory of knowledge. So it cannot be expressed in the realistic conception of linear time wich underlies the whole physics, conception according to wich the "past" and the "future" are interchangeables. Irreversibility can only be legalised in a conception of relationnel time constituing the actual expression of the inter-subjective process of representation. Considering, after the analyses of bohr, the quantum measurement operation as a paradigm of semantic act, we work out a theory of "quantum" time defined as the process of recording and processing, by the inter-subjective "memory" of the impersonal observer, of the "information" obtained by measures. In the arborescent models of the theory of quantum time where the temporal order relation is defined from the partial order on the ensemble of memory states,(the "instants" of the quantum time), the irreversibility can then find its expression: on the one hand, owing to the anisotropy of its models; on the other hand, because a complete estimate of the infomation quantities which are necessary to predict the evolution of a phenomenon is possible. Futhermore, the notion of "measure of time" can find its full meaning: the "characteristic duration" of a phenomenon can be explained universally with that of information quantity. Lastly, we propound a generalisation of this theory: the semantic acts are modelised as "speaking acts" realised on an hypothetical universal "language" of humain significans; and our symbolic universe is modelised as a "text" written with the same "language". A "de-anthropisation" of the process of representation is also proposed. We outline a theory of semantic time as the general process of representation. That is the process of the co-birth of the subject, without empirical content and formally conceived as the ensemble of the conditions of possibility to "know", and of the meaning, of wich the state is modelised as an universal "text" written with an archetypal "langage"
APA, Harvard, Vancouver, ISO, and other styles
30

Osnaghi, Stefano. "De l’inséparabilité quantique au holisme sémantique." Thesis, Paris, Ecole normale supérieure, 2014. http://www.theses.fr/2014ENSU0021.

Full text
Abstract:
La thèse vise à montrer que la cohérence de l’interprétation instrumentaliste de la mécaniquequantique (sur laquelle les reconstructions logiques de la théorie, d’inspiration pragmatiste, s’appuient) ne peut pas être défendue sans remettre en cause la sémantique extensionnelle utilisée en logique classique. J’examine en particulier les arguments misen avant par Niels Bohr, en montrant que son analyse physique du processus de mesureest insuffisante pour assurer la cohérence de l’interprétation conditionnelle des probabilités quantiques qu’il adopte. Au lieu d’essayer de ‘compléter’ l’approche de Bohrpar un compte rendu plus exhaustif des processus physiques (telle la décohérence) quijouent un rôle dans l’observation, je suggère que le problème de la mesure découle d’unethéorie de la signification inadéquate. Je discute l’intérêt et les limites de la critiquebohrienne des présupposés représentationalistes inhérents à la description classique desphénomènes, et je conclus en formulant l’hypothèse que l’adoption d’une sémantiqueinférentialiste permettrait d’envisager à la fois la dissolution du problème de la mesureet la justification a priori des traits structuraux des probabilités quantiques (comme étantl’expression des relations conceptuelles présupposées par tout langage qui doit incluredes énoncés objectifs)<br>The dissertation purports to show that the consistency of the instrumentalist interpretationof quantum mechanics (upon which the logico-operational reconstructions of thetheory rest) cannot be defended without relinquishing the extensional semantic frameworkof classical logic. I examine in particular Niels Bohr’s argument, arguing that hisphysical analysis of measurement is insufficient to establish the coherence of the conditionalconstrual of quantum probabilities that he advocates. Rather than attemptingto ‘complete’ Bohr’s approach by means of a more sophisticated and comprehensiveaccount of the physical processes involved in the act of observation (e.g., decoherence),I suggest that the measurement problem should be viewed as the outgrowth of an inadequatetheory of meaning. I discuss, and point out some limitations of, Bohr’s ownpioneering critique of the representational assumptions inherent to the classical accountof phenomena, and I conclude by suggesting that the endorsement of an inferentialistsemantic approach would not only contribute to defusing the measurement problem, butmight also enable the a priori justification of the structural features of quantum probability(in terms of the conceptual relations presupposed by any language which allowsfor objective assertions)
APA, Harvard, Vancouver, ISO, and other styles
31

Desbiendras, Nicolas. "Représentations au travers d'un espace sémantique : création d'un outil de mesure d'opinion : le différentiel sémiologique." Amiens, 2009. http://www.theses.fr/2009AMIE0004.

Full text
APA, Harvard, Vancouver, ISO, and other styles
32

Bernier, Michaël. "Recalage multi-modal automatique : technique de multi-résolution parallèle appliquée à la TEP et l'IRM." Mémoire, Université de Sherbrooke, 2012. http://hdl.handle.net/11143/6274.

Full text
Abstract:
Résumé : Le recalage automatique des images issues de la tomographie par émission de positrons (TEP) et de l’imagerie par résonance magnétique (IRM) du petit animal pose un problème difficile à résoudre, tant sur l’aspect de la précision, du taux de réussite et de convergence que sur la rapidité d’exécution. En fait, la plupart des techniques de recalage actuelles sont développées et appliquées aux cerveaux humains, mais ne sont pas aussi efficaces lorsqu’appliquées sur des données animales. L’anisotropie impor¬tante des voxels (résolution fine dans le plan de l’acquisition, mais grande épaisseur de coupe) et la dégradation des images associée à ce type d’acquisition s’additionne au manque d’information d’intensité et de complexité anatomique de ce type de jeu de données. Ce mémoire met l’accent sur les techniques multimodales de recalage automatique et de leurs limites, appliquées particulièrement à la TEP et l’IRM du petit animal. Dans l’article principal présenté dans ce mémoire, nous proposons une mesure qui utilise un recalage multirésolution en parallèle (imbriqué dans la fonction d’énergie) au lieu d’une approche classique de multirésolution séquentielle, influen¬çant directement la procédure du recalage. En combinant les niveaux de basse et haute résolution des images, nous nous assurons une plus grande insensibilité par rapport au bruit, d’une ouverture accrue permettant une meilleure convergence et rapidité d’exécution. L’article démontre que notre nouvelle approche automatique est un algorithme de recalage robuste et efficace avec un taux de réussite élevé. Nous présentons également dans ce mémoire certains détails d’implantation de l’outil, qui a été créé par l’auteur de ce document, reposant sur le recalage classique et la nouvelle méthode décrite dans ce mémoire.||Abstract: Automatic registration of small animal Positron Emission Tomography (PET) and Magnetic Resonance Imaging (MRI) data represents a difficult problem in terms of convergence speed, accuracy and success rate. In fact, most existing registration methods are developed and applied to human brain volumes but these are not as effective for small animal data because of the lack of intensity information in the images and often the large anisotropy in voxel dimensions (very small in-plane resolution and large slice thickness). This master thesis focuses on multi-modal automatic registration techniques and their limitations, especially applied to PET-MRI registration. In the main article of this master thesis, we propose a new registration measure that combines multi-resolution in parallel (in the same energy function) instead of a classic sequential multi-resolution, which influence the procedure of the registration as well. By combining low and high resolution levels of images, we can gain from the low noise sensitivity and aperture at coarse levels and higher contrast and details at higher levels, which helps convergence accuracy and speed. The paper shows that our new approach is therefore an automatic, robust and efficient registration algorithm with a high success rate. We also present in this document some implementation details on the tool which was created by the author of this thesis based on the classic registration and the new approach described in this thesis.
APA, Harvard, Vancouver, ISO, and other styles
33

Audrezet, Alice. "L'ambivalence des consommateurs : proposition d'un nouvel outil de mesure." Thesis, Paris 9, 2014. http://www.theses.fr/2014PA090011/document.

Full text
Abstract:
La littérature en méthodologie pointe un important problème lié à l’utilisation des différentiels sémantiques pour mesurer les évaluations globales des individus. Au centre de ces continua bipolaires opposant une paire d’adjectifs antagonistes, sont en effet agrégées de manière artificielle et fâcheuse deux types d’évaluations : les réactions indifférentes et les réactions ambivalentes. Or, la distinction entre ces deux types d’évaluation est un enjeu dans la mesure où elles recouvrent des réalités différentes. En effet, l’indifférence correspond à l’absence de réaction positive ou négative, tandis que l’ambivalence décrit une évaluation composée à la fois de réactions positives et négatives. Cette recherche démontre l’intérêt d’utiliser un nouvel outil de mesure issu de recherches en psychologie, l’Evaluative Space Grid (Larsen &amp; al., 2009), pour saisir la part d’ambivalence contenue dans les évaluations globales de consommateurs. A l’aide d’un design mixte comportant cinq études empiriques, nous montrons que l’Evaluative Space Grid présente des propriétés psychométriques aussi bonnes que le différentiel sémantique tout en permettant de différencier les réactions indifférentes des réactions ambivalentes, ce que ne peut pas faire un différentiel sémantique. Ce travail de recherche constitue donc une contribution méthodologique importante qui devrait intéresser chercheurs et praticiens<br>Literature on methodology reveals a serious problem related to the use of semantic differential scales to measure individuals’ global evaluations. Two types of evaluations are incorporated—in an artificial and unsuitable way—into these bipolar continuums that contain two opposing adjectives: indifferent reactions and ambivalent reactions. The distinction between these two types of evaluation is significant because they reflect different realities. While indifference corresponds to an absence of positive or negative reactions, an ambivalent evaluation is composed of both positive and negative reactions. This research demonstrates the advantages of using a new measurement tool, the Evaluative Space Grid (Larsen &amp; al., 2009), developed in psychology research; this tool is able to capture the ambivalent component in consumers’ global evaluations. Using a mixed design method comprising five empirical studies, we demonstrate that the Evaluative Space Grid has psychometric properties that match those of semantic differential scales; however, in contrast to semantic differential scales, the ESG is capable of differentiating between indifferent reactions and ambivalent reactions. This research therefore constitutes a major methodological contribution that will be of interest to both researchers and practitioners
APA, Harvard, Vancouver, ISO, and other styles
34

Palmann, Christophe. "Contribution au recalage d'images de modalités différentes à travers la mise en correspondance de nuages de points : Application à la télédétection." Thesis, Aix-Marseille 2, 2011. http://www.theses.fr/2011AIX22047/document.

Full text
Abstract:
L'utilisation d'images de modalités différentes est très répandue dans la résolution de problèmes liés aux applications de la télédétection. La raison principale est que chaque image d'une certaine modalité contient des informations spécifiques qui peuvent être intégrées en un modèle unique, afin d'améliorer notre connaissance à propos d'une scène spécifique. A cause du grand volume de données disponibles, ces intégrations doivent être réalisées de manière automatique. Cependant, un problème apparaît dès les premiers stades du processus : la recherche, dans des images de modalités différentes, de régions en correspondance. Ce problème est difficile à résoudre car la décision de regrouper des régions doit nécessairement reposer sur la part d'information commune aux images, même si les modalités sont différentes. Dans cette thèse, nous nous proposons donc d'apporter une contribution à la résolution de ce problème<br>The use of several images of various modalities has been proved to be quite useful for solving problems arising in many different applications of remote sensing. The main reason is that each image of a given modality conveys its own part of specific information, which can be integrated into a single model in order to improve our knowledge on a given area. With the large amount of available data, any task of integration must be performed automatically. At the very first stage of an automated integration process, a rather direct problem arises : given a region of interest within a first image, the question is to find out its equivalent within a second image acquired over the same scene but with a different modality. This problem is difficult because the decision to match two regions must rely on the common part of information supported by the two images, even if their modalities are quite different. This is the problem that we wish to address in this thesis
APA, Harvard, Vancouver, ISO, and other styles
35

Mnasri, Maali. "Résumé automatique multi-document dynamique." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS342/document.

Full text
Abstract:
Cette thèse s’intéresse au Résumé Automatique de texte et plus particulièrement au résumémis-à-jour. Cette problématique de recherche vise à produire un résumé différentiel d'un ensemble denouveaux documents par rapport à un ensemble de documents supposés connus. Elle intègre ainsidans la problématique du résumé à la fois la question de la dimension temporelle de l'information etcelle de l’historique de l’utilisateur. Dans ce contexte, le travail présenté s'inscrit dans les approchespar extraction fondées sur une optimisation linéaire en nombres entiers (ILP) et s’articule autour dedeux axes principaux : la détection de la redondance des informations sélectionnées et la maximisationde leur saillance. Pour le premier axe, nous nous sommes plus particulièrement intéressés àl'exploitation des similarités inter-phrastiques pour détecter, par la définition d'une méthode deregroupement sémantique de phrases, les redondances entre les informations des nouveaux documentset celles présentes dans les documents déjà connus. Concernant notre second axe, nous avons étudiél’impact de la prise en compte de la structure discursive des documents, dans le cadre de la Théorie dela Structure Rhétorique (RS), pour favoriser la sélection des informations considérées comme les plusimportantes. L'intérêt des méthodes ainsi définies a été démontré dans le cadre d'évaluations menéessur les données des campagnes TAC et DUC. Enfin, l'intégration de ces critères sémantique etdiscursif au travers d'un mécanisme de fusion tardive a permis de montrer dans le même cadre lacomplémentarité de ces deux axes et le bénéfice de leur combinaison<br>This thesis focuses on text Automatic Summarization and particularly on UpdateSummarization. This research problem aims to produce a differential summary of a set of newdocuments with regard to a set of old documents assumed to be known. It thus adds two issues to thetask of generic automatic summarization: the temporal dimension of the information and the history ofthe user. In this context, the work presented here is based on an extractive approach using integerlinear programming (ILP) and is organized around two main axes: the redundancy detection betweenthe selected information and the user history and the maximization of their saliency . For the first axis,we were particularly interested in the exploitation of inter-sentence similarities to detect theredundancies between the information of the new documents and those present in the already knownones, by defining a method of semantic clustering of sentences. Concerning our second axis, westudied the impact of taking into account the discursive structure of documents, in the context of theRhetorical Structure Theory (RST), to favor the selection of information considered as the mostimportant. The benefit of the methods thus defined has been demonstrated in the context ofevaluations carried out on the data of TAC and DUC campaigns. Finally, the integration of thesesemantic and discursive criteria through a delayed fusion mechanism has proved the complementarityof these two axes and the benefit of their combination
APA, Harvard, Vancouver, ISO, and other styles
36

Bonner, Chantal. "Classification et composition de services Web : une perspective réseaux complexes." Corte, 2011. http://www.theses.fr/2011CORT0008.

Full text
Abstract:
Les services Web sont des briques de bases logicielles s’affranchissant de toute contrainte de compatibilité logicielle ou matérielle. Ils sont mis en œuvre dans une architecture orientée service. A l’heure actuelle, les travaux de recherche se concentrent principalement sur la découverte et la composition. Cependant, la complexité de la structure de l’espace des services Web et son évolution doivent nécessairement être prises en compte. Ceci ne peut se concevoir sans faire appel à la science des systèmes complexes, et notamment à la théorie des réseaux complexes. Dans cette thèse, nous définissons un ensemble de réseaux pour la composition sur la base de services décrits dans des langages syntaxique (WSDL) et sémantique (SAWSDL). L’exploration expérimentale de ces réseaux permet de mettre en évidence les propriétés caractéristiques des grands graphes de terrain (la propriété petit monde et la distribution sans échelle). On montre par ailleurs que ces réseaux possèdent une structure communautaire. Ce résultat permet d’apporter une réponse alternative à la problématique de la classification de services selon les domaines d’intérêts. En effet, les communautés regroupent non pas des services aux fonctionnalités similaires, mais des services qui ont en commun de nombreuses relations d’interaction. Cette organisation peut être utilisée entre autres, afin de guider les algorithmes de recherche de compositions. De plus, en ce qui concerne la classification des services aux fonctionnalités similaires en vue de la découverte ou de la substitution, nous proposons un ensemble de modèles de réseaux pour les représentations syntaxique et sémantique des services, traduisant divers degrés de similitude. L’analyse topologique de ces réseaux fait apparaître une structuration en composantes et une organisation interne des composantes autour de motifs élémentaires. Cette propriété permet une caractérisation à deux niveaux de la notion de communauté de services similaires, mettant ainsi en avant la souplesse de ce nouveau modèle d’organisation. Ces travaux ouvrent de nouvelles perspectives dans les problématiques de l’architecture orientée service<br>Web services are building blocks for modular applications independent of any software or hardware platforms. They implement the service oriented architecture (SOA). Research on Web services mainly focuses on discovery and composition. However, complexity of the Web services space structure and its development must necessarily be taken into account. This cannot be done without using the complex systems science, including the theory of complex networks. In this thesis, we define a set of networks based on Web services composition when Web services are syntactically (WSDL) and semantically (SAWSDL) described. The experimental exploration of these networks can reveal characteristic properties of complex networks (small world property and scale-free distribution). It also shows that these networks have a community structure. This result provides an alternative answer to the problem of Web services classification by domain of interest. Indeed, communities don’t gather Web services with similar functionalities, but Web services that share many interaction relationships. This organization can be used among others, to guide compositions search algorithms. Furthermore, with respect to the classification based on Web services functional similarity for discovery or substitution, we propose a set of network models for syntactic and semantic representations of Web services, reflecting various similarity degrees. The topological analysis of these networks reveals a component structure and internal organization of thecomponents around elementary patterns. This property allows a two-level characterization of the notion of community of similar Web services that highlight the flexibility of this new organizational model. This work opens new perspectives in the issues of service-oriented architecture
APA, Harvard, Vancouver, ISO, and other styles
37

Benmokhtar, Rachid. "Fusion multi-niveaux pour l'indexation et la recherche multimédia par le contenu sémantique." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005321.

Full text
Abstract:
Aujourd'hui, l'accès aux documents dans les bases de données, d'archives et sur Internet s'effectue principalement grâce à des données textuelles : nom de l'image ou mots-clés. Cette recherche est non exempte de fautes plus ou moins graves : omission, orthographe, etc. Les progrès effectués dans le domaine de l'analyse d'images et de l'apprentissage automatique permettent d'apporter des solutions comme l'indexation et la recherche à base des caractéristiques telles que la couleur, la forme, la texture, le mouvement, le son et le texte. Ces caractéristiques sont riches en informations et notamment d'un point de vue sémantique. Cette thèse s'inscrit dans le cadre de l'indexation automatique par le contenu sémantique des documents multimédia: plans vidéo et images-clés. L'indexation consiste à extraire, représenter et organiser efficacement le contenu des documents d'une base de données. L'état de l'art du domaine est confronté au «fossé sémantique» qui sépare les représentations visuelles brutes (bas-niveau) et conceptuelles (haut-niveau). Pour limiter les conséquences de cette problématique, nous avons introduit dans le système plusieurs types de descripteurs, tout en prenant à notre avantage les avancées scientifiques dans le domaine de l'apprentissage automatique et de la ``fusion multi-niveaux''. En effet, la fusion est utilisée dans le but de combiner des informations hétérogènes issues de plusieurs sources afin d'obtenir une information globale, plus complète, de meilleure qualité, permettant de mieux décider et d'agir. Elle peut être appliquée sur plusieurs niveaux du processus de classification. Dans cette thèse, nous avons étudié la fusion bas-niveau (précoce), la fusion haut-niveau (tardive), ainsi qu'à un niveau décisionnel basé sur l'ontologie et la similarité inter-concepts dit de raisonnement. Les systèmes proposés ont été validés sur les données de TRECVid (projet NoE K-Space) et les vidéos de football issues d'Orange-France Télécom Labs (projet CRE-Fusion). Les résultats révèlent l'importance de la fusion sur chaque niveau du processus de classification, en particulier, l'usage de la théorie des évidences.
APA, Harvard, Vancouver, ISO, and other styles
38

Dupuch, Marie. "Détection de termes sémantiquement proches : clustering non supervisé basé sur les relations sémantiques et le degré d'apparenté sémantique." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066327.

Full text
Abstract:
L'utilisation de termes équivalents ou sémantiquement proches est nécessaire pour augmenter la couverture et la sensibilité d'une application comme la recherche et l'extraction d'information ou l'annotation sémantique de documents. Dans le contexte de l'identification d'effets indésirables susceptibles d'être dûs à un médicament, la sensibilité est aussi recherchée afin de détecter plus exhaustivement les déclarations spontanées et de mieux surveiller le risque médicamenteux. C'est la raison qui motive notre travail. Dans notre travail de thèse, nous cherchons ainsi à détecter des termes sémantiquement proches et à les regrouper en utilisant plusieurs méthodes : des algorithmes de clustering non supervisés, des ressources terminologiques exploitées avec le raisonnement terminologique et des méthodes de Traitement Automatique de la Langue, comme la structuration de terminologies, où nous visons la détection de relations hiérarchiques et synonymiques. Nous avons réalisé de nombreuses expériences et évaluations des clusters générés, qui montrent que les méthodes proposées peuvent contribuer efficacement à la tâche visée<br>The use of equivalent terms or semantically close is necessary to increase the coverageand sensitivity of applications such as information retrieval and extraction or semanticannotation of documents. In the context of the adverse drug reactions identification, sensitivityis also sought to detect more exhaustively spontaneous reports and better monitordrug risk. This is the reason that motivates our work. In our work, we thus seek to detectsemantically close terms and the together using several methods : unsupervised algorithms, terminological resources exploited with terminological reasoning and methodsof Natural Language Processing, such as terminology structuring, where we aim to detecthierarchical and synonymous relations. We conducted many experiments and evaluations of generated, which show that the proposed methods can efficiently contribute tothe task in question
APA, Harvard, Vancouver, ISO, and other styles
39

Sioud, Esma. "Contribution à l'évaluation de l'interopérabilité sémantique entre systèmes d'information d'entreprises : application aux systèmes d'information de pilotage de la production." Thesis, Nancy 1, 2011. http://www.theses.fr/2011NAN10049/document.

Full text
Abstract:
Les travaux présentés dans ce mémoire s'inscrivent dans le contexte de systèmes d'entreprises collaboratives. Nous défendons l'intérêt d'évaluer l'interopérabilité étant donné que la question de l'interopérabilité voire plutôt celle de la non-interopérabilité pose de nombreuses problématiques pour les industriels. En effet, la non-interopérabilité engendre des coûts non négligeables dus principalement au temps et aux ressources mises en place pour développer des interfaces d'échange des informations. Ceci influe sur la performance globale des entreprises et précisément sur les coûts et les délais d'obtention des services attendus. Nous proposons ainsi une approche pour mesurer, a priori, le degré d'interopérabilité (ou de non interopérabilité) entre modèles conceptuels de systèmes d'information d'entreprise, afin de donner à une entreprise la possibilité d'évaluer sa propre capacité à interopérer et donc de prévoir les éventuels problèmes avant la mise en place d'un partenariat. Il s'agit ainsi de définir des indicateurs et des métriques tant quantitatifs que qualitatifs, permettant de qualifier l'interopérabilité entre les systèmes d'entreprises et de proposer des stratégies d'amélioration lorsque le niveau d'interopérabilité est évalué comme insuffisant<br>Within the context of collaborative enterprise information systems, these works aim to propose an approach for assessing the interoperability and the non-interoperability. In fact, the non-interoperability poses a series of challenging problems to the industrial community. Indeed, the non-interoperability leads to significant costs. The majority of these costs are attributable to the time and resources spent to put in place interfaces for exchanging information. This mainly affects enterprise global performance by increasing the cost and the delay to obtain the expected services. We suggest to address enterprise interoperability measurement in order to allow to any enterprise to fully evaluate, a priori, its own capacity to interoperate, and therefore to anticipate possible problems before a partnership. Our works consist in defining indicators and metrics to quantify and then to qualify the interoperability between the enterprise systems and to propose some improvement strategies when the evaluated interoperability level is not sufficient
APA, Harvard, Vancouver, ISO, and other styles
40

Yahia, Esma. "Contribution à l'évaluation de l'interopérabilité sémantique entre systèmes d'information d'entreprise : Application aux systèmes d'information de pilotage de la production." Phd thesis, Université Henri Poincaré - Nancy I, 2011. http://tel.archives-ouvertes.fr/tel-00630118.

Full text
Abstract:
Les travaux présentés dans ce mémoire s'inscrivent dans le contexte de systèmes d'entreprises collaboratives. Nous défendons l'intérêt d'évaluer l'interopérabilité étant donné que la question de l'interopérabilité voire plutôt celle de la non-interopérabilité pose de nombreuses problématiques pour les industriels. En effet, la non-interopérabilité engendre des coûts non négligeables dus principalement au temps et aux ressources mises en place pour développer des interfaces d'échange des informations. Ceci influe sur la performance globale des entreprises et précisément sur les coûts et les délais d'obtention des services attendus. Nous proposons ainsi une approche pour mesurer, a priori, le degré d'interopérabilité (ou de non interopérabilité) entre modèles conceptuels de systèmes d'information d'entreprise, afin de donner à une entreprise la possibilité d'évaluer sa propre capacité à interopérer et donc de prévoir les éventuels problèmes avant la mise en place d'un partenariat. Il s'agit ainsi de définir des indicateurs et des métriques tant quantitatifs que qualitatifs, permettant de qualifier l'interopérabilité entre les systèmes d'entreprises et de proposer des stratégies d'amélioration lorsque le niveau d'interopérabilité est évalué comme insuffisant.
APA, Harvard, Vancouver, ISO, and other styles
41

Briand, Bénédicte. "Construction d’arbres de discrimination pour expliquer les niveaux de contamination radioactive des végétaux." Montpellier 2, 2008. http://www.theses.fr/2008MON20009.

Full text
Abstract:
L'objectif de cette thèse est le développement d'une méthode permettant l'identification de facteurs conduisant à différents niveaux de contamination radioactive des végétaux. La méthodologie proposée est basée sur l'utilisation d'un modèle radioécologique de transfert des radionucléides dans l'environnement (code de calcul ASTRAL) et une méthode de discrimination par arbre. En particulier, pour parer les problèmes d'instabilité des arbres de discrimination et conserver leur structure, une méthode de stabilisation par rééchantillonnage bootstrap dans les nœuds est utilisée. Des comparaisons empiriques sont effectuées entre les arbres de discrimination construits par cette méthode (appelée méthode REN) et ceux obtenus par la méthode CART. Une mesure de similarité, permettant la comparaison de la structure de deux arbres de discrimination, est définie. Cette mesure est utilisée pour étudier les performances de stabilisation de la méthode REN. La méthodologie proposée est appliquée à un scénario simplifié de contamination. Les résultats obtenus permettent d'identifier les principales variables responsables des différents niveaux de contamination radioactive de quatre légumes-feuilles (laitue, chou, épinard et poireau). Certaines règles extraites de ces arbres de discrimination peuvent être utilisables dans un contexte post-accidentel<br>The objective of this thesis is the development of a method allowing the identification of factors leading to various radioactive contamination levels of the plants. The methodology suggested is based on the use of a radioecological transfer model of the radionuclides through the environment (ASTRAL computer code) and a classification-tree method. Particularly, to avoid the instability problems of classification trees and to preserve the tree structure, a node level stabilizing technique is used. Empirical comparisons are carried out between classification trees built by this method (called REN method) and those obtained by the CART method. A similarity measure is defined to compare the structure of two classification trees. This measure is used to study the stabilizing performance of the REN method. The methodology suggested is applied to a simplified contamination scenario. By the results obtained, we can identify the main variables responsible of the various radioactive contamination levels of four leafy-vegetables (lettuce, cabbage, spinach and leek). Some extracted rules from these classification trees can be usable in a post-accidental context
APA, Harvard, Vancouver, ISO, and other styles
42

Lully, Vincent. "Vers un meilleur accès aux informations pertinentes à l’aide du Web sémantique : application au domaine du e-tourisme." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUL196.

Full text
Abstract:
Cette thèse part du constat qu’il y a une infobésité croissante sur le Web. Les deux types d’outils principaux, à savoir le système de recherche et celui de recommandation, qui sont conçus pour nous aider à explorer les données du Web, connaissent plusieurs problématiques dans : (1) l’assistance de la manifestation des besoins d’informations explicites, (2) la sélection des documents pertinents, et (3) la mise en valeur des documents sélectionnés. Nous proposons des approches mobilisant les technologies du Web sémantique afin de pallier à ces problématiques et d’améliorer l’accès aux informations pertinentes. Nous avons notamment proposé : (1) une approche sémantique d’auto-complétion qui aide les utilisateurs à formuler des requêtes de recherche plus longues et plus riches, (2) des approches de recommandation utilisant des liens hiérarchiques et transversaux des graphes de connaissances pour améliorer la pertinence, (3) un framework d’affinité sémantique pour intégrer des données sémantiques et sociales pour parvenir à des recommandations qualitativement équilibrées en termes de pertinence, diversité et nouveauté, (4) des approches sémantiques visant à améliorer la pertinence, l’intelligibilité et la convivialité des explications des recommandations, (5) deux approches de profilage sémantique utilisateur à partir des images, et (6) une approche de sélection des meilleures images pour accompagner les documents recommandés dans les bannières de recommandation. Nous avons implémenté et appliqué nos approches dans le domaine du e-tourisme. Elles ont été dûment évaluées quantitativement avec des jeux de données vérité terrain et qualitativement à travers des études utilisateurs<br>This thesis starts with the observation that there is an increasing infobesity on the Web. The two main types of tools, namely the search engine and the recommender system, which are designed to help us explore the Web data, have several problems: (1) in helping users express their explicit information needs, (2) in selecting relevant documents, and (3) in valuing the selected documents. We propose several approaches using Semantic Web technologies to remedy these problems and to improve the access to relevant information. We propose particularly: (1) a semantic auto-completion approach which helps users formulate longer and richer search queries, (2) several recommendation approaches using the hierarchical and transversal links in knowledge graphs to improve the relevance of the recommendations, (3) a semantic affinity framework to integrate semantic and social data to yield qualitatively balanced recommendations in terms of relevance, diversity and novelty, (4) several recommendation explanation approaches aiming at improving the relevance, the intelligibility and the user-friendliness, (5) two image user profiling approaches and (6) an approach which selects the best images to accompany the recommended documents in recommendation banners. We implemented and applied our approaches in the e-tourism domain. They have been properly evaluated quantitatively with ground-truth datasets and qualitatively through user studies
APA, Harvard, Vancouver, ISO, and other styles
43

Zouhair, Abdelhamid. "Raisonnement à partir de cas dynamique multi-agents : application à un système de tuteur intelligent." Thesis, Le Havre, 2014. http://www.theses.fr/2014LEHA0009/document.

Full text
Abstract:
Nos travaux de thèse se situent dans le domaine des Systèmes d'Aide à la Décision (SAD) pour les situations dynamiques fondées sur les expériences passées. Plusieurs approches telles que les Réseaux de Neurones, Réseau de Petri et les Modèles de Markov Cachés ont été utilisées dans ce contexte mais elles souffrent de limites dans la gestion automatique et en temps réel des paramètres dynamiques. Nous proposons une architecture multi-agent multicouche fondée sur le raisonnement à partir de cas dynamique et incrémentale (RàPCDI) capable d’étudier les situations dynamiques (reconnaissance, prédiction, et apprentissage de situations). Nous proposons une approche générique qui acquiert elle-même les connaissances du système dynamique étudié. En outre, les systèmes de RàPC statiques souffrent de limites dans la gestion des paramètres dynamiques et ils sont incapables de détecter automatiquement l’évolution de ses paramètres ainsi que de s’adapter aux changements de la situation en cours d’évolution. En se basant sur le raisonnement à partir de cas et sur le paradigme multi-agent, nous proposons une modification du cycle statique de RàPC dans le but d’introduire un processus dynamique de raisonnement à partir de cas fondé sur une mesure de similarité dynamique, capable d'évaluer en temps réel la similarité entre une situation dynamique en cours de progression (cas cible) et des expériences passées stockées dans la mémoire du système (des cas sources) afin de prédire la suite de la situation cible. Nous validons l’approche proposée par la mise en œuvre d'un prototype de Tuteur Intelligent. Dans notre approche Incremental Dynamic Case Based Reasoning-Multi-Agent System (IDCBR-MAS), les expériences passées sont modélisées sous la forme des traces. Elles comprennent les productions et les actions résultantes de l’interaction de l'apprenant avec la plateforme d'apprentissage. IDCBR-MAS a été modélisé suivant la méthodologie AUML. Ses agents ont été développés en se basant sur JAVA et la plateforme SMA/JADE<br>AOur thesis works are related in the field of Decision Support System (DSS) for dynamic situations based on past experiences. Several approaches have been used in this area such as neural networks, Petri Nets and Hidden Markov Model but they suffer from some limitations in automated real-time management dynamic parameters. We propose a multi-agent multi-layer architecture based on Incremental Dynamic Case-Based Reasoning (IDCBR) able to study dynamic situations (recognition, prediction, and learning situations). We propose a generic approach able to learn automatically from their experiences in order to acquire the knowledge automatically. In addition, the static CBR systems suffer from some limitations such as the problem of the static management for dynamic parameters of the situation and they are unable to detect automatically the changes in its parameters in order to adapt the situation during their evolution. Based on the Case-Based Reasoning and multi-agent paradigm, we propose a modification of the static CBR cycle in order to introduce a dynamic process of Case-Based Reasoning based on a dynamic similarity measure able to evaluate in real time the similarity between a dynamic situation in current progress (target case) and past experiences stored in the memory (sources case) in order to predict the target case in the future. We validate the approach proposed by the implementation of an intelligent tutoring system prototype. In our approach Incremental Dynamic Case-Based Reasoning-Multi-Agent System (IDCBR-MAS), the past experiences are structured and modeled as traces. They include the interaction of the learner with the platform, which include history, chronology of interactions and productions left by the learner during his/her learning process. IDCBR-MAS designed and modeled with AUML language. Its agents have been implemented with JAVA and SMA / JADE platform
APA, Harvard, Vancouver, ISO, and other styles
44

Ayllón-Benítez, Aarón. "Development of new computational methods for a synthetic gene set annotation." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0305.

Full text
Abstract:
Les avancées dans l'analyse de l'expression différentielle de gènes ont suscité un vif intérêt pour l'étude d'ensembles de gènes présentant une similarité d'expression au cours d'une même condition expérimentale. Les approches classiques pour interpréter l'information biologique reposent sur l'utilisation de méthodes statistiques. Cependant, ces méthodes se focalisent sur les gènes les plus connus tout en générant des informations redondantes qui peuvent être éliminées en prenant en compte la structure des ressources de connaissances qui fournissent l'annotation. Au cours de cette thèse, nous avons exploré différentes méthodes permettant l'annotation d'ensembles de gènes.Premièrement, nous présentons les solutions visuelles développées pour faciliter l'interprétation des résultats d'annota-tion d'un ou plusieurs ensembles de gènes. Dans ce travail, nous avons développé un prototype de visualisation, appelé MOTVIS, qui explore l'annotation d'une collection d'ensembles des gènes. MOTVIS utilise ainsi une combinaison de deux vues inter-connectées : une arborescence qui fournit un aperçu global des données mais aussi des informations détaillées sur les ensembles de gènes, et une visualisation qui permet de se concentrer sur les termes d'annotation d'intérêt. La combinaison de ces deux visualisations a l'avantage de faciliter la compréhension des résultats biologiques lorsque des données complexes sont représentées.Deuxièmement, nous abordons les limitations des approches d'enrichissement statistique en proposant une méthode originale qui analyse l'impact d'utiliser différentes mesures de similarité sémantique pour annoter les ensembles de gènes. Pour évaluer l'impact de chaque mesure, nous avons considéré deux critères comme étant pertinents pour évaluer une annotation synthétique de qualité d'un ensemble de gènes : (i) le nombre de termes d'annotation doit être réduit considérablement tout en gardant un niveau suffisant de détail, et (ii) le nombre de gènes décrits par les termes sélectionnés doit être maximisé. Ainsi, neuf mesures de similarité sémantique ont été analysées pour trouver le meilleur compromis possible entre réduire le nombre de termes et maintenir un niveau suffisant de détails fournis par les termes choisis. Tout en utilisant la Gene Ontology (GO) pour annoter les ensembles de gènes, nous avons obtenu de meilleurs résultats pour les mesures de similarité sémantique basées sur les nœuds qui utilisent les attributs des termes, par rapport aux mesures basées sur les arêtes qui utilisent les relations qui connectent les termes. Enfin, nous avons développé GSAn, un serveur web basé sur les développements précédents et dédié à l'annotation d'un ensemble de gènes a priori. GSAn intègre MOTVIS comme outil de visualisation pour présenter conjointement les termes représentatifs et les gènes de l'ensemble étudié. Nous avons comparé GSAn avec des outils d'enrichissement et avons montré que les résultats de GSAn constituent un bon compromis pour maximiser la couverture de gènes tout en minimisant le nombre de termes.Le dernier point exploré est une étape visant à étudier la faisabilité d'intégrer d'autres ressources dans GSAn. Nous avons ainsi intégré deux ressources, l'une décrivant les maladies humaines avec Disease Ontology (DO) et l'autre les voies métaboliques avec Reactome. Le but était de fournir de l'information supplémentaire aux utilisateurs finaux de GSAn. Nous avons évalué l'impact de l'ajout de ces ressources dans GSAn lors de l'analyse d’ensembles de gènes. L'intégration a amélioré les résultats en couvrant d'avantage de gènes sans pour autant affecter de manière significative le nombre de termes impliqués. Ensuite, les termes GO ont été mis en correspondance avec les termes DO et Reactome, a priori et a posteriori des calculs effectués par GSAn. Nous avons montré qu'un processus de mise en correspondance appliqué a priori permettait d'obtenir un plus grand nombre d'inter-relations entre les deux ressources<br>The revolution in new sequencing technologies, by strongly improving the production of omics data, is greatly leading to new understandings of the relations between genotype and phenotype. To interpret and analyze data grouped according to a phenotype of interest, methods based on statistical enrichment became a standard in biology. However, these methods synthesize the biological information by a priori selecting the over-represented terms and focus on the most studied genes that may represent a limited coverage of annotated genes within a gene set. During this thesis, we explored different methods for annotating gene sets. In this frame, we developed three studies allowing the annotation of gene sets and thus improving the understanding of their biological context.First, visualization approaches were applied to represent annotation results provided by enrichment analysis for a gene set or a repertoire of gene sets. In this work, a visualization prototype called MOTVIS (MOdular Term VISualization) has been developed to provide an interactive representation of a repertoire of gene sets combining two visual metaphors: a treemap view that provides an overview and also displays detailed information about gene sets, and an indented tree view that can be used to focus on the annotation terms of interest. MOTVIS has the advantage to solve the limitations of each visual metaphor when used individually. This illustrates the interest of using different visual metaphors to facilitate the comprehension of biological results by representing complex data.Secondly, to address the issues of enrichment analysis, a new method for analyzing the impact of using different semantic similarity measures on gene set annotation was proposed. To evaluate the impact of each measure, two relevant criteria were considered for characterizing a "good" synthetic gene set annotation: (i) the number of annotation terms has to be drastically reduced while maintaining a sufficient level of details, and (ii) the number of genes described by the selected terms should be as large as possible. Thus, nine semantic similarity measures were analyzed to identify the best possible compromise between both criteria while maintaining a sufficient level of details. Using GO to annotate the gene sets, we observed better results with node-based measures that use the terms’ characteristics than with edge-based measures that use the relations terms. The annotation of the gene sets achieved with the node-based measures did not exhibit major differences regardless of the characteristics of the terms used. Then, we developed GSAn (Gene Set Annotation), a novel gene set annotation web server that uses semantic similarity measures to synthesize a priori GO annotation terms. GSAn contains the interactive visualization MOTVIS, dedicated to visualize the representative terms of gene set annotations. Compared to enrichment analysis tools, GSAn has shown excellent results in terms of maximizing the gene coverage while minimizing the number of terms.At last, the third work consisted in enriching the annotation results provided by GSAn. Since the knowledge described in GO may not be sufficient for interpreting gene sets, other biological information, such as pathways and diseases, may be useful to provide a wider biological context. Thus, two additional knowledge resources, being Reactome and Disease Ontology (DO), were integrated within GSAn. In practice, GO terms were mapped to terms of Reactome and DO, before and after applying the GSAn method. The integration of these resources improved the results in terms of gene coverage without affecting significantly the number of involved terms. Two strategies were applied to find mappings (generated or extracted from the web) between each new resource and GO. We have shown that a mapping process before computing the GSAn method allowed to obtain a larger number of inter-relations between the two knowledge resources
APA, Harvard, Vancouver, ISO, and other styles
45

Personeni, Gabin. "Apport des ontologies de domaine pour l'extraction de connaissances à partir de données biomédicales." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0235/document.

Full text
Abstract:
Le Web sémantique propose un ensemble de standards et d'outils pour la formalisation et l'interopérabilité de connaissances partagées sur le Web, sous la forme d'ontologies. Les ontologies biomédicales et les données associées constituent de nos jours un ensemble de connaissances complexes, hétérogènes et interconnectées, dont l'analyse est porteuse de grands enjeux en santé, par exemple dans le cadre de la pharmacovigilance. On proposera dans cette thèse des méthodes permettant d'utiliser ces ontologies biomédicales pour étendre les possibilités d'un processus de fouille de données, en particulier, permettant de faire cohabiter et d'exploiter les connaissances de plusieurs ontologies biomédicales. Les travaux de cette thèse concernent dans un premier temps une méthode fondée sur les structures de patrons, une extension de l'analyse formelle de concepts pour la découverte de co-occurences de événements indésirables médicamenteux dans des données patients. Cette méthode utilise une ontologie de phénotypes et une ontologie de médicaments pour permettre la comparaison de ces événements complexes, et la découverte d'associations à différents niveaux de généralisation, par exemple, au niveau de médicaments ou de classes de médicaments. Dans un second temps, on utilisera une méthode numérique fondée sur des mesures de similarité sémantique pour la classification de déficiences intellectuelles génétiques. On étudiera deux mesures de similarité utilisant des méthodes de calcul différentes, que l'on utilisera avec différentes combinaisons d'ontologies phénotypiques et géniques. En particulier, on quantifiera l'influence que les différentes connaissances de domaine ont sur la capacité de classification de ces mesures, et comment ces connaissances peuvent coopérer au sein de telles méthodes numériques. Une troisième étude utilise les données ouvertes liées ou LOD du Web sémantique et les ontologies associées dans le but de caractériser des gènes responsables de déficiences intellectuelles. On utilise ici la programmation logique inductive, qui s'avère adaptée pour fouiller des données relationnelles comme les LOD, en prenant en compte leurs relations avec les ontologies, et en extraire un modèle prédictif et descriptif des gènes responsables de déficiences intellectuelles. L'ensemble des contributions de cette thèse montre qu'il est possible de faire coopérer avantageusement une ou plusieurs ontologies dans divers processus de fouille de données<br>The semantic Web proposes standards and tools to formalize and share knowledge on the Web, in the form of ontologies. Biomedical ontologies and associated data represents a vast collection of complex, heterogeneous and linked knowledge. The analysis of such knowledge presents great opportunities in healthcare, for instance in pharmacovigilance. This thesis explores several ways to make use of this biomedical knowledge in the data mining step of a knowledge discovery process. In particular, we propose three methods in which several ontologies cooperate to improve data mining results. A first contribution of this thesis describes a method based on pattern structures, an extension of formal concept analysis, to extract associations between adverse drug events from patient data. In this context, a phenotype ontology and a drug ontology cooperate to allow a semantic comparison of these complex adverse events, and leading to the discovery of associations between such events at varying degrees of generalization, for instance, at the drug or drug class level. A second contribution uses a numeric method based on semantic similarity measures to classify different types of genetic intellectual disabilities, characterized by both their phenotypes and the functions of their linked genes. We study two different similarity measures, applied with different combinations of phenotypic and gene function ontologies. In particular, we investigate the influence of each domain of knowledge represented in each ontology on the classification process, and how they can cooperate to improve that process. Finally, a third contribution uses the data component of the semantic Web, the Linked Open Data (LOD), together with linked ontologies, to characterize genes responsible for intellectual deficiencies. We use Inductive Logic Programming, a suitable method to mine relational data such as LOD while exploiting domain knowledge from ontologies by using reasoning mechanisms. Here, ILP allows to extract from LOD and ontologies a descriptive and predictive model of genes responsible for intellectual disabilities. These contributions illustrates the possibility of having several ontologies cooperate to improve various data mining processes
APA, Harvard, Vancouver, ISO, and other styles
46

Sioud, Esma. "Contribution à l'évaluation de l'interopérabilité sémantique entre systèmes d'information d'entreprises : application aux systèmes d'information de pilotage de la production." Electronic Thesis or Diss., Nancy 1, 2011. http://www.theses.fr/2011NAN10049.

Full text
Abstract:
Les travaux présentés dans ce mémoire s'inscrivent dans le contexte de systèmes d'entreprises collaboratives. Nous défendons l'intérêt d'évaluer l'interopérabilité étant donné que la question de l'interopérabilité voire plutôt celle de la non-interopérabilité pose de nombreuses problématiques pour les industriels. En effet, la non-interopérabilité engendre des coûts non négligeables dus principalement au temps et aux ressources mises en place pour développer des interfaces d'échange des informations. Ceci influe sur la performance globale des entreprises et précisément sur les coûts et les délais d'obtention des services attendus. Nous proposons ainsi une approche pour mesurer, a priori, le degré d'interopérabilité (ou de non interopérabilité) entre modèles conceptuels de systèmes d'information d'entreprise, afin de donner à une entreprise la possibilité d'évaluer sa propre capacité à interopérer et donc de prévoir les éventuels problèmes avant la mise en place d'un partenariat. Il s'agit ainsi de définir des indicateurs et des métriques tant quantitatifs que qualitatifs, permettant de qualifier l'interopérabilité entre les systèmes d'entreprises et de proposer des stratégies d'amélioration lorsque le niveau d'interopérabilité est évalué comme insuffisant<br>Within the context of collaborative enterprise information systems, these works aim to propose an approach for assessing the interoperability and the non-interoperability. In fact, the non-interoperability poses a series of challenging problems to the industrial community. Indeed, the non-interoperability leads to significant costs. The majority of these costs are attributable to the time and resources spent to put in place interfaces for exchanging information. This mainly affects enterprise global performance by increasing the cost and the delay to obtain the expected services. We suggest to address enterprise interoperability measurement in order to allow to any enterprise to fully evaluate, a priori, its own capacity to interoperate, and therefore to anticipate possible problems before a partnership. Our works consist in defining indicators and metrics to quantify and then to qualify the interoperability between the enterprise systems and to propose some improvement strategies when the evaluated interoperability level is not sufficient
APA, Harvard, Vancouver, ISO, and other styles
47

Benouaret, Idir. "Un système de recommandation contextuel et composite pour la visite personnalisée de sites culturels." Thesis, Compiègne, 2017. http://www.theses.fr/2017COMP2332/document.

Full text
Abstract:
Notre travail concerne les systèmes d’aide à la visite de musée et l’accès au patrimoine culturel. L’objectif est de concevoir des systèmes de recommandation, implémentés sur dispositifs mobiles, pour améliorer l’expérience du visiteur, en lui recommandant les items les plus pertinents et en l’aidant à personnaliser son parcours. Nous considérons essentiellement deux terrains d’application : la visite de musées et le tourisme. Nous proposons une approche de recommandation hybride et sensible au contexte qui utilise trois méthodes différentes : démographique, sémantique et collaborative. Chaque méthode est adaptée à une étape spécifique de la visite de musée. L’approche démographique est tout d’abord utilisée afin de résoudre le problème du démarrage à froid. L’approche sémantique est ensuite activée pour recommander à l’utilisateur des œuvres sémantiquement proches de celles qu’il a appréciées. Enfin l’approche collaborative est utilisée pour recommander à l’utilisateur des œuvres que les utilisateurs qui lui sont similaires ont aimées. La prise en compte du contexte de l’utilisateur se fait à l’aide d’un post-filtrage contextuel, qui permet la génération d’un parcours personnalisé dépendant des œuvres qui ont été recommandées et qui prend en compte des informations contextuelles de l’utilisateur à savoir : l’environnement physique, la localisation ainsi que le temps de visite. Dans le domaine du tourisme, les points d’intérêt à recommander peuvent être de différents types (monument, parc, musée, etc.). La nature hétérogène de ces points d’intérêt nous a poussé à proposer un système de recommandation composite. Chaque recommandation est une liste de points d’intérêt, organisés sous forme de packages, pouvant constituer un parcours de l’utilisateur. L’objectif est alors de recommander les Top-k packages parmi ceux qui satisfont les contraintes de l’utilisateur (temps et coût de visite par exemple). Nous définissons une fonction de score qui évalue la qualité d’un package suivant trois critères : l’appréciation estimée de l’utilisateur, la popularité des points d’intérêt ainsi que la diversité du package et nous proposons un algorithme inspiré de la recherche composite pour construire la liste des packages recommandés. L’évaluation expérimentale du système que nous avons proposé, en utilisant un data-set réel extrait de Tripadvisor démontre sa qualité et sa capacité à améliorer à la fois la précision et la diversité des recommandations<br>Our work concerns systems that help users during museum visits and access to cultural heritage. Our goal is to design recommender systems, implemented in mobile devices to improve the experience of the visitor, by recommending him the most relevant items and helping him to personalize the tour he makes. We consider two mainly domains of application : museum visits and tourism. We propose a context-aware hybrid recommender system which uses three different methods : demographic, semantic and collaborative. Every method is adapted to a specific step of the museum tour. First, the demographic approach is used to solve the problem of the cold start. The semantic approach is then activated to recommend to the user artworks that are semantically related to those that the user appreciated. Finally, the collaborative approach is used to recommend to the user artworks that users with similar preferences have appreciated. We used a contextual post filtering to generate personalized museum routes depending on artworks which were recommended and contextual information of the user namely : the physical environment, the location as well as the duration of the visit. In the tourism field, the items to be recommended can be of various types (monuments, parks, museums, etc.). Because of the heterogeneous nature of these points of interest, we proposed a composite recommender system. Every recommendation is a list of points of interest that are organized in a package, where each package may constitute a tour for the user. The objective is to recommend the Top-k packages among those who satisfy the constraints of the user (time, cost, etc.). We define a scoring function which estimates the quality of a package according to three criteria : the estimated appreciation of the user, the popularity of points of interest as well as the diversity of packages. We propose an algorithm inspired by composite retrieval to build the list of recommended packages. The experimental evaluation of the system we proposed using a real world data set crawled from Tripadvisor demonstrates its quality and its ability to improve both the relevance and the diversity of recommendations
APA, Harvard, Vancouver, ISO, and other styles
48

Ngo, Duy Hoa. "Enhancing Ontology Matching by Using Machine Learning, Graph Matching and Information Retrieval Techniques." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20096/document.

Full text
Abstract:
Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul.Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang<br>In recent years, ontologies have attracted a lot of attention in the Computer Science community, especially in the Semantic Web field. They serve as explicit conceptual knowledge models and provide the semantic vocabularies that make domain knowledge available for exchange and interpretation among information systems. However, due to the decentralized nature of the semantic web, ontologies are highlyheterogeneous. This heterogeneity mainly causes the problem of variation in meaning or ambiguity in entity interpretation and, consequently, it prevents domain knowledge sharing. Therefore, ontology matching, which discovers correspondences between semantically related entities of ontologies, becomes a crucial task in semantic web applications.Several challenges to the field of ontology matching have been outlined in recent research. Among them, selection of the appropriate similarity measures as well as configuration tuning of their combination are known as fundamental issues that the community should deal with. In addition, verifying the semantic coherent of the discovered alignment is also known as a crucial task. Furthermore, the difficulty of the problem grows with the size of the ontologies. To deal with these challenges, in this thesis, we propose a novel matching approach, which combines different techniques coming from the fields of machine learning, graph matching and information retrieval in order to enhance the ontology matching quality. Indeed, we make use of information retrieval techniques to design new effective similarity measures for comparing labels and context profiles of entities at element level. We also apply a graph matching method named similarity propagation at structure level that effectively discovers mappings by exploring structural information of entities in the input ontologies. In terms of combination similarity measures at element level, we transform the ontology matching task into a classification task in machine learning. Besides, we propose a dynamic weighted sum method to automatically combine the matching results obtained from the element and structure level matchers. In order to remove inconsistent mappings, we design a new fast semantic filtering method. Finally, to deal with large scale ontology matching task, we propose two candidate selection methods to reduce computational space.All these contributions have been implemented in a prototype named YAM++. To evaluate our approach, we adopt various tracks namely Benchmark, Conference, Multifarm, Anatomy, Library and Large BiomedicalOntologies from the OAEI campaign. The experimental results show that the proposed matching methods work effectively. Moreover, in comparison to other participants in OAEI campaigns, YAM++ showed to be highly competitive and gained a high ranking position
APA, Harvard, Vancouver, ISO, and other styles
49

Zapletal, Eric. "Un environnement collaboratif sur Internet pour l'aide au consensus en anatomie pathologie : la plateforme IDEM." Paris 6, 2006. http://www.theses.fr/2006PA066590.

Full text
APA, Harvard, Vancouver, ISO, and other styles
50

Abid, Ahmed. "Improvement of web service composition using semantic similarities and formal concept analysis." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4007.

Full text
Abstract:
Les Architectures Orientées Services (SOA) se sont progressivement imposées comme outil incontournable dans les échanges inter-entreprises grâce à leurs potentiels stratégiques et technologiques. Leurs mise en oeuvre est concrétisée à travers les services Web dont l'un des principaux atouts est leur composabilité. Avec l'émergence du Web sémantique la découverte et la composition de services Web sémantiques constituent un réel défi. Le processus de découverte s'appui généralement sur les registres traditionnels offrant des descriptions syntaxiques regroupés statiquement, ce qui pose un problème lié à l'hétérogénéité des descriptions syntaxiques et à la rigidité de la classification. Le processus de composition dépend à son tour de la qualité de l'appariement des services. Nous proposons dans cette thèse une architecture d'un framework qui couvre toutes les phases du processus de composition. Ensuite, nous proposons une mesure de similarité sémantique pour un appariement entre les descriptions des services Web. Le processus de découverte de services Web s'appuie sur la similarité entre les services, le formalisme d'Analyse de Concepts Formels et l'organisation des services en treillis. La composition ensuite repose sur l'établissement de services composites cohérents et pertinaents pour la fonctionnalité espérée. Les points forts de cette architecture sont l'adaptation et l'intégration des technologies sémantiques, le calcul de similarité sémantique et l'utilisation de cette similarité sémantique et du formalisme FCA afin d'optimiser le processus de composition<br>Service Oriented Architectures (SOA) have been progressively confirmed as an essential tool in inter-companies exchanges thanks to their strategic and technological potential. Their implementation is realised through Web services. One of the main assets of services is their compostability. With the emergence of the semantic Web, the discovery and composition of semantic Web services become a real challenge. The discovery process is generally based on traditional registries with syntactic descriptions where services are statically grouped. This poses a problem related to the heterogeneity of syntactic descriptions and the rigidity of the classification. The composition process depends on the Web service matching quality processed in the discovery phase. We propose in this dissertation an architecture of a framework that covers all the phases of the composition process. Then, we propose a semantic similarity measure Web services. The Web services discovery process relies on the proposed similarity measure, the formal concept analysis (FCA) formalism, and the organisation of lattice services. The composition is then based on the establishment of coherent and relevant composite services for the expected functionality. The main strengths of this architecture are the adaptation and integration of semantic technologies, the calculation of semantic similarity and the use of this semantic similarity and the FCA formalism in order to optimise the composition process
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography