To see the other types of publications on this topic, follow the link: Résumés.

Dissertations / Theses on the topic 'Résumés'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Résumés.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Yahiaoui, Itheri. "Construction automatique de résumés vidéos." Paris, ENST, 2003. http://www.theses.fr/2003ENST0038.

Full text
Abstract:
La croissance rapide des documents multimédia, comme par exemple l'énorme flux de vidéos qui se trouvent sur les ordinateurs personnels et autres équipements, nécessite le développement de nombreux outils pour leur manipulation. La création automatique de résumés vidéos est un outil performant qui permet de résumer le contenu général de la vidéo et de ne présenter que les parties les plus pertinentes. A travers cette thèse, nous proposons une nouvelle approche de construction et d évaluation automatique des résumés vidéos. Cette approche est basée sur un principe que nous proposons et que nous dénommons "Principe de Reconnaissance Maximale ". Ce dernier est dérivé d'une tâche réaliste prédéfinie qui consiste à l'identification de l'origine d'un extrait donné ayant uniquement connaissance d'un résumé. Notre méthode de construction est un processus d'optimisation, par rapport au Principe de Reconnaissance Maximale PRM, qui permet de construire le meilleur résumé possible pour aider l'utilisateur dans l'accomplissement de cette tâche d'identification. Le meilleur résumé est celui qui maximise le nombre de réponses correctes données par l'utilisateur. Cette technique peut être utilisée pour la création de résumés de différents types de média. Dans cette thèse, nous avons adopté de PRM pour proposer différentes méthodes de création de résumés selon le ou les média pris en considération. En premier lieu, nous avons présenté une première méthode de construction de résumés vidéos en utilisant uniquement les informations visuelles, puis nous avons étudié différentes autres méthodes de construction multi-vidéos. Ensuite, nous avons illustré l'adaptation de ce principe pour la construction de résumés basés exclusivement sur les informations textuelles. Enfin, nous avons proposé une méthode mixte de construction de résumés vidéo-textuels en combinant conjointement lors du processus d'optimisation les inforamtions visuelles et textuelles
The ever-growing availability of multimedia data, creates a strong requirement for efficient tools to manipulate and present data in an effective manner. Automatic video summarization tools aim at creating with little or no human interaction short versions which contains the salient information of original video. The key issue here is to identify what should be kept in the summary and how relevant information can be automatically extracted. In this thesis, we present a new approach for the automatic construction and evaluation of video summaries. This approach is based on a task that we feel relevant to many applications of summaries: the user is asked to identify if a short clip comes from an original audio-video sequence or not, using only the knowledge of the summary (rather than the full sequence). The performance of the user is measured by the percentage of correct decisions over all possible clips taken from the original sequence. We call this task a Maximum Recollection Task (MRT), in the sense that the summary should let the user identify as many clips as possible. The best summary is therefore chosen according to a Maximum Recollection Principle (MRP). In this work, we have extended the MRP to propose different methods of summaries creation according to the type of the media used. First, we presented a method for automatic construction of video summaries based on visual information only. Then we compared some methodologies for multi video summaries construction, where the focus is not necessarily on what is important in a video, but rather what distinguishes this video from the others. We have also illustrated the adaptation of this principle to build summaries from text documents. Finally, we presented a framework in which text and video are combined during the construction of summaries of audio-video sequences
APA, Harvard, Vancouver, ISO, and other styles
2

Saggion, Horacio. "Génération automatique de résumés par analyse sélective." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 2000. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape3/PQDD_0017/NQ55476.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Gabsi, Nesrine. "Extension et interrogation de résumés de flux de données." Phd thesis, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00613122.

Full text
Abstract:
Au cours de ces dernières années, un nouvel environnement s'est développé dans lequel les données doivent être collectées et traitées instantanément dès leur arrivée. La gestion de cette volumétrie nécessite la mise en place d'un nouveau modèle et de nouvelles techniques de traitements de l'information. Il s'agit du traitement des flux de données. Ces derniers ont la particularité d'être continus, évolutifs, volumineux et ne peuvent être stockés, dans leur intégralité, en tant que données persistantes. Plusieurs travaux de recherche se sont intéressés à cette problématique ce qui a engendré l'apparition des systèmes de gestion de flux de données (SGFD). Ces systèmes permettent d'exprimer des requêtes continues qui s'évaluent au fur et à mesure sur un flux ou sur des fenêtres (sous ensembles finis du flux). Toutefois, dans certaines applications, de nouveaux besoins peuvent apparaître après le passage des données. Dans ce cas, le système ne peut répondre aux requêtes posées car toutes les données n'appelant aucun traitement sont définitivement perdues. Il est ainsi nécessaire de conserver un résumé du flux de données. De nombreux algorithmes de résumé ont été développés. Le choix d'une méthode de résumé particulière dépend de la nature des données à traiter et de la problématique à résoudre. Dans ce manuscrit, nous nous intéressons en premier lieu à l'élaboration d'un résumé généraliste permettant de créer un compromis entre la vitesse de construction du résumé et la qualité du résumé conservé. Nous présentons une nouvelle approche de résumé qui se veut performance face à des requêtes portant sur des données du passé lointain. Nous nous focalisons par la suite sur l'exploitation et l'accès aux évènements du flux conservés dans ces résumés. Notre objectif consiste à intégrer les structures de résumés généralistes dans l'architecture des SGFD existantes de façon à étendre le champ de requêtes possibles. A cet effet, l'évaluation des requêtes qui font appel aux données du passé lointain d'un flux (i.e. données expirées de la mémoire du SGFD) serait possible au même titre que les requêtes posées sur le passé proche d'un flux de données. Nous présentons deux approches permettant d'atteindre cet objectif. Ces approches se différencient par le rôle que détient le module de résumé lors de l'évaluation d'une requêtes.
APA, Harvard, Vancouver, ISO, and other styles
4

Boly, Aliou. "Fonctions d'oubli et résumés dans les entrepôts de données." Paris, ENST, 2006. http://www.theses.fr/2006ENST0049.

Full text
Abstract:
Les entrepôts de données stockent des quantités de données de plus en plus massives et arrivent vite à saturation. La solution qui est appliquée en général est d'assurer un archivage périodique des données les plus anciennes. Cette solution n'est pas satisfaisante car l'archivage et la remise en ligne des données sont des opérations coûteuses au point que l'on peut considérer que des données archivées sont des données perdues du point de vue de leur utilisation dans le cadre d'une analyse des données. Dans cette thèse, nous proposons une solution pour résoudre ce problème : un langage de spécifications de fonctions d'oubli est défini pour déterminer les données qui doivent être présentes dans l'entrepôt de données à chaque instant. Ces spécifications de fonctions d'oubli conduisent à supprimer de façon mécanique les données 'oublier', tout en conservant un résumé de celles-ci par agrégation et par échantillonnage. L'objectif est de mettre à disposition de l'administrateur de l'entrepôt de données des outils permettant de maîtriser la taille de l'entrepôt et d'automatiser au maximum le processus d'archivage des données anciennes en fonction de stratégies prédéfinies. Dans cette thèse, nous nous plaçons dans le cadre du modèle relationnel et nous définissons un langage de spécifications de fonctions d'oubli ainsi que les principes et les algorithmes pour mettre à jour le contenu de l'entrepôt conformément aux spécifications de fonctions d'oubli. Des mécanismes de consultation et d'analyse des résumés constitués sont également proposés
The amount of data stored in data warehouses grows very quickly so that they get saturated. To overcome this problem, the solution is generally to archive older data when new data arrive if there is no space left. This solution is not satisfactory because data mining analyses based on long term historical data become impossible. As a matter of fact data mining analysis cannot be done on archived data without re-loading them in the data warehouse; and the cost of loading back a large dataset of archived data is too high to be operated just for one analysis. So, archived data must be considered as lost data regarding to data mining applications. In this thesis, we propose a solution for solving this problem: a language is defined to specify forgetting functions on older data. The specifications include the definition of some summaries of deleted data to define what data should be present in the data warehouse at each step of time. These summaries are aggregates and samples of deleted data and will be kept in the data warehouse. The goal of these forgetting functions is to control the size of the data warehouse. This control is provided both for the aggregate summaries and the samples. The specification language for forgetting function is defined in the context of relational databases. Once forgetting functions have been specified, the data warehouse is automatically updated in order to follow the specifications. This thesis presents both the language for specifications, the structure of the summaries, the algorithms to update the data warehouse and the possibility of performing interesting analyses of historical data
APA, Harvard, Vancouver, ISO, and other styles
5

Boukadida, Haykel. "Création automatique de résumés vidéo par programmation par contraintes." Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S074/document.

Full text
Abstract:
Cette thèse s’intéresse à la création automatique de résumés de vidéos. L’idée est de créer de manière adaptative un résumé vidéo qui prenne en compte des règles définies sur le contenu audiovisuel d’une part, et qui s’adapte aux préférences de l’utilisateur d’autre part. Nous proposons une nouvelle approche qui considère le problème de création automatique de résumés sous forme d’un problème de satisfaction de contraintes. La solution est basée sur la programmation par contraintes comme paradigme de programmation. Un expert commence par définir un ensemble de règles générales de production du résumé, règles liées au contenu multimédia de la vidéo d’entrée. Ces règles de production sont exprimées sous forme de contraintes à satisfaire. L’utilisateur final peut alors définir des contraintes supplémentaires (comme la durée souhaitée du résumé) ou fixer des paramètres de haut niveau des contraintes définies par l’expert. Cette approche a plusieurs avantages. Elle permet de séparer clairement les règles de production des résumés (modélisation du problème) de l’algorithme de génération de résumés (la résolution du problème par le solveur de contraintes). Le résumé peut donc être adapté sans qu’il soit nécessaire de revoir tout le processus de génération des résumés. Cette approche permet par exemple aux utilisateurs d’adapter le résumé à l’application cible et à leurs préférences en ajoutant une contrainte ou en modifiant une contrainte existante, ceci sans avoir à modifier l’algorithme de production des résumés. Nous avons proposé trois modèles de représentation des vidéos qui se distinguent par leur flexibilité et leur efficacité. Outre les originalités liées à chacun des trois modèles, une contribution supplémentaire de cette thèse est une étude comparative de leurs performances et de la qualité des résumés résultants en utilisant des mesures objectives et subjectives. Enfin, et dans le but d’évaluer la qualité des résumés générés automatiquement, l’approche proposée a été évaluée par des utilisateurs à grande échelle. Cette évaluation a impliqué plus de 60 personnes. Ces expériences ont porté sur le résumé de matchs de tennis
This thesis focuses on the issue of automatic video summarization. The idea is to create an adaptive video summary that takes into account a set of rules defined on the audiovisual content on the one hand, and that adapts to the users preferences on the other hand. We propose a novel approach that considers the problem of automatic video summarization as a constraint satisfaction problem. The solution is based on constraint satisfaction programming (CSP) as programming paradigm. A set of general rules for summary production are inherently defined by an expert. These production rules are related to the multimedia content of the input video. The rules are expressed as constraints to be satisfied. The final user can then define additional constraints (such as the desired duration of the summary) or enter a set of high-level parameters involving to the constraints already defined by the expert. This approach has several advantages. This will clearly separate the summary production rules (the problem modeling) from the summary generation algorithm (the problem solving by the CSP solver). The summary can hence be adapted without reviewing the whole summary generation process. For instance, our approach enables users to adapt the summary to the target application and to their preferences by adding a constraint or modifying an existing one, without changing the summaries generation algorithm. We have proposed three models of video representation that are distinguished by their flexibility and their efficiency. Besides the originality related to each of the three proposed models, an additional contribution of this thesis is an extensive comparative study of their performance and the quality of the resulting summaries using objective and subjective measures. Finally, and in order to assess the quality of automatically generated summaries, the proposed approach was evaluated by a large-scale user evaluation. This evaluation involved more than 60 people. All these experiments have been performed within the challenging application of tennis match automatic summarization
APA, Harvard, Vancouver, ISO, and other styles
6

Norrby, Sara. "Using Morphological Analysis in an Information Retrieval System for Résumés." Thesis, KTH, Skolan för datavetenskap och kommunikation (CSC), 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189578.

Full text
Abstract:
This thesis investigates the usage of an information retrieval system among résumés in Swedish and how the usage of morphological methods, such as lemmatization, affects the results. In order to investigate this, a small information retrieval system was built using lemmatization and compound splitting. This thesis also discusses how the relevance of a résumé can be decided and evaluates the information retrieval system in terms of precision, recall and ranking ability.  The results show that using morphological analysis had a positive effect in some cases, especially when the query contained more Swedish words than names of skills. In the cases where there were mostly technical skills in the query it proved to have a negative impact. Lemmatization was the method that had a small positive effect on ranking ability but the compound splitting had a negative impact regardless on the queries' features.
I detta examensarbete undersöks hur användning av morfologisk analys, så som lemmatisering, påverkar prestandan hos ett informationssökningssystem för CV:n på svenska. Det tas också upp hur relevans hos ett CV kan bedömas och informationssökningssystemet utvärderas utifrån precision och täckning men även ''discounted cumulative gain'' vilket är ett mått på rankningsförmåga. Resultaten visar att morfologisk analys ger positiva effekter i de fall då frågan till söksystemet innehåller många svenska ord. När frågan innehöll många namn på olika tekniker så visade det sig vara negativt att använda morfologi, framförallt när det gäller uppdelning av sammansatta ord. Lemmatisering var den metod som hade positiv effekt i vissa fall medan uppdelning av sammansatta ord endast hade en negativ effekt.
APA, Harvard, Vancouver, ISO, and other styles
7

Sanabria, Rosas Laura Melissa. "Détection et caractérisation des moments saillants pour les résumés automatiques." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4104.

Full text
Abstract:
Le contenu vidéo est présent dans un nombre toujours plus grand de domaines, tant scientifiques que commerciaux. Le sport, en particulier le football, est l'une des industries qui a le plus investi dans le domaine de l'analyse vidéo, en raison de la popularité massive de ce sport. Bien que plusieurs méthodes de l'état de l'art utilisent des heuristiques pour générer des résumés de matchs de football, elles ont prouvé que de multiples modalités aident à détecter les meilleures actions du match. D'autre part, le domaine du résumé vidéo à usage général a progressé rapidement, offrant plusieurs approches d'apprentissage profond. Cependant, beaucoup d'entre elles sont basées sur des hypothèses qui ne sont pas réalisables pour les vidéos sportives. Le contenu vidéo a été pendant de nombreuses années la principale source pour les tâches automatiques dans le football, mais les données qui enregistrent tous les événements qui se produisent sur le terrain sont devenues dernièrement très importantes dans l'analyse du sport, car ces données d'événements fournissent des informations plus riches et nécessitent moins de traitement. Considérant que dans le résumé automatique de sports, l'objectif n'est pas seulement de montrer les actions les plus importantes du jeu, mais aussi d'évoquer autant d'émotions que celles évoquées par les éditeurs humains, nous proposons une méthode pour générer le résumé d'une vidéo de match de football en exploitant les métadonnées d'événement de tout le match et le contenu diffusé à la télévision. Nous avons conçu une architecture, introduisant (1) une méthode d'apprentissage d'instances multiples qui prend en compte la dépendance séquentielle entre les événements, (2) une couche d'attention multimodale hiérarchique qui saisit l'importance de chaque événement dans une action et (3) une méthode pour générer automatiquement plusieurs résumés d'un match de football en choisissant parmi une distribution de rangs, fournissant plusieurs résumés candidats qui sont suffisamment similaires mais avec une variabilité pertinente pour fournir différentes options à l'utilisateur final.De plus, nous avons proposé des solutions à certains défis supplémentaires dans le domaine du résumé des sports. À partir des signaux internes d'un modèle d'attention qui utilise des données d'événements comme entrée, nous avons introduit une représentation graphique des actions où l'axe des x du graphique représente la séquence d'événements et l'axe des y est la valeur du poids appris par la couche d'attention. Cette nouvelle représentation fournit un nouvel outil à l'éditeur contenant des informations significatives pour décider si une action est importante. Nous proposons également l'utilisation de techniques de repérage de mots-clés et de boosting pour détecter chaque fois qu'un joueur est mentionné par les commentateurs
Video content is present in an ever-increasing number of fields, both scientific and commercial. Sports, particularly soccer, is one of the industries that has invested the most in the field of video analytics, due to the massive popularity of the game. Although several state-of-the-art methods rely on handcrafted heuristics to generate summaries of soccer games, they have proven that multiple modalities help detect the best actions of the game. On the other hand, the field of general-purpose video summarization has advanced rapidly, offering several deep learning approaches. However, many of them are based on properties that are not feasible for sports videos. Video content has been for many years the main source for automatic tasks in soccer but the data that registers all the events happening on the field have become lately very important in sports analytics, since these event data provide richer information and requires less processing. Considering that in automatic sports summarization, the goal is not only to show the most important actions of the game, but also to evoke as much emotion as those evoked by human editors, we propose a method to generate the summary of a soccer match video exploiting the event metadata of the entire match and the content broadcast on TV. We have designed an architecture, introducing (1) a Multiple Instance Learning method that takes into account the sequential dependency among events, (2) a hierarchical multimodal attention layer that grasps the importance of each event in an action and (3) a method to automatically generate multiple summaries of a soccer match by sampling from a ranking distribution, providing multiple candidate summaries which are similar enough but with relevant variability to provide different options to the final user.We also introduced solutions to some additional challenges in the field of sports summarization. Based on the internal signals of an attention model that uses event data as input, we proposed a method to analyze the interpretability of our model through a graphical representation of actions where the x-axis of the graph represents the sequence of events, and the y-axis is the weight value learned by the attention layer. This new representation provides a new tool for the editor containing meaningful information to decide whether an action is important. We also proposed the use of keyword spotting and boosting techniques to detect every time a player is mentioned by the commentators as a solution for the missing event data
APA, Harvard, Vancouver, ISO, and other styles
8

Moyse, Gilles. "Résumés linguistiques de données numériques : interprétabilité et périodicité de séries." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066526/document.

Full text
Abstract:
Nos travaux s'inscrivent dans le domaine des résumés linguistiques flous (RLF) qui permettent la génération de phrases en langage naturel, descriptives de données numériques, et offrent ainsi une vision synthétique et compréhensible de grandes masses d'information. Nous nous intéressons d'abord à l'interprétabilité des RLF, capitale pour fournir une vision simplement appréhendable de l'information à un utilisateur humain et complexe du fait de sa formulation linguistique. En plus des travaux existant à ce sujet sur les composants élémentaires des RLF, nous proposons une approche globale de l'interprétabilité des résumés vus comme un ensemble de phrases et nous intéressons plus spécifiquement à la question de leur cohérence. Afin de la garantir dans le cadre de la logique floue standard, nous introduisons une formalisation originale de l'opposition entre phrases de complexité croissante. Ce formalisme nous permet de démontrer que les propriétés de cohérence sont vérifiables par le choix d'un modèle de négation spécifique. D'autre part, nous proposons sur cette base un cube en 4 dimensions mettant en relation toutes les oppositions possibles entre les phrases d'un RLF et montrons que ce cube généralise plusieurs structures d'opposition logiques existantes. Nous considérons ensuite le cas de données sous forme de séries numériques et nous intéressons à des résumés linguistiques portant sur leur périodicité : les phrases que nous proposons indiquent à quel point une série est périodique et proposent une formulation linguistique appropriée de sa période. La méthode d’extraction proposée, nommée DPE pour Detection of Periodic Events, permet de segmenter les données de manière adaptative et sans paramètre utilisateur, en utilisant des outils issus de la morphologie mathématique. Ces segments sont ensuite utilisés pour calculer la période de la série temporelle ainsi que sa périodicité, calculée comme un degré de qualité sur le résultat renvoyé mesurant à quel point la série est périodique. Enfin, DPE génère des phrases comme « Environ toutes les 2 heures, l'afflux de client est important ». Des expériences sur des données artificielles et réelles confirment la pertinence de l'approche. D’un point de vue algorithmique, nous proposons une implémentation incrémentale et efficace de DPE, basée sur l’établissement de formules permettant le calcul de mises à jour des variables. Cette implémentation permet le passage à l'échelle de la méthode ainsi que l'analyse en temps réel de flux de données. Nous proposons également une extension de DPE basée sur le concept de périodicité locale permettant d'identifier les sous-séquences périodiques d'une série temporelle par l’utilisation d’un test statistique original. La méthode, validée sur des données artificielles et réelles, génère des phrases en langage naturel permettant d’extraire des informations du type « Toutes les deux semaines sur le premier semestre de l'année, les ventes sont élevées »
Our research is in the field of fuzzy linguistic summaries (FLS) that allow to generate natural language sentences to describe very large amounts of numerical data, providing concise and intelligible views of these data. We first focus on the interpretability of FLS, crucial to provide end-users with an easily understandable text, but hard to achieve due to its linguistic form. Beyond existing works on that topic, based on the basic components of FLS, we propose a general approach for the interpretability of summaries, considering them globally as groups of sentences. We focus more specifically on their consistency. In order to guarantee it in the framework of standard fuzzy logic, we introduce a new model of oppositions between increasingly complex sentences. The model allows us to show that these consistency properties can be satisfied by selecting a specific negation approach. Moreover, based on this model, we design a 4-dimensional cube displaying all the possible oppositions between sentences in a FLS and show that it generalises several existing logical opposition structures. We then consider the case of data in the form of numerical series and focus on linguistic summaries about their periodicity: the sentences we propose indicate the extent to which the series are periodic and offer an appropriate linguistic expression of their periods. The proposed extraction method, called DPE, standing for Detection of Periodic Events, splits the data in an adaptive manner and without any prior information, using tools from mathematical morphology. The segments are then exploited to compute the period and the periodicity, measuring the quality of the estimation and the extent to which the series is periodic. Lastly, DPE returns descriptive sentences of the form ``Approximately every 2 hours, the customer arrival is important''. Experiments with artificial and real data show the relevance of the proposed DPE method. From an algorithmic point of view, we propose an incremental and efficient implementation of DPE, based on established update formulas. This implementation makes DPE scalable and allows it to process real-time streams of data. We also present an extension of DPE based on the local periodicity concept, allowing the identification of local periodic subsequences in a numerical series, using an original statistical test. The method validated on artificial and real data returns natural language sentences that extract information of the form ``Every two weeks during the first semester of the year, sales are high''
APA, Harvard, Vancouver, ISO, and other styles
9

Moyse, Gilles. "Résumés linguistiques de données numériques : interprétabilité et périodicité de séries." Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066526.

Full text
Abstract:
Nos travaux s'inscrivent dans le domaine des résumés linguistiques flous (RLF) qui permettent la génération de phrases en langage naturel, descriptives de données numériques, et offrent ainsi une vision synthétique et compréhensible de grandes masses d'information. Nous nous intéressons d'abord à l'interprétabilité des RLF, capitale pour fournir une vision simplement appréhendable de l'information à un utilisateur humain et complexe du fait de sa formulation linguistique. En plus des travaux existant à ce sujet sur les composants élémentaires des RLF, nous proposons une approche globale de l'interprétabilité des résumés vus comme un ensemble de phrases et nous intéressons plus spécifiquement à la question de leur cohérence. Afin de la garantir dans le cadre de la logique floue standard, nous introduisons une formalisation originale de l'opposition entre phrases de complexité croissante. Ce formalisme nous permet de démontrer que les propriétés de cohérence sont vérifiables par le choix d'un modèle de négation spécifique. D'autre part, nous proposons sur cette base un cube en 4 dimensions mettant en relation toutes les oppositions possibles entre les phrases d'un RLF et montrons que ce cube généralise plusieurs structures d'opposition logiques existantes. Nous considérons ensuite le cas de données sous forme de séries numériques et nous intéressons à des résumés linguistiques portant sur leur périodicité : les phrases que nous proposons indiquent à quel point une série est périodique et proposent une formulation linguistique appropriée de sa période. La méthode d’extraction proposée, nommée DPE pour Detection of Periodic Events, permet de segmenter les données de manière adaptative et sans paramètre utilisateur, en utilisant des outils issus de la morphologie mathématique. Ces segments sont ensuite utilisés pour calculer la période de la série temporelle ainsi que sa périodicité, calculée comme un degré de qualité sur le résultat renvoyé mesurant à quel point la série est périodique. Enfin, DPE génère des phrases comme « Environ toutes les 2 heures, l'afflux de client est important ». Des expériences sur des données artificielles et réelles confirment la pertinence de l'approche. D’un point de vue algorithmique, nous proposons une implémentation incrémentale et efficace de DPE, basée sur l’établissement de formules permettant le calcul de mises à jour des variables. Cette implémentation permet le passage à l'échelle de la méthode ainsi que l'analyse en temps réel de flux de données. Nous proposons également une extension de DPE basée sur le concept de périodicité locale permettant d'identifier les sous-séquences périodiques d'une série temporelle par l’utilisation d’un test statistique original. La méthode, validée sur des données artificielles et réelles, génère des phrases en langage naturel permettant d’extraire des informations du type « Toutes les deux semaines sur le premier semestre de l'année, les ventes sont élevées »
Our research is in the field of fuzzy linguistic summaries (FLS) that allow to generate natural language sentences to describe very large amounts of numerical data, providing concise and intelligible views of these data. We first focus on the interpretability of FLS, crucial to provide end-users with an easily understandable text, but hard to achieve due to its linguistic form. Beyond existing works on that topic, based on the basic components of FLS, we propose a general approach for the interpretability of summaries, considering them globally as groups of sentences. We focus more specifically on their consistency. In order to guarantee it in the framework of standard fuzzy logic, we introduce a new model of oppositions between increasingly complex sentences. The model allows us to show that these consistency properties can be satisfied by selecting a specific negation approach. Moreover, based on this model, we design a 4-dimensional cube displaying all the possible oppositions between sentences in a FLS and show that it generalises several existing logical opposition structures. We then consider the case of data in the form of numerical series and focus on linguistic summaries about their periodicity: the sentences we propose indicate the extent to which the series are periodic and offer an appropriate linguistic expression of their periods. The proposed extraction method, called DPE, standing for Detection of Periodic Events, splits the data in an adaptive manner and without any prior information, using tools from mathematical morphology. The segments are then exploited to compute the period and the periodicity, measuring the quality of the estimation and the extent to which the series is periodic. Lastly, DPE returns descriptive sentences of the form ``Approximately every 2 hours, the customer arrival is important''. Experiments with artificial and real data show the relevance of the proposed DPE method. From an algorithmic point of view, we propose an incremental and efficient implementation of DPE, based on established update formulas. This implementation makes DPE scalable and allows it to process real-time streams of data. We also present an extension of DPE based on the local periodicity concept, allowing the identification of local periodic subsequences in a numerical series, using an original statistical test. The method validated on artificial and real data returns natural language sentences that extract information of the form ``Every two weeks during the first semester of the year, sales are high''
APA, Harvard, Vancouver, ISO, and other styles
10

Molina, Villegas Alejandro. "Compression automatique de phrases : une étude vers la génération de résumés." Phd thesis, Université d'Avignon, 2013. http://tel.archives-ouvertes.fr/tel-00998924.

Full text
Abstract:
Cette étude présente une nouvelle approche pour la génération automatique de résumés, un des principaux défis du Traitement de la Langue Naturelle. Ce sujet, traité pendant un demi-siècle par la recherche, reste encore actuel car personne n'a encore réussi à créer automatiquement des résumés comparables, en qualité, avec ceux produits par des humains. C'est dans ce contexte que la recherche en résumé automatique s'est divisée en deux grandes catégories : le résumé par extraction et le résumé par abstraction. Dans le premier, les phrases sont triées de façon à ce que les meilleures conforment le résumé final. Or, les phrases sélectionnées pour le résumé portent souvent des informations secondaires, une analyse plus fine s'avère nécessaire.Nous proposons une méthode de compression automatique de phrases basée sur l'élimination des fragments à l'intérieur de celles-ci. À partir d'un corpus annoté, nous avons créé un modèle linéaire pour prédire la suppression de ces fragments en fonction de caractéristiques simples. Notre méthode prend en compte trois principes : celui de la pertinence du contenu, l'informativité ; celui de la qualité du contenu, la grammaticalité, et la longueur, le taux de compression. Pour mesurer l'informativité des fragments,nous utilisons une technique inspirée de la physique statistique : l'énergie textuelle.Quant à la grammaticalité, nous proposons d'utiliser des modèles de langage probabilistes.La méthode proposée est capable de générer des résumés corrects en espagnol.Les résultats de cette étude soulèvent divers aspects intéressants vis-à- vis du résumé de textes par compression de phrases. On a observé qu'en général il y a un haut degré de subjectivité de la tâche. Il n'y a pas de compression optimale unique mais plusieurs compressions correctes possibles. Nous considérons donc que les résultats de cette étude ouvrent la discussion par rapport à la subjectivité de l'informativité et son influence pour le résumé automatique.
APA, Harvard, Vancouver, ISO, and other styles
11

Hébrail, Georges. "Définition de résumés et incertitude dans les grandes bases de données." Paris 11, 1987. http://www.theses.fr/1987PA112223.

Full text
Abstract:
Deux problèmes en apparence distincts sont abordés dans cette étude : la construction de résumés d'une base de données et la modélisation des erreurs contenues dans une base de données. Un modèle permettant de construire des résumés d'une base de données est proposé. Ces résumés sont stockés physiquement dans la base et maintenus à jour automatiquement et à faible coût eu cours de l'évolution du contenu de la base. Ils permettent alors d'interroger la base de données à un niveau synthétique avec un temps de réponse indépendant de la taille de la base. Il est montré que ces résumés trouvent de multiples applications dans le domaine des bases de données interrogation de la base à un niveau synthétique, optimisation des requêtes, confidentialité des données, vérification de contraintes d'intégrité, bases de données distribuées. Un modèle de représentation des erreurs contenues dans une base de données est ensuite proposé. Ce modèle, basé sur une approche probabiliste, permet d'évaluer l'impact des erreurs contenues dans la base sur le résultat es requêtes qui lui sont adressées. Les liens entre ces deux problèmes sont mis en évidence : une même notion est utilisée pour définir les résumés et l'incertitude, et la construction de résumés particuliers est nécessaire pour évaluer l'impact des erreurs sur le résultat d'une requête. L'étude est indépendante du modèle de données utilisé (relationnel, réseau, hiérarchique). Une application des résultats de cette étude dans le cadre du modèle relationnel est cependant présentée. Le domaine privilégié d'application des résultats de cette étude est celui des bases de données contenant un volume important de données
Two apparently different problems are addressed in this study: building summaries of a database and modelling errors contained in a database. A model of summaries of a database is proposed. The summaries are physically stored in the database as redundant data and automatically updated when changes occur in the database. The cost of the summaries update is shown to be low. Lt is then possible to extract synthetic information from the database with a response time which is independent of the size of the database. The multiple applications of summaries in a database are also presented: extraction of synthetic information, query optimisation, data security, check of integrity constraints, distributed databases. A model of representation of errors contained in a database is then proposed. The model, based on a probabilistic approach, leads to a computation of the effect of errors on the result of database queries. The links which exist between these two problems are pointed out: a single concept is used both for the definition of the summaries and for the representation of errors, and particular summaries are required to compute the error associated to a query. The study is independent of the data model (relational, network, hierarchical). The results of the study are nevertheless applied to the relational model. The best area for application of the developped concepts is the area of very large databases
APA, Harvard, Vancouver, ISO, and other styles
12

Godbout, Mathieu. "Approches par bandit pour la génération automatique de résumés de textes." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69488.

Full text
Abstract:
Ce mémoire aborde l'utilisation des méthodes par bandit pour résoudre la problématique de l'entraînement de modèles de générations de résumés extractifs. Les modèles extractifs, qui bâtissent des résumés en sélectionnant des phrases d'un document original, sont difficiles à entraîner car le résumé cible correspondant à un document n'est habituellement pas constitué de manière extractive. C'est à cet effet que l'on propose de voir la production de résumés extractifs comme différents problèmes de bandit, lesquels sont accompagnés d'algorithmes pouvant être utilisés pour l'entraînement. On commence ce document en présentant BanditSum, une approche tirée de la litérature et qui voit la génération des résumés d'un ensemble de documents comme un problème de bandit contextuel. Ensuite, on introduit CombiSum, un nouvel algorithme qui formule la génération du résumé d'un seul document comme un bandit combinatoire. En exploitant la formule combinatoire, CombiSum réussit à incorporer la notion du potentiel extractif de chaque phrase à son entraînement. Enfin, on propose LinCombiSum, la variante linéaire de CombiSum qui exploite les similarités entre les phrases d'un document et emploie plutôt la formulation en bandit linéaire combinatoire.
This thesis discusses the use of bandit methods to solve the problem of training extractive abstract generation models. The extractive models, which build summaries by selecting sentences from an original document, are difficult to train because the target summary of a document is usually not built in an extractive way. It is for this purpose that we propose to see the production of extractive summaries as different bandit problems, for which there exist algorithms that can be leveraged for training summarization models.In this paper, BanditSum is first presented, an approach drawn from the literature that sees the generation of the summaries of a set of documents as a contextual bandit problem. Next,we introduce CombiSum, a new algorithm which formulates the generation of the summary of a single document as a combinatorial bandit. By exploiting the combinatorial formulation,CombiSum manages to incorporate the notion of the extractive potential of each sentence of a document in its training. Finally, we propose LinCombiSum, the linear variant of Com-biSum which exploits the similarities between sentences in a document and uses the linear combinatorial bandit formulation instead
APA, Harvard, Vancouver, ISO, and other styles
13

Bordet, Geneviève. "Étude contrastive de résumés de thèse dans une perspective d'analyse de genre." Phd thesis, Université Paris-Diderot - Paris VII, 2011. http://tel.archives-ouvertes.fr/tel-00650637.

Full text
Abstract:
Si l'approche du genre comme stratégie discursive de communication fait consensus, la manière dont s'articulent, d'une part les critères externes qui régissent les objectifs de cette situation de communication et d'autre part, les choix linguistiques internes qui inscrivent un texte dans un genre donné reste largement à élucider. C'est dans cette perspective que nous proposons une analyse comparative de résumés de thèses dans cinq disciplines, rédigés en anglais par des auteurs anglophones et francophones. L'objectif de cette recherche est de mieux comprendre au niveau d'un texte et d'un corpus dans quelle mesure l'inscription dans un genre assure la réussite de la communication. Considérant la thèse comme une situation initiatique dont l'objectif serait la création d'une voix académique à la fois conforme et innovante, nous nous attachons à comprendre le type de régularités et de corrélations sémantico-syntaxiques qui établissent la légitimité, l'autorité et la cohérence de cette voix. L'environnement du démonstratif this, considéré comme un pivot essentiel de la focalisation fondant la dynamique du texte, a été choisi comme prisme d'observation des corrélations linguistiques qui caractérisent ce genre auto-promotionnel. Comparant plus particulièrement un corpus de sciences des matériaux et de didactique des mathématiques, nous menons une double analyse : au niveau du texte en mettant en évidence des régularités sémantico-lexicales que nous proposons de nommer " chaîne collocationnelle " ; au niveau du corpus à partir d'un relevé et d'une formalisation systématique des facteurs linguistiques qui, autour de notre marqueur this créent l'effet de focalisation et la dynamique discursive. Le croisement de ces deux niveaux d'analyse permet de construire une grille d'analyse des facteurs qui contribuent à la réalisation des objectifs du genre. Nous mettons notamment en évidence la force cohésive des nœuds discursifs que constituent les termes de langue scientifique générale caractéristiques d'une discipline. Cette approche offre des pistes didactiques pour la prise de conscience des règles linguistiques implicites qui régissent l'identité du genre et son efficacité communicationnelle, tout en prenant en compte les caractéristiques qui distinguent réalisations en langue native et en langue seconde.
APA, Harvard, Vancouver, ISO, and other styles
14

Naoum, Lamiaa. "Un modèle multidimensionnel pour un processus d'analyse en ligne de résumés flous." Phd thesis, Université de Nantes, 2006. http://tel.archives-ouvertes.fr/tel-00481046.

Full text
Abstract:
Le travail présenté dans cette thèse traite de l'exploration et de la manipulation des résumés de bases de données de taille significative. Les résumés produits par le système SaintEtiQ sont des vues matérialisées multi-niveaux de classes homogènes de données, présentées sous forme de collections d'étiquettes floues disponibles sur chaque attribut. La contribution de cette thèse repose sur trois points. En premier lieu nous avons défini un modèle de données logique appelé partition de résumés, par analogie avec les cubes de données OLAP, dans le but d'offrir à l'utilisateur final un outil de présentation des données sous forme condensée et adaptée à l'analyse. En second lieu, nous avons défini une collection d'opérateurs algébriques sur l'espace multidimensionnel des partitions de résumés. Ces opérateurs sont à la base d'une algèbre de manipulation des résumés. Cette algèbre prend en compte les spécificités du modèle de résumé que nous traitons. Nous avons adapté la ma jorité des opéra- teurs d'analyse proposés dans les systèmes OLAP. Ainsi, nous avons identifié : les opérateurs de base issus de l'algèbre relationnelle, les opérateurs de changement de granularité et les opérateurs de restructuration. Ces résultats offrent de nouvelles perspectives pour l'exploitation effective des résumés dans un système décisionnel. Finalement, pour compléter ce travail, nous nous sommes intéressés à la représen- tation des résumés et des partitions de résumés linguistiques, notamment pour en fournir une présentation claire et concise à l'utilisateur final. Appliquée à une hiérar- chie de résumés produite par le système SaintEtiQ, l'approche tente de construire des prototypes flous représentant les résumés.
APA, Harvard, Vancouver, ISO, and other styles
15

Zneika, Mussab. "Interrogation du web sémantique à l'aide de résumés de graphes de données." Thesis, Cergy-Pontoise, 2019. http://www.theses.fr/2019CERG1010.

Full text
Abstract:
La quantité de données RDF disponibles augmente rapidement à la fois en taille et en complexité, les Bases de Connaissances (Knowledge Bases – KBs) contenant des millions, voire des milliards de triplets étant aujourd’hui courantes. Plus de 1000 sources de données sont publiées au sein du nuage de Données Ouvertes et Liées (Linked Open Data – LOD), qui contient plus de 62 milliards de triplets, formant des graphes de données RDF complexes et de grande taille. L’explosion de la taille, de la complexité et du nombre de KBs et l’émergence des sources LOD ont rendu difficile l’interrogation, l’exploration, la visualisation et la compréhension des données de ces KBs, à la fois pour les utilisateurs humains et pour les programmes. Pour traiter ce problème, nous proposons une méthode pour résumer de grandes KBs RDF, basée sur la représentation du graphe RDF en utilisant les (meilleurs) top-k motifs approximatifs de graphe RDF. La méthode, appelée SemSum+, extrait l’information utile des KBs RDF et produit une description d’ensemble succincte de ces KBs. Elle extrait un type de schéma RDF ayant divers avantages par rapport aux schémas RDF classiques, qui peuvent être respectés seulement partiellement par les données de la KB. A chaque motif approximatif extrait est associé le nombre d’instances qu’il représente ; ainsi, lors de l’interrogation du graphe RDF résumé, on peut facilement déterminer si l’information nécessaire est présente et en quantité significative pour être incluse dans le résultat d’une requête fédérée. Notre méthode ne demande pas le schéma initial de la KB et marche aussi bien sans information de schéma du tout, ce qui correspond aux KBs modernes, construites soit ad-hoc, soit par fusion de fragments en provenance d’autres KBs. Elle fonctionne aussi bien sur des graphes RDF homogènes (ayant la même structure) ou hétérogènes (ayant des structures différentes, pouvant être le résultat de données décrites par des schémas/ontologies différentes).A cause de la taille et de la complexité des graphes RDF, les méthodes qui calculent le résumé en chargeant tout le graphe en mémoire ne passent pas à l’échelle. Pour éviter ce problème, nous proposons une approche générale parallèle, utilisable par n’importe quel algorithme approximatif de fouille de motifs. Elle nous permet de disposer d’une version parallèle de notre méthode, qui passe à l’échelle et permet de calculer le résumé de n’importe quel graphe RDF, quelle que soit sa taille.Ce travail nous a conduit à la problématique de mesure de la qualité des résumés produits. Comme il existe dans la littérature divers algorithmes pour résumer des graphes RDF, il est nécessaire de comprendre lequel est plus approprié pour une tâche spécifique ou pour une KB RDF spécifique. Il n’existe pas dans la littérature de critères d’évaluation établis ou des évaluations empiriques extensives, il est donc nécessaire de disposer d’une méthode pour comparer et évaluer la qualité des résumés produits. Dans cette thèse, nous définissons une approche complète d’évaluation de la qualité des résumés de graphes RDF, pour répondre à ce manque dans l’état de l’art. Cette approche permet une compréhension plus profonde et plus complète de la qualité des différents résumés et facilite leur comparaison. Elle est indépendante de la façon dont l’algorithme produisant le résumé RDF fonctionne et ne fait pas de suppositions concernant le type ou la structure des entrées ou des résultats. Nous proposons un ensemble de métriques qui aident à comprendre non seulement si le résumé est valide, mais aussi comment il se compare à d’autre résumés par rapport aux caractéristiques de qualité spécifiées. Notre approche est capable (ce qui a été validé expérimentalement) de mettre en évidence des différences très fines entre résumés et de produire des métriques capables de mesurer cette différence. Elle a été utilisée pour produire une évaluation expérimentale approfondie et comparative de notre méthode
The amount of RDF data available increases fast both in size and complexity, making available RDF Knowledge Bases (KBs) with millions or even billions of triples something usual, e.g. more than 1000 datasets are now published as part of the Linked Open Data (LOD) cloud, which contains more than 62 billion RDF triples, forming big and complex RDF data graphs. This explosion of size, complexity and number of available RDF Knowledge Bases (KBs) and the emergence of Linked Datasets made querying, exploring, visualizing, and understanding the data in these KBs difficult both from a human (when trying to visualize) and a machine (when trying to query or compute) perspective. To tackle this problem, we propose a method of summarizing a large RDF KBs based on representing the RDF graph using the (best) top-k approximate RDF graph patterns. The method is named SemSum+ and extracts the meaningful/descriptive information from RDF Knowledge Bases and produces a succinct overview of these RDF KBs. It extracts from the RDF graph, an RDF schema that describes the actual contents of the KB, something that has various advantages even compared to an existing schema, which might be partially used by the data in the KB. While computing the approximate RDF graph patterns, we also add information on the number of instances each of the patterns represents. So, when we query the RDF summary graph, we can easily identify whether the necessary information is present and if it is present in significant numbers whether to be included in a federated query result. The method we propose does not require the presence of the initial schema of the KB and works equally well when there is no schema information at all (something realistic with modern KBs that are constructed either ad-hoc or by merging fragments of other existing KBs). Additionally, the proposed method works equally well with homogeneous (having the same structure) and heterogeneous (having different structure, possibly the result of data described under different schemas/ontologies) RDF graphs.Given that RDF graphs can be large and complex, methods that need to compute the summary by fitting the whole graph in the memory of a (however large) machine will not scale. In order to overcome this problem, we proposed, as part of this thesis, a parallel framework that allows us to have a scalable parallel version of our proposed method. This will allow us to compute the summaries of any RDF graph regardless of size. Actually, we generalized this framework so as to be usable by any approximate pattern mining algorithm that needs parallelization.But working on this problem, introduced us to the issue of measuring the quality of the produced summaries. Given that in the literature exist various algorithms that can be used to summarize RDF graphs, we need to understand which one is better suited for a specific task or a specific RDF KB. In the literature, there is a lack of widely accepted evaluation criteria or an extensive empirical evaluation. This leads to the necessity of a method to compare and evaluate the quality of the produced summaries. So, in this thesis, we provide a comprehensive Quality Framework for RDF Graph Summarization to cover the gap that exists in the literature. This framework allows a better, deeper and more complete understanding of the quality of the different summaries and facilitates their comparison. It is independent of the way RDF summarization algorithms work and makes no assumptions on the type or structure neither of the input nor of the final results. We provide a set of metrics that help us understand not only if this is a valid summary but also how a summary compares to another in terms of the specified quality characteristic(s). The framework has the ability, which was experimentally validated, to capture subtle differences among summaries and produce metrics that depict that and was used to provide an extensive experimental evaluation and comparison of our method
APA, Harvard, Vancouver, ISO, and other styles
16

Naoum, Lamiaa. "Un modèle multidimensionnel pour un processus d'analyse en ligne de résumés flous." Nantes, 2006. http://www.theses.fr/2006NANT2101.

Full text
APA, Harvard, Vancouver, ISO, and other styles
17

Cicchetti, Rosine. "Contribution à la modélisation des résumés dans les bases de données statistiques." Nice, 1990. http://www.theses.fr/1990NICE4394.

Full text
Abstract:
Cette thèse est consacrée aux problèmes de la modélisation des résumés dans les bases de données statistiques. Il est reconnu qu'une des fonctionnalités essentielles des systèmes de gestion de bases de données statistiques est la création et la manipulation des résumés statistiques calculés à partir des données détaillées mais aussi principalement à partir d'autres résumés. Nous décrivons formellement un modèle de résumés statistiques basés sur une structure de données multi-dimensionnelle, appelée table statistique complexe (TSC), dotée d'un ensemble d'opérateurs de manipulation. Cette structure naturelle, compacte et extensible de résumés à sémantique arbitrairement complexe. Après une identification des besoins de manipulation spécifiques des statisticiens, nous proposons une classification générique des opérateurs définis, qui englobe des possibilités de composition-décomposition, de transposition, de dérivation et d'affinement-élargissement. Les premières permettent la création de résumés à sémantique de plus en plus complexe ou au contraire de plus en plus simple. À travers les transpositions, des réorganisations dynamiques de la structure sont permises ; quant aux dérivations, elles offrent, à partir des résumés existants, des possibilités de création de nouveaux résumés par agrégation ou par calcul. L’interrogation des résumés peut être effectuée par le biais des opérateurs d'affinement et d'élargissement. L’ensemble de ces operateurs formellement définis et munis de leurs propriétés intrinsèques et de coopération constitue une première tentative de définition d'une algèbre de résumés à sémantique complexe
APA, Harvard, Vancouver, ISO, and other styles
18

Castillo, Reitz Maria. "Etude d'un système d'extraction et présentation de résumés pour les bases de données." Montpellier 2, 1994. http://www.theses.fr/1994MON20277.

Full text
Abstract:
Ce travail traite de la creation et la representation de resumes d'information issues d'une base de donnees. Deux etapes cles sont particulierement examinees: la premiere concerne l'extraction proprement dite d'un resume qui resulte en general d'un processus d'agregation de donnees brutes. La seconde releve de la presentation de l'information resumee, i. E. Sa mise en forme. Nous avons developpe une application appelee ove (observatoire de la vie etudiante) exploitee par la cellule d'information de l'universite de montpellier ii pour repondre aux demandes du ministere de l'education nationale. Un de ses objectifs est la definition d'un langage qui puisse definir et representer aisement des donnees resumees selon une forme multidimensionnelle ou graphique. Un modele du systeme ove a ete elabore ; il definit la notion de resume et caracterise precisement les operations realisees par l'application. Ce modele se base sur une approche fonctionnelle typee d'un modele relationnel etendu, notamment par une operation d'agregation par filtrage ou les relations a attributs calcules
APA, Harvard, Vancouver, ISO, and other styles
19

Lopez, Guillen Karla Ivon. "Contributions aux résumés visuels des bases de données géographiques basés sur les chorèmes." Lyon, INSA, 2010. http://www.theses.fr/2010ISAL0055.

Full text
Abstract:
En traitant des situations complexes, comme dans les domaines politiques, économiques et démographiques, l’utilisation de métaphores visuelles représente une approche très efficace pour aider les utilisateurs à découvrir des relations et des connaissances nouvelles. La cartographie traditionnelle est un outil essentiel pour décrire les faits et les relations concernant le territoire. Les concepts géographiques sont associés aux symboles graphiques qui aident les lecteurs à obtenir une compréhension immédiate des données représentées. A partir d’une base de données géographiques, il est courant d’extraire de multiples cartes (restitution cartographique de l’ensemble des données). Ma thèse se situe dans un projet de recherche international dont l’objectif est d’étudier une solution cartographique innovante capable de représenter à la fois l’existant, la dynamique, le mouvement et les changements de manière à extraire des résumés visuels synthétiques de bases de données géographiques. La solution proposée est basée sur le concept de chorème de Brunet défini comme une schématisation d’un territoire. Cet outil méthodologique représente une synthèse immédiate des données pertinentes et donne aux utilisateurs experts un aperçu global des objets et des phénomènes. Basé sur des études préliminaires, en premier lieu, nous fournissons une définition formelle et la classification des chorèmes en termes de structure et de sens, afin d’uniformiser à la fois la construction et l’utilisation de ces chorèmes. Puis une phase de fouille de données est lancée afin d’extraire les patterns les plus significatifs, lesquels seront la base des chorèmes. Ensuite, un système permettant de générer des cartes chorèmatiques à partir d’ensembles de données disponibles est décrit et un langage dérivé du XML, appelé ChorML spécifié, permettant la communication entre les modules du système (fouille de données pour extraire les chorèmes, visualisation des chorèmes)
[When dealing with complex situations, as in political, economic and demographic trends, use of visual metaphors ls a very effective approach to help users discover relationships and new knowledge. The traditional cartography is an essential tool to describe the facts and relations in the territory. The geographic concepts are associated with graphic symbols that help readers get an immediate understanding of the data represented. From a geographic database, il is common to extract multiple maps (cartographic restitution of ali data). My thesis ls an international research project whose objective ls to study an innovative mapping solution thal can represent both the existing situation, dynamics, movement and change in order to extract visual resumes synthetic of geographic data bases. The proposed solution is based on the concept of chorem defined by Brunet as a mapping of a territory. This represents a methodological tool instant snapshot of relevant information and gives expert users an overview of objects and phenomena. Based on preliminary, first, we provide a formal definition and classification of chorems in terms of structure and meaning to standardize both the construction and use of these chorems. Then a phase of data mining is launched to extract the most significant patterns, which will be the basis of chorems. Then, a system to general chorématique maps from available data sets is described and an XML-based language, called ChorML specified, allowing communication between the modules of the system (data mining to extract chorems, visualization of chorems Level 0 of the language corresponds to the content of the database by GML standard, then the level1 is the one who will describe the patterns extracted and chorems, and finally level 2 ls the visualisation by the SVG standard. In addition, Level integrals information such as external information (eg, names of seas and surrounding countries) and topological constraints to meet in the display: eg. ]
APA, Harvard, Vancouver, ISO, and other styles
20

Ndiaye, Marie. "Exploration de grands ensembles de motifs." Thesis, Tours, 2010. http://www.theses.fr/2010TOUR4029/document.

Full text
Abstract:
L'abondance des motifs générés par les algorithmes d'extraction de connaissances représente un grand problème dans le domaine de fouille de données. Afin de faciliter l'exploration de ces motifs,deux approches sont souvent utilisées : la première consiste à résumer les ensembles de motifs extraits et la seconde approche repose sur la construction de représentations visuelles de ces motifs. Cependant, les résumés ne sont pas structurés et ils sont proposés sans méthode d'exploration. D'autre part, les représentations visuelles n'offrent pas une vue globale des ensembles de motifs. Nous définissons un cadre générique qui combine les avantages des ces deux approches.Il permet de construire des résumés d'ensembles de motifs à plusieurs niveaux de détail. Ces résumés donnent une vue globale des ensembles de motifs. De plus, ils sont structurés sous forme de cubes sur lesquels des opérateurs de navigation OLAP peuvent être appliqués pour explorer les ensembles de motifs. Par ailleurs, nous proposons un algorithme qui fournit un résumé de bonne qualité dont la taille est inférieure à un seuil donné. Enfin, nous instancions notre cadre avec les règles d'association
The abundance of patterns generated by knowledge extraction algorithms is a major problem in data mining. Ta facilitate the exploration of these patterns, two approaches are often used: the first is to summarize the sets of extracted patterns and the second approach relies on the construction of visual representations of the patterns. However, the summaries are not structured and they are proposed without exploration method. Furthermore, visualizations do not provide an overview of the pattern .sets. We define a generic framework that combines the advantages of bath approaches. It allows building summaries of patterns sets at different levels of detail. These summaries provide an overview of the pattern sets and they are structured in the form of cubes on which OLAP navigational operators can be applied in order to explore the pattern sets. Moreover, we propose an algorithm which provides a summary of good quality whose size is below a given threshold. Finally, we instantiate our framework with association rules
APA, Harvard, Vancouver, ISO, and other styles
21

Ngom, Bassirou. "FreeCore : un système d'indexation de résumés de document sur une Table de Hachage Distribuée (DHT)." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS180/document.

Full text
Abstract:
Cette thèse étudie la problématique de l’indexation et de la recherche dans les tables de hachage distribuées –Distributed Hash Table (DHT). Elle propose un système de stockage distribué des résumés de documents en se basant sur leur contenu. Concrètement, la thèse utilise les Filtre de Blooms (FBs) pour représenter les résumés de documents et propose une méthode efficace d’insertion et de récupération des documents représentés par des FBs dans un index distribué sur une DHT. Le stockage basé sur contenu présente un double avantage, il permet de regrouper les documents similaires afin de les retrouver plus rapidement et en même temps, il permet de retrouver les documents en faisant des recherches par mots-clés en utilisant un FB. Cependant, la résolution d’une requête par mots-clés représentée par un filtre de Bloom constitue une opération complexe, il faut un mécanisme de localisation des filtres de Bloom de la descendance qui représentent des documents stockés dans la DHT. Ainsi, la thèse propose dans un deuxième temps, deux index de filtres de Bloom distribués sur des DHTs. Le premier système d’index proposé combine les principes d’indexation basée sur contenu et de listes inversées et répond à la problématique liée à la grande quantité de données stockée au niveau des index basés sur contenu. En effet, avec l’utilisation des filtres de Bloom de grande longueur, notre solution permet de stocker les documents sur un plus grand nombre de serveurs et de les indexer en utilisant moins d’espace. Ensuite, la thèse propose un deuxième système d’index qui supporte efficacement le traitement des requêtes de sur-ensembles (des requêtes par mots-clés) en utilisant un arbre de préfixes. Cette dernière solution exploite la distribution des données et propose une fonction de répartition paramétrable permettant d’indexer les documents avec un arbre binaire équilibré. De cette manière, les documents sont répartis efficacement sur les serveurs d’indexation. En outre, la thèse propose dans la troisième solution, une méthode efficace de localisation des documents contenant un ensemble de mots-clés donnés. Comparé aux solutions de même catégorie, cette dernière solution permet d’effectuer des recherches de sur-ensembles en un moindre coût et constitue est une base solide pour la recherche de sur-ensembles sur les systèmes d’index construits au-dessus des DHTs. Enfin, la thèse propose le prototype d’un système pair-à-pair pour l’indexation de contenus et la recherche par mots-clés. Ce prototype, prêt à être déployé dans un environnement réel, est expérimenté dans l’environnement de simulation peersim qui a permis de mesurer les performances théoriques des algorithmes développés tout au long de la thèse
This thesis examines the problem of indexing and searching in Distributed Hash Table (DHT). It provides a distributed system for storing document summaries based on their content. Concretely, the thesis uses Bloom filters (BF) to represent document summaries and proposes an efficient method for inserting and retrieving documents represented by BFs in an index distributed on a DHT. Content-based storage has a dual advantage. It allows to group similar documents together and to find and retrieve them more quickly at the same by using Bloom filters for keywords searches. However, processing a keyword query represented by a Bloom filter is a difficult operation and requires a mechanism to locate the Bloom filters that represent documents stored in the DHT. Thus, the thesis proposes in a second time, two Bloom filters indexes schemes distributed on DHT. The first proposed index system combines the principles of content-based indexing and inverted lists and addresses the issue of the large amount of data stored by content-based indexes. Indeed, by using Bloom filters with long length, this solution allows to store documents on a large number of servers and to index them using less space. Next, the thesis proposes a second index system that efficiently supports superset queries processing (keywords-queries) using a prefix tree. This solution exploits the distribution of the data and proposes a configurable distribution function that allow to index documents with a balanced binary tree. In this way, documents are distributed efficiently on indexing servers. In addition, the thesis proposes in the third solution, an efficient method for locating documents containing a set of keywords. Compared to solutions of the same category, the latter solution makes it possible to perform subset searches at a lower cost and can be considered as a solid foundation for supersets queries processing on over-dht index systems. Finally, the thesis proposes a prototype of a peer-to-peer system for indexing content and searching by keywords. This prototype, ready to be deployed in a real environment, is experimented with peersim that allowed to measure the theoretical performances of the algorithms developed throughout the thesis
APA, Harvard, Vancouver, ISO, and other styles
22

Ngom, Bassirou. "FreeCore : un système d'indexation de résumés de document sur une Table de Hachage Distribuée (DHT)." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS180.

Full text
Abstract:
Cette thèse étudie la problématique de l’indexation et de la recherche dans les tables de hachage distribuées –Distributed Hash Table (DHT). Elle propose un système de stockage distribué des résumés de documents en se basant sur leur contenu. Concrètement, la thèse utilise les Filtre de Blooms (FBs) pour représenter les résumés de documents et propose une méthode efficace d’insertion et de récupération des documents représentés par des FBs dans un index distribué sur une DHT. Le stockage basé sur contenu présente un double avantage, il permet de regrouper les documents similaires afin de les retrouver plus rapidement et en même temps, il permet de retrouver les documents en faisant des recherches par mots-clés en utilisant un FB. Cependant, la résolution d’une requête par mots-clés représentée par un filtre de Bloom constitue une opération complexe, il faut un mécanisme de localisation des filtres de Bloom de la descendance qui représentent des documents stockés dans la DHT. Ainsi, la thèse propose dans un deuxième temps, deux index de filtres de Bloom distribués sur des DHTs. Le premier système d’index proposé combine les principes d’indexation basée sur contenu et de listes inversées et répond à la problématique liée à la grande quantité de données stockée au niveau des index basés sur contenu. En effet, avec l’utilisation des filtres de Bloom de grande longueur, notre solution permet de stocker les documents sur un plus grand nombre de serveurs et de les indexer en utilisant moins d’espace. Ensuite, la thèse propose un deuxième système d’index qui supporte efficacement le traitement des requêtes de sur-ensembles (des requêtes par mots-clés) en utilisant un arbre de préfixes. Cette dernière solution exploite la distribution des données et propose une fonction de répartition paramétrable permettant d’indexer les documents avec un arbre binaire équilibré. De cette manière, les documents sont répartis efficacement sur les serveurs d’indexation. En outre, la thèse propose dans la troisième solution, une méthode efficace de localisation des documents contenant un ensemble de mots-clés donnés. Comparé aux solutions de même catégorie, cette dernière solution permet d’effectuer des recherches de sur-ensembles en un moindre coût et constitue est une base solide pour la recherche de sur-ensembles sur les systèmes d’index construits au-dessus des DHTs. Enfin, la thèse propose le prototype d’un système pair-à-pair pour l’indexation de contenus et la recherche par mots-clés. Ce prototype, prêt à être déployé dans un environnement réel, est expérimenté dans l’environnement de simulation peersim qui a permis de mesurer les performances théoriques des algorithmes développés tout au long de la thèse
This thesis examines the problem of indexing and searching in Distributed Hash Table (DHT). It provides a distributed system for storing document summaries based on their content. Concretely, the thesis uses Bloom filters (BF) to represent document summaries and proposes an efficient method for inserting and retrieving documents represented by BFs in an index distributed on a DHT. Content-based storage has a dual advantage. It allows to group similar documents together and to find and retrieve them more quickly at the same by using Bloom filters for keywords searches. However, processing a keyword query represented by a Bloom filter is a difficult operation and requires a mechanism to locate the Bloom filters that represent documents stored in the DHT. Thus, the thesis proposes in a second time, two Bloom filters indexes schemes distributed on DHT. The first proposed index system combines the principles of content-based indexing and inverted lists and addresses the issue of the large amount of data stored by content-based indexes. Indeed, by using Bloom filters with long length, this solution allows to store documents on a large number of servers and to index them using less space. Next, the thesis proposes a second index system that efficiently supports superset queries processing (keywords-queries) using a prefix tree. This solution exploits the distribution of the data and proposes a configurable distribution function that allow to index documents with a balanced binary tree. In this way, documents are distributed efficiently on indexing servers. In addition, the thesis proposes in the third solution, an efficient method for locating documents containing a set of keywords. Compared to solutions of the same category, the latter solution makes it possible to perform subset searches at a lower cost and can be considered as a solid foundation for supersets queries processing on over-dht index systems. Finally, the thesis proposes a prototype of a peer-to-peer system for indexing content and searching by keywords. This prototype, ready to be deployed in a real environment, is experimented with peersim that allowed to measure the theoretical performances of the algorithms developed throughout the thesis
APA, Harvard, Vancouver, ISO, and other styles
23

Bernié, Jean-Paul. "Approche semiologique et pragmatique du texte d'idees. Prealable linguistique a la didactique du resume." Toulouse 2, 1991. http://www.theses.fr/1991TOU20029.

Full text
Abstract:
La nature de l'activite resumante exigeant une modelisation systematique, et non analytique, du texte, la didactique doit interroger la capacite des sciences du langage a fournir un ensemble d'instruments adequats a cette fin, et coherents entre eux. Denomination prototypique du texte a resumer, le "texte d'idees", eclaire conjointement par la semiologie du raisonnement non-formel, la pragmatique et la semiootique narrative, revele, sous des apparences peu structurees, une logique de "construction d'objets", dont le developpement lineaire par "denivellations" repose sur une opposition fondamentale entre pregnances antagonistes incarnee dans un jeu conflictuel d'actants abstraits. Cette analyse peut permettre d'esquisser un rapprochement: entre les etapes du raisonnement non-formel et celles de toute transformation narrative, entre l'approche cognitive et l'approche pragmatique des articulations qui lient ces etapes entre la structure semantique profonde fondant la coherence du texte et le systeme de principes argumentatifs ("topo") qui gere son deroulement. Cet eclairage multidirectionnel peut ouvrir a la linguistique du texte une voie par ou decrire comme totalite des formes de narrativite propres au "texte d'idees". Que certaines typologies dissocient. Il pourra peut-etre permettre a la didactique de concilier les contraires: procedures d'apprentissage et representation globale du sens.
APA, Harvard, Vancouver, ISO, and other styles
24

Raschia, Guillaume. "SaintEtiq : une approche floue pour la génération de résumés à partir de bases de données relationnelles." Nantes, 2001. http://www.theses.fr/2001NANT2099.

Full text
Abstract:
Le travail présenté dans cette thèse s'inscrit dans une double orientation de recherche dont les objectifs sont d'une part la synthèse de données volumineuses, et d'autre part la mise en oeuvre de techniques floues à différents niveaux du processus de résumé. La théorie des ensembles flous (Zadeh, 1965) propose un cadre formel solide pour la représentation des informations imparfaites, notamment par le biais de l'extension possibiliste du modèle relationnel des bases de données. L'intégration de mécanismes issus de la théorie des ensembles flous dans le processus de génération de résumés permet aussi de nuancer les raisonnements, apportant souplesse et robustesse au système. Par ailleurs, le modèle SaintEtiQ détaillé dans cette thèse met en oeuvre un algorithme d'apprentissage de concepts qui génère de façon incrémentale une hiérarchie de résumés partiellement ordonné du plus générique aux plus spécifiques, et individuellement représentatifs d'une partie des données de la base. . .
APA, Harvard, Vancouver, ISO, and other styles
25

Chaar, Nouira Sana-Leila. "Filtrage d'information pour la construction de résumés multi-documents guidée par le profil utilisateur : le système REDUIT." Université de Marne-la-Vallée, 2004. http://www.theses.fr/2004MARN0223.

Full text
Abstract:
Dans ce travail, nous allons présenter une méthode qui vise à donner à un utilisateur la possibilité de parcourir rapidement un ensemble de documents selon un point de vue particulier. Plus précisément, nous avons développé une méthode qui prend en compte l’hétérogénéité thématique des centres d’intérêts pouvant être définis par un utilisateur pour produire un résumé multi-document spécifique de ses besoins. Les centres d’intérêt de l’utilisateur sont représentés par le biais d’un profil. La structuration des profils que nous avons définie est de nature thématique : un profil est un ensemble de termes structuré en sous-ensembles thématiquement homogènes. Chacun de ces sousensembles représente un sous-thème du profil. Le résumé des documents se fonde pour sa part sur l’extraction des passages les plus étroitement en relation avec ce profil. La première étape de cette extraction est un filtrage permettant de sélectionner les documents en relation avec le profil de l’utilisateur. Puis une analyse permet de délimiter au sein de chaque document les blocs de texte thématiquement homogènes, c’est-à-dire les unités de base du processus d’extraction. Cette analyse est suivie d’une étape d’appariement entre les unités délimitées et les sous-thèmes du profil considéré. Lorsque cet appariement laisse apparaître une compatibilité globale entre le profil et le document, une analyse supplémentaire est menée afin d’élargir le vocabulaire définissant chaque sous-thème du profil en y intégrant les termes du document liés à ce sous-thème mais ne figurant pas dans le profil. Cette capacité ouvre la voie à une plus grande finesse du filtrage en permettant la sélection de passages de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d’apporter des informations nouvelles et donc intéressantes, ce qui présente un intérêt particulier pour des applications de veille technologique par exemple. Enfin, une méthode de fusion permet de combiner les passages sélectionnés afin de construire un texte regroupant les informations les plus pertinentes pour l’utilisateur. L’intérêt de notre approche a été illustré au travers du système REDUIT qui a fait l’objet d’une évaluation montrant que la prise en compte explicite de l’hétérogénéité thématique des profils permet d’améliorer les résultats des processus intervenant aux différents niveaux de construction d’un résumé multi-document
In this work, we present an information filtering method that selects from a set of documents their most significant excerpts in relation to an user profile. We developed a method which takes into account the topical heterogeneity of the information needs of an user to produce a multi-document summary that is specific of its requirements. The information needs of an user are represented by an user profile that is structured from a topical viewpoint. More precisely, we chose to structure user profiles according to a topical criterion: a profile is a set of terms that are grouped into topically homogeneous subsets. Each of these subsets represents a sub-topic of the profile. The summarizing of documents is based on the extraction of segments that are the most likely to match with the profile. The first step of this extraction is the filtering document step. The input documents are pre-processed, both for selecting and normalizing their content words and segmenting them into topically coherent segments. The filtering is based on the matching of the profile and the topical segments of documents. The result of this matching is first used for discarding the documents without any relation with the profile and then, for selecting the excerpts in relation with the profile. This selection step is also based on the detection of the vocabulary of segments that is closely linked to the profile. When a global compatibility between the profile and the document is found, an additional topical analysis is performed to expand the vocabulary defining each sub-topic of the profile and to add to it the terms of the document that are linked to this sub-topic but that are not already present in the profile. This expansion is a way for selecting in a more reliable way excerpts that are linked to profiles but also for selecting excerpts that may bring new and interesting information about their topics. The third step performs information fusion by detecting and removing redundancies among the selected segments. This operation is first achieved among the segments of a document and then, among the segments coming from all the selected documents. Finally, the fourth step is turned toward users: the selected segments are ranked according to their significance, both from the viewpoint of the profile and the viewpoint of documents, and they are pruned for limiting the amount of text to read. This method was implemented by the REDUIT system, whose the evaluation showed that taking into account the topical heterogeneity of profiles can improve the results of the processes at the different steps of the building the a multi-document summary
APA, Harvard, Vancouver, ISO, and other styles
26

Voglozin, W. Amenel. "Le résumé linguistique de données structurées comme support pour l'interrogation." Phd thesis, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00481049.

Full text
Abstract:
Le travail présenté dans cette thèse traite de l'utilisation des résumés de données dans l'in- terrogation. Dans le contexte des résumés linguistiques du modèle SaintEtiQ sur lequel se focalise cette thèse, un résumé est une description du contenu d'une table relationnelle. Grâce à la définition de variables linguistiques, il est possible d'utiliser des termes du langage pour caractériser les données structurées de la table. En outre, l'organisation des résumés en hié- rarchie offre divers niveaux de granularité. Nous nous intéressons à fournir une application concrète aux résumés déjà construits. D'une part, nous étudions les possibilités d'utilisation des résumés dans une interrogation à but descriptif. L'objectif est de décrire entièrement des données dont certaines caractéristiques sont connues. Nous proposons une démarche de re- cherche de concepts et une instanciation de cette démarche. Ensuite, une étude des systèmes d'interrogation flexible, dont certains ont, ainsi que SaintEtiQ, la théorie des sous-ensembles flous comme base, nous permet d'enrichir la démarche proposée par des fonctionnalités plus avancées. D'autre part, nous avons intégré les résumés linguistiques de SaintEtiQ au SGBD PostgreSQL. L'objectif est d'aider le SGBD à identifier des enregistrements. Nous présen- tons un état de l'art des techniques d'indexation, ainsi que le détail de l'implémentation des résumés en tant que méthode d'accès dans PostgreSQL.
APA, Harvard, Vancouver, ISO, and other styles
27

Palvadeau, Sophie. "Approche contrastive de la rédaction scientifique - Les consignes éditoriales et les résumés de revues japonaises et françaises de chimie." Phd thesis, Ecole des Hautes Etudes en Sciences Sociales (EHESS), 2006. http://tel.archives-ouvertes.fr/tel-00816797.

Full text
Abstract:
Cette étude propose une analyse contrastive de la rédaction scientifique du japonais et du français. Sa première partie examine les différentes approches qui visent à caractériser l'écrit scientifique et à comparer des textes de différentes langues. Sa seconde partie analyse les consignes des revues scientifiques en quête d'indicateurs de normes ou d'usages rédactionnels qui reposeraient sur des traits caractéristiques de la langue, du domaine de la chimie et sur les choix des revues. La troisième partie étudie les résumés d'articles de chimie japonais et français. Ses trois chapitres reflètent la structure informative du résumé : le bloc introductif, le bloc méthodologie-résultats et le bloc bilan-discussion. Parmi les caractérisations réalisées, la mesure des " densités informatives " centrée sur la forme donnée à l'écrit témoigne d'une approche contrastive visant à décrire les choix rédactionnels des auteurs en marge de la nature spécifique de leur démarche expérimentale.
APA, Harvard, Vancouver, ISO, and other styles
28

Motta, Jesus Antonio. "VENCE : un modèle performant d'extraction de résumés basé sur une approche d'apprentissage automatique renforcée par de la connaissance ontologique." Doctoral thesis, Université Laval, 2014. http://hdl.handle.net/20.500.11794/26076.

Full text
Abstract:
De nombreuses méthodes et techniques d’intelligence artificielle pour l’extraction d'information, la reconnaissance des formes et l’exploration de données sont utilisées pour extraire des résumés automatiquement. En particulier, de nouveaux modèles d'apprentissage automatique semi supervisé avec ajout de connaissance ontologique permettent de choisir des phrases d’un corpus en fonction de leur contenu d'information. Le corpus est considéré comme un ensemble de phrases sur lequel des méthodes d'optimisation sont appliquées pour identifier les attributs les plus importants. Ceux-ci formeront l’ensemble d’entrainement, à partir duquel un algorithme d’apprentissage pourra abduire une fonction de classification capable de discriminer les phrases de nouveaux corpus en fonction de leur contenu d’information. Actuellement, même si les résultats sont intéressants, l’efficacité des modèles basés sur cette approche est encore faible notamment en ce qui concerne le pouvoir discriminant des fonctions de classification. Dans cette thèse, un nouveau modèle basé sur l’apprentissage automatique est proposé et dont l’efficacité est améliorée par un ajout de connaissance ontologique à l’ensemble d’entrainement. L’originalité de ce modèle est décrite à travers trois articles de revues. Le premier article a pour but de montrer comment des techniques linéaires peuvent être appliquées de manière originale pour optimiser un espace de travail dans le contexte du résumé extractif. Le deuxième article explique comment insérer de la connaissance ontologique pour améliorer considérablement la performance des fonctions de classification. Cette insertion se fait par l’ajout, à l'ensemble d’entraînement, de chaines lexicales extraites de bases de connaissances ontologiques. Le troisième article décrit VENCE , le nouveau modèle d’apprentissage automatique permettant d’extraire les phrases les plus porteuses d’information en vue de produire des résumés. Une évaluation des performances de VENCE a été réalisée en comparant les résultats obtenus avec ceux produits par des logiciels actuels commerciaux et publics, ainsi que ceux publiés dans des articles scientifiques très récents. L’utilisation des métriques habituelles de rappel, précision et F_measure ainsi que l’outil ROUGE a permis de constater la supériorité de VENCE. Ce modèle pourrait être profitable pour d’autres contextes d’extraction d’information comme pour définir des modèles d’analyse de sentiments.
Several methods and techniques of artificial intelligence for information extraction, pattern recognition and data mining are used for extraction of summaries. More particularly, new machine learning models with the introduction of ontological knowledge allow the extraction of the sentences containing the greatest amount of information from a corpus. This corpus is considered as a set of sentences on which different optimization methods are applied to identify the most important attributes. They will provide a training set from which a machine learning algorithm will can abduce a classification function able to discriminate the sentences of new corpus according their information content. Currently, even though the results are interesting, the effectiveness of models based on this approach is still low, especially in the discriminating power of classification functions. In this thesis, a new model based on this approach is proposed and its effectiveness is improved by inserting ontological knowledge to the training set. The originality of this model is described through three papers. The first paper aims to show how linear techniques could be applied in an original way to optimize workspace in the context of extractive summary. The second article explains how to insert ontological knowledge to significantly improve the performance of classification functions. This introduction is performed by inserting lexical chains of ontological knowledge based in the training set. The third article describes VENCE , the new machine learning model to extract sentences with the most information content in order to produce summaries. An assessment of the VENCE performance is achieved comparing the results with those produced by current commercial and public software as well as those published in very recent scientific articles. The use of usual metrics recall, precision and F_measure and the ROUGE toolkit showed the superiority of VENCE. This model could benefit other contexts of information extraction as for instance to define models for sentiment analysis.
APA, Harvard, Vancouver, ISO, and other styles
29

Veilex, Florence. "Approche expérimentale des processus humains de compréhension en vue d'une indexation automatique des résumés scientifiques : application à un corpus de géologie." Grenoble 2, 1985. http://www.theses.fr/1985GRE2A005.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Hayek, Rabab. "Techniques de localisation et de résumé des données dans les systèmes P2P." Phd thesis, Université de Nantes, 2009. http://tel.archives-ouvertes.fr/tel-00475913.

Full text
Abstract:
Le but de cette thèse est de contribuer au développement des techniques de localisation et de description de données dans des environnements P2P. Au niveau de la couche application, nous nous concentrons sur l'exploitatoin des sémantiques qui peuvent être capturées à partir des données partagées. Ces sémantiques peuvent améliorer l'efficacité de recherche, ainsi que permettre des requêtes complexes. A cet effet, nous présentons une technique originale d'indexation de données dans les systèmes P2P qui se base sur les résumés linguistiques. Nos résumés sont des vues synthétiques et multidimensionnelles qui supportent la localisation des données pertinentes en se basant sur leur contenu. Plus intéressant, ils fournissent des représentations intelligibles de données, qui peuvent renvoyer des réponses approximatives à des requêtes d'utilisateur. Au niveau de la couche réseau P2P, nous nous concentrons sur l'exploitation des caractéristiques de la topologie, à savoir les caractéristiques de leur regroupement (clustering). Des informations sur le clustering du réseau P2P peuvent être utilisées pour réduire le trafic de réseau produit par le mécanisme de flooding. Ceci permet d'améliorer l'exécution des systèmes P2P, indépendamment de l'emploi des index de données à la couche application, puisque le mécanisme de flooding représente toujours un bloc constitutif fondamental des systèmes non structurés P2P. Dans cette thèse, nous présentons un bref état de l'art sur les systèmes P2P de partage de données P2P et nous nous concentrons sur l'évolution des systèmes simples de partages des fichiers vers des systèmes de gestion des données. En second lieu, nous proposons une solution pour la gestion des résumés de données dans des systèmes P2P. Nous définissons un modèle approprié et des techniques efficaces pour la création et la mise à jour des résumés. Nous discutons également le traitement des requêtes dans le cadre des résumés. Troisième- ment, nous proposons une technique de recherche basée sur clustering implémentée au dessus d'un protocole de custering selon la connectivité des noeuds. Nous nous concentrons sur la reduction des messages de re- quêtes redondants qui surchargent inutilement le système. Nous avons validé nos solutions par la simulation et les résultats montrent une bonne performance.
APA, Harvard, Vancouver, ISO, and other styles
31

Arion, Andrei. "XML access modules : towards physical data independence in XML databases." Paris 11, 2007. http://www.theses.fr/2007PA112288.

Full text
Abstract:
Nous étudions dans cette thèse le problème de l'indépendance physique des données dans les bases de données XML. Dans une première partie de cette thèse nous proposons les modules d'accès XML (XML Access Modules ou XAMs) - un langage de motifs d'arbre conçu pour exprimer un grand sous-ensemble de XQuery, et enrichi avec des noeuds optionnels (permettant de capturer des motifs qui couvrent plusieurs requêtes imbriquées) et des identiants structurels (qui augmentent les possibilités de réécriture). Nous démontrons que ce langage des vues peut être utilise pour décrire uniformément un grand nombre de schémas de stockage, d'index et de vues matérialisées. Dans une deuxième partie de cette thèse nous étudions le problème de la réécriture des requêtes XQuery à travers des vues exprimées par des modules d'accès XML. Dans un premier temps, nous présentons un algorithme capable d'extraire des motifs XAM à partir des requêtes XQuery et nous démontrons l'importance d'utiliser des vues qui peuvent enjamber plusieurs blocs XQuery imbriqués. Par la suite, nous étudions le problème de la réécriture des requêtes en utilisant des vues materialisées, où la requête et les vues sont décrites par des vues XAM. Nous caractérisons la complexité de l'inclusion de motifs d'arbre et de la réécriture des requêtes sous les contraintes exprimées par des résumés structurels, dont une forme augmentée permettra également d'exprimer des contraintes d'intégrité
The purpose of this thesis is to design a framework for achieving the goal of physical data independence in XML databases. We first propose the XML Access Modules - a rich tree pattern language featuring multiple returned nodes, nesting, structural identifiers and optional nodes, and we show how it can be used to uniformly describe a large set of XML storage schemes, indices and materialized views. A second part of this thesis focuses on the problem of XQuery rewriting using XML Access Modules. As a first step of our rewriting approach we present an algorithm to extract XML Access Modules patterns from XQuery and we show that the patterns we identify are strictly larger than in previous works, and in particular may span over nested XQuery blocks. We characterize the complexity of tree pattern containment (which is a key subproblem of rewriting) and rewriting itself, under the constraints expressed by a structural summary, whose enhanced form also entails integrity constraints. We also show how to exploit the structural identifiers from the view definitions in order to enhance the rewriting opportunities
APA, Harvard, Vancouver, ISO, and other styles
32

Duclos, Cartolano Catherine. "Représentation de l'information pharmaco-thérapeutique des résumés des caractéristiques produit des médicaments : apport des méthodes de traitement automatique du langage naturel, développement, validation et utilisation de modèles." Paris 5, 2003. http://www.theses.fr/2003PA05CD01.

Full text
Abstract:
@Après son autorisation de mise sur le marché, un résumé des caractéristiques produit (RCP) est publié par l'autorité de régulation des produits de santé du pays pour chaque médicament. Ce RCP décrit les propriétés du médicament comme son indication, ses contre-indications, sa pharmacocinétique, sa pharmacodynamie, ses précautions d'emploi, sa posologie. L'ensemble de ces RCP constitue un vaste corpus de textes largement diffusés auprès des professionnels de santé ainsi que le fond documentaire principal des éditeurs de bases de données sur le médicament. Ces RCP sont écrits en langage naturel ce qui limite leur intégration dans des applications informatisées proposant des fonctionnalités avancées de recherche de l'information. Afin de rendre l'information plus accessible, un travail d'identification des concepts contenus dans chaque rubrique est nécessaire. Nous nous sommes ainsi intéressés à modéliser l'information de 3 sections différentes des RCP : la pharmacologie des antibiotiques, les indications et la pharmacocinétique de tous les médicaments. Chacune de ces sections a des caractéristiques particulières qui ont conditionné la recherche d'une méthodologie adaptée à l'exploration de leur contenu. La section pharmacologie des antibiotiques a un haut niveau de standardisation d'écriture ce qui nous a permis de déduire a priori un modèle conceptuel par simple analyse de la structure du texte et de nous orienter vers une extraction automatique afin de construire la base de connaissance. L'indication représente une énumération de situations cliniques mais son format n'est pas standardisé. L'emploi d'outils de traitement du langage naturel nous a permis de repérer des candidats termes et nous a offert un support pour mener une analyse sémantique et construire un modèle de représentation de l'information ensuite validé. La pharmacocinétique quant à elle n'est ni standardisée, ni présentée de façon énumérée. Par ailleurs son domaine a déjà fait l'objet de modélisation mathématique, un ensemble de concepts basiques a pu en être déduit. Ceux-ci ont été utilisés pour sélectionner certains candidats termes issus d'un traitement automatique du langage naturel. Leur contexte d'occurrence a ensuite été exploré pour identifier leur environnement lexical. Le modèle issu de cette analyse, quoique complexe, a lui aussi été validé. L'intérêt des modèles développés a été illustré par des applications permettant de rechercher des médicaments selon des critères nouveaux.
APA, Harvard, Vancouver, ISO, and other styles
33

Laurent, Anne. "Bases de données multidimensionnelles floues et leur utilisation pour la fouille de données." Paris 6, 2002. http://www.theses.fr/2002PA066426.

Full text
APA, Harvard, Vancouver, ISO, and other styles
34

Elisabeth, Erol. "Fouille de données spatio-temporelles, résumés de données et apprentissage automatique : application au système de recommandations touristique, données médicales et détection des transactions atypiques dans le domaine financier." Thesis, Antilles, 2021. http://www.theses.fr/2021ANTI0607.

Full text
Abstract:
La fouille de données est une des composantes Gestion de la Relation Client (CRM) largement déployée dans les entreprises. Ce processus s’appuie sur des algorithmes issus de disciplines scientifiques diverses (statistiques, intelligence artificielle, base de données) pour construire des modèles à partir des données.L’objectif de déterminer des modèles, établis à partir de clusters au service de l’amélioration de la connaissance du client au sens générique, de la prédiction de ses comportements et de l’optimisation de l’offre proposée. Ces modèles ayant vocation à être utilisés par des utilisateurs spécialistes du domaine de données, chercheurs en économie de la santé et sciences de gestion ou professionnels du secteur étudié, ces travaux de recherche mettent l’accent sur l’utilisabilité des environnements de fouille de données. Cette thèse s’intéresse à la fouille de données spatio-temporelle. Elle met particulièrement en évidence une approche originale pour le traitement des données avec un but d’enrichissement des connaissances pratiques du domaine. Ce travail comporte un volet applicatif en quatre chapitres qui correspond à quatre systèmes développés:- Un modèle pour la mise place d’un système de recommandation basé sur la collecte de données de positionnement GPS,- Un outil de résumé de données optimisé pour la rapidité des réponses aux requêtes au programme de médicalisation des systèmes d’information (PMSI),- Un outil d’apprentissage automatique pour la lutte contre le blanchiment dans le système financier,- Un modèle pour la prédiction d’activité dans les TPE qui sont météo-dépendantes (tourisme, transport, loisirs, commerce, etc.). Le problème est ici d’identifier les algorithmes de classification et de réseaux de neurones en vue d’une analyse de données dont le but est d’adapter la stratégie de l’entreprise aux mouvements conjoncturels
Data mining is one of the components of Customer Relationship Management (CRM), widely deployed in companies. It is the process of extracting interesting, non-trivial, implicit, unknown and potentially useful knowledge from data. This process relies on algorithms from various scientific disciplines (statistics, artificial intelligence, databases) to build models from data stored in data warehouses.The objective of determining models, established from clusters in the service of improving knowledge of the customer in the generic sense, the prediction of his behavior and the optimization of the proposed offer. Since these models are intended to be used by users who are specialists in the field of data, researchers in health economics and management sciences or professionals in the sector studied, this research work emphasizes the usability of data mining environments.This thesis is concerned with spatio-temporal data mining. It particularly highlights an original approach to data processing with the aim of enriching practical knowledge in the field.This work includes an application component in four chapters which corresponds to four systems developed:- A model for setting up a recommendation system based on the collection of GPS positioning data,- A data summary tool optimized for the speed of responses to requests for the medicalization of information systems program (PMSI),- A machine learning tool for the fight against money laundering in the financial system,- A model for the prediction of activity in VSEs which are weather-dependent (tourism, transport, leisure, commerce, etc.). The problem here is to identify classification algorithms and neural networks for data analysis aimed at adapting the company's strategy to economic changes
APA, Harvard, Vancouver, ISO, and other styles
35

Goulet, Marie-Josée. "Analyse d'évaluations en résumé automatique : proposition d'une terminologie française, description des paramètres expérimentaux et recommandations." Thesis, Université Laval, 2008. http://www.theses.ulaval.ca/2008/25346/25346.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
36

Oudni, Amal. "Fouille de données par extraction de motifs graduels : contextualisation et enrichissement." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066437/document.

Full text
Abstract:
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription
This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription
APA, Harvard, Vancouver, ISO, and other styles
37

Massé, Luc de. "Evaluation de la charge de travail des soignants et du handicap des patients au cours de la rééducation après pose de prothèse totale de hanche à partir de résumés informatisés." Montpellier 1, 1989. http://www.theses.fr/1989MON11079.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Vroonland, Joy Phelps. "The Evaluation of Academic Vitae in Low, Moderate, and High Paradigm Academic Disciplines." Thesis, University of North Texas, 1992. https://digital.library.unt.edu/ark:/67531/metadc278603/.

Full text
Abstract:
Considering the vita an important vehicle for self-presentation in the process of applying for post-secondary academic positions, this study examined how vita contents are valued by readers of vitae in different academic disciplines.
APA, Harvard, Vancouver, ISO, and other styles
39

Lundgreen, Michael Scott. "A career preparation curriculum for [the] San Bernardino Employment Development Department." CSUSB ScholarWorks, 2002. https://scholarworks.lib.csusb.edu/etd-project/2121.

Full text
Abstract:
The purpose of the project was to develop a training course for the city of San Bernardino Employment Development Department [EDD] to introduce job seekers to the primary marketing skills necessary for obtaining gainful employment.
APA, Harvard, Vancouver, ISO, and other styles
40

Bechchi, Mounir. "Clustering-based Approximate Answering of Query Result in Large and Distributed Databases." Phd thesis, Université de Nantes, 2009. http://tel.archives-ouvertes.fr/tel-00475917.

Full text
Abstract:
Les utilisateurs des bases de données doivent faire face au problème de surcharge d'information lors de l'interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et rapide, ap- pelé ESRA (Explore-Select-Rearrange Algorithm), qui utilise les résumés SAINTETIQ pré-calculés sur l'ensemble des données pour regrouper les réponses à une requête utilisateur en un ensemble de classes (ou résumés) organisées hiérarchiquement. Chaque classe décrit un sous-ensemble de résul- tats dont les propriétés sont voisines. L'utilisateur pourra ainsi explorer la hiérarchie pour localiser les données qui l'intéressent et en écarter les autres. Les résultats expérimentaux montrent que l'al- gorithme ESRA est efficace et fournit des classes bien formées (i.e., leur nombre reste faible et elles sont bien séparées). Cependant, le modèle SAINTETIQ, utilisé par l'algorithme ESRA, exige que les données soient disponibles sur le serveur des résumés. Cette hypothèse rend inapplicable l'algo- rithme ESRA dans des environnements distribués où il est souvent impossible ou peu souhaitable de rassembler toutes les données sur un même site. Pour remédier à ce problème, nous proposons une collection d'algorithmes qui combinent deux résumés générés localement et de manière autonome sur deux sites distincts pour en produire un seul résumant l'ensemble des données distribuées, sans accéder aux données d'origine. Les résultats expérimentaux montrent que ces algorithmes sont aussi performants que l'approche centralisée (i.e., SAINTETIQ appliqué aux données après regroupement sur un même site) et produisent des hiérarchies très semblables en structure et en qualité à celles produites par l'approche centralisée.
APA, Harvard, Vancouver, ISO, and other styles
41

Oudni, Amal. "Fouille de données par extraction de motifs graduels : contextualisation et enrichissement." Electronic Thesis or Diss., Paris 6, 2014. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2014PA066437.pdf.

Full text
Abstract:
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription
This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription
APA, Harvard, Vancouver, ISO, and other styles
42

Farzindar, Atefeh. "Résumé automatique de textes juridiques." Paris 4, 2005. http://www.theses.fr/2005PA040032.

Full text
Abstract:
Nous avons travaillé sur la production automatique de résumé pour le domaine juridique. Nous avons développé le système LetSum, un outil informatique en vue d'extraire l'information pertinente sous une forme condensée. Nous avons collaboré avec les avocats du centre de recherche en droit public. Notre méthode est basée sur l'analyse manuelle des jugements et de leurs résumés rédigés par les résumeurs professionnels. Dans cette méthode, nous identifions le plan d'organisation d'un jugement et ses différents thèmes discursifs qui regroupent les phrases autour d'un même sujet. La création du résumé par LetSum se fait en quatre étapes: 1) Segmentation thématique détermine l'organisation du document et encadre les segments du texte associés avec un thème précis dans la jurisprudence. Nous avons divisé un jugement en cinq thèmes: Introduction (qui? a fait quoi? à qui?), Contexte (recompose l'histoire du litige et l'histoire judiciaire), Questions de droit (identifient le problème juridique dont le tribunal est saisi), Raisonnement juridique (contient l'analyse du juge et Conclusion (décision finale de la cour). 2) Filtrage qui identifie les segments qui peuvent être supprimés dans les documents, sans perdre les informations pertinentes pour le résumé, comme les citations. 3) Sélection des unités textuelles candidates pour le résumé qui construit une liste d'unités saillantes candidates pour chaque thème. 4) Production du résumé qui choisit les unités pour le résumé final et les combine. L'évaluation de 120 résumés automatiques par 12 avocats montre la qualité des résumés produits par LetSum qui est jugé excellente
We have developed a summarization system, called LetSum, for producing short summaries for legal decisions. We have collaborated with the lawyers of the Public Law Research Center of Université de Montréal. Our method is based on the manual analysis of the judgments by comparing manually written summaries and source documents, which investigates the extraction of the most important units based on the identification of thematic structure of the document. The production of the summary is done in four steps:1. Thematic segmentation detects the thematic structure of a judgment. We distinguish seven themes: Decision data (gives the complete reference of the decision and the relation between the parties for planning the decision. ), Introduction (who? did what? to whom?), Context (recomposes the story from the facts and events), Submission (presents the point of view the parties), Issues (identifies the questions of law), Juridical Analysis (describes the analysis of the judge), Conclusion (the final decision of the court). 2. Filtering identifies parts of the text which can be eliminated, without losing relevant information for the summary, like the citations. 3. Selection builds a list of the best candidate units for each structural level of the summary. 4. Production chooses the units for the final summary and combines them in order to produce a summary of about 10% of the judgement. The evaluations of 120 summaries by 12 lawyers show the quality of summaries produced by LetSum, which are judgedexcellent
APA, Harvard, Vancouver, ISO, and other styles
43

Mnasri, Maali. "Résumé automatique multi-document dynamique." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS342/document.

Full text
Abstract:
Cette thèse s’intéresse au Résumé Automatique de texte et plus particulièrement au résumémis-à-jour. Cette problématique de recherche vise à produire un résumé différentiel d'un ensemble denouveaux documents par rapport à un ensemble de documents supposés connus. Elle intègre ainsidans la problématique du résumé à la fois la question de la dimension temporelle de l'information etcelle de l’historique de l’utilisateur. Dans ce contexte, le travail présenté s'inscrit dans les approchespar extraction fondées sur une optimisation linéaire en nombres entiers (ILP) et s’articule autour dedeux axes principaux : la détection de la redondance des informations sélectionnées et la maximisationde leur saillance. Pour le premier axe, nous nous sommes plus particulièrement intéressés àl'exploitation des similarités inter-phrastiques pour détecter, par la définition d'une méthode deregroupement sémantique de phrases, les redondances entre les informations des nouveaux documentset celles présentes dans les documents déjà connus. Concernant notre second axe, nous avons étudiél’impact de la prise en compte de la structure discursive des documents, dans le cadre de la Théorie dela Structure Rhétorique (RS), pour favoriser la sélection des informations considérées comme les plusimportantes. L'intérêt des méthodes ainsi définies a été démontré dans le cadre d'évaluations menéessur les données des campagnes TAC et DUC. Enfin, l'intégration de ces critères sémantique etdiscursif au travers d'un mécanisme de fusion tardive a permis de montrer dans le même cadre lacomplémentarité de ces deux axes et le bénéfice de leur combinaison
This thesis focuses on text Automatic Summarization and particularly on UpdateSummarization. This research problem aims to produce a differential summary of a set of newdocuments with regard to a set of old documents assumed to be known. It thus adds two issues to thetask of generic automatic summarization: the temporal dimension of the information and the history ofthe user. In this context, the work presented here is based on an extractive approach using integerlinear programming (ILP) and is organized around two main axes: the redundancy detection betweenthe selected information and the user history and the maximization of their saliency . For the first axis,we were particularly interested in the exploitation of inter-sentence similarities to detect theredundancies between the information of the new documents and those present in the already knownones, by defining a method of semantic clustering of sentences. Concerning our second axis, westudied the impact of taking into account the discursive structure of documents, in the context of theRhetorical Structure Theory (RST), to favor the selection of information considered as the mostimportant. The benefit of the methods thus defined has been demonstrated in the context ofevaluations carried out on the data of TAC and DUC campaigns. Finally, the integration of thesesemantic and discursive criteria through a delayed fusion mechanism has proved the complementarityof these two axes and the benefit of their combination
APA, Harvard, Vancouver, ISO, and other styles
44

Idrissi, Najlae. "La navigation dans les bases d'images : prise en compte des attributs de texture." Phd thesis, Nantes, 2008. https://archive.bu.univ-nantes.fr/pollux/show/show?id=84546d6f-7efd-4662-ba95-e74b15907689.

Full text
Abstract:
Ce travail de recherche entre dans le cadre des systèmes de recherche d’images par le contenu, en particulier la recherche par la texture. Le but de ce travail est de permettre à l’utilisateur de naviguer dans de grande base de données d’images sans formulation de requêtes en un langage d’interrogation spécifique. Pour atteindre cet objectif, nous avons réparti le travail en deux grands volets. Le premier volet concerne l’extraction et l’identification d’un modèle de texture composé d’attributs pertinents. Pour atteindre cet objectif, nous avons proposé d’étudier deux modèles de texture : les matrices de co-occurrences et les attributs de Tamura. La sélection et la validation du modèle caractéristique ont été faites à partir de plusieurs applications que nous avons proposées dans le cadre de cette thèse après réduction de la dimension de l’espace de représentation des modèles de texture. Ensuite, la navigation s’effectue à l’aide de treillis de Galois avec une interface HTML tout en passant par une phase d’interprétation du modèle de texture numérique en un modèle sémantique. Le problème de transcription du numérique au sémantique est considéré comme un problème de discrétisation des valeurs numériques continues. Un autre problème se manifeste lorsque la taille de la base des images augmente, les performances du système de navigation se dégradent. Pour pallier à ce problème, nous proposons de créer des résumés qui de plus permettent de focaliser la recherche et la navigation sur un ensemble d’images cibles et non pas sur toute la base
This work contributes to the field of Content-based Image Retrieval (CBIR) particularly texture-based retrieval. The main goal of this work is to enable the user to navigate through a large image database without making any query in specific language. To achieve this goal, we divided the work into two main parts. The first part involves the extraction of a texture model made of relevant attributes. We proposed to study two models of texture: the co-occurrence matrices and Tamura’s attributes. The selection and validation of the model features are based on several applications that we have proposed in this thesis after reducing the dimension of the representation’s space. Then, navigation is achieved using Galois’ lattices with a simple HTML interface while passing through a phase of interpretation of numerical model texture into a semantic model. The problem of the transcription from the numerical values to the semantics is regarded as a problem of discretisation of continuous attributes. Another problem occurs when the size of the database of images increases: the performance of the navigation system are deteriorating. To overcome this problem, we propose to use techniques of summarisation to create summaries that help users to navigate through target collections instead of the whole database
APA, Harvard, Vancouver, ISO, and other styles
45

Idrissi, Najlae. "La navigation dans les bases d'images : prise en compte des attributs de texture." Phd thesis, Université de Nantes, 2008. http://tel.archives-ouvertes.fr/tel-00465960.

Full text
Abstract:
Ce travail de recherche entre dans le cadre des systèmes de recherche d'images par le contenu, en particulier la recherche par la texture. Le but de ce travail est de permettre à l'utilisateur de naviguer dans de grande base de données d'images sans formulation de requêtes en un langage d'interrogation spécifique. Pour atteindre cet objectif, nous avons réparti le travail en deux grands volets. Le premier volet concerne l'extraction et l'identification d'un modèle de texture composé d'attributs pertinents. Pour atteindre cet objectif, nous avons proposé d'étudier deux modèles de texture : les matrices de co-occurrences et les attributs de Tamura. La sélection et la validation du modèle caractéristique ont été faites à partir de plusieurs applications que nous avons proposées dans le cadre de cette thèse après réduction de la dimension de l'espace de représentation des modèles de texture. Ensuite, la navigation s'effectue à l'aide de treillis de Galois avec une interface HTML tout en passant par une phase d'interprétation du modèle de texture numérique en un modèle sémantique. Le problème de transcription du numérique au sémantique est considéré comme un problème de discrétisation des valeurs numériques continues. Un autre problème se manifeste lorsque la taille de la base des images augmente, les performances du système de navigation se dégradent. Pour pallier à ce problème, nous proposons de créer des résumés qui de plus permettent de focaliser la recherche et la navigation sur un ensemble d'images cibles et non pas sur toute la base.
APA, Harvard, Vancouver, ISO, and other styles
46

Chiky, Raja. "Résumé de flux de données ditribués." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005137.

Full text
Abstract:
Ces dernières années, sont apparues de nombreuses applications, utilisant des données en nombre potentiellement illimité, provenant de façon continue de capteurs distribués afin d'alimenter un serveur central. Les données sont utilisées à des fins de surveillance, de supervision, de déclenchement d'alarmes en temps réel, ou plus généralement à la production de synthèses d'aide à la décision à partir de plusieurs flux. Le volume des données collectées est généralement trop grand pour être entièrement stocké. Les systèmes de gestion de flux de données (SGFD) permettent de gérer facilement, et de façon générique les flux de données : les données sont traitées au fil de l'eau sans les archiver. Toutefois, dans certaines applications, on ne souhaite pas perdre complètement l'ensemble des flux de données afin de pouvoir analyser les données du passé et du présent. Il faut donc prévoir un stockage de l'historique du flux. Nous considérons dans cette thèse, un environnement distribué décrit par une collection de plusieurs capteurs distants qui envoient des flux de données numériques et unidimensionnelles à un serveur central unique. Ce dernier a un espace de stockage limité mais doit calculer des agrégats, comme des sommes ou des moyennes, à partir des données de tout sous-ensemble de capteurs et sur un large horizon temporel. Deux approches sont étudiées pour construire l'historique des flux de données :(1) Echantillonnage spatial en ne considérant qu'un échantillon aléatoire des sources qu'on observe dans le temps ; (2) Echantillonnage temporel en considérant toutes les sources mais en échantillonnant les instants observés de chaque capteur. Nous proposons une méthode générique et optimisée de construction de résumés à partir de flux de données distribués : A partir des flux de données observés à une période de temps t -1, nous déterminons un modèle de collecte de données à appliquer aux capteurs de la période t. Le calcul des agrégats se base sur l'inférence tatistique dans le cas de l'échantillonnage spatial et sur l'interpolation dans le cas de l'échantillonnage temporel. A notre connaissance, il n'existe pas de méthodes d'interpolation qui estiment les erreurs à tout instant et qui prennent en compte le flux de données ou courbe à interpoler et son intégrale. Nous proposons donc deux approches : la première se base sur le passé des courbes pour l'interpolation (approche naive) ; et la seconde utilise à un processus stochastique pour modéliser l'évolution des courbes (approche stochastique).
APA, Harvard, Vancouver, ISO, and other styles
47

Bossard, Aurélien. "Contribution au résumé automatique multi-documents." Phd thesis, Université Paris-Nord - Paris XIII, 2010. http://tel.archives-ouvertes.fr/tel-00573567.

Full text
Abstract:
Que ce soit pour des professionnels qui doivent prendre connaissance du contenu de documents en un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans disposer du temps nécessaire pour lire l'intégralité des textes qui en traitent, le résumé est une aide contextuelle importante. Avec l'augmentation de la masse documentaire disponible électroniquement, résumer des textes automatiquement est devenu un axe de recherche important dans le domaine du traitement automatique de la langue. La présente thèse propose une méthode de résumé automatique multi-documents fondée sur une classification des phrases à résumer en classes sémantiques. Cette classification nous permet d'identifier les phrases qui présentent des éléments d'informations similaires, et ainsi de supprimer efficacement toute redondance du résumé généré. Cette méthode a été évaluée sur la tâche "résumé d'opinions issues de blogs" de la campagne d'évaluation TAC 2008 et la tâche "résumé incrémental de dépêches" des campagnes TAC 2008 et TAC 2009. Les résultats obtenus sont satisfaisants, classant notre méthode dans le premier quart des participants. Nous avons également proposé d'intégrer la structure des dépêches à notre système de résumé automatique afin d'améliorer la qualité des résumés qu'il génère. Pour finir, notre méthode de résumé a fait l'objet d'une intégration à un système applicatif visant à aider un possesseur de corpus à visualiser les axes essentiels et à en retirer automatiquement les informations importantes.
APA, Harvard, Vancouver, ISO, and other styles
48

Csernel, Baptiste. "Résumé généraliste de flux de données." Paris, ENST, 2008. http://www.theses.fr/2008ENST0048.

Full text
Abstract:
Cette thèse traite de la mise en place de résumés généralistes de flux de données. Elle est centrée autour du développement de deux algorithmes, l'un produisant des résumés généralistes d'un flux de données et l'autre de trois flux de données partageant des liens relationnels. Un flux de données est défini comme une séquence continue d'objets tels qu'il soit impossible de contrôler l'ordre d'arriver des objets ou de stocker le flux dans son intégralité. On retrouve ces flux de données dans des applications comme les télécommunications, les réseau de capteurs ou l'analyse financière. La première étape de ce travail a été de définir ce qu'est un résumé généraliste de flux de données. Sa première propriété est qu'il doit être utilisable pour une large gamme de tâches de fouille de données. La seconde est qu'il doit être possible de constituer à partir du résumé principal un résumé ne concernant qu'une portion du flux arrivé jusqu'alors. Le premier algorithme réalisé, StreamSamp, est un algorithme de résumé généraliste d'un seul flux de données et il est basé sur des techniques d'échantillonnage. Le second, CrossStream est destiné à résumer trois flux de données partageant des informations relationnelles entre eux, un flux de relation liant deux flux d'entités. Cet algorithme est basé sur des micro classes inspirées de l'algorithme CluStream d'Aggarwal combinés à l'utilisation de Filtres de Bloom. Les deux algorithmes ont été implémentés et testé sur plusieurs jeux de données pour déterminer leur performances face à divers situations
This thesis deals with the creation and management of general purpose summaries build from data streams. It is centered on the development of two algorithms, one designed to produce general purpose summaries for a single data stream, and the other for three data stream sharing relational information. A data stream is defined as a real-time, continuous, ordered sequence of items. It is impossible to control the order in which items arrive, nor is it feasible to locally store a stream in its entirety. Such data streams appear in many applications, such as utility networks, IT or in monitoring tasks for instance in meteorology, geology or even finance. The first step in this work is to define the meaning of a general purpose data stream summary. The first property of such a summary is that it should be suitable for a variety of data mining and querying tasks. The second one is that it should be possible to build from the main summary a summary concerning only a selected portion of the stream encountered so far. The first algorithm designed, StreamSamp, is a general purpose summary algorithm dealing with a single data stream and based around the principle of sampling. While the second algorithm, CrossStream, is is a general purpose summary algorithm dealing with three data streams sharing relational information with one another, one relation stream linking two entity streams. This algorithm is based on the use of micro clusters, inspired by the CluStream algorithm designed by Aggarwal combined with the use of Bloom Filter. Both algorithm were implemented and tested against various sets of data to assess their performance in a number of situations
APA, Harvard, Vancouver, ISO, and other styles
49

Chiky, Raja. "Résumé de flux de données distribués." Paris, ENST, 2009. https://pastel.hal.science/pastel-00005137.

Full text
Abstract:
Nous considérons dans cette thèse, un environnement distribué décrit par une collection de plusieurs capteurs distants qui envoient des flux de données numériques et unidimensionnelles à un serveur central unique. Ce dernier a un espace de stockage limité mais doit calculer des agrégats, comme des sommes ou des moyennes, à partir des données de tout sous-ensemble de capteurs et sur un large horizon temporel. Deux approches sont étudiées pour construire l'historique des flux de données :(1) Echantillonnage spatial en ne considérant qu'un échantillon aléatoire des sources qu'on observe dans le temps ; (2) Echantillonnage temporel en considérant toutes les sources mais en échantillonnant les instants observés de chaque capteur. Nous proposons une méthode générique et optimisée de construction de résumés à partir de flux de données distribués : à partir des flux de données observés à une période de temps t -1, nous déterminons un modèle de collecte de données à appliquer aux capteurs de la période t. Le calcul des agrégats se base sur l'inférence tatistique dans le cas de l'échantillonnage spatial et sur l'interpolation dans le cas de l'échantillonnage temporel. A notre connaissance, il n'existe pas de méthodes d'interpolation qui estiment les erreurs à tout instant et qui prennent en compte le flux de données ou courbe à interpoler et son intégrale. Nous proposons donc deux approches : la première se base sur le passé des courbes pour l'interpolation (approche naive) ; et la seconde utilise à un processus stochastique pour modéliser l'évolution des courbes (approche stochastique)
In this thesis, we consider a distributed computing environment, describing a collection of multiple remote sensors that feed a unique central server with numeric and uni-dimensional data streams (also called curves). The central server has a limited memory but should be able to compute aggregated value of any subset of the stream sources from a large time horizon including old and new data streams. Two approaches are studied to reduce the size of data : (1) spatial sampling only consider a random sample of the sources observed at every instant ; (2) temporal sampling consider all sources but samples the instants to be stored. In this thesis, we propose a new approach for summarizing temporally a set of distributed data streams : From the observation of what is happening during a period t -1, we determine a data collection model to apply to the sensors for period t. The computation of aggregates involves statistical inference in the case of spatial sampling and interpolation in the case of temporal sampling. To the best of our knowledge, there is no method for estimating interpolation errors at each timestamp that would take into account some curve features such as the knowledge of the integral of the curve during the period. We propose two approaches : one uses the past of the data curve (naive approach) and the other uses a stochastic process for interpolation (stochastic approach)
APA, Harvard, Vancouver, ISO, and other styles
50

Bahri, Maroua. "Improving IoT data stream analytics using summarization techniques." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT017.

Full text
Abstract:
Face à cette évolution technologique vertigineuse, l’utilisation des dispositifs de l'Internet des Objets (IdO), les capteurs, et les réseaux sociaux, d'énormes flux de données IdO sont générées quotidiennement de différentes applications pourront être transformées en connaissances à travers l’apprentissage automatique. En pratique, de multiples problèmes se posent afin d’extraire des connaissances utiles de ces flux qui doivent être gérés et traités efficacement. Dans ce contexte, cette thèse vise à améliorer les performances (en termes de mémoire et de temps) des algorithmes de l'apprentissage supervisé, principalement la classification à partir de flux de données en évolution. En plus de leur nature infinie, la dimensionnalité élevée et croissante de ces flux données dans certains domaines rendent la tâche de classification plus difficile. La première partie de la thèse étudie l’état de l’art des techniques de classification et de réduction de dimension pour les flux de données, tout en présentant les travaux les plus récents dans ce cadre.La deuxième partie de la thèse détaille nos contributions en classification pour les flux de données. Il s’agit de nouvelles approches basées sur les techniques de réduction de données visant à réduire les ressources de calcul des classificateurs actuels, presque sans perte en précision. Pour traiter les flux de données de haute dimension efficacement, nous incorporons une étape de prétraitement qui consiste à réduire la dimension de chaque donnée (dès son arrivée) de manière incrémentale avant de passer à l’apprentissage. Dans ce contexte, nous présentons plusieurs approches basées sur: Bayesien naïf amélioré par les résumés minimalistes et hashing trick, k-NN qui utilise compressed sensing et UMAP, et l’utilisation d’ensembles d’apprentissage également
With the evolution of technology, the use of smart Internet-of-Things (IoT) devices, sensors, and social networks result in an overwhelming volume of IoT data streams, generated daily from several applications, that can be transformed into valuable information through machine learning tasks. In practice, multiple critical issues arise in order to extract useful knowledge from these evolving data streams, mainly that the stream needs to be efficiently handled and processed. In this context, this thesis aims to improve the performance (in terms of memory and time) of existing data mining algorithms on streams. We focus on the classification task in the streaming framework. The task is challenging on streams, principally due to the high -- and increasing -- data dimensionality, in addition to the potentially infinite amount of data. The two aspects make the classification task harder.The first part of the thesis surveys the current state-of-the-art of the classification and dimensionality reduction techniques as applied to the stream setting, by providing an updated view of the most recent works in this vibrant area.In the second part, we detail our contributions to the field of classification in streams, by developing novel approaches based on summarization techniques aiming to reduce the computational resource of existing classifiers with no -- or minor -- loss of classification accuracy. To address high-dimensional data streams and make classifiers efficient, we incorporate an internal preprocessing step that consists in reducing the dimensionality of input data incrementally before feeding them to the learning stage. We present several approaches applied to several classifications tasks: Naive Bayes which is enhanced with sketches and hashing trick, k-NN by using compressed sensing and UMAP, and also integrate them in ensemble methods
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography