Bibliografías temáticas / Fouille de Données Textuelles Hétérogènes

Índice

Artículos de revistas
Tesis
Capítulos de libros

Literatura académica sobre el tema "Fouille de Données Textuelles Hétérogènes"

Autor: Grafiati

Publicado: 10 de mayo de 2025

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Fouille de Données Textuelles Hétérogènes".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Artículos de revistas sobre el tema "Fouille de Données Textuelles Hétérogènes"

Ganachaud, Clément, Ludovic Seifert y David Adé. "L’importation de méthodes non-supervisées en fouille de données dans le programme de recherche empirique et technologique du cours d’action : Apports et réflexions critiques". Staps N° 141, n.º 3 (17 de enero de 2024): 97–108. http://dx.doi.org/10.3917/sta.141.0097.

Texto completo

Resumen

Actuellement, les méthodes mixtes de recherche suscitent un intérêt croissant dans le domaine des sciences du sport. À ce jour, des réflexions épistémologiques et paradigmatiques ont été engagées lorsqu’il s’agit d’articuler des méthodes, outils et/ou données hétérogènes dans ce type de recherche. Cet article s’inscrit dans cette veine. Il propose une réflexion critique sur des études conduites dans le cadre du programme de recherche empirique et technologique du cours d’action (PRETCA) ayant eu recours à la fouille de données pour mettre en forme des données phénoménologiques à des fins de présentation des résultats de recherche. Cette réflexion est l’occasion de mettre en avant des apports et des points de questionnement sur le recours à la fouille de données, notamment lorsqu’il s’agit de conduire une analyse de classification hiérarchique non supervisée pour identifier des modes typiques d’expériences en situation de pratique sportive. Il ressort que cette importation d’outils et de méthodes de fouille de données nous semble traduire chez les chercheurs du PRETCA une volonté de sophistiquer le traitement des données et la présentation des résultats de recherche.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Reboul, Marianne y Alexandre Gefen. "Mesures et savoirs : Quelles méthodes pour l’histoire culturelle à l’heure du big data ?" Semiotica 2019, n.º 230 (25 de octubre de 2019): 97–120. http://dx.doi.org/10.1515/sem-2018-0103.

Texto completo

Resumen

Résumé L’analyse quantitative de l’histoire culturelle a été ouverte par la mise à disposition de corpus de masse tel que celui de Google fbooks (500 milliards de mots, 5 millions d’ouvrages, soit environ 4% de la littérature mondiale) et a été popularisé sous le nom de « culturonomics ». Elle s’ouvre désormais aux chercheurs, en promettant un accès profond aux faits culturels et à leurs évolutions qui affleurent à travers leurs traces textuelles dans les corpus textuelles numérisées. Encore faut-il pouvoir interroger ces corpus dont la taille et la nature posent des problèmes scientifiques nouveaux, leur dimension les rendant illisibles directement et mettant échec les méthodes de fouille et les outils traditionnels d’analyse statistique des données en imposant des méthodes statistiques nouvelles et le saut vers des formes d’intelligence visuelles originales. Dans le cadre d’un projet mené entre le Labex « Obvil » de Paris-Sorbonne et le Literary Lab de Stanford sur l’histoire de l’idée de littéraire (la définition de la littérature comme mot, comme concept et comme champ), et visant à produire une histoire empirique de la littérature, nous avons mené depuis deux ans des expériences de fouille d’un corpus de critique littéraire de 1618 titres, 140 millions de mots (dont plus de 50 000 occurrences du lemme « littérature ») de la fin de l’Ancien Régime à la Seconde Guerre mondiale. En présentant des exemples développés dans cette première expérimentation à grande échelle de mesure de l’histoire des idées, on présentera les méthodes de text mining contemporaines en essayant d’éprouver leur pertinence heuristique et de leur capacité à faire remonter des données signifiantes pour l’histoire et la théorie littéraire. On fera l’hypothèse que toute enquête quantitative sérieuse mobilise désormais non une échelle intermédiaire standard et immédiatement lisible, mais le maniement d’outils statistiques dont l’interprétation en sciences humaines pose des problèmes particuliers qui, paradoxalement, ne peuvent être résolus que par leur articulation étroite à du close reading et à des mesures fines.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Dunoyer, C., M. Morell y D. Pellecuer. "Évaluation de l’intérêt de l’utilisation d’outils de fouille de données textuelles pour le codage du PMSI". Revue d'Épidémiologie et de Santé Publique 66 (marzo de 2018): S26—S27. http://dx.doi.org/10.1016/j.respe.2018.01.056.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Longhi, Julien. "Types de discours, formes textuelles et normes sémantiques : expression et doxa dans un corpus de données hétérogènes". Langages 187, n.º 3 (2012): 41. http://dx.doi.org/10.3917/lang.187.0041.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Mélou, Cécile y François Melou. "Faites de votre vocation un métier : engagez-vous ! Quand les convictions rencontrent la responsabilité". Sociographe N° 88, n.º 4 (29 de noviembre de 2024): XIX—XXXIII. https://doi.org/10.3917/graph1.088.xix.

Texto completo

Resumen

Cet article propose une réflexion sur la notion d’engagement chez les travailleurs sociaux à travers le prisme du modèle « Job Demands Ressources ». Ce travail repose sur une fouille de données textuelles et des entretiens informels avec des travailleurs sociaux en poste et en formation. Un constat s’impose, le champ du travail social est en proie à des mutations profondes, doublées d’une baisse d’attractivité des métiers du social. Les évolutions des métiers tendent à faire du travailleur social, non plus un acteur de l’accompagnement au quotidien des plus vulnérables, mais un exécutant devant rendre des comptes. Pour autant, face au numérique, aux files actives, au poids de la bureaucratie, et à la perte de sens, il y a un espace pour une réflexivité éthique qui maintient les convictions, aux sources de l’engagement, tout en intégrant la responsabilité inhérente à ce métier. Ce chemin étroit permet de résister à la logique néolibérale qui voit en toute chose un objet de marchandisation.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Forest, Dominic y Michael E. Sinatra. "Lire à l’ère du numérique Le nénuphar et l’araignée de Claire Legendre". Sens public, 22 de diciembre de 2016. http://dx.doi.org/10.7202/1044409ar.

Texto completo

Resumen

Cet article se veut exploratoire en deux temps : une piste de réflexion sur l’impact du numérique sur les sciences humaines, et une lecture de l’essai Le nénuphar et l’araignée de Claire Legendre, publié le 4 février 2015 chez Les Allusifs. Notre hypothèse est qu’il est nécessaire de jeter les bases d’une théorie et d’une pensée du numérique, comme de poursuivre et de favoriser l’implémentation de nouveaux outils de recherche conçus par et pour les humanités, en lien direct avec les questions d’édition, de diffusion, d’encodage, de fouille, de curation, ou encore de visualisation et de représentation des données textuelles, sonores et visuelles. Cet article propose ainsi une première piste d’exploration de l’usage de ces nouvelles possibilités pour la littérature québécoise.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Gauld, C. y J. A. Micoulaud-Franchi. "Analyse en réseau par fouille de données textuelles systématique du concept de psychiatrie personnalisée et de précision". L'Encéphale, noviembre de 2020. http://dx.doi.org/10.1016/j.encep.2020.08.008.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Tesis sobre el tema "Fouille de Données Textuelles Hétérogènes"

Alencar, Medeiros Gabriel Henrique. "ΡreDiViD Τοwards the Ρredictiοn οf the Disseminatiοn οf Viral Disease cοntagiοn in a pandemic setting". Electronic Thesis or Diss., Normandie, 2025. http://www.theses.fr/2025NORMR005.

Texto completo

Resumen

Les systèmes de surveillance basés sur les événements (EBS) sont essentiels pour détecter et suivre les phénomènes de santé émergents tels que les épidémies et crises sanitaires. Cependant, ils souffrent de limitations, notamment une forte dépendance à l’expertise humaine, des difficultés à traiter des données textuelles hétérogènes et une prise en compte insuffisante des dynamiques spatio-temporelles. Pour pallier ces limites, nous proposons une approche hybride combinant des méthodologies guidées par les connaissances et les données, ancrée dans l’ontologie des phénomènes de propagation (PropaPhen) et le cadre Description-Detection-Prediction Framework (DDPF), afin d’améliorer la description, la détection et la prédiction des phénomènes de propagation. PropaPhen est une ontologie FAIR conçue pour modéliser la propagation spatio-temporelle des phénomènes et a été spécialisée pour le biomédical grâce à l’intégration de UMLS et World-KG, menant à la création du graphe BioPropaPhenKG. Le cadre DDPF repose sur trois modules : la description, générant des ontologies spécifiques ; la détection, appliquant des techniques d'extraction de relations sur des textes hétérogènes ; et la prédiction, utilisant des méthodes avancées de clustering. Expérimenté sur des données du COVID-19 et de la variole du singe et validé avec les données de l’OMS, DDPF a démontré son efficacité dans la détection et la prédiction de clusters spatio-temporels. Son architecture modulaire assure son évolutivité et son adaptabilité à divers domaines, ouvrant des perspectives en santé publique, environnement et phénomènes sociaux
Event-Based Surveillance (EBS) systems are essential for detecting and tracking emerging health phenomena such as epidemics and public health crises. However, they face limitations, including strong dependence on human expertise, challenges processing heterogeneous textual data, and insufficient consideration of spatiotemporal dynamics. To overcome these issues, we propose a hybrid approach combining knowledge-driven and data-driven methodologies, anchored in the Propagation Phenomena Ontology (PropaPhen) and the Description-Detection-Prediction Framework (DDPF), to enhance the description, detection, and prediction of propagation phenomena. PropaPhen is a FAIR ontology designed to model the spatiotemporal spread of phenomena. It has been specialized in the biomedical domain through the integration of UMLS and World-KG, leading to the creation of the BioPropaPhenKG knowledge graph. The DDPF framework consists of three modules: description, which generates domain-specific ontologies; detection, which applies relation extraction techniques to heterogeneous textual sources; and prediction, which uses advanced clustering methods. Tested on COVID-19 and Monkeypox datasets and validated against WHO data, DDPF demonstrated its effectiveness in detecting and predicting spatiotemporal clusters. Its modular architecture ensures scalability and adaptability to various domains, opening perspectives in public health, environmental monitoring, and social phenomena

Los estilos APA, Harvard, Vancouver, ISO, etc.

Tisserant, Guillaume. "Généralisation de données textuelles adaptée à la classification automatique". Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS231/document.

Texto completo

Resumen

La classification de documents textuels est une tâche relativement ancienne. Très tôt, de nombreux documents de différentes natures ont été regroupés dans le but de centraliser la connaissance. Des systèmes de classement et d'indexation ont alors été créés. Ils permettent de trouver facilement des documents en fonction des besoins des lecteurs. Avec la multiplication du nombre de documents et l'apparition de l'informatique puis d'internet, la mise en œuvre de systèmes de classement des textes devient un enjeu crucial. Or, les données textuelles, de nature complexe et riche, sont difficiles à traiter de manière automatique. Dans un tel contexte, cette thèse propose une méthodologie originale pour organiser l'information textuelle de façon à faciliter son accès. Nos approches de classification automatique de textes mais aussi d'extraction d'informations sémantiques permettent de retrouver rapidement et avec pertinence une information recherchée.De manière plus précise, ce manuscrit présente de nouvelles formes de représentation des textes facilitant leur traitement pour des tâches de classification automatique. Une méthode de généralisation partielle des données textuelles (approche GenDesc) s'appuyant sur des critères statistiques et morpho-syntaxiques est proposée. Par ailleurs, cette thèse s'intéresse à la construction de syntagmes et à l'utilisation d'informations sémantiques pour améliorer la représentation des documents. Nous démontrerons à travers de nombreuses expérimentations la pertinence et la généricité de nos propositions qui permettent une amélioration des résultats de classification. Enfin, dans le contexte des réseaux sociaux en fort développement, une méthode de génération automatique de HashTags porteurs de sémantique est proposée. Notre approche s'appuie sur des mesures statistiques, des ressources sémantiques et l'utilisation d'informations syntaxiques. Les HashTags proposés peuvent alors être exploités pour des tâches de recherche d'information à partir de gros volumes de données
We have work for a long time on the classification of text. Early on, many documents of different types were grouped in order to centralize knowledge. Classification and indexing systems were then created. They make it easy to find documents based on readers' needs. With the increasing number of documents and the appearance of computers and the internet, the implementation of text classification systems becomes a critical issue. However, textual data, complex and rich nature, are difficult to treat automatically. In this context, this thesis proposes an original methodology to organize and facilitate the access to textual information. Our automatic classification approache and our semantic information extraction enable us to find quickly a relevant information.Specifically, this manuscript presents new forms of text representation facilitating their processing for automatic classification. A partial generalization of textual data (GenDesc approach) based on statistical and morphosyntactic criteria is proposed. Moreover, this thesis focuses on the phrases construction and on the use of semantic information to improve the representation of documents. We will demonstrate through numerous experiments the relevance and genericity of our proposals improved they improve classification results.Finally, as social networks are in strong development, a method of automatic generation of semantic Hashtags is proposed. Our approach is based on statistical measures, semantic resources and the use of syntactic information. The generated Hashtags can then be exploited for information retrieval tasks from large volumes of data

Los estilos APA, Harvard, Vancouver, ISO, etc.

Azé, Jérôme. "Extraction de Connaissances à partir de Données Numériques et Textuelles". Phd thesis, Université Paris Sud - Paris XI, 2003. http://tel.archives-ouvertes.fr/tel-00011196.

Texto completo

Resumen

Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.
L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.
Les experts des données ont souvent des difficultés pour déterminer ce support.
Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.
Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".
Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.
Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.

Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.
Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.
Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.

Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.
Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.
Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.
Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Fize, Jacques. "Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale". Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS099.

Texto completo

Resumen

Avec l’essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel « or noir ». Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimensions spatiale.La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la géoreprésentation et le géomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le géomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents.La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale
With the rise of Big Data, the processing of Volume, Velocity (growth and evolution) and data Variety concentrates the efforts of communities to exploit these new resources. These new resources have become so important that they are considered the new "black gold". In recent years, volume and velocity have been aspects of the data that are controlled, unlike variety, which remains a major challenge. This thesis presents two contributions in the field of heterogeneous data matching, with a focus on the spatial dimension.The first contribution is based on a two-step process for matching heterogeneous textual data: georepresentation and geomatching. In the first phase, we propose to represent the spatial dimension of each document in a corpus through a dedicated structure, the Spatial Textual Representation (STR). This graph representation is composed of the spatial entities identified in the document, as well as the spatial relationships they maintain. To identify the spatial entities of a document and their spatial relationships, we propose a dedicated resource, called Geodict. The second phase, geomatching, computes the similarity between the generated representations (STR). Based on the nature of the STR structure (i.e. graph), different algorithms of graph matching were studied. To assess the relevance of a match, we propose a set of 6 criteria based on a definition of the spatial similarity between two documents.The second contribution is based on the thematic dimension of textual data and its participation in the spatial matching process. We propose to identify the themes that appear in the same contextual window as certain spatial entities. The objective is to induce some of the implicit spatial similarities between the documents. To do this, we propose to extend the structure of STR using two concepts: the thematic entity and the thematic relationship. The thematic entity represents a concept specific to a particular field (agronomic, medical) and represented according to different spellings present in a terminology resource, in this case a vocabulary. A thematic relationship links a spatial entity to a thematic entity if they appear in the same window. The selected vocabularies and the new form of STR integrating the thematic dimension are evaluated according to their coverage on the studied corpora, as well as their contributions to the heterogeneous textual matching process on the spatial dimension

Los estilos APA, Harvard, Vancouver, ISO, etc.

Holat, Pierre. "Fouille de motifs et modélisation statistique pour l'extraction de connaissances textuelles". Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD045.

Texto completo

Resumen

En traitement automatique des langues, deux grandes approches sont utilisées : l'apprentissage automatique et la fouille de données. Dans ce contexte, croiser les méthodes de fouille de données fondées sur les motifs et les méthodes d’apprentissage automatique statistique est une voie prometteuse mais à peine explorée. Dans cette thèse, nous présentons trois contributions majeures : l'introduction des motifs delta libres,utilisés comme descripteurs de modèle statistiques; l'introduction d'une contrainte de similarité sémantique pour la fouille, calculée grâce à un modèle statistique; l'introduction des règles séquentielles d'étiquetage,crées à partir des motifs et sélectionnées par un modèle statistique
In natural language processing, two main approaches are used : machine learning and data mining. In this context, cross-referencing data mining methods based on patterns and statistical machine learning methods is apromising but hardly explored avenue. In this thesis, we present three major contributions: the introduction of delta-free patterns, used as statistical model features; the introduction of a semantic similarity constraint for the mining, calculated using a statistical model; and the introduction of sequential labeling rules, created from the patterns and selected by a statistical model

Los estilos APA, Harvard, Vancouver, ISO, etc.

Séguéla, Julie. "Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web". Thesis, Paris, CNAM, 2012. http://www.theses.fr/2012CNAM0801/document.

Texto completo

Resumen

L'expansion du média Internet pour le recrutement a entraîné ces dernières années la multiplication des canaux dédiés à la diffusion des offres d'emploi. Dans un contexte économique où le contrôle des coûts est primordial, évaluer et comparer les performances des différents canaux de recrutement est devenu un besoin pour les entreprises. Cette thèse a pour objectif le développement d'un outil d'aide à la décision destiné à accompagner les recruteurs durant le processus de diffusion d'une annonce. Il fournit au recruteur la performance attendue sur les sites d'emploi pour un poste à pourvoir donné. Après avoir identifié les facteurs explicatifs potentiels de la performance d'une campagne de recrutement, nous appliquons aux annonces des techniques de fouille de textes afin de les structurer et d'en extraire de l'information pertinente pour enrichir leur description au sein d'un modèle explicatif. Nous proposons dans un second temps un algorithme prédictif de la performance des offres d'emploi, basé sur un système hybride de recommandation, adapté à la problématique de démarrage à froid. Ce système, basé sur une mesure de similarité supervisée, montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée. Nos expérimentations sont menées sur un jeu de données réelles, issues d'une base de données d'annonces publiées sur des sites d'emploi
Last years, e-recruitment expansion has led to the multiplication of web channels dedicated to job postings. In an economic context where cost control is fundamental, assessment and comparison of recruitment channel performances have become necessary. The purpose of this work is to develop a decision-making tool intended to guide recruiters while they are posting a job on the Internet. This tool provides to recruiters the expected performance on job boards for a given job offer. First, we identify the potential predictors of a recruiting campaign performance. Then, we apply text mining techniques to the job offer texts in order to structure postings and to extract information relevant to improve their description in a predictive model. The job offer performance predictive algorithm is based on a hybrid recommender system, suitable to the cold-start problem. The hybrid system, based on a supervised similarity measure, outperforms standard multivariate models. Our experiments are led on a real dataset, coming from a job posting database

Los estilos APA, Harvard, Vancouver, ISO, etc.

Séguéla, Julie. "Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web". Electronic Thesis or Diss., Paris, CNAM, 2012. http://www.theses.fr/2012CNAM0801.

Texto completo

Resumen

Los estilos APA, Harvard, Vancouver, ISO, etc.

Zenasni, Sarah. "Extraction d'information spatiale à partir de données textuelles non-standards". Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS076/document.

Texto completo

Resumen

L’extraction d’information spatiale à partir de données textuelles est désormais un sujet de recherche important dans le domaine du Traitement Automatique du Langage Naturel (TALN). Elle répond à un besoin devenu incontournable dans la société de l’information, en particulier pour améliorer l’efficacité des systèmes de Recherche d’Information (RI) pour différentes applications (tourisme, aménagement du territoire, analyse d’opinion, etc.). De tels systèmes demandent une analyse fine des informations spatiales contenues dans les données textuelles disponibles (pages web, courriels, tweets, SMS, etc.). Cependant, la multitude et la variété de ces données ainsi que l’émergence régulière de nouvelles formes d’écriture rendent difficile l’extraction automatique d’information à partir de corpus souvent peu standards d’un point de vue lexical voire syntaxique.Afin de relever ces défis, nous proposons, dans cette thèse, des approches originales de fouille de textes permettant l’identification automatique de nouvelles variantes d’entités et relations spatiales à partir de données textuelles issues de la communication médiée. Ces approches sont fondées sur trois principales contributions qui sont cruciales pour fournir des méthodes de navigation intelligente. Notre première contribution se concentre sur la problématique de reconnaissance et d’extraction des entités spatiales à partir de corpus de messages courts (SMS, tweets) marqués par une écriture peu standard. La deuxième contribution est dédiée à l’identification de nouvelles formes/variantes de relations spatiales à partir de ces corpus spécifiques. Enfin, la troisième contribution concerne l’identification des relations sémantiques associées à l’information spatiale contenue dans les textes. Les évaluations menées sur des corpus réels, principalement en français (SMS, tweets, presse), soulignent l’intérêt de ces contributions. Ces dernières permettent d’enrichir la typologie des relations spatiales définies dans la communauté scientifique et, plus largement, de décrire finement l’information spatiale véhiculée dans les données textuelles non standards issues d’une communication médiée aujourd’hui foisonnante
The extraction of spatial information from textual data has become an important research topic in the field of Natural Language Processing (NLP). It meets a crucial need in the information society, in particular, to improve the efficiency of Information Retrieval (IR) systems for different applications (tourism, spatial planning, opinion analysis, etc.). Such systems require a detailed analysis of the spatial information contained in the available textual data (web pages, e-mails, tweets, SMS, etc.). However, the multitude and the variety of these data, as well as the regular emergence of new forms of writing, make difficult the automatic extraction of information from such corpora.To meet these challenges, we propose, in this thesis, new text mining approaches allowing the automatic identification of variants of spatial entities and relations from textual data of the mediated communication. These approaches are based on three main contributions that provide intelligent navigation methods. Our first contribution focuses on the problem of recognition and identification of spatial entities from short messages corpora (SMS, tweets) characterized by weakly standardized modes of writing. The second contribution is dedicated to the identification of new forms/variants of spatial relations from these specific corpora. Finally, the third contribution concerns the identification of the semantic relations associated withthe textual spatial information

Los estilos APA, Harvard, Vancouver, ISO, etc.

Pantin, Jérémie. "Détection et caractérisation sémantique de données textuelles aberrantes". Electronic Thesis or Diss., Sorbonne université, 2023. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2023SORUS347.pdf.

Texto completo

Resumen

L'apprentissage automatique répond au problème du traitement de tâches spécifiques pour une grande variété de données. Ces algorithmes peuvent être simples ou difficiles à mettre en place, et c'est par ailleurs le même constat qui peut être fait pour les données. Les données de faible dimension (2 ou 3 dimensions) avec une représentation intuitive (ex. moyenne du prix des baguette par années) sont plus faciles à interpréter/expliquer pour un humain que les données avec des milliers de dimensions. Pour les données à faible dimension, une donnée aberrantes conduit souvent à un décalage conséquent par rapport aux données normales, mais pour le cas des données à haute dimension, c'est différent. La détection des données aberrantes (ou détection d'anomalie, ou détection de nouveauté) est l'étude des observations singulières pour détecter ce qui est normal et anormal. Différentes familles d'approches peuvent être trouvées dans la littérature sur la détection des aberrations. Elles effectuent une analyse des valeurs aberrantes en détectant les comportements principaux de la majorité des observations. Ainsi, les données qui diffèrent de la distribution normale sont considérées comme bruit ou aberration. Nous nous intéressons à l'application de cette tâche au texte. Malgré les progrès récents dans le traitement du langage naturel il est difficile pour une machine de traiter certains contextes. Par exemple, la phrase "Un sourire est une courbe qui redresse tout" a plusieurs niveaux de compréhension, et une machine peut rencontrer des difficultés pour choisir le bon niveau de lecture. Cette thèse présente l'analyse des valeurs aberrantes de haute dimension, appliquée au texte. Peu de travaux s'intéressent à ce contexte précis et nous introduisons un formalisme dédié. Nous abordons également les méthodes d'ensemble qui sont quasiment inexistantes dans la littérature pour notre contexte. Enfin, nous pouvons voir que l'application de la détection de valeurs aberrantes amène des améliorations sur le résumé de texte automatique par abstraction. Dans nos travaux, nous proposons GenTO, une méthode qui prépare et génère un fractionnement des données dans lequel sont insérées des anomalies et des valeurs aberrantes. Sur la base de cette méthode, nous proposons une évaluation et un benchmark des approches de détection de valeurs aberrantes avec des documents. En outre, l'apprentissage sans supervision conduit souvent les modèles à se fier à certains hyperparamètres. À cet égard, nous explorons l'influence de ce genre de paramètre pour les données textuelles. Alors que le choix d'un seul modèle peut entraîner un biais évident par rapport aux données du monde réel, les méthodes d'ensemble permettent d'atténuer ce problème. Elles sont particulièrement efficaces pour l'analyse des valeurs aberrantes. En effet, la sélection de plusieurs valeurs pour un hyperparamètre peut aider à détecter des valeurs aberrantes fortes. L'importance est alors abordée et peut aider un humain à comprendre la sortie d'un modèle boîte noire. Ainsi, l'interprétabilité des modèles de détection de valeurs aberrantes est remise en question. L'association de modèles complets et de modèles restreints permet d'atténuer l'effet boîte noire de certaines approches. Dans certains cas, la détection des aberrations fait référence à la suppression du bruit ou à la détection des anomalies. Certaines applications peuvent bénéficier de la caractéristique d'une telle tâche. La détection des spams et des fake news en est un exemple, mais nous proposons d'utiliser les approches de détection des aberrations pour l'exploration des signaux faibles dans un projet de marketing (par exemple). Ainsi, nous observons que les modèles de la littérature aident à améliorer les approches de résumé de texte par abstraction, sans supervision. Ceux-ci permettent également de trouver les signaux faibles dans le texte
Machine learning answers to the problem of handling dedicated tasks with a wide variety of data. Such algorithms can be either simple or difficult to handle depending of the data. Low dimensional data (2-dimension or 3-dimension) with an intuitive representation (average of baguette price by years) are easier to interpret/explain for a human than data with thousands of dimensions. For low dimensional data, the error leads to a significant shift against normal data, but for the case of high dimensional data it is different. Outlier detection (or anomaly detection, or novelty detection) is the study of outlying observations for detecting what is normal and abnormal. Methods that perform such task are algorithms, methods or models that are based on data distributions. Different families of approaches can be found in the literature of outlier detection, and they are mainly independent of ground truth. They perform outlier analysis by detecting the principal behaviors of majority of observations. Thus, data that differ from normal distribution are considered noise or outlier. We detail the application of outlier detection with text. Despite recent progress in natural language processing, computer still lack profound understanding of human language in absence of information. For instance, the sentence "A smile is a curve that set everything straight" has several levels of understanding and a machine can encounter hardship to chose the right level of lecture. This thesis presents the analysis of high-dimensional outliers, applied to text. Recent advances in anomaly detection and outlier detection are not significantly represented with text data and we propose to highlight the main differences with high-dimensional outliers. We also approach ensemble methods that are nearly nonexistent in the literature for our context. Finally, an application of outlier detection for elevate results on abstractive summarization is conducted. We propose GenTO, a method that prepares and generates split of data in which anomalies and outliers are inserted. Based on this method, evaluation and benchmark of outlier detection approaches is proposed with documents. The proposed taxonomy allow to identify difficult and hierarchised outliers that the literature tackles without knowing. Also, learning without supervision often leads models to rely in some hyperparameter. For instance, Local Outlier Factor relies to the k-nearest neighbors for computing the local density. Thus, choosing the right value for k is crucial. In this regard, we explore the influence of such parameter for text data. While choosing one model can leads to obvious bias against real-world data, ensemble methods allow to mitigate such problem. They are particularly efficient with outlier analysis. Indeed, the selection of several values for one hyperparameter can help to detect strong outliers.Importance is then tackled and can help a human to understand the output of black box model. Thus, the interpretability of outlier detection models is questioned. We find that for numerous dataset, a low number of features can be selected as oracle. The association of complete models and restrained models helps to mitigate the black-box effect of some approaches. In some cases, outlier detection refers to noise removal or anomaly detection. Some applications can benefit from the characteristic of such task. Mail spam detection and fake news detection are one example, but we propose to use outlier detection approaches for weak signal exploration in marketing project. Thus, we find that the model of the literature help to improve unsupervised abstractive summarization, and also to find weak signals in text

Los estilos APA, Harvard, Vancouver, ISO, etc.

Hussain, Syed Fawad. "Une nouvelle mesure de co-similarité : applications aux données textuelles et génomique". Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM049.

Texto completo

Resumen

La classification de données (apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grands nombre de propriétés, il devient nécessaire d'adapter les méthodes classique, notamment au niveau des métriques, afin de maintenir des classes pertinentes; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche circulaire, nous mettons en correspondance des documents sans mots communs mais juste des mots similaires. Cette approche s'effectue sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendu pour tirer partie de connaissances "a priori" pour réaliser des tâches de catégorisation de textes: l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadn conceptuel, exprimable en terme de la théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, pour le co-clustering et la catégorisation sur les jeux d données qui ont été testés
Clustering is the unsupervised classification of patterns (observations, data items, or feature vectors) into homogeneous and contrasted groups (clusters As datasets become larger and more varied, adaptations to existing algorithms are required to maintain the quality of cluster. Ln this regard, high¬dimensional data poses sorne problems for traditional clustering algorithms known as the curse of dimensionality. This thesis proposes a co-similarity based algorithm that is based on the concept of higher-order co-occurrences, which are extracted from the given data. Ln the case of text analysis, for example, document similarity is calculated based on word similarity, which in turn is calculated on the basis of document similarity. Using this iterative approach, we can bring similar documents closer together even if they do not share the same words but share similar words. This approach doesn't need externallinguistic resources like a thesaurus Furthermore this approach can also be extended to incorporate prior knowledge from a training dataset for the task of text categorization. Prior categor labels coming from data in the training set can be used to influence similarity measures between worlds to better classify incoming test dataset among the different categories. Thus, the same conceptual approach, that can be expressed in the framework of the graph theory, can be used for both clustering and categorization task depending on the amount of prior information available. Our results show significant increase in the accuracy with respect to the state of the art of both one-way and two-way clustering on the different datasets that were tested

Los estilos APA, Harvard, Vancouver, ISO, etc.

Más fuentes

Capítulos de libros sobre el tema "Fouille de Données Textuelles Hétérogènes"

Kaddour, Cyrille Ben, François Capron y Olivier Labat. "Archéologie des habitats ruraux alto-médiévaux en Eure-et-Loir". En L’archéologie des ve-xiie siècles en région Centre-Val de Loire, 127–41. Tours: Fédération pour l’édition de la Revue archéologique du Centre de la France, 2024. https://doi.org/10.4000/13ibo.

Texto completo

Resumen

Depuis une trentaine d’années et le développement de l’archéologie préventive, les données concernant l’habitat rural du haut Moyen Âge se sont accumulées en Eure-et-Loir. Un bilan de ces connaissances devenait nécessaire. Celles-ci sont assez hétérogènes d’un site à l’autre, résultant de contextes d’interventions divers : certaines occupations ont été mises au jour fortuitement sur des sites dont la fouille était motivée par des vestiges d’autres périodes chronologiques, d’autres ont été abordées de manière superficielle ou étudiées sur des superficies restreintes, et d’autres encore ont pu faire l’objet d’études beaucoup plus poussées, menées sur de vastes emprises très denses témoignant d’habitats groupés et pérennes sur le temps long. Seront abordés ici l’organisation et l’évolution des sites, ainsi que leurs équipements et les activités qu’ils abritaient, au prisme des différents types de structures (bâtiments sur poteaux, fonds de cabanes, silos, fours, sépultures, etc.), mais aussi du mobilier et des écofacts.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Marchaisseau, Vincent, Muriel Boulen, Adrien Gonnet, Blandine Lecomte-Schmitt, Willy Tegel, Pierre Testard y Cédric Roms. "Le drainage d’une zone humide intégrée à la ville de Troyes (xiiie-xviiie s.)". En L’eau dans les villes d’Europe au Moyen Âge (IVe-XVe siècle) : un vecteur de transformation de l’espace urbain, 55–69. Tours: Fédération pour l’édition de la Revue archéologique du Centre de la France, 2023. https://doi.org/10.4000/1377c.

Texto completo

Resumen

Une fouille réalisée en 2019 a permis de documenter une zone humide tardivement intégrée à l’espace urbain, lors de l’extension de l’enceinte en 1229-1230. Un système de drainage sous la forme de canaux et fossés est mis en place selon un tracé qui sera respecté jusqu’au xviiie s. Les structures domestiques sont alors peu nombreuses et les terrains ne font pas l’objet d’un lotissement ; c’est l’image d’une zone dédiée au maraîchage et à l’horticulture qui ressort des données archéologiques et textuelles. Deux zones funéraires ont toutefois été perçues : l’extension septentrionale d’une petite nécropole carolingienne et un cimetière plus atypique, le « cimetière des Clercs », accueillant les individus morts dans les prisons de l’évêque ainsi que les suicidés. Le début du xvie s. voit des changements importants dans les canaux transformés en bonde, c’est-à-dire des canaux construits en bois avec pieux et palplanches. C’est finalement vers la fin du xviiie s. que les terrains sont investis par les premières constructions avec l’aménagement des bains publics, inaugurés en 1767.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Lecroère, Thomas, Hervé Sellès y Vincent Acheré. "Les enceintes urbaines de Chartres, entre Bas-Empire et haut Moyen Âge. État des connaissances et hypothèses de tracés". En L’archéologie des ve-xiie siècles en région Centre-Val de Loire, 19–36. Tours: Fédération pour l’édition de la Revue archéologique du Centre de la France, 2024. https://doi.org/10.4000/13ib6.

Texto completo

Resumen

Mentionnée dans les textes dès le dernier quart du ve s. et décrite par le moine Paul, à la fin du xie s., comme constituée de hauts murs et pourvue de tours, l’existence d’une enceinte urbaine autour de Chartres dès le Bas-Empire reste cependant hypothétique. En revanche, les sources textuelles semblent confirmer l’existence d’une enceinte au plus tôt dès le ixe s. Le moine Paul considère que cette fortification, toujours visible au moment où il écrit, résulte d’une réduction de l’enceinte tardo-antique par un regroupement de la population “dans un angle de la cité”. Les différents auteurs qui rédigent du xviie au début du xxe s. s’accordent sur une défense ramassée sur la pointe de l’éperon formé par la confluence des vallées de l’Eure et des Vauroux. Une fouille menée en 2003-2004 dans le cadre de l’opération Cœur de ville a mis au jour, boulevard Chasles, un fossé large d’une dizaine de mètres à l’ouverture et au profil en V. Le mobilier découvert lors de la fouille, la présence de fours à chaux installés en bordure du fossé et de sépultures creusées dans son comblement indiquent une fourchette chronologique comprise entre le ive et le viiie s. La datation et l’identification de ce fossé jusqu’alors inconnu restent hypothétiques : enceinte du Bas-Empire ou fortification alto-médiévale ? En procédant à un examen morphologique du parcellaire, il est possible de définir pour l’enceinte alto-médiévale une hypothèse de tracé assez proche de celui proposé par l’historiographie. De plus, une prospection réalisée dans le cadre d’un projet de recensement des caves et cavités du centre-ville a révélé un mur daté du xie s. au nord de la cathédrale, pouvant correspondre à un vestige de cette enceinte. Ainsi, en replaçant le fossé du boulevard Chasles et le tracé restitué de l’enceinte alto-médiévale dans la topographie de la ville, le premier semble se présenter comme un barrage d’éperon, tandis que la seconde apparaît comme une réduction de son assiette. Cela nous autorise à reconsidérer de manière plus littérale les écrits de Paul, qui rédige son texte à peine deux siècles après les faits. Et si le fossé du boulevard Chasles était l’un des vestiges de l’enceinte du Bas-Empire ? Cette relecture des sources au regard des récentes découvertes archéologiques est une première étape dans la recherche de ces enceintes, que ce soit au cours des futures opérations ou en reprenant les données de fouilles anciennes.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Lechevrel, Nadège. "Chapitre 5. Fouille de données textuelles et recherche documentaire automatiques pour l’histoire des théories linguistiques". En Apparenter la pensée ?, 219. Editions Matériologiques, 2014. http://dx.doi.org/10.3917/edmat.charb.2014.01.0219.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!