Bibliografías temáticas / Classification interlinguistique des textes

Índice

Artículos de revistas
Tesis
Libros
Capítulos de libros

Literatura académica sobre el tema "Classification interlinguistique des textes"

Autor: Grafiati

Publicado: 2 de julio de 2021

Última modificación: 1 de febrero de 2022

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Classification interlinguistique des textes".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Artículos de revistas sobre el tema "Classification interlinguistique des textes"

Holl, Iris y Pilar Elena. "Análisis textual y jurídico comparado para la traducción: el caso de las capitulaciones matrimoniales alemanas y españolas". Meta 60, n.º 3 (5 de abril de 2016): 494–517. http://dx.doi.org/10.7202/1036140ar.

Texto completo

Resumen

La comparaison interlinguistique et interculturelle de types de textes juridiques met en évidence les traits distinctifs des systèmes juridiques dont ils font partie, tout en révélant les différentes conventions textuelles qui caractérisent les langues juridiques nationales. Par conséquent, l’analyse comparative peut entraîner des résultats intéressants pour la traduction de textes juridiques impliquant deux systèmes juridiques différents et deux cultures linguistiques différentes. Cet article a pour but de prouver cette hypothèse en comparant des contrats de mariage allemands et espagnols. La méthodologie proposée se fonde sur l’étude comparative juridique et textuelle.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Bohn, Véronique. "Diversité des pratiques dans la production plurilingue de textes politiques. Comparaison entre trois partis suisses". Articles hors thème 29, n.º 1 (24 de julio de 2018): 161–83. http://dx.doi.org/10.7202/1050712ar.

Texto completo

Resumen

Qu’ils soient étatiques ou non, les acteurs qui évoluent dans un système officiellement plurilingue doivent tenir compte de l’existence de plusieurs communautés linguistiques. La question qui se pose alors est de savoir comment il est possible de communiquer politiquement dans un tel contexte. En particulier, il paraît essentiel pour l’existence d’une vie démocratique d’empêcher que les discussions ne soient cloisonnées par publics de langues maternelles différentes et donc d’assurer une coordination des messages entre les langues. Dans notre étude qualitative, nous nous intéressons aux dispositifs que trois partis politiques suisses ont mis en place pour assurer ce lien dans la production des périodiques destinés à leurs membres. Ces pratiques, que nous appelons « modes de coordination interlinguistique », peuvent impliquer, à des degrés divers, l’utilisation de la traduction. Au-delà de la description de ces modes, il s’agit de comprendre les logiques qui guident le choix d’une pratique particulière et qui sont définies comme l’ensemble cohérent d’éléments représentationnels et matériels, internes et externes au parti. Pour comprendre ces logiques, des entretiens semi-structurés ont été menés avec les responsables des publications, et les logiques qu’ils permettent de mettre en évidence ont ensuite été comparées. En particulier, l’accent est mis sur les éléments qui divergent d’un parti à l’autre et qui semblent expliquer l’adoption d’une pratique plutôt qu’une autre. Les résultats sont exposés selon trois grands thèmes : développement historique des publications, perception de la traduction et articulation entre stratégie politique et système de valeurs. De manière plus générale, l’étude suggère que de nombreux éléments entrent en ligne de compte dans la production plurilingue des textes politiques et que la situation est bien plus complexe qu’une simple distinction entre traduction et non-traduction.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Emery, Peter G. "Text Classification and Text Analysis in Advances Translation Teaching". Meta 36, n.º 4 (30 de septiembre de 2002): 567–77. http://dx.doi.org/10.7202/002707ar.

Texto completo

Resumen

Résumé On étudie d'abord les différentes bases théoriques sur lesquelles se fonde la classification des textes tout en préconisant comme critère prépondérant le domaine ou « contexte social ». On traite des méthodes d'analyse de textes en tenant compte de certaines théories linguistiques. Enfin, on souligne l'importance de l'analyse textuelle dans la pédagogie de la traduction. Les exemples illuslrafifs sont tirés de traductions arabe/anglais.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Baron, Irène. "Les syntagmes nominaux complexes dans les textes juridiques français". HERMES - Journal of Language and Communication in Business 5, n.º 9 (29 de julio de 2015): 19. http://dx.doi.org/10.7146/hjlcb.v5i9.21504.

Texto completo

Resumen

With its point of departure in the verb valency theory, the present article introduces a classification of complex NPs in French legal texts. The heads of the NPs are subdivided into predicative and non-predicative nouns: predicative when they show the same valency pattern as verbs and non-predicative when they do not. The two classes may have bound and free expansions in the form of both complements and modifiers. The final classification of the NPs thus consists of eight different categories. The syntactic distrinction between predicative and non-predicative nouns is supplemented, on the semantic level, by a gradable scale, ranging from the concrete to the abstract, along which the nouns are placed according to their degree of predication, i.e. according to the number of valents.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Banks, Jonathan y Lukas Neukom. "Description grammaticale du nateni (Benin): Systeme Verbal, Classification Nominale, Phrases Complexes, Textes". Language 76, n.º 1 (marzo de 2000): 197. http://dx.doi.org/10.2307/417413.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Chemla, Karine. "La pertinence du concept de classification pour l'analyse de textes mathématiques chinois". Extrême orient Extrême occident 10, n.º 10 (1988): 61–87. http://dx.doi.org/10.3406/oroc.1988.872.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Barry, Catherine. "Les textes de Nag Hammadi et le problème de leur classification. Chronique d’un colloque". Laval théologique et philosophique 50, n.º 2 (1994): 421. http://dx.doi.org/10.7202/400847ar.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Forest, Dominic. "Vers une nouvelle génération d’outils d’analyse et de recherche d’information". Documentation et bibliothèques 55, n.º 2 (12 de marzo de 2015): 77–89. http://dx.doi.org/10.7202/1029091ar.

Texto completo

Resumen

Les récents efforts visant à favoriser la diffusion et la circulation de l’information en format numérique ont contribué au phénomène de l’infobésité (information overload). Il est désormais important de concevoir des outils de recherche d’information plus adaptés aux besoins des utilisateurs afin de leur permettre de récupérer les documents pertinents répondant à leurs besoins informationnels. Dans cet article, nous ferons état, dans un premier temps, de certaines observations sur les conséquences découlant des limites des outils traditionnels en recherche d’information numérique. Dans un deuxième temps, nous exposerons les concepts et les techniques de base du domaine de la fouille de textes, en insistant sur les opérations de classification et de catégorisation automatiques. Finalement, nous montrerons comment certaines techniques de fouille de textes peuvent contribuer au développement d’une nouvelle génération d’outils de recherche d’information.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Banks, Jonathan. "Description grammaticale du nateni (Bénin): Système verbal, classification nominale, phrases complexes, textes By Lukas Neukom". Language 76, n.º 1 (2000): 197–98. http://dx.doi.org/10.1353/lan.2000.0003.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Mezeg, Adriana. "Le vocabulaire militaire dans le corpus français-slovène FraSloK". Linguistica 58, n.º 1 (14 de marzo de 2019): 237–48. http://dx.doi.org/10.4312/linguistica.58.1.237-248.

Texto completo

Resumen

Le présent article se propose d’étudier l’usage du vocabulaire militaire dans le corpus parallèle français-slovène FraSloK, qui contient des textes publiés entre 1995 et 2009. Partant de la fréquence d’occurrences du mot guerre(s) dans les textes français sources, le sous-corpus journalistique composé de 300 articles du Monde diplomatique et 3 romans du sous-corpus littéraire se sont avérés intéressants pour notre recherche. À la base des listes de tous les mots utilisés, nous avons manuellement extrait les noms du domaine militaire (3735 occurrences pour 289 mots différents). Appuyée sur des dictionnaires monolingues français et slovènes, la classification par niveaux de langue témoigne de la prédominance de la langue standard en français bien que certains mots soient très spécialisés ; il est intéressant de noter que dans le principal dictionnaire slovène, plusieurs traductions (équivalents slovènes de tels mots français) portent un indicateur du registre de langue non standard (militaire, jargon, jargon militaire, etc.). En outre, les textes de notre corpus contiennent un certain nombre de mots d’origine étrangère ou bien d’emprunts, tandis que ceux d’autres registres de langue (ancien, courant, familier, moderne, politique, vieux) ne sont que sporadiques. Les mots portant l’indicateur militaire ou argot sont quasi inexistants. Notre article révèle de quelles guerres parlent les textes français du FraSloK, expose le lexique utilisé regroupé dans cinq catégories de variétés du français et identifie les stratégies de traduction vers le slovène employées.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Más fuentes

Tesis sobre el tema "Classification interlinguistique des textes"

Mozafari, Marzieh. "Hate speech and offensive language detection using transfer learning approaches". Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS007.

Texto completo

Resumen

Une des promesses des plateformes de réseaux sociaux (comme Twitter et Facebook) est de fournir un endroit sûr pour que les utilisateurs puissent partager leurs opinions et des informations. Cependant, l’augmentation des comportements abusifs, comme le harcèlement en ligne ou la présence de discours de haine, est bien réelle. Dans cette thèse, nous nous concentrons sur le discours de haine, l'un des phénomènes les plus préoccupants concernant les réseaux sociaux.Compte tenu de sa forte progression et de ses graves effets négatifs, les institutions, les plateformes de réseaux sociaux et les chercheurs ont tenté de réagir le plus rapidement possible. Les progrès récents des algorithmes de traitement automatique du langage naturel (NLP) et d'apprentissage automatique (ML) peuvent être adaptés pour développer des méthodes automatiques de détection des discours de haine dans ce domaine.Le but de cette thèse est d'étudier le problème du discours de haine et de la détection des propos injurieux dans les réseaux sociaux. Nous proposons différentes approches dans lesquelles nous adaptons des modèles avancés d'apprentissage par transfert (TL) et des techniques de NLP pour détecter automatiquement les discours de haine et les contenus injurieux, de manière monolingue et multilingue.La première contribution concerne uniquement la langue anglaise. Tout d'abord, nous analysons le contenu textuel généré par les utilisateurs en introduisant un nouveau cadre capable de catégoriser le contenu en termes de similarité basée sur différentes caractéristiques. En outre, en utilisant l'API Perspective de Google, nous mesurons et analysons la « toxicité » du contenu. Ensuite, nous proposons une approche TL pour l'identification des discours de haine en utilisant une combinaison du modèle non supervisé pré-entraîné BERT (Bidirectional Encoder Representations from Transformers) et de nouvelles stratégies supervisées de réglage fin. Enfin, nous étudions l'effet du biais involontaire dans notre modèle pré-entraîné BERT et proposons un nouveau mécanisme de généralisation dans les données d'entraînement en repondérant les échantillons puis en changeant les stratégies de réglage fin en termes de fonction de perte pour atténuer le biais racial propagé par le modèle. Pour évaluer les modèles proposés, nous utilisons deux datasets publics provenant de Twitter.Dans la deuxième contribution, nous considérons un cadre multilingue où nous nous concentrons sur les langues à faibles ressources dans lesquelles il n'y a pas ou peu de données annotées disponibles. Tout d'abord, nous présentons le premier corpus de langage injurieux en persan, composé de 6 000 messages de micro-blogs provenant de Twitter, afin d'étudier la détection du langage injurieux. Après avoir annoté le corpus, nous réalisons étudions les performances des modèles de langages pré-entraînés monolingues et multilingues basés sur des transformeurs (par exemple, ParsBERT, mBERT, XLM-R) dans la tâche en aval. De plus, nous proposons un modèle d'ensemble pour améliorer la performance de notre modèle. Enfin, nous étendons notre étude à un problème d'apprentissage multilingue de type " few-shot ", où nous disposons de quelques données annotées dans la langue cible, et nous adaptons une approche basée sur le méta-apprentissage pour traiter l'identification des discours de haine et du langage injurieux dans les langues à faibles ressources
The great promise of social media platforms (e.g., Twitter and Facebook) is to provide a safe place for users to communicate their opinions and share information. However, concerns are growing that they enable abusive behaviors, e.g., threatening or harassing other users, cyberbullying, hate speech, racial and sexual discrimination, as well. In this thesis, we focus on hate speech as one of the most concerning phenomenon in online social media.Given the high progression of online hate speech and its severe negative effects, institutions, social media platforms, and researchers have been trying to react as quickly as possible. The recent advancements in Natural Language Processing (NLP) and Machine Learning (ML) algorithms can be adapted to develop automatic methods for hate speech detection in this area.The aim of this thesis is to investigate the problem of hate speech and offensive language detection in social media, where we define hate speech as any communication criticizing a person or a group based on some characteristics, e.g., gender, sexual orientation, nationality, religion, race. We propose different approaches in which we adapt advanced Transfer Learning (TL) models and NLP techniques to detect hate speech and offensive content automatically, in a monolingual and multilingual fashion.In the first contribution, we only focus on English language. Firstly, we analyze user-generated textual content to gain a brief insight into the type of content by introducing a new framework being able to categorize contents in terms of topical similarity based on different features. Furthermore, using the Perspective API from Google, we measure and analyze the toxicity of the content. Secondly, we propose a TL approach for identification of hate speech by employing a combination of the unsupervised pre-trained model BERT (Bidirectional Encoder Representations from Transformers) and new supervised fine-tuning strategies. Finally, we investigate the effect of unintended bias in our pre-trained BERT based model and propose a new generalization mechanism in training data by reweighting samples and then changing the fine-tuning strategies in terms of the loss function to mitigate the racial bias propagated through the model. To evaluate the proposed models, we use two publicly available datasets from Twitter.In the second contribution, we consider a multilingual setting where we focus on low-resource languages in which there is no or few labeled data available. First, we present the first corpus of Persian offensive language consisting of 6k micro blog posts from Twitter to deal with offensive language detection in Persian as a low-resource language in this domain. After annotating the corpus, we perform extensive experiments to investigate the performance of transformer-based monolingual and multilingual pre-trained language models (e.g., ParsBERT, mBERT, XLM-R) in the downstream task. Furthermore, we propose an ensemble model to boost the performance of our model. Then, we expand our study into a cross-lingual few-shot learning problem, where we have a few labeled data in target language, and adapt a meta-learning based approach to address identification of hate speech and offensive language in low-resource languages

Los estilos APA, Harvard, Vancouver, ISO, etc.

Poirier, Damien. "Des textes communautaires à la recommandation". Phd thesis, Université d'Orléans, 2011. http://tel.archives-ouvertes.fr/tel-00597422.

Texto completo

Resumen

La thèse concerne la transformation de données textuelles non structurées en données structurées et exploitables par des systèmes de recommandation. Deux grandes catégories d'informations sont utilisées dans le domaine des moteurs de recommandation : les données descriptives de contenus comme les méta-données ou les tags (filtrage thématique), et les données d'usages qui peuvent être des notes ou encore des pages Web visitées par exemple (filtrage collaboratif). D'autres données sont présentes sur le Web et ne sont pas encore réellement exploitées. Avec l'émergence du Web 2.0, les internautes sont de plus en plus amenés à partager leurs sentiments, opinions, expériences sur des produits, personnalités, films, musiques, etc. Les données textuelles produites par les utilisateurs représentent potentiellement des sources riches d'informations qui peuvent être complémentaires des données exploitées actuellement par les moteurs de recommandation et peuvent donc ouvrir de nouvelles voies d'études dans ce domaine en plein essor. Notre objectif dans le cadre de la thèse est de produire, à partir de commentaires issus de sites communautaires (blogs ou forums), des matrices d'entrées pertinentes pour les systèmes de recommandation. L'idée sous-jacente est de pouvoir enrichir un système pour un service débutant, qui possède encore peu d'utilisateurs propres, et donc peu de données d'usages, par des données issues d'autres utilisateurs. Nous faisons tout d'abord un état de l'art de la recommandation automatique. Nous présentons ensuite le moteur ainsi que les données utilisées pour les expérimentations. Le chapitre suivant décrit les premières expérimentations en mode thématique. Nous faisons ensuite un nouvel état de l'art sur la classification d'opinion. Pour finir, nous décrivons les expérimentations menées pour l'approche collaborative à l'aide de la classification d'opinion.

Los estilos APA, Harvard, Vancouver, ISO, etc.

LAVAUR, JEAN-MARC. "Traitement du texte et transfert interlinguistique. Approche psycho-cognitive de la comprehension et de la memorisation de textes en langue maternelle et en langue etrangere". Nice, 1994. http://www.theses.fr/1994NICE2019.

Texto completo

Resumen

Ce travail propose une approche psychologique de la comprehension et de la memorisation de textes lus en langue maternelle et en langue etrangere argumentee par 6 experiences realisees aupres d'etudiants bresiliens apprenant le francais. Dans une premiere serie d'experiences, les observables recueillis lord des activites d'entree (temps de lecture) et de sortie (informations rappelees et verifications d'enonces) mettent en evidence des effets lies au niveau de maitrise de la langue etrangere sur le traitement cognitif des textes. Une deuxieme serie d'experiences met en jeu, parallelement au degre de maitrise de la langue, les connaissances sollicitees par la lecture de textes appartenant a un domaine cible. Trois variables sont enregistrees lors du traitement (temps de lecture, qualite et rapidite des reponses a des questions relatives aux textes). Les connaissances du domaine evoque par les textes ont pour effet de reduire le cout du traitement dans les deux langues considerees et d'augmenter son efficacite. De plus, le type de questions et leur position durant l'epreuve (inserees ou non) montrent que plus la tache proposee est exigeante en activite de recouvrement en memoire, plus les connaissances du domaine semblent intervenir de maniere positive sur le traitement
The aim of this work is a psychological study of understanding and memorizing texts presented in maternal and in foreign language supported by 6 experiments performed with brasilian subjecrs studying french language. In a first series of experiments, data collected during input-processing (reading time) and output-processing (recalled information and sentence verification) show an effect of the proficiency level of the target language on the cognitive processing of texts. A second serie of experiments takes into account the knowledge elicited by texts in a specific area in addition with the proficiency level. Tree indices are observed during the cognitive processing (reading time, response time and response accuracy given to questions relative to the texts). Collected datas show that specific knowledge elicited by the texts leads to reduce the processing cosast and enhance its efficiency in the two languages. Furthermore, the effects of the form of questioning and of the position of questions during reading activity (embedded or not) show that the more the performed task needs retrieval activities, the more the level of kwowledge in text area seems facilitate the processing

Los estilos APA, Harvard, Vancouver, ISO, etc.

Bouillot, Flavien. "Classification de textes : de nouvelles pondérations adaptées aux petits volumes". Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS167.

Texto completo

Resumen

Au quotidien, le réflexe de classifier est omniprésent et inconscient. Par exemple dans le processus de prise de décision où face à un élément (un objet, un événement, une personne) nous allons instinctivement chercher à rapprocher cet élément d'autres similaires afin d'adapter nos choix et nos comportements. Ce rangement dans telle ou telle catégorie repose sur les expériences passées et les caractéristiques de l'élément. Plus les expériences seront nombreuses et les caractéristiques détaillées, plus fine et pertinente sera la décision. Il en est de même lorsqu'il nous faut catégoriser un document en fonction de son contenu. Par exemple détecter s'il s'agit d'un conte pour enfants ou d'un traité de philosophie. Ce traitement est bien sûr d'autant plus efficace si nous possédons un grand nombre d'ouvrages de ces deux catégories et que l'ouvrage à classifier possède un nombre important de mots.Dans ce manuscrit nous nous intéressons à la problématique de la prise de décision lorsque justement nous disposons de peu de documents d'apprentissage et que le document possède un nombre de mots limité. Nous proposons pour cela une nouvelle approche qui repose sur de nouvelles pondérations. Elle nous permet de déterminer avec précision l'importance à accorder aux mots composant le document.Afin d'optimiser les traitements, nous proposons une approche paramétrable. Cinq paramètres rendent notre approche adaptable, quel que soit le problème de classification donné. De très nombreuses expérimentations ont été menées sur différents types de documents, dans différentes langues et dans différentes configurations. Selon les corpus, elles mettent en évidence que notre proposition nous permet d'obtenir des résultats supérieurs en comparaison avec les meilleures approches de la littérature pour traiter les problématiques de petits volumes.L'utilisation de paramètres introduit bien sur une complexité supplémentaire puisqu'il faut alors déterminer les valeurs optimales. Détecter les meilleurs paramètres et les meilleurs algorithmes est une tâche compliquée dont la difficulté est théorisée au travers du théorème du No-Free-Lunch. Nous traitons cette seconde problématique en proposant une nouvelle approche de méta-classification reposant sur les notions de distances et de similarités sémantiques. Plus précisément nous proposons de nouveaux méta-descripteurs adaptés dans un contexte de classification de documents. Cette approche originale nous permet d'obtenir des résultats similaires aux meilleures approches de la littérature tout en offrant des qualités supplémentaires.Pour conclure, les travaux présentés dans ce manuscrit ont fait l'objet de diverses implémentations techniques, une dans le logiciel Weka, une dans un prototype industriel et enfin une troisième dans le logiciel de la société ayant financé ces travaux
Every day, classification is omnipresent and unconscious. For example in the process of decision when faced with something (an object, an event, a person), we will instinctively think of similar elements in order to adapt our choices and behaviors. This storage in a particular category is based on past experiences and characteristics of the element. The largest and the most accurate will be experiments, the most relevant will be the decision. It is the same when we need to categorize a document based on its content. For example detect if there is a children's story or a philosophical treatise. This treatment is of course more effective if we have a large number of works of these two categories and if books had a large number of words. In this thesis we address the problem of decision making precisely when we have few learning documents and when the documents had a limited number of words. For this we propose a new approach based on new weights. It enables us to accurately determine the weight to be given to the words which compose the document.To optimize treatment, we propose a configurable approach. Five parameters make our adaptable approach, regardless of the classification given problem. Numerous experiments have been conducted on various types of documents in different languages and in different configurations. According to the corpus, they highlight that our proposal allows us to achieve superior results in comparison with the best approaches in the literature to address the problems of small dataset. The use of parameters adds complexity since it is then necessary to determine optimitales values. Detect the best settings and best algorithms is a complicated task whose difficulty is theorized through the theorem of No-Free-Lunch. We treat this second problem by proposing a new meta-classification approach based on the concepts of distance and semantic similarities. Specifically we propose new meta-features to deal in the context of classification of documents. This original approach allows us to achieve similar results with the best approaches to literature while providing additional features. In conclusion, the work presented in this manuscript has been integrated into various technical implementations, one in the Weka software, one in a industrial prototype and a third in the product of the company that funded this work

Los estilos APA, Harvard, Vancouver, ISO, etc.

Vinot, Romain. "Classification automatique de textes dans des catégories non thématiques". Phd thesis, Télécom ParisTech, 2004. http://pastel.archives-ouvertes.fr/pastel-00000812.

Texto completo

Resumen

La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classification faiblement supervisée qui détecte des sous-classes et sélectionne les plus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à flux temporel à partir du calcul du taux d'activité des sous-classes.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Vinot, Romain. "Classification automatique de textes dans des catégories non thématiques /". Paris : École nationale supérieure des télécommunications, 2004. http://catalogue.bnf.fr/ark:/12148/cb39294964h.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Paquet, Thierry. "Segmentation et classification de mots en reconnaissance optique de textes manuscrits". Rouen, 1992. http://www.theses.fr/1992ROUES007.

Texto completo

Resumen

Les travaux présentés dans ce mémoire abordent les différentes étapes nécessaires à la réalisation d'un logiciel de reconnaissance optique de texte manuscrit provenant d'un scripteur quelconque, dans le cadre d'une application à vocabulaire limité : la lecture automatique des montants littéraux présents sur des chèques bancaires ou postaux. La localisation des mots dans l'image binarisée, première étape du traitement, est réalisée par une méthode d'analyse descendante. De cette façon, il est possible de déterminer au cours du traitement des paramètres utiles pour les traitements suivants : hauteur des corps de ligne, positions des lignes de base, positions des extensions des corps de ligne. Un modèle structurel global des mots manuscrits cursifs constitué des particularités locales rencontrées dans le mot autour de l'axe médian est proposé. Celui-ci constitue une alternative au modèle analytique en lettres séparées généralement utilisé. L'extraction des caractéristiques dans l'image du mot est effectué par un algorithme de suivi de trait qui permet l'étiquetage direct des éléments caractéristiques selon le modèle envisagé lors dans la progression dans le trait vu comme un graphe de zones. La discrimination des 30 mots du vocabulaire étudié s'effectue en deux étapes. Un critère d'aspect prenant en compte les extensions du corps de ligne et la longueur du mot permet tout d'abord de rejeter les mots du dictionnaire d'aspects fondamentalement différents. Les candidats retenus sont ensuite classés en évaluant une distance d'édition entre le graphe de traits extraits et les graphes de référence des mots candidats codés en chaîne de graphèmes. L'utilisation de règles de substitution étendues permet la prise en compte de configurations proches et notamment des liaisons entre lettres. Les résultats présentés, issus de tests effectués sur des données de laboratoire et d'images de chèques, laissent augurer de bonnes performances sur des bases de données importantes par la mise en place d'une stratégie de lecture qui n'est pas envisagée dans ce travail

Los estilos APA, Harvard, Vancouver, ISO, etc.

Risch, Jean-Charles. "Enrichissement des Modèles de Classification de Textes Représentés par des Concepts". Thesis, Reims, 2017. http://www.theses.fr/2017REIMS012/document.

Texto completo

Resumen

La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie
Most of text-classification methods use the ``bag of words” paradigm to represent texts. However Bloahdom and Hortho have identified four limits to this representation: (1) some words are polysemics, (2) others can be synonyms and yet differentiated in the analysis, (3) some words are strongly semantically linked without being taken into account in the representation as such and (4) certain words lose their meaning if they are extracted from their nominal group. To overcome these problems, some methods no longer represent texts with words but with concepts extracted from a domain ontology (Bag of Concept), integrating the notion of meaning into the model. Models integrating the bag of concepts remain less used because of the unsatisfactory results, thus several methods have been proposed to enrich text features using new concepts extracted from knowledge bases. My work follows these approaches by proposing a model-enrichment step using a domain ontology, I proposed two measures to estimate to belong to the categories of these new concepts. Using the naive Bayes classifier algorithm, I tested and compared my contributions on the Ohsumed corpus using the domain ontology ``Disease Ontology”. The satisfactory results led me to analyse more precisely the role of semantic relations in the enrichment step. These new works have been the subject of a second experiment in which we evaluate the contributions of the hierarchical relations of hypernymy and hyponymy

Los estilos APA, Harvard, Vancouver, ISO, etc.

Moulinier, Isabelle. "Une approche de la categorisation de textes par l'apprentissage symbolique". Paris 6, 1996. http://www.theses.fr/1996PA066638.

Texto completo

Resumen

L'objectif principal des travaux presentes dans cette these est de determiner si la classification automatique, en particulier au moyen de l'apprentissage symbolique supervise, peut etre appliquee a la categorisation de documents, tache qui permet d'affecter des categories semantiques a des documents en fonction de leur contenu. Le memoire s'articule autour de deux axes complementaires. L'axe principal consiste a determiner si les techniques d'apprentissage apportent des solutions aux preoccupations de la recherche documentaire, en particulier le filtrage de documents. Dans cette optique, il est necessaire de prendre en compte les caracteristiques des collections textuelles, en particulier celles liees aux dimensions des donnees textuelles (plusieurs milliers d'exemples et des dizaines de milliers d'attributs), qui sortent du cadre classique des applications de l'apprentissage. Ce probleme constitue le second axe de notre travail. Pour des raisons de complexite, notre demarche est d'introduire une etape prealable de selection d'attributs avant tout apprentissage. Ceci nous conduit a proposer une methode originale de reduction, appelee scar, qui tire parti des caracteristiques des donnees textuelles. Nous comparons scar a deux methodes classiques pour la reduction de dimension. Nous evaluons ces methodes sur la collection reuters-22 173, dont la taille est consequente. Nous nous interessons ensuite aux liens entre le presuppose d'apprentissage (nature de l'apprentissage) et les donnees textuelles, dans l'optique d'une application au filtrage. Nos resultats montrent que, malgre la relative equivalence observee en moyenne en comparant les differents algorithmes proposes, on peut distinguer une reelle influence du presuppose d'apprentissage sur la performance de l'algorithme, lorsque celui est applique a certaines classes de problemes que nous avons identifie.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Lebboss, Georges. "Contribution à l’analyse sémantique des textes arabes". Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080046/document.

Texto completo

Resumen

La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet
The Arabic language is poor in electronic semantic resources. Among those resources there is Arabic WordNet which is also poor in words and relationships.This thesis focuses on enriching Arabic WordNet by synsets (a synset is a set of synonymous words) taken from a large general corpus. This type of corpus does not exist in Arabic, so we had to build it, before subjecting it to a number of pretreatments.We developed, Gilles Bernard and myself, a method of word vectorization called GraPaVec which can be used here. I built a system which includes a module Add2Corpus, pretreatments, word vectorization using automatically generated frequency patterns, which yields a data matrix whose rows are the words and columns the patterns, each component representing the frequency of a word in a pattern.The word vectors are fed to the neural model Self Organizing Map (SOM) ;the classification produced constructs synsets. In order to validate the method, we had to create a gold standard corpus (there are none in Arabic for this area) from Arabic WordNet, and then compare the GraPaVec method with Word2Vec and Glove ones. The result shows that GraPaVec gives for this problem the best results with a F-measure 25 % higher than the others. The generated classes will be used to create new synsets to be included in Arabic WordNet

Los estilos APA, Harvard, Vancouver, ISO, etc.

Más fuentes

Libros sobre el tema "Classification interlinguistique des textes"

Neukom, Lukas. Description grammaticale du nateni (Bénin): Système verbal, classification nominale, phrases complexes, textes. Zürich: Universität Zürich, 1995.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Lafleur, Claude. Quatre introductions à la philosophie au XIIIe siècle: Textes critiques et étude historique. Montréal: Institut d'études médiévales, Université de Montréal, 1988.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Les textes de Nag Hammadi et le problème de leur classification. Actes du colloque tenu à Québec du 15 au 19 septembre 1993. Peeters, 1995.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Capítulos de libros sobre el tema "Classification interlinguistique des textes"

Boucher, C. "Classification et vulgarisation des «autorités» médiévales. Le propos encyclopédique des traducteurs, ou l’utilité des traductions vernaculaires des textes de savoir". En Reminisciences, 247–68. Turnhout: Brepols Publishers, 2008. http://dx.doi.org/10.1484/m.rem-eb.3.2749.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

"La classification des mots et des textes". En Analyse des données textuelles, 255–300. Presses de l'Université du Québec, 2019. http://dx.doi.org/10.2307/j.ctvq4bxws.13.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Tonello, Elisabetta. "The French manuscripts of Dante’s _Commedia_". En Edition de textes canoniques nationaux, 51–64. Editions des archives contemporaines, 2020. http://dx.doi.org/10.17184/eac.2782.

Texto completo

Resumen

This essay deals with the _corpus_ of manuscripts of Dante's _Commedia_ preserved in the Bibliothèque National de France from a stemmatics and cultural history point of view. Indeed, through the crossing between external data (signature, date, presence of explicit, interpolations, etc.) and genealogical classification we can draw some interesting information on the cultural circulation of the text and on the 14th and 15th century reception of Dante.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!