To see the other types of publications on this topic, follow the link: Corpus comparables.

Dissertations / Theses on the topic 'Corpus comparables'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 41 dissertations / theses for your research on the topic 'Corpus comparables.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Prochasson, Emmanuel. "Alignement multilingue en corpus comparables spécialisés." Phd thesis, Université de Nantes, 2009. http://tel.archives-ouvertes.fr/tel-00462248.

Full text
Abstract:
Les corpus comparables rassemblent des documents multilingues n'étant pas en relation de traduction mais partageant des traits communs. Notre travail porte sur l'extraction de lexique bilingue à partir de ces corpus, c'est-à-dire la reconnaissance et l'alignement d'un vocabulaire commun multilingue disponible dans le corpus. Nous nous concentrons sur les corpus comparables spécialisés, c'est-à-dire des corpus constitués de documents révélateurs de la terminologie utilisée dans les langues de spécialité. Nous travaillons sur des corpus médicaux, l'un deux couvre la thématique du diabète et de l'alimentation, en français, anglais et japonais; l'autre couvre la thématique du cancer du sein, en anglais et en français. Nous proposons et évaluons différentes améliorations du processus d'alignement, en particulier dans le cas délicat de la langue japonaise. Nous prolongeons ce manuscrit par une réflexion sur la nature des corpus comparables et la notion de comparabilité.
APA, Harvard, Vancouver, ISO, and other styles
2

Li, Bo. "Mesurer et améliorer la qualité des corpus comparables." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENM069.

Full text
Abstract:
Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR
Bilingual corpora are an essential resource used to cross the language barrier in multilingual Natural Language Processing (NLP) tasks. Most of the current work makes use of parallel corpora that are mainly available for major languages and constrained areas. Comparable corpora, text collections comprised of documents covering overlapping information, are however less expensive to obtain in high volume. Previous work has shown that using comparable corpora is beneficent for several NLP tasks. Apart from those studies, we will try in this thesis to improve the quality of comparable corpora so as to improve the performance of applications exploiting them. The idea is advantageous since it can work with any existing method making use of comparable corpora. We first discuss in the thesis the notion of comparability inspired from the usage experience of bilingual corpora. The notion motivates several implementations of the comparability measure under the probabilistic framework, as well as a methodology to evaluate the ability of comparability measures to capture gold-standard comparability levels. The comparability measures are also examined in terms of robustness to dictionary changes. The experiments show that a symmetric measure relying on vocabulary overlapping can correlate very well with gold-standard comparability levels and is robust to dictionary changes. Based on the comparability measure, two methods, namely the greedy approach and the clustering approach, are then developed to improve the quality of any given comparable corpus. The general idea of these two methods is to choose the highquality subpart from the original corpus and to enrich the low-quality subpart with external resources. The experiments show that one can improve the quality, in terms of comparability scores, of the given comparable corpus by these two methods, with the clustering approach being more efficient than the greedy approach. The enhanced comparable corpus further results in better bilingual lexicons extracted with the standard extraction algorithm. Lastly, we investigate the task of Cross-Language Information Retrieval (CLIR) and the application of comparable corpora in CLIR. We develop novel CLIR models extending the recently proposed information-based models in monolingual IR. The information-based CLIR model is shown to give the best performance overall. Bilingual lexicons extracted from comparable corpora are then combined with the existing bilingual dictionary and used in CLIR experiments, which results in significant improvement of the CLIR system
APA, Harvard, Vancouver, ISO, and other styles
3

Goeuriot, Lorraine. "Découverte et caractérisation des corpus comparables spécialisés." Phd thesis, Université de Nantes, 2009. http://tel.archives-ouvertes.fr/tel-00474405.

Full text
Abstract:
Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l'avantage d'être représentatifs des particularités culturelles et linguistiques de chaque langue. Le Web peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d'aide à la construction de corpus comparables. Nous présentons d'abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d'apprentissage automatique. Une analyse stylistique sur un corpus d'apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d'analyse : structurel, modal et lexical. Nous l'utilisons ensuite afin d'apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d'évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d'une chaîne logicielle d'aide à la construction de corpus comparables implémentée sur la plateforme UIMA.
APA, Harvard, Vancouver, ISO, and other styles
4

Bo, Li. "Mesurer et améliorer la qualité des corpus comparables." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00997769.

Full text
Abstract:
Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR.
APA, Harvard, Vancouver, ISO, and other styles
5

Hazem, Amir. "Extraction de lexiques bilingues à partir de corpus comparables." Phd thesis, Université de Nantes, 2013. http://tel.archives-ouvertes.fr/tel-00946914.

Full text
Abstract:
La plupart des travaux en acquisition de lexiques bilingues à partir de corpus comparables reposent sur l'hypothèse distributionnelle qui a été étendue au scénario bilingue. Deux mots ont de fortes chances d'être en relation de traduction s'ils apparaissent dans les mêmes contextes lexicaux. Ce postulat suppose donc une définition claire et rigoureuse du contexte et une connaissance parfaite des indices contextuels. Or, la complexité et les spécificités de chaque langue font qu'il n'est pas aisé d'énoncer une telle définition qui garantisse une extraction de couples de traductions, efficace dans tous les cas de figure. Toute la difficulté réside dans la manière de définir, d'extraire et de comparer ces contextes dans le but de construire des lexiques bilingues fiables. Nous nous efforcerons tout au long des différents chapitres de cette thèse à essayer de mieux comprendre cette notion de contexte, pour ensuite l'étendre et l'adapter afin d'améliorer la qualité des lexiques bilingues. Une première partie des contributions vise à améliorer l'approche directe qui fait office de référence dans la communauté. Nous proposerons plusieurs manières d'aborder le contexte des mots pour mieux les caractériser. Dans la deuxième partie des contributions, nous commencerons par présenter une approche qui vise à améliorer l'approche par similarité inter-langue. Ensuite, une méthode nommée Q-Align, directement inspirée des systèmes de question/réponse sera présentée. Enfin, nous présenterons plusieurs transformations mathématiques et donc plusieurs représentations vectorielles, pour nous concentrer essentiellement sur celles que nous aurons choisi pour développer une nouvelle méthode d'alignement.
APA, Harvard, Vancouver, ISO, and other styles
6

Ke, Guiyao. "Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiques." Phd thesis, Université de Bretagne Sud, 2014. http://tel.archives-ouvertes.fr/tel-00997837.

Full text
Abstract:
Les corpus comparables thématiques regroupent des textes issus d¡¯un même thème et rédigés dans plusieurs langues, fortement similaires mais ne comprenant pas de traductions mutuelles. Par rapport aux corpus parallèles qui regroupent des paires de traductions, les corpus comparables présentent trois avantages: premièrement, ce sont des ressources riches et larges : en volume et en période couverte; deuxièmement, les corpus comparables fournissent des ressources linguistiques originales et thématiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles. Avec le développement considérable du WEB, une matière première très abondante est exploitable pour la construction de corpus comparables. En contre-partie, la qualité des corpus comparables est essentielle pour leur utilisation dans différents domaines tels que la traduction automatique ou assistée, l¡¯extraction de terminologies bilingues, la recherche d¡¯information multilingue, etc. L¡¯objectif de ce travail de thèse est de développer une approche méthodologique et un outillage informatique pour fournir une assistance à la construction des corpus comparables bilingues et thématiques de ? bonne qualité ?, à partir du WEB et à la demande. Nous présentons tout d¡¯abord la notion de mesure de comparabilité qui associe deux espaces linguistiques et, à partir d¡¯une mesure quantitative de comparabilité de référence, nous proposons deux variantes, qualifiées de comparabilité thématique, que nous évaluons suivant un protocole basé sur la dégradation progressive d¡¯un corpus parallèle. Nous proposons ensuite une nouvelle méthode pour améliorer le co-clustering et la co-classification de documents bilingues, ainsi que l¡¯alignement des clusters comparables. Celle-ci fusionne des similarités natives définies dans chacun des espaces linguistiques avec des similarités induites par la mesure de comparabilité utilisée. Enfin, nous proposons une démarche intégrée basée sur les contributions précédemment évoquées afin d¡¯assister la construction, à partir du WEB, de corpus comparables bilingues thématiques de qualité. Cette démarche comprend une étape de validation manuelle pour garantir la qualité de l¡¯alignement des clusters comparables. En jouant sur le seuil de comparabilité d¡¯alignement, différents corpus comparables associés à des niveaux de comparabilité variables peuvent être fournis en fonction des besoins spécifiés. Les expérimentations que nous avons menées sur des Flux RSS issus de grands quotidiens internationaux apparaissent pertinentes et prometteuses.
APA, Harvard, Vancouver, ISO, and other styles
7

Delpech, Estelle. "Traduction assistée par ordinateur et corpus comparables : contributions à la traduction compositionnelle." Phd thesis, Université de Nantes, 2013. http://tel.archives-ouvertes.fr/tel-00905930.

Full text
Abstract:
Notre travail concerne l'extraction de lexiques bilingues à partir de corpus comparables, avec une application à la traduction spécialisée. Nous avons d'abord évalué les méthodes classiques d'acquisition de lexiques en corpus comparables (basées l'hypothèse distributionnelle : plus deux termes apparaissent dans des contextes similaires, plus il y a de chances qu'ils soient des traductions) d'un point de vue applicatif. L'évaluation a montré que les traducteurs sont mal à l'aise avec les lexiques extraits : la traduction correcte est trop souvent noyée dans une liste de traductions candidates et ils préfèreraient utiliser un lexique plus petit mais plus précis. Partant de ce constat, nous nous sommes orientés vers une autre approche qui a fait récemment ses preuves pour l'exploitation des corpus comparables et produit des lexiques plus adaptés aux besoins des traducteurs : la traduction compositionnelle (la traduction du terme source est fonction de la traduction de ses parties). Nous nous sommes concentrés sur la traduction d'unités monolexicales : le terme source est découpé en morphèmes, les morphèmes sont traduits puis recomposés en un terme cible. Dans ce cadre, nous avons poursuivi trois axes de recherche : la génération de traductions fertiles (cas où le terme cible contient plus de mots lexicaux que le terme source), l'indépendance aux structures morphologiques et l'ordonnancement des traductions candidates.
APA, Harvard, Vancouver, ISO, and other styles
8

Bouamor, Dhouha. "Constitution de ressources linguistiques multilingues à partir de corpus de textes parallèles et comparables." Phd thesis, Université Paris Sud - Paris XI, 2014. http://tel.archives-ouvertes.fr/tel-00994222.

Full text
Abstract:
Les lexiques bilingues sont des ressources particulièrement utiles pour la Traduction Automatique et la Recherche d'Information Translingue. Leur construction manuelle nécessite une expertise forte dans les deux langues concernées et est un processus coûteux. Plusieurs méthodes automatiques ont été proposées comme une alternative, mais elles qui ne sont disponibles que dans un nombre limité de langues et leurs performances sont encore loin derrière la qualité des traductions manuelles.Notre travail porte sur l'extraction de ces lexiques bilingues à partir de corpus de textes parallèles et comparables, c'est à dire la reconnaissance et l'alignement d'un vocabulaire commun multilingue présent dans ces corpus.
APA, Harvard, Vancouver, ISO, and other styles
9

Harastani, Rima. "Alignement lexical en corpus comparables : le cas des composés savants et des adjectifs relationnels." Phd thesis, Université de Nantes, 2014. http://tel.archives-ouvertes.fr/tel-00949025.

Full text
Abstract:
Notre travail concerne l'extraction automatique d'une liste de termes alignés avec leurs traductions (c'est-à-dire un lexique bilingue spécialisé) à partir d'un corpus comparable dans un domaine de spécialité. Un corpus comparable comprend des textes écrits dans deux langues différentes sans aucune relation de traduction entre eux mais dont les textes appartiennent à un même domaine. Les contributions de cette thèse portent sur l'amélioration de la qualité d'un lexique bilingue spécialisé extrait à partir d'un corpus comparable. Nous proposons des méthodes consacrées à la traduction de deux types de termes, qui ont des caractéristiques en commun entre plusieurs langues ou qui posent par leur nature des problèmes pour la traduction : les composés savants (termes contenant au moins une racine gréco-latine) et les termes composés d'un nom et un adjectif relationnel. Nous développons également une méthode, qui exploite des contextes riches en termes spécifiques au domaine du corpus, pour réordonner dans un lexique bilingue spécialisé des traductions candidates fournies pour un terme. Les expériences sont réalisées en utilisant deux corpus comparables spécialisés (dans les domaines du cancer du sein et des énergies renouvelables), sur les langues français, anglais, allemand et espagnol.
APA, Harvard, Vancouver, ISO, and other styles
10

Harastani, Rima. "Alignement lexical en corpus comparables : le cas des composés savants et des adjectifs relationnels." Phd thesis, Nantes, 2014. https://archive.bu.univ-nantes.fr/pollux/show/show?id=715f898e-83d7-4541-8a0c-cf910bd67fee.

Full text
Abstract:
Notre travail concerne l’extraction automatique d’une liste de termes alignés avec leurs traductions (c’est-à-dire un lexique bilingue spécialisé) à partir d’un corpus comparable dans un domaine de spécialité. Un corpus comparable comprend des textes écrits dans deux langues différentes sans aucune relation de traduction entre eux mais dont les textes appartiennent à un même domaine. Les contributions de cette thèse portent sur l’amélioration de la qualité d’un lexique bilingue spécialisé extrait à partir d’un corpus comparable. Nous proposons des méthodes consacrées à la traduction de deux types de termes, qui ont des caractéristiques en commun entre plusieurs langues ou qui posent par leur nature des problèmes pour la traduction : les composés savants (termes contenant au moins une racine gréco-latine) et les termes composés d’un nom et un adjectif relationnel. Nous développons également une méthode, qui exploite des contextes riches en termes spécifiques au domaine du corpus, pour réordonner dans un lexique bilingue spécialisé des traductions candidates fournies pour un terme. Les expériences sont réalisées en utilisant deux corpus comparables spécialisés (dans les domaines du cancer du sein et des énergies renouvelables), sur les langues français, anglais, allemand et espagnol
Our work concerns the automatic extraction of a list of aligned terms with their translations (i. E. Specialized bilingual lexicon) from comparable corpora belonging to a specific domain. Comparable corpora include texts written in two languages which are not mutual translations but belong to the same domain. This thesis contributes to the improvement of the quality of an extracted bilingual lexicon. We propose methods dedicated to the translation of two types of terms that have common characteristics among many languages or that cause specific problems for translation due to their nature. These types of terms are the neoclassical compounds (terms containing at least one root borrowed from Greek or Latin) and the terms composed of one noun and one relational adjective. We also propose a method that exploits contexts rich in domain-specific terms to re-rank some provided translations in a bilingual lexicon for a given term. The experiments are performed using two specialized comparable corpora (in the domains of Breast Cancer and Renewable Energy), on the French, English, German and Spanish languages
APA, Harvard, Vancouver, ISO, and other styles
11

Cetro, Rosa. "Lexique-grammaire et Unitex : quels apports pour une description terminologique bilingue de qualité ? : analyse sur deux corpus comparables de médecine thermale." Phd thesis, Université Paris-Est, 2013. http://tel.archives-ouvertes.fr/tel-00823735.

Full text
Abstract:
La terminologie est une science qui étudie les termes, ces unités lexicales véhiculant un sens spécialisé dans un discours scientifique ou technique. Constituée en science dans la première moitié du XXe siècle, la terminologie est un terrain interdisciplinaire qui se nourrit des apports de la linguistique, de la logique et de l'informatique. C'est surtout grâce à cette dernière qu'elle a pu se développer considérablement. Le lexique-grammaire est une méthode de description linguistique strictement empirique d'inspiration harrissienne qui a vu le jour en France à la fin des années 1960. La description linguistique a été menée en parallèle avec la réalisation d'outils informatiques nécessaires à la formalisation et à l'exploitation de ces données, parmi lesquels il y a aussi le logiciel Unitex (Paumier, 2002). Tant le lexique-grammaire que le logiciel Unitex présentent un potentiel intéressant, largement inexploité, pour la terminologie. Dans ce travail, nous nous proposons d'évaluer les apports des méthodes liées au lexique-grammaire et au logiciel Unitex à une description terminologique bilingue de qualité. Après avoir défini des critères de qualité d'une description terminologique, nous menons cette évaluation sur deux corpus comparables ayant trait à la médecine thermale, en français et en italien.
APA, Harvard, Vancouver, ISO, and other styles
12

Deléger, Louise. "Exploitation de corpus parallèles et comparables pour la détection de correspondances lexicales : application au domaine médical." Paris 6, 2009. http://www.theses.fr/2009PA066400.

Full text
Abstract:
Dans ce travail, nous cherchons à mettre des propriétés des corpus textuels (parallélisme et comparabilité) à profit pour l'Informatique Médicale, en détectant des correspondances lexicales de deux types: des traductions de termes médicaux afin d'enrichir des terminologies; des paraphrases d'expressions spécialisées et grand public dans le but d'aider à rédiger des documents grand public. Une première expérience se base sur des approches éprouvées et un corpus parallèle, et met en place des méthodes d'alignement de corpus. Ceci nous a permis d'obtenir de nouvelles traductions françaises de termes anglais, dont certaines sont maintenant intégrées au thésaurus MeSH. Une seconde expérience examine les possibilités d'exploitation de corpus comparables monolingues. Deux méthodes ont été conçues: une première recherche des paraphrases de nominalisations; la deuxième des paraphrases de composés savants. Diverses paraphrases semblant cohérentes avec l'opposition spécialisé/grand public étudiée ont été obtenues.
APA, Harvard, Vancouver, ISO, and other styles
13

Korenchuk, Yuliya. "Méthode d'enrichissement et d'élargissement d'une ontologie à partir de corpus de spécialité multilingues." Thesis, Strasbourg, 2017. http://www.theses.fr/2017STRAC014/document.

Full text
Abstract:
Cette thèse propose une méthode pour alimenter une ontologie, une structure de concepts liés par des relations sémantiques, par des termes français, anglais et allemands à partir de corpus spécialisés comparables. Son apport principal est le développement des méthodes d'extraction utilisant des ressources endogènes apprises à partir de corpus et d'ontologie. Exploitant des n-grammes de caractères, elles sont disponibles et indépendantes vis-à-vis de la langue et du domaine. La première contribution porte sur l'utilisation des ressources morphologiques et morphosyntaxiques endogènes pour extraire des termes mono- et polylexicaux à partir de corpus. La deuxième contribution vise à exploiter des ressources endogènes pour identifier leurs traductions. La troisième contribution concerne la construction des familles morphologiques endogènes servant à alimenter l'ontologie
This thesis proposes a method of enrichment and population of an ontology, a structure of concepts linked by semantic relations, by terms in French, English and German from comparable domain-specific corpora. Our main contribution is the development of extraction methods based on endogenous resources, learned from the corpus and the ontology being analyzed. Using caracter n-grams, these resources are available and independent of a particular language or domain. The first contribution concerns the use of endogenous morphological and morphosyntactic resources for mono- and polylexical terms extraction from the corpus. The second contribution aims to use endogenous resources to identify translations for these terms. The third contribution concerns the construction of endogenous morphological families designed to enrich and populate the ontology
APA, Harvard, Vancouver, ISO, and other styles
14

Tajo, Kinda. "La terminologie bilingue (Arabe-Français) de la surdité : analyse du discours textuelle et socioterminologique." Thesis, Paris 3, 2013. http://www.theses.fr/2013PA030180.

Full text
Abstract:
Le texte spécialisé dans le domaine de la surdité est un phénomène complexe où les termes ont une fonction sémantique très importante. Le discours actualise le sens des termes et donne suite à de nouvelles significations dynamiques. Le corpus bilingue (français, arabe) est représentatif de différents types de discours et de niveaux de spécialisation notamment lorsqu’il s’agit de comparer la terminologie de la surdité entre les pays arabes (Liban, Syrie et Jordanie). Les termes, qui sont responsables de transmettre les connaissances relatives à une spécialité, constituent aujourd'hui un objet d'étude central pour la terminologie. Leur extraction s’effectue non seulement par la méthode manuelle mais aussi à travers les nouveaux logiciels d’extraction automatique. Cette thèse prend en considération les besoins linguistiques des usagers qui sont dorénavant les vrais consommateurs de terminologie. Elle a pour objectif de faire une approche socioterminologique et textuelle du domaine de la surdité en mettant la lumière sur les phénomènes étudiés comme la synonymie, la variation terminologique, la vulgarisation, la métaphore, la traduction et autres. Sa retombée étant la constitution d’une base de données terminologique trilingue qui répond aux exigences des spécialistes et des non-spécialistes
The specialized text in the domain of deafness is a complex phenomenon where terms have important semantic functions. The discourse updates the meaning of terms and brings up new dynamic significations. The bilingual corpus (French, Arabic) is representative of different types of discourse and levels of specialization especially when it comes to comparing the terminology of deafness in the three Arab countries (Lebanon, Syria, Jordan). Terms in charge of transmitting knowledge of special fields represent nowadays a central object of study for terminology. The extraction of terms can be made manually but also by means of new automatic term extraction software. Our doctoral thesis takes into consideration the linguistic needs of language users that are considered from now on the real consumers of terminology. This thesis is intended for socioterminological and textual approaches of the domain of deafness. It highlights the studied phenomena such as synonymy, terminology variation, scientific popularization, metaphor, translation and many other phenomena. The result of the thesis research being the construction of a trilingual terminological data base, it meets the requirements of specialists and non-specialists
APA, Harvard, Vancouver, ISO, and other styles
15

Serrone, Gabriella. "Figement juri-linguistique : étude des collocations dans deux corpus juridiques français et italien." Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCC318.

Full text
Abstract:
Cette thèse se veut une étude des phénomènes collocationnels pour l'analyse du genre "décision de justice" et de la typologie textuelle "arrêt de la Cour de cassation". En adoptant la définition de collocation théorisée dans le cadre de la linguistique de corpus et de John Sinclair (1991, 2004), nous analysons les valeurs que des mots prennent dans le contexte spécifique du domaine juridique, et notamment judiciaire, et leur rôle dans le développement et la progression du genre et du texte objet de l'étude. Nous effectuons nos analyses à partir de deux corpus comparables, composés des arrêts rendus par la Cour de cassation dans deux pays ayant cette institution au sommet de leur ordre judiciaire civil et pénal : la France et l'Italie. Plus précisément, l’analyse des profils collocationnels des mots clés du domaine, en français et en italien, et la détection des phénomènes de collocation, colligation, préférence et prosodie sémantiques qui visent à identifier les étapes de construction et d'organisation textuelles. Cette analyse systématique des phénomènes collocationnels et de la progression textuelle dans les deux langues débouche sur des réflexions concernant la traduction du genre et du texte, dans le but de mettre en avant les avantages qu'une approche guidée par le corpus apporte au travail du traducteur judiciaire
This purpose of this thesis is to study collocational phenomena in order to analyze the genre "judgement" and the text typology " judgement of the Cour de cassation", the highest court in the judiciary of some civil law countries. By Adopting the definition of collocation theorized by corpus linguistics and John Sinclair (1991, 2004), the research determines the values words take in their specific context in the field of law, and in particular the judicial domain, and their role in the development and progression of the genre and the text object of this study. Data for the analysis were collected from two comparable corpora, made up of judgementspassed by the Cour de cassation in two countries that have this institution at the top of their civil and criminal justice system : France and Italy. In particular, the analysis of the collocation profiles of the field key words, in French and Italian, as well as the findings of the collocational phenomena, colligation, semantic preference and prosody aim at the structure and the organization phases of text. This methodical analysis of the collocational phenomena and of the textual progression inthe two languages results in some observations concerning genre and text translation, with the purpose of underlying the advantages a corpus driven approach can provide to the judicial translator work
APA, Harvard, Vancouver, ISO, and other styles
16

Hô, Dinh Océane. "Caractérisation différentielle de forums de discussion sur le VIH en vietnamien et en français : Éléments pour la fouille comportementale du web social." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCF022/document.

Full text
Abstract:
Les discours normés que produisent les institutions sont concurrencés par les discours informels ou faiblement formalisés issus du web social. La démocratisation de la prise de parole redistribue l’autorité en matière de connaissance et modifie les processus de construction des savoirs. Ces discours spontanés sont accessibles par tous et dans des volumes exponentiels, ce qui offre aux sciences humaines et sociales de nouvelles possibilités d’exploration. Pourtant elles manquent encore de méthodologies pour appréhender ces données complexes et encore peu décrites. L’objectif de la thèse est de montrer dans quelle mesure les discours du web social peuvent compléter les discours institutionnels. Nous y développons une méthodologie de collecte et d’analyse adaptée aux spécificités des discours natifs du numérique (massivité, anonymat, volatilité, caractéristiques structurelles, etc.). Nous portons notre attention sur les forums de discussion comme environnements d’élaboration de ces discours et appliquons la méthodologie développée à une problématique sociale définie : celle de l’épidémie du VIH/SIDA au Viêt Nam. Ce terrain applicatif recouvre plusieurs enjeux de société : sanitaire et social, évolutions des moeurs, concurrence des discours. L’étude est complétée par l’analyse d’un corpus comparable de langue française, relevant des mêmes thématique, genre et discours que le corpus vietnamien, de manière à mettre en évidence les spécificités de contextes socioculturels distincts
The standard discourse produced by official organisations is confronted with the unofficial or informal discourse of the social web. Empowering people to express themselves results in a new balance of authority, when it comes to knowledge and changes the way people learn. Social web discourse is available to each and everyone and its size is growing fast, which opens up new fields for both humanities and social sciences to investigate. The latter, however, are not equipped to engage with such complex and little-analysed data. The aim of this dissertation is to investigate how far social web discourse can help supplement official discourse. In it we set out a method to collect and analyse data that is in line with the characteristics of a digital environment, namely data size, anonymity, transience, structure. We focus on forums, where such discourse is built, and test our method on a specific social issue, ie the HIV/AIDS epidemic in Vietnam. This field of investigation encompasses several related questions that have to do with health, society, the evolution of morals, the mismatch between different kinds of discourse. Our study is also grounded in the analysis of a comparable French corpus dealing with the same topic, whose genre and discourse characteristics are equivalent to those of the Vietnamese one: this two-pronged research highlights the specific features of different socio-cultural environments
APA, Harvard, Vancouver, ISO, and other styles
17

Zouaidi, Safa. "La combinatoire des verbes d'affect : analyse sémantique, syntaxique et discursive français-arabe." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAL028/document.

Full text
Abstract:
Le principal enjeu de notre recherche est d’aboutir à un modèle intégratif fonctionnel pour l’analyse des verbes d’affect en français et en arabe. Nous avons choisi d’étudier quatre V_affect : deux verbes d’émotion (étonner et énerver en français et leurs équivalents [ʔadhaʃa], [ʕaɣḍaba] en arabe]) et deux verbes de sentiment (admirer et envier et leurs équivalents [ʔaʕʒaba] et [ħasada]) appartenant aux champs sémantiques de la surprise, la colère, l’admiration et la jalousie. Plus concrètement, l’analyse se situe :– au niveau sémantique et syntaxique : les dimensions sémantiques véhiculées par les collocatifs verbaux comme étonner tellement, énerver prodigieusement, en français, et [ʔaʕʒaba ʔiʕʒāban kabīran] (admirer admiration grand) , [ɣaḍaba ɣaḍabaan ʃadīdan] (énerver colère sévère), en arabe, sont systématiquement reliées à la syntaxe (les constructions grammaticales récurrentes) (Hoey, 2005).– au niveau syntaxique et discursif : les emplois actifs, passifs, et pronominaux des V_affect sont étudiés dans la perspective des dynamiques informationnelles au sein de la phrase (Van Valin et LaPolla, 1997).D’un point de vue méthodologique, l’étude s’appuie sur une démarche quantitative et qualitative de la combinatoire verbale et privilégie la démarche contrastive. Elle est fondée sur le corpus journalistique français de la base de données EmoBase (projet Emolex 100 M de mots) et du corpus journalistique ArabiCorpus (137 M de mots).La thèse contribue ainsi à l’étude des valeurs sémantiques, du comportement syntaxique et discursif de la combinatoire des V_affect, en arabe et en français, ce qui permet de mieux structurer le champ lexical des affects par rapport à ce que proposent les études existantes en lexicologie. Les principaux résultats de l’étude peuvent être appliqués en didactique des langues, en traductologie et en traitement automatisé du lexique des affects dans les deux langues comparées
The paramount stake of this research is to achieve an integrative functional model for the analysis of affective verbs in French and Arabic. I have chosen four affective verbs: two verbs of emotion (to astonish and to rage in French and their equivalent in Arabic) and two verbs of sentiment (to admire and to envy in French and their equivalent [ʔadhaʃa], [ʔaɣḍaba] in Arabic) they belong to semantic dictions of Surprise, Anger, Admiration, and Jealousy. More concretely, the analysis is shaped:- On the semantic and syntactic level: the semantic dimensions carried by verbal collocations such as to extremely astonish, to rage prodigiously in French, and [ʔaʕʒaba ʔiʕʒāban kabīran] (admire admiration big)*, [ɣaḍaba ɣaḍabaan ʃadīdan] (to rage rage extreme), and in Arabic are systematically linked to syntax (the recurrent grammatical constructions) (Hoey 2005).- On the syntactic and discursive level: the usage of passive, active and reflexive forms of affective verbs are dealt with from the perspective of informational dynamics in the sentence. (Van Valin et LaPolla 1997).From a methodological point of view, the study is based on the quantitative and qualitative approach of the verbal combination and favours the contrastive one. It is founded on the French journalistic corpus of Emobase Database (Emolex project 100 M of words) and the journalistic corpus Arabicorpus) (137 M of words).Furthermore, the thesis participates in the studies of semantic values, the syntactic and the discursive behavior of affective verbs’combinations, in Arabic and in French, which will enable to better structure the diction of emotions in relation to what is proposed by current studies in lexicography. The main results of the study can be applied in language teaching, translation, and automated processing of emotions' lexicon in the two compared languages
APA, Harvard, Vancouver, ISO, and other styles
18

Domont, Ludivine. "Minéral/minéralité : étude diachronique de la construction discursive d'un descripteur sensoriel dans les textes prescriptifs et descriptifs de la filière vitivinicole." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCH016.

Full text
Abstract:
Minéral/minéralité : étude diachronique de la construction discursive d’un descripteur sensoriel dans les textes prescriptifs et descriptifs de la filière vitivinicoleRésumé : Cette thèse a pour objectif d’analyser en discours les descripteurs sensoriels minéral et minéralité dans une démarche empirique bottom-up et hypothético-déductive. Une première partie est consacrée à la constitution du corpus d’étude MINERS dans le cadre théorique de la linguistique sur corpus et sur la base de critères de sélection définis pour le design d’un corpus comparable spécialisé. Dans une seconde partie dédiée aux analyses empiriques, l’exploitation du corpus repose sur le cadre méthodologique d’une analyse de discours outillée et située pour reconstruire l’émergence et la diffusion des emplois de minéral et minéralité. Dans une perspective diachronique à court terme (1981- 2014) et comparée entre le discours descriptif et prescriptif en français, le cadre méthodologique de la sémantique discursive et lexicale est appliqué pour réaliser une cartographie sémantique des descripteurs sensoriels retenus. L’objectif de ces analyses lexicales, sémantiques, discursives, pragmatiques et cognitives est d’établir une définition « portrait-robot » reposant sur les processus de catégorisation et de conceptualisation sous-jacents aux lexèmes en question. La circularité de ces concepts est également observée dans une perspective synchronique (2006-2014) dans le discours descriptif en allemand et en anglais lingua franca dans le but de rendre compte des conditions de diffusion et d’emploi des formes concurrentesMots clés : linguistique sur corpus, corpus comparables, discours spécialisés, œnologie, sémantique discursive, lexicologie, catégorisation
Mineral/minerality: diachronic analysis of the discursive construction of a sensory descriptor in prescriptive and descriptive texts from the wine industryAbstract: This thesis aims to analyze the sensory descriptors mineral and minerality in discourse with an empirical bottom-up and hypotheticodeductive approach. The first part is dedicated to the constitution of the corpus of study MINERS in the theoretical framework of corpus-based Linguistics and on the basis of selection criteria defined for the design of a comparable specialized corpus. In a second part dedicated to empirical analysis, exploitation of the corpus is based on the methodological framework of a computational and situated discourse analysis in order to reconstruct emergence and diffusion of the use of mineral and minerality. In a short-term diachronic and comparative perspective (1981-2014) between prescriptive and descriptive discourses in French, the methodological framework of discursive and lexical semantics is applied in order to carry out a semantic mapping of retained sensory descriptors. The goal of these lexical, semantic, discursive, pragmatic and cognitive analyses is to establish an "identikit" definition based on the underlying processes of categorization and conceptualization of the lexemes in question. The circularity of these concepts is also observed via a synchronic perspective (2006-2014) in German and English lingua franca descriptive discourses in order to take into account the conditions of diffusion and the uses of competing forms.Key words: corpus linguistics, comparable corpora, specialized discourses, oenology, discursive semantic, lexicology, categorization
APA, Harvard, Vancouver, ISO, and other styles
19

Shrestha, Prajol. "Alignement inter-modalités de corpus comparable monolingue." Phd thesis, Université de Nantes, 2013. http://tel.archives-ouvertes.fr/tel-00909179.

Full text
Abstract:
L'augmentation de la production des documents électroniques disponibles sous forme du texte ou d'audio (journaux, radio, enregistrements audio de télévision, etc.) nécessite le développement d'outils automatisés pour le suivi et la navigation. Il devrait être possible, par exemple, lors de la lecture d'un article d'un journal en ligne, d'accéder à des émissions radio correspondant à la lecture en cours. Cette navigation fine entre les différents médias exige l'alignement des "passages" avec un contenu similaire dans des documents issus de différentes modalités monolingues et comparables. Notre travail se concentre sur ce problème d'alignement de textes courts dans un contexte comparable monolingue et multimodal. Le problème consiste à trouver des similitudes entre le texte court et comment extraire les caractéristiques de ces textes pour nous aider à trouver les similarités pour le processus d'alignement. Nous contributions à ce problème en trois parties. La première partie tente de définir la similitude qui est la base du processus d'alignement. La deuxième partie vise à développer une nouvelle représentation de texte afin de faciliter la création du corpus de référence qui va servir à évaluer les méthodes d'alignement. Enfin, la troisième contribution est d'étudier différentes méthodes d'alignement et l'effet de ses composants sur le processus d'alignement. Ces composants comprennent différentes représentations textuelles, des poids et des mesures de similarité.
APA, Harvard, Vancouver, ISO, and other styles
20

Abdul, Rauf Sadaf. "Sélection de corpus en traduction automatique statistique." Phd thesis, Université du Maine, 2012. http://tel.archives-ouvertes.fr/tel-00732984.

Full text
Abstract:
Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable. Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse. Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible. La traduction automatique statistique est un processus guidé par les données. Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas. Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles. Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase. La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels. Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps. Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique. Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles. La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus. Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles. Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles. L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable. Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles. Cette recherche est effectuée à l'aide d'un outil de recherche d'information. En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source. Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le "translation edit rate (TER)". Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche. Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que "Agence France Press (AFP)", "Associate press" ou "Xinua News". Ces agences publient quotidiennement des actualités en plusieurs langues. Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais. Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique. Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature. Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc. Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique...
APA, Harvard, Vancouver, ISO, and other styles
21

Polo, Anna. "La traducción de la modalidad en un corpus de textos científico-divulgativos." Doctoral thesis, Università degli studi di Padova, 2014. http://hdl.handle.net/11577/3424056.

Full text
Abstract:
This doctoral thesis, titled La traducción de la modalidad en un corpus de textos científico-divulgativos, develops within the research area of corpus—based experimental studies on translation. It focuses on the specific text typology of popular scientific writings, and investigates the specific phenomenon of translation of modality from Spanish to Italian, intended as a complex and systematic translation problem. The semantic domain of modality, that is the speaker’s attitude towards the truth value of what they stated, though characterizing any communicative act, represents a complex and multifaceted concept. It is indeed one of the most controversial linguistic domains. In this light, at first the thesis will present a critical review of the different theoretical approaches proposed in the literature. In this work modality is characterized as a semantic—pragmatic category, based on the logical values of necessity and possibility, expressed through the subdomains of epistemic and radical modality, (the latter includes dynamic, deontic and anankastic domains). This conception of modality is specifically related to the attitude of the speaker towards the necessity or possibility of the truth value stated in the enunciation, to their degree of certainty and their involvement with respect to the text. The lexical markers of interest for this thesis are: the modal periphrasis, epistemic verbs such as conocer, saber, creer, etc., and the phrasal adverbs. The methodology adopted in this work is based on the analysis of two different corpus (a parallel corpus and a comparable one), that allowed both the statistical evaluation of a large data set, and the study of regularities and discrepancies in the reference texts. The originality of the presented methodology is due to the use of different and complementary analysis methods and instruments. The homogeneity and significant dimension of the considered corpus confirmed that some systematic trends exist in the translation process, that could not be simply ascribed to stylistic choices. The presented results allowed to demonstrate that the translation of modality markers is actually a problem.
La tesi di dottorato che viene qui presentata, La traducción de la modalidad en un corpus de textos científico-divulgativos, si inserisce nel filone di studi di traduzione empirico-sperimentali basato sullo studio di corpus, e si propone di osservare se la traduzione della modalità, in relazione con una specifica tipologia testuale, ovvero il saggio di argomentativo di divulgazione scientifica, rappresenti un problema dal punto di vista traduttologico. Il dominio semantico della modalità, inteso come manifestazione dell’attitudine del parlante rispetto al valore di verità di quanto viene espresso nell’enunciato, pur essendo caratteristico di qualsiasi atto comunicativo, rappresenta una nozione complessa e costituisce, di fatto, uno dei domini più controversi della linguistica. Per questo motivo si è deciso di elaborare una revisione critica delle differenti approssimazioni teoriche riguardanti questo dominio che ha portato all’adozione di un punto di vista considerato ristretto. In questo lavoro, la modalità si caratterizza quindi, come una categoria semantico-pragmatica basata sui valori logici di necessità e possibilità -espressi attraverso i subdomini di modalità epistemica e radicale, a sua volta suddivisa in dinamica, deontica e anankastica- relazionati, in particolare, alla posizione del parlante rispetto alla possibilità o alla necessità del valore di verità espresso nell’enunciato, dal suo grado di certezza e il suo coinvolgimento rispetto al testo. I marcatori lessicali oggetto dell’analisi presentata in questa tesi sono: le perifrasi modali, i verbi di attitudine proposizionale e gli avverbi modali. Questi marcatori non apportano un contributo significativo al contenuto informativo all’enunciato, ma rappresentano il punto di vista dell’enunciatore, perciò il mancato riconoscimento del valore effettivo di questi elementi può portare a una significativa modificazione dell’equivalenza funzionale dei testi tradotti. La metodologia adottata in questo lavoro si basa sulla compenetrazione di due tipologie distinte di corpus (uno parallelo e uno comparabile), che ha portato all’analisi statistica di un ampio insieme di dati, che hanno permesso di determinare e interpretare sia regolarità che discrepanze nei testi di riferimento, altrimenti difficilmente analizzabili. Da una parte, lo studio sia qualitativo, sia quantitativo dei dati, dedicato a questioni di tipo linguistico, ha portato ad una quantificazione delle occorrenze dei singoli marcatori e all’analisi dei rispettivi valori di frequenza (relativa e assoluta) di questi ultimi; dall’altra l’analisi traduttologica dei marcatori oggetto di studio ha messo in luce quali procedimenti tecnici vengono utilizzati in relazione alla traduzione di questi marcatori e quali modificando sostanzialmente il punto di vista di chi emette l’enunciato sono da considerarsi non accettabili. L’originalità di questa metodologia deriva dalla complementarietà dei diversi strumenti e metodi di analisi utilizzati: da una parte si trova la compenetrazione tra uno studio quantitativo e uno qualitativo, dall’altra si sottolinea l’importanza dell’adozione di un corpus di controllo a supporto del corpus parallelo allineato, che permette di analizzare in modo più accurato alcuni fenomeni sia linguistici, che traduttologici, connessi con la complessità intrinseca al processo traduttivo. L’ampiezza e l’omogeneità del corpus di lavoro hanno mostrato l’esistenza di alcune tendenze sistematiche nel processo traduttivo, che non rappresentano semplici opzioni di tipo stilistico. I risultati presentati in questo lavoro di tesi hanno permesso di dimostrare che la traduzione dei marcatori modali è effettivamente un problema che deve essere affrontato sistematicamente tanto nella didattica quanto negli studi di traduzione.
APA, Harvard, Vancouver, ISO, and other styles
22

Al-Qaisi, Fu'ad. "Apport de la linguistique de corpus à la lexicographie bilingue (français-arabe) : macrostructure et microstructure d'un dictionnaire de collocations." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO20115.

Full text
Abstract:
L'objet de la présente étude est d’examiner l’apport de la linguistique de corpus à la lexicographie bilingue français-arabe. L’intérêt est porté tout particulièrement à la collocation. Ainsi, la quête commence dès la compilation du corpus jusqu'à l'intégration des collocations au lexique. Les notions fondamentales telle que la linguistique de corpus, le corpus et la collocation sont examinées. Ensuite, la recherche prend une tournure empirique qui se base sur un corpus. Pour pallier la non disponibilité des outils de traitement de corpus en langue arabe, une approche a été élaborée au sein de cette étude, que nous avons baptisée stratégie de passerelle. L’idée est de partir d’un corpus parallèle (traduit) français-arabe. Ce corpus est constitué de la version française du journal Le Monde Diplomatique, ainsi que sa traduction arabe. Le recours à un corpus parallèle a pour vocation de faciliter le repérage des phénomènes contrastifs. Les résultats obtenus seront vérifiés par la suite dans un corpus monolingue arabe (comparable) constitué de trois journaux, à savoir Alrai, Alayam, Algomhuria. Tout au long de cette partie, les résultats sont comparés dans un premiers temps entre corpus et dictionnaires, dans un deuxième temps entre types de corpus (parallèle et comparable), et dans un troisième temps entre journaux du corpus comparable (Alrai, Alayam et Algomhuria). Ensuite, un certain nombre des collocations est soumis à un examen structurel et à un examen sémantique. Ces exploitations apportent non seulement des éléments sur l’environnement collocationnel entre langue et discours, mais également sur une éventuelle approche pour la prise en compte des collocations. Des interrogations légitimes naissent au fur et à mesure des exploitations sur la ressemblance entre les collocations des deux langues. Les résultats mettent en évidence des points comme l’enchaînement collocationnel, la synonymie collocationnelle et d’autres aspects. L’étude est couronnée par la conception d’un dictionnaire informatique de collocations. Il s’agit d’un dictionnaire actif bilingue, qui s’adresse à un public arabisant et aux traducteurs
The aim of this study is to examine the contribution of corpus linguistics to bilingual French-Arabic lexicography. We particularly focus on collocations, as our research begins with the compilation of a bilingual corpus leading up to the integration of collocations in the lexicon. Fundamentals such as corpus linguistics, corpora and collocation are examined. Our research then takes an empirical turn that is based on the use of our corpus. To overcome the unavailability of corpus processing tools in Arabic, an approach was developed in this study that we called the footbridge strategy. The idea is to start from a French-Arabic (translated) parallel corpus. This corpus consists of the French version of Le Monde Diplomatique, and its translation. Using a parallel corpus aims to facilitate the identification of contrastive phenomena. The results obtained in the translated corpus (in its Arabic component) will be subsequently checked in an Arabic monolingual corpus. The latter is a corpus consisting of three newspapers: Alrai, Alayyam, Algouhouria. Throughout the exploitation of the corpus, results are compared first between corpora and dictionaries, secondly between corpus types (parallel and comparable), and thirdly between newspapers (Alrai, Alayyam, Algouhouria). Then a number of collocations are subjected to semantic and structural review and consideration. This review process not only brings some clarifications on the environment of collocations between language and speech but also about a possible approach for their integration in the dictionary. Legitimate questions gradually arise regarding the resemblance of collocations in French and Arabic. The results highlight phenomena such as collocational chains (clusters), collocational synonyms, etc. The study culminates in the design of a computer dictionary of collocations, i.e. an active bilingual dictionary aimed at Arabic language specialists and translators
APA, Harvard, Vancouver, ISO, and other styles
23

Hoddinott, Simon Matthew. "Web mining for translators: automatic construction of comparable, genre-driven corpora." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amslaurea.unibo.it/10775/.

Full text
Abstract:
The aim of this paper is to evaluate the efficacy of the application WebBootCaT to create specialised corpora automatically, investigating the translation of articles of association from Italian into English. The first section reflects on the relevant literature and proposes the utility of corpora for translators. The second section discusses the methodology employed, and the third section analyses the results obtained and comments on how language professionals could possibly exploit the application to its full. The fourth section provides a few concrete usage examples of the thus built corpora, to then conclude that WebBootCaT is a genuinely powerful tool that could be implemented by professional translators in order to save time and improve their translations in the long term.
APA, Harvard, Vancouver, ISO, and other styles
24

Zennaki, Othman. "Construction automatique d'outils et de ressources linguistiques à partir de corpus parallèles." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM006/document.

Full text
Abstract:
Cette thèse porte sur la construction automatique d’outils et de ressources pour l’analyse linguistique de textes des langues peu dotées. Nous proposons une approche utilisant des réseaux de neurones récurrents (RNN - Recurrent Neural Networks) et n'ayant besoin que d'un corpus parallèle ou mutli-parallele entre une langue source bien dotée et une ou plusieurs langues cibles moins bien ou peu dotées. Ce corpus parallèle ou mutli-parallele est utilisé pour la construction d'une représentation multilingue des mots des langues source et cible. Nous avons utilisé cette représentation multilingue pour l’apprentissage de nos modèles neuronaux et nous avons exploré deux architectures neuronales : les RNN simples et les RNN bidirectionnels. Nous avons aussi proposé plusieurs variantes des RNN pour la prise en compte d'informations linguistiques de bas niveau (informations morpho-syntaxiques) durant le processus de construction d'annotateurs linguistiques de niveau supérieur (SuperSenses et dépendances syntaxiques). Nous avons démontré la généricité de notre approche sur plusieurs langues ainsi que sur plusieurs tâches d'annotation linguistique. Nous avons construit trois types d'annotateurs linguistiques multilingues: annotateurs morpho-syntaxiques, annotateurs en SuperSenses et annotateurs en dépendances syntaxiques, avec des performances très satisfaisantes. Notre approche a les avantages suivants : (a) elle n'utilise aucune information d'alignement des mots, (b) aucune connaissance concernant les langues cibles traitées n'est requise au préalable (notre seule supposition est que, les langues source et cible n'ont pas une grande divergence syntaxique), ce qui rend notre approche applicable pour le traitement d'un très grand éventail de langues peu dotées, (c) elle permet la construction d'annotateurs multilingues authentiques (un annotateur pour N langages)
This thesis focuses on the automatic construction of linguistic tools and resources for analyzing texts of low-resource languages. We propose an approach using Recurrent Neural Networks (RNN) and requiring only a parallel or multi-parallel corpus between a well-resourced language and one or more low-resource languages. This parallel or multi-parallel corpus is used to construct a multilingual representation of words of the source and target languages. We used this multilingual representation to train our neural models and we investigated both uni and bidirectional RNN models. We also proposed a method to include external information (for instance, low-level information from Part-Of-Speech tags) in the RNN to train higher level taggers (for instance, SuperSenses taggers and Syntactic dependency parsers). We demonstrated the validity and genericity of our approach on several languages and we conducted experiments on various NLP tasks: Part-Of-Speech tagging, SuperSenses tagging and Dependency parsing. The obtained results are very satisfactory. Our approach has the following characteristics and advantages: (a) it does not use word alignment information, (b) it does not assume any knowledge about target languages (one requirement is that the two languages (source and target) are not too syntactically divergent), which makes it applicable to a wide range of low-resource languages, (c) it provides authentic multilingual taggers (one tagger for N languages)
APA, Harvard, Vancouver, ISO, and other styles
25

Chiao, Yun-Chuang. "Extraction lexicale bilingue à partir de textes médicaux comparable : application à la recherche d'information translangue." Paris 6, 2004. https://tel.archives-ouvertes.fr/tel-00007704.

Full text
APA, Harvard, Vancouver, ISO, and other styles
26

Laviosa-Braithwaite, S. "The English Comparable Corpus (ECC) : a resource and a methodology for the empirical study of translation." Thesis, University of Manchester, 1996. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.488308.

Full text
APA, Harvard, Vancouver, ISO, and other styles
27

Almujaiwel, Sultan Nasser. "Contrastive lexicology and comparable English-Arabic corpora-based analysis of vague and mistranslated Arabic equivalence : the case of the modern English-Arabic dictionary of al-Mawrid." Thesis, University of Exeter, 2012. http://hdl.handle.net/10871/13141.

Full text
Abstract:
The main concern in this research is to reveal the existence of shortcomings in the representation of meaning in the equivalents provided in a given context of the bilingual English-Arabic dictionary of al-Mawrid (Ba<albaki 2005), and to disclose the contributions made in Contrastive Lexicology, Bilingual Lexicography, Translation Theory, Corpus Linguistics and Contrastive Linguistics, in an attempt to come up with a more suitable framework, based on bilingual lexicology and corpora-based approaches, for the analysis of equivalence in English-Arabic by means of computerized corpora, especially by what is known as comparable corpora. This research is divided into 6 Chapters. The introduction, Chapter 1, provides the statement of the research problem, the rationale, the objectives and the questions of the study. Chapter 2 discusses three issues: (i) the terms used to refer to the word; (ii) the semantic analysis and relations of the word; and (iii) the disciplines of bilingual lexicography, translation studies and contrastive linguistics, and their respective contributions to the central notion of equivalence in the bilingual dictionary. The discussion about the last issue will pave the way for using comparable corpora in the investigation of selected entries and their equivalents in the given context. It will also show how useful and effective such an approach is in criticising existing Arabic equivalents in al-Mawrid (2005). Chapter 3 is a review of the bilingual English-Arabic dictionary of al-Mawrid in terms of its purpose and the representation of meanings and entries. It also includes an overview of previous reviews. The aim is to provide and develop a new critical framework of al-Mawrid by a new multi-approach to equivalence in the English-Arabic dictionary, as given in Chapter 4: this is mainly based on comparable English-Arabic corpora, and the criteria for making two individual corpora comparable rather than parallel. Chapters 5 and 6 are dedicated to the analysis of equivalents which are found to be either vague (see Chapter 5) or a mistranslation (see Chapter 6) in a given context.
APA, Harvard, Vancouver, ISO, and other styles
28

Do, Thi Ngoc Diep. "Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00680046.

Full text
Abstract:
Les systèmes de traduction automatique obtiennent aujourd'hui de bons résultats sur certains couples de langues comme anglais - français, anglais - chinois, anglais - espagnol, etc. Les approches de traduction empiriques, particulièrement l'approche de traduction automatique probabiliste, nous permettent de construire rapidement un système de traduction si des corpus de données adéquats sont disponibles. En effet, la traduction automatique probabiliste est fondée sur l'apprentissage de modèles à partir de grands corpus parallèles bilingues pour les langues source et cible. Toutefois, la recherche sur la traduction automatique pour des paires de langues dites "peu dotés" doit faire face au défi du manque de données. Nous avons ainsi abordé le problème d'acquisition d'un grand corpus de textes bilingues parallèles pour construire le système de traduction automatique probabiliste. L'originalité de notre travail réside dans le fait que nous nous concentrons sur les langues peu dotées, où des corpus de textes bilingues parallèles sont inexistants dans la plupart des cas. Ce manuscrit présente notre méthodologie d'extraction d'un corpus d'apprentissage parallèle à partir d'un corpus comparable, une ressource de données plus riche et diversifiée sur l'Internet. Nous proposons trois méthodes d'extraction. La première méthode suit l'approche de recherche classique qui utilise des caractéristiques générales des documents ainsi que des informations lexicales du document pour extraire à la fois les documents comparables et les phrases parallèles. Cependant, cette méthode requiert des données supplémentaires sur la paire de langues. La deuxième méthode est une méthode entièrement non supervisée qui ne requiert aucune donnée supplémentaire à l'entrée, et peut être appliquée pour n'importe quelle paires de langues, même des paires de langues peu dotées. La dernière méthode est une extension de la deuxième méthode qui utilise une troisième langue, pour améliorer les processus d'extraction de deux paires de langues. Les méthodes proposées sont validées par des expériences appliquées sur la langue peu dotée vietnamienne et les langues française et anglaise.
APA, Harvard, Vancouver, ISO, and other styles
29

Veiga, Alexandre Trigo. "A identificação de termos de Maçonaria simbólica usando corpora comparáveis." Pontifícia Universidade Católica de São Paulo, 2014. https://tede2.pucsp.br/handle/handle/13692.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:22:55Z (GMT). No. of bitstreams: 1 Alexandre Trigo Veiga.pdf: 1466775 bytes, checksum: 8e4e9f53a00dd032cb2884acc23dcdcf (MD5) Previous issue date: 2014-09-16
The present research was developed in order to present an alternative methodology for gathering and identifying terms from a specific area of studies in comparable corpora in Portuguese and English using computer tools designed for linguistic analysis. The selected specific area is Symbolic Freemasonry and the compiled corpora for this study are manuals and rituals used by freemasons during their works that are available in the Internet. The computer tools used for this research are the WordSmith Tools 6.0, the zExtractor and the SketchEngine. The terms identified as a result of this research will provide relevant data for developing a bilingual glossary of Symbolic Freemasonry to aid translators and proof-readers who specialize in masonic works
Esta pesquisa foi desenvolvida com o objetivo de apresentar uma metodologia alternativa para reunir e identificar termos de uma área específica em corpora comparáveis em português e inglês usando ferramentas computacionais de análise linguística. A área escolhida é a de Maçonaria Simbólica e os corpora compilados para este estudo são manuais e rituais utilizados pelos maçons em seus trabalhos disponíveis na Internet. As ferramentas computacionais usadas nesta pesquisa são o WordSmith Tools 6.0, o zExtractor e o SketchEngine. Os termos identificados como resultado desta pesquisa fornecerão dados relevantes para a elaboração de um glossário bilíngue para auxiliar tradutores e revisores que se especializam em obras maçônicas
APA, Harvard, Vancouver, ISO, and other styles
30

Afli, Haithem. "La Traduction automatique statistique dans un contexte multimodal." Thesis, Le Mans, 2014. http://www.theses.fr/2014LEMA1012/document.

Full text
Abstract:
Les performances des systèmes de traduction automatique statistique dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes. Cependant, les textes parallèles librement disponibles sont aussi des ressources rares : la taille est souvent limitée, la couverture linguistique insuffisante ou le domaine des textes n’est pas approprié. Il y a relativement peu de paires de langues pour lesquelles des corpus parallèles de tailles raisonnables sont disponibles pour certains domaines. L’une des façons pour pallier au manque de données parallèles est d’exploiter les corpus comparables qui sont plus abondants. Les travaux précédents dans ce domaine n’ont été appliqués que pour la modalité texte. La question que nous nous sommes posée durant cette thèse est de savoir si un corpus comparable multimodal permet d’apporter des solutions au manque de données parallèles dans le domaine de la traduction automatique.Dans cette thèse, nous avons étudié comment utiliser des ressources provenant de différentes modalités (texte ou parole) pour le développement d’un système de traduction automatique statistique. Une première partie des contributions consisteà proposer une technique pour l’extraction des données parallèles à partir d’un corpus comparable multimodal (audio et texte). Les enregistrements sont transcrits avec un système de reconnaissance automatique de la parole et traduits avec unsystème de traduction automatique. Ces traductions sont ensuite utilisées comme requêtes d’un système de recherche d’information pour sélectionner des phrases parallèles sans erreur et générer un bitexte. Dans la deuxième partie des contributions, nous visons l’amélioration de notre méthode en exploitant les entités sous-phrastiques créant ainsi une extension à notre système en vue de générer des segments parallèles. Nous améliorons aussi le module de filtrage. Enfin, nous présentons plusieurs manières d’aborder l’adaptation des systèmes de traduction avec les données extraites.Nos expériences ont été menées sur les données des sites web TED et Euronews qui montrent la faisabilité de nos approches
The performance of Statistical Machine Translation Systems statistics depends on the availability of bilingual parallel texts, also known as bitexts. However, freely available parallel texts are also a sparse resource : the size is often limited, languistic coverage insufficient or the domain of texts is not appropriate. There are relatively few pairs of languages for which parallel corpora sizes are available for some domains. One way to overcome the lack of parallel data is to exploit comparable corpus that are more abundant. Previous work in this area have been applied for the text modality. The question we asked in this thesis is : can comparable multimodal corpus allows us to make solutions to the lack of parallel data in machine translation? In this thesis, we studied how to use resources from different modalities (text or speech) for the development of a Statistical machine translation System. The first part of the contributions is to provide a method for extracting parallel data from a comparable multimodal corpus (text and audio). The audio data are transcribed with an automatic speech recognition system and translated with a machine translation system. These translations are then used as queries to select parallel sentences and generate a bitext. In the second part of the contribution, we aim to improve our method to exploit the sub-sentential entities creating an extension of our system to generate parallel segments. We also improve the filtering module. Finally, we présent several approaches to adapt translation systems with the extracted data. Our experiments were conducted on data from the TED and Euronews web sites which show the feasibility of our approaches
APA, Harvard, Vancouver, ISO, and other styles
31

Prestes, Kassius Vargas. "Extração multilíngue de termos multipalavra em corpora comparáveis." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2015. http://hdl.handle.net/10183/118257.

Full text
Abstract:
Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.
This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English.
APA, Harvard, Vancouver, ISO, and other styles
32

Shen, Lionel. "Méthodes de veille textométrique multilingue appliquées à des corpus de l’environnement et de l’énergie : « Restitution, prévision et anticipation d’événements par poly-résonances croisées »." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCA085/document.

Full text
Abstract:
Cette thèse propose une série de méthodes de veille textométrique multilingue appliquées à des corpus thématiques. Pour constituer ce travail, deux types de corpus sont mobilisés : un corpus comparable et un corpus parallèle, composés de données textuelles extraites des discours de presse, ainsi que ceux des ONG. Les informations récupérées proviennent de trois mondes en trois langues différentes : français, anglais et chinois. La construction de ces deux corpus s’effectue autour de deux thèmes d’actualité ayant pour objet, l’environnement et l’énergie, avec une attention particulière sur trois notions : les énergies, le nucléaire et l’EPR. Après un bref rappel de l’état de l’art en intelligence économique, veille et textométrie, nous avons exposé les deux sujets retenus, les technicités morphosyntaxiques des trois langues dans les contextes nationaux et internationaux. Successivement, les caractéristiques globales, les convergences et les particularités de ces corpus ont été mises en évidence. Les dépouillements et les analyses qualitatives et quantitatives des résultats obtenus sont réalisés à l’aide des outils de la textométrie, notamment grâce aux analyses factorielles des correspondances, réseaux cooccurrentiels et poly-cooccurrentiels, spécificités du modèle hypergéométrique, segments répétés ou encore à la carte des sections. Ensuite, la veille bi-textuelle bilingue a été appliquée sur les trois mêmes concepts dans l’objectif de mettre en évidence les modes selon lesquels les corpus multilingues à caractère comparé et parallèle se complètent dans un processus de veille plurilingue, de restitution, de prévision et d’anticipation. Nous concluons notre recherche en proposant une méthode analytique par Objets-Traits-Entrées (OTE)
This thesis proposes a series of textometric multilingual information monitoring methods applied to thematic corpora (textometry is also called textual statistics or text data analysis). Two types of corpora are mobilized to create this work: a comparable corpus and a parallel corpus in which the textual data are extracted from the press and discourse of NGOs. The information source was retrieved from three countries in three different languages: English, French and Chinese. The two corpora were constructed on two topical issues concerning the environment and energy, with a focus on three concepts: energy, nuclear power and the EPR (European Pressurized Reactor or Evolutionary Power Reactor). After a brief review of the state of the art on business intelligence, information monitoring and textometry, we first set out the two chosen subjects – the environment and energy – and then the morphosyntactic features of the three languages in national and international contexts. The overall characteristics, similarities and peculiarities of these corpora are highlighted successively. The recounts and qualitative and quantitative analyses of the results were carried out using textometric tools, including factor analysis of correspondences, co-occurrences and polyco-occurrential networks, specificities of the hypergeometric model and repeated segments or map sections. Thereafter, bilingual bitextual information monitoring was applied to the same three concepts with the aim of elucidating how the comparable corpus and the parallel corpus can mutually help each other in a process of multilingual information monitoring, by restitution, forecasting and anticipation. We conclude our research by offering an analytical method called Objects-Features-Opening (OFO)
APA, Harvard, Vancouver, ISO, and other styles
33

Martínez, Vilinsky Bárbara. "La Infrarrepresentación de elementos únicos en textos traducidos de inglés a español: perífrasis verbales, demostrativos y sufijos apreciativos en un corpus comparable y paralelo de novela policíaca." Doctoral thesis, Universitat Jaume I, 2016. http://hdl.handle.net/10803/669024.

Full text
Abstract:
En la década de los noventa se sentaron las bases de lo que hoy conocemos como Estudios de Traducción Basados en Corpus gracias, en gran medida, a una serie de artículos publicados por Mona Baker (1993, 1996), en los que la autora plantea la idea de utilizar la metodología de la lingüística de corpus para estudiar la naturaleza particular del fenómeno de la traducción que, en su opinión, se manifestaría en regularidades lingüísticas o patrones diferentes de los que podríamos hallar en producciones originales en la misma lengua. A estas regularidades las denomina universales de traducción, y uno de los candidatos a este título que se ha propuesto más recientemente constituye el principal objeto de estudio de este trabajo: la infrarrepresentación en textos traducidos de elementos únicos de la lengua meta. La hipótesis de la infrarrepresentación surgió a partir de los trabajos de autoras escandinavas como Mauranen (2000), Eskola (2004) o Tirkkonen-Condit (2004). Esta última sostiene que existen ciertos elementos, denominados unique items, que son típicos de la lengua de llegada, en el sentido de que no se representan de la misma manera en otros idiomas y que, al no contar con un equivalente inmediatamente accesible en la lengua de partida, no encuentran estímulo en los textos de partida para su activación. Por lo tanto, las traducciones tienden a manifestar estos elementos con menor frecuencia que los textos originales escritos en la misma lengua. La Unique Items Hypothesis, como la bautizó Tirkkonen-Condit, ha sido respaldada mayoritariamente por estudiosos finlandeses y suecos. En este trabajo se pretende averiguar si este fenómeno de infrarrepresentación se observa también en el par de lenguas inglés-español y, más concretamente, en el género de la novela policíaca. Para ello, analizamos, mediante la metodología estándar de los Estudios de Traducción basados en Corpus —es decir, el estudio de características lingüísticas a través de conjuntos de textos compilados en corpus electrónicos de distintos tipos (en este caso, paralelo y comparable) y la ayuda de herramientas automáticas de análisis y extracción de datos— tres candidatos a unique item en español: un grupo de 27 perífrasis verbales de infinitivo y gerundio, el conjunto de los pronombres, determinantes y adverbios locativos demostrativos y un grupo de sufijos apreciativos de valor diminutivo, aumentativo y peyorativo. Las frecuencias recogidas indican que los autores de obras escritas originalmente en español utilizan ciertas expresiones típicas de su lengua materna de manera considerablemente más frecuente que los traductores. Estos últimos no utilizan dichas expresiones en la misma medida ni de la misma manera en que las utilizarían al escribir un texto en español sin la influencia de un texto de partida. No obstante, el análisis cualitativo del componente paralelo indica que no siempre es la falta de estructuras activadoras la responsable de este fenómeno, sino que existe una confluencia de factores de muy diversa naturaleza que influye en la infrarrepresentación de estos elementos en textos traducidos al español. Referencias: - Baker, M. (1993). Corpus Linguistics and Translation Studies. Implications and Applications. En M. Baker, G. Francis y E. Tognini-Bonelli (eds.), Text and Technology. In Honour of John Sinclair (pp. 233-250). Amsterdam: John Benjamins. - Baker, M. (1996). Corpus-based translation studies: the challenges that lie ahead. En H. Somers (ed.), Terminology, LSP and translation studies in language engineering (175-186). Amsterdam: John Benjamins. - Eskola, S. (2004). Untypical Frequencies in Translated Language: A Corpus-Based Study on a Literary Corpus of Translated and Non-Translated Finnish. En A. Mauranen y P. Kujamäki (eds.), Translation Universals. Do They Exist? (pp. 83-99). Amsterdam: John Benjamins. - Mauranen, A. (2000). Strange strings in translated language. A study on corpora. En M. Olohan (ed.), Intercultural faultlines. Research models in translation studies (Vol. I. Textual and cognitive aspects, pp. 119-141). Manchester: St. Jerome Publishing. - Tirkkonen-Condit, S. (2004). Unique items — over- or under-represented in translated language? En A. Mauranen y P. Kujamäki (eds.), Translation universals: Do they exist? (pp. 177-184). Amsterdam: John Benjamins.
APA, Harvard, Vancouver, ISO, and other styles
34

Saad, Motaz. "Fouille de documents et d'opinions multilingue." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0003/document.

Full text
Abstract:
L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue
The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair
APA, Harvard, Vancouver, ISO, and other styles
35

Orenha, Adriane [UNESP]. "Unidades fraseológicas especializadas: colocações e colocações estendidas em contratos sociais e estatutos sociais traduzidos no modo juramentado e não-juramentado." Universidade Estadual Paulista (UNESP), 2009. http://hdl.handle.net/11449/103524.

Full text
Abstract:
Made available in DSpace on 2014-06-11T19:32:45Z (GMT). No. of bitstreams: 0 Previous issue date: 2009-05-26Bitstream added on 2014-06-13T20:24:00Z : No. of bitstreams: 1 orenha_a_dr_sjrp.pdf: 2083225 bytes, checksum: d8f591d9558b95f175aa9e7d6591f835 (MD5)
Esta pesquisa visa realizar um estudo a respeito dos termos, colocações e colocações especializadas estendidas presentes em contratos sociais e estatutos sociais que representam os corpora de pesquisa. Nesta pesquisa, também observaremos as semelhanças e diferenças nos corpora de traduções jurídicas e juramentadas, no que concerne ao uso desses termos e padrões lexicais, assim como apontaremos aqueles que são mais frequentemente empregados em documentos do tipo contrato social e estatuto social. A investigação baseia-se na abordagem interdisciplinar dos Estudos da Tradução Baseados em Corpus, da Linguística de Corpus, da Fraseologia, de modo mais específico das colocações, das colocações especializadas e das unidades fraseológicas especializadas. A Terminologia, por meio de seus pressupostos teóricos, também traz sua contribuição para a pesquisa, assim como os trabalhos sobre a tradução juramentada. Uma das motivações que delineia este estudo reside no fato de a tradução juramentada ser considerada de grande relevância nas relações comerciais, sociais e jurídicas entre as nações. Para realizar este estudo, compilamos um corpus de estudo (CE1) constituído por contratos sociais e estatutos sociais traduzidos no modo juramentado, nas direções tradutórias inglês português e português inglês, extraídos de Livros de Registro de Traduções, pertencentes a tradutores juramentados credenciados pela Junta Comercial de dois Estados brasileiros; e um corpus de estudo (CE2) formado por documentos de mesma natureza traduzidos sem o processo de juramentação, nas mesmas direções tradutórias. Além destes corpora, construímos dois corpora comparáveis, formados pelos referidos documentos originalmente escritos em português e em inglês. Os resultados desta pesquisa mostraram várias semelhanças, no tocante aos termos empregados em documentos traduzidos...
This investigation aims at carrying out a study on terms, collocations and extended specialized collocations present in articles of incorporation/articles of organization/articles of association and bylaws that represent our research corpora. We will also observe similarities and differences in sworn and legal translation corpora, which concerns the use of such terms and lexical patterns, as well as point out the ones which are more frequently used in the focused documents. This research derives its theoretical and methodological sources from Corpus-Based Translation Studies, Corpus Linguistics, Phraseology, more specifically from collocations, specialized collocations and specialized phraseological units (SPUs). Terminology, from its theoretical standpoint, also offers its contribution to this study, as well as essays on sworn translation. One of the aspects that motivates this study is the fact that sworn translation is considered to be of great relevance to commercial, social and legal relations among nations. To conduct this research, we compiled a study corpus (CE1) composed of articles of incorporation/articles of organization/articles of association and bylaws submitted to the process of sworn translation in the English Portuguese and Portuguese English directions, excerpted from the Books of Sworn Translation Records, made available by five Brazilian sworn translators, duly sworn by the Board of Trade of two Brazilian States; a study corpus (CE2) made up of documents of the same nature not submitted to the process of sworn translation, in the same translation directions. Besides these corpora, we also built two comparable corpora formed by the referred documents originally written in Portuguese and in English. The results obtained in this research showed some similarities which refer to the terms used in documents submitted to the process of sworn translation... (Complete abstract click electronic access below)
APA, Harvard, Vancouver, ISO, and other styles
36

Jakubina, Laurent. "Induction de lexiques bilingues à partir de corpus comparables et parallèles." Thèse, 2017. http://hdl.handle.net/1866/20488.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Rebout, Lise. "L’extraction de phrases en relation de traduction dans Wikipédia." Thèse, 2012. http://hdl.handle.net/1866/8614.

Full text
Abstract:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Working with comparable corpora can be useful to enhance bilingual parallel corpora. In fact, in such corpora, even if the documents in the target language are not the exact translation of those in the source language, one can still find translated words or sentences. The free encyclopedia Wikipedia is a multilingual comparable corpus of several millions of documents. Our task is to find a general endogenous method for extracting a maximum of parallel sentences from this source. We are working with the English-French language pair but our method -- which uses no external bilingual resources -- can be applied to any other language pair. It can best be described in two steps. The first one consists of detecting article pairs that are most likely to contain translations. This is achieved through a neural network trained on a small data set composed of sentence aligned articles. The second step is to perform the selection of sentence pairs through another neural network whose outputs are then re-interpreted by a combinatorial optimization algorithm and an extension heuristic. The addition of the 560~000 pairs of sentences extracted from Wikipedia to the training set of a baseline statistical machine translation system improves the quality of the resulting translations. We make both the aligned data and the extracted corpus available to the scientific community.
APA, Harvard, Vancouver, ISO, and other styles
38

Tay, Hui-teng, and 鄭暉騰. "Exploring Explicitation in Legal Translation through a Comparable Corpus." Thesis, 2016. http://ndltd.ncl.edu.tw/handle/74935488698970480351.

Full text
Abstract:
碩士
國立臺灣師範大學
翻譯研究所
104
Explicitation is a much studied phenomenon and considered by some to be a "universal" of translation. In the field of legal translation, where the precision and accuracy of language are key priorities, it would make sense for explicitation to be more pronounced in translations as opposed to non-translated English texts. But to what extent is this true? This is the primary issue this paper is seeking to explore. Through the use of the easily accessible and versatile corpus-processing tool AntConc, I analysed a monolingual, comparable corpus consisting of a translational English sub-corpora and a non-translational English sub-corpora, both drawn from court judgments published on the website of the Judiciary of the Hong Kong Special Administrative Region. Due to the unique nature of Hong Kong's legal system, in which both English and Chinese are official languages of the court, a large number of key judgments are translated from Chinese into English presumably for reference purposes, thus making them suitable for the study of translational differences in legal translation. With respect to explicitation, we looked at several explicitation phenomena including the "verb+that-clause" pattern, conjunctions and transitional words. The frequencies of these explicitation phenomena are tabulated, with the difference in frequencies between the translational and non-translational being subjected to a log-likelihood test to determine their significance. The findings as a whole does support the view that explicitating connectives are used in a statistically more pronounced manner in the translated sub-corpora.
APA, Harvard, Vancouver, ISO, and other styles
39

Le, Serrec Annaïch. "Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatique." Thèse, 2012. http://hdl.handle.net/1866/9044.

Full text
Abstract:
Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005). Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie. L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais. Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables. Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs.
The research undertaken for this thesis concerns the analysis of terminological equivalence in a parallel corpus and a comparable corpus. More specifically, we focus on specialized texts related to the domain of climate change. A unique aspect of this study is based on the analysis of the equivalents of single word terms. The theoretical frameworks on which we rely are the terminologie textuelle (Bourigault et Slodzian 1999) and the lexico-sémantique approaches (L’Homme 2005). This study has two objectives. The first is to perform a comparative analysis of terminological equivalents in the two types of corpora in order to verify if the equivalents found in the parallel corpus are different from the ones observed in the comparable corpora. The second is to compare in detail equivalents associated with a same English term, in order to describe them and define a typology. A detailed analysis of the French equivalents of 343 English terms is carried out with the help of computer tools (term extractor, text aligner, etc.) and the establishment of a rigorous methodology divided into three parts. The first part, common to both objectives of the research concerns the elaboration of the corpus, the validation of the English terms and the identification of the French equivalents in the two corpora. The second part describes the criteria on which we rely to compare the equivalents of the two types of corpora. The third part sets up the typology of equivalents associated with a same English term. The results for the first objective shows that of the 343 English words analyzed, terms with equivalents that can be criticized in both corpora are relatively low in number (12), while the number of terms with similar equivalences between the two corpora is very high (272 identical and 55 equivalents not objectionable). The analysis described in this chapter confirms our hypothesis that terminology used in parallel corpora does not differ from that used in comparable corpora. The results of the second objective show that many English terms are rendered by several equivalents (70% of analyzed terms). It is also noted that synonyms are not the largest group of equivalents but near-synonyms. Also, equivalents from another part of speech constitute an important part of the equivalents analyzed. Thus, the typology developed in this thesis presents terminological equivalent mechanisms rarely described as systematically in previous work.
APA, Harvard, Vancouver, ISO, and other styles
40

Grégoire, Francis. "Extraction de phrases parallèles à partir d’un corpus comparable avec des réseaux de neurones récurrents bidirectionnels." Thèse, 2017. http://hdl.handle.net/1866/20191.

Full text
APA, Harvard, Vancouver, ISO, and other styles
41

Špínová, Adéla. "Hypotéza unique items v překladu. Korpusová studie." Master's thesis, 2017. http://www.nusl.cz/ntk/nusl-370047.

Full text
Abstract:
This thesis is focused on testing the so-called unique items hypothesis on Czech language data. Supposed Czech unique items were chosen from lexical units, word-formation phenomena, syntactic structures and language use phenomena. Their frequency in a comparable monolingual corpus of contemporary Czech was established and the differences in frequency were statistically tested. This quantitative research was accompanied by a qualitative probe into the English source texts from which sentences containing selected unique items were translated using an aligned parallel corpus of English-Czech translations. The results reveal a general tendency of unique items to be underrepresented in translated language and a variety of source- language phenomena that underlie unique items usage in the target language.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography