To see the other types of publications on this topic, follow the link: Lingüística de corpus.

Dissertations / Theses on the topic 'Lingüística de corpus'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Lingüística de corpus.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Garcia, Tania Mikaela. "Lingüística de corpus." Florianópolis, SC, 2002. http://repositorio.ufsc.br/xmlui/handle/123456789/83617.

Full text
Abstract:
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão. Programa de Pós-Graduação em Lingüística.
Made available in DSpace on 2012-10-20T01:42:51Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-26T01:51:48Z : No. of bitstreams: 1 184731.pdf: 3048506 bytes, checksum: 88898b74285a6ce4e69815aa47c96294 (MD5)
Este trabalho apresenta um estudo realizado com alunos de 8ª série do ensino fundamental de um colégio da rede particular de ensino de Itajaí - SC, que adota a Metodologia de Projetos de Pesquisa, numa concepção sociointeracionista do processo de ensino/aprendizagem. O estudo teve como objetivos: 1) proporcionar aos alunos o contato com a Lingüística de Corpus (LC), uma metodologia de análise lingüística que pode ser aliada à metodologia aplicada no colégio para o ensino/aprendizagem do Português como língua materna; 2) propor um uso mais produtivo do computador em sala de aula, uma vez que é ele a ferramenta de manipulação de corpora usada na LC; e 3) levantar as contribuições da LC para o estudo do uso dos pronomes pessoais TE/LHE, em contraste com uma abordagem tradicionalista de ensino que se fundamenta na Gramática Normativa e no mero repasse de regras desvinculadas do uso autêntico da língua. A pesquisa parte do pressuposto de que, dentre dois grupos de alunos envolvidos no estudo do uso dos pronomes TE/LHE, um com base em corpus, outro num repasse tradicional de conteúdos, o primeiro grupo obteria melhores resultados numa posterior avaliação, o que parece ser verdadeiro, a despeito do pequeno número de dados disponíveis.
APA, Harvard, Vancouver, ISO, and other styles
2

Gonzalez, Zeli Miranda Gutierrez. "Lingüística de corpus na análise do internetês." Pontifícia Universidade Católica de São Paulo, 2007. https://tede2.pucsp.br/handle/handle/13928.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:23:36Z (GMT). No. of bitstreams: 1 ZELI MIRANDA GUTIERREZ GONZALEZ.pdf: 1268917 bytes, checksum: 3a704528461b06f74cb2b2e71d8fdcf1 (MD5) Previous issue date: 2007-11-05
The study presented was motivated by the needs of comprehend the changes in the ortography of the Internet language, such as identify those changes frequency. The main aim of this study was to focus on the usage of a Corpus Linguistics approach for identification of frequent words most used in the studies corpus, such as frequences of changes in the ortography and the lexican gramathical standards of the internet language. There is a great range of studies on the internet language; however, very few of them has demontrated empirically how frequent changes are. Therefore, this study has tried to fill this gap by being able to show empirically the changes. The main theoretical underpinning for the research is provided by Corpus Linguistics, assuming the main notions presented by Biber (1998), Berber Sardinha (2004, 2006), Sinclair (1991,1996). For focusing the use frequency of lexican items it was considered, more specificly, the studies of Berber Sardinha (2000a, 2000b, 2004), Halliday (1991, 1992, 1993). Besides the Corpus Linguistics, the project also mentioned in questions such as: linguisctics diversity, genre, registry and internet language ortography along the perspective of Possenti (2006), Mollica (2007), Thurlow and Brown (2007), Crystal (2001), Othero, (2004). The corpus employed in the study was collected of young people s blogs that use internet for comunication. This corpus contains 135.021 tokes and 15.552 types. For the development of this research and of the analysis of the lexican items it was considered all the 500 most used words in the corpus studies. The frequences were used as base for decription of changes happened in the variant linguistics ortography the internet language. Among the most frequent items in the corpus was selected the td item with the sense of all, every, everything ( tudo, todo, toda, todas e todos in portuguese), with the objective of verify the standards lexican-gramathical, contributed for the respective senses. To sum up, this study hopes it has contributed to the study of the internet language, since there are few studies that have demosntrated empirically how these changes occur. This work also presentes the research limitations and its possible applications in the future
O trabalho que ora se apresenta foi motivado pela necessidade de compreender as modificações na grafia do internetês, bem como identificar a freqüência dessas modificações. Esse trabalho teve como objetivo principal utilizar uma abordagem baseada em Lingüística de Corpus na identificação das palavras mais freqüentes do internetês, das freqüências de modificações na grafia e os padrões léxico gramaticais. Há vários trabalhos que lidam com a questão do internetês; entretanto, nenhum deles demonstrou empiricamente quão freqüente as modificações ocorrem. Sendo assim, esse trabalho buscou preencher essa lacuna, sendo, portanto, capaz de demonstrar empiricamente a extensão dessas modificações. Para tanto, encontrou suporte teórico na Lingüística de Corpus, adotando as principais noções apresentadas por Biber (1998), Berber Sardinha (2004, 2006), Sinclair (1991,1996). Por enfocar as freqüências de uso de itens lexicais consideraram-se, mais especificamente, os trabalhos de Berber Sardinha (2000a, 2000b, 2004), Halliday (1991, 1992, 1993). Além da Lingüística de Corpus, o projeto também tocou em questões como: variedades lingüísticas, gênero, registro e grafia internáutica sob a perspectiva de Possenti (2006), Mollica (2007), Thurlow and Brown (2007), Crystal (2001), Othero (2004). O corpus empregado na pesquisa foi coletado em blogs de jovens que utilizam a internet para comunicação. O corpus contém 135.021palavras e 15.552 formas. Para as análises dos itens lexicais consideraram-se as 500 palavras mais freqüentes do corpus de estudo. As freqüências detectadas serviram como base para a descrição das modificações ocorridas na grafia da variante lingüística o internetês. Entre os itens mais freqüentes do corpus, selecionou-se o item td com sentido de tudo, toda, todo, todos, todas, com a finalidade de verificar se os padrões léxicogramaticais contribuíam para os respectivos sentidos. Por conseguinte, a pesquisa pretende ter contribuído para o estudo do internetês, uma vez que há poucos trabalhos que demonstrem, de maneira empírica, essas modificações. O trabalho ainda apresenta as limitações da pesquisa e aponta sugestões para futuros estudos
APA, Harvard, Vancouver, ISO, and other styles
3

López, Garcia Verònica. "Lingüística de corpus aplicada a la didáctica de la traducción audiovisual." Doctoral thesis, Universitat Autònoma de Barcelona, 2018. http://hdl.handle.net/10803/665316.

Full text
Abstract:
Vivimos en la era de la inmediatez informativa, que es también la de la inmediatez en el ocio y el entretenimiento y los estudios y agencias de traducción deben traducir y doblar (o subtitular) series y documentales en tiempo récord, para lo cual es habitual el reparto de una misma serie entre varios traductores con los problemas de consistencia que esto acarrea. Además, en ocasiones, en las llamadas comedias de situación (o sitcoms) existen expresiones recurrentes que acaban haciéndose populares o marcas de idiolecto que los guionistas utilizan para dibujar el carácter de algunos de los personajes. Estos elementos, dada su relevancia, deben mantenerse en las versiones traducidas de estas series. Esta tesis presenta un método de análisis del guion basado en la lingüística de corpus que detecta de un modo semiautomático expresiones recurrentes y marcas idiolectales en guiones de series y documentales consiguiendo identificarlas, y así poder consensuar su traducción, antes de su reparto entre traductores. Para ilustrar el método, este se aplica a las series Seinfeld y Little Britain. Tras el éxito de la aplicación profesional de este método, esta tesis presenta también su aplicación didáctica mediante el diseño una unidad didáctica por tareas y sus dos pilotados con alumnos del Grado en Traducción e Interpretación de la Universitat Autònoma de Barcelona. Se presentan también los cambios que estos pilotados ocasionaron en la unidad didáctica inicial, así como los resultados de los cuestionarios en los que se recoge la autoevaluación de los estudiantes y su evaluación de la unidad didáctica (contenidos y organización). Los objetivos de aprendizaje principales de dicha unidad son: • Reconocer la importancia del análisis previo a la traducción • Conocer aplicaciones avanzadas del procesador de textos (macros, operaciones con Regular Expressions, etc.) • Analizar corpus de textos con gestores de corpus La unidad didáctica muestra también la versatilidad del método, haciendo que los estudiantes lo apliquen al análisis del guion de la película Casablanca y mostrando como su aplicación habría evitado alguno de sus más sonados errores de traducción.
We live in the era of instant news, which is also the era of instant entertainment and leisure activities. This means that translation agencies and recording studios have to translate and dub (or subtitle) series and documentaries in record time. In order to beat deadlines, a single series is often shared out among several translators, leading to multiple problems of coherence. Furthermore, some series, for example some sitcoms, frequently include recurring expressions that become popular in everyday speech, or idiolect markers used by scriptwriters to portray the personality of some of the characters. These expressions, are often so significant that they should also be recurring in the translated versions of these series. This thesis presents a script analysis method based on corpus linguistics that detects these recurring expressions and idiolect markers semi-automatically in the scripts of series and documentaries. Once they have been identified, a translation can be agreed upon before the series is divided up among the team of translators. The series Seinfeld and Little Britain have been used to illustrate the method. Having successfully created and applied this corpus-based method in a professional context, the author designed the application of the method to teaching translation through a task-based teaching unit. The thesis presents this and two pilot tests carried out with students from the undergraduate degree in Translation and Interpreting at the Universitat Autònoma de Barcelona. The thesis also describes the changes introduced to the original teaching unit after the pilot tests, the results of the questionnaires used to collect the students’ own self-assessment as well as their assessment of the teaching unit (content and organisation). The main learning objectives of this unit are: - To understand the importance of pre-translation analysis - To know and use advanced applications of MS Word (macros, operations with Regular Expressions, etc.) - To analyze corpus using a corpus manager (AntConc) One of the corpus used by the students in the teaching unit, the script of Casablanca, illustrates the versatility of the method. The students realise that by using the method, some of the most notorious translation errors in this famous film could have been avoided.
APA, Harvard, Vancouver, ISO, and other styles
4

Alambert, Eliane Gurjão Silveira. "Uma tradução premiada sob a perspectiva da lingüística de corpus." Pontifícia Universidade Católica de São Paulo, 2008. https://tede2.pucsp.br/handle/handle/14004.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:23:51Z (GMT). No. of bitstreams: 1 Eliane Gurjao Silveira Alambert.pdf: 1296357 bytes, checksum: ea132bee705067dba38b1a8f84650ae3 (MD5) Previous issue date: 2008-09-01
Conselho Nacional de Desenvolvimento Científico e Tecnológico
This study aimed at discover, systematically, features in an awarded translation that could show the translator expertise. Thus, we used the winner of the União Latina in 2006, DNA- O segredo da Vida, translated by Carlos Afonso Malferrari from the originally English written book DNA- The secret of life of James D. Watson. Original and translation were scanned, producing two subcorpora that were aligned in a parallel corpus. The subcorpus containing the translated text was compared with a Portuguese general corpus in terms of vocabulary size, and the results showed that this feature is much alike for both corpora. Based on the fact that a word in English that has a cognate in Portuguese can influence the translation choices, we established two categories, one that presents a direct translation for Portuguese and other that doesn t present a direct translation. A sample with 40 words, 20 of each category, was taken from the parallel corpus to check the translations used for each one. We found that the translator use a number of words in Portuguese for each one in English and that the origin of the word is indifferent to the expert translator, so that it doesn t matter which category the word in English is fit in, for he uses a very similar number of words in Portuguese for each one in English despite its nature. Thus, the results show that the expert translator is committed to the context and is not attached to fixed formulas or predetermined solutions
Este estudo teve o objetivo encontrar, de modo sistemático, características de uma tradução premiada que revelassem a expertise do tradutor. Para tanto, foi selecionada a tradução que recebeu o prêmio União Latina de 2006, DNA- O segredo da Vida, traduzida por Carlos Afonso Malferrari a partir do original em inglês DNA- The secret of life de James D. Watson. O original e a tradução foram digitalizados, dando origem a dois subcorpora que foram alinhados para formar um corpus paralelo. O corpus com o texto traduzido foi comparado com uma amostra do Banco de Português em termos de tamanho de vocabulário, mostrando que a tradução tem tamanho de vocabulário muito próximo à amostra. Baseados no fato de que uma palavra em inglês cognata de outra em português pode exercer influência na escolha da tradução, determinamos duas categorias de palavras a serem investigadas, as que apresentam uma tradução imediata para o português e as que não apresentam tradução imediata para o português. Do corpus paralelo foi extraída uma amostra com 40 palavras, 20 de cada categoria, para o levantamento das traduções. Descobrimos que o tradutor usa traduções variadas para cada palavra do original e que a natureza da palavra na língua inglesa é indiferente ao tradutor experiente, não importando a sua semelhança com o português, pois ele atribui um número de escolhas uniforme entre ambas as categorias. Assim, os resultados mostram que o tradutor experiente tem compromisso com o contexto, não se prendendo a fórmulas ou soluções prédeterminadas
APA, Harvard, Vancouver, ISO, and other styles
5

Martins, Lilian de Mello. "Identificação e tradução de metáforas lingüísticas e conceptuais em abstracts da esfera acadêmica: uma análise baseada em lingüística de corpus." Pontifícia Universidade Católica de São Paulo, 2008. https://tede2.pucsp.br/handle/handle/13971.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:23:46Z (GMT). No. of bitstreams: 1 Lilian de Mello Martins.pdf: 1137707 bytes, checksum: adadcfd6e09b3b274373c4e3ef7c72cb (MD5) Previous issue date: 2008-06-16
Corpus Linguistics has recently begun to make inroads into two major fields of linguistic inquiry: metaphor (Deignan, 2005) and translation (Baker, 1993; 1995; 1996; 1998;1999). Metaphor is a central figure of language and thought (Lakoff & Johnson, 1980) which shapes our conceptualization of the world. On the other hand, translators have increasingly utilized the tools made available by Corpus Linguistics to unveil the actual threads researchers follow in order to make translations from one language to another. In such context, the study hereby detailed aims at focusing metaphors as cognitive phenomena. More specifically, the research aims to identify the linguistic and conceptual metaphors in a corpus of academic sphere and subsequently focus the study of metaphor translations under a cognitive approach. For this purpose, methodology started by collecting a parallel corpus of bilingual abstracts of thesis and dissertations in Applied Linguistics, firstly written in Portuguese and then translated into English. The corresponding analysis was based on corpus-driven procedures whereby the evidences gathered have led to questions to be investigated. The study utilized the LC tools (Metaphor Identification Program, Concord and Parallel Concordander) in order to present a safer and wider data analysis. Due to language metaphor richness, the metaphor identification program was used to point out the most probable metaphors in the corpus. Later on, in order to determine the metaphors effectively used and translated, both corpora originals and translations were automatically aligned and submitted to the parallel concordancer for comparison purposes. The results point to a significantly high number of conceptual correlations between metaphors in the original and translated abstracts; nevertheless, in some cases metaphors were missing or mistranslated. If, as Lakoff e Johnson states, metaphors structure the way we understand the world, then these metaphorical shifts may influence how abstracts are understood in both languages
Recentemente, a Lingüística de Corpus começou a fazer incursões em duas grandes áreas da lingüística: metáfora (Deignan, 2005) e tradução (Baker, 1993; 1995; 1996; 1998; 1999). A metáfora é uma figura central de linguagem e do pensamento (Lakoff e Johnson, 1980), que modela a nossa maneira de conceptualizar o mundo. Por outro lado, a tradução é um campo que vem utilizando cada vez mais as ferramentas da Lingüística de Corpus para desvendar de que forma os pesquisadores realizam traduções de uma língua para outra. Inserida nesse contexto, a pesquisa aqui descrita tem como objetivo frisar a metáfora como um fenômeno cognitivo. Mais especificamente, a pesquisa tem por finalidade identificar as metáforas lingüísticas e conceptuais num corpus de esfera acadêmica e, posteriormente, enfocar a abordagem cognitiva nas traduções das metáforas. Para tanto, a metodologia consistiu na coleta de um corpus paralelo composto de resumos de teses e dissertações em Lingüística Aplicada e Estudos da Linguagem da PUC-SP, escritos originalmente em Língua Portuguesa, e suas respectivas traduções para a Língua Inglesa. A análise baseou-se na metodologia orientada pelos dados onde as evidências extraídas do corpus conduzem às questões a serem investigadas. Nesse quadro, o presente estudo fez uso das ferramentas computacionais (Identificador de Metáforas, Concord e o Concordanciador Paralelo) disponibilizadas pela Lingüística de Corpus, de forma a produzir uma análise de dados mais ampla e segura. Devido à vasta riqueza de metáforas na língua, utilizamos o programa Identificador de Metáforas, cuja função principal é a de apontar as palavras com maior potencialidade metafórica dentro de um corpus. Posteriormente, a fim de observar como as metáforas são realmente utilizadas e traduzidas, os dois corpora originais e traduções foram automaticamente alinhados e submetidos ao Concordanciador Paralelo, para fins de comparação. Os resultados apontam para uma grande correspondência conceptual entre as metáforas nos resumos originais e suas traduções; no entanto, ocorreram casos em que as metáforas estavam ausentes ou mal traduzidas. Se, como Lakoff e Johnson argumentam, as metáforas estruturam o modo pelo qual compreendemos o mundo, então essas variações metafóricas podem influenciar a forma como os resumos são entendidos nas duas línguas
APA, Harvard, Vancouver, ISO, and other styles
6

Matamala, Ripoll Anna. "Les interjeccions en un corpus audiovisual. Descripció i representació lexicogràfica." Doctoral thesis, Universitat Pompeu Fabra, 2004. http://hdl.handle.net/10803/7498.

Full text
Abstract:
"Les interjeccions en un corpus audiovisual: descripció i representació lexicogràfica" aborda l'estudi de les interjeccions en un corpus audiovisual de comèdies de situació originals i doblades de l'anglès al català. En la tesi es descriuen les interjeccions des de diferents perspectives i, després d'analitzar-ne la representació als diccionaris, es proposa una aplicació lexicogràfica electrònica bilingüe.
"Les interjeccions en un corpus audiovisual: descripció i representació lexicogràfica", PhD studies interjections in an audiovisual corpus of sitcoms, both original and dubbed from English into Catalan. Interjections are described from different perspectives and, after analysing their representation in dictionaries, a bilingual electronic lexicographical tool is proposed.
APA, Harvard, Vancouver, ISO, and other styles
7

Martínez, Rodríguez Elena Cristina. "Corpus of the Lycian and Hieroglyphic Luwian Kinship Terms." Doctoral thesis, Universitat de Barcelona, 2020. http://hdl.handle.net/10803/673408.

Full text
Abstract:
This dissertation provides a philological corpus of the kinship lexicon attested in the Lycian and Hieroglyphic Luwian sources with an evaluation of their semantic, morphological and epigraphic aspects. The present study is based on an updated compilation of the Lycian and Hieroglyphic Luwian inscriptions and attempts to describe, synchronically and diachronically, the linguistic nature of the terms under discussion. The analysis resorts to the Comparative Method of Historical Linguistics, as well as to the internal comparison of the different indicators that each type of composition presents. Research on kinship lexicon is especially fruitful in terms of addressing the fragmentary condition of the Lycian and Luwian languages. This is due to the significant volume of attestations that their corpora present concerning the family vocabulary, which turns it into a suitable material for applying combinatory analysis. Lycian and Hieroglyphic Luwian languages are mostly contained in compositions of funerary and administrative nature, which greatly comprises vocabulary of the family semantic domain. On the one hand, Lycian is attested during the 5th and 4th BC in the south-west Anatolia in funerary epitaphs and some dynastic propaganda texts. On the other, Hieroglyphic Luwian was used during both the second and the first millennium BC, roughly from the 14th to the 7th BC, in a vast part of Anatolia and Syria, and its inscriptions contain decrees and commemorative or funerary compositions. Both the common dialectal identity as Luwic languages and the similarity of the textual genres turn the investigation of the family vocabulary into an insightful material for contributing to the better understanding of these languages. Besides, the investigation contributes to the genealogical information of the rulers that commissioned the inscriptions, useful for the reconstruction of the History of this period, as well as with sociological aspects of the family structure, especially regarding the Lycian sources.
La present tesi doctoral té per objectiu oferir un corpus del lèxic de parentiu que es troba atestat a les fonts epigràfiques del lici i del luvi jeroglífic, acompanyat d’un comentari filològic que contempla els aspectes semàntics, morfològics i epigràfics de cada terme. El lici i el luvi jeroglífic són dues llengües anatòliques de la família indoeuroepa i, concretament, del grup dialectal lúvic, les característiques de les quals les converteixen en un material idoni per dur a terme un estudi comparatiu. El lici es troba majoritàriament atestat, en un alfabet derivat del grec, en epitafis funeraris i en algunes inscripcions dinàstiques dels segles V i IV a.C., a la regió sud-oest d’Anatòlia. Per la seva banda el luvi jeroglífic apareix documentat, en una escriptura jeroglífica pròpia, entre els segles XIV i VII a.C. en una àmplia extensió geogràfica que comprèn des del centre i l’oest d’Anatòlia fins el nord de Síria. El seu material es pot dividir en dues fases, les inscripcions d’època hittita, fonamentalment reials, i les inscripcions atestades després de l’anorreament dels grans imperis del mediterrani oriental al Bronze final, que comprèn les gestes, epitafis o dedicatòries de reis i governadors locals. Tant per la seva identitat dialectal, com pel gènere literari que comparteixen les composicions, presentar conjuntament el lèxic d’aquestes dues llengües esdevé idoni per afrontar la seva condició de llengües fragmentàries, especialment en el cas del lici. Així doncs, el present estudi es basa en una compilació exhaustiva i actualitzada del material textual d’aquestes dues llengües, i empra el mètode comparatiu de la lingüística històrica, així com l’anàlisi combinatòria de les dades lingüístiques i de realia, per tal d’obtenir una valoració completa del significat de cada terme. Aquesta metodologia permet, a part de la pròpia descripció lingüística del mot, aportar informació útil pel que fa a aspectes genealògics dels governadors de l’Edat del Ferro de la regió siro-anatòlica i, en relació al lici, comprendre els costums funeraris que es deriven de la distribució dels membres familiars en l’espai de la tomba, la qual cosa condueix a extreure conclusions de caire social vinculades a l’estructura familiar lícia. El corpus de les dues llengües es complementa amb un capítol etimològic final, el qual permet situar la naturalesa lingüística dels termes lúvics de parentiu en relació a la resta de llengües de la família indoeuropea.
APA, Harvard, Vancouver, ISO, and other styles
8

Araujo, Vera Maria Araujo Pigozzi de. "Documentação, terminologia e lingüística : uma interface produtiva." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2006. http://hdl.handle.net/10183/7757.

Full text
Abstract:
Esta pesquisa tem como objetivo principal propor uma metodologia que agilize a construção de uma ferramenta no campo da Documentação. Trata-se da geração de uma base de dados terminológica com sustentação na terminologia utilizada pelo especialista em sua área de domínio. Ela se apóia nos pressupostos teóricos da Teoria da Enunciação, da Teoria Comunicativa da Terminologia e da Socioterminologia. Com esse referencial acredita-se ser possível assegurar a efetiva comunicação entre os Sistemas de Recuperação de Informação e os usuários, sendo o bibliotecário o mediador do processo comunicativo que tem origem no autor do texto indexado. Buscou-se o suporte da Terminografia e da Lingüística de Corpus pela possibilidade de coletar, tratar e armazenar um grande volume de informações de uma determinada área do saber.
The main objective of this study is to propose a methodology by which the implementation of a tool in the field of Documentation can be optimized. It deals with a terminological database built on the terminology used by the specialist in his area. Its is backed by the underlying assumptions of the Theory of Enunciation, of the Communicative Theory of Terminology and of the Socioterminology. It is believed that, in this theoretical framework, it is possible to ensure effective communication between the Information Retrieval Systems and users, being the librarian the mediator of communicative process originated in the author of the indexed text. The research draws from resources of Terminography and Corpus Linguistics in order to operationalize the process of collecting, managing and storing a huge amount of information of a given knowledge field.
APA, Harvard, Vancouver, ISO, and other styles
9

González-Cruz, María-Isabel. "Hispanismos y canarismos en un corpus de textos ingleses sobre Canarias." Pontificia Universidad Católica del Perú, 2013. http://repositorio.pucp.edu.pe/index/handle/123456789/103400.

Full text
Abstract:
Las Islas Canarias (España) siempre han mantenido un estrecho contactocon el mundo anglosajón, lo que ha generado importantes consecuencias económicas, así como también socioculturales, lingüísticas y literarias. Un análisis de la bibliografía inglesa sobre Canarias revela, entre otros aspectos, la tendencia al uso de hispanismos y canarismos. Este trabajo ofrece el registro de esas voces que aparecen en un corpus de catorce obras tomadas de la extensa bibliografía anglocanaria. Tras revisar brevemente la relevancia del hispanismo inglés, nuestra recopilación intenta resaltar la contribución del español de Canarias al enriquecimiento del vocabulario de la lengua inglesa, constatando cuáles de los hispanismos de nuestro corpus que son canarismos han pasado al registro lexicográfico realizado por elShorter Oxford English Dictionary on Historical Principles (2007).AbstractThe Canary Islands (Spain) have always been in close contact with the Anglo-Saxon world, which has had important consequences for the economy but also at the socio-cultural, linguistic and literary levels. A review of the English bibliography on the Canaries reveals, among other aspects, a tendency in most authors to use hispanicisms and canarianisms in their texts. This article offers a record of those words which appear in a corpus of fourteen works taken from this extensive bibliography. Apart from providing an overview of the studies on hispanicisms in English, this paper’s main aim is to highlight the contribution of Canarian Spanish to the enrichment of the vocabulary of English by checking which of the hispanicisms in our corpus, which are actually canarianisms, have been included in the lexical repertoire of the Shorter Oxford English Dictionaryon Historical Principles (2007).
APA, Harvard, Vancouver, ISO, and other styles
10

H, Kauffmann Carlos. "O corpus do jornal: variação lingüística, gêneros e dimensões da imprensa diária escrita." Pontifícia Universidade Católica de São Paulo, 2005. https://tede2.pucsp.br/handle/handle/13501.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:22:17Z (GMT). No. of bitstreams: 1 Diss_Kauffmann_BDTD.pdf: 767594 bytes, checksum: acdbea5026138293e8463608f349d1f1 (MD5) Previous issue date: 2005-10-27
nenhum
O objetivo desta pesquisa é identificar empiricamente semelhanças e diferenças de natureza lingüística nos textos e entre os gêneros de um jornal de expressão do Brasil. Para a sua consecução, foram empregados os recursos teóricos-metodológicos proporcionados pela Lingüística de Corpus (BIBER, 1988; SINCLAIR, 1991; KENNEDY, 1998; BERBER SARDINHA, 2004a). Coletou-se uma amostra que representa a língua portuguesa do Brasil tal como é utilizada contemporaneamente na imprensa diária escrita de prestígio nacional. Ela se compõe de uma semana construída com sete edições aleatoriamente sorteadas, entre as publicadas em 2003 pela "Folha de S.Paulo", totalizando um corpus de estudo de 1.431 textos (493.780 palavras). O corpus jornalístico foi etiquetado automaticamente com o etiquetador morfossintático VISL para a língua portuguesa (BICK, 2005), de alta precisão. A metodologia escolhida para estudar o corpus foi a Análise Multidimensional (BIBER, 1988; LEE, 2000). Seu procedimento estatístico chave, a Análise Fatorial, busca encontrar grupos co-ocorrentes de características e categorias lingüísticas (ou "variáveis"). Das 19 variáveis selecionadas para a extração fatorial inicial, 14 delas compuseram a solução fatorial final. Foram extraídos dois fatores, interpretados em termos de suas funções comunicativas subjacentes - os eixos dimensionais "Narrativo versus Expositivo" e "Argumentativo versus Informativo". O trabalho propõe uma tipologia dos gêneros presentes no jornal, baseada em uma revisão da literatura da área de Estudos de Comunicação (MARQUES DE MELO, 1994 e outras fontes). Ela permitiu a classificação do corpus de estudo e a atribuição de escores, com os quais foi possível mapear os gêneros ao longo das dimensões. Essa perspectiva refinou tipologias anteriores, na medida em que ela não é apresentada de forma dicotômica, mas de acordo com as posições que os gêneros ocupam em relação às dimensões identificadas
APA, Harvard, Vancouver, ISO, and other styles
11

Fonseca, Luciana Carvalho. "A tradução de binômios nos contratos de \'common law\' à luz da lingüística de corpus." Universidade de São Paulo, 2007. http://www.teses.usp.br/teses/disponiveis/8/8147/tde-06112007-110242/.

Full text
Abstract:
O objetivo desta pesquisa é estudar os binômios que ocorrem em contratos de common law à luz da Lingüística de Corpus, procurando dar subsídios que auxiliem os tradutores de textos jurídicos a chegar a uma tradução natural, ou seja, para que traduzam linguagem jurídica por linguagem jurídica. Os binômios são formados por duas palavras pertencentes à mesma categoria gramatical, ligadas pela conjunção and ou or. Alguns exemplos são: terms and conditions, any and all, executed and delivered, due and payable, action or proceeding, agreement or obligation. Os binômios são uma marca do inglês jurídico e como tal têm sido objeto de diversos estudos. O mesmo, porém, não ocorre com a linguagem jurídica em português. Assim, ao lidar com a tradução de binômios, estudos mostram que os tradutores brasileiros se apegam à opção mais literal. A escolha de estudar os binômios nos contratos de common law se deve ao fato de estarem os contratos entre os documentos mais difíceis de traduzir e de ler e por terem uma altíssima concentração de binômios. Por essas razões, para estudar os binômios na linguagem jurídica em inglês e dar elementos para o tradutor chegar à tradução em português do Brasil, compilamos um corpus comparável de agreements e contratos autênticos perfazendo, aproximadamente, 1 milhão de palavras - 705 744 em inglês e 289 984 em português - composto por 5 amostras de 28 espécies de contratos e agreements, totalizando 140 documentos em cada língua. O corpus foi explorado de acordo com os princípios e ferramentas da Lingüística de Corpus. Para etiquetar o corpus usamos o programa CLAWS 7 (the Constituent Likelihood Automatic Word-tagging System) do UCREL (Universidade de Lancaster) e para explorá-lo, o WordSmith Tools de Mike Scott.
This research aims at studying binomial expressions in common law agreements in the light of Corpus Linguistics in an attempt to provide translators with the necessary linguistic elements that will enable them to render a natural translation, that is, to translate legal language into legal language. Binomial expressions are formed by two words belonging to the same grammatical category and joined by and or or. Some examples are: terms and conditions, any and all, executed and delivered, due and payable, action or proceeding, agreement or obligation. Binomials are an integral part of English legal language and as such have deserved a considerable amount of study. The same, however, does not occur in Brazilian Portuguese legal language. Therefore, when dealing with binomial expressions, studies show that Brazilian translators tend to translate all the elements of a binomial literally. The choice of text type is due to the fact that agreements and contratos are among the most difficult documents to translate and seem to have an incredibly high concentration of binomial expressions. For said reasons, in order to study binomials in English legal language and provide elements for translators to arrive at their own translation into Brazilian Portuguese, we have compiled and explored a bilingual comparable corpus consisting of authentic agreements and contratos, totalling, approximately, 1 million words - 705,744 in English and 289,984 in Brazilian Portuguese - made up of 5 samples of 28 different kinds of contratos and agreements, a total of 140 documents in each language. Exploring such a corpus greatly depended on the principles and tools of Corpus Linguistics. To tag the corpus we used UCREL\'s CLAWS 7 (the Constituent Likelihood Automatic Word-tagging System) and to explore the corpus we used Mike Scott\'s WordSmith Tools.
APA, Harvard, Vancouver, ISO, and other styles
12

Martins, Elisangela Fernandes [UNESP]. "Uma análise da tradução de marcadores culturais em Sergeant Getulio e The Lizard's smile, à luz da linguística de corpus." Universidade Estadual Paulista (UNESP), 2009. http://hdl.handle.net/11449/93903.

Full text
Abstract:
Made available in DSpace on 2014-06-11T19:26:49Z (GMT). No. of bitstreams: 0 Previous issue date: 2009-09-02Bitstream added on 2014-06-13T20:34:51Z : No. of bitstreams: 1 martins_ef_me_sjrp.pdf: 624546 bytes, checksum: f46368e9f9e4e527d79c9bb194cf1c90 (MD5)
No presente trabalho, examinamos a tradução de marcadores culturais (MCs) presentes em duas obras do escritor João Ubaldo Ribeiro: Sargento Getúlio, traduzida pelo próprio autor como Sergeant Getulio; e a outra, O sorriso do lagarto, traduzida por Clifford Landers com o título de The Lizard’s Smile. Foram analisadas, nos respectivos textos de chegada, as escolhas do autotradutor e do tradutor profissional ao lidarem com diferenças culturais relacionadas aos MCs, com o objetivo de verificar aproximações e distanciamentos entre os dois pares de obras. Investigamos, também, aspectos referentes à tendência de explicitação e simplificação encontrados nos respectivos textos traduzidos. Para tanto, apoiamo-nos no arcabouço teórico-metodológico dos Estudos da Tradução Baseados em Corpus (Baker, 1993, 1996, 2000, 2004), na Linguística de Corpus (Berber Sardinha, 2004), na abordagem interdisciplinar proposta por Camargo (2005, 2007), nos trabalhos sobre domínios culturais de Nida (1945) e de Aubert (1981, 2006), e nos estudos sobre modalidades tradutórias de Aubert (1984, 1998). Para a extração dos vocábulos, contamos com o auxílio das ferramentas de busca disponibilizados pelo programa WordSmith Tools, versão 4.0, que possibilitaram uma análise mais dinâmica e abrangente dos dados. Os resultados obtidos revelam que Ubaldo Ribeiro está mais voltado para o texto de partida buscando uma maior aproximação entre o leitor de língua inglesa e a mensagem do original. Já Landers direcionase mais para o texto alvo valendo-se de um número maior de recursos que podem ser identificados como características de simplificação a fim de tornar mais fácil a leitura do texto traduzido.
In this study, we investigated the translation of cultural markers present in two works written by JoãoUbaldo Ribeiro: Sargento Getúlio, translated by the self-translator as Sergeant Getulio; and the other, O sorriso do lagarto, by Clifford Landers as The Lizard’s Smile. The choices of the self-translator and the professional translator were analysed, in the respective target texts, concerning cultural differences related to cultural markers in order to observe similarities and diferences in both pairs of texts. We also investigated features of explicitation and simplification found in the respective translated texts. The theoretical approach is based on Corpus-Based Translation Studies (Baker, 1993, 1996, 2000, 2004); Corpus Linguistics (Berber Sardinha, 2004), Camargo’s interdisciplinary proposal (2005, 2007), studies on cultural domains (Nida, 1945; Aubert, 1981, 2006), and on translation modalities (Aubert, 1984, 1998). For word extraction, we used the tools provided by the WordSmith Tools program, version 4.0, which enable us to analyse data in a broader and more dynamic way. The results obtained suggest that João Ubaldo Ribeiro’s output shows patterns more likely to be consciously reproduced on the basis of the source text. On the other hand, Landers seems to be closer to the normal patterning of translated English, in an attempt to make the translated text easier for the target reader. Keywords: Corpus Based Translation Studies, Corpus Linguistics, Sergeant Getulio, The Lizard’s Smile, Cultural marker
APA, Harvard, Vancouver, ISO, and other styles
13

Pujol, Dahme Ana Mª. "El dominio de la escritura en el género de investigación: de la redacción guiada a la publicación reconocida." Doctoral thesis, Universitat de Barcelona, 2016. http://hdl.handle.net/10803/393887.

Full text
Abstract:
La alfabetización está inexorablemente vinculada a la práctica de cualquier disciplina académica. La habilidad para usar de forma adecuada el registro lingüístico y las convenciones retóricas del género de investigación es importante para lograr el éxito académico y el desarrollo profesional en la carrera de los investigadores. Por eso, cuando los estudiantes se integran en una comunidad de práctica investigadora tienen que llegar a dominar no solo las características léxico-gramaticales propias del lenguaje académico, sino también las convenciones discursivas particulares de cada comunidad disciplinar. Esta investigación tiene dos objetivos generales. En primer lugar, la creación de un corpus de trabajos académicos de investigación escritos en catalán, de bachillerato y máster universitario, en las disciplinas de biología e historia. Este corpus llamado TARBUC (Treballs Acadèmics de Recerca de Batxillerat i Universitat en Català) está digitalizado y disponible para la comunidad investigadora. En segundo lugar, caracterizar a partir de este corpus el desarrollo de la escritura académica en momentos diferentes de la historia educativa de los estudiantes. Para ello se presentan dos estudios. En el estudio 1, se compara transversalmente un corpus de trabajos de investigación de bachillerato y de final de máster universitario en las disciplinas de biología e historia, ambos escritos en catalán. En el estudio 2, se compara longitudinalmente trabajos de investigación de final del máster universitario, en catalán, y de artículos publicados en inglés en la disciplina de biología. En concreto, se caracteriza el registro y el meta-discurso. Se analiza el registro por medio de las siguientes características léxico-gramaticales: (i) la diversidad léxica, (ii) la densidad léxica, (iii) la complejidad sintáctica. Respecto al meta-discurso, se examina la función meta-discursiva interaccional a través de los marcadores lingüísticos, que señalan, por una parte, la voz textual del escritor para involucrarse con su texto, la postura (stance), y, por otra, los que utiliza el escritor para involucrar al lector, la afiliación (engagement). Las implicaciones de estos resultados se discuten en términos lingüísticos, cognitivos y socioculturales y sugieren que la capacidad de desplegar el registro lingüístico y las convenciones retóricas, de forma adecuada a una comunidad discursiva específica, es en sí mismo un proceso prolongado.
Literacy is inextricably connected with the practise of any academic discipline. The skill to properly use the linguistic register and rhetorical conventions of the research genre is important to achieve academic success and professional development in researcher careers. This is why, when students join a research community they have to become proficient not only in the lexical-grammatical characteristics of academic language, but also in the specific discursive conventions of each disciplinary community. The present dissertation has two general aims. Firstly, the creation of a corpus of academic research projects written in Catalan, from Baccalaureate and University Master Degrees, in the fields of biology and history. This corpus is called TARBUC (Treballs Acadèmics de Recerca de Batxillerat i Universitat en Català)1 and has been digitised so as to be available to the research community. Secondly, by using this corpus, I have attempted to characterise the development of academic writing at different stages throughout students’ school lifetime. For this reason I am presenting two studies. In the first of these, I transversally compare a corpus of research projects written in Catalan from Baccalaureate and end of University Master in the fields of biology and history. In study 2, I longitudinally compare end of University Master research projects, again in Catalan, with biology articles published in English. Specifically, I characterise the register and meta-discourse. When analysing the register I use the following lexical-grammatical features: (i) lexical diversity, (ii) lexical density and (iii) syntactic complexity. Regarding meta-discourse, I examine the meta-discursive interactional function through linguistic markers, which indicate, on the one hand, the authorial voice as self-representation in writing, that is, stance, and, on the other, those markers used by the writer to involve the reader, that is, engagement. The results of these implications are discussed in linguistic, cognitive and socio-cultural terms and suggest that ability to adequately display linguistic register and rhetorical conventions in accordance with a specific disciplinary community is in itself a lengthy process. 1 Baccalaureate and University Academic Research Reports written in Catalan.
APA, Harvard, Vancouver, ISO, and other styles
14

Gonçalves, Marcos Antônio. "As formações x-inho nas modalidades oral e escrita: um estudo contrastivo baseado na lingüística de corpus." Universidade do Estado do Rio de Janeiro, 2006. http://www.bdtd.uerj.br/tde_busca/arquivo.php?codArquivo=59.

Full text
Abstract:
As formações x-inho são descritas, na maioria das gramáticas de Língua Portuguesa como contendo noções dimensiva e afetiva. Entretanto, essas mesmas gramáticas não incluem os fatores extraligüísticos e contextuais nos quais os anunciadores estão inseridos quando optam por uma formação em x-inho. Sob esta perspectiva, tem-se no presente trabalho, o objetivo de investigar a produtividade das formações x-inho em dois corpora eletrônicos: um oral, subdividido em dois subcorpora contendo respectivamente narrativas e descrições e um escrito, oriundo exclusivamente das variadas seções e cadernos de um jornal de grande circulação e qualidade. A dissertação quantifica as ocorrências das formações x-inho em cada um dos corpora. Em seguida cada uma dessas ocorrências é analisada para se verificar que tipo de noção (dimensiva, afetiva positiva ou negativa, intensificadora, etc) ela contem. Por fim são contrastados os dados de freqüência e dispersão de cada uma das noções encontradas para cada um dos corpora. A metodologia de nossa análise está centrada na área de investigação lingüística denominada Lingüística de corpus, que serve de base para que os dados colhidos sejam analisados e interpretados.
The items ending in -inho are described in the majority of grammars of Portuguese as conveying two notions, namely affect and dimension. However, the same grammars do not seem to include either the extralinguistic or contextual factors in which speakers are inserted when they opt for a word ending in -inho. The aim of the present work thus is to investigate the productivity of such items in two electronic corpora: one of an oral nature which is further subdivided into two sub-corpora containing narratives and descriptions and a second one compiled exclusively from the various sections of a widely read quality newspaper. The dissertation quantifies the various instances of items ending in inho in each of the corpora. Next, each of these occurrences is analysed and classified to check which notion (dimentio,positive affect, negative affect, intensification) they convey. Last the results of both frequency and dispension counts are contrasted for each of the corpora. The methodology of our analyses is centered on the area known as Corpus Linguistics, which provides a basis for the data to be compiled and interpreted.
APA, Harvard, Vancouver, ISO, and other styles
15

Freitas, Ana Luiza Pires de. "Proficiência escrita em inglês especializado : estudo de corpus de abstracts em Medicina, Nutrição e Farmácia." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2016. http://hdl.handle.net/10183/148955.

Full text
Abstract:
Este trabalho explora o desenvolvimento da proficiência escrita em língua inglesa no âmbito da produção de abstracts, no campo das Ciências da Saúde. O objetivo é contribuir para a elaboração de materiais instrucionais, para a formação de educadores linguísticos e para os avanços do campo de ensino e aprendizagem de English for Academic Purposes. A pesquisa reuniu, descreveu e analisou um corpus de 180.170 palavras, com abstracts das áreas de Medicina, Nutrição e Farmácia, com base nos fundamentos da Linguística de Corpus, da Linguística das Linguagens Especializadas e dos Estudos em English for Academic Purposes. A unidade analítica do estudo são os pacotes lexicais (lexical bundles), sequências recorrentes de palavras empregadas nos textos. Para o trabalho de extração e identificaçāo de pacotes lexicais, estabeleceu-se o critério de extensão de 4 palavras gráficas e frequência e distribuição mínimas de 5 ocorrências em, pelo menos, 5 textos diferentes, tanto para o acervo internacional, quanto para o brasileiro. Foram extraídos 96 pacotes lexicais do subcorpus internacional, com 90.098 palavras, e 88 sequências recorrentes do subcorpus brasileiro, com 90.072 palavras. Com base nas métricas de frequência e variabilidade lexical, constatam-se distinções nos modos de narrar a ciência entre as duas partes do acervo. O subcorpus brasileiro apresentou maior repetição de associações de palavras e um maior emprego de lexical bundles para expressar a finalidade e registrar a realização do trabalho acadêmico. O subcorpus internacional, por sua vez, caracterizou-se pela diversidade dos pacotes lexicais, pela objetividade da narrativa e pelo uso de feixes de palavras para destacar o fazer científico propriamente dito. Embora os resultados obtidos sejam específicos para o corpus reunido, os achados reforçam a importância de educadores linguísticos e desenhistas de programas de ensino e aprendizagem reconhecerem as peculiaridades dos contextos de produção dos abstracts, para que a prática pedagógica seja sintonizada às necessidades do aprendiz. Na conclusão do estudo, sāo apresentadas sugestōes para aproveitamento dos resultados em atividades de ensino.
This research explores the development of written proficiency in English regarding the production of abstracts in the filed of Health Sciences. As such, it aims at contributing to the advances in the studies of English for Academic Purposes by fostering language teachers’ development, and by providing support to the creation of instructional materials. Based on Corpus Linguistics, Linguistics for Specialized Languages and English for Academic Purposes, the investigation put together, described and analyzed a corpus of 180,170 words, comprised by abstracts in Medicine, Nutrition and Pharmacy. The analytical study units are lexical bundles, recurrent strings of words used in texts. For the bundles extraction and identification, an extent criterion of 4 graphic words and a frequency and minimum distribution of 5 occurrences, in at least 5 different texts in each of the two parts of the corpus, were established. 96 lexical bundles were extracted from the international subcorpus, which adds up to 90,098 words, whilst 88 recurrent word sequences were obtained from the Brazilian subcorpus, which amounts to 90,072 words. Regarding the metrics of lexical frequency and variability, the two data segments uncovered distinctions in the ways of building up a scientific narrative. A larger repetition of word associations and a higher use of lexical bundles to express purpose and to highlight the achievement of the academic endeavor were noticed in the Brazilian subcorpus. The international subcorpus, on the other hand, features more diverse recurrent strings of words, a concise prose and the use of extended collocations to highlight the scientific enterprise in itself. Although these findings are specific to the corpus studied, they bring out the usefulness of language educators’ and program designers’ awareness of the peculiarities of the different abstract production contexts, so that pedagogical practice can be attuned to learners’ needs. Suggestions for the application of the findings in teaching tasks are provided in the concluding part of the investigation.
APA, Harvard, Vancouver, ISO, and other styles
16

Teixeira, Elisa Duarte. "A lingüística de corpus a serviço do tradutor: proposta de um dicionário de culinária voltado para a produção textual." Universidade de São Paulo, 2008. http://www.teses.usp.br/teses/disponiveis/8/8147/tde-16022009-141747/.

Full text
Abstract:
Os dicionários sempre foram e ainda são uma das principais ferramentas da tarefa tradutória. No entanto, a terminografia parece não ter se beneficiado ainda de forma sistemática, pelo menos no Brasil, da estreita relação entre dicionários técnicos e esse público-alvo específico e cada vez mais expressivo: os tradutores técnicos. Na área da Culinária, por exemplo, cuja demanda por traduções tem crescido regularmente no país, os dicionários disponíveis no par de línguas inglês-português, ainda que possam contribuir para a compreensão do texto original, não dão qualquer informação sobre como os termos são, de fato, usados em textos reais na área, ou seja, não auxiliam o tradutor numa etapa fundamental da atividade tradutória: a produção textual na língua de chegada. Nossa tese é a de que um dicionário que procure atender as necessidades de produção textual do tradutor deve concentrar-se nos aspectos que caracterizam o texto técnico do ponto de vista da tradução, isto é, deve descrever e propor equivalentes ou soluções tradutórias para as Unidades de Tradução Especializadas (UTEs) presentes nesses textos, com as quais o tradutor da área se depara freqüentemente em sua prática, sejam elas terminológicas ou não. A Lingüística de Corpus (L.C.), abordagem empirista que vê a língua como um sistema probabilístico, tem se dedicado à identificação de padrões léxico-gramaticais recorrentes na linguagem por meio da observação de textos autênticos organizados sob a forma de corpora eletrônicos. É, portanto, a área de estudos que julgamos fornecer os subsídios teóricos e metodológicos mais adequados para compilar as UTEs a partir de textos reais. Para abrigar essas unidades, apresentamos uma proposta de dicionário online bidirecional inglês-português voltado para o tradutor da área técnica da Culinária. As etapas seguidas no desenvolvimento deste trabalho estão organizadas em seis capítulos. O primeiro trata de aspectos teórico-práticos da tradução técnica e discute o papel da terminologia na prática tradutória. O segundo examina as especificidades do trabalho do tradutor da área da Culinária no Brasil e caracteriza a receita culinária , foco de nosso estudo, como gênero e tipologia textual. No terceiro capítulo, as bases teóricas e metodológicas da L.C. são apresentadas, bem como os critérios de coleta do corpus que servirá de base para a identificação das UTEs. O Capítulo IV descreve a etapa de exploração desse corpus: primeiramente, apresentamos o estudo em que é feito um levantamento manual de padrões léxicogramaticais usando o programa WordSmith Tools; em seguida, descrevemos uma metodologia de extração semi-automática de UTEs no corpus. O Capítulo V apresenta nossa proposta do Dicionário Online de Culinária bidirecional para Tradutores, descrevendo sua macro- e microestrutura. O Capítulo VI apresenta nossas considerações finais. Os resultados obtidos em nosso trabalho demonstram que a L.C., se usada não apenas como metodologia, mas como abordagem teórica na exploração de corpora especializados, permite elaborar dicionários mais úteis e confiáveis para o tradutor, pois leva em consideração quaisquer padrões associativos entre palavras cuja probabilidade de ocorrer em textos representativos da área seja alta fato que justifica plenamente a inclusão desses padrões num dicionário voltado para o tradutor-produtorde- textos.
Dictionaries have always been and still are one of the main tools for the translator s task. Nevertheless, terminography does not seem to have systematically benefited, at least in Brazil, from the close relation between technical dictionaries and this increasingly significant and particular target audience: technical translators. In the field of Culinary, for instance, which has witnessed a growing demand for translations in Brazil, much as the dictionaries available for the English-Portuguese language pair may contribute to the understanding of the source text, they still do not provide any information on how the terms are actually used in real texts. In other words, they do not help the translator in a crucial step of the translation activity: text production in the target language. The thesis advanced here is that a dictionary which seeks to meet the needs of a translator s text production should focus on the aspects which characterize technical texts from the point of view of translation itself, that is, it should describe and propose translation equivalents or suggestions for the Specialized Translation Units (STUs) occurring in these texts, which the translator in the area often comes across in her/his practice, whether they are terminological or not. Corpus Linguistics (CL), an empirical approach which regards language as a probabilistic system, has devoted itself to the identification of recurring lexico-grammatical patterns in language by observing authentic texts organized as electronic corpora. It is, therefore, the field of studies we deem capable of providing the most adequate theoretical and methodological support to extract the STUs from real texts. In order to embrace these units, a proposal of an online bidirectional English-Portuguese dictionary is presented, which is aimed at the technical Culinary translator. The steps followed in the development of this study were organized in six chapters. The first deals with the theoretical and practical aspects of technical translation and discusses the role of terminology in translation practice. The second examines the specificities of the Culinary translator s job in Brazil and characterizes the culinary recipe , the focus of this study, in terms of text genre and typology. In the third chapter, the theoretical and methodological foundations of CL are presented, as well as the criteria used in the compilation of the corpus to be used for the identification of the STUs. Chapter IV describes the exploration of this corpus: first, we present the study in which a manual search of lexico-grammatical patterns using the WordSmith Tools program is carried out; next, a methodology for semi-automatic extraction of STUs in the corpus is described. Chapter V presents our proposal for a bidirectional online Culinary Dictionary for Translators, describing its macro- and microstructure. Chapter VI contains the final considerations. The results obtained in this study bear witness to the fact that CL, if used not only as a methodology, but as a theoretical approach in the investigation of specialized corpora, enables the production of more useful and trustworthy dictionaries for the translator, for it takes into account any association patterns between words with a probability of occurrence in representative texts in the field a fact which strongly supports the inclusion of these patterns in a dictionary aimed at the translator-producer-of-texts
APA, Harvard, Vancouver, ISO, and other styles
17

Campos, Daniela Penharvel de Alvarenga. "Confrontando o livro didático de inglês: os verbos try e like numa perspectiva da Lingüística de Corpus." Pontifícia Universidade Católica de São Paulo, 2006. https://tede2.pucsp.br/handle/handle/13879.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:23:28Z (GMT). No. of bitstreams: 1 LAEL - Daniela Penharvel de A Campos.pdf: 4723832 bytes, checksum: 14c560da8b70f42b1b03a93cb970d7ae (MD5) Previous issue date: 2006-11-24
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
The main aim of this study was to investigate the phraseology of the verbs try and like in English and confront the information gathered through the analysis of the data with the usage suggested by the course book Inside Out- Upper-Intermediate, adopted by the school I work for. In order to do so, the main theoretical support was provided by Corpus Linguistics, which is the area concerned with the collection and analysis of criteriously selected corpora, by means of computers. Although there are a number of studies based on the use of corpora in teaching, there is not any study concerned with describing what has been described in this one, mainly in respect of the use of the data gathered to the teaching of a foreign language. Therefore, this study aims at closing this gap in literature. Three questions were investigated in order to study the phraseology of the verbs try and like, in order to reach the objective of the study. The corpus used in the study was the BNC (British National Corpus), which is a corpus of native speakers of British English, of different linguistic varieties, that has more than 100 million words. The corpus analysis led us to the observation of differences between the usage suggested by the course book and the usage made by native speakers of English, which was the main aim of this study. The study presented may have contributed to the existing corpus-based research, especially in the area of Corpus Linguistics and the Teaching of English as Foreign Language, as it shows how the use of real data can be an important and essential tool to the teaching of English as a foreign language
O trabalho teve como objetivo principal investigar a fraseologia dos verbos try e like em inglês e confrontar as informações obtidas por meio da análise dos dados com a prescrição de uso sugerida pelo livro didático Inside Out- Upper- Intermediate, adotado pela escola em que trabalho. Para tanto, o trabalho utilizou o suporte teórico da Lingüística de Corpus, que é a área que se preocupa com a coleta e exploração de corpora eletrônicos, por meio de computadores, de maneira criteriosa. Apesar de haver muitos trabalhos baseados no uso de corpora para o ensino, não há qualquer pesquisa que busque descrever o que foi descrito neste trabalho, principalmente no tocante ao uso dos dados obtidos para o ensino de língua inglesa. Portanto, esta pesquisa procura preencher esta lacuna. Foram levantadas três perguntas de pesquisa relativas à fraseologia dos verbos try e like, a fim de alcançar o objetivo proposto. O Corpus empregado nesta pesquisa foi o BNC (British National Corpus), um corpus de falantes nativos de inglês britânico, com diversas variedades lingüísticas, que conta com mais de 100 milhões de palavras. A análise do corpus permitiu que fossem observadas diferenças entre o uso prescrito pelo livro didático e o uso feito por falantes nativos de língua inglesa, o que era o objetivo deste trabalho. A pesquisa pretende ter contribuído para a área de Lingüística de Corpus e Ensino ao demonstrar como a utilização de dados reais pode ser uma ferramenta importante e essencial no ensino de língua estrangeira
APA, Harvard, Vancouver, ISO, and other styles
18

Williams, Camus Julia T. "Metaphors of cancer in scientific popularisation articles in the English and Spanish press." Doctoral thesis, Universitat Pompeu Fabra, 2014. http://hdl.handle.net/10803/145374.

Full text
Abstract:
This thesis provides an account of the metaphors of cancer in a comparable English and Spanish corpus of 300 press popularisation articles. The aim is to identify relevant source domains that are employed in these articles to conceptualise the disease. Although a number of studies have explored the use of WAR metaphors in the discourse on cancer, there is still little understanding of the actual way cancer is presented metaphorically to the lay public in the press or of the range of source domains that conceptualise the target domain. Thus, in addition to the WAR, VIOLENCE AND AGGRESSION source domain, this study focuses on other metaphorical systems exploited to elucidate such aspects as metastasis, apoptosis, cancer treatments and cancer research. A text analysis was carried out with the aid of a corpus software program. The metaphors in the two subcorpora were compared quantitatively and qualitatively for cross-cultural differences in terms of their functions and patterning. Although cancer knowledge is popularised through similar metaphorical expressions, subtle differences have been identified in terms of metaphor density, choice of metaphor and the functions performed by these expressions.
Esta tesis describe las metáforas del cáncer en un corpus bilingüe inglés-español de 300 artículos de divulgación en la prensa. El objetivo ha sido identificar los distintos dominios fuente relevantes que se emplean en la conceptualización de la enfermedad. Aunque varios trabajos han estudiado las metáforas bélicas utilizadas en el discurso del cáncer, todavía se sabe poco de la forma en la que el cáncer se representa mediante metáforas al público lego y de la variedad de dominios fuente que conceptualizan el dominio meta. Así, además del dominio fuente de la GUERRA, VIOLENCIA Y AGRESIÓN, este estudio se centra en otros sistemas metafóricos empleados para clarificar diversos aspectos como la metástasis, la apoptosis, los tratamientos del cáncer y la investigación oncológica. El análisis textual se ha realizado con la ayuda de un programa informático de análisis de corpus textuales. Las metáforas de ambos subcorpus se han comparado cuantitativa y cualitativamente con el fin de identificar diferencias transculturales en relación a las funciones y a los patrones de las mismas. Aunque el conocimiento sobre el cáncer se divulga a través de expresiones metafóricas similares, se pueden apreciar pequeñas diferencias en relación a la densidad metafórica, la elección de las metáforas y las funciones que estas expresiones desempeñan.
APA, Harvard, Vancouver, ISO, and other styles
19

Márquez, Rojas Melva Josefina. "El anglicismo terminológico integral en los textos especializados: pautas para su tratamiento automatizado." Doctoral thesis, Universitat Pompeu Fabra, 2005. http://hdl.handle.net/10803/7496.

Full text
Abstract:
Se realiza un estudio descriptivo con orientación aplicada del anglicismo que aparece sin modificaciones formales en los textos especializados y divulgativos dentro del ámbito de la informática. Se proponen dos objetivos: Por un lado, describir modularmente el entorno textual de esta unidad léxica, denominada en el estudio Anglicismo Terminológico Integral (ATI); por el otro lado, proponer pautas en pseudocódigos para el procesamiento automatizado de este tipo de unidades sobre la base de patrones sistemáticos hallados en los análisis lingüísticos. Para el estudio, cuyo núcleo metodológico lo constituye un corpus de textos especializados y divulgativos representativos de las variedades venezolana y peninsular del español, se consideran cinco hipótesis: (1) Se considera el ATI como una unidad lingüística, funcional y cognitiva que, siguiendo indicadores como frecuencia de aparición, nivel de pertinencia y grado de estabilidad lingüística, puede ser incorporada progresivamente en calidad de neologismo; (2) el ATI no cumple con los criterios de univocidad, monosemia y monorreferencialidad propuestos por la Teoría General de la Terminología; por lo tanto, es susceptible de variación conceptual y denominativa; (3) el género y número gramaticales de los ATIs en contexto pueden ser explicados a partir de ciertos criterios regulares; (4) tanto los elementos deícticos como los marcadores reformulativos parafrásticos pueden contribuir en la acogida del ATI dentro del discurso escrito; (5) y (6) el reconocimiento de características formales de los ATIs permiten proponer pautas para etiquetaje morfosintáctico y pautas para el reconocimiento de estas unidades como candidatos a términos. Para la realización de los análisis lingüísticos se diseña una base de datos relacional. Los resultados obtenidos dan cuenta de una tendencia hacia la lexicalización de ATIs que son nombres propios, la sistematización en el uso de elementos morfológicos como los pseudoprefijos y algunas unidades léxicas utilizadas en la composición, la variación denominativa y conceptual de los ATIs en contexto, la posibilidad de presentar diferentes explicaciones sistemáticas a la asignación del género y número gramaticales y la contribución de elementos formales contextuales al anclaje del ATI en textos especializados y divulgativos en el español de la informática. Se comprueban, entonces, las hipótesis del estudio. Posteriormente, se proponen pautas para el procesamiento automatizado de ATIs en textos escritos en español dentro del ámbito de la informática.
APA, Harvard, Vancouver, ISO, and other styles
20

Ferreira, Elias. "Palavra freqüente, pronúncia diferente: a lingüística de corpus auxiliando o ensino da pronúncia do inglês como língua estrangeira." Pontifícia Universidade Católica de São Paulo, 2006. https://tede2.pucsp.br/handle/handle/13762.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:23:09Z (GMT). No. of bitstreams: 1 Final.pdf: 2147775 bytes, checksum: 2b6454397325153144057fa09ed1ee27 (MD5) Previous issue date: 2006-03-23
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Este trabalho tem como objetivo descobrir quais são os vocábulos da língua inglesa que apresentam uma relação atípica entre a ortografia e a pronúncia e que têm freqüência de uso relevante, observada por meio de um corpus. O resultado deste trabalho poderá ter posterior aplicação na formação de professores brasileiros de inglês, orientando a preparação dos mesmos em relação à área de pronúncia de vocábulos a partir da forma escrita, indicando quais palavras necessitam receber maior atenção durante o processo de formação acadêmica, atuando assim como um trabalho de referência
APA, Harvard, Vancouver, ISO, and other styles
21

Gonçalves, Lourdes Bernardes. "Dubliners\' sob a lupa da lingüística de corpus: uma contribuição para a análise e a avaliação da tradução literária." Universidade de São Paulo, 2006. http://www.teses.usp.br/teses/disponiveis/8/8147/tde-08112007-154609/.

Full text
Abstract:
Esta tese procura demonstrar a valiosa contribuição da Lingüística de Corpus na análise do texto literário e na avaliação da tradução literária. O corpus é formado pelos textos de Dubliners (1914), uma coletânea de contos de James Joyce, e duas traduções dessa obra, ambas intituladas Dublinenses, uma de Hamilton Trevisan (1964), a outra de José Roberto O Shea (1993). Primeiramente é apresentado um panorama da Lingüística de Corpus, especialmente como uma abordagem que apresenta interfaces com os Estudos da Tradução e a Análise Literária. Em seguida é feita uma análise da obra original e, logo após, uma avaliação das traduções. Para constatar a efetiva contribuição da Lingüística de Corpus, a análise do texto original e das traduções foi realizada seguindo duas abordagens diferentes, a não computacional e a computacional. Os dados levantados foram comparados, o que permitiu estabelecer que a Lingüística de Corpus de fato representa uma abordagem que traz significativa contribuição aos processos de análise do texto literário e à avaliação de traduções literárias. Assim, foi proposto um modelo híbrido de avaliação de tradução literária, que combina características da abordagem tradicional e da Lingüística de Corpus. Esse modelo foi testado com quatro contos de Dubliners.
This thesis aims at demonstrating the valuable contribution of Corpus Linguistics in the analysis of literary texts and in the evaluation of literary translation. The selected texts are Dubliners (1914), a collection of short stories by James Joyce, and two translations thereof, both entitled Dublinenses, one by Hamilton Trevisan (1964), and the other by José Roberto O Shea (1993). Firstly, an analysis of the original work is carried out and, after that, the evaluation of translations. In order to verify the effective contribution of Corpus Linguistics, an analysis of the original text and its translations was performed, using two different approaches, a non computational as well as a computational one. The data thus obtained were compared and, as a result, it could be established that Corpus Linguistics really represents an approach which makes a significant contribution to the processes of literary text analysis and the evaluation of literary translations. Therefore, a model for the evaluation of literary translations was proposed, bringing together characteristics of the traditional approach and that of Corpus Linguistics. This model was then tested on four short stories from Dubliners.
APA, Harvard, Vancouver, ISO, and other styles
22

Luzorio, Camilla Canella Moraes. "Gramaticalização e Preposições Complexas do Português: um estudo baseado em corpus." Universidade do Estado do Rio de Janeiro, 2008. http://www.bdtd.uerj.br/tde_busca/arquivo.php?codArquivo=578.

Full text
Abstract:
Este trabalho apresenta um estudo que aplica a teoria de gramaticalização a um corpus eletrônico diacrônico a fim de dar conta das mudanças ocorridas em estruturas da língua portuguesa normalmente denominadas Preposições Complexas. O estudo teve como objetivos: 1) investigar as preposições complexas em face de, em face a, face a, em vista de, em frente de, em frente a e frente a com vistas a compreender seu funcionamento em termos sintáticos e semânticos a fim de verificar se elas estão se gramaticalizando; 2) examinar textos de períodos históricos diferentes de modo que se compreenda a possível trajetória empreendida por tais formas entre os séculos XIV e XX; 3) averiguar se os itens frente a e face a podem ser considerados reduções das formas em frente a e em face a, respectivamente. A teoria da gramaticalização forneceu um arcabouço teórico para explicar os fenômenos de mudança que afetam os itens lingüísticos. O processo de gramaticalização consiste na passagem de uma construção de um status lexical para um status gramatical ou de um status menos gramatical para um mais gramatical. Um dos fatores desencadeantes desse processo é a freqüência de uso que leva o item a ser mais previsível e estável. A Lingüística de Corpus entra nesta pesquisa fornecendo a metodologia de compilação, extração e observação dos dados, pois à semelhança dos estudos de Hoffman (2005) foi realizada uma investigação baseada em corpora eletrônicos. O corpus base foi o Corpus do Português, composto por textos em língua portuguesa escritos a partir do século XIV até o século XX, disponível online em http://www.corpusdoportugues.org/. Verificou-se que as preposições complexas analisadas ascenderam a escala de gramaticalidade, pois se expandiram suas possibilidades de uso através do desenvolvimento de polissemias de semântica abstrata. Constatou-se, ainda, que, em muitos sentidos, elas coexistem como camadas, mas que pode haver uma tendência que conduzirá a escolha de uma forma para expressar cada sentido evidenciado
The present dissertation introduces a study which applies the theory of Grammaticalization to a digital diachronic corpus, with a view to mapping some of the changes which have taken place in certain structures of Portuguese, the so-called prepositional phrases. The objectives of the research were threefold. First, the study aimed at investigating the complex prepositions em face de, em face a, face a, em vista de, em frente de, em frente a e frente a, in order to understand their syntactic and semantic development and, in turn, to evaluate whether they are undergoing a process of grammaticalization. Secondly, the study sought to examine texts from a variety of historical periods, so as to map a possible trajectory taken by the afore mentioned forms between the 14th and the 20th centuries. Thirdly, the study intended to verify whether the items frente a e face a may be considered reductions of em frente a and em face a, respectively. The theoretical framework for the study has been taken from Grammaticalization, a theory which explains phenomena which affect linguistic items. The process of grammaticalization may consists in one item, lexical or grammatical, becoming more grammatical. The triggering factor in this case is said to be the frequency of use. Corpus Linguistics has provided a methodology for the compilation, extraction and treatment of the textual data in this dissertation. Similarly to Hoffman (2005) the investigation here was based on electronic corpora. The study corpus was the Corpus do Português, which consists of texts in Portuguese, written between the 14th and the 20th century, available at http://www.corpusdoportugues.org/. The study suggests that the complex prepositions analysed have become increasingly grammaticalised, because they have acquired additional abstract meanings. It has also been observed that, in many ways, these abstract meanings coexist as layers. However, there seems to be a tendency for one form to become the preferred way of expressing each of these new meanings
APA, Harvard, Vancouver, ISO, and other styles
23

MARÍN, SALGUERO Edson Adir. "Corpus lingüístico de metasememas en textos periodísticos del español actual de la región central de México." Tesis de maestría, Universidad Autónoma del Estado de México, 2012. http://hdl.handle.net/20.500.11799/110495.

Full text
Abstract:
Este es un proyecto cuyo objetivo es el diseño y la creación de un corpus lingüístico de almacenamiento y recuperación electrónica de textos periodísticos. El propósito implícito es verificar que estos textos proporcionen evidencia de rasgos semánticos de cambio, supresión o adición de significado en el discurso periodístico del español actual de la región central de México.
APA, Harvard, Vancouver, ISO, and other styles
24

Vila, Rigat Marta. "Paraphrase Scope and Typology. A Data-Driven Approach from Computational Linguistics / Abast i tipologia de la paràfrasi. Una aproximació empíriica des de la lingüíística computacional." Doctoral thesis, Universitat de Barcelona, 2013. http://hdl.handle.net/10803/117850.

Full text
Abstract:
Paraphrasing is generally understood as approximate sameness of meaning between snippets of text with a different wording. Paraphrases are omnipresent in natural languages demonstrating all the aspects of its multifaceted nature. The pervasiveness of paraphrasing has made it a focus of several tasks in computational linguistics; its complexity has in turn resulted in paraphrase remaining a still unresolved challenge. Two basic issues, directly linked to the complex nature of paraphrasing, make its computational treatment particularly difficult, namely the absence of a precise and commonly accepted definition and the lack of reference corpora for paraphrasing. Based on the assumption that linguistic knowledge should underlie computational-linguistics research, this thesis aims to go a step forward in these two questions: paraphrase characterization and paraphrase-corpus building and annotation. The knowledge and resources created are then applied to natural language processing and, in concrete, to automatic plagiarism detection in order to empirically analyse their potential. This thesis is built as an article compendium comprising six core articles divided in three blocks: (i) paraphrase scope and typology, (ii) paraphrase-corpus creation and annotation, and (iii) paraphrasing in automatic plagiarism detection. In the first block, assuming that paraphrase boundaries are not fixed but depend on the field, task, and objectives, three borderline paraphrase cases are presented: paraphrases involving content loss, pragmatic knowledge, and certain grammatical features. The limits between paraphrasing and related phenomena such as coreference are also analysed. Paraphrase characterization takes on a new dimension if we look at it in extensional terms. We have built a general and linguistically-grounded paraphrase typology in line with this approach. The third issue addressed in this block is paraphrase representation, which we consider to be essential in order to formally apprehend paraphrasing. In the second block, the Wikipedia-based Relational Paraphrase Acquisition method (WRPA) is presented. It allows for the automatic extraction of paraphrases expressing a concrete relation from Wikipedia. Using this method, the WRPA corpus, covering different relations and two languages (English and Spanish), was built. A subset of the Spanish WRPA corpus, together with paraphrases in two English paraphrase corpora that are different in nature were annotated applying a new annotation scheme derived from our paraphrase typology. These annotations were validated applying the Inter-annotator Agreement for Paraphrase-Type Annotation measures (IAPTA), also developed in the framework of this thesis. In the third and final block, our typology is applied to the field of automatic plagiarism detection, demonstrating that more complex paraphrase phenomena and a high density of paraphrase mechanisms make plagiarism detection more difficult, and that lexical substitutions and text-snippet additions/deletions are the most widely used paraphrase mechanisms when plagiarizing. This provides insights for future research in automatic plagiarism detection and demonstrates, through a concrete example, the value of the knowledge and data provided in this thesis to computational-linguistics research.
S'entén per paràfrasi la igualtat aproximada de significat entre fragments de text que difereixen en la forma. La paràfrasi és omnipresent en les llengües naturals, on es troba expressada de múltiples maneres. D'una banda, la ubiqüitat de la paràfrasi l'ha convertit en el centre d’interès de moltes tasques específiques dins de la lingüística computacional; de l'altra, la seva complexitat ha fet de la paràfrasi un problema que encara no té una solució definitiva. Dues qüestions bàsiques, lligades a la naturalesa complexa de la paràfrasi, fan el seu tractament computacional particularment difícil: l'absència d'una definició precisa i comunament acceptada i la manca de corpus de paràfrasis de referència. Assumint que el coneixement lingüístic ha de ser a la base de la recerca en lingüística computacional, aquesta tesi pretén avançar en dues línies de treball: en la delimitació i comprensió del que s’entén per paràfrasi, i en la creació i anotació de corpus de paràfrasis que proporcionin dades sobre les quals fonamentar tant la recerca com futurs recursos i aplicacions. Amb l'objectiu d’avaluar empíricament el seu potencial, el coneixement i els recursos creats com a resultat d'aquest treball han estat aplicats a la detecció automàtica de plagi. Aquesta tesi consisteix en un compendi de publicacions i comprèn sis articles principals dividits en tres blocs: (i) abast i tipologia de la paràfrasi, (ii) creació i anotació de corpus de paràfrasis i (iii) la paràfrasi en la detecció automàtica de plagi. En el primer bloc, partint de la base que els límits de la paràfrasi no són fixos, sinó que depenen de l'àrea de treball, la tasca i els objectius, es presenten tres casos límit de la paràfrasi: la pèrdua de contingut, el coneixement pragmàtic i la variació en determinats trets gramaticals. La caracterització de la paràfrasi pren una nova dimensió si l'observem des d'una perspectiva extensional. En aquesta línia, s'ha construït una tipologia general de la paràfrasi lingüísticament fonamentada. La tercera qüestió tractada en aquest bloc és la representació de la paràfrasi, essencial a l'hora de tractar-la formalment. En el segon bloc, es presenta un mètode per a l’adquisició de paràfrasis relacionals a partir de la Wikipedia (Wikipedia-based Relational Paraphrase Acquistion, WRPA). Aquest mètode permet extreure automàticament de la Wikipedia paràfrasis que expressen una relació concreta. Utilitzant aquest mètode, s'ha creat el corpus WRPA, que cobreix diverses relacions i dues llengües (anglès i espanyol). Un subconjunt del corpus WRPA en espanyol i exemples extrets de dos corpus de paràfrasis en anglès s'han anotat amb els tipus de paràfrasis que es proposen en aquesta tesi. Aquesta anotació ha estat validada aplicant les mesures d’acord entre anotadors (Inter-annotator Agreement for Paraphrase-Type Annotation, IAPTA), també desenvolupades en el marc d'aquesta tesi. En el tercer i últim bloc, la tipologia proposada s'ha aplicat a l'àmbit de la detecció automàtica de plagi i s'ha demostrat que els tipus de paràfrasis més complexos i l'alta concentració de mecanismes de paràfrasi fan més difícil la detecció del plagi. També s'ha demostrat que les substitucions lèxiques i l'addició/eliminació de fragments de text són els mecanismes de paràfrasi més utilitzats en el plagi. Així, es demostra el potencial del coneixement parafràstic en la detecció automàtica de plagi i en la recerca en lingüística computacional en general.
APA, Harvard, Vancouver, ISO, and other styles
25

Sánchez, Gijón Pilar. "Els documents digitals especialitzats: utilització de la lingüística de corpus com a front de recursos per a la traducció." Doctoral thesis, Universitat Autònoma de Barcelona, 2003. http://hdl.handle.net/10803/5261.

Full text
APA, Harvard, Vancouver, ISO, and other styles
26

Spalek, Alexandra Anna. "Verb meaning and combinatory semantics: a corpus based study of Spanish change of state verbs." Doctoral thesis, Universitat Pompeu Fabra, 2014. http://hdl.handle.net/10803/145476.

Full text
Abstract:
Even though it is an intuitive and perhaps obvious idea that composition leads to non-trivial semantic interactions between words, and these interactions affect the contents of predication, there has still been little work done on how verbs restrict their arguments and how flexible these restrictions are. This dissertation thus starts out with the observation that verbs have very rich combinatorial paradigms and raises the question of what this wide combinatorial capacity of verbs means for the semantics of the verb and the process of composition. Distributed in three case studies, a rich data set of the Spanish change of state verbs congelar ‘freeze’, romper ‘break’ and cortar ‘cut’ is analysed and further discussed against the background of studies from theoretical linguistics. Tackling the question of the rich combinatorial paradigm of verbs leads to taking a position on the theoretical horizon of theories of predication as well as theories of lexicon, for which I turn to Modern Type Theories and an underspecified lexical meaning
Aunque es intuitiva y quizás obvia la idea de que la composición conduce a interacciones semánticas no triviales entre las palabras que afectan al contenido de una predicación, hay todavía pocos trabajos que analicen el modo como los verbos restringen sus argumentos y examinen si sus restricciones son muy amplias o más bien limitadas. Esta tesis parte de la observación de que los verbos tienen unos paradigmas combinatorios muy ricos, para plantear la pregunta acerca del papel que desempeña la combinatoria predicado-argumento tanto en el significado de los verbos como en el proceso de construcción del significado composicional. Se llevan a cabo tres estudios de caso correspondientes a otros tantos verbos de cambio de estado, congelar, romper y cortar, en los que se presenta una rica colección de datos que se discute a la luz del conocimiento que proporcionan los estudios de lingüística teórica. Abordar la cuestión del rico paradigma de combinatoria de los verbos conduce a tomar una posición en el horizonte de las teorías de la predicación, así como también en el de las teorías del léxico. La presente tesis se decanta en este sentido por la teoría de tipos moderna (Modern Type Theory) y un significado léxico subespecificado.
APA, Harvard, Vancouver, ISO, and other styles
27

Azeredo, Susana de. "Expressões anunciadoras de paráfrase em manuais acadêmicos de química : um estudo baseado em Corpus." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2007. http://hdl.handle.net/10183/10706.

Full text
Abstract:
Este trabalho trata da presença e do uso de expressões anunciadoras de paráfrase (EAP) em manuais acadêmicos de Química. Seu objetivo é gerar subsídios que permitam identificar causas de dificuldades de compreensão desse tipo de texto e, também, mensurar o papel da EAP nessa problemática. O trabalho descreve, em um primeiro momento, a incidência e a distribuição de EAP em um corpus composto por dois manuais acadêmicos traduzidos de Química Geral (ATKINS, 1998 e MAHAN, 1987). Depois, são descritas algumas das condições de tradução de EAP, através de um contraponto entre texto original (inglês) e texto traduzido (português). Outro objetivo desta investigação é contrastar manuais de Química e outros gêneros textuais, via observação da presença de EAP a fim de avaliar o quanto a presença de EAP pode caracterizar um gênero textual. Nesse sentido, são examinados outros cinco corpora, os quais são compostos de: 1) manual de Química originalmente escrito em português; 2) papers de Química; 3) textos de popularização sobre Química; 4) papers de Informática; e 5) textos de linguagem geral. O trabalho reúne referenciais teóricos de Terminologia, de Lingüística Textual, de Tradução, de Estudos de Gênero Textual e de Lingüística de Corpus. Os resultados do trabalho mostram a presença de três EAP nos manuais de Química (OU SEJA, ISTO É e EM OUTRAS PALAVRAS). A observação dos seus usos mostrou que a EAP tem um caráter poliédrico, não é um traço de identidade exclusivo do manual acadêmico de Química Geral e, em alguns casos, está relacionada com problemas de coesão e de coerência desses textos. Não é objetivo deste trabalho fazer um estudo exaustivo da linguagem e do texto de Química, mas, sim, apontar um caminho que auxilie a entender melhor as dificuldades de compreensão de leitura de um material tão amplamente usado por alunos de Química nas universidades.
This thesis deals with the presence and the use of EAP (Expressões Anunciadoras de Paráfrase, paraphrase introducing expressions) in Chemistry academic manuals. The aim is to provide support to identify factors that contribute to comprehension difficulties of this kind of text, and to measure the role of EAP in such a problem. First, this research describes the frequency and distribution of EAP in a corpus formed by two General Chemistry academic manuals translated into Portuguese (ATKINS, 1998 and MAHAN, 1987). Afterwards, the translation of EAP is discussed by comparing the original text in English to the translated text in Portuguese. This research also compares Chemistry manuals to other textual genres by analyzing the presence of EAP aiming to evaluate how much the presence of EAP characterizes a textual genre. With such an objective, five other corpora are observed. These corpora comprise: 1) a Chemistry manual originally written in Portuguese; 2) academic papers in Chemistry; 3) texts of scientific diffusion in Chemistry; 4) academic papers in Computer Sciences, and 5) general language texts. This study comprises theoretical background of Terminology, Textual Linguistics, Translation, Textual Genre and Corpus Linguistics Studies. The results show the presence of three Portuguese EAP in Chemistry manuals: OU SEJA, ISTO É and EM OUTRAS PALAVRAS. The analysis of the use of EAP showed that they have a polyhedral character which is not exclusive to General Chemistry academic manuals and, in some cases, it is related to textual cohesion and coherence issues. The aim is not to carry out an exhaustive study of Chemistry language and text, but to provide a means of gaining a better understanding of reading comprehension difficulties of a didactical material largely used by academic students of Chemistry.
APA, Harvard, Vancouver, ISO, and other styles
28

Morales, Flavia Priscila de Oliveira. "Integrando lingüística de corpus e aprendizagem experiencial: uma proposta de atividade de ensino com conteúdo multimídia veiculado on-line." Pontifícia Universidade Católica de São Paulo, 2008. https://tede2.pucsp.br/handle/handle/14025.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:23:54Z (GMT). No. of bitstreams: 1 Flavia Priscila de Oliveira Morales.pdf: 894338 bytes, checksum: 4833838c7989012a309a29eeed1a7b87 (MD5) Previous issue date: 2008-10-09
Secretaria da Educação do Estado de São Paulo
The main objective of this research is to propose activities for English classes, by making use of on-line multimedia content and concordances. In order to achieve such purpose, we followed the Corpus Linguistics theoretical and methodological frameworks, and also the teaching and learning theory presented by the Experiential Learning (Kolb,1989; Nunan, 1992; Kohonen, 2002). we see concordances as the main tool to be applied in a teaching corpus (Berber Sardinha, 2004:272), since we comply with the Corpus Linguistics and teaching research basis which were already proposed by several authors (Johns, 1994; Fox, 1998; Sinclair, 2003; Richards, 2001; Tomlinson, 2003). However, we have realized that activities, which are solely focused on concordances, can be seen as out of context, repetitive and uninteresting. Therefore, considering the present availability of on-line resources provided to our society, the use of multimedia content as a motivating factor to teach languages seems to offer a good alternative in order to find viable solutions to such problems. we highlighted one of the main concepts advocated by Corpus Linguistics that considers language as a probabilistic system that presents a certain regularity in the types of association to which the words of a language are submitted to (Berber Sardinha, 2004:39). Following the Experiential Learning Theory, we understand that theoretical concepts will be part of one s reference only when s/he has experienced them in a meaningful way, at an emotional level. The use of multimedia content can also contribute to this conception. Two corpora were used in this investigation: the first is a research corpus comprising speech transcripts from films and real contexts totaling 335,498 tokens; and the second is the reference corpus built from the BNC (British National Corpus) spoken part, with a total of 11,063,472 tokens. Linguistic content was extracted from the research corpus so as to propose the teaching activities presented here. Therefore, the research questions are related to aspects of the typical linguistic features found in the research corpus. we hope that this research will contribute to the pedagogical practice of English teachers who are willing to use corpus in their classes. we also believe that it might fill in a gap found in previous research concerning the use of multimedia content available on-line. we hope that this research will help to integrate the Corpus Linguistics empirical view to the Experiential Learning theory as well
Esta pesquisa tem como objetivo propor uma atividade de ensino de língua inglesa, com conteúdo multimídia veiculado on-line e uso de concordâncias, de acordo com as visões teóricas e metodológicas da Linguística de Corpus e tendo a Aprendizagem Experiencial (Kolb, 1984; Nunan, 1992; Kohonen, 2002) como base teórica de ensino e aprendizagem. Seguindo a tradição da linha de pesquisa de Linguística de Corpus e Ensino, vemos a concordância como o principal instrumento no emprego de corpus no ensino (Berber Sardinha, 2004:272), como já proposto por vários autores (Johns, 1994; Fox, 1998; Sinclair, 2003; Richards, 2001; Tomlinson, 2003). Percebemos, no entanto, que atividades centradas somente em concordâncias como exercício podem parecer descontextualizadas, repetitivas e desinteressantes. Em uma sociedade com acesso cada vez mais viável a conteúdos on-line, o uso de multimídia como pretexto motivador para o ensino de línguas parece, então, oferecer uma boa saída para essa questão. Dentre os conceitos trazidos pela Lingüística de Corpus, remetemos à visão de linguagem como um sistema probabilístico que apresenta uma certa regularidade nos tipos de associação a que se submetem as palavras de uma língua (Berber Sardinha, 2004:39). Da Teoria de Aprendizagem Experiencial, destacamos especialmente a idéia de que conceitos teóricos farão parte das referências de um indivíduo somente quando ele/ela os tiver experienciado de forma significativa, em nível emocional. O uso de conteúdos multimídia no ensino também colabora para essa concepção. Foram empregados dois corpora na pesquisa: o primeiro com transcrições de discursos feitos em filmes e em contextos reais, totalizando 335.498 tokens (palavras), e o segundo composto da parte falada do corpus britânico BNC (BNC spoken), com 11.063.472 tokens como referência. Os conteúdos linguísticos a serem propostos na atividade de ensino foram extraídos do corpus de estudo. Assim sendo, as questões de pesquisa estão relacionadas às características linguísticas típicas do corpus de estudo Esperamos que esta pesquisa possa contribuir para a prática pedagógica de professores de inglês que desejem inserir o uso de corpus na sala de aula, bem como venha a preencher uma lacuna observada nas pesquisas anteriores em relação à utilização de conteúdo multimídia veiculado on-line. Acreditamos, ainda, que este estudo favoreça a integração da visão empírica da Linguística de Corpus à Teoria de Aprendizagem Experiencial
APA, Harvard, Vancouver, ISO, and other styles
29

Pasqualini, Bianca Franco. "Corpop : um corpus de referência do português popular escrito do Brasil." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2018. http://hdl.handle.net/10183/177566.

Full text
Abstract:
Esta tese propõe um corpus do Português popular brasileiro escrito, denominado CorPop, com textos selecionados com base no nível de letramento médio dos leitores do país. As bases teórico-metodológicas do CorPop são interdisciplinares e inserem-se no âmbito dos Estudos da Linguagem e disciplinas afins, como Estudos do Léxico e Linguística de Corpus, Linguística Textual e Psicolinguística, dialogando também com estudos de Processamento de Língua Natural. Desse modo, esta investigação abriga-se na Linha de Pesquisa Lexicografia, Terminologia e Tradução: Relações Textuais do PPG-Letras-UFRGS, e nosso recorte, por isso, tende ao destaque para o Léxico. O desenvolvimento do CorPop deu-se através da compilação de dados sobre o nível de letramento dos leitores brasileiros e das características que poderiam compor um padrão de simplicidade textual em um corpus de textos adequados a esses leitores. Tais dados foram coletados das pesquisas do Indicador de Alfabetismo Funcional (INAF) e Retratos da Leitura no Brasil, além de um questionário com leitores. Os textos selecionados para o CorPop são (1) textos do jornalismo popular do Projeto PorPopular (jornal Diário Gaúcho), consumido maciçamente pelas classes C e D, que é o leitor médio brasileiro; (2) textos e autores mais lidos pelos respondentes das últimas edições da pesquisa Retratos da Leitura no Brasil; (3) coleção “É Só o Começo” (adaptação de clássicos da literatura brasileira para leitores com baixo letramento, adaptação esta realizada por linguistas); (4) textos do jornal Boca de Rua, produzido por pessoas em situação de rua, com baixa escolaridade e baixo letramento; e (5) textos do Diário da Causa Operária, imprensa operária brasileira produzida também por pessoas dentro da faixa média de letramento do país. Realizamos, após a coleta, preparação e processamento dos textos do corpus, uma série de experimentos com a lista bruta de frequências e com a lista de frequências lematizada do CorPop. Os resultados obtidos mostram aplicações promissoras do CorPop em diversas tarefas linguísticas, desde simplificação de textos até uso como vocabulário controlado para redação de paráfrases definitórias em dicionários e comprovam que um corpus pequeno pode ter a mesma validade que um corpus de grandes proporções.
This thesis proposes a corpus of Brazilian popular Portuguese written, called CorPop, with texts selected based on the average level of literacy of the country 's readers. CorPop's theoretical and methodological bases are interdisciplinary and fall within the scope of Language Studies and related disciplines, such as Corpus Lexicon and Linguistics Studies, Textual Linguistics and Psycholinguistics, and also dialogues with Natural Language Processing studies. Thus, this research is housed in the Lexicography, Terminology and Translation Research Line: Textual Relations of PPG-Letras-UFRGS, and our cut, therefore, tends to highlight the Lexicon. The development of CorPop took place through the compilation of data about the level of literacy of Brazilian readers and the characteristics that could compose a standard of textual simplicity in a corpus of texts suitable for these readers. These data were collected from the surveys of the Indicator of Functional Literacy (INAF) and Reading Portraits in Brazil, as well as a questionnaire with readers. The texts selected for CorPop are (1) texts of the popular journalism of the PorPopular Project (newspaper Diário Gaúcho), massively consumed by the C and D classes, which is the average Brazilian reader; (2) texts and authors most read by the respondents of the last editions of the research Retratos da Leitura no Brasil; (3) collection "É Só o Começo" (adaptation of classics from Brazilian literature to readers with low literacy, adaptation by linguists); (4) texts of the newspaper Boca de Rua, produced by street people, with low schooling and low literacy; and (5) texts of the Diário da Causa Operária, the Brazilian working press produced also by people within the average literacy range of the country. After the collection, preparation and processing of the texts of the corpus, a series of experiments with the crude list of frequencies and the list of frequencies typed in CorPop. The results obtained show promising applications of CorPop in several linguistic tasks, such as text simplification and use as controlled vocabulary for writing definitions in dictionaries. Also, CorPop proves that a small corpus can have the same validity as a corpus of large proportions.
APA, Harvard, Vancouver, ISO, and other styles
30

Ribas, Bruguer Marta. "Alineació de textos jurídics paral·lels (català-castellà): alguns problemes." Doctoral thesis, Universitat Pompeu Fabra, 2006. http://hdl.handle.net/10803/7502.

Full text
Abstract:
El desenvolupament que han tingut recentment els programes d'alineació de corpus bilingües obre noves perspectives en l'estudi dels textos d'especialitat. La seva utilització permet contrastar i evidenciar diferències discursives entre textos especialitzats paral·lels en llengües diferents, fet que constitueix un benefici a l'hora de tractar el coneixement comparatiu entre un i altre discurs. Tanmateix, la formalització d'aquest coneixement resulta una tasca complexa i així ho demostren els casos de soroll en els resultats dels programes.

Partint d'un corpus de textos jurisprudencials paral·lels catalans i castellans i utilitzant el programa ALINEA, fem un estudi descriptiu de detall sobre les diferències discursives entre els textos jurisprudencials catalans i castellans per tal de formalitzar el coneixement comparatiu del discurs jurídic (jurisprudencial) català i castellà. Establim una tipologia dels fenòmens lingüístics propis d'aquest discurs que poden generar alineacions insatisfactòries, n'estudiem les causes i fem una proposta de tractament lexicogràfic i d'estratègies complementàries (regles lingüístiques) per millorar els resultats de l'alineació d'aquest tipus de textos.
Recent development in alignment programs of bilingual corpora open horizons in studies about specialized texts. Its use let to contrast and to show discoursive differences between parallel specialized texts in different languages. This constitues a benefit in the treatment of comparative knowledge between one discourse and the other. Nevertheless, the formalization of this knowledge is a complex task and, so, the cases of noise in the results of the programs show it.

Considering a corpus of Catalan and Spanish jurisprudencial parallel texts and using the ALINEA program, we present a descriptive study of detail about the discoursive differences between Catalan and Spanish jurisprudencial texts in order to formalize the comparative knowledge of Catalan and Spanish legal (jurisprundencial) discourse. We set a typology of own linguistic phenomena about this type of discourse which can generate non satisfactory alignments, we study the causes of this and we make a proposal of lexicographic treatment and of supplementary strategies (linguistic rules) in order to improve the results of the alignment of this type of texts.
APA, Harvard, Vancouver, ISO, and other styles
31

Lacerda, Glaucia Dutra. "Modelagem lingüística comparada em corpora de desastres naturais : explorando técnicas e métodos." reponame:Repositório Institucional da UFABC, 2012.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
32

Padilha, João Gabriel Rodrigues Marques. "A polissemia na linguagem do futebol: uma proposta de aproximação entre redes lexicais e frames semânticos." Universidade do Vale do Rio dos Sinos, 2015. http://www.repositorio.jesuita.org.br/handle/UNISINOS/3774.

Full text
Abstract:
Submitted by Maicon Juliano Schmidt (maicons) on 2015-06-05T17:30:17Z No. of bitstreams: 1 João Gabriel Rodrigues Marques Padilha.pdf: 2330081 bytes, checksum: 9e1d525b6ce245c7b907b482a38050f3 (MD5)
Made available in DSpace on 2015-06-05T17:30:17Z (GMT). No. of bitstreams: 1 João Gabriel Rodrigues Marques Padilha.pdf: 2330081 bytes, checksum: 9e1d525b6ce245c7b907b482a38050f3 (MD5) Previous issue date: 2015-03-02
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
FAPERGS - Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul
O objetivo deste trabalho é problematizar o tratamento da polissemia em um recurso lexical baseado em frames . Para tal, estabeleceremos um cotejo entre a Semântica de Frames e a visão cognitivista de polissemia, buscando estabelecer uma aproximação entre os frames e as redes lexicais. No intuito de atingir esse objetivo, partiremos de alguns estudos mais conhecidos sobre a polissemia, como Brèal (1992), Ullmann (1964) e Lyons (1977), com vistas a situar o tema no tempo e no espaço. O segundo capítulo teórico deste trabalho apresentará o paradigma conhecido como Linguística Cognitiva, trazendo seus principais compromissos, bem como o contexto histórico em que se insere. Para tal, traremos as contribuições de Evans e Green (2006). Também discorreremos sobre a Semântica de Frames (FILLMORE, 1982), uma teoria circunscrita ao paradigma cognitivista que considera o significado do ponto de vista enciclopédico, sem fazer distinções entre informações linguísticas e informações contextuais no processo de significação. Em seguida, apresentaremos a FrameNet, um recurso lexicográfico online erigido sob os princípios da Semântica de Frames, com vistas a problematizar o tratamento dispensado à polissemia por esse recurso computacional. Ainda no segundo capítulo teórico, apresentaremos a visão cognitivista da polissemia, partindo de Langacker (1987) e Geeraerts (2006), em relação às noções de categoria complexa e flexibilidade, respectivamente, e de Lakoff (1987) e Fauconnier e Turner (2006), que oferecem modelos teóricos que possibilitam o estudo da polissemia, sejam eles as categorias radiais e a mesclagem conceptual. A parte aplicada deste trabalho consiste em empregar as categorias radiais de Lakoff (1987) na descrição dos sentidos polissêmicos do substantivo ataque e do verbo marcar – o uso já consagrado das redes – bem como na descrição dos frames evocados por tais sentidos – aplicação que propomos nesta dissertação. Acreditamos que nossa proposta de integração entre redes e frames é justificada (i) por um princípio da Linguística Cognitiva, segundo o qual o significado é um conceito, assim como, da mesma forma, os frames semânticos são entidades conceptuais, e (ii), por um princípio da Semântica de Frames, que reza que, para saber o significado de uma palavra, é preciso ter conhecimento do frame que ela ativa. Nesse caso, o frame é uma estrutura de conhecimento mais ampla que dá informações enciclopédicas sobre o uso daquela palavra em uma comunidade de falantes. O que nossa proposta defende é que a aplicação das redes radiais tanto aos sentidos, quanto aos frames por eles evocados, adicionam diferentes informações à descrição linguística de itens polissêmicos: partindo-se das redes com sentidos, têm-se informações sobre o léxico; partindo-se das redes com frames, têm-se informações acerca das estruturas cognitivas maiores que subjazem esses sentidos, os próprios frames. Nosso estudo de corpus evidencia que essas palavras, em seus usos futebolísticos, são polissêmicas e, que, portanto, podem ser entendidas como categorias complexas. Esse resultado também corrobora a hipótese cognitivista de que a polissemia é um fenômeno regular na língua, ao contrário do que dizem as ideias apresentadas no primeiro capítulo deste trabalho, para as quais a polissemia é algo epifenomenal, isto é, secundário.
This paper aims at problematizing the treatment offered to polysemy in a frame-based lexical resource. In order to achieve such an objective, we are going to establish an approximation between Frame Semantics and the cognitivist approach to polysemy, aiming at correlating frames and lexical networks. To do so, we depart from some well-known studies about polysemy, like Brèal (1992), Ullman (1964) and Lyons (1977), in order to place the subject of this study in time and space. The second theoretical chapter in this dissertation presents the paradigm known as Cognitive Linguistics, introducing its main commitments, as well as the historical background that surrounds it. In this fashion, we approach the contributions of Evans e Green (2006). We also talk about Frame Semantics (FILLMORE, 1982), a theory situated under the scope of the cognitivist paradigm which considers meaning from the encyclopaedic point of view, not distinguishing either linguistic nor contextual information in the process of meaning assignment. We also approach the FrameNet, an online lexical resource based on the principles of Frame Semantics, in order to problematize the treatment dismissed to polysemy by such a resource. Still in the second theoretical chapter, we present the cognitivist understanding of polysemy, departing, firstly, from Langacker (1987) and Geeraerts (2006), when it comes to the notions of complex category and flexibility, respectively, and, on the second hand, from Lakoff (1987) and Fauconnier and Turner (2006), which offer theoretical models that enable one to approach polysemy, like the radial categories and the conceptual blending. The applied section of this paper consists of applying the radial categories proposed by Lakoff (1987) to the descriptions of the senses related to the noun ataque and to the verb marcar – the already known application of the lexical networks – as well as to the descriptions of the frames evoked by such senses – being this the application we propose in this dissertation. We believe that our proposal of integrating network representations and frames is justifiable once (i) it follows a Cognitive Linguistics principle according to which meaning is a conceptual entity, as well as, in the same way, frames are conceptual in nature, and (ii) it follows a principle of Frame Semantics which advocates that, to know the meaning of a word, one must necessarily be able to assign the frame evoked by such a word. In this case, a frame is a wide knowledge structure that provides encyclopaedic information about the uses of such a word in a speaking community. What our proposal advocates is that the application of radial networks not only to the senses, but also to the frames evoked by them is able to provide different kinds of information to the description of polysemous items: departing from the networks filled with senses, one finds information concerning the lexicon; departing from the networks filled with frames, one has access to wider cognitive structures which underlie these senses, that is, the frames themselves. Our corpus study shows that these words, in their uses related to football, are polysemous, and, thus, they can be considered as complex categories. This result also confirms the cognitivist hypothesis that states that polysemy is a regular phenomenon in language, in opposition to what advocate the ideas presented in the first chapter of this paper, to which polysemy is an epiphenomenon, something secondary in language.
APA, Harvard, Vancouver, ISO, and other styles
33

Pierozan, Samanta Kélly Menoncin. "A metaforicidade dos phrasal verbs constituídos por up e down: uma investigação sob a ótica da semântica cognitiva." Universidade do Vale do Rio dos Sinos, 2015. http://www.repositorio.jesuita.org.br/handle/UNISINOS/4960.

Full text
Abstract:
Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2015-11-24T11:22:06Z No. of bitstreams: 1 Samanta Kélly Menoncin Pierozan_.pdf: 2211732 bytes, checksum: df51b6675c3c210b2dce586056eb81d4 (MD5)
Made available in DSpace on 2015-11-24T11:22:06Z (GMT). No. of bitstreams: 1 Samanta Kélly Menoncin Pierozan_.pdf: 2211732 bytes, checksum: df51b6675c3c210b2dce586056eb81d4 (MD5) Previous issue date: 2015-08-24
Nenhuma
O objetivo geral deste trabalho é investigar a metaforicidade dos Phrasal Verbs (PVs) tendo-se como pilar teorias da semântica cognitiva, principalmente a Teoria da Metáfora Conceptual (TMC), desenvolvida por Lakoff e Johnson (1980). Além da TMC, no que diz respeito ao significado dos advérbios ou preposições constituintes dos PVs – os quais podem ser chamados de partículas –, consideram-se também as contribuições de Rudzka-Ostyn (2003), a qual utiliza esquemas imagéticos para representar os PVs, e de Lindner (1981), que parte da Gramática Cognitiva (LANGACKER, 1987) para analisá-los. Tendo como foco os PVs up e down, como metodologia, utiliza-se o ferramental da Linguística de Corpus, extraindo-se os PVs do Corpus of Contemporary American English (COCA). Após realizar a seleção dos Phrasal Verbs para análise, relaciona-se o significado dos PVs selecionados com os sentidos e esquemas imagéticos propostos por Rudzka-Ostyn (2003); verificam-se como como esses sentidos expressam os esquemas imagéticos propostos; identificam-se as metáforas conceptuais, em especial aquelas do tipo orientacional, conforme Lakoff e Johnson (1980); e verifica-se o mapeamento metafórico das concordâncias analisadas. Os resultados apontam que os PVs, na sua maioria, são metafóricos, e que essa metaforicidade tem forte relação com a semântica das partículas que constituem a construção verbo-partícula. Além disso, espera-se com a presente pesquisa agregar à proposta de caráter pedagógico de Rudzka-Ostyn (2003), contribuindo para o ensino e aprendizagem de PVs.
The main purpose of this study is to investigate the metaphor properties of Phrasal Verbs (PVs), based on cognitive semantic theories, especially the Conceptual Metaphor Theory, developed by Lakoff and Johnson (1980). In addition, concerning the meaning of adverbs or prepositions that constitute PVs – which can be called particles –, contributions made by Rudzka-Ostyn (2003), who uses image schemas to represent PVs, and Lindner (1981), who takes into consideration Cognitive Grammar (LANGACKER, 1987) to analyze them, are considered. The up and down particles are the focus of this investigation. Regarding methodology, Corpus Linguistics is used, and the PVs are extracted from the Corpus of Contemporary American English (COCA). After selecting them, the relation between the PVs and Rudzka-Ostyn’s image schemas is verified, as well as how their senses express the image schemas proposed by Rudzka-Ostyn (2003); conceptual metaphors, especially the orientational ones, are identified, in accordance with Lakoff and Johnson (1980); and the mapping between conceptual domains is verified. The results point that the PVs are mostly methaphoric, and that its metaphor properties are strongly related to the meaning of the particles that constitute each verb-particle construction. In addition, it is hoped this research adds to the pedagogical proposal of Rudzka-Ostyn (2003), contributing to the teaching and learning of PVs.
APA, Harvard, Vancouver, ISO, and other styles
34

Gazzana, Marcos Aninkvicius. "A contribuição semântica das partículas nas verb-particle constructions: um estudo sobre 'away', 'out' e 'over' através da lingüística de corpus." Universidade do Vale do Rio do Sinos, 2008. http://www.repositorio.jesuita.org.br/handle/UNISINOS/2567.

Full text
Abstract:
Made available in DSpace on 2015-03-05T18:11:57Z (GMT). No. of bitstreams: 0 Previous issue date: 23
Nenhuma
As Verb-Particle Constructions (VPCs) são construções verbais características da língua inglesa constituídas por um verbo e uma ou duas partículas. Tais estruturas são sintática e semanticamente complexas, uma vez que não se enquadram em regras lógicas e homogêneas. Esta pesquisa visa fazer uma reflexão sobre a semântica das partículas nas VPCs apoiada em conceitos teóricos da Gramática Cognitiva e da Lingüística Cognitiva. A contribuição semântica das partículas away, out e over é discutida valendo-se de esquemas imagéticos que permitem fazer relações entre os diferentes significados das partículas encontrados nas VPCs selecionadas para a análise. Através das ferramentas da Lingüística de Corpus, mais especificamente um concordanciador gratuito chamado AntConc 3.2.1w, foram selecionadas para a análise as cinco VPCs mais freqüentes do American National Corpus com cada partícula. Como resultado, percebeu-se que as partículas contribuem em diferentes graus para o significado total das VPCs, podendo apresentar s
Verb-Particle Constructions (VPCs) are verbal constructions typical of the English language formed by a verb and one or two particles. Such structures are syntactically and semantically complex due to the fact that they do not fit into logical and homogeneous rules. This research aims at examining the semantics of particles in VPCs within the framework of Cognitive Grammar and Cognitive Linguistics. The discussion of the semantic contribution of the particles away, out and ‘over’ is grounded in image schemas which allow establishing relations among the different meanings of particles found in the VPCs selected for the analysis. By using Corpus Linguistics tools, namely a concordancer called AntConc 3.2.1w, the five most frequent VPCs with each particle in the American National Corpus were selected for the analysis. The results showed that the particles contribute to the overall meaning of VPCs in different degrees, with more and less metaphorical senses
APA, Harvard, Vancouver, ISO, and other styles
35

Gadea, Boronat Lucía. "Estudio crítico lingüístico de publicaciones periodísticas sobre la crisis financiera en España." Doctoral thesis, Universitat Politècnica de València, 2017. http://hdl.handle.net/10251/90514.

Full text
Abstract:
This thesis focuses on the linguistic study of publications on the financial crisis in Spain. It is a socioeconomic event that has impacted greatly on Spanish society and has generated a barrage of information that we have used as a documentary source. Our research has sought to examine the language used in newspaper articles about the financial crisis in Spain. The first objective was the compilation of a corpus of texts (3.2 million words), the Corpus of the Financial Crisis (CCF). It is sufficiently representative to develop a methodology for studying real samples of journalistic language about the financial crisis in Spain in a natural year (2012). The corpus, based on newspaper articles from El País and El Mundo, is a reflection of political bipartisanship in Spain at that moment in time. The possibilities, offered by the improvement in new technologies, with new digital formats have favoured the compilation, linked grouping, classification and analysis of journalistic texts. In this way, a specialized written corpus of newspaper articles has been designed and developed. The corpus is written text (newspaper articles), specialized (economic domain), synchronous (year 2012), closed, tag-coded and finite. We review the contributions of communication science theorists to show that the written work, which is sometimes instinctively carried out by journalists, has a theoretical argument behind it. We check how journalists elaborate information, across different genres, and how theories of communication influence them. We also show how information has been affected by the new forms of transmission of news, that is to say, with the expansion of social networks. It is often the case that more importance is given to the emotions generated by a story than to the facts themselves. We can verify how language is used as vehicle of knowledge exchange between government and society. Corpus Linguistics has provided the methodological basis for this thesis: we have reviewed the most relevant theoretical concepts and compared the different criteria when compiling, designing and analyzing a corpus. Computational analysis of the CCF began with the quantitative study of texts (frequencies, keywords, concordance lines, placements, recurrent patterns and clusters) to then carry out manually a more qualitative approach through the analysis and interpretation of individual texts. Our priority was to detect the semantic load and the stylistic resources contained in the publications on the financial crisis. For this reason, the social actors of the crisis (the twelve personalities of the public sphere with the highest rates of occurrence in each quarter of 2012) have been the thread of our corpus analysis. The method designed and implemented has provided evidence on certain semantic categories that co-appear with these entities. We have identified nuances in the message through evaluative labels and have detected terms, phrases and sentences that often realize rich ideologically loaded expressions in the texts. The final stages of the research have consisted in the manual analysis of complete texts (macrostructure and evaluative language) in order to establish a categorization of the sentiments expressed through different rhetorical figures. The creation of a journalistic corpus and its computational and linguistic analysis allows us to detect and analyze the evaluative language present in the texts, which are realized explicitly or implicitly and unmask evidences about political and ideological thinking. Detailed readings of full texts (editorials and letters to the director) show the intention and ideological position of the authors regarding the financial crisis.
Esta tesis se centra en el estudio lingüístico de publicaciones sobre la crisis financiera en España. Se trata de un acontecimiento que ha impactado sobremanera en la sociedad española y que ha generado un aluvión de información que hemos aprovechado como fuente documental. La investigación desde sus inicios persiguió radiografiar el lenguaje utilizado en artículos sobre la crisis financiera. El primer objetivo ha sido realizar una recopilación de textos con los que se ha elaborado un corpus lingüístico, el Corpus de la Crisis Financiera (CCF), lo suficientemente representativo (3,2 millones de palabras) para desarrollar una metodología de estudio de muestras reales del lenguaje periodístico sobre la crisis financiera en España en un año natural (2012) en las dos publicaciones de referencia (reflejo del bipartidismo político) por aquel entonces, El País y El Mundo. Las posibilidades que aporta el avance de las nuevas tecnologías, con los nuevos formatos digitales han favorecido la compilación, agrupación vinculada, clasificación y análisis de los textos periodísticos. De este modo, se ha elaborado un corpus especializado, a partir de textos escritos, monolingüe, sincrónico (año 2012), cerrado, codificado mediante etiquetas y finito. Revisamos las aportaciones de los teóricos de las ciencias de la comunicación para demostrar que el trabajo de redacción, que en ocasiones los periodistas realizan de manera instintiva, tiene detrás de sí toda una argumentación teórica. Comprobamos cómo los periodistas elaboran las informaciones, a través de distintos géneros, y cómo influyen en ellos las teorías de la comunicación. También cómo se han visto afectadas las informaciones por las nuevas formas de transmisión de las noticias, es decir, con la expansión de las redes sociales. Es el caso, por ejemplo, de la posverdad, en que se da más importancia a las emociones que genera una noticia que a los hechos en sí. Podremos comprobar cómo el lenguaje empleado es el vehículo de intercambio de conocimiento entre el Gobierno y la sociedad. La Lingüística de Corpus ha proporcionado la base metodológica de trabajo: hemos revisado los conceptos teóricos más relevantes y comparado los diferentes criterios a la hora de recopilar, diseñar y analizar un corpus. El análisis del CCF comenzó con el estudio cuantitativo de sus textos (frecuencias, palabras clave, líneas de concordancia, colocaciones, patrones recurrentes y clústeres) de manera automática con herramientas informáticas para, a continuación, desarrollar la interpretación cualitativa. Nuestro fin prioritario fue detectar la carga semántica y los recursos estilísticos contenidos en las publicaciones sobre la crisis financiera. Para ello, los actores sociales de la crisis (las doce personalidades del ámbito público con mayores índices de aparición en cada trimestre del año 2012) han constituido el hilo conductor del análisis del CCF. El método diseñado e implementado ha proporcionado evidencias sobre determinadas categorías semánticas que co-aparecen con estas entidades. Se han identificado matices en el mensaje a través de etiquetas evaluativas y se han detectado términos, frases y oraciones que confieren al texto gran expresividad. Las últimas fases de la investigación han consistido en al análisis manual de textos completos (macroestructura y lenguaje evaluativo) para poder establecer una categorización de los sentimientos expresados mediante diferentes mecanismos y figuras retóricas. La creación de un corpus periodístico y su análisis informático y lingüístico nos permite detectar y analizar el lenguaje evaluativo presente en los textos de forma explícita o implícita y desenmascarar evidencias sobre pensamiento político e ideológico. Este último objetivo se alcanza ya al final de la investigación en que la lectura pormenorizada de textos completos (editoriales y cartas al director) muestra la int
Aquesta tesi se centra en l'estudi lingüístic de publicacions sobre la crisi financera a Espanya. És un esdeveniment que ha causat un gran impacte en la societat espanyola i ha generat una allau d'informació que hem aprofitat com a font documental. La investigació des dels seus inicis va tractar de radiografiar el llenguatge utilitzat en la premsa econòmica. El primer objectiu ha estat realitzar una recopilació de textos amb els quals s'ha elaborat un corpus lingüístic, el Corpus de la Crisi Financera (CCF), prou representatiu (3,2 milions de paraules) com per desenvolupar una metodologia d'estudi de mostres reals del llenguatge periodístic sobre la crisi financera a Espanya en un any natural (2012) en les dues publicacions de referència (reflex del bipartidisme polític) com han estat, El País i El Mundo. Les possibilitats que aporta el progrés de les noves tecnologies, amb els nous formats digitals, han afavorit la compilació, agrupació vinculada, classificació i anàlisi dels textos periodístics. D'aquesta manera, s'ha elaborat un corpus especialitzat, a partir de textos escrits, monolingüe, sincrònic (any 2012), tancat, codificat mitjançant etiquetes i finit. Fem una revisió de les aportacions dels teòrics de les ciències de la comunicació per demostrar que el treball de redacció, que en ocasions els periodistes realitzen de manera instintiva, té com a rerefons tota una argumentació teòrica. Comprovem com els periodistes elaboren les informacions a través de diferents gèneres, i com influeixen en ells les teories de la comunicació. També com s'han vist afectades les informacions per les noves formes de transmissió de les notícies, és a dir, amb l'expansió de les xarxes socials. És el cas, per exemple, de la posveritat, on es dóna més importància a les emocions que genera una notícia que als fets en si. Podrem comprovar com el llenguatge emprat és el vehicle d'intercanvi de coneixement entre el Govern i la societat. La Lingüística de Corpus ha proporcionat la base metodològica de treball: hem revisat els conceptes teòrics més rellevants i comparat els diferents criteris a l'hora de recopilar, dissenyar i analitzar un corpus. L'anàlisi del CCF va començar amb l'estudi quantitatiu dels seus textos (freqüències, paraules clau, línies de concordança, col·locacions, patrons recurrents i clústers) de manera automàtica amb eines informàtiques per a, a continuació, desenvolupar la interpretació qualitativa. La finalitat primera va ser detectar la càrrega semàntica i els recursos estilístics continguts en les publicacions sobre la crisi financera. Per aquesta raó, els actors socials de la crisi (les dotze personalitats de l'àmbit públic amb majors índexs d'aparició en cada trimestre de l'any 2012) han estat el fil conductor de l'anàlisi del CCF. El mètode dissenyat i implementat ha proporcionat evidències sobre determinades categories semàntiques que coapareixen amb aquestes entitats. S'han identificat matisos en el missatge a través d'etiquetes d'avaluació i s'han detectat termes, frases i oracions que confereixen al text gran expressivitat. Les últimes fases de la recerca han consistit en l'anàlisi manual de textos complets (macroestructura i llenguatge avaluatiu) per tal de poder establir una categorització dels sentiments expressats mitjançant diferents mecanismes i figures retòriques. La creació d'un corpus periodístic i la seva anàlisi informàtica i lingüística ens permet detectar i analitzar el llenguatge avaluatiu present en els textos de manera explícita o implícita i desemmascarar evidències sobre pensament polític i ideològic. Aquest últim objectiu s'aconsegueix ja al final de la investigació quan la lectura detallada de textos complets (editorials i cartes al director) mostra la intenció i posició dels autors respecte a la crisi financera.
Gadea Boronat, L. (2017). Estudio crítico lingüístico de publicaciones periodísticas sobre la crisis financiera en España [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90514
TESIS
APA, Harvard, Vancouver, ISO, and other styles
36

Avilés, Vergara Tania. "El español de Chile en el ciclo de expansión del salitre (1880-1930). Edición lingüística de un corpus epistolar para su estudio." Tesis, Universidad de Chile, 2014. http://www.repositorio.uchile.cl/handle/2250/117047.

Full text
Abstract:
Tesis para optar al grado de Magíster en Lingüística mención Lengua Española
No autorizada su publicación a texto completo, según petición de su autor
La presente investigación, a caballo entre las disciplinas de la filología hispánica — de enfoque histórico y perspectiva lingüística— y la historia de la lengua española, tiene como objetivo general establecer una edición lingüística de un corpus de 40 cartas manuscritas originales y de testimonio único, escritas por obreros del salitre de la Región de Tarapacá y sus familiares, para contribuir a dar testimonio de variantes lingüísticas vulgares de baja frecuencia o poco atendidas en la bibliografía especializada (metalingüística y lingüística), y que a causa de su desconocimiento han sido enmendadas, corregidas o ignoradas en las ediciones de la tradición filológica peninsular. Esta última idea corresponde a la hipótesis de trabajo del proyecto FONDECYT Regular Nº 1120089 Rasgos de lengua vulgar encubiertos en las ediciones críticas, dirigido por la Dra. Raïssa Kordić Riquelme, en el cual se enmarca nuestro estudio y al cual pretende aportar con sus hallazgos. Para el establecimiento del discurso de las cartas, hemos utilizado como método el estudio detallado del ductus y usus scribendi de cada autor, complementando estos resultados con el conocimiento de la variedad lingüística en estudio, a saber, el español vulgar del centro-sur de Chile trasplantado a la región de Tarapacá durante el ciclo de expansión del salitre, entre los años 1880 y 1930, aproximadamente. Una vez que fueron seleccionadas las variantes vulgares, fonéticas y morfológicas, para su estudio lingüísticohistórico, se revisó un importante aparato bibliográfico para documentar estos hechos de lengua y corroborar su calidad de legítimos y auténticos del español histórico. Los resultados de este proceso demostraron que, efectivamente, existen fenómenos lingüísticos vulgares poco conocidos y que se encuentran escasamente testimoniados en la bibliografía consultada. Se establece, por tanto, una lista de los fenómenos fónicos y morfológicos más destacables, que deben ser considerados como hechos legítimos de lengua vulgar por la crítica textual y la historia de la lengua.
APA, Harvard, Vancouver, ISO, and other styles
37

Santos, Gilnei Magnus dos. "Proposta de elaboração de glossário terminológico bilíngue para a área de agropecuária - sob a perspectiva da linguística de corpus." reponame:Repositório Institucional da UFSC, 2015. https://repositorio.ufsc.br/xmlui/handle/123456789/169518.

Full text
Abstract:
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2015.
Made available in DSpace on 2016-10-19T13:04:33Z (GMT). No. of bitstreams: 1 338986.pdf: 4534456 bytes, checksum: 6a18cd3dad8f48d17fd202233b463bfd (MD5) Previous issue date: 2015
A presente investigação é desenvolvida a partir de um só fio condutor, a saber: em que medida o aperfeiçoamento teórico e metodológico na área dos Estudos da Tradução e, particularmente, no campo da Lexicografia, Terminologia e da Linguística de Corpus, conduz a aprimoramentos com vistas à elaboração de glossários terminológicos bilíngues na área da Agropecuária? Trata-se, com efeito, de considerar, como ponto de partida e como componente instigador, um glossário elaborado em 2006, pelo próprio autor desta tese que, com o passar dos anos, sentiu necessidade de conceder ao seu produto de base, incrementos com bases científicas. Objetivando expor os aportes que a ciência atual oferta aos lexicógrafos para a elaboração de glossários, explicitam-se, nesta tese, alguns dos principais percursos teóricos e metodológicos adotados para contribuir com um novo projeto de glossário. Para fazê-lo, unem-se conhecimentos empíricos, adquiridos ao longo dos anos e através da prática, aos conhecimentos da linguística lexical quantitativa e da tradução. A reflexão teórica e investigatória acerca dos fazeres lexicográfico e terminográfico, em conjunto com estudos de corpora, cujos dados obtidos evidenciaram que os corpora comparáveis compilados para os propósitos da pesquisa são fonte para validação dos termos, contribuem para o aprimoramento do glossário técnico em questão (Santos, 2006). Em adição, essa pesquisa pode vir a subsidiar propostas metodológicas com vistas à produção de materiais de suporte à tradução que atendam aos interesses de especialistas da área, professores e alunos de cursos técnicos e superiores voltados à área da agropecuária.

Abstract : This research is carried from a single common thread that aims to know the extent to which the theoretical and methodological developments in Translation Studies, particularly in Lexicography, Terminology and Corpus Linguistics fields, lead to improvements with a view to creating bilingual terminology glossaries on farming areas. It considers, as a starting point and as an instigator component, a glossary elaborated in 2006, by the author of this doctoral dissertaton that over the years felt the need to give to their basic product, increments with scientific bases. Aiming to expose the contributions that current science offers to the lexicographer for glossary compilation, it is described in this study some of the main theoretical and methodological pathways adopted to contribute to a new glossary project. To do that, empirical knowledge acquired over the years and through practice is joined to the lexical knowledge of quantitative linguistics and translation. The theoretical and investigative reflection on lexicography, terminography and corpora studies, whose data obtained showed that the comparable corpora compiled for research purposes are source for validation of the terms, contribute to the improvement of the technical glossary elaborated by the author (Santos, 2006). In addition, this research may ultimately subsidize methodological proposals related to translation support material production in order to help experts on that field, teachers and students of technical and higher education courses interested in agricultural area.
APA, Harvard, Vancouver, ISO, and other styles
38

Coll-Florit, Marta. "La modalitat de l'acció. Anàlisi empírica, reformulació teòrica i representació computacional." Doctoral thesis, Universitat Oberta de Catalunya, 2009. http://hdl.handle.net/10803/9125.

Full text
Abstract:
En aquesta tesi es proposa un model de classificació i representació de la informació aspectual que és vàlid tant per a les aproximacions teòriques com per als models aplicats, com és el cas de la lexicografia computacional. Les principals contribucions d'aquest model es poden sintetitzar en tres punts bàsics. En primer lloc, és un model que dóna compte dels diferents graus de restricció que s'estableixen entre aspecte lèxic i context oracional, així com capta la naturalesa gradual i els efectes de prototipicitat consubstancials a la modalitat de l'acció, tot oferint un cercle de contigüitat de les categories aspectuals que obre noves vies per a entendre la relació i el canvi entre categories. En segon lloc, es caracteritza el fenomen de la polisèmia aspectual i, de manera més específica, la relació que s'estableix entre modalitat de l'acció i restriccions de selecció. D'aquesta manera, s'ofereix un criteri addicional per a la distinció de sentits verbals, una de les necessitats bàsiques dels recursos per al Processament del Llenguatge Natural. Finalment, i de manera més rellevant, és un model que s'ha validat empíricament a partir de tècniques pròpies de la lingüística de corpus i d'experiments psicolingüístics.
This thesis presents a new model of aspectual classification and representation which is valid for theoretical approaches as well as for applied models, such as computational lexicography. The main contributions of this work can be summarized in three basic points. Firstly, it accounts for different constraint degrees in the interaction between lexical aspect and sentential context, while sheding light on the gradual nature and inherent prototipicity effects of Aktionsart, thus offering a contiguous circle of aspectual categories which opens new ways for understanding the shift between categories. Secondly, aspectual polysemy, and more specifically the relationship between Aktionsart and selectional restrictions, is accounted for, allowing the formulation of new criteria in order to distinguish verbal senses, which is one of the main needs of Natural Language Processing resources. Finally, and more interestingly, this model has been validated empirically by means of corpus linguistic techniques and psycholinguistic experiments.
APA, Harvard, Vancouver, ISO, and other styles
39

Mendoza, de la Luz Frida Sofia. "Caracterización sociolingüística del habla de la comunidad de Santiago Puriatzícuaro, Michoacán." Tesis de Licenciatura, Universidad Autónoma del Estado de México, 2019. http://hdl.handle.net/20.500.11799/110305.

Full text
Abstract:
Las producciones lingüísticas propias del español difieren, no solamente según el lugar geográfico desde donde se emiten, sino también en concordancia con factores sociales como la edad, el género y el nivel de instrucción. Tal nexo entre lengua y sociedad advierte la importante tarea de atender la necesidad de realizar registros de fenómenos lingüísticos para la definición de fronteras lingüísticas (isoglosas), problema de suma relevancia en el ámbito sociolingüístico variacionista. A partir de las técnicas de investigación sociolingüística expuestas por Sagli E. Tagliamonte, Pedro Martín Butragueño, Yolanda Lastra y Francisco Moreno Fernández, se emprendió el registro de un corpus a partir de una muestra limitada pero representativa de la comunidad de habla de Santiago Puriatzícuaro, Michoacán. El presente trabajo de investigación expone las transcripciones de las entrevistas realizadas a 10 habitantes de la comunidad, y caracteriza, fonética y morfosintácticamente, las innovaciones presentes en las producciones lingüísticas de los hablantes en relación con variables extralingüísticas.
APA, Harvard, Vancouver, ISO, and other styles
40

Costa, Alessandra Bautista da. "Metaforas relacionadas ao tema da amizade sob a perspectiva da teoria da metáfora conceptual e da lingüística corpus na série TV'Friends." Pontifícia Universidade Católica de São Paulo, 2005. https://tede2.pucsp.br/handle/handle/14052.

Full text
Abstract:
Made available in DSpace on 2016-04-28T18:24:00Z (GMT). No. of bitstreams: 1 Alessandra Bautista da Costa Dissertacao.pdf: 539830 bytes, checksum: 5a911666185ca0e5a1f7756c9106109f (MD5) Previous issue date: 2005-06-01
Pontificia Universidade de São Paulo
This study looked at the theme of friendship as it is presented in the American sitcom Friends. The research was carried out by focusing on metaphors and how these metaphors relate to friendship, love and other similar themes. In order to accomplish the aim proposed above, this research drew on Corpus Linguistics as well as on the Conceptual Metaphor Theory. Corpus Linguistics was used as a theoretical approach and methodology which takes into account large bodies (corpora) of natural linguistic data and a probabilistic view of language. In this study, several computer tools such as Concord, Collocates and Clusters in the software WordSmith Tools 3.0 (Scott, 1998) were employed. According to Lakoff (1993:203), metaphor can be understood as a cross-domain mapping in the conceptual system . The results showed there are several metaphors in the sitcom Friends that lead us to conceptualize friendship in many different ways, such as: LOVE IS CRAZYNESS, LOVE AS A JOURNEY, BOY/GIRLFRIENDS ARE SWEET, for example. As a general conclusion, we may say that the sitcom Friends draws on a number of metaphors centering around the theme of friendship which in turn lends consistency and thematic unit to the series as a whole. Moreover, in a sense, the series redefines friendship, by blending topics such as sex, childhood, youth and partnership. Arguably, part of the success of the series may be due to these
Este trabalho teve como objetivo principal propor o levantamento de metáforas lingüísticas no corpus de estudo (seriado de TV Friends) e a categorização das mesmas em metáforas conceptuais relacionadas ao tema da amizade. A motivação do estudo surgiu da necessidade de ensinar vocabulário de inglês como língua estrangeira e do desejo de incorporar, no ensino, episódios do seriado norte-americano Friends. A escolha do corpus deveu-se a essa motivação adicional. Espera-se que em outra pesquisa possamos passar dos achados de pesquisa à sua utilização no contexto de ensino de línguas estrangeiras. Para que o propósito acima fosse realizado, esta pesquisa integrou duas áreas de pesquisa, a da Lingüística de Corpus e a da Teoria da Metáfora Conceptual. A Lingüística de Corpus é uma abordagem teórica metodológica que se norteia a partir da observação de dados lingüísticos naturais e de uma visão probabilística da linguagem. Neste estudo, a Lingüística de Corpus fez-se presente, metodologicamente, por meio de várias ferramentas computacionais, como Concord, Collocates e Clusters, oferecidas pelo programa utilitário WordSmith Tools 3.0 (Scott, 1998). Tais ferramentas foram utilizadas para realizar o levantamento de metáforas lingüísticas, revelando, dessa forma, as metáforas conceptuais estudadas por Lakoff e Johnson (1980/2002). Entende-se por metáfora um mapeamento entre domínios que faz parte de um sistema conceptual (Lakoff, 1993). Adotou-se, aqui, a Teoria da Metáfora Conceptual como o arcabouço teórico que permitiu a identificação das metáforas do corpus do seriado Friends. Os resultados indicaram várias metáforas presentes no seriado Friends que remetem ao tema da amizade de diversas maneiras, como nos exemplos: AMOR É LOUCURA, AMOR COMO VIAGEM, NAMORADOS/AS SÃO COMO UM ALIMENTO DOCE, etc. A conclusão geral é que as metáforas freqüentes no seriado não somente dão a tônica ao conjunto dos episódios, dessa forma trazendo consistência a uma série longa como essa, mas também, e talvez principalmente, redefinem o conceito de amizade como o conhecemos, incorporando noções de sexo, infantilidade, jovialidade e companheirismo. Parte do sucesso da série pode ser, talvez, atribuída à escolha feliz e consistente de metáforas que aludem aos temas principais da série. A pesquisa pretende ter dado uma contribuição original para a área da Lingüística de Corpus na interface com a Teoria da Metáfora Conceptual, na medida em que integra questões referentes à sua visão de linguagem, com princípios teóricos e metodológicos referentes à aprendizagem de vocabulário por meio das metáforas conceptuais propostas por Lakoff e Johnson (1980/2002)
APA, Harvard, Vancouver, ISO, and other styles
41

Garcia, Sebastià Josep Vicent. "Les construccions de temps transcorregut en el català de l’edat moderna i contemporània: acostament segons la lingüística de corpus i la gramàtica cognitiva." Doctoral thesis, Universidad de Alicante, 2018. http://hdl.handle.net/10045/98369.

Full text
Abstract:
Totes les llengües tenen la possibilitat d’expressar la quantitat de temps transcorregut entre la realització o l’inici d’una situació verbal i un altre punt de referència posterior, generalment el moment de l’enunciació (Haspelmath 1997; Kurzon 2008; Franco 2012). Evidentment, el català no és una excepció. Amb aquest estudi, doncs, volem contribuir a ampliar el coneixement dels principals recursos que té la llengua catalana per a establir aquesta mena de relacions cronològiques. Segons Kurzon (2008), les estratègies de què disposen les llengües per fer referència al concepte de [TEMPS TRANSCORREGUT] es divideixen en dos grans tipus: les solucions adposicionals (com ara l’ús de ago en anglès) i les adverbials (com, per exemple, l’ús de nazad en rus). Tanmateix, en català, de la mateixa manera que en altres llengües romàniques, com l’espanyol (Porto Dapena 1983; Pérez Toral 1992; Herce 2017), l’italià (Vanelli 2001; Franco 2012; Benincà, Berizzi i Vanelli 2016), el portuguès (Móia 2011a; 2013) o el francès (Rigau 2001; Howe i Ranson 2010), també hi ha construccions oracionals autònomes que fan aquesta funció. Actualment, les formes oracionals es constitueixen, sobretot, amb el verb fer; p. ex.: Fa dos anys que no el veig. Però en altres estadis anteriors es conformaven amb el verb haver i, en menor mesura, amb el verb ser (Martines 2014; 2015; en premsa). Precisament, la present investigació se centra a analitzar els canvis que s’esdevingueren al llarg de l’edat moderna i a l’inici del període contemporani, moment en què aquestes construccions experimentaren un seguit de transformacions sintàctico-semàntiques profundes que desembocaren en la substitució de les construccions amb haver per les alternatives amb fer en el s. XIX. Per a poder contextualitzar millor els processos de canvi que s’esdevingueren en aquesta etapa, l’estudi també revisa de manera general els sistemes d’expressió del [TEMPS TRANSCORREGUT] en llatí i en català medieval. Aquest treball aporta una nova perspectiva a la descripció que s’ha fet fins ara de les construccions de temps transcorregut en català (Sancho 2000; Rigau 2001; Solà 2000; Solà i Pujols 2002; Martines 2014; 2015; en premsa), per diverses raons. La primera és que aborda l’anàlisi del tema des d’una òptica diacrònica i en un període que fins ara no s’havia investigat. D’altra banda, la tesi es basa en dades lingüístiques d’ús real extretes de corpus informatitzats: el CIMTAC —que conté textos del català medieval, modern i contemporani— i el CTILC —que complementa el buidatge d’exemples de l’època contemporània—. Finalment, per a la interpretació dels fenòmens lingüístics, l’estudi aplica alguns conceptes de la Lingüística Cognitiva i de la Gramàtica de Construccions basada en l’ús, com són la Teoria de la Inferència Invitada del Canvi Semàntic (Traugott i Dasher 2002) i el concepte de construccionalització (Traugott i Trousdale 2013).
APA, Harvard, Vancouver, ISO, and other styles
42

Serpa, Talita [UNESP]. "A cultura brasileira de Darcy Ribeiro em língua inglesa: um estudo da tradução de termos e expressões de antropologia da civilização." Universidade Estadual Paulista (UNESP), 2012. http://hdl.handle.net/11449/93883.

Full text
Abstract:
Made available in DSpace on 2014-06-11T19:26:48Z (GMT). No. of bitstreams: 0 Previous issue date: 2012-07-04Bitstream added on 2014-06-13T20:55:24Z : No. of bitstreams: 1 serpa_t_me_sjrp.pdf: 7871280 bytes, checksum: 08474ce8cfb85faedd392d54080082a6 (MD5)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Com o propósito de investigar os comportamentos linguístico-tradutório e social de dois tradutores diante dos obstáculos impostos pelos limites culturais na Tradução, analisamos um corpus paralelo da subárea de especialidade da Antropologia da Civilização, composto pelas obras O processo civilizatório: etapas da evolução sociocultural (1968) e O povo brasileiro: a formação e o sentido do Brasil (1995), de autoria do antropólogo Darcy Ribeiro e pelas respectivas traduções para a língua inglesa, realizadas por Betty J. Meggers e Gregory Rabassa.Também nos valemos de dois corpora comparáveis de Antropologia em português e em inglês, e de um corpus de apoio composto principalmente por dicionários de Ciências Sociais e Antropologia. Os principais objetivos que nortearam a presente pesquisa foram: observar a tradução de termos e expressões das obras darcynianas, assim como verificar o processo tradutório concernente aos brasileirismos e neologismos terminológicos elaborados pelo autor; investigar o comportamento linguístico-cultural dos tradutores, por meio da análise das opções por eles utilizadas nas traduções e dos traços de simplificação e explicitação nos textos traduzidos; e elaborar dois glossários bilíngues para a terminologia antropológica. Para tanto, apoiamo-nos na abordagem interdisciplinar proposta por Camargo (2005, 2007), adotando, para o levantamento e processamento eletrônico dos dados, o arcabouço teórico-metodológico dos Estudos da Tradução Baseados em Corpus (BAKER, 1993, 1995, 1996, 2000), da Linguística de Corpus (BERBER SARDINHA, 2004, 2010; TOGNINI-BONELLI, 2001) e, em parte, da Terminologia (BARROS, 2004; KRIEGER & FINATTO, 2004, FAULSTICH, 1995, 2000). No tocante à análise dos dados levantados, adotamos os trabalhos de Sociologia da Tradução...
Intending to investigate the social and translational linguistic behaviors of two translators in face of obstacles imposed by cultural barriers in translation, we analyzed a parallel corpus of Social Anthropology of Civilization sub-area, composed by the works, O processo civilizatório (1968) e O povo brasileiro (1995), written by the anthropologist Darcy Ribeiro, as well as by their translations into English, performed by Betty J. Meggers and Gregory Rabassa, respectively. We also used two comparable corpora of Anthropology in Portuguese and in English, and a support corpus composed mainly of dictionaries of Social Sciences and Anthropology. The main objectives that guided this research were: to observe the translation of terms and expressions in Darcy Ribeiro’s works, to analyze the translational process concerning to the terminological Brazilianisms and neologisms produced by the author; to investigate the translators’ linguistic and cultural behavior through the analysis of resources used by them in their translations; to identify simplification and explicitation features in the two translated texts; and to elaborate two bilingual glossaries for anthropological terminology. With these purposes, we based our study on Camargo’s interdisciplinary proposal (2005,2007) adopting, for the electronic collection and processing of data, the theoretical and methodological framework of Corpus-Based Translation Studies (Baker, 1993, 1995, 1996, 2000), of Corpus Linguistics (BERBER SARDINHA, 2004, 2010, TOGNINI-BONELLI, 2001) and, in part, of Terminology (BARROS, 2004; KRIEGER & FINATTO, 2004, FAULSTICH, 1995, 2000). Concerning the classification and analyzes of data gathered from our corpora, we based our research... (Complete abstract click electronic access below)
APA, Harvard, Vancouver, ISO, and other styles
43

Grigoleto, Grace Gonçalves [UNESP]. "Análise de vocábulos recorrentes e preferenciais na obra As mulheres de Tijucopapo, de Marilene Felinto, e na respectiva tradução para o inglês The women of Tijucopapo, realizada por Irene Mathews, com base em aspectos de normalização." Universidade Estadual Paulista (UNESP), 2011. http://hdl.handle.net/11449/93905.

Full text
Abstract:
Made available in DSpace on 2014-06-11T19:26:49Z (GMT). No. of bitstreams: 0 Previous issue date: 2011-02-17Bitstream added on 2014-06-13T18:30:37Z : No. of bitstreams: 1 grigoleto_gg_me_sjrp_parcial.pdf: 97076 bytes, checksum: aeb71f1e3dcd408591619b0ee4d085c0 (MD5) Bitstreams deleted on 2015-08-28T16:08:53Z: grigoleto_gg_me_sjrp_parcial.pdf,. Added 1 bitstream(s) on 2015-08-28T16:09:59Z : No. of bitstreams: 1 000641048.pdf: 764505 bytes, checksum: 32067ef8749a30efe912c85f09883a5e (MD5)
O presente trabalho tem por objetivo analisar a tradução de vocábulos considerados recorrentes e preferenciais na obra As mulheres de Tijucopapo, de Marilene Felinto, bem como observar possíveis tendências de normalização por parte da tradutora Irene Matthews na tradução para o inglês: The women of Tijucopapo. Esta pesquisa é parte de um projeto maior, o PETra – Padrões de Estilo de Tradutores, coordenado pela Profa. Dra. Diva Cardoso de Camargo. A metodologia situa-se no campo dos estudos da tradução baseados em corpus (proposta de Baker, 1993, 1995, 1996, 2000, 2004; estudos sobre normalização de Scott, 1998; e pesquisas de Camargo, 2005, 2007), e no da linguística de corpus (estudos de Berber Sardinha, 2003, 2004); também se apoia na fortuna crítica da autora (trabalhos de Araújo, 2006; Bailey, 2010; Fiorucci, 2009; Gonçalves, 2001; Jacomel, 2008; Santos, 2005; Schmidt, 2009; Vieira, 2001; Wanderley, 2009 e Xavier, 2003). A pesquisa foi realizada por meio de uma combinação de análises semimanuais e de análises computadorizadas. Inicialmente, utilizamos o programa WordSmith Tools para obter a frequência das palavras na obra de Felinto. Em seguida, utilizamos a ferramenta KeyWords para identificar quais seriam as palavras-chave presentes no romance. Após esse levantamento, recorremos à fortuna crítica de Felinto e definimos cinco vocábulos considerados preferenciais da autora:homem, mulheres, chuva, amor e égua. Com base em Scott (1998), examinamos a tradução dos cinco vocábulos em relação a nove características de normalização. Os resultados encontrados nesta pesquisa mostram que a tradutora Irene Matthews tende a usar estratégias que podem ser identificadas como características de normalização
This thesis aims at analyzing the translation of words considered recurring and preferred in the novel As mulheres de Tijucopapo, by Marilene Felinto, as well as observing possible tendencies of normalization by the translator Irene Matthews in the translation to English: The women of Tijucopapo. This research is part of a bigger project, the PETra (Padrões de Estilo de Tradutores), coordinated by Doc. Diva Cardoso de Camargo. The methodology employed is that of corpus-based translation studies (proposed by Baker, 1993, 1995, 1996, 2000, 2004; Scott‘s study concerning normalization, 1998; and Camargo‘s research studies, 2005, 2007), and that of corpus linguistics (Berber Sardinha‘s study, 2003, 2004). We also base our study on Felinto‘s critical heritage (studies by Araújo, 2006; Bailey, 2010; Fiorucci, 2009; Gonçalves, 2001; Jacomel, 2008; Santos, 2005; Schmidt, 2009; Vieira, 2001; Wanderley, 2009, and Xavier, 2003). The research was carried out by means of a combination of semi- manual and computerized analyses. Initially, we used the computer software WordSmith Tools to obtain the frequency of the words in Felinto‘s book. Then, we went on to use the tool KeyWords to identify which would be the keywords in the author‘s novel. After collecting these data, we used Felinto‘s critical heritage in order to select five words that could be considered as recurring and preferred in Felinto‘s writing: 'homem‘ ('man‟), 'mulheres‘ ('women)‘, 'chuva‘ ('rain‘), 'amor‘ ('love‘) and 'égua‘ ('mare‘). Based on Scott (1998), we analyzed the translation of the five selected words in relation to nine normalization features. The results obtained in this study show that the translator Irene Matthews tends to use strategies that may be identified as features of normalization
APA, Harvard, Vancouver, ISO, and other styles
44

Murakami, Thiery Okuyama Silva. "Extração de redes léxicos-semânticas do português em um corpus de turismo." reponame:Repositório Institucional da UFABC, 2011.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
45

Souza, Diego Spader de. "Jogada de letra: um estudo sobre colocações à luz da semântica de frames." Universidade do Vale do Rio dos Sinos, 2015. http://www.repositorio.jesuita.org.br/handle/UNISINOS/3924.

Full text
Abstract:
Submitted by Maicon Juliano Schmidt (maicons) on 2015-06-17T13:30:29Z No. of bitstreams: 1 Diego Spader de Souza.pdf: 2206624 bytes, checksum: 30715b12e44b6bedea8e7f523b159982 (MD5)
Made available in DSpace on 2015-06-17T13:30:29Z (GMT). No. of bitstreams: 1 Diego Spader de Souza.pdf: 2206624 bytes, checksum: 30715b12e44b6bedea8e7f523b159982 (MD5) Previous issue date: 2015-03-30
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
O objetivo da presente dissertação é discutir a relação existente entre o fenômeno linguístico das colocações e os conceitos da teoria da Semântica de Frames (FILLMORE, 1982; 1985). O trabalho se insere no contexto de dois projetos de pesquisa desenvolvidos pelo grupo SemanTec, o Field – Dicionário de Expressões do Futebol (CHISHMAN, 2014), já disponível para consulta na web, e o Dicionário Eletrônico Modalidades Olímpicas (CHISHMAN, 2014), ainda em fase inicial. Os dois dicionários citados se organizam a partir da noção de frame semântico proposta por Fillmore (1982; 1985), de forma que a dissertação busca evidenciar de que forma esse conceito (e os conceitos que o cercam) repercutem no tratamento lexicográfico dispensado às colocações. Nesse sentido, a revisão da literatura, apresentada nos capítulos 2 e 3, discute as bases teóricas para o estudo das colocações e da Semântica de Frames. O método da pesquisa consiste na análise de 74 colocações da linguagem do futebol. A escolha dessas estruturas parte do estudo de 500 combinações lexicais extraídas a partir de um corpus em português brasileiro do discurso do futebol através do software Sketch Engine. A análise das 74 colocações selecionadas acontece em duas fases: a primeira se dedica a averiguar os aspectos quantitativos do conjunto de dados e as características estruturais das colocações da linguagem do futebol; a segunda etapa foca na relação dessas combinações com os preceitos teóricos da Semântica de Frames e da sua contraparte computacional, a FrameNet, a fim de perceber de que modo esse arcabouço teórico oferece subsídios para o tratamento das colocações em contextos lexicográficos. Entre os principais resultados da primeira fase de análise, destaca-se o fato de que a maior parte das colocações do futebol designa estruturas verbais, como fazer gol e mandar bola, o que demonstra que a linguagem esportiva é marcada pela dinâmica das ações e dos eventos que ocorrem durante a partida. Além disso, foi possível perceber que as colocações nominais estão fortemente ligadas aos materiais, participantes e locais do contexto futebolístico. A segunda parte demonstrou que as colocações, no âmbito de dicionários baseados em frames, atuam como unidades lexicais, conceito proveniente da FrameNet. Ao serem consideradas unidades lexicais, as colocações são evocadoras de frame, o que as caracteriza como termos que devem estar presentes na lista principal de verbetes. Foi possível notar, contudo, que a evocação de frame a partir das colocações muitas vezes não segue o modelo tradicional presente na FrameNet, especialmente quando se trata das colocações nominais, que não evocam acontecimentos, mas entidades estáticas, como cartão vermelho e tabela de classificação. A presente dissertação evidencia a relevância da Semântica de Frames e da FrameNet para o estudo de unidades complexas como as colocações em contextos lexicográficos. Outro aspecto a ser mencionado é a importância dos recursos metodológicos da Linguística de Corpus para a área em que o estudo se insere.
The present thesis aims at the discussion of the relation that exists between the linguistic phenomenon of collocations and the concepts of Frame Semantics theory (FILLMORE, 1982; 1985). The study has arisen in the context of two research projects developed by the SemanTec group, Field – Football Expressions Dictionary (CHISHMAN, 2014), already available on the web, and Olympic Modalities Electronic Dictionary (CHISHMAN, 2014), still in early stage. Both dictionaries are organized around the notion of semantic frame proposed by Fillmore (1982; 1985), in such a way that the thesis seeks to demonstrate in which way this concept (and the concepts surrounding it) are related to the lexicographic treatment given to collocations. Thus, the literature review, presented in chapters 2 and 3, discusses the theoretical basis of the studies of collocations and Frame Semantics. The research method consists of the analysis of 74 collocations of football language. The choice of these structures was made after the study of 500 lexical combinations extracted from a Brazilian Portuguese corpus of football discourse through the Sketch Engine software. The analysis of the 74 collocations happens in two steps: the first one is dedicated to investigate the quantitative aspects of the data set and the structural characteristics of football language collocations; the second phase focuses on the relation between these combinations and the theoretical assumptions of Frame Semantics and its computational counterpart, FrameNet, in order to see in which way this theoretical outline treats collocations in lexicographic contexts. Among the main results of the first phase of analysis is the fact that a major part of football collocations are verbal, such as score goal and send the ball, which demonstrates that sport language is marked by the dynamics of actions and events that take place in a game. Besides, it was also possible to realize that nominal collocations are strongly connected to the materials, participants and places of football context. The second phase demonstrated that collocations in the scope of frame-based dictionaries act as lexical units, concept arising from FrameNet. Because they are considered lexical units, collocations are seen as frame evokers, thus characterizing them as terms that must be displayed in the main list of entries. However, it was also possible to note, however, that the frame evoking by collocations many times does not follow the traditional model of FrameNet, especially when it comes to nominal collocations that do not evoke events, but static entities, such as red card and classification table. The present thesis evidences the relevance of Frame Semantics and FrameNet for the study of complex units such as collocations in lexicographic contexts. Another aspect to be mentioned is the importance of the methodological resources of Corpus Linguistics to the area in which this study is included.
APA, Harvard, Vancouver, ISO, and other styles
46

Marín, Pérez María José. "Identificación y análisis del vocabulario especializado de los repertorios de jurisprudencia británicos : estudio basado en un corpus de este género legal, fundamento de los sistemas legales Common Law= Identification and analysis of the specialised vocabulary of british law reports : a corpus-driven study of this legal genre at the core of Common Law legal systems." Doctoral thesis, Universidad de Murcia, 2013. http://hdl.handle.net/10803/128621.

Full text
Abstract:
El objetivo fundamental de esta tesis doctoral es la identificación y análisis del vocabulario especializado de BLaRC (the British Law Report Corpus), un corpus de 8,85 millones de palabras de inglés jurídico compuesto por sentencias judiciales, que se describe y justifica en el capítulo 2. Con el fin de identificar y analizar el vocabulario especializado del corpus, diez métodos de extracción automática de términos (métodos ATR) se implementan y evalúan en un corpus de 2,6 millones de palabras, UKSCC (the United Kingdom Supreme Court Corpus), extraído del corpus de referencia para facilitar la implementación de estos métodos y su validación dado el tamaño de éste último. El capítulo 3 se dedica a la evaluación de estos métodos ATR en lo que respecta a los niveles de precisión alcanzados por cada uno de ellos en la identificación de terminología jurídica. La precisión media alcanzada se calcula a través de la comparación automática de la lista de candidatos a término obtenida tras la implementación de cada uno de estos métodos con un glosario jurídico especializado de 10.088 entradas, que también se ha compilado para esta tesis. Asimismo, se calcula la precisión cumulativa siguiendo el mismo proceso para observar y compara la manera en que evoluciona el número de términos reales identificados conforme la lista de candidatos aumenta. Como resultado de esta evaluación, dos métodos son seleccionados por su mayor eficiencia, son Terminus (Nazar y Cabré, 2012) y TermoStat (Drouin, 2003). Tras esta selección, se procede a su implementación en el corpus de referencia, BLaRC, con resultados similares. En el apartado 3.2.4. se ofrecen los listados de términos mono-léxicos y poli-léxicos identificados por ambos métodos una vez validados dichos listados. El capítulo 3 concluye con la propuesta de varias actividades cuyo fin es el de ilustrar las diversas aplicaciones y usos de los corpus especializados en la enseñanza del inglés con fines específicos. Debido a la relevancia del vocabulario sub-técnico dentro de la terminología legal, en el capítulo 4 se propone un método cuantitativo para medir su grado de especialización basándonos en el contexto de uso de este tipo de palabras. El modelo de las redes léxicas de Williams (2001) se aplica a un grupo de palabras generales, sub-técnicas y altamente especializadas para observar y comparar el número y la frecuencia de sus colocados y co-colocados tanto en BLaRC, el corpus jurídico, como en LACELL, el general. La observación de los datos obtenidos nos lleva a la formulación del algoritmo Sub-Tech que nos permite situar este tipo de palabras a lo largo de un continuum de especialización en función de los datos obtenidos tras la aplicación del modelo de Williams. Finalmente, con el fin de describir el vocabulario sub-técnico desde una perspectiva semántica, el modelo de las constelaciones léxicas de Cantos y Sánchez (2001) se aplica al análisis de los rasgos semánticos de los términos compartidos trial, charge y battery obteniendo una imagen mucho más clara del proceso que siguen este tipo de palabras del uso general al especializado. La aplicación de este modelo junto con el método cuantitativo descrito más arriba podría considerarse como un primer paso hacia la descripción de un fenómeno léxico que, hasta la fecha, no ha sido examinado con suficiente profundidad.
This doctoral thesis aims at identifying and analysing the specialised vocabulary in BLaRC (the British Law Report Corpus), an ad hoc legal corpus of British Law Reports of 8.85 million words, which is described and justified in detail in chapter 2. In order to do so, ten different ATR methods are implemented on a 2.6 million word corpus, UKSCC (the United Kingdom Supreme Court Corpus), extracted from the main one to facilitate their implementation and validation process. Chapter 3 is devoted to the evaluation of such ATR methods as regards the precision levels achieved in term identification by each of them. Average precision is calculated through the automatic comparison of the lists of candidate terms (CTs) produced by each method with a gold standard, that is, an electronic legal glossary of 10,088 entries, also compiled for this research. Cumulative precision is measured following the same procedure so as to observe and compare the way it evolves as the number of identified terms augments. As a result, Terminus 2.0 (Nazar & Cabré, 2012) and TermoStat (2003), the best performing techniques, are selected with the aim of implementing them on BLaRC. After doing so, the validated lists of both single and multi-word legal terms extracted from it are offered in section 3.2.4. Chapter 3 ends with the proposal of some activities aimed at illustrating the varied applications and uses of specialised corpora and vocabulary lists in ESP teaching. Owing to the relevance of sub-technical vocabulary as a major component of the legal lexicon, a quantitative method is proposed in chapter 4 to measure its degree of specialisation based on the context of usage of this type of words. William’s (2001) lexical network model is applied to a set of general, highly specialised and sub-technical words in order to observe and compare the number and frequency of their collocates and co-collocates both in BLaRC, the specialised corpus, and LACELL, the general one. The observation of the data obtained leads to the formulation of the algorithm Sub-Tech allowing to place the words analysed along a continuum of specialisation depending on the data obtained after the implementation of Williams’ model. Finally, with the purpose of describing sub-technical vocabulary from a semantic perspective, Cantos and Sánchez’s (2001) lexical constellation model is applied to analyse the semantic features of the shared terms trial, charge and battery resulting into a much clearer picture of the process undergone by sub-technical words from general usage to specialisation. The application of this model in combination with the quantitative method described above may be regarded as a first step towards a better understanding of a lexical phenomenon which, to the best of our knowledge, has not been explored in depth to date.
APA, Harvard, Vancouver, ISO, and other styles
47

Ginezi, Luciana Latarini. "Cafés do Brasil: estudo de variantes em português e inglês na língua falada." Universidade de São Paulo, 2008. http://www.teses.usp.br/teses/disponiveis/8/8147/tde-03042008-134508/.

Full text
Abstract:
O objetivo deste trabalho é analisar a ocorrência de variantes terminológicas na linguagem de especialidade do Café e verificar a possibilidade de se construir um produto terminológico bilíngüe baseado na oralidade. Inspirado no trabalho profissional de interpretação consecutiva e intermitente, o estudo utiliza corpora falados, uma vez que podemos estabelecer uma relação clara entre a oralidade e a interpretação, modalidade oral da tradução. Todas as dificuldades encontradas na construção dos corpora falados são explicitadas e algumas sugestões são feitas para futuras pesquisas. A pesquisa segue os princípios da Lingüística de Corpus (LC), tanto na elaboração dos corpora como também na análise dos dados, essa com o uso da ferramenta computacional WordSmith Tools, agilizando o processo e dando a ele confiabilidade. O estudo justifica-se pela importância do conhecimento de variantes terminológicas nas línguas de especialidade e na sua modalidade falada, por intérpretes e por profissionais da área e, também, pelas possibilidades oferecidas pela LC para a pesquisa socioterminológica na oralidade. Assim, compilamos dois corpora falados monolíngües, um em português do Brasil e outro em inglês de países diversos, com o tema Café, subdividido em colheita e processamento, composto por entrevistas face-a-face da pesquisadora com profissionais da área cafeeira e por conversações entre profissionais, em ambas as línguas. Também construímos um corpus bilíngüe, composto por interpretações entre falantes de inglês e de português. Em seguida, analisamos os dados dos corpora, buscando encontrar variantes. Ao final do trabalho, elaboramos um vocabulário bilíngüe a partir dos dados coletados e das análises efetuadas.
The aim of this research is to analyze the presence of terminological variants in the specialty language of coffee and to verify the possibility of building a bilingual vocabulary based on spoken language. The study is guided by the consecutive or liaison interpreting and the use of spoken corpora, once we can establish a close relation between spoken language and interpreting, oral mode of translation. Several difficulties were faced in order to build the spoken corpora, and they are presented with some suggestions for future research. The principles of Corpus Linguistics are followed to the corpora design, as well corpora exploration, using Mike Scott\'s WordSmith Tools. The study is significant due to the knowledge of terminological variants in spoken language, by interpreters and professional workers at a specialty area, and also to the possibilities Corpus Linguistics offers to a socioterminological research at spoken variety. Two monolingual spoken corpora were compiled, one in Brazilian Portuguese and the other in English spoken world-wide. The main topic is Coffee, divided in harvest and processing, with face to face interviews as well as conversations among coffee professionals, in both languages. An interpreting corpus is also included in the work, between Portuguese and English speakers. After analysis, we present a bilingual vocabulary of spoken language, including the variants found for most of the terms.
APA, Harvard, Vancouver, ISO, and other styles
48

Paiva, Paula Tavares Pinto [UNESP]. "Estudo em corpora de traduções e três glossários bilíngues nas subáreas de anestesiologia, cardiologia e ortopedia." Universidade Estadual Paulista (UNESP), 2006. http://hdl.handle.net/11449/93900.

Full text
Abstract:
Made available in DSpace on 2014-06-11T19:26:49Z (GMT). No. of bitstreams: 0 Previous issue date: 2006-02-06Bitstream added on 2014-06-13T18:55:14Z : No. of bitstreams: 1 paiva_ptp_me_sjrp.pdf: 1956034 bytes, checksum: 439ede6ac47e2ddd1cddf5dc9c2cf089 (MD5)
Este estudo examinou traduções de termos médicos de maior freqüência em três subáreas médicas: anestesiologia, cardiologia e ortopedia, bem como observou traços de simplificação e de explicitação apresentados pelos tradutores de cada subárea. Para tanto, fundamentamo-nos, principalmente, nos Estudos da Tradução Baseados em Corpus (Baker, 1993, 1995, 1996; Camargo, 2004, 2005), na Lingüística de Corpus (Berber Sardinha, 2000, 2004; Tognini-Bonelli, 2001) e em parte, na Terminologia (Aubert, 1996; Barros, 2004; Krieger & Finatto, 2004). Para a compilação do corpus de estudo, foram utilizados artigos científicos de revistas brasileiras bilíngües e de revistas estrangeiras de renome na comunidade médica das respectivas subáreas. A pesquisa conta com o auxílio de três ferramentas: WordList, KeyWords e Concord, disponibilizadas pelo programa WordSmith Tools versão 3.0. A comparação dos termos médicos das três subáreas foi feita a partir de um corpus paralelo de textos originais e de textos traduzidos, e de dois corpora comparáveis de textos de mesma natureza originalmente escritos em português e em inglês. O levantamento de termos médicos mais freqüentes em português para cada subárea permitiu a elaboração de um glossário com os respectivos termos equivalentes em inglês, acompanhados do seu contexto em ambas as línguas. O exame de traços de simplificação e de explicitação possibilitou a identificação de estratégias por parte dos três tradutores diante de textos das respectivas subáreas médicas.
The present study aims at observing the most frequent medical terms in Portuguese and their translation into English from three medical fields, Anesthesiology, Cardiology and Orthopaedics, as well as examining aspects of simplification and explicitation shown in the respective translator's texts from each medical area. The methodology adopted is that of Corpus-based Translation Studies (Baker 1993, 1995, 1996; Camargo, 2004, 2005), Corpus Linguistics (Berber Sardinha, 2000, 2004; Tognini-Bonelli, 2001); and Terminology (Aubert, 1996; Barros, 2004; Krieger & Finatto, 2004). For compiling the main corpus, we used scientific papers from bilingual Brazilian journals and foreign journals well-known in their respective medical fields. This study used three tools: WordList, KeyWords and Concord, from the software WordSmith Tools version 3.0. A comparison of medical terms was carried out based on a parallel corpus of original and translated texts, and on two comparable corpora composed by texts originally written in Portuguese and in English. After listing and analyzing the most frequent medical terms in Portuguese, we compiled a glossary with the respective equivalents in English followed by their contexts in both languages for each of the three medical areas. The observation of simplification and explicitation features revealed strategies used by the three translators when dealing with medical texts.
APA, Harvard, Vancouver, ISO, and other styles
49

Hernández, Maya Paloma Teresa. "DESEMPEÑO DE LOS MÉTODOS DEL ESTADO DEL ARTE PARA LA GENERACIÓN AUTOMÁTICA DE RESÚMENES EXTRACTIVOS PARA EL CORPUS TEXTRUSS." Tesis de Licenciatura, Universidad Autónoma del Estado de México, 2018. http://hdl.handle.net/20.500.11799/99589.

Full text
Abstract:
Hoy en día la información digital crece de manera exponencial. Por esto, cuando se realiza una investigación sobre un tema específico en un motor de búsqueda (Google Search, Yahoo! Search) nos genera demasiados resultados, por lo cual se complica revisar todos los documentos recuperados que contengan las palabras de la consulta. Uno de los recursos más eficientes utilizados por los usuarios para condensar el volumen de información es el uso de resúmenes. Un resumen es un texto corto producido a partir de uno o más documentos, clasificado en abstractivo o extractivo. El resumen extractivo se crea a partir de la selección de oraciones sobresalientes del texto original, por otro lado, el resumen abstractivo consiste en interpretar el texto en menos palabras. Además, existen dos tareas en la generación de un resumen: a partir de un solo documento o a partir de múltiples documentos. El resumen generado de un solo documento consiste en generar un texto corto, mientras que el resumen generado por múltiples documentos consiste en generar un texto corto con los elementos relevantes de éstos. En este trabajo de tesis se utiliza el resumen de tipo extractivo y con la tarea de un solo documento. Se han elaborado diversos trabajos que determinan el desempeño de las herramientas comerciales y métodos del estado del arte para la generación automática de resúmenes en el idioma inglés, español, portugués y ruso; utilizando conjuntos de documentos como entrada llamados corpus, los cuales son orientados al dominio de noticias. Sin embargo, en el caso del idioma ruso no se han utilizado diversos métodos del estado del arte. En este trabajo de tesis se determina el desempeño de los métodos del estado del arte para la generación automática de resúmenes extractivos de un solo documento utilizando el corpus TEXTRUSS, por medio de la herramienta de evaluación ROUGE (Lin, 2004), utilizando la medida F-measure como indicador de evaluación. Se realizaron experimentos con diferentes configuraciones de parámetros de los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso. Además, se comparan los resultados de los métodos del estado del arte para determinar su desempeño.
APA, Harvard, Vancouver, ISO, and other styles
50

Rodríguez, Inés Patricia. "Uso de corpus electrónicos en la formación de traductores (inglés-español-inglés)." Doctoral thesis, Universitat Autònoma de Barcelona, 2008. http://hdl.handle.net/10803/286111.

Full text
Abstract:
L'objectiu general d'aquesta tesi doctoral és integrar l'ús de corpus electrònics en l'ensenyament de la traducció. Per a arribar a aquest ens plantegem els següents objectius específics: 1) Elaborar el marc conceptual de la lingüística de corpus i els seus camps d'aplicació. 2) Elaborar el marc conceptual de la didàctica de la traducció apropiat per a integrar la metodologia de la lingüística de corpus. 3) Dissenyar una proposta d'ús de corpus electrònics en l'ensenyament de la traducció. 4) Avaluar la proposta dissenyada d'ús de corpus electrònics en l'ensenyament de la traducció. La tesi està organitzada en tres parts: La Part I està dedicada a la lingüística de corpus en general i la seva aplicació a la traducció. La Part II inclou el marc conceptual de la didàctica de la traducció per justificar la posterior integració de la metodologia de la lingüística de corpus en la formació per competències. El més destacable aquí és el Capítol 6, en què es presenta el marc de la proposta que es realitza en aquesta tesi. Se situa la competència "ús de corpus per a traduir" dintre de la competència traductora; es desglossen els objectius d'aprenentatge, així com s'expliciten els objectius relacionats amb competències genèriques i amb matèries de traducció, es desenvolupen els blocs de continguts inclosos en la proposta i el marc metodològic en que aquesta s'inscriu; es comenten les matèries de traducció en les quals s'aplica l'ús de corpus; es justifiquen la selecció i ubicació de les unitats didàctiques dissenyades; s'expliquen els criteris per a l'elaboració d'aquestes unitats i es posa en relleu la varietat de les mateixes. També es tracta la qüestió de l'avaluació dintre de la proposta, s'exposen les eines creades per a aquesta fi i s’ofereixen exemples reals de la seva posada en pràctica. La Part III mostra l'aplicació concreta de la proposta d'unitats didàctiques, és a dir, totes les unitats dissenyades, completes i provades a l'aula. Hi ha unitats de traducció directa i inversa, general i especialitzada.
El objetivo general de esta tesis es integrar el uso de corpus electrónicos en la enseñanza de la traducción. Para llegar a éste nos planteamos los siguientes objetivos específicos: 1) Elaborar el marco conceptual de la lingüística de corpus y sus campos de aplicación. 2) Elaborar el marco conceptual de la didáctica de la traducción apropiado para integrar la metodología de la lingüística de corpus. 3) Diseñar una propuesta de uso de corpus electrónicos en la enseñanza de la traducción. 4) Evaluar la propuesta diseñada de uso de corpus electrónicos en la enseñanza de la traducción. La tesis está organizada en tres partes: La Parte I está dedicada a la lingüística de corpus en general y su aplicación a la traducción. La Parte II recoge el marco conceptual de la didáctica de la traducción para justificar la posterior integración de la metodología de la lingüística de corpus en la formación por competencias. Lo más destacable aquí es el Capítulo 6, en el que se presenta el marco de la propuesta que se realiza en esta tesis. Se ubica la competencia "uso de corpus para traducir" dentro de la competencia traductora; se desglosan los objetivos de aprendizaje, así como se explicitan los objetivos relacionados con competencias genéricas y con materias de traducción, se desarrollan los bloques de contenidos incluidos en la propuesta y el marco metodológico en que ésta se inscribe; se comentan las materias de traducción en las que se aplica el uso de corpus; se justifican la selección y ubicación de las unidades didácticas diseñadas; se explican los criterios para la elaboración de dichas unidades y se pone de relieve la variedad de las mismas. También se trata la cuestión de la evaluación dentro de la propuesta, se exponen las herramientas creadas para este fin y se ofrecen ejemplos reales de su puesta en práctica. La Parte III muestra la aplicación concreta de la propuesta de unidades didácticas, es decir, todas las unidades diseñadas, completas y probadas en el aula. Hay unidades de traducción directa e inversa, general y especializada.
The general goal of this thesis is the incorporation of the use of electronic corpora into translation training. To that end, I set out to fulfil the following specific goals: 1) Establishing a theoretical framework of corpus linguistics and its fields of application. 2) Establishing a theoretical framework of translator training with a view to incorporating corpus linguistics methodology into such training. 3) Designing a proposal for the use of electronic corpora in translator training. 4) Assessing the said proposal. The thesis is organised into three parts: Part I focuses on corpus linguistics in general and its application to translation. Part II deals with the theoretical framework of translator training to explain the reasoning behind my aim of integrating corpus linguistics methodology into competence-based training. The most noteworthy section is Chapter 6, in which I set out the methodological framework corresponding to the proposal I put forward in the thesis. Firstly, I identify the competence of "using corpora to translate" as a sub-competence of translation competence. I then provide a breakdown of the learning goals involved and specify the goals related to generic competences and translation subjects, before developing the proposal's methodological framework and the units of content included in the proposal. Following some observations on the translation subjects in which I use corpora, I explain the thinking behind the selection and order of the teaching units I have designed and the criteria applied to their production, emphasising their varied nature. I also cover the matter of assessment within the proposal, present the tools created for that purpose and give real examples of the proposal's implementation. Part III features all the teaching units designed as part of the proposal, in full. Each unit has been piloted in the classroom. There are units on specialised and general translation into and out of the mother tongue.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography