Log in

Relevant bibliographies by topics / Llenguatge natural

Contents

Journal articles
Dissertations / Theses
Books

Academic literature on the topic 'Llenguatge natural'

Author: Grafiati

Published: 4 June 2021

Last updated: 1 February 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Llenguatge natural.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Llenguatge natural"

1

Martí Antonín, M. Antònia, Montserrat Civit Torruella, and Mariona Taulé Delor. "Tecnologies de la llengua i les seves aplicacions." Revista Galega de Filoloxía 5 (May 17, 2004): 107–39. http://dx.doi.org/10.17979/rgf.2004.5.0.5333.

Full text

Abstract:

La investigació en lingüística computacional i processament del llenguatge natural ha donat lloc els darrers anys a les anomenades tecnologies del llenguatge, que tenen com a principal objectiu el desenvolupament de sistemes informàtics capaços de reconèixer, comprendre i generar el llenguatge humà en totes les seves formes. Amb aquest objectiu, s’han desenvolupat una sèrie d’aplicacions, com ara la traducció automàtica, l’extracció i recuperació d’informació, la classificació de documents, etc., que processen la informació per facilitar l’accés, l’organització i la transmissió del coneixement generat per l’anomenada Societat de la Informació. que vivim. Com en altres disciplines científiques, a l’àrea de Lingüística Computacional i Processament del Llenguatge Natural ha passat d’una etapa inicial centrada en la investigació experimental bàsica a una en què interactua més amb la societat i, per tant, està més interessada en crear productes i aplicacions que resolguin problemes reals. Això significa desenvolupar sistemes i recursos capaços d’analitzar el llenguatge sense restriccions, és a dir, oferir una àmplia cobertura lingüística. Aquest article presenta els recursos i aplicacions (lingüístics) més característics que s'estan desenvolupant actualment en el marc de les tecnologies del llenguatge. En concret, destacarem dos recursos necessaris: analitzadors i desambiguadors morfològics i sintàctics, lèxics computacionals i corpus lingüístics, és a dir, els etiquetats. Pel que fa a les aplicacions, ens centrarem bàsicament en la recuperació i extracció d’informació i la traducció automàtica.

APA, Harvard, Vancouver, ISO, and other styles

2

Florenza Satorres, Patrícia. "Actors, mims i altres pallassades. 3, 2, 1, acció!" Comunicació educativa, no. 30 (March 24, 2020): 61. http://dx.doi.org/10.17345/comeduc201761-76.

Full text

Abstract:

Des de fa uns anys, a l’Escola Guillem Fortuny de Cambrils duem a terme una experiència expressiva, vivencial i creativa en què, mitjançant l’experimentació dels diferents recursos expressius i el treball del llenguatge corporal, els alumnes fan representacions amb mímica en grups cooperatius.L’expressió corporal potencia el desenvolupament natural de les expressions i manifestacions corporals de l’infant, amb la idea que sigui ell mateix i que el joc amb el cos li serveixi per conèixer-se i aprendre a comunicar-se sense contradiccions que l’inhibeixin.

APA, Harvard, Vancouver, ISO, and other styles

3

Meder, Theo. "The Technological Developments of the Dutch Folktale Database (1994–2016)." Estudis de Literatura Oral Popular / Studies in Oral Folk Literature, no. 5 (June 22, 2017): 45. http://dx.doi.org/10.17345/elop201645-69.

Full text

Abstract:

L’any 1994, la base de dades holandesa de contes populars va començar com una base de dades independent i es va posar en línia el 2004. Des de l’any 2016 i després de dos projectes importants, tots els tipus de metadades es poden afegir de manera automàtica i semisupervisada: idiomes, noms, paraules clau, resums, subgèneres, motius i tipus de contes. Amb aquesta finalitat, la base de dades va analitzar una nova plataforma anomenada Omeka que s’adapta a les necessitats de moltes bases de dades en les humanitats, i que pot gestionar tot tipus de connectors. S’han utilitzat les tècniques següents: n-grames, detecció del llenguatge, reconeixement d’entitats nombrades, extracció de paraules clau, resum, bossa de paraules, aprenentatge automàtic i processament de llenguatge natural. A més de MOMFER, també s’ha afegit un motor de cerca de motius. La interpretació de dades es facilita amb els nous mitjans de visualització: mapes geogràfics, línies de temps, una xarxa de contes similars i núvols de paraules. Com que la base de dades compleix els requisits de Dublin Core, es pot connectar a bases de dades similars o a un recol·lector de dades. Recentment, s’ha creat una aplicació de mineria de dades transatlàntica per construir un recol·lector anomenat ISEBEL: Intelligent Search Engine for Belief Legends (motor de cerca intel·ligent de llegendes de creences). El recol·lector ha de ser capaç de buscar en una base de dades holandesa, danesa i alemanya simultàniament. Més endavant s'hi poden afegir altres bases de dades.

APA, Harvard, Vancouver, ISO, and other styles

4

Julià, Pere. "Linguistic Theory and International Communication." Language Problems and Language Planning 13, no. 1 (1989): 9–23. http://dx.doi.org/10.1075/lplp.13.1.02jul.

Full text

Abstract:

RESUM Teoria linguistic i comunicació international La moderna conceptualització del llenguatge com una abstracció representa la cul-minació de la idea tradicional—més o menys clara—segons la qual una llengua és un sisterna de formes què és pot descriure sense fer referència explícita a parlants i oients. Cal recordar, tanmateix, què sense parlants i oients no hi hauria "sisternes abstractes" per a analitzar. El concepte de regla juga un paper central en el programa formalista. El resultat global és, però, la reificació de les categories lingüístiquès així relacionades i una idealització de l'objecte d'estudi què fa impossible l'examen realista de nocions tan basiquès com les de significat i fet verbal. L'alternativa naturalista comporta l'exigència de superar aquèsta fixació en les formes i d'apellar directament a les circumstàncies què donen lloc a l'activitat verbal. Resistir-s'hi condueix inévitablement a una série de culs de sac teôrics i d'inconsistències pràctiquès, p.e., quan ens preguntem què és natural i què és artificial en matèria de llenguatge, o quan jutgem la viabilitat d'una llengua neutral amb vista a la justa cooperació internacional. RESUMO Lingvistika teorio kaj internacia komunikado La moderna konceptako pri lingvo kiel abstraktajo kulminigas la malnovan, pli-malpli klaran ideon, laǔ kiu naturaj lingvoj estas sistemoj de formoj (nun t.n. formalaj sistemoj), supozeble analizeblaj preteratente al realaj geparolantoj kaj geaúdantoj. Tamen, sen ci-lastaj tute malhaveblus tiuj samaj analizendaj "abstraktaj" sistemoj. Reguloj ludas kernan rolon en la formala laborprogramo: netrezulte, la koncernaj konceptoj kaj kate-gorioj estimas aprioriaj memstarajoj, kiuj fakte blokas realecan taksadon de lingvaj faktoj kaj ties vera signifo. Naturalisma ekzameno rekomendas la duarangigon de formoj mem: por ekspliki ilin nepras la rekta enkalkulo de la konkretaj kondicoj sub kiuj efektiviĝas lingvokapablo. Rifuzition fari rezultatas je neeviteblaj teoriaj stratsakoj kaj praktikaj memkontraǔdiroj, ekz-e kiam oni prijuĝas naturecon kaj artefaritecon en lingvaj aferoj aǔ la vivipovon de neǔtrala lingvo por internacia kunlaboro.

APA, Harvard, Vancouver, ISO, and other styles

5

Iglesias i Estradé, Adolf Maria. "Relació entre l'anàlisi del sentiment, els resultats acadèmics i l'abandonament als entorns virtuals d'aprenentatge." Universitas Tarraconensis. Revista de Ciències de l'Educació 1, no. 1 (2019): 19. http://dx.doi.org/10.17345/ute.2019.1.2622.

Full text

Abstract:

Les relacions entre els agents educatius s'han desplaçat fins a posar l'alumne al centre del procés d'ensenyament-aprenentatge (E-A). En aquest sentit, els sentiments −l'anàlisi dels quals era, fins ara, molt lenta i qualitativa− han esdevingut sempre un mitjà d'expressió important durant aquest procés. El professor ha de ser capaç d'identificar el ritme i l'evolució del coneixement del seu alumne per a adaptar els continguts però també ha de poder identificar el seu estat emocional. Els avantatges que presenten els entorns virtuals d'aprenentatge (EVA) han permès la seva implantació en moltes institucions educatives. Això no obstant, els estudiants en aquests entorns se senten frustrats per la sensació d'aïllament fruit de la manca de relació pròxima amb altres persones. Aquest sentiment pot tenir conseqüències en forma d'abandonament o de baix rendiment. Els entorns virtuals, a més, eliminen molts dels factors que s'utilitzen per a copsar l'estat emocional de les persones. Moltes vegades, l'únic canal de transmissió és la paraula escrita. L'anàlisi del sentiment és una tècnica que es basa en l'aplicació de la intel·ligència artificial als textos en llenguatge natural per a classificar els textos segons les emocions expressades, molt utilitzada amb finalitats d'anàlisi de mercats però amb molt poc desenvolupament als EVA. En aquest treball es demostra que existeix una relació entre les emocions expressades per l'alumnat en els missatges escrits i la tassa d'abandonament dels estudis en un EVA. El resultat assolit ha de servir per a què els tutors puguin quantificar l'estat i l'evolució emocional del grup de forma automàtica per a poder intervenir-hi i afavorir la millora dels sentiments a l'aula amb la finalitat de reduir-ne l'abandonament.

APA, Harvard, Vancouver, ISO, and other styles

6

"El llenguatge com a sistema natural complex." Llengua, Societat i Comunicaci�, no. 9 (2013). http://dx.doi.org/10.1344/lsc-2013.11.6.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Llenguatge natural"

1

Martí, Antonin M. Antònia. "Processament informàtic del llenguatge natural: un sistema d'anàlisi morfològica per ordinador." Doctoral thesis, Universitat de Barcelona, 1988. http://hdl.handle.net/10803/1736.

Full text

Abstract:

L'objectiu d'aquesta tesi ha estat Ia construcció d'un analitzador morfològic automatitzat de la llengua catalana.

L'interès de l'anàlisi morfològica computacional recolza en el fet que en qualsevol de les aplicacions de la lingüística computacional cal un tractament del text en aquest sentit que redueixi el volum del diccionari i les tasques de manteniment, especialment quan es tracta de Ilengües altament flexives.

La finalitat de l'analitzador morfològic és la segmentación dels textos en unitats rellevants per al seu posterior tractament sintàctic o semàntic i l'associació d'informació a aquestes unitats.

L'analitzador que ens ocupa té una arquitectura modular i està basat en un autòmat d'estats finits omplint amb condicions. La modularitat del sistema garanteix la independència de les dades entre elles i de les dades respecte del procés.

La pertinència d'un autòmat per realitzar el procès d'anàlisi recolza en la seva adeqüació per al reconeixement dels mots en el sentit esquerra-dreta i en el fet que en els mots podem definir uns components, arrels, sufixos i elements flexius, que presenten un comportament distribucional i combinatori regular.

El disseny de l'analitzador consisteix en la definició de l'estratègia de segmentació dels mots, en l'agrupament dels segments resultants en models segons les seves característiques morfològiques i en la definición de regles que determinen lo combinatòria correcta dels mòduls. Les condicions de les regles permeten controlar la capacitat d'anàlisi.

Les arrels, els sufixos i els elements flexius es troben emmagatzemats en diccionaris específics. Cada un d'aquests elements duu associat un model i els atributs morfològics corresponents.

Els models representen un nivell superior d'organització del material lingüístic que permet representar el comportament homogeni en la flexió i en la derivació: totes Ies arrels amb un mateix comportament flexiu estan agrupades en un únic model i els sufixos i els elements de flexió que combinen amb un mateix model d'arrels es troben igualment agrupats en un únic model. L'autòmat concatena models, de manera que les combinacions de les arrels amb els sufixos flexius i derivatius no s'han d'especificar individualment sinò al model al qual pertanyen.

La informació morfològica es pot assignar als models i/o als elements dels diccionaris, segons es vulgui generalitzar o particularitzar.

L'estructura de l'autòmat ha estat definida tenint en compte tant les característiques de la llengua com la funcionalitat del disseny. L'esquema de l'analitzador es fonamenta en la definició dels estats. Així, s'han definit tres estats reconeixedors d'arrels verbals, corresponents o la primera, segona i tercera conjugació, i un estat reconeixedor de les arrels nominals i adjectives. D'aquests estats surten els models corresponents a la flexió com els models de sufixos derivatius. De l'estat que reconeix els sufixos derivatius surten també els models de la flexió.

Es tracta d'un disseny general, en el sentit que s'ha realitzat sense tenir en compte cap aplicació en concret. Aquest fet ha permès definir criteris metodològics de validesa general així com avaluar les diferents opcions en Ia segmentació de les formes, en la definició de models i en la construcción de l'autòmat. Com a resultat d'aquesta investigación actualment es disposa d'un analitzador de la llengua catalana que, per cada mot, dóna la seva categoria morfològica, les subcategories associades i l'arrel a partir de la qual s'ha analitzat.

L'analitzador permet l'anàlisi de qualsevol forma de la llengua catalana sempre que correspongui a un dels models de flexió definits. L'anàlisi d'una nova forma només requereix donar d'alta Ia seva arrel aI diccionari i assignar-li el model de flexió que li correspon. Les formes derivades es resolen habitualment amb atributs a l'arrel, encara que alguns derivats, pel seu elevat rendiment, es validen aIs models i per tant es generalitzen per a totes les seves entrades.

Les aportacions d'aquest analitzador respecte d'altres sistemes d'anàlisi morfològica automatitzada són: a) La possibilitat de resoldre tant les formes flexives com les derivades, fet que permet reduir en gran manera el volum de les dades enmagatzemades als diccionaris; b) La doble possibilitat d'anàlisi i generació. A més d'analitzar els textos, el sistema permet generar totes les formes flexives i derivades a partir d'una determinada arrel; c) La possibilitat de definir metaregles que permeten l'anàlisi de seqüències de sufixos o bé de grups de sufixos; d) La capacitat d'associar informació lèxica i morfològica a les unitats de l'anàlisi; i e) La simultaneïtat del procés d'anàlisi i de filtratge dels resultats.

Resten obertes línies d'investigació que en el present estudi han quedat només esbossades. En primer lloc, seria interessant fer més exhaustiu l'ús de metarregles, fet que requereix un estudi acurat de les seqüències així com de Ia comparació de sufixos. Segonament, seria interessant definir amb detall quin tipus d' información lèxica es pot associar als mots, en general o per a una determinada aplicació. Finalment caldria tractar la resolució de les formes compostes dels verbs i del perfet perifràstic.

L'analitzador està escrit en FORTRAN i està implementat en un VAX-750.
The aim of this research has been the design and implementation of an automatic morphological analyzer of Catalan. The morphological analysis by computers is necessary in most applications of Computational Linguistics, especially when they deal with very non-flexive languages like Catalan, Spanish, French, Italian, etc.

The purpose of this analyzer is segmentation of texts in units that can be useful in a further syntactic or semantic processing and morphological and logical information attachment.

Modularity, both in data structures and programs, is one of its more important features. The analyzer is based on a finite states automaton augmented by conditions. The design of that analyzer requires deciding a strategy to segment the words, the definition of patterns of morphological behaviour, the attachment of a pattern to each segment and the definition of rules that determines the correct combinations of these patterns.

The contributions of this morphological analyzer in front of other systems are: a) The treatment of derivation and inflexion that permits to reduce in a very important way the size of the dictionaries; b) The system allows both analysis and generation; c) The possibility to define meta-rules that make possible the analysis of sequences and groups of suffixes; d) The ability to put together morphological and lexical information.

As a result of this research, now we have available a morphological analyzer or Catalan that gives, in the analysis of each word, its morphological category, its associated subcategories and its root.

The system has been written in FORTRAN and is implemented in a VAX-750.

APA, Harvard, Vancouver, ISO, and other styles

2

Gatius, Marta. "Using an ontology for guiding natural language interaction with knowledge based systems." Doctoral thesis, Universitat Politècnica de Catalunya, 2001. http://hdl.handle.net/10803/6635.

Full text

Abstract:

Des dels anys 80, els sistemes basats en el coneixement, programes que utilitzen una gran quantitat de informació per modelar situacions i resoldre problemes, han adquirit gran importància en el camp industrial, financer i científic. La complexitat d'aquests sistemes fa que el seu ús presenti més dificultats que altres aplicacions informàtiques. La comunicació entre els sistemes basats en el coneixement i l'usuari presenta, doncs, nous reptes. Tot i que el llenguate natural es especialment apropiat per comunicar-se amb aquests sistemes, són pocs els que incorporen interfícies en llenguatge natural. Els motius principals són els problemes d'eficiència que presenta el processament del llenguatge natural i l'elevat cost de desenvolupar les bases de coneixement (conceptual i lingüístic) necessàries per a cada aplicació.
L'objectiu d'aquesta tesi és millorar la comunicació en llenguatge natural amb els sistemes basats en el coneixement. Aquesta recerca s'ha centrat en el disseny d'una representació reutilitzable dels diferents tipus de coneixement involucrats en aquesta comunicació, que permetir de generar de forma automàtica la interfície més adequada per a cada aplicació. S'ha desenvolupat un sistema, GISE (Generador de Interfaces a Sistemas Expertos), que genera interfícies en llenguatge natural per diferents tipus d'aplicacions. Aquest sistema adapta automàticament les bases de coneixement lingüístic generals als requeriments d'una aplicació concreta, obtenint la gramàtica més apropiada.
El disseny del sistema està basat en una representació reutilitzable i modular dels diferents tipus de coneixement necessaris en la comunicació en llenguatge natural. Aquesta informació consisteix en els conceptes de l'aplicació, les tasques de comunicació, el coneixement lingüístic i les relacions generals entre el coneixement conceptual i la seva realització lingüística. Tres bases de coneixement s'han dissenyat per representar aquesta informació: la ontologia conceptual, la ontologia lingüística i un conjunt de relges de producció.
El coneixement conceptual s'ha representat en la ontologia conceptual. Aquest coneixement inclou aspectes sobre el domini i la funcionalitat. Tota la informació necessària per modelar l'aplicació i tots els possibles actes de comunicació estan representats en la ontologia conceptual. La complexitat dels sistemes basats en el coneixement fa necessària una representació formal i explícita de la seva funcionalitat i domini.
El coneixement lingüístic general necessari per expressar en llenguatge natural les possibles tasques del sistema es representen en la ontologia lingüística.
La informació que permet relacionar el coneixement lingüístic general a una aplicació concreta per tal d'obtenir la gramàtica més adequada es representada mitjançant un conjunt de regles de producció.
L'organització modular dels diferents tipus de coneixement que intervenen en la comunicació facilita l'adaptació del sistema a diferents tipus d'aplicacions i usuaris.
Les gramàtiques generades pel sistema GISE utilitzen un llenguatge alhora ric i precís, adaptat a l'aplicació. La interfície del sistema incorpora un sistema de finestres que guia a l'usuari a introduir les opcions en llenguatge natural que el sistema reconeix.
GISE s'ha aplicat a diferents sistemes: a SIREDOJ, un sistema expert en lleis i a un sistema que dóna informació sobre trens.
Since the 1980's, knowledge based systems (KBSs), programs that use knowledge to model situations and solve problems, have spread throughout industry, finance and science. Human communication with these systems deals with complex concepts and relationships that are not present in other software applications. Allthough the natural language (NL) is especially appropriate for expressing these concepts, there are not many KBSs incorporating NL interfaces. The main reasons for this are problems of efficiency in NLI performance, lack of adequacy to the communication needs of the applications and the high cost of developing and maintaining them.
The aim of this thesis is to study how the communication process and engineering features can be improved in NL interaction with KBSs. This study has been focused on the efficient and reusable representation of the knowledge involved in NL communication with KBSs. GISE (Generador de Interfaces a Sistemas Expertos), a system supporting NL communication with KBSs has been developed. This system adapts the general linguistic resources to application requirements in order to automatically obtain application-restricted grammars.
The main issue of the system design is a separate and reusable representation of all types of knowledge involved in communication with KBSs. This knowledge consists of the application knowledge appearing in the communication, the tasks of communication, the linguistic knowledge supporting their expression and the general relationships between conceptual knowledge and its linguistic realization. Three general bases were designed to represent all this knowledge : the Conceptual Ontology (CO), the Linguistic Ontology (LO) and a set of control rules.
Conceptual knowledge is represented in the CO. This conceptual knowledge includes domain and functionality issues. All knowledge required to model the applications as well as the description of all possible communication acts is provided in the CO. The CO is the skeleton for anchoring the domain and the functionality of the applications. The complexity of KBS performance makes a formal and explicit representation of their domain and functionality necessary.
The general linguistic knowledge needed to cover the expression in NL of the tasks the system performs is represented by means of the LO and a set containing all possible realizations of the application terms. The LO is domain and application independent.
The control information to relate the general linguistic knowledge to conceptual application knowledge in order to generate the application-restricted grammars is represented by a set of production rules.
The modular organization of the relevant knowledge into separate data structures provides great flexibility for adapting the system to different types of applications and users.
The grammars generated by GISE use expressive and precise language tuned to the application and adapted to the evolution of the communicative process. A menu-system to guide the user in introducing the NL is integrated into the GISE interface.
GISE has been applied to a couple of applications: SIREDOJ, an ES in law and a railway communication system.

APA, Harvard, Vancouver, ISO, and other styles

3

Quixal, Martínez Martí. "Language learning tasks ans automatic analysis of learner language : connecting FLTL and NPL in the design of ICALL materials supporting effective use in real-life instruction." Doctoral thesis, Universitat Pompeu Fabra, 2012. http://hdl.handle.net/10803/104481.

Full text

Abstract:

Esta investigación se encuentra en la encrucijada entre el Procesamiento del Lenguaje Natural y el Aprendizaje y Enseñanza de Lenguas Extranjeras y, en concreto, dentro del área denominada Aprendizaje de Lenguas Asistido por Ordenador con Inteliencia Artificial (en inglés, Intelligent Computer-Assisted Language Learning, abreviado ICALL). Nuestra investigación se centra en el diseño, la implemenación en entornos reales de materiales de ICALL para proveer a los estudiantes de lenguas extranjeras, y especialmente de inglés, de materiales que incorporen funcionalidades de corrección y evaluación automáticas de las respuestas. En esta tesis defendemos que, para que la integración de materiales de ICALL sea exitosa, hay que tener en cuenta por igual los requisitos pedagógicos y los computacionales ya en la fase de diseño de los materiales. Nuestros objetivos principales son dos. Por un lado, queremos integrar en el proceso de diseño de materiales tanto los principios fundamentales de la Adquisición de Segundas Lenguas y el Aprendizaje y Enseñanza de Lenguas Extranjeras como los principios fundamentales del modelado lingüístico. Por otro lado, queremos facilitar la integración o de los materiales de ICALL en contextos de instrucción reales, en contraste con los contextos de instrucción de investigación o de laboratorio, para capacitar a los docentes con la metodología y la tecnología necesarias para que puedan crear materiales de ICALL autónomamente. Para conseguir el primer objetivo, proponemos un proceso de diseño de materiales de ICALL que combina los principios básicos de la Enseñanza de Lenguas basado en Tareas y el Diseño de Tests basado en Tareas con el tipo de especificaciones requeridas por las herramientas de Procesamiento del Lenguaje Natural. Exploramos la relación entre los requisitos pedagógicos y computacionales desde tres puntos de vista: (i) las características formales de las actividades para el aprendizaje de lenguas extranjeras, (ii) la complejidad y la variabilidad de la lengua de los estudiantes, y (iii) la viabilidad de aplicar técnicas computacionales para el análisis y evaluación automáticas de las respuestas. Para lograr el segundo objetivo, proponemos una estrategia de evaluación automática que permite a los y las docentes adaptar los recursos lingüísticos computacionales necesarios para corregir automáticamente las actividades de ICALL sin la necesidad de aprender a programar. Para probar la viabilidad de la propuesta presentamos un experimento en que la aplicamos y la evaluamos en entornos de aprendizaje reales con docentes y aprendices de educación secundaria. Con esta tesis hacemos una contribuciones metodológicas y empíricas en el campo del ICALL, con una aproximación innovadora en el diseño de materiales que pone énfasis en la naturaleza multidisciplinar e iterativa del proceso. Los resultados que presentamos revelan el potencial de la caracteritzación de tareas de aprendizaje conjugando la perspectiva el Aprendizaje y Enseñanza de Lenguas Extranjeras y la de la Lingüística Computacional como un instrumento clave para describir formalmente las actividades de aprendizaje. Esta caracteritzación permite identificar los materiales de ICALL que sean a la vez pedagógicamente relevantes y computacionalmente viables. Los resultados demuestran que con la estrategia propuesta los y las docentes pueden caracterizar, crear y utilizar materiales de ICALL dentro de su programa de instrucción, y que el software computacional subyacente proporciona el procesamiento automático requerido con una calidad aceptable para el uso en contextos de instrucción reales. El software y la metodología propuestos resultan cruciales para la investigación y la práctica del ICALL: los docentes son capaces de diseñar actividades para los estudiantes sin depender de un experto en Procesamiento del Lenguaje Natural. Finalmente, los resultados también demuestran que los y las docentes valoran la experimentación muy positivamente en la medida en que les permite integrar nuevas tecnologías en el aula, al tiempo les permite comprender mejor la naturaleza de su tarea docente. Adem'as, los resultados demuestran que los estudiantes se sienten motivados por el hecho de poder utilizar una tecnología que permite una evaluación inmediata y personalizada de su actividad de aprendizaje.

APA, Harvard, Vancouver, ISO, and other styles

4

Màrquez, Lluís. "Part-of-speech Tagging: A Machine Learning Approach based on Decision Trees." Doctoral thesis, Universitat Politècnica de Catalunya, 1999. http://hdl.handle.net/10803/6663.

Full text

Abstract:

The study and application of general Machine Learning (ML) algorithms to theclassical ambiguity problems in the area of Natural Language Processing (NLP) isa currently very active area of research. This trend is sometimes called NaturalLanguage Learning. Within this framework, the present work explores the applicationof a concrete machine-learning technique, namely decision-tree induction, toa very basic NLP problem, namely part-of-speech disambiguation (POS tagging).Its main contributions fall in the NLP field, while topics appearing are addressedfrom the artificial intelligence perspective, rather from a linguistic point of view.A relevant property of the system we propose is the clear separation betweenthe acquisition of the language model and its application within a concrete disambiguationalgorithm, with the aim of constructing two components which are asindependent as possible. Such an approach has many advantages. For instance, thelanguage models obtained can be easily adapted into previously existing taggingformalisms; the two modules can be improved and extended separately; etc.As a first step, we have experimentally proven that decision trees (DT) providea flexible (by allowing a rich feature representation), efficient and compact wayfor acquiring, representing and accessing the information about POS ambiguities.In addition to that, DTs provide proper estimations of conditional probabilities fortags and words in their particular contexts. Additional machine learning techniques,based on the combination of classifiers, have been applied to address some particularweaknesses of our tree-based approach, and to further improve the accuracy in themost difficult cases.As a second step, the acquired models have been used to construct simple,accurate and effective taggers, based on diiferent paradigms. In particular, wepresent three different taggers that include the tree-based models: RTT, STT, andRELAX, which have shown different properties regarding speed, flexibility, accuracy,etc. The idea is that the particular user needs and environment will define whichis the most appropriate tagger in each situation. Although we have observed slightdifferences, the accuracy results for the three taggers, tested on the WSJ test benchcorpus, are uniformly very high, and, if not better, they are at least as good asthose of a number of current taggers based on automatic acquisition (a qualitativecomparison with the most relevant current work is also reported.Additionally, our approach has been adapted to annotate a general Spanishcorpus, with the particular limitation of learning from small training sets. A newtechnique, based on tagger combination and bootstrapping, has been proposed toaddress this problem and to improve accuracy. Experimental results showed thatvery high accuracy is possible for Spanish tagging, with a relatively low manualeffort. Additionally, the success in this real application has confirmed the validity of our approach, and the validity of the previously presented portability argumentin favour of automatically acquired taggers.

APA, Harvard, Vancouver, ISO, and other styles

5

Pahisa, Solé Joan. "From telegraphic to natural language: an expansion system in a pictogrambased AAC application." Doctoral thesis, Universitat Autònoma de Barcelona, 2017. http://hdl.handle.net/10803/461189.

Full text

Abstract:

En aquesta tesi doctoral, presentem un sistema de compansió que transforma el llenguatge telegràfic (frases formades per paraules de contingut no flexionades), derivat de la comunicació augmentativa i alternativa (CAA) basada en pictogrames, a llenguatge natural en català i en castellà. El sistema ha sigut dissenyat per millorar la comunicació de persones usuàries de CAA que habitualment tenen greus problemes a la parla, així com problemes motrius, i que utilitzen mètodes de comunicació basats en pictogrames en el seu dia a dia. El sistema de compansió té dos components principals: un analitzador de dependències sintàctico-semàntic i un generador que construeix la frase final. Aquest sistema s'ha avaluat mitjançant proves tècniques i els resultats mostren que el 99,66% de les frases generades, dins d'una gramàtica restringida, van ser considerades correctes per tres anotadors independents. Paral·lelament, també s'ha investigat i implementat una interfície d'usuari amb un sistema de predicció de pictogrames per tal de poder provar el sistema de compansió amb usuaris finals. El sistema en conjunt s'ha provat amb quatre participants amb paràlisi cerebral severa i diversos graus de competència lingüística i de discapacitat intel·lectual. Durant els tests, els participants van adquirir noves capacitats lingüístiques mentre utilitzaven el sistema de compansió que va mostrar-se com una font de motivació. El sistema es va adaptar a les competències lingüístiques de cadascú i no va requerir cap corba d'aprenentatge quan no s'utilitzava cap de les seves característiques especials. Finalment, els resultats qualitatius i quantitatius mostren un increment mitjà de la ràtio de comunicació del 41,59% si es compara amb el mateix dispositiu de comunicació sense el sistema de compansió i una millora global en l'experiència comunicativa quan el resultat final és en llenguatge natural.
En esta tesis doctoral, presentamos un sistema de compansión que transforma el lenguaje telegráfico (frases formadas por palabras de contenido no flexionadas), derivado de la comunicación aumentativa y alternativa (CAA) basada en pictogramas, a lenguaje natural en catalán y en castellano. El sistema ha sido diseñado para mejorar la comunicación de personas usuarias de CAA que habitualmente tienen graves problemas en el habla, así como problemas motrices, y que utilizan métodos de comunicación basados en pictogramas en su vida diaria. El sistema de compansión tiene dos componentes principales: un analizador de dependencias sintáctico-semántico y un generador que construye la frase final. Este sistema se ha evaluado mediante pruebas técnicas y los resultados muestran que el 99,66% de las frases generadas, dentro de una gramática restringida, fueron consideradas correctas por tres anotadores independientes. Paralelamente, también se ha investigado e implementado una interfaz de usuario con un sistema de predicción de pictogramas para poder probar el sistema de compansión con usuarios finales. El sistema en conjunto se ha probado con cuatro participantes con parálisis cerebral severa y diferentes grados de competencia lingüística y de discapacidad intelectual. Durante los tests, los participantes adquirieron nuevas capacidades lingüísticas mientras utilizaban el sistema de compansión que se mostró como una fuente de motivación. El sistema se adaptó a las competencias lingüísticas de cada uno y no requirió ninguna curva de aprendizaje cuando no se utilizó ninguna de sus características especiales. Finalmente, los resultados cualitativos y cuantitativos muestran un incremento medio de la ratio de comunicación del 41,59% si se compara con el mismo dispositivo de comunicación sin el sistema de compansión y una mejora global en la experiencia comunicativa cuando el resultado final es en lenguaje natural.
In this doctoral dissertation, we present a compansion system that transforms the telegraphic language (utterances with only uninflected content words) that comes from the use of pictogram-based Augmentative and Alternative Communication (AAC) into natural language in Catalan and Spanish. The system has been designed to improve the communication of people who rely on AAC, who usually have severe speech or motor impairments and use pictogram-based communication methods in their daily life. The compansion system has two main components: a syntactic-semantic dependency parser and a generator that constructs the final sentence. The system has been technically evaluated and results show that 99,66% of the sentences generated by it, taking into account the restrictions of a constrained grammar, were considered correct by three independent annotators. Furthermore, a user interface with a pictogram prediction system has also been researched and implemented during the thesis in order to test it with end-users. The system as a whole was tested with 4 participants with severe cerebral palsy and ranging degrees of linguistic competence and intellectual disabilities. During tests, participants were able to learn new linguistic skills while using the compansion system, which proved a source of motivation. The system can also be adapted to the linguistic competence of each person and required no learning curve during tests when none of its special features were used. Finally, qualitative and quantitative results showed a mean communication rate increase of 41,59%, compared to the same communication device without the compansion system, and an overall improvement in the communication experience when the output is in natural language.

APA, Harvard, Vancouver, ISO, and other styles

6

Marimon, Felipe Montserrat. "On distributing the analysis process of a broad-coverage unification-based grammar of spanish." Doctoral thesis, Universitat Politècnica de Catalunya, 2003. http://hdl.handle.net/10803/5930.

Full text

Abstract:

This thesis describes research into the development and deployment of engineered large-scale unification-based grammar to provide more robust and efficient deep grammatical analysis of linguistic expressions in real-world applications, while maintaining the accuracy of the grammar (i.e. percentage of input sentences that receive the correct analysis) and keeping its precision up to a reasonable level (i.e. percentage of input sentences that received no superfluous analysis).

In tacking the efficiency problem, our approach has been to prune the search space of the parser by integrating shallow and deep processing. We propose and implement a NLP system which integrates a Part-of-Speech (PoS) tagger and chunker as a pre-processing module of broad-coverage nification-based grammar of Spanish. This allows us to release the arser from certain tasks that may be efficiently and reliably dealt with by these computationally less expensive processing techniques. On the one hand, by integrating the morpho-syntactic information delivered by the PoS tagger, we reduce the number of morpho-syntactic ambiguities of the linguistic expression to be analyzed. On the other hand, by integrating chunk mark-ups delivered by the partial parser, we do notonly avoid generating irrelevant constituents which are not to contribute to the final parse tree, but we also provide part of the structure that the analysis component has to compute, thus, avoiding a duplication of efforts.

In addition, we want our system to be able to maintain the accuracy of the high-level grammar. In the integrated architecture we propose, we keep the ambiguities which can not be reliably solved by the PoS tagger to be dealt with by the linguistic components of the grammar performing deep analysis.

Besides improving the efficiency of the overall analysis process and maintaining the accuracy of the grammar, our system provides both structural and lexical robustness to the high-level processing. Structural robustness is obtained by integrating into the linguistic components of the high-level grammar the structures which have already been parsed by the chunker such that they do not need to be re-built by phrase structure rules. This allows us to extend the coverage of the grammar to deal with very low frequent constructions whose treatment would increase drastically the parsing search space and would create spurious ambiguity. To provide lexical robustness to the system, we have implemented default lexical entries. Default lexical entries are lexical entry templates that are activated when the system can not find a particular lexical entry to apply. Here, the integration of the tagger, which supplies the PoS information to the linguistic processing modules of our system, allows us to increase robustness while avoiding increase in morphological ambiguity. Better precision is achieved by extending the PoS tags of our external lexicon so that they include syntactic information, for instance subcategorization information.

APA, Harvard, Vancouver, ISO, and other styles

7

Benavent, i. Portabella Francesc. "L'aprenentatge automàtic incremental i la seva aplicació al PLN inter-actiu." Doctoral thesis, Universitat Pompeu Fabra, 2013. http://hdl.handle.net/10803/131080.

Full text

Abstract:

En aquest treball es proposa utilitzar tècniques d’Aprenentatge Automàtic Incremental, també conegut com Aprenentatge On-line, per resoldre tasques de Processament de Llenguatge Natural de manera més eficient. També s’estudia la viabilitat tècnica de la seva aplicació en el desenvolupament d’entorns Inter-Actius d’anotació lingüística. El document està estructurat en tres parts: la justificació conceptual de la proposta, la viabilitat tècnica a partir de l’estat de la qüestió i les proves experimentals per obtenir dades quantitatives sobre l’eficiència assolida. La primera part descriu la situació actual, basada en el paradigma d’aprenentatge batch, en qüestiona el consens existent i exposa les seves limitacions: econòmiques, tècniques i metodològiques. A continuació, presenta el paradigma incremental i planteja la manera en què una arquitectura Inter-Activa, basada en l’aprenentatge actiu i els algorismes incrementals, podria minimitzar el coll d’ampolla associat a l’anotació manual del corpus. La segona part presenta l’estat de la qüestió de l’Aprenentatge Automàtic Incremental: els algorismes d’inducció de models, les arquitectures de combinació de classificadors i les tècniques auxiliars d’optimització i avaluació. La tercera part del treball descriu la metodologia utilitzada en una sèrie de proves experimentals, amb quatre tasques de PLN, amb l’objectiu de quantificar la qualitat dels models induïts i l’eficiència dels entrenaments. Presenta els resultats de més d’un centenar d’experiments, analitza i justifica les corbes d’avaluació obtingudes i compara els entrenaments en termes de precisió i eficiència assolida. Els resultats dels experiments validen la hipòtesi principal del treball, que defensa que mitjançant l’entrenament Inter-Actiu és possible obtenir models classificadors tant o més precisos que amb l’entrenament estàndard, però utilitzant tan sols una fracció del corpus existent; concretament, i segons les proves realitzades, requerint entre 5 i 100 vegades menys exemples. Així mateix, també s’aprofundeix en l’anàlisi de les dades obtingudes durant els entrenaments basats en l’aprenentatge actiu, especialment en l’evolució dels graus de certesa de les seves classificacions i de la precisió d’aquestes estimacions. A partir d’aquestes dades es conclou que la selecció d’exemples basada en un llindar de certesa constant és massa sensible al valor triat, i es suggereix investigar algorismes d’entrenament actiu basats en llindars de certesa dinàmics.
In this work we propose the use of Incremental Machine Learning, also known as On-Line Learning, to solve Natural Language Processing tasks in a more efficient way. We also study the technical feasibility of its application to the development of inter-active environments of linguistic annotation. The document is structured in three parts: the conceptual justification of the proposal, the technical feasibility by grounding it on state of the art techniques, and the experimental tests performed to obtain quantitative data about the efficiency achieved. The first part describes the current trends in NLP based on the batch learning paradigm, it questions the existent consensus and it exposes its limitations: economical, technical and methodological. Right after, it presents the incremental paradigm and it outlines how an Inter-Active architecture, based on active learning and incremental algorithms, could minimize the bottleneck related to the manual corpus annotation. The second part presents state of the art Incremental Machine Learning: the algorithms of model induction, the classifier combination architectures and the auxiliary techniques for optimization and evaluation. The third part of this work describes the methodology used in a set of experimental tests, on four NLP tasks, with the goal of quantifying the quality of the induced models and the training efficiency. It presents the results of more than a hundred experiments, and it analyzes and justifies its evaluation curves and compares the different trainings on the achieved precision and efficiency. The results of the experiments validate the main hypothesis of this work, which is that Inter-Active training makes it possible to obtain classifier models with as much or higher precision than with standard training, but using just a fraction of the existent corpus; in particular, and according to the results, reducing the number of training examples needed between 5 and 100 times. Additionally, it also goes into detail in the analysis of the data obtained during the training based on active learning, especially on the evolution of the confidence levels of its classifications and the precision of these estimations. From this data we conclude that the example selection based on a constant confidence threshold is too sensitive to the given value, and we propose to research active training algorithms based on dynamic confidence thresholds.
En este trabajo se propone utilizar técnicas de Aprendizaje Automático Incremental, también conocido como Aprendizaje On-Line, para resolver tareas de Procesamiento de Lenguaje Natural de manera más eficiente. También estudia la viabilidad técnica de su aplicación en el desarrollo de entornos Inter-Activos de anotación lingüística. El documento está estructurado en tres partes: la justificación conceptual de la propuesta, la viabilidad técnica a partir del estado de la cuestión y las pruebas experimentales para obtener datos cuantitativos sobre la eficiencia conseguida. La primera parte describe la situación actual, basada en el paradigma de aprendizaje batch, cuestiona el consenso existente y expone sus limitaciones: económicas, técnicas y metodológicas. A continuación, presenta el paradigma incremental y plantea la forma en que una arquitectura Inter-Activa, basada en el aprendizaje activo y los algoritmos incrementales, podría minimizar el cuello de botella asociado a la anotación manual de corpus. La segunda parte presenta el estado de la cuestión del Aprendizaje Automático Incremental: los algoritmos de inducción de modelos, las arquitecturas de combinación de clasificadores y las técnicas auxiliares de optimización y evaluación. La tercera parte del trabajo describe la metodología utilizada en una serie de pruebas experimentales, con cuatro tareas de PLN, con el objetivo de cuantificar la calidad de los modelos inducidos y la eficiencia de los entrenamientos. Presenta los resultados de más de un centenar de experimentos, analiza y justifica las curvas de evaluación obtenidas y compara los entrenamientos en términos de precisión y eficiencia alcanzada. Los resultados validan la hipótesis principal del trabajo, que defiende que mediante el entrenamiento Inter-Activo es posible obtener modelos clasificadores tan o más precisos que con el entrenamiento estándar, pero utilizando únicamente una fracción del corpus existente; concretamente, y según las pruebas realizadas, requiriendo entre 5 y 100 veces menos ejemplos. Así mismo, también profundiza en el análisis de los datos obtenidos durante los entrenamientos basados en el aprendizaje activo, especialmente en la evolución de los grados de certeza de sus clasificaciones y de la precisión de estas estimaciones. A partir de estos datos se concluye que la selección de ejemplos basada en un umbral de certeza es demasiado sensible al valor elegido, y se sugiere investigar algoritmos de entrenamiento basados en umbrales de certeza dinámicos.

APA, Harvard, Vancouver, ISO, and other styles

8

Edizel, Necati Bora. "Word embeddings with applications to web search and advertising." Doctoral thesis, Universitat Pompeu Fabra, 2019. http://hdl.handle.net/10803/669622.

Full text

Abstract:

Word embeddings are a building block of many practical applications across NLP and related disciplines. In this thesis, we present theoretical analysis and algorithms to learn word embeddings. Moreover, we present applications of word embeddings that concern Web Search and Advertising. We start by presenting theoretical insights for one the most popular algorithm to learn word embeddings \textit{word2vec}. We also model \textit{word2vec} in Reinforcement Learning framework and showed that it's an off-policy learner with a fixed behavior policy. Then we present an off-policy learning algorithm $word2vec_{\pi}$ that uses \textit{word2vec} as a behavior policy. %With extensive experimentation, we show that the proposed method performs better than \textit{word2vec}. Then, we present a method to learn word embeddings that are resilient to misspellings. Existing word embeddings have limited applicability to malformed texts, which contain a non-negligible amount of out-of-vocabulary words. We propose a method combining FastText with subwords and a supervised task of learning misspelling patterns. In our method, misspellings of each word are embedded close to their correct variants. Lastly, we propose two novel approaches (one working at the character level and the other working at word level) that use deep convolutional neural networks for a central task in NLP, semantic matching. We experimentally showed the effectiveness of our approach using click-through rate prediction task for Sponsored Search.
Dins del món del Processament del Llenguatge Natural (NLP) i d’altres camps relacionats amb aquest àmbit, les representaciones latents de paraules (word embeddings) s'han convertit en una tecnologia fonamental per a desenvolupar aplicacions pràctiques. En aquesta tesi es presenta un anàlisi teòric d’aquests word embeddings així com alguns algoritmes per a entrenar-los. A més a més, com a aplicació pràctica d’aquesta recerca també es presenten aplicacions per a cerques a la web i màrqueting. Primer, s’introdueixen alguns aspectes teòrics d’un dels algoritmes més populars per a aprendre word embeddings, el word2vec. També es presenta el word2vec en un context de Reinforcement Learning demostrant que modela les normes no explícites (off-policy) en presència d’un conjunt de normes (policies) de comportament fixes. A continuació, presentem un nou algoritme de d’aprenentatge de normes no explícites (off-policy), $word2vec_{\pi}$, com a modelador de normes de comportament. La validació experimental corrobora la superioritat d’aquest nou algorithme respecte \textit{word2vec}. Segon, es presenta un mètode per a aprendre word embeddings que són resistents a errors d’escriptura. La majoria de word embeddings tenen una aplicació limitada quan s’enfronten a textos amb errors o paraules fora del vocabulari. Nosaltres proposem un mètode combinant FastText amb sub-paraules i una tasca supervisada per a aprendre patrons amb errors. Els resultats proven com les paraules mal escrites estan pròximes a les correctes quan les comparem dins de l’embedding. Finalment, aquesta tesi proposa dues tècniques noves (una a nivell de caràcter i l’altra a nivell de paraula) que empren xarxes neuronals (DNNs) per a la tasca de similaritat semàntica. Es demostra experimentalment que aquests mètodes són eficaços per a la predicció de l’eficàcia (click-through rate) dins del context de cerces patrocinades.

APA, Harvard, Vancouver, ISO, and other styles

9

Recasens, Potau Marta. "Coreferència: Teoria, anotació, resolució i avaluació." Doctoral thesis, Universitat de Barcelona, 2010. http://hdl.handle.net/10803/2095.

Full text

Abstract:

Les relacions de coreferència s'estableixen entre expressions lingüístiques que es refereixen a una mateixa persona, objecte o esdeveniment. Resoldre-les és una part integral de la comprensió del discurs ja que permet als usuaris de la llengua connectar les parts del discurs que contenen informació sobre una mateixa entitat. En conseqüència, la resolució de la coreferència ha estat un focus d'atenció destacat del processament del llenguatge natural, on té una tasca pròpia. Tanmateix, malgrat la gran quantitat de recerca existent, els resultats dels sistemes actuals de resolució de la coreferència no han assolit un nivell satisfactori.
La tesi es divideix en dos grans blocs. En el primer, examino tres aspectes diferents però estretament relacionats de la tasca de resolució de la coreferència: (i) l'anotació de relacions de coreferència en grans corpus electrònics, (ii) el desenvolupament de sistemes de resolució de la coreferència basats en aprenentatge automàtic i (iii) la qualificació i avaluació dels sistemes de coreferència. En el transcurs d'aquesta investigació, es fa evident que la tasca de coreferència presenta una sèrie de problemes de base que constitueixen veritables obstacles per a la seva correcta resolució. Per això, la meva aportació principal és una anàlisi crítica i alhora constructiva de diferents aspectes de la tasca de coreferència que finalment condueix, en el segon bloc de la tesi, al replantejament del concepte mateix de "coreferència".
En primer lloc, l'anotació amb coreferència dels corpus AnCora del castellà i el català posa al descobert que el concepte de "referencialitat" no està clarament delimitat i que algunes relacions observades en dades d'ús real no encaixen dins la visió de la coreferència entesa en termes dicotòmics. Això dificulta assolir un alt grau d'acord entre els anotadors d'aquesta tasca.
En segon lloc, els experiments realitzats sobre la contribució de més de quaranta-cinc trets d'aprenentage automàtic a la resolució de la coreferència mostren que és més petita que l'esperada. La interacció complexa que es dóna entre els diversos factors així com el fet que el coneixement pragmàtic i del món no es deixa representar sistemàticament en forma de trets d'aprenentatge de parells de mencions són indicadors que la manera en què actualment s'aplica l'aprenentatge automàtic pot no ser especialment idònia per a la tasca. Per això, considero que el millor model per adreçar el problema de la coreferència correspon als sistemes basats en entitats com CISTELL, que permet no només emmagatzemar informació de "dins" del text sinó també recollir coneixement general i del món de "fora" del text.
En tercer lloc, es demostra l'existència de diversos factors que qüestionen la manera en què actualment s'avaluen els sistemes de resolució de la coreferència. Es tracta de variacions en la definició de la tasca, l'extracció de mencions a partir de l'estàndard de referència o predites automàticament, i el desacord entre els rànquings de sistemes donats per les mètriques d'avaluació més utilitzades (MUC, B3, CEAF). La desigualtat entre el nombre d'entitats unàries i el nombre d'entitats de múltiples mencions explica el biaix de les mesures o bé cap a un dèficit o bé cap a un excés de "clusters". La mesura BLANC que proposo, una implementació modificada de l'índex de Rand, corregeix aquest desequilibri.
Finalment, la segona part de la tesi arriba a la conclusió que l'abandó de la visió tradicional i dicotòmica de la coreferència és el primer pas per anar més enllà de l'estat de l'art. Amb aquest objectiu s'introdueix la noció de "quasi-identitat" i s'ubica en un model de la coreferència entesa com a contínuum. Es postulen tres operacions de categorització -l'especificació, el reenfocament i la neutralització- que regeixen els canvis de granularitat que les entitats discursives experimenten a mesura que avança el discurs.
Coreference relations, as commonly defined, occur between linguistic expressions that refer to the same person, object or event. Resolving them is an integral part of discourse comprehension by allowing language users to connect the pieces of discourse information concerning the same entity. Consequently, coreference resolution has become a major focus of attention in natural language processing as its own task. Despite the wealth of existing research, current performance of coreference resolution systems has not reached a satisfactory level.
The thesis is broadly divided into two parts. In the first part, I examine three separate but closely related aspects of the coreference resolution task, namely (i) the encoding of coreference relations in large electronic corpora, (ii) the development of learning-based coreference resolution systems, and (iii) the scoring and evaluation of coreference systems. Throughout this research, insight is gained into foundational problems in the coreference resolution task that pose obstacles to its feasibility. Hence, my main contribution resides in a critical but constructive analysis of various aspects of the coreference task that, in the second part of the thesis, leads to rethink the concept of 'coreference' itself.

APA, Harvard, Vancouver, ISO, and other styles

10

Català, Roig Neus. "Acquiring information extraction patterns from unannotated corpora." Doctoral thesis, Universitat Politècnica de Catalunya, 2003. http://hdl.handle.net/10803/6671.

Full text

Abstract:

Information Extraction (IE) can be defined as the task of automatically extracting preespecified kind of information from a text document. The extracted information is encoded in the required format and then can be used, for example, for text summarization or as accurate index to retrieve new documents.

The main issue when building IE systems is how to obtain the knowledge needed to identify relevant information in a document. Today, IE systems are commonly based on extraction rules or IE patterns to represent the kind of information to be extracted. Most approaches to IE pattern acquisition require expert human intervention in many steps of the acquisition process. This dissertation presents a novel method for acquiring IE patterns, Essence, that significantly reduces the need for human intervention. The method is based on ELA, a specifically designed learning algorithm for acquiring IE patterns from unannotated corpora.

The distinctive features of Essence and ELA are that 1) they permit the automatic acquisition of IE patterns from unrestricted and untagged text representative of the domain, due to 2) their ability to identify regularities around semantically relevant concept-words for the IE task by 3) using non-domain-specific lexical knowledge tools such as WordNet and 4) restricting the human intervention to defining the task, and validating and typifying the set of IE patterns obtained.

Since Essence does not require a corpus annotated with the type of information to be extracted and it does makes use of a general purpose ontology and widely applied syntactic tools, it reduces the expert effort required to build an IE system and therefore also reduces the effort of porting the method to any domain.

In order to Essence be validated we conducted a set of experiments to test the performance of the method. We used Essence to generate IE patterns for a MUC-like task. Nevertheless, the evaluation procedure for MUC competitions does not provide a sound evaluation of IE systems, especially of learning systems. For this reason, we conducted an exhaustive set of experiments to further test the abilities of Essence.
The results of these experiments indicate that the proposed method is able to learn effective IE patterns.

APA, Harvard, Vancouver, ISO, and other styles

More sources

Books on the topic "Llenguatge natural"

1

Congreso, de Lenguajes Naturales y. Lenguajes Formales 9th 1993 Reus Spain). Lenguajes naturales y lenguajes formales IX: Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, IX Congrès de Llenguatjes Naturals i Llenguatges Formals. PPU, 1993.

APA, Harvard, Vancouver, ISO, and other styles

2

Lenguajes naturales y lenguajes formales IX: Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, IX Congres de Llenguatjes Naturals i Llenguatges Formals. PPU, 1993.

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!