Contents
Academic literature on the topic 'Llenguatge natural'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Llenguatge natural.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Journal articles on the topic "Llenguatge natural"
Martí Antonín, M. Antònia, Montserrat Civit Torruella, and Mariona Taulé Delor. "Tecnologies de la llengua i les seves aplicacions." Revista Galega de Filoloxía 5 (May 17, 2004): 107–39. http://dx.doi.org/10.17979/rgf.2004.5.0.5333.
Full textFlorenza Satorres, Patrícia. "Actors, mims i altres pallassades. 3, 2, 1, acció!" Comunicació educativa, no. 30 (March 24, 2020): 61. http://dx.doi.org/10.17345/comeduc201761-76.
Full textMeder, Theo. "The Technological Developments of the Dutch Folktale Database (1994–2016)." Estudis de Literatura Oral Popular / Studies in Oral Folk Literature, no. 5 (June 22, 2017): 45. http://dx.doi.org/10.17345/elop201645-69.
Full textJulià, Pere. "Linguistic Theory and International Communication." Language Problems and Language Planning 13, no. 1 (1989): 9–23. http://dx.doi.org/10.1075/lplp.13.1.02jul.
Full textIglesias i Estradé, Adolf Maria. "Relació entre l'anàlisi del sentiment, els resultats acadèmics i l'abandonament als entorns virtuals d'aprenentatge." Universitas Tarraconensis. Revista de Ciències de l'Educació 1, no. 1 (2019): 19. http://dx.doi.org/10.17345/ute.2019.1.2622.
Full text"El llenguatge com a sistema natural complex." Llengua, Societat i Comunicaci�, no. 9 (2013). http://dx.doi.org/10.1344/lsc-2013.11.6.
Full textDissertations / Theses on the topic "Llenguatge natural"
Martí, Antonin M. Antònia. "Processament informàtic del llenguatge natural: un sistema d'anàlisi morfològica per ordinador." Doctoral thesis, Universitat de Barcelona, 1988. http://hdl.handle.net/10803/1736.
Full textL'interès de l'anàlisi morfològica computacional recolza en el fet que en qualsevol de les aplicacions de la lingüística computacional cal un tractament del text en aquest sentit que redueixi el volum del diccionari i les tasques de manteniment, especialment quan es tracta de Ilengües altament flexives.
La finalitat de l'analitzador morfològic és la segmentación dels textos en unitats rellevants per al seu posterior tractament sintàctic o semàntic i l'associació d'informació a aquestes unitats.
L'analitzador que ens ocupa té una arquitectura modular i està basat en un autòmat d'estats finits omplint amb condicions. La modularitat del sistema garanteix la independència de les dades entre elles i de les dades respecte del procés.
La pertinència d'un autòmat per realitzar el procès d'anàlisi recolza en la seva adeqüació per al reconeixement dels mots en el sentit esquerra-dreta i en el fet que en els mots podem definir uns components, arrels, sufixos i elements flexius, que presenten un comportament distribucional i combinatori regular.
El disseny de l'analitzador consisteix en la definició de l'estratègia de segmentació dels mots, en l'agrupament dels segments resultants en models segons les seves característiques morfològiques i en la definición de regles que determinen lo combinatòria correcta dels mòduls. Les condicions de les regles permeten controlar la capacitat d'anàlisi.
Les arrels, els sufixos i els elements flexius es troben emmagatzemats en diccionaris específics. Cada un d'aquests elements duu associat un model i els atributs morfològics corresponents.
Els models representen un nivell superior d'organització del material lingüístic que permet representar el comportament homogeni en la flexió i en la derivació: totes Ies arrels amb un mateix comportament flexiu estan agrupades en un únic model i els sufixos i els elements de flexió que combinen amb un mateix model d'arrels es troben igualment agrupats en un únic model. L'autòmat concatena models, de manera que les combinacions de les arrels amb els sufixos flexius i derivatius no s'han d'especificar individualment sinò al model al qual pertanyen.
La informació morfològica es pot assignar als models i/o als elements dels diccionaris, segons es vulgui generalitzar o particularitzar.
L'estructura de l'autòmat ha estat definida tenint en compte tant les característiques de la llengua com la funcionalitat del disseny. L'esquema de l'analitzador es fonamenta en la definició dels estats. Així, s'han definit tres estats reconeixedors d'arrels verbals, corresponents o la primera, segona i tercera conjugació, i un estat reconeixedor de les arrels nominals i adjectives. D'aquests estats surten els models corresponents a la flexió com els models de sufixos derivatius. De l'estat que reconeix els sufixos derivatius surten també els models de la flexió.
Es tracta d'un disseny general, en el sentit que s'ha realitzat sense tenir en compte cap aplicació en concret. Aquest fet ha permès definir criteris metodològics de validesa general així com avaluar les diferents opcions en Ia segmentació de les formes, en la definició de models i en la construcción de l'autòmat. Com a resultat d'aquesta investigación actualment es disposa d'un analitzador de la llengua catalana que, per cada mot, dóna la seva categoria morfològica, les subcategories associades i l'arrel a partir de la qual s'ha analitzat.
L'analitzador permet l'anàlisi de qualsevol forma de la llengua catalana sempre que correspongui a un dels models de flexió definits. L'anàlisi d'una nova forma només requereix donar d'alta Ia seva arrel aI diccionari i assignar-li el model de flexió que li correspon. Les formes derivades es resolen habitualment amb atributs a l'arrel, encara que alguns derivats, pel seu elevat rendiment, es validen aIs models i per tant es generalitzen per a totes les seves entrades.
Les aportacions d'aquest analitzador respecte d'altres sistemes d'anàlisi morfològica automatitzada són: a) La possibilitat de resoldre tant les formes flexives com les derivades, fet que permet reduir en gran manera el volum de les dades enmagatzemades als diccionaris; b) La doble possibilitat d'anàlisi i generació. A més d'analitzar els textos, el sistema permet generar totes les formes flexives i derivades a partir d'una determinada arrel; c) La possibilitat de definir metaregles que permeten l'anàlisi de seqüències de sufixos o bé de grups de sufixos; d) La capacitat d'associar informació lèxica i morfològica a les unitats de l'anàlisi; i e) La simultaneïtat del procés d'anàlisi i de filtratge dels resultats.
Resten obertes línies d'investigació que en el present estudi han quedat només esbossades. En primer lloc, seria interessant fer més exhaustiu l'ús de metarregles, fet que requereix un estudi acurat de les seqüències així com de Ia comparació de sufixos. Segonament, seria interessant definir amb detall quin tipus d' información lèxica es pot associar als mots, en general o per a una determinada aplicació. Finalment caldria tractar la resolució de les formes compostes dels verbs i del perfet perifràstic.
L'analitzador està escrit en FORTRAN i està implementat en un VAX-750.
The aim of this research has been the design and implementation of an automatic morphological analyzer of Catalan. The morphological analysis by computers is necessary in most applications of Computational Linguistics, especially when they deal with very non-flexive languages like Catalan, Spanish, French, Italian, etc.
The purpose of this analyzer is segmentation of texts in units that can be useful in a further syntactic or semantic processing and morphological and logical information attachment.
Modularity, both in data structures and programs, is one of its more important features. The analyzer is based on a finite states automaton augmented by conditions. The design of that analyzer requires deciding a strategy to segment the words, the definition of patterns of morphological behaviour, the attachment of a pattern to each segment and the definition of rules that determines the correct combinations of these patterns.
The contributions of this morphological analyzer in front of other systems are: a) The treatment of derivation and inflexion that permits to reduce in a very important way the size of the dictionaries; b) The system allows both analysis and generation; c) The possibility to define meta-rules that make possible the analysis of sequences and groups of suffixes; d) The ability to put together morphological and lexical information.
As a result of this research, now we have available a morphological analyzer or Catalan that gives, in the analysis of each word, its morphological category, its associated subcategories and its root.
The system has been written in FORTRAN and is implemented in a VAX-750.
Gatius, Marta. "Using an ontology for guiding natural language interaction with knowledge based systems." Doctoral thesis, Universitat Politècnica de Catalunya, 2001. http://hdl.handle.net/10803/6635.
Full textL'objectiu d'aquesta tesi és millorar la comunicació en llenguatge natural amb els sistemes basats en el coneixement. Aquesta recerca s'ha centrat en el disseny d'una representació reutilitzable dels diferents tipus de coneixement involucrats en aquesta comunicació, que permetir de generar de forma automàtica la interfície més adequada per a cada aplicació. S'ha desenvolupat un sistema, GISE (Generador de Interfaces a Sistemas Expertos), que genera interfícies en llenguatge natural per diferents tipus d'aplicacions. Aquest sistema adapta automàticament les bases de coneixement lingüístic generals als requeriments d'una aplicació concreta, obtenint la gramàtica més apropiada.
El disseny del sistema està basat en una representació reutilitzable i modular dels diferents tipus de coneixement necessaris en la comunicació en llenguatge natural. Aquesta informació consisteix en els conceptes de l'aplicació, les tasques de comunicació, el coneixement lingüístic i les relacions generals entre el coneixement conceptual i la seva realització lingüística. Tres bases de coneixement s'han dissenyat per representar aquesta informació: la ontologia conceptual, la ontologia lingüística i un conjunt de relges de producció.
El coneixement conceptual s'ha representat en la ontologia conceptual. Aquest coneixement inclou aspectes sobre el domini i la funcionalitat. Tota la informació necessària per modelar l'aplicació i tots els possibles actes de comunicació estan representats en la ontologia conceptual. La complexitat dels sistemes basats en el coneixement fa necessària una representació formal i explícita de la seva funcionalitat i domini.
El coneixement lingüístic general necessari per expressar en llenguatge natural les possibles tasques del sistema es representen en la ontologia lingüística.
La informació que permet relacionar el coneixement lingüístic general a una aplicació concreta per tal d'obtenir la gramàtica més adequada es representada mitjançant un conjunt de regles de producció.
L'organització modular dels diferents tipus de coneixement que intervenen en la comunicació facilita l'adaptació del sistema a diferents tipus d'aplicacions i usuaris.
Les gramàtiques generades pel sistema GISE utilitzen un llenguatge alhora ric i precís, adaptat a l'aplicació. La interfície del sistema incorpora un sistema de finestres que guia a l'usuari a introduir les opcions en llenguatge natural que el sistema reconeix.
GISE s'ha aplicat a diferents sistemes: a SIREDOJ, un sistema expert en lleis i a un sistema que dóna informació sobre trens.
Since the 1980's, knowledge based systems (KBSs), programs that use knowledge to model situations and solve problems, have spread throughout industry, finance and science. Human communication with these systems deals with complex concepts and relationships that are not present in other software applications. Allthough the natural language (NL) is especially appropriate for expressing these concepts, there are not many KBSs incorporating NL interfaces. The main reasons for this are problems of efficiency in NLI performance, lack of adequacy to the communication needs of the applications and the high cost of developing and maintaining them.
The aim of this thesis is to study how the communication process and engineering features can be improved in NL interaction with KBSs. This study has been focused on the efficient and reusable representation of the knowledge involved in NL communication with KBSs. GISE (Generador de Interfaces a Sistemas Expertos), a system supporting NL communication with KBSs has been developed. This system adapts the general linguistic resources to application requirements in order to automatically obtain application-restricted grammars.
The main issue of the system design is a separate and reusable representation of all types of knowledge involved in communication with KBSs. This knowledge consists of the application knowledge appearing in the communication, the tasks of communication, the linguistic knowledge supporting their expression and the general relationships between conceptual knowledge and its linguistic realization. Three general bases were designed to represent all this knowledge : the Conceptual Ontology (CO), the Linguistic Ontology (LO) and a set of control rules.
Conceptual knowledge is represented in the CO. This conceptual knowledge includes domain and functionality issues. All knowledge required to model the applications as well as the description of all possible communication acts is provided in the CO. The CO is the skeleton for anchoring the domain and the functionality of the applications. The complexity of KBS performance makes a formal and explicit representation of their domain and functionality necessary.
The general linguistic knowledge needed to cover the expression in NL of the tasks the system performs is represented by means of the LO and a set containing all possible realizations of the application terms. The LO is domain and application independent.
The control information to relate the general linguistic knowledge to conceptual application knowledge in order to generate the application-restricted grammars is represented by a set of production rules.
The modular organization of the relevant knowledge into separate data structures provides great flexibility for adapting the system to different types of applications and users.
The grammars generated by GISE use expressive and precise language tuned to the application and adapted to the evolution of the communicative process. A menu-system to guide the user in introducing the NL is integrated into the GISE interface.
GISE has been applied to a couple of applications: SIREDOJ, an ES in law and a railway communication system.
Quixal, Martínez Martí. "Language learning tasks ans automatic analysis of learner language : connecting FLTL and NPL in the design of ICALL materials supporting effective use in real-life instruction." Doctoral thesis, Universitat Pompeu Fabra, 2012. http://hdl.handle.net/10803/104481.
Full textMàrquez, Lluís. "Part-of-speech Tagging: A Machine Learning Approach based on Decision Trees." Doctoral thesis, Universitat Politècnica de Catalunya, 1999. http://hdl.handle.net/10803/6663.
Full textPahisa, Solé Joan. "From telegraphic to natural language: an expansion system in a pictogrambased AAC application." Doctoral thesis, Universitat Autònoma de Barcelona, 2017. http://hdl.handle.net/10803/461189.
Full textEn esta tesis doctoral, presentamos un sistema de compansión que transforma el lenguaje telegráfico (frases formadas por palabras de contenido no flexionadas), derivado de la comunicación aumentativa y alternativa (CAA) basada en pictogramas, a lenguaje natural en catalán y en castellano. El sistema ha sido diseñado para mejorar la comunicación de personas usuarias de CAA que habitualmente tienen graves problemas en el habla, así como problemas motrices, y que utilizan métodos de comunicación basados en pictogramas en su vida diaria. El sistema de compansión tiene dos componentes principales: un analizador de dependencias sintáctico-semántico y un generador que construye la frase final. Este sistema se ha evaluado mediante pruebas técnicas y los resultados muestran que el 99,66% de las frases generadas, dentro de una gramática restringida, fueron consideradas correctas por tres anotadores independientes. Paralelamente, también se ha investigado e implementado una interfaz de usuario con un sistema de predicción de pictogramas para poder probar el sistema de compansión con usuarios finales. El sistema en conjunto se ha probado con cuatro participantes con parálisis cerebral severa y diferentes grados de competencia lingüística y de discapacidad intelectual. Durante los tests, los participantes adquirieron nuevas capacidades lingüísticas mientras utilizaban el sistema de compansión que se mostró como una fuente de motivación. El sistema se adaptó a las competencias lingüísticas de cada uno y no requirió ninguna curva de aprendizaje cuando no se utilizó ninguna de sus características especiales. Finalmente, los resultados cualitativos y cuantitativos muestran un incremento medio de la ratio de comunicación del 41,59% si se compara con el mismo dispositivo de comunicación sin el sistema de compansión y una mejora global en la experiencia comunicativa cuando el resultado final es en lenguaje natural.
In this doctoral dissertation, we present a compansion system that transforms the telegraphic language (utterances with only uninflected content words) that comes from the use of pictogram-based Augmentative and Alternative Communication (AAC) into natural language in Catalan and Spanish. The system has been designed to improve the communication of people who rely on AAC, who usually have severe speech or motor impairments and use pictogram-based communication methods in their daily life. The compansion system has two main components: a syntactic-semantic dependency parser and a generator that constructs the final sentence. The system has been technically evaluated and results show that 99,66% of the sentences generated by it, taking into account the restrictions of a constrained grammar, were considered correct by three independent annotators. Furthermore, a user interface with a pictogram prediction system has also been researched and implemented during the thesis in order to test it with end-users. The system as a whole was tested with 4 participants with severe cerebral palsy and ranging degrees of linguistic competence and intellectual disabilities. During tests, participants were able to learn new linguistic skills while using the compansion system, which proved a source of motivation. The system can also be adapted to the linguistic competence of each person and required no learning curve during tests when none of its special features were used. Finally, qualitative and quantitative results showed a mean communication rate increase of 41,59%, compared to the same communication device without the compansion system, and an overall improvement in the communication experience when the output is in natural language.
Marimon, Felipe Montserrat. "On distributing the analysis process of a broad-coverage unification-based grammar of spanish." Doctoral thesis, Universitat Politècnica de Catalunya, 2003. http://hdl.handle.net/10803/5930.
Full textIn tacking the efficiency problem, our approach has been to prune the search space of the parser by integrating shallow and deep processing. We propose and implement a NLP system which integrates a Part-of-Speech (PoS) tagger and chunker as a pre-processing module of broad-coverage nification-based grammar of Spanish. This allows us to release the arser from certain tasks that may be efficiently and reliably dealt with by these computationally less expensive processing techniques. On the one hand, by integrating the morpho-syntactic information delivered by the PoS tagger, we reduce the number of morpho-syntactic ambiguities of the linguistic expression to be analyzed. On the other hand, by integrating chunk mark-ups delivered by the partial parser, we do notonly avoid generating irrelevant constituents which are not to contribute to the final parse tree, but we also provide part of the structure that the analysis component has to compute, thus, avoiding a duplication of efforts.
In addition, we want our system to be able to maintain the accuracy of the high-level grammar. In the integrated architecture we propose, we keep the ambiguities which can not be reliably solved by the PoS tagger to be dealt with by the linguistic components of the grammar performing deep analysis.
Besides improving the efficiency of the overall analysis process and maintaining the accuracy of the grammar, our system provides both structural and lexical robustness to the high-level processing. Structural robustness is obtained by integrating into the linguistic components of the high-level grammar the structures which have already been parsed by the chunker such that they do not need to be re-built by phrase structure rules. This allows us to extend the coverage of the grammar to deal with very low frequent constructions whose treatment would increase drastically the parsing search space and would create spurious ambiguity. To provide lexical robustness to the system, we have implemented default lexical entries. Default lexical entries are lexical entry templates that are activated when the system can not find a particular lexical entry to apply. Here, the integration of the tagger, which supplies the PoS information to the linguistic processing modules of our system, allows us to increase robustness while avoiding increase in morphological ambiguity. Better precision is achieved by extending the PoS tags of our external lexicon so that they include syntactic information, for instance subcategorization information.
Benavent, i. Portabella Francesc. "L'aprenentatge automàtic incremental i la seva aplicació al PLN inter-actiu." Doctoral thesis, Universitat Pompeu Fabra, 2013. http://hdl.handle.net/10803/131080.
Full textIn this work we propose the use of Incremental Machine Learning, also known as On-Line Learning, to solve Natural Language Processing tasks in a more efficient way. We also study the technical feasibility of its application to the development of inter-active environments of linguistic annotation. The document is structured in three parts: the conceptual justification of the proposal, the technical feasibility by grounding it on state of the art techniques, and the experimental tests performed to obtain quantitative data about the efficiency achieved. The first part describes the current trends in NLP based on the batch learning paradigm, it questions the existent consensus and it exposes its limitations: economical, technical and methodological. Right after, it presents the incremental paradigm and it outlines how an Inter-Active architecture, based on active learning and incremental algorithms, could minimize the bottleneck related to the manual corpus annotation. The second part presents state of the art Incremental Machine Learning: the algorithms of model induction, the classifier combination architectures and the auxiliary techniques for optimization and evaluation. The third part of this work describes the methodology used in a set of experimental tests, on four NLP tasks, with the goal of quantifying the quality of the induced models and the training efficiency. It presents the results of more than a hundred experiments, and it analyzes and justifies its evaluation curves and compares the different trainings on the achieved precision and efficiency. The results of the experiments validate the main hypothesis of this work, which is that Inter-Active training makes it possible to obtain classifier models with as much or higher precision than with standard training, but using just a fraction of the existent corpus; in particular, and according to the results, reducing the number of training examples needed between 5 and 100 times. Additionally, it also goes into detail in the analysis of the data obtained during the training based on active learning, especially on the evolution of the confidence levels of its classifications and the precision of these estimations. From this data we conclude that the example selection based on a constant confidence threshold is too sensitive to the given value, and we propose to research active training algorithms based on dynamic confidence thresholds.
En este trabajo se propone utilizar técnicas de Aprendizaje Automático Incremental, también conocido como Aprendizaje On-Line, para resolver tareas de Procesamiento de Lenguaje Natural de manera más eficiente. También estudia la viabilidad técnica de su aplicación en el desarrollo de entornos Inter-Activos de anotación lingüística. El documento está estructurado en tres partes: la justificación conceptual de la propuesta, la viabilidad técnica a partir del estado de la cuestión y las pruebas experimentales para obtener datos cuantitativos sobre la eficiencia conseguida. La primera parte describe la situación actual, basada en el paradigma de aprendizaje batch, cuestiona el consenso existente y expone sus limitaciones: económicas, técnicas y metodológicas. A continuación, presenta el paradigma incremental y plantea la forma en que una arquitectura Inter-Activa, basada en el aprendizaje activo y los algoritmos incrementales, podría minimizar el cuello de botella asociado a la anotación manual de corpus. La segunda parte presenta el estado de la cuestión del Aprendizaje Automático Incremental: los algoritmos de inducción de modelos, las arquitecturas de combinación de clasificadores y las técnicas auxiliares de optimización y evaluación. La tercera parte del trabajo describe la metodología utilizada en una serie de pruebas experimentales, con cuatro tareas de PLN, con el objetivo de cuantificar la calidad de los modelos inducidos y la eficiencia de los entrenamientos. Presenta los resultados de más de un centenar de experimentos, analiza y justifica las curvas de evaluación obtenidas y compara los entrenamientos en términos de precisión y eficiencia alcanzada. Los resultados validan la hipótesis principal del trabajo, que defiende que mediante el entrenamiento Inter-Activo es posible obtener modelos clasificadores tan o más precisos que con el entrenamiento estándar, pero utilizando únicamente una fracción del corpus existente; concretamente, y según las pruebas realizadas, requiriendo entre 5 y 100 veces menos ejemplos. Así mismo, también profundiza en el análisis de los datos obtenidos durante los entrenamientos basados en el aprendizaje activo, especialmente en la evolución de los grados de certeza de sus clasificaciones y de la precisión de estas estimaciones. A partir de estos datos se concluye que la selección de ejemplos basada en un umbral de certeza es demasiado sensible al valor elegido, y se sugiere investigar algoritmos de entrenamiento basados en umbrales de certeza dinámicos.
Edizel, Necati Bora. "Word embeddings with applications to web search and advertising." Doctoral thesis, Universitat Pompeu Fabra, 2019. http://hdl.handle.net/10803/669622.
Full textDins del món del Processament del Llenguatge Natural (NLP) i d’altres camps relacionats amb aquest àmbit, les representaciones latents de paraules (word embeddings) s'han convertit en una tecnologia fonamental per a desenvolupar aplicacions pràctiques. En aquesta tesi es presenta un anàlisi teòric d’aquests word embeddings així com alguns algoritmes per a entrenar-los. A més a més, com a aplicació pràctica d’aquesta recerca també es presenten aplicacions per a cerques a la web i màrqueting. Primer, s’introdueixen alguns aspectes teòrics d’un dels algoritmes més populars per a aprendre word embeddings, el word2vec. També es presenta el word2vec en un context de Reinforcement Learning demostrant que modela les normes no explícites (off-policy) en presència d’un conjunt de normes (policies) de comportament fixes. A continuació, presentem un nou algoritme de d’aprenentatge de normes no explícites (off-policy), $word2vec_{\pi}$, com a modelador de normes de comportament. La validació experimental corrobora la superioritat d’aquest nou algorithme respecte \textit{word2vec}. Segon, es presenta un mètode per a aprendre word embeddings que són resistents a errors d’escriptura. La majoria de word embeddings tenen una aplicació limitada quan s’enfronten a textos amb errors o paraules fora del vocabulari. Nosaltres proposem un mètode combinant FastText amb sub-paraules i una tasca supervisada per a aprendre patrons amb errors. Els resultats proven com les paraules mal escrites estan pròximes a les correctes quan les comparem dins de l’embedding. Finalment, aquesta tesi proposa dues tècniques noves (una a nivell de caràcter i l’altra a nivell de paraula) que empren xarxes neuronals (DNNs) per a la tasca de similaritat semàntica. Es demostra experimentalment que aquests mètodes són eficaços per a la predicció de l’eficàcia (click-through rate) dins del context de cerces patrocinades.
Recasens, Potau Marta. "Coreferència: Teoria, anotació, resolució i avaluació." Doctoral thesis, Universitat de Barcelona, 2010. http://hdl.handle.net/10803/2095.
Full textLa tesi es divideix en dos grans blocs. En el primer, examino tres aspectes diferents però estretament relacionats de la tasca de resolució de la coreferència: (i) l'anotació de relacions de coreferència en grans corpus electrònics, (ii) el desenvolupament de sistemes de resolució de la coreferència basats en aprenentatge automàtic i (iii) la qualificació i avaluació dels sistemes de coreferència. En el transcurs d'aquesta investigació, es fa evident que la tasca de coreferència presenta una sèrie de problemes de base que constitueixen veritables obstacles per a la seva correcta resolució. Per això, la meva aportació principal és una anàlisi crítica i alhora constructiva de diferents aspectes de la tasca de coreferència que finalment condueix, en el segon bloc de la tesi, al replantejament del concepte mateix de "coreferència".
En primer lloc, l'anotació amb coreferència dels corpus AnCora del castellà i el català posa al descobert que el concepte de "referencialitat" no està clarament delimitat i que algunes relacions observades en dades d'ús real no encaixen dins la visió de la coreferència entesa en termes dicotòmics. Això dificulta assolir un alt grau d'acord entre els anotadors d'aquesta tasca.
En segon lloc, els experiments realitzats sobre la contribució de més de quaranta-cinc trets d'aprenentage automàtic a la resolució de la coreferència mostren que és més petita que l'esperada. La interacció complexa que es dóna entre els diversos factors així com el fet que el coneixement pragmàtic i del món no es deixa representar sistemàticament en forma de trets d'aprenentatge de parells de mencions són indicadors que la manera en què actualment s'aplica l'aprenentatge automàtic pot no ser especialment idònia per a la tasca. Per això, considero que el millor model per adreçar el problema de la coreferència correspon als sistemes basats en entitats com CISTELL, que permet no només emmagatzemar informació de "dins" del text sinó també recollir coneixement general i del món de "fora" del text.
En tercer lloc, es demostra l'existència de diversos factors que qüestionen la manera en què actualment s'avaluen els sistemes de resolució de la coreferència. Es tracta de variacions en la definició de la tasca, l'extracció de mencions a partir de l'estàndard de referència o predites automàticament, i el desacord entre els rànquings de sistemes donats per les mètriques d'avaluació més utilitzades (MUC, B3, CEAF). La desigualtat entre el nombre d'entitats unàries i el nombre d'entitats de múltiples mencions explica el biaix de les mesures o bé cap a un dèficit o bé cap a un excés de "clusters". La mesura BLANC que proposo, una implementació modificada de l'índex de Rand, corregeix aquest desequilibri.
Finalment, la segona part de la tesi arriba a la conclusió que l'abandó de la visió tradicional i dicotòmica de la coreferència és el primer pas per anar més enllà de l'estat de l'art. Amb aquest objectiu s'introdueix la noció de "quasi-identitat" i s'ubica en un model de la coreferència entesa com a contínuum. Es postulen tres operacions de categorització -l'especificació, el reenfocament i la neutralització- que regeixen els canvis de granularitat que les entitats discursives experimenten a mesura que avança el discurs.
Coreference relations, as commonly defined, occur between linguistic expressions that refer to the same person, object or event. Resolving them is an integral part of discourse comprehension by allowing language users to connect the pieces of discourse information concerning the same entity. Consequently, coreference resolution has become a major focus of attention in natural language processing as its own task. Despite the wealth of existing research, current performance of coreference resolution systems has not reached a satisfactory level.
The thesis is broadly divided into two parts. In the first part, I examine three separate but closely related aspects of the coreference resolution task, namely (i) the encoding of coreference relations in large electronic corpora, (ii) the development of learning-based coreference resolution systems, and (iii) the scoring and evaluation of coreference systems. Throughout this research, insight is gained into foundational problems in the coreference resolution task that pose obstacles to its feasibility. Hence, my main contribution resides in a critical but constructive analysis of various aspects of the coreference task that, in the second part of the thesis, leads to rethink the concept of 'coreference' itself.
Català, Roig Neus. "Acquiring information extraction patterns from unannotated corpora." Doctoral thesis, Universitat Politècnica de Catalunya, 2003. http://hdl.handle.net/10803/6671.
Full textThe main issue when building IE systems is how to obtain the knowledge needed to identify relevant information in a document. Today, IE systems are commonly based on extraction rules or IE patterns to represent the kind of information to be extracted. Most approaches to IE pattern acquisition require expert human intervention in many steps of the acquisition process. This dissertation presents a novel method for acquiring IE patterns, Essence, that significantly reduces the need for human intervention. The method is based on ELA, a specifically designed learning algorithm for acquiring IE patterns from unannotated corpora.
The distinctive features of Essence and ELA are that 1) they permit the automatic acquisition of IE patterns from unrestricted and untagged text representative of the domain, due to 2) their ability to identify regularities around semantically relevant concept-words for the IE task by 3) using non-domain-specific lexical knowledge tools such as WordNet and 4) restricting the human intervention to defining the task, and validating and typifying the set of IE patterns obtained.
Since Essence does not require a corpus annotated with the type of information to be extracted and it does makes use of a general purpose ontology and widely applied syntactic tools, it reduces the expert effort required to build an IE system and therefore also reduces the effort of porting the method to any domain.
In order to Essence be validated we conducted a set of experiments to test the performance of the method. We used Essence to generate IE patterns for a MUC-like task. Nevertheless, the evaluation procedure for MUC competitions does not provide a sound evaluation of IE systems, especially of learning systems. For this reason, we conducted an exhaustive set of experiments to further test the abilities of Essence.
The results of these experiments indicate that the proposed method is able to learn effective IE patterns.
Books on the topic "Llenguatge natural"
Congreso, de Lenguajes Naturales y. Lenguajes Formales 9th 1993 Reus Spain). Lenguajes naturales y lenguajes formales IX: Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, IX Congrès de Llenguatjes Naturals i Llenguatges Formals. PPU, 1993.
Lenguajes naturales y lenguajes formales IX: Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, IX Congres de Llenguatjes Naturals i Llenguatges Formals. PPU, 1993.