To see the other types of publications on this topic, follow the link: Linguistique – Documentation.

Dissertations / Theses on the topic 'Linguistique – Documentation'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 25 dissertations / theses for your research on the topic 'Linguistique – Documentation.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Amar, Muriel. "Les fondements théoriques de l'indexation : une approche linguistique." Lyon 2, 1997. http://theses.univ-lyon2.fr/sdx/theses/lyon2/1997/amar_m.

Full text
Abstract:
Cette recherche se donne pour objectif de fonder, du point de vue d'une théorie linguistique, la pratique professionnelle de l'indexation. Après un premier chapitre où sont présentés objet d'étude et méthode d'analyse, la recherche se poursuit sur quatre chapitres regroupés en deux parties. La première partie, qui s'intitule "Les problèmes théoriques de l'indexation", s'attache a expliquer, sur les questions du lexique et de la référence, les problèes d'indistinctions et de chevauchements entre faits de langue et faits d'indexation dans le but de distinguer les propriétés de langue (niveau linguistique) et leur utilisation documentaire (niveau de la pratique). Dans la deuxième partie, "Contribution aux fondements théoriques de l'indexation", est proposée une reformulation de l'indexation sous ses deux aspects : processus et résultat. Sous l'angle du processus, l'indexation se laisse définir par deux types de stratégies discursives : l'une concerne la sélection des sources ; l'autre l'exposition des documents. Sous l'angle du résultat, l'indexation se présente sous une morphologie spécifique : le descripteur, en tant qu'élément d'une chaine de référence, a pour forme linguistique privilégiée le syntagme nominal et, plus précisément, la synapsie. Le matériau utilisé dans cette recherche est de deux types : un ensemble de discours de la pratique sur elle-même, une enquête effectuée aupres de dix organismes documentaires
This research deals with theoretical foundations of indexing seen from a linguistic point of view. The object and the method of study are described in the first chapter. The first part, entitled "Theoretical problems of indexing", contains two chapters, one about lexicon, the other about reference. The second part, "Contribution to theoretical foundations of indexing" sets out to define indexing in a linguistic theory : indexing and descriptor are analysed on a discursive level
APA, Harvard, Vancouver, ISO, and other styles
2

Bowers, Jack. "Language Documentation and Standards in Digital Humanities : TEI and the documentation of Mixtepec-Mixtec." Thesis, Université Paris sciences et lettres, 2020. http://www.theses.fr/2020UPSLP040.

Full text
Abstract:
Cette thèse porte sur un projet de documentation linguistique concernant la langue mixtèque de mixtepec (ISO 639-3: mix). Le mixtèque de mixtepec est une langue otomangue essentiellement parlée par une population de 9000-10000 locuteurs dans les municipalités de San Juan Mixtepec dans la région Juxtlahuaca dans l’État d’Oaxaca, Mexique. Elle est aussi parlée par quelques milliers de locuteurs qui résident dans l’État de Baja Californie, Tlaxicao, et Santiago Juxtlahuaca en Mexique. Aux Etats-Unis, elle concerne également différentes populations significatives, en particulier dans les environs de Santa Maria et Oxnard en Californie ainsi que dans les États d’Oregon, Floride, et Arkansas. Les principaux objectifs de ce projet sont a) de créer une collection de ressources langagières pour la langue sous licence ouverte, et la communauté des locuteurs b) évaluer les logiciels, les standards et les procédures utilisés dans le champ de la documentation linguistique par rapport à celles du champ des humanités numériques et c) démontrer comment les directives de la TEI (Text Encoding Initiative) et les technologies liées à XML peuvent être utilisées pour l’encodage, les métadonnées, et pour l’annotation et le traitement d’une collection de ressources lexicales, dans le cas d’une langue pour laquelle peu de sources primaires sont disponibles. Concrètement, les ressources créées sont les suivantes : un dictionnaire multimédia et multilingue (mixtèque, espagnol, anglais) ; une collection d’enregistrements audio publiés et archivés publiquement et ouvertement chez Harvard Dataverse ; un corpus de textes dérivés d’une combinaison de transcriptions de la langue parlée ainsi que des textes annotés conformément aux directives de la TEI ; une description sommaire des caractéristiques linguistiques et lexicales. En raison de l’étendue des données et des ressources produites au cours de ces travaux, cette entreprise est composée d’éléments qui tombent également dans le champ des humanités numériques, de la documentation linguistique, de la linguistique descriptive, et de la linguistique de corpus. De par ces chevauchements disciplinaires et dans le respect des meilleurs pratiques disciplinaires, les travaux décrits dans cette thèse cherchent à combler les fossés entre les questions méthodologiques et techniques de ces différents champs
This project concerns a language documentation project covering the Mixtepec-Mixtec variety of Mixtec (ISO 639-3: mix). Mixtepec-Mixtec is an Oto-Manguean spoken by roughly 9000- 10000 people in San Juan Mixtepec Municipality in the Juxtlahuaca district of Oaxaca, Mexico and by several thousand speakers living in Baja California, Tlaxiaco, Santiago Juxtlahuaca. There are also significant populations in the United States, most notably in California, around Santa Maria and Oxnard, as well as in Oregon, Florida, and Arkansas. The core facets of the work are: the creation a body of linguistic resources for the MIX language and community; the evaluation the current tools, standards and practices used in language documentation; an account of how the TEI and related XML technologies can be used as the primary encoding, metadata, and annotation format for multi-dimensional linguistic projects, including under-resourced languages. The concrete resources produced are: a multilingual TEI dictionary; a collection of audio recordings published and archived on Harvard Dataverse; a corpus of texts derived from a combination of spoken language transcriptions and texts encoded and annotated in TEI, as well as linguistic and lexicographic descriptions and analyses of the Mixtepec-Mixtec language. Due to the array of different data and resources produced, this project has components that equally fall within the fields of: digital humanities, language documentation, language description and corpus linguistics. Because of this overlapping relevance, over the processes of attempting to carry out this work in line with best practices in each sub-field, this work addresses the need to further bring together the intersecting interests, technologies, practices and standards relevant to, and used in each of these related fields
APA, Harvard, Vancouver, ISO, and other styles
3

Van, Hooland Michelle. "Le discours en acte de repenser le travail. L'indexation en mouvement." Rouen, 1998. http://www.theses.fr/1998ROUEL286.

Full text
Abstract:
Notre recherche dans le champ langage et travail porte sur la demande de professionnels de la documentation d'un centre de ressources de nouvelles règles et méthodologies pour l'indexation et le langage documentaire. Cette demande fait émerger une crise locale : elle remet en cause le principe de la médiation documentaire à travers sa méthode de travail, l'indexation. A côté de cette crise, il en existe une plus globale. D'autres professionnels proposent de repenser le travail documentaire : ils appellent à un discours professionnel sur la fonction de médiation documentaire. Toutefois, bien qu'ils souhaitent affirmer ce discours professionnel, ils ne remettent pas en cause sa méthode de travail, l'indexation. C'est sous cet angle que se fait notre recherche : trouver la marque d'un discours professionnel, c'est observer ce discours lorsqu'il est dans cette phase dynamique de repenser le travail indexationnel. Notre hypothèse est que le discours en acte de repenser le travail indexationnel met en évidence un discours sur l'indexation parce qu'à travers un travail prescrit et un travail réel sur le travail indexationnel théorique, il fait émerger une pratique du langage documentaire en tant que pratique de transformation du travail documentaire
Our research language and work observes the discoursis of the professionnals of information on their indexation. These professionals propose new indexation's and mediation's methods
APA, Harvard, Vancouver, ISO, and other styles
4

Voglozin, W. Amenel Abraham. "Le résumé linguistique de données structurées comme support pour l'interrogation." Nantes, 2007. http://www.theses.fr/2007NANT2040.

Full text
Abstract:
Le travail présenté dans cette thèse traite de l'utilisation des résumés de données dans l'interrogation. Dans le contexte des résumés linguistiques du modèle SaintEtiQ sur lequel se focalise cette thèse, un résumé est une description du contenu d'une table relationnelle. Grâce à la définition de variables linguistiques, il est possible d'tiliser des termes du langage pour caractériser les données structurées de la table. En outre, l'organisation des résumés en hiérarchie offre divers niveaux de granularité. Nous nous intéressons à fournir une application concrète aux résumés déjà construits. D'une part, nous étudions les possibilités d'utilisation des résumés dans une interrogation à but descriptif. L'objectif est de décrire entièrement des données dont certaines caractéristiques sont bien connues. Nous proposons une démarche de recherche de concepts et une instanciation de cette démarche. Ensuite, une étude des systèmes d'interrogation flexible, dont certains ont, ainsi que le SaintEtiQ, la théorie des sous-ensembles flous comme base, nous permet d'enrichir la démarche proposée par des fonctionnalités plus avancées. D'autre part, nous avons intégré les résumés linguistiques de SaintEtiq au SGBD PostgreSQL. L'objectif est d'aider le SGBd à identifier des enregistrements. Nous présentons un état de l'art des techniques d'indexation, ainsi que le détail de l'implémentation des résumés en tant que méthode d'accès dans PostgreSQL.
APA, Harvard, Vancouver, ISO, and other styles
5

Schiattarella, Valentina. "Le berbère de Siwa : documentation, syntaxe et sémantique." Thesis, Paris, EPHE, 2015. http://www.theses.fr/2015EPHE4006.

Full text
Abstract:
L’objectif de ce travail est de présenter les résultats d’un projet de documentation linguistique sur la langue siwi (langue berbère parlée dans l’oasis de Siwa, en Egypte, par environ 25.000 locuteurs) à travers l’analyse de certains aspects de syntaxe et de sémantique intéressants pour la typologie et les études berbères, issus de l’exploitation d’un corpus de données orales, enregistré auprès de locuteurs hommes et femmes. La thèse est divisée en dix chapitres (1. L’aspect et la modalité dans le système verbal du siwi ; 2. La grammaticalisation verbale ; 3. La négation ; 4. Le suffixe -a et l’accompli résultatif ; 5. La préposition n ; 6. Les démonstratifs ; 7. La proposition relative ; 8. Les propositions subordonnées ; 9. L’accent nominal ; 10. L’ordre des mots et la structure informationnelle). Dans chaque chapitre, on commence par introduire la thématique au niveau typologique, puis dans la branche berbère, pour ensuite l’aborder en détail en siwi. Plusieurs phénomènes encore non décrits ou analysés sont traités dans ce travail de recherche. Les annexes à la fin de la thèse sont composées par des textes issus du corpus (enregistrés, transcrits et traduits pendant les missions de terrain) et leurs métadonnées. Ils donnent un échantillon plutôt varié (deux contes et trois narrations de locuteurs, hommes et femmes, d’âges différents) de la langue en question
This work aims to present the results of a documentation project on the Siwi language (a Berber language spoken in the Siwa oasis, Egypt by 25,000 speakers) through the analysis of selected aspects of the language, concerning mainly syntax and semantics, that come from the exploitation of a corpus composed of oral data, recorded by both male and female speakers. The thesis is divided into ten chapters (1. Aspect and Mood in the Verbal System of Siwi; 2. Verbal Grammaticalisation; 3. Negation; 4. The -a Suffix and the Resultative Perfect; 5. Preposition n; 6. Demonstratives; 7. Relative Clauses; 8. Other Subordinated Clauses; 9. Accent on Nouns; 10. Word Order and the Information Structure). In each chapter, the linguistic issue is introduced in a typological perspective, then within Berber, before it is analyzed in details in Siwi. Several phenomena that had hitherto remained undescribed, or had not been analyzed, are studied in this research thesis. The appendices at the end are composed of five texts (transcribed and translated during fieldwork) and their metadata. They provide a varied sample (two folktales and three narrations by male and female speakers of different ages) of the language under examination
APA, Harvard, Vancouver, ISO, and other styles
6

McCabe, Gragnic Julie. "Documentation et description du maya tenek." Thesis, Paris 3, 2014. http://www.theses.fr/2014PA030166.

Full text
Abstract:
L’objectif premier de cette thèse est de contribuer à la documentation et à la description d’une langue indigène en danger de disparition au Mexique et parallèlement, à sa revitalisation, en apportant aux locuteurs de cette langue des outils pour l’enseignement et la transmission de la langue.La langue étudiée dans cette thèse est le tének (parfois écrit teenek ; connu également comme le huastèque/wastek) – une langue maya parlée dans l’Etat de San Luis Potosí au Mexique. Bien qu’elle ne soit pas officiellement reconnue comme étant en danger d’extinction à court terme, le destin du ténekdemeure toutefois incertain dans le moyen terme. Ce fait est dûment démontré dans la première partie de lathèse, où l’on remet en question la classification des langues dites en voie de disparition, en révélant l’étendue du risque encouru par beaucoup d’autres langues indigènes.Les locuteurs de maya tének sont séparés des autres locuteurs de langues mayas par plus de 700km,tout en étant en contact avec des locuteurs de langues indigènes d’autres familles de langues mésoaméricaines(notamment uto-aztèque et otomangue). Cette situation ambivalente d’isolement endogène etde contact exogène fait de la documentation du tének contemporain un sujet d’étude particulièrement intéressant du point de vue typologique. Son isolement par rapport aux autres langues mayas contribue àfaire du tének une langue conservatrice maintenant certains liens privilégiés avec le proto-maya, mais par ailleurs, ce même isolement, associé au contact avec d’autres langues méso-américaines non maya, a conduit le tének à innover et à évoluer de manière originale, par rapport aux tendances typologiques de son groupe phylogénétique. Un exemple d’une innovation marquante de ce genre est, sur le plan morphosyntaxique, le système de l’inverse, fondé sur une hiérarchie de marqueurs personnels – un paramètre typologique original, qui a été développé par le tének comme une innovation périphérique, et qui s’avère unique à l’intérieur de la famille maya. Un autre exemple est la classification des substantifs, qui diffère de celle des autres langues mayas. La complexité de la structure verbale tének nous fournit également de nombreux traits intéressants : elle se manifeste par des marqueurs d’aspects primaires(accompli, inaccompli, etc.) et également d’aspects secondaires (exhaustif, intensif, résultatif, etc.), plusieurs marqueurs antipassifs (dont un est utilisé pour exprimer la réciprocité, ce qui est un phénomène plutôt inhabituel pour une langue maya), et plus d’un moyen pour exprimer le passif et la voix moyenne.Toutes ces caractéristiques sont examinées en détail dans la deuxième partie de cette thèse, en fondant l’argumentation sur des données de première main, collectées sur le terrain dans le cadre de ce projet, à la fois sous forme d’élicitation, de collecte et de transcription de mythes et textes oraux.La troisième et dernière partie de la thèse est dédiée à la présentation de certains outils et méthodes de documentation originaux et participatifs, qui ont servi non seulement pour le travail de terrain, mais également dans des ateliers organisés afin de collecter des données pour ce projet aussi bien que pour fournir aux locuteurs et/ou aux enseignants du tének des moyens de lutter contre la disparition de la langue et la détresse pédagogique due au manque de moyens pour se former sur leurs langues autochtones.Certains des résultats obtenus grâce à ces méthodes sont également présentés ici. Cette partie de la thèse examine aussi la façon dont l’éducation bilingue et interculturelle au Mexique travaille à la protection des langues natives mexicaines
The principal objective of this thesis is to document and describe an endangered indigenous language of Mexico and, in parallel, to provide tools to its speakers for the teaching and transmission of said language, thereby contributing to efforts for its revitalisation.As documented within the thesis, Tének (sometimes written Teenek; also known by thename Huastec/Wastek) is a Mayan language spoken in the state of San Luis Potosí, Mexico, and although it is not officially recognised as being in any particular danger of extinction, its destiny is quite uncertain in the mid-term. This is duly demonstrated within the first part of the thesis, thereby questioning the classification of endangered languages, and revealing the extent to which manymore languages are at risk than apparent.The Maya Tének are separated from the other Mayan language speakers by more than 700km, but are in close contact with indigenous language speakers of other origins (namely Uto-Aztec and Otomanguean). This configuration of isolation/contact creates, typologically speaking, aparticularly interesting object of study. Its isolation from the other Mayan languages means thatTének is and has remained a conservative language displaying close links with the proto-language,yet this same situation of isolation, coupled with its contact with languages of other origins, hasforced Tének to innovate and to evolve in other ways. One such example is the classification of nouns which differs from other Mayan languages. Another Tének development is its morphological inverse system based on a hierarchy of person markers which is unique within the Mayan family.The complex verb structure of Tének also presents some interesting features : it has both primary aspect markers (completive, incompletive, etc.) and secondary aspect markers (exhaustive,intensive, résultative, etc.), several antipassive markers (one of which is used to express reciprocity,which is in itself unusual for a Mayan language), more than one way to express the passive as well as the middle voice. All of these features are examined in detail within the second part of this thesis based on original materials collected in the field within the framework of this project both via elicitation and the collection and transcription of stories.The third and final part of the thesis is dedicated to the presentation of some of the original and creative documentation methods and tools used both for fieldwork and in organised workshop sessions in order to collect data for this project as well as to provide means by which the speakersand/or teachers of Tének can fight against the loss of the language. Some of the results of the work accomplished via these methods are presented here too. This part of the thesis also takes a look at how bilingual and intercultural education in Mexico is shaped and the actions taken toward protecting Mexican native languages.This thesis was developed as an experimental project in documentary linguistics; this particular paradigm of linguistics is revealing itself to be more and more important as languages continually disappear but remains as yet a little explored domain within the field of linguistics inFrance
APA, Harvard, Vancouver, ISO, and other styles
7

Suleymanov, Murad. "A Grammar of the Tat Dialect of Şirvan." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEP058.

Full text
Abstract:
Cette « Grammaire du dialecte tat du Şirvan » est une description linguistique d’un dialecte du tat, langue iranienne à tradition orale, parlée dans le Nord de l’Azerbaïdjan, au Daghestan et en Géorgie. La thèse s’appuie sur un corpus de discours spontané, ainsi que des contes, des légendes, des anecdotes et autres textes de nature folklorique, collectés de première main au cours d’enquêtes de terrain. Elle présente une analyse détaillée, appuyée sur la typologie des langues, des différents domaines de la grammaire, ainsi qu’une comparaison des traits les plus caractéristiques avec ceux des dialectes et langues apparentées comme le persan, ou parlées dans la même région comme l’azéri. Outre la mise en valeur de phénomènes originaux pour les langues iraniennes, la thèse apporte une contribution aux études caucasiennes en tant que description d’une variété linguistique située au cœur d’une zone d’intenses contacts entre plusieurs familles de langues
“A Grammar of the Tat Dialect of Şirvan” is a grammatical description of a dialect of Tat, a non-written Iranian language spoken in the north of Azerbaijan, in Dagestan and in Georgia. The project draws on a corpus of Tat spontaneous speech, as well as tales, legends, anecdotes and other folkloric texts collected during interviews with native speakers. It contains a detailed typology-based analysis of different aspects of the grammar, as well as comparisons of the most characteristic features with those of closely related dialects and languages, such as Persian, or languages spoken in the same region, such as Azeri. In addition to highlighting phenomena that are novel for Iranian languages, the work contributes to Caucasian studies as a description of a linguistic variety spoken in the heart of an area of intense contact of several language families
APA, Harvard, Vancouver, ISO, and other styles
8

Oueslati, Sami. "Modélisation pour l'hypertextualisation automatique de documents techniques : utilisation des organisateurs paralinguistiques et linguistiques." Grenoble, 2010. http://www.theses.fr/2010GRENL003.

Full text
Abstract:
Cette étude a pour objectif la modélisation de l'hypertextualisation de documents techniques. Cette modélisation s'appuie sur trois éléments, à savoir le besoin d'information des experts en situation de travail, les organisateurs paralinguistiques et linguistiques contenus dans ce type de documents et les types d'objets qui le composent. Les étapes de la modélisation proposée sont : - La segmentation du contenu d'un document technique en nœuds sémantiquement cohérents et autonomes. - Le typage de ces nœuds en terme de connaissances descriptives et de connaissances opératives. - L'indexation de chaque nœud. - La génération des liens hypertextes pertinents entre eux. Pour affiner la modélisation de la génération automatique des nœuds, le typage des connaissances véhiculées par chaque nœud ainsi que leur indexation, nous avons introduit des traitements linguistiques. Le modèle utilisé est le modèle de sémantique linguistique développé par Maria-Caterina MANES GALLO et Jacques ROUAULT. La modélisation élaborée a été testée auprès de techniciens experts. Elle a été appliquée à plusieurs documents techniques pour établir si elle était généralisable
The objective of the current study is the modeling of the hyper-textualization of technical documents. Such a modeling is based on three elements, mainly knowing the information needs of experts in a work situation, both paralinguistic and linguistic organizers, included in this kind of documents, and the types of objects that compose it. The stages of the suggested modeling are the following: - The segmentation of the content of the technical document into semantically coherent and autonomous knots. - The classification or categorization of these knots in terms of descriptive knowledge and operative knowledge. - The indexation of each knot, - The generation of inter-pertinent hypertext links. To improve the modelling of the automatic generation of knots, the categorization of knowledge carried by each knot as well as its indexation, we introduced linguistic processing. The model used is a semantic and linguistic model that was developed by Maria-Caterina MANES GALLO and Jacques ROUAULT. The elaborated modeling was tested by technician experts and was applied to several technical documents to demonstrate if it could be generalized
APA, Harvard, Vancouver, ISO, and other styles
9

Mammadova, Nayiba. "Eléments de description et documentation du tat de l'Apshéron, langue iranienne d'Azerbaïdjan." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCF016/document.

Full text
Abstract:
Cette thèse est une grammaire descriptive du tat de l’Apshéron, une langue iranienne de la branche sud-ouest parlée en Azerbaïdjan. Il s’agit de la première description d’un dialecte tat musulman dans une langue occidentale. Après une introduction détaillée présentant le contexte sociolinguistique et la phonologie, le présent travail aborde les différentes parties du discours, le marquage des fonctions grammaticales, la morphologie verbale (dérivation, classes morphologiques du verbe, locutions verbales, emplois et valeurs des formes conjuguées). Les principaux faits de syntaxe de la phrase complexe sont ensuite décrits : subordonnées relatives, complétives, et adverbiales, coordination de prédicats.La description, effectuée dans une perspective typologique, s’appuie sur l’analyse de textes spontanés récoltés sur le terrain, de traductions de l’azéri vers le tat, et sur les connaissances personnelles de l’auteur, locutrice native. Elle est suivie en annexe de textes extraits du corpus, partiellement traduits, ainsi que d’un lexique recensant les lexèmes utilisés dans l’étude et dans les textes
This thesis is a descriptive grammar of Tat (an Iranian language of the South-Western branch) as spoken on the Absheron Peninsula, east of Baku in the Republic of Azerbaijan. It is the first description of a Muslim variety of Tat in a Western European language.After a detailed introduction outlining the sociolinguistic context and the phonology, the present study discusses the parts of speech, the marking of grammatical relations and verbal morphology of Absheron Tat (verbal derivation, verb classes, complex predicates, formation and use of inflected verb forms). This is followed by a survey of complex sentences, viz. relative clauses, complement clauses, adverbial subordinates as well as coordination.The present work adopts a typological point of view and is based on the analysis of texts originating from the author’s fieldwork and tales translated from Azeri into Tat, in addition to the author’s competence as a native speaker. The appendix presents samples of the text corpus (some of them also translated) and a glossary listing items that feature in the grammatical description and the texts
APA, Harvard, Vancouver, ISO, and other styles
10

Karsenty, Laurent. "L'explication d'une solution dans les dialogues de conception." Paris 8, 1994. http://www.theses.fr/1994PA080916.

Full text
Abstract:
De recentes etudes sur les projets de conception conduisent a penser que l'assistance aux activites de conception doit passer par une aide a la comprehension des solutions en cours et une aide a l'intercomprehension entre les differents partenaires d'un projet. Dans ce cadre, un cas particulier doit etre souligne : le cas ou la conception repose, au moins en partie sur l'interaction entre l'homme et un systeme d'assistance informatique. On doit alors faciliter la communication homme-machine. Notre approche de ce problemes repose sur une etude des explications d'une solution. Le premier chapitre presente les differentes conceptions de l'explication et en propose une definition psychologique : l'explication est un processus d'ajustement des representations contextuelles. Un second chapitre decrit les modeles de la communication, et en particulier la theorie de la pertinence de sperber & wilson, montrant comment le sujet construit le contexte du dialogue. Deux etudes empiriques sont presentees pour illustrer les questions posees par cette problematique. La premiere etude porte sur la conception de base de donnees (bd). Le but recherche est de faciliter les communications entre un systeme d'assistance a la conception de bd et un utilisateur, et plus precisement la phase de validation. La seconde etude porte sur la conception de dispositifs mecaniques dans l'industrie spatiale. Elle vise a specifier une documentatioin des solutions facilitant la reutilisation de solutioins passees. Ces deux etudes sont basees sur l'analyse de dialogues naturel. Trois objectifs sont alors poursuivis : (i) dresser une typologie des besoins en explication face a une solution, (ii) interpreter les variations des besoins en explicatioin, (iii) decrire certaines proprietes interactives du processus explicatif. En conclusion, on tire les implications des resultats au niveau de la documentatioin des solutions dans des
Recent studies of design projects lead us to think that any design assistance provided must consist of systems that help the designers understand the problem at hand and aid communication between the design team. Given this orientation, the design of good computer assisted design aids depend upon the successful interaction between an individual and a computer. Therefore, we must facilitate this man-machine communication. Our approach to this problem relies on the examination of explanations of design solution. The first chapter examines the concept of explanation and proposes a psychological definition : explanation is the adjustment process of contextual representations. Chapter twxo describes several models of communicatioin, and in particular sperber & wilson's (1989) theory showing how subjects construct the context of their dialogues. Two empirical studies are presented to illustrate the issues raised by our investigation. The first study considers the design of a data base. The goal of this study is to facilitate the communication between a design aid, for data bases, and a user during the validation phase. The second study considers the design of mechanical devices in the areo-space industry. Its purpose is to specify documentation procedures which will facilitate the reuse of old design solutions. These two studies are based on the analysis of natural language dialogues. Three objectives were followed : (i) development of a taxonomy of explanation needs about solutions, (ii) interpretatioin of variations in explanation requirements, (iii) identify interactive properties of the explanation process. In the conclusion we examine the implications of the results for documenting design solutions and to
APA, Harvard, Vancouver, ISO, and other styles
11

Godard, Pierre. "Unsupervised word discovery for computational language documentation." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS062/document.

Full text
Abstract:
La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante
Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method
APA, Harvard, Vancouver, ISO, and other styles
12

Courbières, Caroline. "De la mode et des discours au regard de l'indexation documentaire." Toulouse 2, 2000. http://www.theses.fr/2000TOU20012.

Full text
Abstract:
La question est de savoir si l'indexation documentaire analytique est en mesure de rendre compte du contenu complexe du discours mediatique sur la mode. A cette fin, les operations intellectuelles inherentes a l'analyse documentaire ont ete approfondies : l'analyse documentaire est posee en termes de contrat d'indexation qui regit le double travail de lecture-ecriture de l'informatiste. Ce contrat reside dans le rapport singulier qui relie le sujet indexeur a son materiau et implique de fait son analyse. Cette analyse enjoint le sujet a se placer en situation de reception d'archive afin de realiser un trajet interpretatif : la reconstruction du sens s'effectue tout en prenant en consideration l'ensemble des conditions culturelles pensable de reception du document. A cette lecture analytique se combine un travail d'ecriture intrinseque au processus d'indexation. Cette reecriture consiste a caracteriser le contenu informationnel du materiau documentaire par une retranscription sous forme lexematique. L'application de cette theorie a servi de methode d'analyse du discours mediatique sur la mode dont la dimension ideologique est d'autant plus pregnante qu'elle n'est pas revendiquee. Apres avoir distingue les types d'information favorises par la contractualisation de ce discours mediatique, un processus d'indexation a ete engage en vue de rendre compte d'un contenu informationnel complexe. En rendant saillants les phenomenes de recurrence lexicale et par la decontextualisation/recontextualisation des domaines referentiels convoques, l'analyse a permis de reconstruire les deux niveaux informationnels de ce discours specifique : un niveau premier de l'ordre de la description et un niveau second a forte charge connotative. Le processus d'indexation, resitue dans une approche communicationnelle, devient ainsi un moyen de produire des connaissances nouvelles.
APA, Harvard, Vancouver, ISO, and other styles
13

Kondic, Snjezana. "A Grammar of South Eastern Huastec, a Maya Language from Mexico." Thesis, Lyon 2, 2012. http://www.theses.fr/2012LYO20052.

Full text
Abstract:
La documentation et description du huastèque du sud-est (code d’Ethnologue HSF), une langue Maya du Mexique, est un projet doctoral en cotutelle entre l’ University of Sydney, Australie et l’Université Lyon 2 Lumière, France. La première partie de cette these (le Volume 1) consiste en la description grammaticale de cette langue Maya: sa phonologie, sa morphologie et sa syntaxe, ainsi que la description de l’expression de l’espace dans cette langue. Le Volume 2 de cette thèse représente les contes en HSF, une description deétaillée du projet de documentation, un long résumé en français, et les matériels pour la revitalisation de la langue
The documentation and description of South Eastern Huastec (Ethnologue code HSF), a Mayan language from Mexico, is a PhD project carried out in cotutelle between the University of Sydney, Australia and the Université Lyon 2 Lumière, France. The first part (the Volume 1) of this thesis is a grammatical description of this Mayan language: its Phonology, Morphology, and Syntax, as well as its Space encoding. The second volume (the Volume 2) of this thesis comprises HSF stories, a detailed description of the documentation project, a detailed summary in French, and the HSF revitalization materials
APA, Harvard, Vancouver, ISO, and other styles
14

Baraby, Anne-Marie. "GRAMMATICOGRAPHIE DES LANGUES MINORITAIRES: LE CAS DE L'INNU." Thesis, Université Laval, 2011. http://www.theses.ulaval.ca/2011/27689/27689.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
15

Papy, Fabrice. "Hypertextualisation automatique de documents techniques." Paris 8, 1995. http://www.theses.fr/1995PA081014.

Full text
Abstract:
L'hypertextualisation automatique, processus empirique débouchant de l'hypertexte, repose sur la réutilisation de documents linéaires de nature technique, saisis à partir de logiciels de traitement de textes, afin de créer dynamiquement les noeuds et les liens réseaux hypertextes. La phase d'extraction des noeuds utilise la structure physique pour mettre en évidence les différentes entités logiques composants les documents. Les liens références (particulièrement les références croisées), dont la syntaxe est préalablement définie par l'auteur, sont extraits au moyen d'un programme d'analyse utilisant une description générique de la grammaire des références croisées. L'hypertextualisation automatique conduit à la création d'un méta-réseau hypertexte ou la mise à jour locale de documents peut remettre en cause la cohérence des noeuds et des liens. Comme les systèmes de gestion de bases de données relationnelles ont montré leur efficacité pour préserver l'intégrité des données, nous proposons une normalisation relationnelle des hyperdocuments automatiquement générés afin de gérer la mise a jour des liens références. L'accroissement du volume d'information est une autre conséquence de la création automatique de réseaux hypertextes puisqu'elle accentue davantage les problèmes de désorientation et de surcharge cognitive. Une solution consiste à coupler le processus d'hypertextualisation à un programme d'indexation automatique, ce qui permettrait d'associer à chaque noeud du méta-réseau un ensemble de termes pertinents représentatifs du contenu du noeud. Ainsi, le lecteur disposerait non seulement de mécanismes de navigation structurelle mais aussi de possibilités de recherche sémantique
Automatic hypertextualization, an empirical process leading to hypertext, uses sequential technical documents typed from word processing software, to create dynamically the nodes and links of hypertext networks. The phase of nodes extraction uses the physical structure to delect the logical entities within documents. Referential links (especially cross-references), whose the syntax is defined by author, are extracted by means of a parser which uses a generic definition of cross-references grammar. Automatic hypertextualization produces a hypertext meta-network, where documents updating may corrupt nodes and links coherence. As relational database management systems have proved their efficiency to preserve data integrity, we propose a relational normalization of hypertextualized documents in order to manage referential links updating. Increasing of the mass of information is another outcome of the automatic creation of hypertext networks because it accentuates more disorientation problems and cognitive overhead. A solution consists of joining the hypertextualization process with an automatic indexing system, which would allow to associate each node with a set of relevant terms representing node content. So, readers will have not only structural navigation mecanisms but semantic browsing capabilities
APA, Harvard, Vancouver, ISO, and other styles
16

Tavares, Moreira Ana Karina. "Documentation et description grammaticale et lexicale du créole afro-portugais de l'île de Fogo (République du Cap-Vert, Afrique de l'Ouest)." Thesis, Paris, INALCO, 2020. http://www.theses.fr/2020INAL0028.

Full text
Abstract:
Cette thèse est la première description générale du créole capverdien de l'île de Fogo (Afrique de l’Ouest), parlé par la quasi-totalité des 40 000 habitants de cette île ainsi que par de nombreuses personnes qui en sont originaires. Ce travail détaille la structure linguistique de cette variété à partir de données recueillies lors d’enquêtes de terrain effectuées entre 2016 et 2019. Cette thèse se compose de neuf chapitres : (1) introduction, (2) phonologie, (3), structure syllabique, (4) accent tonique, (5) morphologie nominale, (6) morphologie verbale, (7) syntaxe, (8) particularités lexicales et (9) conclusion. Ce travail apporte de nouveaux éléments pour l'analyse synchronique et diachronique du créole capverdien. Elle fournit aussi des données comparatives et partant des pistes pour la reconstruction de la famille linguistique des Créole Portugais de L'Afrique de l'Ouest (CPAO), dont le capverdien fait partie. Ces données démontrent notamment que la variété de Fogo s'est distinguée précocement des autres CPAO et présente des caractéristiques uniques au sein de cet ensemble.Cette étude apporte également des données historiques sur la découverte, le peuplement, les échanges commerciaux et maritimes, la structure sociale et les caractéristiques sociolinguistiques de l'île de Fogo, et montre comment ces caractéristiques et ces contraintes ont façonné le paysage linguistique de la dite île
This thesis is the first book-length description of the Portuguese Creole spoken on the island of Fogo (Cape Verde, West-Africa), spoken by most of the 40,000 island’s inhabitants as well as by its diaspora. This work provides an insight on the linguistic structure of this variety, based on data collected during fieldwork occurred between 2016 and 2019. This study comprises with nine chapters, namely (1) introduction, (2) phonology, (3) syllabic structure, (4), stress, (5) nominal morphology, (6) verbal morphology, (7) syntax, (8) lexical peculiarities and (9) conclusion.This thesis brings new elements both to the synchronic and diachronic analysis of Cape Verdean Creole. At the same time, it contributes with comparative data for the reconstruction of the Upper Guinea Portuguese Creole (UGPC) language family. These data show in particular that Fogo Cape Verdean emerged quite early as a distinct variety among UGPCs and illustrate the main characteristics of this variety.This thesis also provides historical data on the discovery, settlement, trade connections, maritime interactions, social structure and sociolinguistics of the island of Fogo, and shows the role played by these elements in the development and shaping of Fogo’s unique linguistic makeup
APA, Harvard, Vancouver, ISO, and other styles
17

Mbengue, Daouda. "Modernisation du wolof : traitement de l'information dans les domaines de la santé, pêche et décentralisation." Caen, 2009. http://www.theses.fr/2009CAEN1545.

Full text
Abstract:
Cette thèse en sciences du langage est une présentation et un examen d'un travail d'ingénierie linguistique et documentaire en langue wolof. Elle comporte deux parties et repose principalement sur une démarche structuraliste, sur la linguistique cognitive, sur la sociolinguistique, sur la philosophie du langage, sur la lexicologie et la terminologie. La première partie de la thèse porte sur une étude des variantes dialectales, suivie de celle des contacts du wolof avec la langue française dans les domaines de la santé, de la pêche et de la décentralisation. La deuxième partie traite quant à elle du rôle de l'information linguistique dans la création d'une synthèse vocale Kali en wolof et dans les opérations désignation concept, concept désignation pour le traitement de l'information documentaire
APA, Harvard, Vancouver, ISO, and other styles
18

Do, Bui Bien. "Grammaire de l’amuzgo de Xochistlahuaca, langue otomangue orientale. Documentation d’une variété amuzgoane de « langue en danger »." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUL044.

Full text
Abstract:
Cette grammaire de l’amuzgo (ISO 639-3) ou n͂omndaa (littéralement ‘le mot de l’eau’) tend à combler un manque de travaux théoriques sur cette langue otomangue de la branche orientale (branche qu’elle partage avec le mixtec). La source référentielle Ethnologue lui attribue le statut ‘en développement’. Pourtant, l’amuzgo reste vulnérable sur le plan socio-politique de par son statut de langue indigène du Mexique : le village Xochistlahuaca (Etat de Guerrero) est la 16è municipalité la plus pauvre du pays. En employant des approches non-concaténatives de phonologie et de morphologie, telles la phonologie gabaritique, la morphologie templatique, et des formalismes non-lexicalistes comme le Paradigm Function Morphology, cette grammaire cherche à modéliser des systèmes complexes représentés dans cette langue. Des approches non-linéaires sont plus aptes à rendre compte des inventaires élaborés comme les tons, et (dans une échelle scalaire) la phonation non-modale, la nasalisation, et la balisticité (un contraste phonétique et articulatoire au niveau de la syllabe). Ces systèmes complexes comprennent des fonctions lexico-grammaticales par grades à travers des structures diverses dans la grammaire, de la lexicalité à la phonologie interne, de la dérivation à la flexion
This grammar of Amuzgo (ISO 639-3), endonymically n͂omndaa, literally ‘the word of water’) seeks to fill a lack in theoretical work on this Otomanguean language from the Eastern branch (shared with Mixtec). Rated as developing by the reference Ethnologue, this language is nevertheless in a constant position of socio-political vulnerability as an indigenous language of Mexico, spoken in the village of Xochistlahuaca (Guerrero State), also the 16th poorest municipality in the country. Using non-concatenative approaches in phonology and morphology such as autosegmental phonology, templatic morphology and non-lexical morphological formalisms such as Paradigm Function Morphology, this grammar seeks to model complex systems represented in this language. Non-linear approaches account for elaborate inventories of tone, and, in a gradient scale, non-modal phonation and autosegments like nasalization and ballisticity, a syllable level contrast of phonetic and articulatory saliency. These complex systems display gradient lexical-grammatical functions across structures in the grammar, from lexicality to internal phonology, to derivation and inflection
APA, Harvard, Vancouver, ISO, and other styles
19

Rosés, Labrada Jorge Emilio. "The Mako language : vitality, Grammar and Classification." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO20026.

Full text
Abstract:
Ce projet vise la documentation et la description du mako, une langue autochtone parlée par environ 1200 personnes dans l’Amazonie vénézuélienne et pour laquelle le seul matériel accessible à date se limite à 38 mots. L’objectif principal est de créer une collection de textes ethnographiques annotés et, à long terme, une grammaire de la langue qui puisse servir comme point de départ pour des activités d’appui au maintien de la langue dans la communauté et pour avancer la recherche linguistique. Un objectif secondaire est d’établir le degré de vitalité de la langue telle que parlée chez les différentes communautés mako. Cette recherche mènera à une description des différents aspects de la grammaire de la langue, par exemple sa phonologie, sa morphologie et sa syntaxe. En plus de contribuer à l’étude et description des autres membres de la famille linguistique sáliba et à la reconstruction de leur proto-langue commune, les données du mako contribueront aussi à des discussions sur comment le langage fonctionne et seront donc un apport précieux pour la théorie linguistique. Cette recherche fera avancer la théorie de la documentation des langues et pourra donc faciliter les efforts de documentation et maintien des langues d’autres communautés indigènes. Le projet constitue une application du modèle de travail de terrain Community-Based Language Research
This dissertation focuses on the documentation and description of Mako, an indigenous language spoken in the Venezuelan Amazon by about 1000 people and for which the only available published material at the start of the project were 38 words. The main goals of the project were to create a collection of annotated ethnographic texts and a grammar that could serve as a starting point for both language maintenance in the community and for further linguistic research. Additionally, the project sought to assess the language’s vitality in the communities where it is spoken and to understand the relationship of Mako to the two other extant Sáliban languages, namely Piaroa and Sáliba.This research has thus led to an assessment of language vitality in the Mako communities of the Ventuari River, a comprehensive description of the Mako language—heretofore undescribed—, and an evaluation of the genetic relationship between the three Sáliban languages. The description of the language covers a wide range of topics in areas such as phonetics and phonology, nominal and verbal morphology, and syntax of both simple and complex sentences. Discourse-level morphology and discourse-organization strategies are also covered. Aside from facilitating the study of other members of the Sáliban family and reconstruction of the common ancestral language, the description of Mako also contributes to the typology of Amazonian languages and to our understanding of the pre-history of this area of the Orinoco basin. The products of this project also have the potential to be mobilized in language literacy efforts in the Mako communities
APA, Harvard, Vancouver, ISO, and other styles
20

Gauthier, Elodie. "Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM011/document.

Full text
Abstract:
Depuis quelques décennies, de nombreux scientifiques alertent au sujet de la disparition des langues qui ne cesse de s'accélérer.Face au déclin alarmant du patrimoine linguistique mondial, il est urgent d'agir afin de permettre aux linguistes de terrain, a minima, de documenter les langues en leur fournissant des outils de collecte innovants et, si possible, de leur permettre de décrire ces langues grâce au traitement des données assisté par ordinateur.C'est ce que propose ce travail, en se concentrant sur trois axes majeurs du métier de linguiste de terrain : la collecte, la transcription et l'analyse.Les enregistrements audio sont primordiaux, puisqu'ils constituent le matériau source, le point de départ du travail de description. De plus, tel un instantané, ils représentent un objet précieux pour la documentation de la langue. Cependant, les outils actuels d'enregistrement n'offrent pas au linguiste la possibilité d'être efficace dans son travail et l'ensemble des appareils qu'il doit utiliser (enregistreur, ordinateur, microphone, etc.) peut devenir encombrant.Ainsi, nous avons développé LIG-AIKUMA, une application mobile de collecte de parole innovante, qui permet d'effectuer des enregistrements directement exploitables par les moteurs de reconnaissance automatique de la parole (RAP). Les fonctionnalités implémentées permettent d'enregistrer différents types de discours (parole spontanée, parole élicitée, parole lue) et de partager les enregistrements avec les locuteurs. L'application permet, en outre, la construction de corpus alignés << parole source (peu dotée)-parole cible (bien dotée) >>, << parole-image >>, << parole-vidéo >> qui présentent un intérêt fort pour les technologies de la parole, notamment pour l'apprentissage non supervisé.Bien que la collecte ait été menée de façon efficace, l'exploitation (de la transcription jusqu'à la glose, en passant par la traduction) de la totalité de ces enregistrements est impossible, tant la tâche est fastidieuse et chronophage.Afin de compléter l'aide apportée aux linguistes, nous proposons d'utiliser des techniques de traitement automatique de la langue pour lui permettre de tirer partie de la totalité de ses données collectées. Parmi celles-ci, la RAP peut être utilisée pour produire des transcriptions, d'une qualité satisfaisante, de ses enregistrements.Une fois les transcriptions obtenues, le linguiste peut s'adonner à l'analyse de ses données. Afin qu'il puisse procéder à l'étude de l'ensemble de ses corpus, nous considérons l'usage des méthodes d'alignement forcé. Nous démontrons que de telles techniques peuvent conduire à des analyses linguistiques fines. En retour, nous montrons que la modélisation de ces observations peut mener à des améliorations des systèmes de RAP
In the last few decades, many scientists were concerned with the fast extinction of languages. Faced with this alarming decline of the world's linguistic heritage, action is urgently needed to enable fieldwork linguists, at least, to document languages by providing them innovative collection tools and to enable them to describe these languages. Machine assistance might be interesting to help them in such a task.This is what we propose in this work, focusing on three pillars of the linguistic fieldwork: collection, transcription and analysis.Recordings are essential, since they are the source material, the starting point of the descriptive work. Speech recording is also a valuable object for the documentation of the language.The growing proliferation of smartphones and other interactive voice mobile devices offer new opportunities for fieldwork linguists and researchers in language documentation. Field recordings should also include ethnolinguistic material which is particularly valuable to document traditions and way of living. However, large data collections require well organized repositories to access the content, with efficient file naming and metadata conventions.Thus, we have developed LIG-AIKUMA, a free Android app running on various mobile phones and tablets. The app aims to record speech for language documentation, over an innovative way.It includes a smart generation and handling of speaker metadata as well as respeaking and parallel audio data mapping.LIG-AIKUMA proposes a range of different speech collection modes (recording, respeaking, translation and elicitation) and offers the possibility to share recordings between users. Through these modes, parallel corpora are built such as "under-resourced speech - well-resourced speech", "speech - image", "speech - video", which are also of a great interest for speech technologies, especially for unsupervised learning.After the data collection step, the fieldwork linguist transcribes these data. Nonetheless, it can not be done -currently- on the whole collection, since the task is tedious and time-consuming.We propose to use automatic techniques to help the fieldwork linguist to take advantage of all his speech collection. Along these lines, automatic speech recognition (ASR) is a way to produce transcripts of the recordings, with a decent quality.Once the transcripts are obtained (and corrected), the linguist can analyze his data. In order to analyze the whole collection collected, we consider the use of forced alignment methods. We demonstrate that such techniques can lead to fine evaluation of linguistic features. In return, we show that modeling specific features may lead to improvements of the ASR systems
APA, Harvard, Vancouver, ISO, and other styles
21

Moneimne, Walid. "TAO vers l'arabe : spécification d'une génération standard de l'arabe ; réalisation d'un prototype anglais-arabe à partir d'un analyseur existant." Grenoble 1, 1989. http://www.theses.fr/1989GRE10061.

Full text
Abstract:
La these se situe dans un ensemble d'etudes linguistiques et informatiques visant a voir dans quelle mesure la methode linguistique et les outils informatiques du geta s'appliquent a la langue arabe. Apres une breve synthese des etudes anterieures en traitement automatique des langues naturelles applique a l'arabe, sont rappeles les fondements de la traduction assistee par ordinateur ainsi que les aspects theoriques et methodologiques les plus marquants de l'approche suivie au geta. Cette approche consiste essentiellement a travailler simultanement a differents niveaux d'interpretation de description linguistique en programmant dans des langages specialises pour la programmation linguistique (lspls). Ensuite est montre en detail comment a ete specifie et implemente un logiciel de traduction de l'anglais vers l'arabe. Est specifiee une grammaire statique d'un sous-ensemble de la langue arabe a l'aide du formalisme des grammaires statiques (correspondances arbre-chaine). Pour specifier la grammaire du transfert est proposee une generalisation de ce formalisme aux correspondances arbre-arbre. Tout au long de la these, sont proposes des exemples et des traces d'execution permettant de suivre les principes de la methode utilisee
APA, Harvard, Vancouver, ISO, and other styles
22

Cervantes-Villagomez, Ofélia. "Bases de données et d'objets complexes multimédia pour la recherche sur la parole." Grenoble INPG, 1988. http://www.theses.fr/1988INPG0003.

Full text
APA, Harvard, Vancouver, ISO, and other styles
23

Divoux, Pascal. "Mimule : un système de reconnaissance de mots isolés multilocuteurs utilisant les techniques de classification." Nancy 1, 1988. http://www.theses.fr/1988NAN10352.

Full text
Abstract:
La difficulté principale des systèmes de reconnaissance automatique de la parole est due à la grande variabilité du signal vocal ; celle-ci culmine dans les systèmes indépendants du locuteur. Nous présentons ici un tel système appliqué à un contexte restreint : mots isolés, vocabulaire limité, comparaison dynamique globale. Lors de la phase d'apprentissage du système, les références à conserver sont sélectionnées par des méthodes statistiques de réduction de données. Plusieurs algorithmes ont été testés et pour chacun d'eux nous avons tenté de déterminer les paramètres optimaux avec leur influence sur les temps de réponse, l'encombrement mémoire et les taux de reconnaissance. Le corpus utilisé est constitué de 60 locuteurs (30 hommes et 30 femmes), moitié pour l'apprentissage, moitié pour les tests de reconnaissance. L'algorithme optimal s'avère être la classification ascendante hiérarchique utilisant la variance minimale comme critère d'agrégation. Les mots doivent être classés par type, la segmentation de l'arbre est effectuée à hauteur constante telle que le nombre de branches soit égal à 1. 5 fois le nombre de références souhaitées ; les classes les moins importantes sont alors éliminées. Lors de la reconnaissance, c'est la référence la plus proche qui est considérée comme reconnue. On obtient ainsi, sur le vocabulaire difficile (les chiffres français), 89 % de bonne reconnaissance en deux propositions avec seulement 2 % du volume de données initial
APA, Harvard, Vancouver, ISO, and other styles
24

Lopez, Cédric. "Titrage automatique de documents textuels." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20071/document.

Full text
Abstract:
Au cours du premier millénaire avant notre ère, les bibliothèques, qui apparaissent avec le besoin d'organiser la conservation des textes, sont immédiatement confrontées aux difficultés de l'indexation. Le titre apparaît alors comme une première solution, permettant d'identifier rapidement chaque type d'ouvrage et éventuellement de discerner des ouvrages thématiquement proches.Alors que dans la Grèce Antique, les titres ont une fonction peu informative, mais ont toujours pour objectif d'identifier le document, l'invention de l'imprimerie à caractères mobiles (Gutenberg, XVème siècle) a entraîné une forte augmentation du nombre de documents, offrant désormais une diffusion à grande échelle. Avec la recrudescence des textes imprimés, le titre acquiert peu à peu de nouvelles fonctions, conduisant très souvent à des enjeux d'influence socioculturelle ou politique (notamment dans le cas des articles journalistiques).Aujourd'hui, que le document soit sous forme électronique ou papier, la présence d'un ou de plusieurs titres est très souvent constatée, permettant de créer un premier lien entre le lecteur et le sujet abordé dans le document. Mais comment quelques mots peuvent-ils avoir une si grande influence ? Quelles fonctions les titres doivent-ils remplir en ce début du XXIème siècle ? Comment générer automatiquement des titres respectant ces fonctions ?Le titrage automatique de documents textuels est avant tout un des domaines clés de l'accessibilité des pages Web (standards W3C) tel que défini par la norme proposée par les associations sur le handicap. Côté lecteur, l'objectif est d'augmenter la lisibilité des pages obtenues à partir d'une recherche sur mot-clé(s) et dont la pertinence est souvent faible, décourageant les lecteurs devant fournir de grands efforts cognitifs. Côté producteur de site Web, l'objectif est d'améliorer l'indexation des pages pour une recherche plus pertinente. D'autres intérêts motivent cette étude (titrage de pages Web commerciales, titrage pour la génération automatique de sommaires, titrage pour fournir des éléments d'appui pour la tâche de résumé automatique,).Afin de traiter à grande échelle le titrage automatique de documents textuels, nous employons dans cette étude des méthodes et systèmes de TALN (Traitement Automatique du Langage Naturel). Alors que de nombreux travaux ont été publiés à propos de l'indexation et du résumé automatique, le titrage automatique demeurait jusqu'alors discret et connaissait quelques difficultés quant à son positionnement dans le domaine du TALN. Nous soutenons dans cette étude que le titrage automatique doit pourtant être considéré comme une tâche à part entière.Après avoir défini les problématiques liées au titrage automatique, et après avoir positionné cette tâche parmi les tâches déjà existantes, nous proposons une série de méthodes permettant de produire des titres syntaxiquement corrects selon plusieurs objectifs. En particulier, nous nous intéressons à la production de titres informatifs, et, pour la première fois dans l'histoire du titrage automatique, de titres accrocheurs. Notre système TIT', constitué de trois méthodes (POSTIT, NOMIT et CATIT), permet de produire des ensembles de titres informatifs dans 81% des cas et accrocheurs dans 78% des cas
During the first millennium BC, the already existing libraries needed to organize texts preservation, and were thus immediately confronted with the difficulties of indexation. The use of a title occurred then as a first solution, enabling a quick indentification of every work, and in most of the cases, helping to discern works thematically close to a given one. While in Ancient Greece, titles have had a little informative function, although still performing an indentification function, the invention of the printing office with mobile characters (Gutenberg, XVth century AD) dramatically increased the number of documents, which are today spread on a large-scale. The title acquired little by little new functions, leaning very often to sociocultural or political influence (in particular in journalistic articles).Today, for both electronic and paper documents, the presence of one or several titles is very often noticed. It helps creating a first link between the reader and the subject of the document. But how some words can have a so big influence? What functions do the titles have to perform at this beginning of the XXIth century? How can one automatically generate titles respecting these functions? The automatic titling of textual documents is one of the key domains of Web pages accessibility (W3C standards) such as defined in a standard given by associations about the disabled. For a given reader, the goal is to increase the readability of pages obtained from a search, since usual searches are often disheartening readers who must supply big cognitive efforts. For a Website designer, the aim is to improve the indexation of pages for a more relevant search. Other interests motivate this study (titling of commercial Web pages, titling in order to automatically generate contents, titling to bring elements to enhance automatic summarization).In this study, we use NLP (Natural Language Processing) methods and systems. While numerous works were published about indexation and automatic summarization, automatic titling remained discreet and knew some difficulties as for its positioning in NLP. We support in this study that the automatic titling must be nevertheless considered as a full task.Having defined problems connected to automatic titling, and having positioned this task among the already existing tasks, we provide a series of methods enabling syntactically correct titles production, according to several objectives. In particular, we are interested in the generation of informative titles, and, for the first time in the history of automatic titling, we introduce the concept of catchiness.Our TIT' system consists of three methods (POSTIT, NOMIT, and CATIT), that enables to produce sets of informative titles in 81% of the cases and catchy titles in 78% of the cases
APA, Harvard, Vancouver, ISO, and other styles
25

Holden, Joshua. "A lexical semantic study of Dene Suliné, an Athabaskan language." Thèse, 2010. http://hdl.handle.net/1866/4616.

Full text
Abstract:
Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.
This work constitutes a systematic lexical semantic study of Dene Sųłiné, an Athabaskan language from northwestern Canada. As such, it presents the lexicographic definitions, syntactic and lexical combinatorial patterns of over 200 lexical units (lexemes and idioms) representing part of the core Dene Sųłiné vocabulary for seven semantic fields: terms to describe emotions, human character, physical description, position of an object, atmospheric conditions and topographical features. The theoretical approach used is Meaning-Text Theory (MTT), a formal linguistic approach with a strong empirical focus on semantics and lexicography. This work finds significant differences between Dene Sųłiné and English at all levels: in the relationship between of (quasi-)extralinguistic concepts and linguistic meanings, in the lexicalization or conflation patterns one finds in meanings of lexical units, and finally in the syntactic and lexical combinatorial patterns, which also show interesting language-specific tendencies.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography