Dissertations / Theses on the topic 'Arabe (langue) Arabe (langue) Linguistique Langage naturel, Traitement du (informatique)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 24 dissertations / theses for your research on the topic 'Arabe (langue) Arabe (langue) Linguistique Langage naturel, Traitement du (informatique).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Hassoun, Mohamed. "Conception d'un dictionnaire pour le traitement automatique de l'arabe dans différents contextes d'application." Lyon 1, 1987. http://www.theses.fr/1987LYO10035.

Full text
Abstract:
Le dictionnaire est concu pour le traitement automatique de l'arabe dans le cadre du programme de recherche samia (synthese et analyse morphologiques informatisees de l'arabe). Partant du modele linguistique concu par le programme samia (traits morphologiques, regles de contextualisation), on a cherche a definir une structuration des donnees permettant la constitution d'un dictionnaire utilisable dans les deux contextes de l'analyse et de la synthese morphologiques. On examine les conditions de consultation et d'exploitation du dictionnaire ainsi que son implementation sur le sgbd relationnel informix
APA, Harvard, Vancouver, ISO, and other styles
2

Abu, Al-Chay Najim. "Un système expert pour l'analyse et la synthèse des verbes arabes : dans un cadre d'Enseignement Assisté par Ordinateur." Lyon 1, 1988. http://www.theses.fr/1988LYO10076.

Full text
Abstract:
En partant de la structuration des constituants du verbe arabe en prefixe, base et suffixe, et en appliquant cette modelisation a l'ensemble des 174 tables de conjugaison etablies par d. Reig et des 201 tables de r. Scheindlin, un modele adapte au traitement automatique des verbes (en analyse et/ou en synthese) est defini. Ce nouveau modele, ne comportant que 63 classes, est bien adapte au traitement automatique de la langue arabe. Il a ete transcrit en prolog et implemente sur un micromega 32 sous unix
APA, Harvard, Vancouver, ISO, and other styles
3

Mesfar, Slim. "Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard." Besançon, 2008. http://www.theses.fr/2008BESA1022.

Full text
Abstract:
La langue arabe, bien que très importante par son nombre de locuteurs, elle présente des phénomènes morpho-syntaxiques très particuliers. Cette particularité est liée principalement à sa morphologie flexionnelle et agglutinante, à l’absence des voyelles dans les textes écrits courants, et à la multiplicité de ses formes, et cela induit une forte ambiguïté lexicale et syntaxique. Il s'ensuit des difficultés de traitement automatique qui sont considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduit à utiliser la plateforme linguistique NooJ. Nous commençons par une étude suivie d’une formalisation à large couverture du vocabulaire de l’arabe. Le lexique construit, nommé «El-DicAr», permet de rattacher l’ensemble des informations flexionnelles, morphologiques, syntactico-sémantiques à la liste des lemmes. Les routines de flexion et dérivation automatique à partir de cette liste produisent plus de 3 millions de formes fléchies. Nous proposons un nouveau compilateur de machines à états finis en vue de pouvoir stocker la liste générée de façon optimale par le biais d’un algorithme de minimisation séquentielle et d’une routine de compression dynamique des informations stockées. Ce dictionnaire joue le rôle de moteur linguistique pour l’analyseur morpho-syntaxique automatique que nous avons implanté. Cet analyseur inclut un ensemble d’outils: un analyseur morphologique pour le découpage des formes agglutinées en morphèmes à l’aide de grammaires morphologiques à large couverture, un nouvel algorithme de parcours des transducteurs à états finis afin de traiter les textes écrits en arabe indépendamment de leurs états de voyellation, un correcteur des erreurs typographiques les plus fréquentes, un outil de reconnaissance des entités nommées fondé sur une combinaison des résultats de l’analyse morphologique et de règles décrites dans des grammaires locales présentées sous forme de réseaux augmentés de transitions (ATNs), ainsi qu’un annotateur automatique et des outils pour la recherche linguistique et l’exploration contextuelle. Dans le but de mettre notre travail à la disposition de la communauté scientifique, nous avons développé un service de concordances en ligne «NooJ4Web: NooJ pour la Toile» permettant de fournir des résultats instantanés à différents types de requêtes et d’afficher des rapports statistiques ainsi que les histogrammes correspondants. Les services ci-dessus cités sont offerts afin de recueillir les réactions des divers usagers en vue d’une amélioration des performances. Ce système est utilisable aussi bien pour traiter l’arabe, que le français et l’anglais<br>The Arabic language, although very important by the number of its speakers, it presents special morpho-syntactic phenomena. This particularity is mainly related to the inflectional and agglutinative morphology, the lack of vowels in currents written texts, and the multiplicity of its forms; this induces a high level of lexical and syntactic ambiguity. It follows considerable difficulties for the automatic processing. The selection of a linguistic environment providing powerful tools and the ability to improve performance according to our needs has led us to use the platform language NooJ. We begin with a study followed by a large-coverage formalization of the Arabic lexicon. The built dictionary, baptised "El-DicAr" allows to link all the inflexional, morphological, syntactico-semantic information to the list of lemmas. Automatic inflexional and derivational routines applied to this list produce more than 3 million inflected forms. We propose a new finite state machine compiler that leads to an optimal storage through a combination of a sequential minimization algorithm and a dynamic compression routine for stored information. This dictionary acts as the linguistic engine for the automatic morpho-syntactic analyzer that we have developed. This analyzer includes a set of tools: a morphological analyzer that identifies the component morphemes of agglutinative forms using large coverage morphological grammars, a new algorithm for looking through finite-state transducers in order to deal with texts written in Arabic with regardless of their vocalisation statements, a corrector of the most frequent typographical errors, a named entities recognition tool based on a combination of the morphological analysis results and rules described into local grammar presented as Augmented Transition Networks ( ATNS), an automatic annotator and some tools for linguistic research and contextual exploration. In order to make our work available to the scientific community, we have developed an online concordance service “NooJ4Web: NooJ for the Web”. It provides instant results to different types of queries and displays statistical reports as well as the corresponding histograms. The listed services are offered in order to collect feedbacks and improve performance. This system is used to process Arabic, as well as French and English
APA, Harvard, Vancouver, ISO, and other styles
4

Bouzidi, Laïd. "Conception d'un système d'E. A. O. Pour l'apprentissage d'une langue : application à l'enseignement de la morphologie de l'arabe." Lyon 1, 1989. http://www.theses.fr/1989LYO10106.

Full text
Abstract:
L'une des plus recentes innovations dans les systemes educatifs est l'introduction de l'informatique comme outil de formation. Le but du present travail est la conception d'un systeme d'apprentissage assiste par ordinateur d'une langue. Bien que les principes de ce systeme soient independants de la discipline, les propositions emises visent dans un premier temps la maitrise des aspects morphologiques de la langue arabe. Le systeme d'aide automatique propose couvre quatre grandes fonctions: la conjugaison des verbes, l'exploitation lexicale, l'analyse et la production de mots. L'etude de chaque fonction permet de definir une decomposition sequentielle degageant les etapes (ou sequences) qui permettent sa realisation. L'ordonnancement de cet ensemble de sequences fait apparaitre le schema de fonctionnement du systeme et son exploitation. L'analyse des erreurs est l'une des composantes les plus importantes des logiciels d'enseignements assiste par ordinateur. C'est pourquoi une partie importante de ce travail est constituee de propositions destinees a resoudre la problematique posee par le traitement des erreurs. On a ete amene a distinguer deux types d'erreur: les erreurs morphographiques et les erreurs morphologiques. Cette distinction permet d'adopter une methode de resolution propre a chacun de ces deux types. Les erreurs de type morphographiques sont essentiellement des cas de substitution, d'omission ou d'ajout de lettres. Les erreurs morphologiques sont dues a une mauvaise maitrise des regles de construction et/ou une mauvaise connaissance de leurs constituants. Ces constituants sont des unites morphologiques qui font partie integrante du modele linguistique developpe pour le traitement de l'arabe. Ce modele est represente sous la forme d'un schema d'une base de donnees appelee lexique. L'exploitation de ce lexique permet a la fois la production automatique de corpus de reponses et d'exercices qu'a l'ana
APA, Harvard, Vancouver, ISO, and other styles
5

Kanoun, Slim. "Identification et analyse de textes arabes par approche affixale." Rouen, 2002. http://www.theses.fr/2002ROUES040.

Full text
Abstract:
Les travaux présentés dans ce mémoire abordent les problèmes liés à la différenciation et la reconnaissance de textes en mode hors-ligne dans des documents multilingues arabe et latin. La première partie de ces travaux concerne une méthode de différenciation entre les textes arabes et les textes latins dans les deux natures imprimée et manuscrite. La deuxième partie propose une nouvelle approche, appelée approche affixale, pour la reconnaissance de mots et l'analyse de textes arabes. Cette approche se distingue par la modélisation d'entités morphosyntaxiques (morphèmes de base du mot) en intégrant les aspects morpho-phonologiques du vocabulaire arabe dans le processus de reconnaissance par rapport aux approches classiques qui procèdent par la modélisation d'entités graphiques (mot, lettre, pseudo mot). Les tests réalisés montrent bien l'apport de l'approche au niveau de la simplification de la reconnaissance et la caractérisation morphosyntaxique des mots dans un texte arabe<br>The presented work in this memory tackles the problems involved in differentiation and text recognition in off-line mode in Arabic and Latin multilingual documents. The first part of this work relates to a method of differentiation between Arabic texts and Latin texts in two natures printed and handwritten. The second part proposes a new approach, called affixal approach, for Arabic word recognition and text analysis. This approach is characterized by modelling from morph-syntactic entities (word basic morphemes) by integrating the morpho-phonological aspects of Arabic vocabulary in the recognition process compared to the traditional approaches which proceed by the modelling of grahic entities (word, letter, pseudo word). The tests carried out show well the contribution of the approach on the recognition simplification and the morph-syntactic categorization of the words in an Arabic text
APA, Harvard, Vancouver, ISO, and other styles
6

Barhoumi, Amira. "Une approche neuronale pour l’analyse d’opinions en arabe." Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1022.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre de l’analyse d’opinions en arabe. Son objectif consiste à déterminer la polarité globale d’un énoncé textuel donné écrit en Arabe standard moderne (ASM) ou dialectes arabes. Cette thématique est un domaine de recherche en plein essor et a fait l’objet de nombreuses études avec une majorité de travaux actuels traitant des langues indo-européennes, en particulier la langue anglaise. Une des difficultés à laquelle se confronte cette thèse est le traitement de la langue arabe qui est une langue morphologiquement riche avec une grande variabilité des formes de surface observables dans les données d’apprentissage. Nous souhaitons pallier ce problème en produisant, de manière totalement automatique et contrôlée, de nouvelles représentations vectorielles continues (en anglais embeddings) spécifiques à la langue arabe. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection de polarité, en exploitant la puissance des embeddings. En effet, ceux-ci se sont révélés un atout fondamental dans différentes tâches de traitement automatique des langues naturelles (TALN). Notre contribution dans le cadre de cette thèse porte plusieurs axes. Nous commençons, d’abord, par une étude préliminaire des différentes ressources d’embeddings de mots pré-entraînés existants en langue arabe. Ces embeddings considèrent les mots comme étant des unités séparées par des espaces afin de capturer, dans l'espace de projection, des similarités sémantiques et syntaxiques. Ensuite, nous nous focalisons sur les spécificités de la langue arabe en proposant des embeddings spécifiques pour cette langue. Les phénomènes comme l’agglutination et la richesse morphologique de l’arabe sont alors pris en compte. Ces embeddings spécifiques ont été utilisés, seuls et combinés, comme entrée à deux réseaux neuronaux (l’un convolutif et l’autre récurrent) apportant une amélioration des performances dans la détection de polarité sur un corpus de revues. Nous proposons une analyse poussée des embeddings proposées. Dans une évaluation intrinsèque, nous proposons un nouveau protocole introduisant la notion de la stabilité de polarités (sentiment stability) dans l’espace d'embeddings. Puis, nous proposons une analyse qualitative extrinsèque de nos embeddings en utilisant des méthodes de projection et de visualisation<br>My thesis is part of Arabic sentiment analysis. Its aim is to determine the global polarity of a given textual statement written in MSA or dialectal arabic. This research area has been subject of numerous studies dealing with Indo-European languages, in particular English. One of difficulties confronting this thesis is the processing of Arabic. In fact, Arabic is a morphologically rich language which implies a greater sparsity : we want to overcome this problem by producing, in a completely automatic way, new arabic specific embeddings. Our study focuses on the use of a neural approach to improve polarity detection, using embeddings. These embeddings have revealed fundamental in various natural languages processing tasks (NLP). Our contribution in this thesis concerns several axis. First, we begin with a preliminary study of the various existing pre-trained word embeddings resources in arabic. These embeddings consider words as space separated units in order to capture semantic and syntactic similarities in the embedding space. Second, we focus on the specifity of Arabic language. We propose arabic specific embeddings that take into account agglutination and morphological richness of Arabic. These specific embeddings have been used, alone and in combined way, as input to neural networks providing an improvement in terms of classification performance. Finally, we evaluate embeddings with intrinsic and extrinsic methods specific to sentiment analysis task. For intrinsic embeddings evaluation, we propose a new protocol introducing the notion of sentiment stability in the embeddings space. We propose also a qualitaive extrinsic analysis of our embeddings by using visualisation methods
APA, Harvard, Vancouver, ISO, and other styles
7

Guilleminot, Christian. "Décomposition adaptative du signal de parole appliquée au cas de l'arabe standard et dialectal." Besançon, 2008. http://www.theses.fr/2008BESA1030.

Full text
Abstract:
Le présent travail introduit en phonétique la décomposition atomique du signal, appelée aussi Matching Pursuit, traite les fichiers d'atomes par compression sans perte et enfin mesure la distance des fichiers comprimés par des algorithmes de Kolmogorov. L’étalonnage est basé sur une première analyse classique de la coarticulation de séquences sonores VCV et CV, (ou V ∈ {[i] [u] [a]} et C ∈ {[t] [d] [s] [δ]}∪{[tʕ] [dʕ] [sʕ [δʕ]}, extraites d’un corpus issu de quatre régions arabophones. L’équation de locus de CV vs CʕV, permet de différencier les variétés de langue. La deuxième analyse applique un algorithme de décomposition atomique adaptative ou Matching Pursuit sur des séquences VCV et VCʕV du même corpus. Les séquences atomiques représentant VCV et VCʕV sont ensuite compressées sans perte et la distance entre elles est recherchée par des algorithmes de Kolmogorov. La classification des productions phonétiques et des régions arabophones obtenue est équivalente à celle de la première méthode. Ce travail montre l’intérêt de l’introduction de Matching Pursuit en phonétique, la grande robustesse des algorithmes utilisés et suggère d’importantes possibilités d’automatisation des processus mis en oeuvre, tout en ouvrant de nouvelles directions d’investigation<br>The present work introduces in phonetics, the atomic decomposition of the signal also known as the Matching Pursuit and treats a group of atoms by compression without losses and finally measures the distance of the list of atoms compressed using the Kolmogorov's algorithms. The calibration is based on an initial classical analysis of the co-articulation of sound sequences of VCV and CV, or V ∈ {[i] [u] [a]} and C ∈ {[t] [d] [s] [δ]}∪ [tʕ] [dʕ] [sʕ [δʕ]} the excerpts culled from a corpus made up of four arabic speaking areas. The locus equation of CV vs CʕV, makes it possible to differentiate the varieties of the language. In the second analysis, an algorithm of atomic adaptative decomposition or Matching Pursuit is applied to the sequences VCV and VCʕV still on the same corpus. The atomic sequences representing VCV et VCʕV are then compressed without losses and the distances between them are searched for by Kolmogorov's algorithms. The classification of phonetic recordings obtained from these arabic speaking areas is equivalent to that of the first method. The findings of the study show how the introduction of Matching Pursuit's in phonetics works, the great robustness of the use of algorithms and suggesting important possibilities of automation of processes put in place, while opening new grounds for further investigations
APA, Harvard, Vancouver, ISO, and other styles
8

Beddar, Mohand. "Vers un prototype de traduction automatique contrôlée français/arabe appliquée aux domaines à sécurité critique." Thesis, Besançon, 2013. http://www.theses.fr/2013BESA1013/document.

Full text
Abstract:
La présente recherche propose un modèle de traduction automatique français-arabe contrôlée appliquée aux domaines à sécurité critique. C’est une recherche transverse qui traite à la fois des langues contrôlées et de la traduction automatique français-arabe, deux concepts intimement liés. Dans une situation de crise où la communication doit jouer pleinement son rôle, et dans une mondialisation croissante où plusieurs langues cohabitent, notre recherche montre que l’association de ces deux concepts est plus que nécessaire. Nul ne peut contester aujourd’hui la place prépondérante qu’occupe la sécurité dans le quotidien des personnes et les enjeux qu’elle représente au sein des sociétés modernes. Ces sociétés davantage complexes et interconnectées manifestent une vulnérabilité flagrante qui les oblige à repenser leurs moyens d’organisation et de protection dont les systèmes de communication. La communication langagière à l’aide de systèmes informatisés est l’une des formes de communication la plus souvent utilisée pour le transfert des connaissances nécessaires à l’accomplissement des tâches et le déroulement des diverses actions. Toutefois, et contrairement à une idée bien ancrée qui tend à associer les risques d’une mauvaise communication à l’oral uniquement, l’usage de la langue écrite peut lui aussi comporter des risques. En effet des messages mal écrits peuvent conduire à de réelles catastrophes et à des conséquences irréversibles notamment dans des domaines jugés sensibles tels que les domaines à sécurité critique. C’est dans ce contexte que s’inscrit notre recherche. Cette thèse est une approche novatrice dans les domaines des langues contrôlées et de la traduction automatique. Elle définit avec précision, en s’appuyant sur une analyse microsystémique de la langue et un travail en intension sur le corpus, des normes pour la rédaction de protocoles de sécurité et d’alertes ainsi que leur traduction automatique vers l’arabe. Elle apporte en effet des notions nouvelles à travers plusieurs procédés normatifs intervenant non seulement dans le processus de contrôle mais également dans le processus de traduction. Le système de traduction automatique français-arabe TACCT (Traduction Automatique Contrôlée Centre Tesnière) mis au point dans cette thèse est un système à base de règles linguistiques qui repose sur un modèle syntaxico-sémantique isomorphique issu des analyses intra- et interlangues entre le français et l’arabe. Il introduit de nouveaux concepts notamment celui des macrostructures miroir contrôlées, où la syntaxe et la sémantique des langues source et cible sont représentées au même niveau<br>The result of our research is a proposal for a controlled French to Arabic machine translation model, applied to security critical domains. This cross-disciplinary research study covers controlled languages and French to Arabic machine translation, two intimately related concepts. In a situation of crisis where communication must play its full role, and in the context of increasing globalisation where many languages coexist, our research findings show that the combination of these two concepts is sorely needed. No one can deny today the predominant role played by security in people’s daily life and the significant challenges it presents in modern societies. These more and more complex and interconnected societies present evident vulnerabilities that force them to rethink their means of protection and in particular that of their communication systems. Language communication with computerised systems is one of the most widely used forms of communication for the transfer of knowledge required in carrying out and completing tasks and in the good conduct of various activities. However, and contrary to an entrenched idea that tends to associate the risk of poor communication only with oral transmission, the use of written language can also be subject to risk. Indeed, a protocol or an alert which is badly formulated can provoke serious accidents due to misunderstanding, in particular during a crisis and under stress. It is in this context that our research has been undertaken. Our thesis proposes an innovative approach in the fields of controlled language and machine translation in which, relying on a microsystemic analysis of the language and a study of the corpus in intension, precise standards are defined for writing and translating protocols and security alerts written in French automatically into Arabic. Indeed, new concepts are introduced by means of several normative methods involved not only in the controlling process but also in the machine translation process. The French to Arabic machine translation system TACCT (Traduction Automatique Contrôlée Centre Tesnière) developed during our research is a rule-based system based on an isomorphic syntactic and semantic model stemming from intra- and interlanguage analysis between French and Arabic. It introduces new concepts including controlled mirror macrostructures, where the syntax and semantics of the source and target languages are represented at the same level
APA, Harvard, Vancouver, ISO, and other styles
9

Yahiaoui, Abdelghani. "Conception et développement d'un outil d'aide à la traduction anglais/arabe basé sur des corpus parallèles." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE2042.

Full text
Abstract:
Dans cette thèse, nous abordons la réalisation d’un outil innovant d’aide à la traduction anglais/arabe pour répondre au besoin croissant en termes d’outils en ligne d’aide à la traduction centrés sur la langue arabe. Cet outil combine des dictionnaires adaptés aux spécificités de la langue arabe et un concordancier bilingue issu des corpus parallèles. Compte tenu de sa nature agglutinante et non voyellée, le mot arabe nécessite un traitement spécifique. C’est pourquoi, et pour construire nos ressources lexicales, nous nous sommes basés sur l’analyseur morphologique de Buckwalter qui, d’une part, permet une analyse morphologique en tenant compte de la composition complexe du mot arabe (proclitique, préfixe, radical, suffixe, enclitique), et qui, d’autre part, fournit des ressources traductionnelles permettant une réadaptation au sein d’un système de traduction. Par ailleurs, cet analyseur morphologique est compatible avec l’approche définie autour de la base de données DIINAR (DIctionnaire Informatisé de l’Arabe), qui a été construite, entre autres, par des membres de notre équipe de recherche. Pour répondre à la problématique du contexte dans la traduction, un concordancier bilingue a été développé à partir des corpus parallèles Ces derniers représentent une ressource linguistique très intéressante et ayant des usages multiples, en l’occurrence l’aide à la traduction. Nous avons donc étudié de près ces corpus, leurs méthodes d’alignement, et nous avons proposé une approche mixte qui améliore significativement la qualité d’alignement sous-phrastique des corpus parallèles anglais-arabes. Plusieurs technologies informatiques ont été utilisées pour la mise en œuvre de cet outil d’aide à la traduction qui est disponible en ligne (tarjamaan.com), et qui permet à l’utilisateur de chercher la traduction de millions de mots et d’expressions tout en visualisant leurs contextes originaux. Une évaluation de cet outil a été faite en vue de son optimisation et de son élargissement pour prendre en charge d’autres paires de langues<br>We create an innovative English/Arabic translation aid tool to meet the growing need for online translation tools centered on the Arabic language. This tool combines dictionaries appropriate to the specificities of the Arabic language and a bilingual concordancer derived from parallel corpora. Given its agglutinative and unvoweled nature, Arabic words require specific treatment. For this reason, and to construct our dictionary resources, we base on Buckwalter's morphological analyzer which, on the one hand, allows a morphological analysis taking into account the complex composition of the Arabic word (proclitic, prefix, stem, suffix, enclitic), and on the other hand, provides translational resources enabling rehabilitation in a translation system. Furthermore, this morphological analyzer is compatible with the approach defined around the DIINAR database (DIctionnaire Informatisé de l’Arabe - Computerized Dictionary for Arabic), which was constructed, among others, by members of our research team. In response to the contextual issue in translation, a bilingual concordancer was developed from parallel corpora. The latter represent a novel linguistic resource with multiple uses, in this case aid for translation. We therefore closely analyse these corpora, their alignment methods, and we proposed a mixed approach that significantly improves the quality of sub-sentential alignment of English-Arabic corpora. Several technologies have been used for the implementation of this translation aid tool which have been made available online (tarjamaan.com) and which allow the user to search the translation of millions of words and expressions while visualizing their original contexts. An evaluation of this tool has been made with a view to its optimization and its enlargement to support other language pairs
APA, Harvard, Vancouver, ISO, and other styles
10

Minko-Mi-Nseme, Sylver Aboubakar Dichy Joseph Hassoun Mohamed. "Modélisation des expressions figées en arabe en vue de la constitution d'une base de données lexicale." Lyon : Université Lumière Lyon 2, 2002. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2003/minko-mi-nseme_sa.

Full text
APA, Harvard, Vancouver, ISO, and other styles
11

Ouersighni, Riadh Hassoun Mohamed Dichy Joseph. "La conception et la réalisation d'un système d'analyse morpho-syntaxique robuste pour l'arabe utilisation pour la détection et le diagnostic des fautes d'accord /." Lyon : Université Lumière Lyon 2, 2002. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2002/ouersighni_r.

Full text
APA, Harvard, Vancouver, ISO, and other styles
12

Ouersighni, Riadh. "La conception et la réalisation d'un système d'analyse morpho-syntaxique robuste pour l'arabe : utilisation pour la détection et le diagnostic des fautes d'accord." Lyon 2, 2002. http://theses.univ-lyon2.fr/documents/lyon2/2002/ouersighni_r.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre du traitement automatique du langage naturel (TALN). Elle concerne la conception et la réalisation effective d'un noyau d système d'analyse morpho-syntaxique robuste de l'arabe de grandeur réelle, qui puisse être utilisé dans les applications à grande échelle. Baptisé AraParse (Arabic Parser). AraParse est basé sur des ressources linguistiques (lexiques et grammaires) à large couverture et permet de traiter de l'arabe voyellé, non-voyellé ou partiellement voyellé. La thèse présente tout d'abord les problèmes posés par l'analyse morphologique, l'analyse syntaxique et l'intégration de ces deux types d'analyse dans un système opérationnel. Le système réalisé, baptisé AraParse, conçu suivant une architecture modulaire, permet un traitement des textes arabes voyellés, non voyellés et partiellement voyellés et utilise des ressources linguistiques (lexiques et grammaires) à large couverture. Nous aborderons ensuite le problème de la robustesse du système. La robustesse caractérise la capacité de l'analyseur à produire un résultat satisfaisant même devant une situation inattendue. Nous avons adopté une démarche tolérante basée sur la distinction entre le noyau et la périphérie de la grammaire. Le noyau décrit des propriétés essentielles de la langue. La périphérie englobe l'ensemble des phénomènes extra-linguistiques. Notre objectif est aussi de concevoir un système qui peut être réutilisé dans d'autre application. La vérification grammaticale en est une. Le système AraCheck, directement déduit de AraParse permet la détection et le diagnostic des fautes d'accord en arabe. Il est basé sur une approche tolérante par une analyse complète en un seul passage, par relâchement de contrainte au niveau des règles de contrôle de la grammaire
APA, Harvard, Vancouver, ISO, and other styles
13

Fehri, Héla. "Reconnaissance automatique des entités nommées arabes et leur traduction vers le français." Thesis, Besançon, 2012. http://www.theses.fr/2012BESA1031/document.

Full text
Abstract:
La traduction des Entités Nommées (EN) est un axe de recherche d'actualité vu la multitude des documents électroniques échangés à travers Internet. Ainsi, le besoin de traiter ces documents par des outils de TALN est devenu nécessaire et intéressant. La modélisation formelle ou semi formelle de ces EN peut intervenir dans les processus de reconnaissance et de traduction. En effet, elle permet de rendre plus fiable la constitution des ressources linquistiques, de limiter l'impact des spécificités linguistiques ct de faciliter les transformations d'une représentation à une autre. Dans ce contexte, nous proposons un outil de reconnaissance ct de traduction vers le français des EN arabes basé essentiellement sur une représentation formelle et sur un ensemble de transducteurs. L'outil prend en compte l'intégration d'un module de translittération. L'implémentation de cet outil a été effectuée en utilisant la plateforme NooJ. Les résultats obtenus sont satisfaisants<br>The translation of named entities (NEs) is a current research topic with regard to the proliferation of electronic documents exchanged through the Internet. So, the need to process these documents with NLP tools becomes necessary and interesting. Formal or semi-formal modeling of these NEs may intervene in both processes of recognition and translation. Indeed, it makes the accumulation of linguistic resources more reliable, limits the impact of linguistic specificities and facilitates the transformation from one representation to another. In this context, we propose a tool for the recognition and translation of Arabic NEs into French, based primarily on formal .representation and a set of transducers. This tool takes into account the integration of a module of transliteration. Its implementation was performed using the NooJ platform and the results obtained proved to be satisfactory
APA, Harvard, Vancouver, ISO, and other styles
14

El, Mahdaouy Abdelkader. "Accès à l'information dans les grandes collections textuelles en langue arabe." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM091/document.

Full text
Abstract:
Face à la quantité d'information textuelle disponible sur le web en langue arabe, le développement des Systèmes de Recherche d'Information (SRI) efficaces est devenu incontournable pour retrouver l'information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la représentation par sac de mots et l'indexation des documents et des requêtes est effectuée souvent par des mots bruts ou des racines. Ce qui conduit à plusieurs problèmes tels que l'ambigüité et la disparité des termes, etc.Dans ce travail de thèse, nous nous sommes intéressés à apporter des solutions aux problèmes d'ambigüité et de disparité des termes pour l'amélioration de la représentation des documents et le processus de l'appariement des documents et des requêtes. Nous apportons quatre contributions au niveau de processus de représentation, d'indexation et de recherche d'information en langue arabe. La première contribution consiste à représenter les documents à la fois par des termes simples et des termes complexes. Cela est justifié par le fait que les termes simples seuls et isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Ainsi, nous avons proposé une méthode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propriétés linguistiques et des modèles statistiques. Le filtre linguistique repose à la fois sur l'étiquetage morphosyntaxique et la prise en compte des variations pour sélectionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d'association permettant de combiner l'information contextuelle avec les degrés de spécificité et d'unité. La deuxième contribution consiste à explorer et évaluer les systèmes de recherche d’informations permettant de tenir compte de l’ensemble des éléments d’indexation (termes simples et complexes). Par conséquent, nous étudions plusieurs extensions des modèles existants de RI pour l'intégration des termes complexes. En outre, nous explorons une panoplie de modèles de proximité. Pour la prise en compte des dépendances de termes dans les modèles de RI, nous introduisons une condition caractérisant de tels modèle et leur validation théorique. La troisième contribution permet de pallier le problème de disparité des termes en proposant une méthode pour intégrer la similarité entre les termes dans les modèles de RI en s'appuyant sur les représentations distribuées des mots (RDMs). L'idée sous-jacente consiste à permettre aux termes similaires à ceux de la requête de contribuer aux scores des documents. Les extensions des modèles de RI proposées dans le cadre de cette méthode sont validées en utilisant les contraintes heuristiques d'appariement sémantique. La dernière contribution concerne l'amélioration des modèles de rétro-pertinence (Pseudo Relevance Feedback PRF). Étant basée également sur les RDM, notre méthode permet d'intégrer la similarité entre les termes d'expansions et ceux de la requête dans les modèles standards PRF. La validation expérimentale de l'ensemble des contributions apportées dans le cadre de cette thèse est effectuée en utilisant la collection standard TREC 2002/2001 de la langue arabe<br>Given the amount of Arabic textual information available on the web, developing effective Information Retrieval Systems (IRS) has become essential to retrieve relevant information. Most of the current Arabic SRIs are based on the bag-of-words representation, where documents are indexed using surface words, roots or stems. Two main drawbacks of the latter representation are the ambiguity of Single Word Terms (SWTs) and term mismatch.The aim of this work is to deal with SWTs ambiguity and term mismatch. Accordingly, we propose four contributions to improve Arabic content representation, indexing, and retrieval. The first contribution consists of representing Arabic documents using Multi-Word Terms (MWTs). The latter is motivated by the fact that MWTs are more precise representational units and less ambiguous than isolated SWTs. Hence, we propose a hybrid method to extract Arabic MWTs, which combines linguistic and statistical filtering of MWT candidates. The linguistic filter uses POS tagging to identify MWTs candidates that fit a set of syntactic patterns and handles the problem of MWTs variation. Then, the statistical filter rank MWT candidate using our proposed association measure that combines contextual information and both termhood and unithood measures. In the second contribution, we explore and evaluate several IR models for ranking documents using both SWTs and MWTs. Additionally, we investigate a wide range of proximity-based IR models for Arabic IR. Then, we introduce a formal condition that IR models should satisfy to deal adequately with term dependencies. The third contribution consists of a method based on Distributed Representation of Word vectors, namely Word Embedding (WE), for Arabic IR. It relies on incorporating WE semantic similarities into existing probabilistic IR models in order to deal with term mismatch. The aim is to allow distinct, but semantically similar terms to contribute to documents scores. The last contribution is a method to incorporate WE similarity into Pseud-Relevance Feedback PRF for Arabic Information Retrieval. The main idea is to select expansion terms using their distribution in the set of top pseudo-relevant documents along with their similarity to the original query terms. The experimental validation of all the proposed contributions is performed using standard Arabic TREC 2002/2001 collection
APA, Harvard, Vancouver, ISO, and other styles
15

Zouari, Lotfi. "Construction automatique d'un dictionnaire orienté vers l'analyse morpho-syntaxique de l'arabe, écrit voyellé ou non voyellé." Paris 11, 1989. http://www.theses.fr/1989PA112073.

Full text
Abstract:
Le présent travail pose le problème du traitement automatique d'une langue naturelle : l'arabe. Le but est d'appréhender la langue arabe écrite, telle qu'elle se présente, sans aucun prétraitement manuel. En premier lieu, il s'agit donc de construire automatiquement un dictionnaire, qui doit permettre l'analyse aussi bien des textes voyellés que non voyellés. En second lieu, l'analyse morphologique doit permettre la reconnaissance des unités lexicales qui composent le texte, lesquelles ne correspondent pas toujours aux entrées du dictionnaire à cause des problèmes de l'agglutination. Côté analyse syntaxique, on s'est intéressé à la levée des ambiguïtés grammaticales simplement. Elle doit en plus prendre en compte les problèmes dûs à l'agglutination<br>This thesis adresses the problem of the automatic treatment of a natural langage : arabic. Its purpose is to treat written arabic, as it is printed, without any pre-editing. First play, we describe the automatic construction of a dictionary, which allows the recognition of the lexical units that makeup the text, units which do not always appear in the dictionary because of agglutination in Arabic. As for syntactic analyses, we resolve grammatic ambiguities, taking into account the problems caused by agglutination
APA, Harvard, Vancouver, ISO, and other styles
16

Ben, Salamah Janan. "Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle." Thesis, Paris 4, 2017. http://www.theses.fr/2017PA040137.

Full text
Abstract:
Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale<br>In this thesis, we proposed a multilingual generic approach for the automatic information extraction. Particularly, events extraction of price variation and temporal information extraction linked to temporal referential. Our approach is based on the constitution of several semantic maps by textual analysis in order to formalize the linguistic traces expressed by categories. We created a database for an expert system to identify and annotate information (categories and their characteristics) based on the contextual rule groups. Two algorithms AnnotEC and AnnotEV have been applied in the SemanTAS platform to validate our assumptions. We have obtained a satisfactory result; Accuracy and recall are around 80%. We presented extracted knowledge by a summary file. In order to approve the multilingual aspect of our approach, we have carried out experiments on French and Arabic. We confirmed the scalability level by the annotation of large corpus
APA, Harvard, Vancouver, ISO, and other styles
17

Morsi, Youcef Ihab. "Analyse linguistique et extraction automatique de relations sémantiques des textes en arabe." Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCC019.

Full text
Abstract:
Cette recherche porte sur le développement d’un outil de traitement automatique de la langue arabe standard moderne, au niveau morphologique et sémantique, avec comme objectif final l’extraction d’information dans le domaine de l’innovation technologique en entreprise. En ce qui concerne l’analyse morphologique, notre outil comprend plusieurs traitements successifs qui permettent d’étiqueter et de désambiguïser les occurrences dans les textes : une couche morphologique (Gibran 1.0), qui s’appuie sur les schèmes arabes comme traits distinctifs ; une couche contextuelle (Gibran 2.0), qui fait appel à des règles contextuelles ; et une troisième couche (Gibran 3.0) qui fait appel à un modèle d’apprentissage automatique. Notre méthodologie est évaluée sur le corpus annoté Arabic-PADT UD treebank. Les évaluations obtiennent une F-mesure de 0,92 et 0,90 pour les analyses morphologiques. Ces expérimentations montrent, entre autres, la possibilité d’améliorer une telle ressource par les analyses linguistiques. Cette approche nous a permis de développer un prototype d’extraction d’information autour de l’innovation technologique pour la langue arabe. Il s’appuie sur l’analyse morphologique et des patrons syntaxico-sémantiques. Cette thèse s’inscrit dans un parcours docteur-entrepreneur<br>This thesis focuses on the development of a tool for the automatic processing of Modern Standard Arabic, at the morphological and semantic levels, with the final objective of Information Extraction on technological innovations. As far as the morphological analysis is concerned, our tool includes several successive processing stages that allow to label and disambiguate occurrences in texts: a morphological layer (Gibran 1.0), which relies on Arabic pattern as distinctive features; a contextual layer (Gibran 2.0), which uses contextual rules; and a third layer (Gibran 3.0), which uses a machine learning model. Our methodology is evaluated using the annotated corpus Arabic-PADT UD treebank. The evaluations obtain an F-measure of 0.92 and 0.90 for the morphological analyses. These experiments demontrate the possibility of improving such a corpus through linguistic analyses. This approach allowed us to develop a prototype of information extraction on technological innovations for the Arabic language. It is based on the morphological analysis and syntaxico-semantic patterns. This thesis is part of a PhD-entrepreneur course
APA, Harvard, Vancouver, ISO, and other styles
18

Asbayou, Omar. "L'identification des entités nommées en arabe en vue de leur extraction et classification automatiques : la construction d’un système à base de règles syntactico-sémantique." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE2136.

Full text
Abstract:
Cette thèse explique et présente notre démarche de la réalisation d’un système à base de règles de reconnaissance et de classification automatique des EN en arabe. C’est un travail qui implique deux disciplines : la linguistique et l’informatique. L’outil informatique et les règles la linguistiques s’accouplent pour donner naissance à une nouvelle discipline ; celle de « traitement automatique des langues », qui opère sur des niveaux différents (morphosyntaxique, syntaxique, sémantique, syntactico-sémantique etc.). Nous avons donc, dans ce qui nous concerne, mis en œuvre des informations et règles linguistiques nécessaires au service du logiciel informatique, qui doit être en mesure de les appliquer, pour extraire et classifier, par des annotations syntaxiques et/ou sémantiques, les différentes classes d’entités nommées.Ce travail de thèse s’inscrit donc dans un cadre général de traitement automatique des langues, mais plus particulièrement dans la continuité des travaux réalisés au niveau de l’analyse morphosyntaxique par la conception et la réalisation des bases des données lexicales SAMIA et ensuite DIINAR avec l’ensemble de résultats de recherches qui en découlent. C’est une tâche qui vise à l’enrichissement lexical par des entités nommées simples et complexes, et qui veut établir la transition de l’analyse morphosyntaxique vers l’analyse syntaxique, et syntatico-sémantique dans une visée plus générale de l’analyse du contenu textuel. Pour comprendre de quoi il s’agit, il nous était important de commencer par la définition de l’entité nommée. Et pour mener à bien notre démarche, nous avons distingué entre deux types principaux : pur nom propre et EN descriptive. Nous avons aussi établi une classification référentielle en se basant sur diverses classes et sous-classes qui constituent la référence de nos annotations sémantiques. Cependant, nous avons dû faire face à deux difficultés majeures : l’ambiguïté lexicale et les frontières des entités nommées complexes. Notre système adopte une approche à base de règles syntactico-sémantiques. Il est constitué, après le Niveau 0 d’analyse morphosyntaxique, de cinq niveaux de construction de patrons syntaxiques et syntactico-sémantiques basés sur les informations linguistique nécessaires (morphosyntaxiques, syntaxiques, sémantique, et syntactico-sémantique). Ce travail, après évaluation en utilisant deux corpus, a abouti à de très bons résultats en précision, en rappel et en F–mesure. Les résultats de notre système ont un apport intéressant dans différents application du traitement automatique des langues notamment les deux tâches de recherche et d’extraction d’informations. En effet, on les a concrètement exploités dans les deux applications (recherche et extraction d’informations). En plus de cette expérience unique, nous envisageons par la suite étendre notre système à l’extraction et la classification des phrases dans lesquelles, les entités classifiées, principalement les entités nommées et les verbes, jouent respectivement le rôle d’arguments et de prédicats. Un deuxième objectif consiste à l’enrichissement des différents types de ressources lexicales à l’instar des ontologies<br>This thesis explains and presents our approach of rule-based system of arabic named entity recognition and classification. This work involves two disciplines : linguistics and computer science. Computer tools and linguistic rules are merged to give birth to a new discipline : Natural Languge Processsing, which operates in different levels (morphosyntactic, syntactic, semantic, syntactico-semantic…). So, in our particular case, we have put the necessary linguistic information and rules to software sevice. This later should be able to apply and implement them in order to recognise and classify, by syntactic and semantic annotations, the different named entity classes.This work of thesis is incorporated within the general domain of natural language processing, but it particularly falls within the scope of the continuity of the accomplished work in terms of morphosyntactic analysis and the realisation of lexical data bases of SAMIA and then DIINAR as well as the accompanying scientific recearch. This task aimes at lexical enrichement with simple and complex named entities and at establishing the transition from the morphological analysis into syntactic and syntactico-semantic analysis. The ultimate objective is text analysis. To understand what it is about, it was important to start with named entity definition. To carry out this task, we distinguished between two main named entity types : pur proper name and descriptive named entities. We have also established a referential classification on the basis of different classes and sub-classes which constitue the reference for our semantic annotations. Nevertheless, we are confronted with two major difficulties : lexical ambiguity and the frontiers of complex named entities. Our system adoptes a syntactico-semantic rule-based approach. After Level 0 of morpho-syntactic analysis, the system is made up of five levels of syntactic and syntactico-semantic patterns based on tne necessary linguisic information (i.e. morphosyntactic, syntactic, semantic and syntactico-semantic information).This work has obtained very good results in termes of precision, recall and F-measure. The output of our system has an interesting contribution in different applications of the natural language processing especially in both tasks of information retrieval and information extraction. In fact, we have concretely exploited our system output in both applications (information retrieval and information extraction). In addition to this unique experience, we envisage in the future work to extend our system into the sentence extraction and classification, in which classified entities, mainly named entities and verbs, play respectively the role of arguments and predicates. The second objective consists in the enrichment of different types of lexical resources such as ontologies
APA, Harvard, Vancouver, ISO, and other styles
19

Ben, Henda Mokhtar. "Morphologie et architecture des interfaces de communication de l'information scientifique et technique dans un environnement multilingue : le contexte arabo-latin." Bordeaux 3, 1999. https://tel.archives-ouvertes.fr/tel-00006373.

Full text
Abstract:
Le multilinguisme arabe-latin que nous qualifions de multilinguisme lourd, presente deux particularites fondamentales qui le distinguent du multilinguisme souple (meme famille linguistique) : la representation et la bidirectionnalite graphiques ou textuelles. Le mecanisme de la representation et du traitement des caracteres et de leurs soubassements de codage et de normalisation constituent encore un point contraignant a la transparence linguistique des systemes et des interfaces homme-machines multilingues. Si le probleme est partiellement resolu sur les plates-formes monopostes et locales, les systemes d'information scientifique et technique ouverts et distribues (i. E. Internet) sont encore soumis a l'hegemonie linguistique latine et plus particulierement anglo-saxonne. L'introduction de la langue arabe (et autres non latines) y est certes en progression, mais elle reste encore interdite aux zones systemes (uris, protocoles, systemes operatoires. . . ). Notre contribution a l'il8n et la 11 on des systemes d'information multilingues en general et les interfaces homme-machine en particulier prend forme d'une proposition qui part du principe de correspondance entre un mecanisme numerique et un jeu de caracteres unifies (unicode, iso 10464). La bidirectionnalite est aussi un facteur de contrainte qui pese sur les interfaces multilingues homme-machine. Les algorithmes de tri, les methodes des traitements logiques et visuels des incises et des bris, les techniques de l'etiquetage et de la negociation linguistiques entre systemes distribues, l'opposition entre la rigueur gauche-droite des chiffres et leur traitement algorithmique de droite a gauche constituent les points les plus importants de notre etude du mecanisme bidi. Notre objectif essentiel est la revocation des systemes d'information et de communication multilingue herites pour ouvrir d'autres pistes de recherche dans les domaines de l'industrie de la langue et de la sociolinguistique<br>The arab-latin multilingualism that we identify as a hard multilingualism presents two major peculiarities that make it distinguishable from soft multilingualism (the same linguistic family) : graphic or textual representation and bidirectionnality. The mechanism of characters representation and processing on basis of coding and standards requirements constitute one of the prime constraints to linguistic transparency of multilingual systems and human-computer interfaces. Even tough the problem has been well addressed within the context of desktop and local platforms, open and distributed network systems (i. E. Internet) are still under control of latin oriented linguistic, and particularly anglo-saxon, hegemony. Other non latin languages are yet on their ways to integrate these systems but they are generally excluded from operating system areas (uris, protocols. . . ). Our contribution to i18n and li on of multilingual information systems and human-computer interfaces is proposed in terms of a combinatory mechanism between a numeric resources identification system and a unified coded character set (unicode or iso 10646). Bidirectionnality is also a constraining factor that weighs on human-computer multilingual interfaces. Sorting algorithms, logical and visual processing of text breaking and interpolation, linguistic labeling and negotiation between distributed systems, the opposition between left-to-right restrictive orientation of numeral and their internal right-to-left algorithmic way of processing constitute the major focal points of our analysis of the bidi mechanism. Our major concern in conducting this research is to revoke inherited and state-of-the-art multilingual scientific information and communication systems in order to dig deeper in specialized research areas like linguistic engineering and socilinguistics
APA, Harvard, Vancouver, ISO, and other styles
20

El, Hage Antoine. "L’Informatique au service des sciences du langage : la conception d’un programme étudiant le parler arabe libanais blanc." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCD005/document.

Full text
Abstract:
A une époque où l’informatique a envahi tous les aspects de notre vie quotidienne, il est tout à fait normal de voir le domaine informatique participer aux travaux en sciences humaines et sociales, et notamment en linguistique où le besoin de développer des logiciels informatiques se fait de plus en plus pressant avec le volume grandissant des corpus traités. D’où notre travail de thèse qui consiste en l’élaboration d’un programme EPL qui étudie le parler arabe libanais blanc. En partant d’un corpus élaboré à partir de deux émissions télévisées enregistrées puis transcrites en lettres arabes, ce programme, élaboré avec le logiciel Access, nous a permis d’extraire les mots et les collocations et de procéder à une analyse linguistique aux niveaux lexical, phonétique, syntaxique et collocationnel. Le fonctionnement de l’EPL ainsi que le code de son développement sont décrits en détails dans une partie informatique à part. Des annexes de taille closent la thèse et rassemblent le produit des travaux de toute une équipe de chercheures venant de maintes spécialités<br>At a time when computer science has invaded all aspects of our daily life, it is natural to see the computer field participating in human and social sciences work, and more particularly in linguistics where the need to develop computer software is becoming more and more pressing with the growing volume of analyzed corpora. Hence our thesis which consists in elaborating a program EPL that studies the white Lebanese Arabic speech. Starting from a corpus elaborated from two TV programs recorded then transcribed in Arabic letters, the program EPL, developed with Access software, allowed us to extract words and collocations, and to carry out a linguistic analysis on the lexical, phonetic, syntactic and collocational levels. The EPL’s functioning as well as its development code are described in the computer part. Important annexes conclude the thesis and gather the result of the work of a team of researchers coming from different specialties
APA, Harvard, Vancouver, ISO, and other styles
21

Mars, Mourad. "Analyse morphologique robuste de l'arabe et applications pédagogiques." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENL046.

Full text
Abstract:
Deux problématiques se croisent dans nos travaux de recherches, ils ne font pas parties du même domaine: la première est issue du TAL (Traitement Automatique des Langues), la seconde est relié au domaine de l'ALAO (Apprentissage des Langues Assisté par Ordinateur).La première partie de nos travaux de recherches rentre dans le cadre de l'analyse morphologique des textes arabes. Pour la création d'un analyseur morphologique, nous avons commencé par la réalisation de toutes les ressources nécessaires (Dictionnaires pour la langue arabe, Matrices de compatibilités, Règles, Corpus d'apprentissage, Modèle de langage, etc.). Nous avons utilisé une approche statistique basée sur les Modèles de Markov Cachés (MMC) qui adhère à des principes de bonne pratique bien établis dans le domaine de l'analyse morphologique. Cette méthodologie a donné naissance à @rab-Morph : un analyseur morphologique robuste et performant pour l'arabe.La deuxième partie des travaux menés se situe dans le cadre de l'ALAO, où l'objectif principal est d'apporter des éléments de réponse à la question suivante ; comment peut-on profiter des outils issues du TAL arabe pour apporter des solutions aux plateformes d'apprentissage de l'arabe langue étrangère? Pour y parvenir et montrer l'intérêt d'avoir recours à des procédures, solutions et outils TAL pour l'apprentissage des langues, nous avons développé un prototype pour l'apprentissage de l'arabe baptisé @rab-Learn. Cet environnement utilise des outils issues du TAL, principalement notre analyseur morphologique @rab-Morph, pour créer des activités pédagogiques variés et automatiser d'avantage le traitement de la langue dans ces plateformes<br>L'auteur n'a pas fourni de résumé en anglais
APA, Harvard, Vancouver, ISO, and other styles
22

Bensalem, Raja. "Construction de ressources linguistiques arabes à l’aide du formalisme de grammaires de propriétés en intégrant des mécanismes de contrôle." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0503/document.

Full text
Abstract:
La construction de ressources linguistiques arabes riches en informations syntaxiques constitue un enjeu important pour le développement de nouveaux outils de traitement automatique. Cette thèse propose une approche pour la création d’un treebank de l’arabe intégrant des informations d’un type nouveau reposant sur le formalisme des Grammaires de Propriétés. Une propriété syntaxique caractérise une relation pouvant exister entre deux unités d’une certaine structure syntaxique. Cette grammaire est induite automatiquement à partir du treebank arabe ATB, ce qui constitue un enrichissement de cette ressource tout en conservant ses qualités. Cet enrichissement a été également appliqué aux résultats d’analyse d’un analyseur état de l’art du domaine, le Stanford Parser, offrant la possibilité d’une évaluation s’appuyant sur un ensemble de mesures obtenues à partir de cette ressource. Les étiquettes des unités de cette grammaire sont structurées selon une hiérarchie de types permettant la variation de leur degré de granularité, et par conséquent du degré de précision des informations. Nous avons pu ainsi construire, à l’aide de cette grammaire, d’autres ressources linguistiques arabes. En effet, sur la base de cette nouvelle ressource, nous avons développé un analyseur syntaxique probabiliste à base de propriétés syntaxiques, le premier appliqué pour l'arabe. Une grammaire de propriétés lexicalisée probabiliste fait partie de son modèle d’apprentissage pour pouvoir affecter positivement le résultat d’analyse et caractériser ses structures syntaxiques avec les propriétés de ce modèle. Nous avons enfin évalué les résultats obtenus en les comparant à celles du Stanford Parser<br>The building of syntactically informative Arabic linguistic resources is a major issue for the development of new machine processing tools. We propose in this thesis to create an Arabic treebank that integrates a new type of information, which is based on the Property Grammar formalism. A syntactic property is a relation between two units of a given syntactic structure. This grammar is automatically induced from the Arabic treebank ATB. We enriched this resource with the property representations of this grammar, while retaining its qualities. We also applied this enrichment to the parsing results of a state-of-the-art analyzer, the Stanford Parser. This provides the possibility of an evaluation using a measure set, which is calculated on this resource. We structured the tags of the units in this grammar according to a type hierarchy. This permit to vary the granularity level of these units, and consequently the accuracy level of the information. We have thus been able to construct, using this grammar, other Arabic linguistic resources. Secondly, based on this new resource, we developed a probabilistic syntactic parser based on syntactic properties. This is the first analyzer of this type that we have applied to Arabic. In the learning model, we integrated a probabilistic lexicalized property grammar that may positively affect the parsing result and describe its syntactic structures with its properties. Finally, we evaluated the parsing results of this approach by comparing them to those of the Stanford Parser
APA, Harvard, Vancouver, ISO, and other styles
23

Elashter, Mouna. "Gestion et extension automatiques du dictionnaire relationnel multilingues de noms propres Prolexbase : mise à jour multilingues et création d'un volume arabe via la Wikipédia." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4011/document.

Full text
Abstract:
Les bases de données lexicales jouent un grand rôle dans le TAL, mais, elles nécessitent un développement et un enrichissement permanents via l’exploitation des ressources libres du web sémantique, entre autres, l’encyclopédie Wikipédia, DBpedia, Geonames et Yago2. Prolexbase, comporte à ce jour dix langues, trois parmi elles sont bien couvertes : le francais, l’anglais et le polonais. Il a été conçu manuellement et une première tentative semi-automatique a été réalisée par le projet ProlexFeeder (Savary et al. 2013). L’objectif de notre travail était d’élaborer un outil de mise à jour et d’extension automatiques de ce lexique, et l'ajout de la langue arabe. Un système automatique a également été mis en place pour calculer via la Wikipédia l’indice de notoriété des entrées de Prolexbase ; cet indice dépend de la langue et participe, d'une part, à la construction d'un module de Prolexbase pour la langue arabe et, d'autre part, à la révision de la notoriété présente pour les autres langues de la base<br>Lexical databases play a significant role in natural language processing (NLP), however, they require permanent development and enrichment through the exploitation of free resources from the semantic web, among others, Wikipedia, DBpedia, Geonames and Yago2. Prolexbase, which issued of numerous studies on NLP, has ten languages, three of which are well covered: French, English and Polish. It was manually designed; the first semiautomatic attempt was made by the ProlexFeeder project (Savary et al., 2013). The objective of our work was to create an automatic updating and extension tool for Prolexbase, and to introduce the Arabic language. In addition, a fully automatic system has been implemented to calculate, via Wikipedia, the notoriety of the entries of Prolexbase. This notoriety is language dependent, is the first step in the construction of an Arabic module of Prolexbase, and it takes a part in the notoriety revision currently present for the other languages in the database
APA, Harvard, Vancouver, ISO, and other styles
24

Abidi, Karima. "La construction automatique de ressources multilingues à partir des réseaux sociaux : application aux données dialectales du Maghreb." Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0274.

Full text
Abstract:
Le traitement automatique des langues est fondé sur l'utilisation des ressources langagières telles que les corpus de textes, les dictionnaires, les lexiques de sentiments, les analyseurs morpho-syntaxiques, les taggers, etc. Pour les langues naturelles, ces ressources sont souvent disponibles. En revanche, lorsqu'il est question de traiter les langues peu dotées, on est souvent confronté au manque d'outils et de données. Dans cette thèse, on s'intéresse à certaines formes vernaculaires de l'arabe utilisées au Maghreb. Ces formes sont connues sous le terme de dialecte que l'on peut classer dans la catégorie des langues peu dotées. Exceptés des textes brutes extraits généralement des réseaux sociaux, il existe très peu de ressources permettant de traiter les dialectes arabes. Ces derniers, comparativement aux autres langues peu dotées possèdent plusieurs spécificités qui les rendent plus difficile à traiter. Nous pouvons citer notamment l'absence de règles d'écriture de ces dialectes, ce qui conduit les usagers à écrire le dialecte sans suivre des règles précises, par conséquent un même mot peut avoir plusieurs graphies. Les mots en arabe dialectal peuvent s’écrire en utilisant le script arabe et/ou le script latin (écriture dite arabizi). Pour les dialectes arabes du Maghreb, ils sont particulièrement influencés par des langues étrangères comme le français et l'anglais. En plus de l'emprunt de mots de ces langues, un autre phénomène est à prendre en compte en traitement automatique des dialectes. Il s'agit du problème connu sous le terme de code-switching. Ce phénomène est connu en linguistique sous le terme de diglossie. Cela a pour conséquence de laisser libre cours à l’utilisateur qui peut écrire en plusieurs langues dans une même phrase. Il peut ainsi commencer en dialecte arabe et au milieu de la phrase, il peut "switcher" vers le français, l'anglais ou l’arabe standard. En plus de cela, il existe plusieurs dialectes dans un même pays et a fortiori plusieurs dialectes différents dans le monde arabe. Il est donc clair que les outils NLP classiques développés pour l’arabe standard ne peuvent être utilisés directement pour traiter les dialectes. L'objectif principal de ce travail consiste à proposer des méthodes permettant la construction automatique de ressources pour les dialectes arabes en général et les dialectes du Maghreb en particulier. Cela représente notre contribution à l'effort fourni par la communauté travaillant sur le traitement automatique des dialectes arabes. Nous avons ainsi produit des méthodes permettant de construire des corpus comparables, des ressources lexicales contenant les différentes formes d'une entrée et leur polarité. Par ailleurs, nous avons développé des méthodes pour le traitement de l'arabe standard sur des données de Twitter et également sur les transcriptions provenant d'un système de reconnaissance automatique de la parole opérant sur des vidéos en arabe extraites de chaînes de télévisions arabes telles que Al Jazeera, France24, Euronews, etc. Nous avons ainsi comparé les opinions des transcriptions automatiques provenant de sources vidéos multilingues différentes et portant sur le même sujet en développant une méthode fondée sur la théorie linguistique dite Appraisal<br>Automatic language processing is based on the use of language resources such as corpora, dictionaries, lexicons of sentiments, morpho-syntactic analyzers, taggers, etc. For natural languages, these resources are often available. On the other hand, when it comes to dealing with under-resourced languages, there is often a lack of tools and data. In this thesis, we are interested in some of the vernacular forms of Arabic used in Maghreb. These forms are known as dialects, which can be classified as poorly endowed languages. Except for raw texts, which are generally extracted from social networks, there is not plenty resources allowing to process Arabic dialects. The latter, compared to other under-resourced languages, have several specificities that make them more difficult to process. We can mention, in particular the lack of rules for writing these dialects, which leads the users to write the dialect without following strict rules, so the same word can have several spellings. Words in Arabic dialect can be written using the Arabic script and/or the Latin script (arabizi). For the Arab dialects of the Maghreb, they are particularly impacted by foreign languages such as French and English. In addition to the borrowed words from these languages, another phenomenon must be taken into account in automatic dialect processing. This is the problem known as code- switching. This phenomenon is known in linguistics as diglossia. This gives free rein to the user who can write in several languages in the same sentence. He can start in Arabic dialect and in the middle of the sentence, he can switch to French, English or modern standard Arabic. In addition to this, there are several dialects in the same country and a fortiori several different dialects in the Arab world. It is therefore clear that the classic NLP tools developed for modern standard Arabic cannot be used directly to process dialects. The main objective of this thesis is to propose methods to build automatically resources for Arab dialects in general and more particularly for Maghreb dialects. This represents our contribution to the effort made by the community working on Arabic dialects. We have thus produced methods for building comparable corpora, lexical resources containing the different forms of an input and their polarity. In addition, we developed methods for processing modern standard Arabic on Twitter data and also on transcripts from an automatic speech recognition system operating on Arabic videos extracted from Arab television channels such as Al Jazeera, France24, Euronews, etc. We compared the opinions of automatic transcriptions from different multilingual video sources related to the same subject by developing a method based on linguistic theory called Appraisal
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!