Academic literature on the topic 'Sémantique distributionnelle'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Sémantique distributionnelle.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Sémantique distributionnelle"

1

Wauquier, Marine, Cécile Fabre, and et Nabil Hathout. "Différenciation sémantique de dérivés morphologiques à l’aide de critères distributionnels." SHS Web of Conferences 46 (2018): 08006. http://dx.doi.org/10.1051/shsconf/20184608006.

Full text
Abstract:
Dans ce travail, nous examinons sur le plan distributionnel le sens de dérivés morphologiques, et plus précisément des noms d’agent déverbaux en-eur,-euse et-rice, et des noms d’action dé verbaux en-age, - ion et-ment. Nous utilisons une approche distributionnelle automatisée et un lexique dérivationnel. Nous proposons une représentation de l’information distributionnelle permettant d’examiner le sens prototypique des dérivés et l’instruction sé mantique prototypique des suffixes. Nous montrons notamment que la différence entre les suffixes-eur,-euse et-rice ne relève pas seulement du genre et que les dérivés en-age,-ion et-ment présentent des profils spécifiques sur le plan distributionnel.
APA, Harvard, Vancouver, ISO, and other styles
2

Heylen, Kris, and Ann Bertels. "Sémantique distributionnelle en linguistique de corpus." Langages 201, no. 1 (2016): 51. http://dx.doi.org/10.3917/lang.201.0051.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Fabre, Cécile. "Sémantique distributionnelle automatique : la proximité distributionnelle comme mode d’accès au sens." Éla. Études de linguistique appliquée N° 180, no. 4 (2015): 395. http://dx.doi.org/10.3917/ela.180.0395.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Landelle, Martine. "Structuration Syntaxique D'un Fragment du Lexique." Lingvisticæ Investigationes. International Journal of Linguistics and Language Resources 15, no. 1 (January 1, 1991): 67–99. http://dx.doi.org/10.1075/li.15.1.04lan.

Full text
Abstract:
En soulignant l'intrication fondamentale du Lexique et de la Grammaire, les évolutions récentes de l'approche transformationnelle d'inspiration Harrissienne ont permis de repousser la dichotomie (longtemps réputée indiscutable) entre syntaxe et sémantique. Dans cette perspective, et à tire d'illustration, nous étudions ici un petit fragment du lexique français (l'expression de la segmentation). Afin de rendre compte de sa cohérence structurelle, nous proposons d'abord une analyse systématique et approfondie des propriétés syntaxiques et distributionnelles de ce fragment. Puis, nous montrons comment cette analyse permet d'appréhender les limites de l'explication syntaxique, et invite à rendre au lexique une place que l'analyse distributionnelle avait exagérément réduite. Il apparaît en effet que l'interprétation de l'expression repose en dernier lieu sur la reconnaissance d'une relation NOM-NOM, à l'intérieur de la phrase simple, et que cette relation de dépendance échappe à toute explication en termes de contraintes sélectionnelles.
APA, Harvard, Vancouver, ISO, and other styles
5

Hou, Jiaqi, and Frédéric Landragin. "Conceptions lexicale et cognitive de la notion d’antécédent : une étude contrastive de l’anaphore pronominale en français et en chinois." SHS Web of Conferences 78 (2020): 12011. http://dx.doi.org/10.1051/shsconf/20207812011.

Full text
Abstract:
Nous proposons dans cet article deux conceptions de la notion d’antécédent, telle qu’elle contribue à l’interprétation référentielle de l’anaphore pronominale. Tandis que du point de vue de la sémantique lexicale, l’antécédent lexical permet d’introduire ou de réintroduire le référent dans la conscience du destinataire, l’antécédent cognitif sert à maintenir le haut degré de saillance référentielle. En analysant des exemples et les résultats de données textuelles en français et en chinois, notre but est de montrer que malgré la différence distributionnelle des pronoms lexicaux et zéro dans les deux langues, les deux langues ont toutes besoin des deux types d’antécédent pour l’interprétation des anaphores pronominales dans un texte.
APA, Harvard, Vancouver, ISO, and other styles
6

Koama, Clément. "Propriétés linguistiques et intérêt didactique des prépositions orphelines françaises." Revue plurilingue : Études des Langues, Littératures et Cultures 6, no. 1 (December 29, 2022): 99–108. http://dx.doi.org/10.46325/ellic.v6i1.70.

Full text
Abstract:
This article takes a panoramic look at the syntactic and semantic properties of orphan prepositions in French, i.e. those used without an obvious regime. The subcategorization of prepositions does not always take into account the diversity of constructional patterns in which this distributional class is embedded. The classification criteria are essentially semantic. However, the semantic interpretation is based on the description of the syntactic structure. The analysis of the syntactic behavior of some prepositions and the recognition of the existence of null objects have established the existence of a subcategory of orphan prepositions whose properties must be described. The present study examines their syntactic and semantic functioning, in particular their transitive and predicative character, as well as their relation with adverbs. The objective is to summarize the knowledge built around zero regime prepositions, by placing them in a didactic perspective. Résumé Cet article porte un regard panoramique sur propriétés syntaxiques et sémantiques des prépositions orphelines en français, c’est-à-dire celles employées sans régime manifeste. La sous-catégorisation des prépositions ne prend pas toujours en compte la diversité des schémas constructionnels dans lesquels s’inscrit cette classe distributionnelle. Les critères de classification sont pour l’essentiel sémantiques. Pourtant l’interprétation sémantique prend appui sur la description de la structure syntaxique. L’analyse du comportement syntaxique de certaines prépositions et la reconnaissance de l’existence d’objets nuls ont consacré l’existence d’une sous-catégorie de prépositions orphelines dont il importe de décrire les propriétés. La présente réflexion interroge leurs fonctionnement syntaxique et sémantique, notamment leur caractère transitif et prédicatif, ainsi que leur relation avec les adverbes,. L’objectif visé est de dresser un état synthétique des savoirs construits autour des prépositions à régime nul, en les inscrivant dans une perspective didactique.
APA, Harvard, Vancouver, ISO, and other styles
7

Lauwers, Peter, and Niek Van Wettere. "Virer et tourner attributifs: De l'analyse quantitative des cooccurrences aux contrastes sémantiques." Canadian Journal of Linguistics/Revue canadienne de linguistique 63, no. 3 (March 1, 2018): 386–422. http://dx.doi.org/10.1017/cnj.2018.2.

Full text
Abstract:
RésuméLa présente contribution porte sur tourner et virer, deux verbes attributifs (p. ex. elle a viré/tourné folle) qui ne sont pas encore reconnus pleinement par la tradition grammaticale normative ni dans les travaux des linguistes. Elle vise à établir le profil distributionnel / collocationnel de ces deux verbes qui semblent opérer dans le même domaine sémantico-fonctionnel, afin de mettre à nu les subtiles divergences au niveau de leur profil sémantique. Celles-ci sont rattachées à la sémantique de base du verbe lexical, laissant entrevoir dans ces emplois grammaticalisés des effets dus à la « persistance lexicale » (lexical persistence). Afin d'objectiver au maximum les profils distributionnels des deux verbes (et partant leur profil sémantique), les outils statistiques offerts par la méthode collostructionnelle (Stefanowitsch et Gries 2003; Gries et Stefanowitsch 2004) sont mis à profit. En outre, la combinaison de l'approche collocationnelle et de l'analyse morphosyntaxique amène à distinguer l'emploi proprement attributif des deux verbes d'un emploi directionnel abstrait homonymique (l'entreprise a viré solaire), qui est encore proche de la construction prépositionnelle (virer à / tourner à).
APA, Harvard, Vancouver, ISO, and other styles
8

Gagean, Nicolas. "Corpus et Classes d’objet." Scolia 16, no. 1 (2003): 97–115. http://dx.doi.org/10.3406/scoli.2003.1037.

Full text
Abstract:
Ces dernières années, l ’informatisation des données a donné un regain d'intérêt à l 'utilisation des corpus en linguistique. Ceux-ci permettent un autre regard sur certains faits linguistiques. Dans cet article, nous examinons la théorie syntactico-sémantique des classes d'objets de Gaston Gross en utilisant des techniques d’analyses de corpus. Il nous a paru intéressant de voir dans quelle mesure le recours aux corpus peut expliquer certaines singularités relevées. Gaston Gross et son équipe regroupent des termes sur des critères distributionnels et constituent ainsi des « classes sémantiques ». Afin de juger de la pertinence de tels regroupements, nous avons observé les distributions des termes d’une classe dans un corpus d’œuvres littéraires.
APA, Harvard, Vancouver, ISO, and other styles
9

Álvarez-Prendes, Emma. "Fonctionnement et évolution de deux paires de marqueurs romans formés sur le verbe dire." Dire et ses marqueurs 46, no. 2 (December 31, 2023): 157–78. http://dx.doi.org/10.1075/li.00089.alv.

Full text
Abstract:
Résumé L’analyse en synchronie et en diachronie de deux paires de marqueurs romans formés sur le verbe dire (cela dit / ceci dit, dicho esto / dicho eso) a révélé d’importantes similitudes et divergences entre eux. D’une part, ils ont été formés à partir du même moule linguistique, partagent les mêmes possibilités distributionnelles et combinatoires et peuvent avoir les mêmes valeurs sémantiques. D’autre part, la date d’émergence de ces marqueurs ainsi que celle du développement de leur valeurs sémantiques secondaires, ou encore la répartition de ces valeurs en fonction de la position syntaxique, sont très différentes selon le marqueur considéré.
APA, Harvard, Vancouver, ISO, and other styles
10

Rochette, Anne. "La structure d’arguments et les propriétés distributionnelles des adverbes." Revue québécoise de linguistique 20, no. 1 (May 7, 2009): 55–77. http://dx.doi.org/10.7202/602687ar.

Full text
Abstract:
Résumé L’étude des propriétés distributionnelles des adverbes de phrase et des adverbes de verbe montre clairement l’existence de différentes classes de prédicats adverbiaux. Ces différentes classes correspondent en fait à des structures d’arguments distinctes qui font appel à des catégories sémantiques telles que « proposition », « événement » et « action ». La structure d’arguments des adverbes nous permet de rendre compte de leur distribution syntaxique particulière sans qu’il soit nécessaire de recourir à des mécanismes spéciaux de sous-catégorisation lexicale.
APA, Harvard, Vancouver, ISO, and other styles
More sources

Dissertations / Theses on the topic "Sémantique distributionnelle"

1

Morlane-Hondère, François. "Une approche linguistique de l'évaluation des ressources extraites par analyse distributionnelle automatique." Phd thesis, Université Toulouse le Mirail - Toulouse II, 2013. http://tel.archives-ouvertes.fr/tel-00937926.

Full text
Abstract:
Dans cette thèse, nous abordons du point de vue linguistique la question de l'évaluation des bases lexicales extraites par analyse distributionnelle automatique (ADA). Les méthodes d'évaluation de ces ressources qui sont actuellement mises en œuvre (comparaison à des lexiques de référence, évaluation par la tâche, test du TOEFL...) relèvent en effet d'une approche quantitative des données qui ne laisse que peu de place à l'interprétation des rapprochements générés. De ce fait, les conditions qui font que certains couples de mots sont extraits alors que d'autres ne le sont pas restent mal connues. Notre travail vise une meilleure compréhension des fonctionnements en corpus qui régissent les rapprochements distributionnels. Pour cela, nous avons dans un premier temps adopté une approche quantitative qui a consisté à comparer plusieurs ressources distributionnelles calculées sur des corpus différents à des lexiques de références (le Dictionnaire électronique des synonymes du CRISCO et le réseau lexical JeuxDeMots). Cette étape nous a permis, premièrement, d'avoir une estimation globale du contenu de nos ressources, et, deuxièmement, de sélectionner des échantillons de couples de mots à étudier d'un point de vue qualitatif. Cette deuxième étape constitue le cœur de la thèse. Nous avons choisi de nous focaliser sur les relations lexico-sémantiques que sont la synonymie, l'antonymie, l'hyperonymie et la méronymie, que nous abordons en mettant en place quatre protocoles différents. En nous appuyant sur les relations contenues dans les lexiques de référence, nous avons comparé les propriétés distributionnelles des couples de synonymes/antonymes/hyperonymes/méronymes qui ont été extraits par l'ADA avec celles des couples qui ne l'ont pas été. Nous mettons ainsi au jour plusieurs phénomènes qui favorisent ou bloquent la substituabilité des couples de mots (donc leur extraction par l'ADA). Ces phénomènes sont considérés au regard de paramètres comme la nature du corpus qui a permis de générer les bases distributionnelles étudiées (corpus encyclopédique, journalistique ou littéraire) ou les limites des lexiques de référence. Ainsi, en même temps qu'il questionne les méthodes d'évaluation des bases distributionnelles actuellement employées, ce travail de thèse illustre l'intérêt qu'il y a à considérer ces ressources comme des objets d'études linguistiques à part entière. Les bases distributionnelles sont en effet le résultat d'une mise en œuvre à grande échelle du principe de substituabilité, ce qui en fait un matériau de choix pour la description des relations lexico-sémantiques.
APA, Harvard, Vancouver, ISO, and other styles
2

Cordeiro, Silvio Ricardo. "Distributional models of multiword expression compositionality prediction." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0501/document.

Full text
Abstract:
Les systèmes de traitement automatique des langues reposent souvent sur l'idée que le langage est compositionnel, c'est-à-dire que le sens d'une entité linguistique peut être déduite à partir du sens de ses parties. Cette supposition ne s’avère pas vraie dans le cas des expressions polylexicales (EPLs). Par exemple, une "poule mouillée" n'est ni une poule, ni nécessairement mouillée. Les techniques pour déduire le sens des mots en fonction de leur distribution dans le texte ont obtenu de bons résultats sur plusieurs tâches, en particulier depuis l'apparition des word embeddings. Cependant, la représentation des EPLs reste toujours un problème non résolu. En particulier, on ne sait pas comment prédire avec précision, à partir des corpus, si une EPL donnée doit être traitée comme une unité indivisible (p.ex. "carton plein") ou comme une combinaison du sens de ses parties (p.ex. "eau potable"). Cette thèse propose un cadre méthodologique pour la prédiction de compositionnalité d'EPLs fondé sur des représentations de la sémantique distributionnelle, que nous instancions à partir d’une variété de paramètres. Nous présenterons une évaluation complète de l'impact de ces paramètres sur trois nouveaux ensembles de données modélisant la compositionnalité d'EPLs, en anglais, français et portugais. Finalement, nous présenterons une évaluation extrinsèque des niveaux de compositionnalité prédits par le modèle dans le contexte d’un système d'identification d'EPLs. Les résultats suggèrent que le choix spécifique de modèle distributionnel et de paramètres de corpus peut produire des prédictions de compositionnalité qui sont comparables à celles présentées dans l'état de l'art
Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a "sitting duck" is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. "nut case") or as some combination of the meaning of its parts (e.g. "engine room"). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art
APA, Harvard, Vancouver, ISO, and other styles
3

Conrath, Juliette. "Unsupervised extraction of semantic relations using discourse information." Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30202/document.

Full text
Abstract:
La compréhension du langage naturel repose souvent sur des raisonnements de sens commun, pour lesquels la connaissance de relations sémantiques, en particulier entre prédicats verbaux, peut être nécessaire. Cette thèse porte sur la problématique de l'utilisation d'une méthode distributionnelle pour extraire automatiquement les informations sémantiques nécessaires à ces inférences de sens commun. Des associations typiques entre des paires de prédicats et un ensemble de relations sémantiques (causales, temporelles, de similarité, d'opposition, partie/tout) sont extraites de grands corpus, par l'exploitation de la présence de connecteurs du discours signalant typiquement ces relations. Afin d'apprécier ces associations, nous proposons plusieurs mesures de signifiance inspirées de la littérature ainsi qu'une mesure novatrice conçue spécifiquement pour évaluer la force du lien entre les deux prédicats et la relation. La pertinence de ces mesures est évaluée par le calcul de leur corrélation avec des jugements humains, obtenus par l'annotation d'un échantillon de paires de verbes en contexte discursif. L'application de cette méthodologie sur des corpus de langue française et anglaise permet la construction d'une ressource disponible librement, Lecsie (Linked Events Collection for Semantic Information Extraction). Celle-ci est constituée de triplets: des paires de prédicats associés à une relation; à chaque triplet correspondent des scores de signifiance obtenus par nos mesures.Cette ressource permet de dériver des représentations vectorielles de paires de prédicats qui peuvent être utilisées comme traits lexico-sémantiques pour la construction de modèles pour des applications externes. Nous évaluons le potentiel de ces représentations pour plusieurs applications. Concernant l'analyse du discours, les tâches de la prédiction d'attachement entre unités du discours, ainsi que la prédiction des relations discursives spécifiques les reliant, sont explorées. En utilisant uniquement les traits provenant de notre ressource, nous obtenons des améliorations significatives pour les deux tâches, par rapport à plusieurs bases de référence, notamment des modèles utilisant d'autres types de représentations lexico-sémantiques. Nous proposons également de définir des ensembles optimaux de connecteurs mieux adaptés à des applications sur de grands corpus, en opérant une réduction de dimension dans l'espace des connecteurs, au lieu d'utiliser des groupes de connecteurs composés manuellement et correspondant à des relations prédéfinies. Une autre application prometteuse explorée dans cette thèse concerne les relations entre cadres sémantiques (semantic frames, e.g. FrameNet): la ressource peut être utilisée pour enrichir cette structure par des relations potentielles entre frames verbaux à partir des associations entre leurs verbes. Ces applications diverses démontrent les contributions prometteuses amenées par notre approche permettant l'extraction non supervisée de relations sémantiques
Natural language understanding often relies on common-sense reasoning, for which knowledge about semantic relations, especially between verbal predicates, may be required. This thesis addresses the challenge of using a distibutional method to automatically extract the necessary semantic information for common-sense inference. Typical associations between pairs of predicates and a targeted set of semantic relations (causal, temporal, similarity, opposition, part/whole) are extracted from large corpora, by exploiting the presence of discourse connectives which typically signal these semantic relations. In order to appraise these associations, we provide several significance measures inspired from the literature as well as a novel measure specifically designed to evaluate the strength of the link between the two predicates and the relation. The relevance of these measures is evaluated by computing their correlations with human judgments, based on a sample of verb pairs annotated in context. The application of this methodology to French and English corpora leads to the construction of a freely available resource, Lecsie (Linked Events Collection for Semantic Information Extraction), which consists of triples: pairs of event predicates associated with a relation; each triple is assigned significance scores based on our measures. From this resource, vector-based representations of pairs of predicates can be induced and used as lexical semantic features to build models for external applications. We assess the potential of these representations for several applications. Regarding discourse analysis, the tasks of predicting attachment of discourse units, as well as predicting the specific discourse relation linking them, are investigated. Using only features from our resource, we obtain significant improvements for both tasks in comparison to several baselines, including ones using other representations of the pairs of predicates. We also propose to define optimal sets of connectives better suited for large corpus applications by performing a dimension reduction in the space of the connectives, instead of using manually composed groups of connectives corresponding to predefined relations. Another promising application pursued in this thesis concerns relations between semantic frames (e.g. FrameNet): the resource can be used to enrich this sparse structure by providing candidate relations between verbal frames, based on associations between their verbs. These diverse applications aim to demonstrate the promising contributions provided by our approach, namely allowing the unsupervised extraction of typed semantic relations
APA, Harvard, Vancouver, ISO, and other styles
4

Romain, Laurence. "A corpus-based study of the causative alternation in English." Thesis, Lille 3, 2018. http://www.theses.fr/2018LIL3H016/document.

Full text
Abstract:
La présente recherche s’interroge sur la présumée dichotomie entre les alternances et les généralisations de surface dans le cadre théorique de la grammaire de constructions. Plus précisément,l’objectif de cette thèse est ternaire. Par l’analyse attentive d’une grande quantité de données, nous faisons une description détaillée de l’alternance causative en anglais (The fabric stretched vs. Joan stretched the fabric), nous proposons une méthode qui permet de mesurer la force d’alternance des verbes ainsi que la quantité de sens partagée entre les deux constructions, et, enfin, nous montrons que si l’on veut rendre compte des contraintes au niveau de la construction, l’on doit alors prendre en compte les généralisations de plus bas niveau, telles que les interactions entre le verbe et ses arguments dans le cadre de chaque construction. Afin d’ajouter au débat entre alternance et généralisations de surface, nous proposons une analyse détaillée des deux constructions qui forment l’alternance causative en anglais : la construction intransitive non-causative d’une part et la construction transitive causative de l’autre.Notre but est de mesurer la quantité de sens partagée par les deux constructions mais aussi démontrer en quoi ces deux constructions diffèrent. Dans cette optique, nous prenons en compte trois éléments: construction, verbe et thème (i.e. l’entité sujette à l’évènement dénoté par le verbe). Nous utilisons la sémantique distributionnelle pour la mesure des similarités sémantiques entre les divers thèmes employés avec chaque verbe dans chaque construction dans notre corpus.Ce groupement sémantique met en lumière les différents sens verbaux employés avec chaque construction et nous permet d’établir des généralisations quant aux contraintes qui s’appliquent au thème dans chaque construction
The present research takes issue with the supposed dichotomy between alternations on the onehand and surface generalisations on the other, within the framework of construction grammar.More specifically the aim of this thesis is threefold. Through the careful analysis of a largedataset, we aim to provide a thorough description of the causative alternation in English (Thefabric stretched vs. Joan stretched the fabric), suggest a method that allows for a solid measure ofa verb’s alternation strength and of the amount of shared meaning between two constructions,and finally, show that in order to capture constraints at the level of the construction, one mustpay attention to lower level generalisations such as the interaction between verb and argumentswithin the scope of each construction.In an effort to add to the discussion on alternation vs. surface generalisations, we propose adetailed study of the two constructions that make up the causative alternation: the intransitivenon-transitive causative construction and the transitive causative construction. Our goal is tomeasure the amount of meaning shared by the two constructions and also show the differencesbetween the two. In order to do so we take three elements into account: construction, verband theme (i.e. the entity that undergoes the event denoted by the verb). We use distributionalsemantics to measure the semantic similarity of the various themes found with each verb andeach construction in our corpus. This grouping highlights the different verb senses used witheach construction and allows us to draw generalisations as to the constraints on the theme ineach construction
APA, Harvard, Vancouver, ISO, and other styles
5

Pierrejean, Bénédicte. "Qualitative evaluation of word embeddings : investigating the instability in neural-based models." Thesis, Toulouse 2, 2020. http://www.theses.fr/2020TOU20001.

Full text
Abstract:
La sémantique distributionnelle a récemment connu de grandes avancées avec l’arrivée des plongements de mots (word embeddings) basés sur des méthodes neuronales qui ont rendu les modèles sémantiques plus accessibles en fournissant des méthodes d’entraînement rapides, efficaces et faciles à utiliser. Ces représentations denses d’unités lexicales basées sur l’analyse non supervisée de gros corpus sont de plus en plus utilisées dans diverses applications. Elles sont intégrées en tant que première couche dans les modèles d’apprentissage profond et sont également utilisées pour faire de l’observation qualitative en linguistique de corpus. Cependant, malgré leur popularité, il n’existe toujours pas de méthode d’évaluation des plongements de mots qui donne à la fois une vision globale et précise des différences existant entre plusieurs modèles.Dans cette thèse, nous proposons une méthodologie pour évaluer les plongements de mots. Nous fournissons également une étude détaillée des modèles entraînés avec la méthode word2vec.Dans la première partie de cette thèse, nous donnons un aperçu de l’évolution de la sémantique distributionnelle et passons en revue les différentes méthodes utilisées pour évaluer les plongements de mots. Par la suite, nous identifions les limites de ces méthodes et proposons de comparer les plongements de mots en utilisant une approche basée sur les voisins sémantiques. Nous expérimentons avec cette approche sur des modèles entrainés avec différents paramètres ou sur différents corpus. Étant donné la nature non déterministe des méthodes neuronales, nous reconnaissons les limites de cette approche et nous concentrons par la suite sur le problème de l’instabilité des voisins sémantiques dans les modèles de plongement de mots. Plutôt que d’éviter ce problème, nous choisissons de l’utiliser comme indice pour mieux comprendre les plongements de mots. Nous montrons que le problème d’instabilité n’affecte pas tous les mots de la même manière et que plus plusieurs traits linguistiques permettent d’expliquer une partie de ce phénomène. Ceci constitue un pas vers une meilleure compréhension du fonctionnement des modèles sémantiques vectoriels
Distributional semantics has been revolutionized by neural-based word embeddings methods such as word2vec that made semantics models more accessible by providing fast, efficient and easy to use training methods. These dense representations of lexical units based on the unsupervised analysis of large corpora are more and more used in various types of applications. They are integrated as the input layer in deep learning models or they are used to draw qualitative conclusions in corpus linguistics. However, despite their popularity, there still exists no satisfying evaluation method for word embeddings that provides a global yet precise vision of the differences between models. In this PhD thesis, we propose a methodology to qualitatively evaluate word embeddings and provide a comprehensive study of models trained using word2vec. In the first part of this thesis, we give an overview of distributional semantics evolution and review the different methods that are currently used to evaluate word embeddings. We then identify the limits of the existing methods and propose to evaluate word embeddings using a different approach based on the variation of nearest neighbors. We experiment with the proposed method by evaluating models trained with different parameters or on different corpora. Because of the non-deterministic nature of neural-based methods, we acknowledge the limits of this approach and consider the problem of nearest neighbors instability in word embeddings models. Rather than avoiding this problem we embrace it and use it as a mean to better understand word embeddings. We show that the instability problem does not impact all words in the same way and that several linguistic features are correlated. This is a step towards a better understanding of vector-based semantic models
APA, Harvard, Vancouver, ISO, and other styles
6

Grave, Edouard. "A Markovian approach to distributional semantics." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2014. http://tel.archives-ouvertes.fr/tel-00940575.

Full text
Abstract:
This thesis, which is organized in two independent parts, presents work on distributional semantics and on variable selection. In the first part, we introduce a new method for learning good word representations using large quantities of unlabeled sentences. The method is based on a probabilistic model of sentence, using a hidden Markov model and a syntactic dependency tree. The latent variables, which correspond to the nodes of the dependency tree, aim at capturing the meanings of the words. We develop an efficient algorithm to perform inference and learning in those models, based on online EM and approximate message passing. We then evaluate our models on intrinsic tasks such as predicting human similarity judgements or word categorization, and on two extrinsic tasks: named entity recognition and supersense tagging. In the second part, we introduce, in the context of linear models, a new penalty function to perform variable selection in the case of highly correlated predictors. This penalty, called the trace Lasso, uses the trace norm of the selected predictors, which is a convex surrogate of their rank, as the criterion of model complexity. The trace Lasso interpolates between the $\ell_1$-norm and $\ell_2$-norm. In particular, it is equal to the $\ell_1$-norm if all predictors are orthogonal and to the $\ell_2$-norm if all predictors are equal. We propose two algorithms to compute the solution of least-squares regression regularized by the trace Lasso, and perform experiments on synthetic datasets to illustrate the behavior of the trace Lasso.
APA, Harvard, Vancouver, ISO, and other styles
7

Mouton, Claire. "Ressources et méthodes semi-supervisées pour l’analyse sémantique de texte en français." Paris 11, 2010. http://www.theses.fr/2010PA112375.

Full text
Abstract:
Pouvoir chercher des informations sur un niveau sémantique plutôt que purement lexical devrait améliorer la recherche d'informations. Cette thèse a pour objectif de développer des modules d'analyse sémantique lexicale afin d'améliorer le système de recherche de documents textuels de la société Exalead. Les travaux présentés concernent plus spécifiquement l'analyse sémantique de texte en français. La problématique liée au traitement du français réside dans le fait qu'il n'existe que peu de ressources sémantiques et de corpus annotés pour cette langue. Rendre possible une telle analyse implique donc d'une part de pourvoir aux besoins en ressources linguistiques françaises, et d'autre part, de trouver des méthodes alternatives ne nécessitant pas de corpus français manuellement annoté. Notre manuscrit est structuré en trois parties suivies d'une conclusion. Les deux chapitres de la première partie délimitent les objectifs et le contexte de notre travail. Le premier introduit notre thèse en évoquant la problématique de la sémantique en recherche d'information, en présentant la notion de sens et en identifiant deux tâches d'analyse sémantique : la désambiguïsation lexicale et l'analyse en rôles sémantiques. Ces deux tâches font l'objet de l'ensemble de notre étude et constituent respectivement les parties 2 et 3. Le second chapitre dresse un état de l'art de toutes les thématiques abordées dans notre travail. La deuxième partie aborde le problème de la désambiguïsation lexicale. Le chapitre 3 est consacré à la constitution de nouvelles ressources françaises pour cette tâche. Nous décrivons dans un premier temps une méthode de traduction automatique des synsets nominaux de WordNet vers le français à partir de dictionnaires bilingues et d'espaces distributionnels. Puis, nous constituons une ressource automatiquement en proposant une adaptation de deux méthodes d'induction de sens existantes. L'originalité des clusters de sens ainsi constitués est de contenir des mots dont la syntaxe est proche de celle des mots source. Ces clusters sont alors exploités dans l'algorithme que nous proposons au chapitre 4 pour la désambiguïsation elle-même. Le chapitre 4 fournit également des recommandations concernant l'intégration d'un tel module dans un système de recherche de documents. L'annotation en rôles sémantiques est traitée dans la troisième partie. Suivant une structure similaire, un premier chapitre traite de la constitution de ressources pour le français, tandis que le chapitre suivant présente l'algorithme développé pour l'annotation elle-même. Ainsi, le chapitre 5 décrit nos méthodes de traduction et d'enrichissement des prédicats de FrameNet, ainsi que l'évaluation associée. Nous proposons au chapitre 6 une méthode semi-supervisée exploitant les espaces distributionnels pour l'annotation en rôles sémantiques. Nous concluons ce chapitre par une réflexion sur l'usage des rôles sémantiques en recherche d'information et plus particulièrement dans le cadre des systèmes de réponses à des questions posées en langage naturel. La conclusion de notre mémoire résume nos contributions en soulignant le fait que chaque partie de notre travail exploite les espaces distributionnels syntaxiques et que ceci permet d'obtenir des résultats intéressants. Cette conclusion mentionne également les perspectives principales que nous inspirent ces travaux. La perspective principale et la plus immédiate est l'intégration de ces modules d'analyse sémantique dans des prototypes de recherche documentaire
The possibility of performing semantic rather than purely lexical search should improve information retrieval. This Ph. D. Work aims at developing modules of lexical semantic analysis, having as a further objective to improve the textual search engine of Exalead company. Presented works deal more specifically with semantic analysis on the French language. Processing of French language is more complex due to the Jack of semantic resources and corpora for this language. Thus, make such an analysis possible implies on the one hand to provide for needs of French linguistic resources, and on the other hand, to find alternate methods which do not require any manually annotated French corpus. Our thesis is divided in three main parts followed by a conclusion. The first part is composed of two chapters which define the objectives and the context of our work. The first of them introduces our thesis. It evokes some semantic issues in the field of lnformation Retrieval, then presents the notion of sense. Finally, it identifies two semantic analysis tasks, namely word sense disambiguation and semantic role labeling. These two tasks are the two main topics we address in our whole study. They are respectively handled in part 2 and 3. The second chapter draws up a state-of-the-art review of all the topics addressed in our work. The second part tackles the word sense disambiguation issue. Chapter 3 is devoted to the building of new French resources dedicated to this task. We first describe a method to automatically translate the nominal synsets of WordNet to French, by using bilingual dictionaries and distributional spaces. Secondly, we put forward an adaptation of two existing methods of word sense induction, in order to acquire a ward senses resource in a fully automatic way. Moreover, the sense clusters built in the latter step show originality as they contain words whose syntax is similar to the syntax of the given ambiguous words. The so-called sense clusters are then used in the ward sense disambiguation algorithm that we put forward in chapter 4. This chapter also provides recommendations in order to integrate such a module in a textual search engine. Semantic role labeling is handled in the third part. Ln a similar fashion, a first chapter deals with the building of resources for the French language, whereas the following chapter presents the algorithm developed for the labeling task itself. Chapter 5 thus describes the method we propose to translate and enrich FrameNet predicates, as well as the related evaluation. We propose in chapter 6 a semi-supervised approach which uses the distributional spaces to label semantic rotes. We conclude this chapter with some considerations on the use of semantic roles in information retrieval and more specifically in the scope of question answering systems. The conclusion of our thesis summarizes our contributions. It emphasizes the fact that each step of our work uses syntactical distributional spaces and that it provides interesting results. This conclusion also draws the main perspectives we see to pursue our studies. The main and immediate concern is to integrate these semantic analysis modules into prototypes for textual documents search
APA, Harvard, Vancouver, ISO, and other styles
8

Périnet, Amandine. "Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD056/document.

Full text
Abstract:
Dans les domaines de spécialité, les applications telles que la recherche d’information ou la traduction automatique, s’appuient sur des ressources terminologiques pour prendre en compte les termes, les relations sémantiques ou les regroupements de termes. Pour faire face au coût de la constitution de ces ressources, des méthodes automatiques ont été proposées. Parmi celles-ci, l’analyse distributionnelle s’appuie sur la redondance d’informations se trouvant dans le contexte des termes pour établir une relation. Alors que cette hypothèse est habituellement mise en oeuvre grâce à des modèles vectoriels, ceux-ci souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. En corpus de spécialité, ces informations contextuelles redondantes sont d’autant plus dispersées et plus rares que les corpus ont des tailles beaucoup plus petites. De même, les termes complexes sont généralement ignorés étant donné leur faible nombre d’occurrence. Dans cette thèse, nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et nous proposons une méthode permettant de densifier la matrice des contextes en réalisant une abstraction des contextes distributionnels. Des relations sémantiques acquises en corpus sont utilisées pour généraliser et normaliser ces contextes. Nous avons évalué la robustesse de notre méthode sur quatre corpus de tailles, de langues et de domaines différents. L’analyse des résultats montre que, tout en permettant de prendre en compte les termes complexes dans l’analyse distributionnelle, l’abstraction des contextes distributionnels permet d’obtenir des groupements sémantiques de meilleure qualité mais aussi plus cohérents et homogènes
In specialised domains, the applications such as information retrieval for machine translation rely on terminological resources for taking into account terms or semantic relations between terms or groupings of terms. In order to face up to the cost of building these resources, automatic methods have been proposed. Among those methods, the distributional analysis uses the repeated information in the contexts of the terms to detect a relation between these terms. While this hypothesis is usually implemented with vector space models, those models suffer from a high number of dimensions and data sparsity in the matrix of contexts. In specialised corpora, this contextual information is even sparser and less frequent because of the smaller size of the corpora. Likewise, complex terms are usually ignored because of their very low number of occurrences. In this thesis, we tackle the problem of data sparsity on specialised texts. We propose a method that allows making the context matrix denser, by performing an abstraction of distributional contexts. Semantic relations acquired from corpora are used to generalise and normalise those contexts. We evaluated the method robustness on four corpora of different sizes, different languages and different domains. The analysis of the results shows that, while taking into account complex terms in distributional analysis, the abstraction of distributional contexts leads to defining semantic clusters of better quality, that are also more consistent and more homogeneous
APA, Harvard, Vancouver, ISO, and other styles
9

Mickus, Timothee. "On the Status of Word Embeddings as Implementations of the Distributional Hypothesis." Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0066.

Full text
Abstract:
Cette thèse s'intéresse au statut des plongements lexicaux (ou "word embeddings"), c'est-à-dire des vecteurs de mots issus de modèles de Traitement Automatique des Langues. Plus particulièrement, notre intérêt se porte sur leur valeur linguistique et la relation qu'ils entretiennent avec la sémantique distributionnnelle, le champ d'études fondé sur l'hypothèse que le contexte est corrélé au sens. L'objet de notre recherche est d'établir si ces plongements lexicaux peuvent être considérés comme une implémentation concrète de la sémantique distributionnelle. Notre première approche dans cette étude consiste à comparer les plongements lexicaux à d'autres représentations du sens, en particulier aux définitions telles qu'on en trouve dans des dictionnaires. Cette démarche se fonde sur l'hypothèse que des représentations sémantiques de deux formalismes distincts devraient être équivalentes, et que par conséquent l'information encodée dans les représentations sémantiques distributionnelles devrait être équivalente à celle encodée dans les définitions. Nous mettons cette idée à l'épreuve à travers deux protocoles expérimentaux distincts~: le premier est basé sur la similarité globale des espaces métrisables décrits par les vecteurs de mots et les définitions, le second repose sur des réseaux de neurones profonds. Dans les deux cas, nous n'obtenons qu'un succès limité, ce qui suggère soit que la sémantique distributionnelle et les dictionnaires encodent des informations différentes, soit que les plongements lexicaux ne sont pas motivés d'un point de vue linguistique. Le second angle que nous adoptons ici pour étudier le rapport entre sémantique distributionnelle et plongements lexicaux consiste à formellement définir ce que nous attendons des représentations sémantiques distributionnelles, puis de comparer nos attentes à ce que nous observons effectivement dans les plongements lexicaux. Nous construisons un jeu de données de jugements humains sur l'hypothèse distributionnelle. Nous utilisons ensuite ce jeu pour obtenir des prédictions sur une tâche de substituabilité distributionnelle de la part de modèles de plongements lexicaux. Bien que nous observions un certain degré de performance de la part des modèles en questions, leur comportement se démarque très clairement de celui de nos annotateurs humains. Venant renforcer ces résultats, nous remarquons qu'une large famille de modèles de plongements qui ont rencontré un franc succès, ceux basés sur l'architecture Transformer, présente des artéfacts directement imputables à l'architecture qu'elle emploie plutôt qu'à des facteurs d'ordre sémantique. Nos expériences suggèrent que la validité linguistique des plongements lexicaux n'est aujourd'hui pas un problème résolu. Trois grandes conclusions se dégagent de nos expériences. Premièrement, la diversité des approches en sémantique distributionnelles n'impliquent pas que ce champ d'étude est voué aux approches informelles: nous avons vu que le linguiste peut s'appuyer sur la substituabilité distributionnelle. Deuxièmement, comme on ne peut pas aisément comparer la sémantique distributionnelle à une autre théorie lexicale, il devient nécessaire d'étudier si la sémantique distributionnelle s'intéresse bien au sens, ou bien si elle porte sur une série de faits entièrement distincte. Troisièmement, bien que l'on puisse souligner une différence entre la qualité des plongements lexicaux et ce qu'on attend qu'ils puisse faire, la possibilité d'étudier cette différence sous un angle quantitatif est de très bon augure pour les travaux à venir
This dissertation studies the status of word embeddings, i.e, vectors produced by NLP systems, insofar they are relevant to linguistic studies. We more specifically focus on the relation between word embeddings and distributional semantics-the field of study based on the assumption that context correlates to meaning. We question whether word embeddings can be seen as a practical implementation of distributional semantics. Our first approach to this inquiry consists in comparing word embeddings to some other representation of meaning, namely dictionary definitions. The assumption underlying this approach is that semantic representations from distinct formalisms should be equivalent, and therefore the information encoded in distributional semantics representations should be equivalent to that of definitions. We test this assumption using two distinct experimental protocols: the first is based on overall metric space similarity, the second relies on neural networks. In both cases, we find limited success, suggesting that either distributional semantics and dictionaries encode different information, or that word embeddings are not linguistically coherent representations of distributional semantics. The second angle we adopt to study the relation between word embeddings and distributional semantics consists in formalizing our expectations for distributional semantics representations, and compare these expectations to what we observe for word embeddings. We construct a dataset of human judgments on the distributional hypothesis, which we use to elicit predictions on distributional substitutability from word embeddings. While word embeddings attain some degree of performance on this task, their behavior and that of our human annotators are found to drastically differ. Strengthening these results, we observe that a large family of broadly successful embedding models all exhibit artifacts imputable to the neural network architecture they use, rather than to any semantically meaningful factor. Our experiments suggest that, while we can formally delineate criteria we expect of distributional semantics models, the linguistic validity of word embeddings is not a solved problem. Three main conclusions emerge from our experiments. First, the diversity of studies in distributional semantics do not entail that no formal statements regarding this theory can be made: we saw that distributional substitutability provides a very convenient handle for the linguist to grasp. Second, that we cannot easily relate distributional semantics to another lexical semantic theory questions whether the distributional hypothesis actually provides an alternative account of meaning, or whether it deals with a very distinct set of facts altogether. Third, while the gap in quality between practical implementations of distributional semantics and our expectations necessarily adds on to the confusion, that we can make quantitative statements about this gap should be taken as a very encouraging sign for future research
APA, Harvard, Vancouver, ISO, and other styles
10

Venant, Fabienne. "Représentation et calcul dynamique du sens : exploration du lexique adjectival du français." Phd thesis, Ecole des Hautes Etudes en Sciences Sociales (EHESS), 2006. http://tel.archives-ouvertes.fr/tel-00067902.

Full text
Abstract:
Ce travail de thèse présente un modèle de construction du sens d'un genre nouveau, défini dans le cadre des mathématiques du continu. Le langage y est vu comme un système morphodynamique, obéissant aux principes de base de la Gestalttheorie. Les unités linguistiques découpent leur sens dans un espace sémantique possédant une structure de variété différentiable. Nous avons implémenté ce modèle et l'avons testé sur le lexique adjectival français. Une méthode de construction automatique des espaces sémantiques, reposant sur l'analyse d'un graphe de synonymie, permet d'explorer le lexique adjectival dans son ensemble, ou de construire des espaces locaux. Les espaces sémantiques locaux servent de base à une méthode dynamique de calcul du sens, permettant de prendre en compte les différents facteurs de polysémie adjectivale. L'utilisation des espaces sémantiques globaux ouvre de belles perspectives, tant dans le domaine du calcul du sens que celui de l'exploration de graphes petit monde.
APA, Harvard, Vancouver, ISO, and other styles

Books on the topic "Sémantique distributionnelle"

1

Rungsawang, Arnon. Recherche documentaire à base de sémantique distributionnelle. Paris: École nationale supérieure des télécommunications, 1998.

Find full text
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Sémantique distributionnelle"

1

Jalenques, Pierre. "Analyse sémantique et contraintes distributionnelles: l’exemple du verbe monter." In XXVe CILPR Congrès International de Linguistique et de Philologie Romanes, edited by Maria Iliescu, Heidi Siller-Runggaldier, and Paul Danler, 3–115. Berlin, New York: De Gruyter, 2010. http://dx.doi.org/10.1515/9783110231922.3-115.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography