Academic literature on the topic 'Reconnaissance du locuteur'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Reconnaissance du locuteur.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Reconnaissance du locuteur"

1

Vitez, Primož. "L’accent orientatif: une visée discursive pour aprrocher l’accentuation du Français." Journal for Foreign Languages 7, no. 1 (December 30, 2015): 133–41. http://dx.doi.org/10.4312/vestnik.7.133-141.

Full text
Abstract:
En d‘autres termes, l‘accentuation en tant que structure formatrice du discours, permet au receveur d‘élaborer au fur et à mesure sa propre stratégie de reconnaissance des intentions, bref, du sens pragmatique de ce qu‘il entend. En exécutant le découpage accentuel, le locuteur permet à son destinataire de s‘orienter dans la complexité du sens, impliquant les nuances argumentatives et intentionnelles. Cette perspective de la fonction discursive de l’accentuation redéfinit l’accent final français en lui attribuant la notion fonctionnelle d’accent orientatif.
APA, Harvard, Vancouver, ISO, and other styles
2

Reboul, Anne. "L’ironie auctoriale : une approche gricéenne est-elle possible ?" Philosophiques 35, no. 1 (June 25, 2008): 25–55. http://dx.doi.org/10.7202/018234ar.

Full text
Abstract:
Résumé Grice a proposé une analyse de l’ironie fondée sur les implicatures, selon laquelle les énoncés ironiques produisent une implicature par antiphrase. Cette thèse, qui suit l’analyse rhétorique classique, la transpose simplement du registre sémantique au pragmatique, ce qui ne suffit pas à répondre à la question de savoir comment l’auditeur saisit l’interprétation par antiphrase, ou pourquoi le locuteur dit une chose quand il signifie l’inverse. L’analyse antiphrastique ne dit pas non plus comment on doit rendre compte des énoncés ironiques qui ne sont pas des assertions. Les analyses contemporaines de l’ironie, comme celles de Sperber et Wilson en termes d’écho, et de Currie — en termes de feintise —, ne rencontrent pas les mêmes difficultés. On les présente en général comme capables de rendre compte des cas « centraux » d’ironie et comme incompatibles entre elles. Dans le présent article, je montre que les deux analyses s’appliquent au même ensemble d’exemples et qu’en fait certaines critiques de Currie contre l’analyse échoique ne sont pas valides. De plus il y a un ensemble d’exemples d’énoncés ironïques que l’on ne peut pas analyser en termes de feintise. Donc aucune des deux analyses n’est assez générale. Pour finir, je propose une analyse selon laquelle les énoncés ironiques montrent (plutôt qu’ils ne disent) un comportement, une croyance ou un raisonnement déraisonnable, et je plaide pour une analyse gricienne, basée non pas sur l’implicature par antiphrase, mais sur la signification non naturelle et la reconnaissance de la double intention du locuteur. Cette analyse est compatible avec l’analyse échoïque et avec celle en termes de feintise, tout en étant plus générale.
APA, Harvard, Vancouver, ISO, and other styles
3

Farget, Doris. "La constitutionnalisation des langues régionales françhises. Entre reconnaissance et effectivité symbolique." Canadian journal of law and society 26, no. 1 (April 2011): 133–58. http://dx.doi.org/10.3138/cjls.26.1.133.

Full text
Abstract:
RésuméL'objectif de cet article est de porter un regard juridique et critique sur la reconnaissance constitutionnelle des langues régionales françaises par l'insertion de l'article 75-1 dans la Constitution du 4 octobre 1958, lors de la réforme constitutionnelle du 21 juillet 2008. L'auteure évalue la portée de la référence, les apports, les effets symboliques, psychologiques et juridiques, ainsi que les limites de cette reconnaissance. Sans remettre totalement en cause les bienfaits du processus de reconnaissance étatique, l'auteure met l'accent sur l'importance d'une reconnaissance autonome simultanée, par les locuteurs eux-mêmes et les membres non-locuteurs des communautés locales qui respectent ces langues.
APA, Harvard, Vancouver, ISO, and other styles
4

RIAIBI, N., and E. LHOTE. "Une approche méthodologique de la reconnaissance de l'origine géographique de locuteurs arabophones." Le Journal de Physique IV 04, no. C5 (May 1994): C5–513—C5–516. http://dx.doi.org/10.1051/jp4:19945109.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Blanchet, Philippe. "Pour la reconnaissance du droit des locuteurs à disposer de leur idiome. Un nouveau principe linguistique." Langage et société 55, no. 1 (1991): 85–94. http://dx.doi.org/10.3406/lsoc.1991.2515.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Mondada, Lorenza. "La construction interactionnelle du topic." Cahiers du Centre de Linguistique et des Sciences du Langage, no. 7 (April 2, 2022): 111–35. http://dx.doi.org/10.26034/la.cdclsl.1995.1925.

Full text
Abstract:
Les analyses que nous proposerons ici visent à décrire un travail séquentiel sur les formes, dans lequel des ressources linguistiques diverses sont utilisées par les locuteurs pour rendre reconnaissable leur traitement du topic au cours de leur activité interactionnelle. En ceci nous indiquerons comment, lorsqu’on se penche sur la dynamique des activités linguistiques dans leur contexte, on est amené à définir l’observabilité des processus à l’œuvre, à identifier des formes marquant ces processus qui ne correspondent pas nécessairement aux marques pour lesquelles la linguistique dispose traditionnellement d’une catégorie et d’une description.
APA, Harvard, Vancouver, ISO, and other styles
7

Patrick, Donna. "Les langues autochtones1 en péril au Canada." Anthropologie et Sociétés 31, no. 1 (June 26, 2007): 125–41. http://dx.doi.org/10.7202/015985ar.

Full text
Abstract:
RésuméLa question de la disparition des langues, en particulier de celle des langues autochtones, a mobilisé de nombreux chercheurs dans les domaines de l’anthropologie, de la sociolinguistique et de l’aménagement linguistique. Le présent article propose une approche multidimensionnelle de la « disparition » des langues dans une perspective à la fois historique, politique et économique. À partir de données provenant de divers contextes linguistiques autochtones au Canada, il avance : (1) que la langue doit être considérée comme une pratique plutôt que comme un « objet » distinct que l’on pourrait isoler dans le temps et dans l’espace, ou comme une « espèce vivante » susceptible de « mourir » ; (2) que les ressources linguistiques s’inscrivent dans des configurations politiques et économiques et, de ce fait, ne peuvent être dissociées des contextes historiques et sociaux dans lesquels vivent les locuteurs ; (3) que la menace de déclin qui pèse sur certaines langues doit être envisagée en termes de continuité linguistique et culturelle plutôt que sous l’angle d’une « perte » ou d’une « disparition » ; et, enfin, (4) que la promotion des langues autochtones soulève un paradoxe fondamental, à savoir que les locuteurs qui se rallient autour d’une variété dialectale homogène et « standardisée » dans le but d’élargir l’espace institutionnel réservé à leur langue risquent d’exclure et de marginaliser ceux d’entre eux qui font usage d’une autre variété dialectale. Cet article souligne ainsi la complexité des enjeux sociaux et anthropologiques sous-jacents à la « modernisation » et à la reconnaissance des langues en péril dans les sphères institutionnelles.
APA, Harvard, Vancouver, ISO, and other styles
8

Benvenuto, Andrea. "Entre affirmation et contestation, la citoyenneté des sourds en question / Between affirmation and contestation, deaf people's citizenship in question." Revista Polis e Psique 5, no. 1 (February 20, 2015): 134. http://dx.doi.org/10.22456/2238-152x.53664.

Full text
Abstract:
Depuis le mouvement de reconnaissance de la langue des signes française des années 1980 et la législation promouvant l'égalité des chances des personnes handicapées (loi du 11 février 2005), les sourds locuteurs d'une langue visuo-gestuelle se sont mobilisés pour réclamer la présence de la langue des signes française comme condition d’accès au plein exercice de leur citoyenneté, sur un pied d’égalité avec les entendants. Cette revendication, liant langue et instruction à l'accès à la citoyenneté des sourds, remonte à deux siècles. Afin d’explorer l'idée de citoyenneté, la place des sourds en tant qu’êtres parlants et « capables de » s'exprimer comme n’importe qui, servira ici d'analyseur. Dans cette contribution, nous nous efforcerons de déplacer la perspective : pour nous dégager de la conception statique du citoyen sourd comme sujet de droit ressortissant des lois et des institutions, nous tenterons de l’inscrire plutôt dans un processus de subjectivation politique toujours soumis à l'épreuve de l'égalité.
APA, Harvard, Vancouver, ISO, and other styles
9

Eek, Élisabeth. "La langue française de l'informatique envisagée depuis une perspective américaine." Meta 43, no. 3 (October 2, 2002): 455–62. http://dx.doi.org/10.7202/002698ar.

Full text
Abstract:
Résumé Le français de l'informatique peut être, d'une part, envisagé depuis différents horizons (France, États-Unis) et également englober différentes logiques linguistiques. D'autre part, une analyse des transferts terminologiques va déclencher, à partir du principe de "mouvance" des idées, une remise en cause du concept traditionnel d'emprunt. Il est bon de rappeler que les terminologies mises au point par les commissions d'experts doivent reposer sur une sémantique reconnaissable par la majorité des locuteurs. L'ignorance de ce principe risque d'engendrer un rejet des nouvelles terminologies, en particulier par les spécialistes de l'informatique eux-mêmes, dont l'attitude de "malaise" linguistique vaut quelques explications. Il conviendra également de rappeler l'influence du français de l'informatique sur l'anglais de même que l'existence des industries de la langue, nécessaires pour faire du fran- çais une langue véhiculaire de la science.
APA, Harvard, Vancouver, ISO, and other styles
10

BEN ALOUI, Nidhal, Hervé GLOTIN, Patrick HEBRARD, and Odile PAPINI. "Paramétrisation qualitative des caractéristiques temps-fréquence pour la reconnaissance du locuteur." Documents numériques Gestion de contenu, February 2009. http://dx.doi.org/10.51257/a-v1-re97.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Reconnaissance du locuteur"

1

Ben, Kheder Waad. "Reconnaissance du locuteur en milieux difficiles." Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0221/document.

Full text
Abstract:
Le domaine de la reconnaissance automatique du locuteur (RAL) a vu des avancées considérables dans la dernière décennie permettant d’atteindre des taux d’erreurs très faibles dans des conditions contrôlées. Cependant, l’implémentation de cette technologie dans des applications réelles est entravée par la grande dégradation des performances en présence de nuisances acoustiques en phase d’utilisation. Un grand effort a été investi par la communauté de recherche en RAL dans la conception de techniques de compensation des nuisances acoustiques. Ces techniques opèrent à différents niveaux : signal, paramètres acoustiques, modèles ou scores. Avec le développement du paradigme de "variabilité totale", de nouvelles possibilités peuvent être explorées profitant des propriété statistiques simples de l’espace des i-vecteurs. Notre travail de thèse s’inscrit dans ce cadre et propose des techniques de compensation des nuisances acoustiques qui opèrent directement dans le domaine des i-vecteurs. Ces algorithmes utilisent des relations simples entre les i-vecteurs corrompus et leurs versions propres et font abstraction de l’effet réel des nuisances dans cet espace. Afin de mettre en œuvre cette méthodologie, des exemples de données propres / corrompues sont générés artificiellement et utilisés pour construire des algorithmes de compensation des nuisances acoustiques. Ce procédé permet d’éviter les dérivations qui peuvent être complexes, voire très approximatives. Les techniques développées dans cette thèse se divisent en deux classes : La première classe de techniques se base sur un modèle de distorsion dans le domaine des i-vecteurs. Une relation entre la version propre et la version corrompue d’un i-vecteur est posée et un estimateur permettant de transformer un i-vecteur de test corrompu en sa version propre est construit. La deuxième classe de techniques n’utilise aucun modèle de distorsion dans le domaine des i-vecteurs. Elle permet de tenir compte à la fois de la distribution des i-vecteurs propres, corrompus ainsi que la distribution jointe. Des expériences ont été réalisées sur les données bruitées ainsi que les données de courte durée ; donnés de NIST SRE 2008 bruitées/découpées artificiellement ainsi que les données du challenge SITW bruitées naturellement / de courte durée
Speaker recognition witnessed considerable progress in the last decade, achieving very low error rates in controlled conditions. However, the implementation of this technology in real applications is hampered by the great degradation of performances in presence of acoustic nuisances. A lot of effort has been invested by the research community in the design of nuisance compensation techniques in the past years. These algorithms operate at different levels : signal, acoustic parameters, models or scores. With the development of the "total variability" paradigm, new possibilities can be explored due to the simple statistical properties of the i-vector space. Our work falls within this framework and presents new compensation techniques which operate directly in the i-vector space. These algorithms use simple relationships between corrupted i-vectors and the corresponding clean versions and ignore the real effect of nuisances in this domain. In order to implement this methodology, pairs of clean and corrupted data are artificially generated then used to develop nuisance compensation algorithms. This method avoids making complex derivations and approximations. The techniques developed in this thesis are divided into two classes : The first class of techniques is based on a distortion model in the i-vector space. A relationships between the clean version of an i-vector and its corrupted version is set and an estimator is built to transform a corrupted test i-vector to its clean counterpart. The second class of techniques does not use any distortion model in the i-vectors domain. It takes into account both the distribution of the clean, corrupt i-vectors as well as the joint distribution. Experiments are carried-out on noisy data and short utterances ; artificially corrupted NIST SRE 2008 data and natural SITW (short / noisy segments)
APA, Harvard, Vancouver, ISO, and other styles
2

Besacier, Laurent. "Un modèle parallèle pour la reconnaissance automatique du locuteur." Avignon, 1998. http://www.theses.fr/1998AVIG0119.

Full text
Abstract:
Ce travail concerne l'introduction d'un modèle parallèle pour l'identification automatique du locuteur. Le choix d'une telle approche réside dans l'hypothèse que des reconnaisseurs travaillant indépendamment sur différents sous-ensembles de paramètres acoustiques sont plus robustes qu'un seul reconnaisseur utilisant l'espace acoustique dans sa globalité. Cette robustesse est cependant conditionnée par de nombreux facteurs qui sont étudiés, ici, dans le cas particulier d'un système multibandes. Le choix de l'architecture multibandes est tout d'abord discuté et nous mettons en évidence les bandes de fréquence les plus utiles pour l'identification automatique du locuteur. Cependant, il ne ressort pas de cette étude préliminaire une configuration optimale (taille et nombre de sous-bandes, recouvrement entre les bandes) permettant d'aborder le problème de la fusion des reconnaisseurs avec une architecture fixée une fois pour toutes. Le choix d'une stratégie pour combiner les scores ou les décisions issus de chaque sous-bande fréquentielle est donc abordé sachant que architecture et fusion sont intimement liées. Nous traitons le problème de la recombinaison dans le cadre théorique de la fusion de multiples reconnaisseurs. Les trois aspects, à notre avis essentiels, du processus de fusion sont abordés : homogénéisation des scores à recombiner ; pondération et critères d'apprentissage des poids ; choix de l'opérateur de fusion numérique. Les principaux opérateurs de fusion numérique sont réunis sous un formalisme commun et une étude théorique sur la sensibilité aux erreurs de ces opérateurs est proposée. Enfin, nous abordons le problème de l'accumulation des scores de recombinaison obtenus sur plusieurs segments temporels, permettant de prendre une décision pour la totalité d'un signal de test. Ce problème dépasse le cadre de notre architecture multibandes car il se pose également pour tout système de reconnaissance ou une décision finale doit être prise avec une série de scores de vraisemblance obtenus en ligne. Cette étape d'accumulation peut être traitée de façon similaire à un problème de fusion multi-reconnaisseurs. Ainsi, nous avons envisagé de remplacer la double phase recombinaison / accumulation par un module unique d'accumulation de scores préalablement normalisés, indépendamment du segment temporel ou de la sous-bande fréquentielle dont ils proviennent. A cet effet, une approche conjointe d'élagage temporel et fréquentiel est formalisée puis experimentée. Les résultats expérimentaux montrent que certains opérateurs de fusion permettent d'obtenir des performances équivalentes à une approche conventionnelle sur des signaux de parole propres. Dans le cas de la parole partiellement bruitée, notre approche multibandes se révèle beaucoup plus robuste, quels que soient les opérateurs de fusion utilisés. La procédure d'élagage temps-fréquence conduit quant à elle à une réduction du taux d'erreur significative sur timit et ntimit (jusqu'à 41% de réduction du taux d'erreur d'identification sur timit) pour des durées courtes d'apprentissage et de test
APA, Harvard, Vancouver, ISO, and other styles
3

Sánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur." Paris, ENST, 2005. http://www.theses.fr/2005ENST0032.

Full text
Abstract:
Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré
This thesis is concerned with the statistical modeling of speech signal applied to Speaker Verification (SV) using Bayesian Networks (BNs). The main idea of this work is to use BNs as a mathematical tool to model pertinent speech features keeping its relations. It combines theoretical and experimental work. The difference between systems and humans performance in SV is the quantity of information and the relationships between the sources of information used to make decisions. A single statistical framework that keeps the conditional dependence and independence relations between those variables is difficult to attain. Therefore, the use of BNs as a tool for modeling the available information and their independence and dependence relationships is proposed. The first part of this work reviews the main modules of a SV system, the possible sources of information as well as the basic concepts of graphical models. The second part deals with Modeling. A new approach to the problems associated with the SV systems is proposed. The problem of inference and learning (parameters and structure)in BNs are presented. In order to obtain an adapted structure the relations of conditional independence among the variables are learned directly from the data. These relations are then used in order to build an adapted BN. In particular, a new model adaptation technique for BN has been proposed. This adaptation is based on a measure between Conditional Probability Distributions for discrete variables and on Regression Matrix for continuous variables used to model the relationships. In a large database for the SV task, the results have confirmed the potential of use the BNs approach
APA, Harvard, Vancouver, ISO, and other styles
4

Mami, Yassine. "Reconnaissance de locuteurs par localisation dans un espace de locuteurs de référence." Phd thesis, Télécom ParisTech, 2003. http://tel.archives-ouvertes.fr/tel-00005757.

Full text
Abstract:
Cette thèse s'inscrit dans le domaine de la reconnaissance automatique du locuteur, domaine riche d'applications potentielles allant de la sécurisation d'accès à l'indexation de documents audio. Afin de laisser le champ à un large éventail d'applications, nous nous intéressons à la reconnaissance de locuteur en mode indépendant du texte et dans le cas où nous disposons de très peu de données d'apprentissage. Nous nous intéressons plus particulièrement à la modélisation et à la représentation des locuteurs. Il s'agit d'estimer avec très peu de données un modèle suffisamment robuste du locuteur pour permettre la reconnaissance du locuteur. La modélisation par un mélange de gaussiennes (GMM), en mode indépendant du texte, fournit des bonnes performances et constitue l'état de l'art en la matière. Malheureusement, cette modélisation est peu robuste dans le cas où on ne dispose que de quelques secondes de parole pour apprendre le modèle du locuteur. Pour tenter de remédier à ce problème, une perspective intéressante de modélisation consiste à représenter un nouveau locuteur, non plus de façon absolue, mais relativement à un ensemble de modèles de locuteurs bien appris. Chaque locuteur est représenté par sa localisation dans un espace de locuteurs de référence. C'est cette perspective que nous avons explorée dans cette thèse. Au cours de ce travail, nous avons recherché le meilleur espace de représentation et la meilleure localisation dans cet espace. Nous avons utilisé le regroupement hiérarchique et la sélection d'un sous-ensemble pour construire cet espace. Les locuteurs sont ensuite localisés par la technique des modèles d'ancrage. Il s'agit de calculer un score de vraisemblance par rapport à chaque locuteur de référence. Ainsi, la proximité entre les locuteurs est évaluée par l'application des distances entre leurs vecteurs de coordonnées.
Nous avons proposé ensuite une nouvelle représentation des locuteurs basée sur une distribution de distances. L'idée est de modéliser un locuteur par une distribution sur les distances mesurées dans l'espace des modèles d'ancrage. Cela permet d'appliquer une mesure statistique entre l'occurrence de test et les modèles des locuteurs à reconnaître (au lieu d'une mesure géométrique).
Ainsi, si nous avons approfondi la modélisation d'un locuteur par sa position dans un espace de locuteurs de référence, nous avons également étudié comment cette position pouvait permettre une meilleure estimation du modèle GMM du locuteur, par exemple en fusionnant les modèles de ses plus proches voisins. Finalement, en complément à la modélisation GMM-UBM, nous avons étudié des algorithmes de fusion de décisions avec les différentes approches proposées.
APA, Harvard, Vancouver, ISO, and other styles
5

Preti, Alexandre. "Surveillance de réseaux professionnels de communication par reconnaissance du locuteur." Avignon, 2008. http://www.theses.fr/2008AVIG0160.

Full text
Abstract:
Ce travail de thèse s'intéresse à la reconnaissance automatique du locuteur (RAL) dans les réseaux professionnels de communication (Private Mobile Radio networks : PMR). Plus précisément, nous nous intéressons à la surveillance des utilisateurs en cours de communication pour détecter un changement de locuteur, issu du vol ou du prêt d'un terminal de communication. Les systèmes « état de l'art » de RAL présentent aujourd'hui de très bonnes performances sur des signaux de conversations téléphoniques. Néanmoins, l'application envisagée entraine différentes contraintes liées au fonctionnement du réseau PMR et à l'ergonomie particulière d'une telle application. En effet, la RAL doit être effectuée en continue et les réseaux PMR offrent une qualité du signal de parole plus faible que les réseaux de téléphonie classique. Dans ce travail, nous évaluons l'impact de ces contraintes applicatives sur les performances d'un système de RAL et nous proposons des solutions pour pallier les différents problèmes énoncés. Plus particulièrement, nous nous intéressons à la phase de paramétrisation qui doit être réalisée en ligne et dans l'environnement des réseaux PMR, ainsi qu'à l'adaptation non supervisée des modèles de locuteurs. Cette technique permet d'utiliser des données de test pour améliorer les modèles de locuteur ; elle répond au problème des durées courtes d'apprentissage et permet de mieux modéliser les variabilités intra-locuteur et inter-session
This thesis work deals with automatic speaker recognition for professional telecommunication networks (PMR). More precisely, the targeted application is the online monitoring of communications on this kind of networks. State of the art speaker recognition systems show good performance on telephonic data. Therefore, the targeted application introduces specific constaints. We evaluate the impact of these constraints on a baseline speaker recognition system and propose solutions to limit their influence on recognition error rates. Firstly, we propose an optimised speech parameterization. Some technics are introduced to compensate the effects of noisy environments, low bitrate voice coding and channel transmission variations. Moreover, this parameterization is compliant with the online recognition processing needed by the targeted application. Then, we introduce a new approach for unsupervised speaker model adaptation to reduce the issue of the poor quantity of learning data. Unsupervised adaptation is also a way to reduce the impact of the intra-speaker and inter-session variabilities. We propose a continuous progressive speaker model adaptation able to take into account all the test data withdrawing threshold based data selection
APA, Harvard, Vancouver, ISO, and other styles
6

Jourani, Reda. "Reconnaissance automatique du locuteur par des GMM à grande marge." Phd thesis, Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1668/.

Full text
Abstract:
Depuis plusieurs dizaines d'années, la reconnaissance automatique du locuteur (RAL) fait l'objet de travaux de recherche entrepris par de nombreuses équipes dans le monde. La majorité des systèmes actuels sont basés sur l'utilisation des Modèles de Mélange de lois Gaussiennes (GMM) et/ou des modèles discriminants SVM, i. E. , les machines à vecteurs de support. Nos travaux ont pour objectif général la proposition d'utiliser de nouveaux modèles GMM à grande marge pour la RAL qui soient une alternative aux modèles GMM génératifs classiques et à l'approche discriminante état de l'art GMM-SVM. Nous appelons ces modèles LM-dGMM pour Large Margin diagonal GMM. Nos modèles reposent sur une récente technique discriminante pour la séparation multi-classes, qui a été appliquée en reconnaissance de la parole. Exploitant les propriétés des systèmes GMM utilisés en RAL, nous présentons dans cette thèse des variantes d'algorithmes d'apprentissage discriminant des GMM minimisant une fonction de perte à grande marge. Des tests effectués sur les tâches de reconnaissance du locuteur de la campagne d'évaluation NIST-SRE 2006 démontrent l'intérêt de ces modèles en reconnaissance
Most of state-of-the-art speaker recognition systems are based on Gaussian Mixture Models (GMM), trained using maximum likelihood estimation and maximum a posteriori (MAP) estimation. The generative training of the GMM does not however directly optimize the classification performance. For this reason, discriminative models, e. G. , Support Vector Machines (SVM), have been an interesting alternative since they address directly the classification problem, and they lead to good performances. Recently a new discriminative approach for multiway classification has been proposed, the Large Margin Gaussian mixture models (LM-GMM). As in SVM, the parameters of LM-GMM are trained by solving a convex optimization problem. However they differ from SVM by using ellipsoids to model the classes directly in the input space, instead of half-spaces in an extended high-dimensional space. While LM-GMM have been used in speech recognition, they have not been used in speaker recognition (to the best of our knowledge). In this thesis, we propose simplified, fast and more efficient versions of LM-GMM which exploit the properties and characteristics of speaker recognition applications and systems, the LM-dGMM models. In our LM-dGMM modeling, each class is initially modeled by a GMM trained by MAP adaptation of a Universal Background Model (UBM) or directly initialized by the UBM. The models mean vectors are then re-estimated under some Large Margin constraints. We carried out experiments on full speaker recognition tasks under the NIST-SRE 2006 core condition. The experimental results are very satisfactory and show that our Large Margin modeling approach is very promising
APA, Harvard, Vancouver, ISO, and other styles
7

Jourani, Reda. "Reconnaissance automatique du locuteur par des GMM à grande marge." Phd thesis, Université Paul Sabatier - Toulouse III, 2012. http://tel.archives-ouvertes.fr/tel-00807563.

Full text
Abstract:
Depuis plusieurs dizaines d'années, la reconnaissance automatique du locuteur (RAL) fait l'objet de travaux de recherche entrepris par de nombreuses équipes dans le monde. La majorité des systèmes actuels sont basés sur l'utilisation des Modèles de Mélange de lois Gaussiennes (GMM) et/ou des modèles discriminants SVM, i.e., les machines à vecteurs de support. Nos travaux ont pour objectif général la proposition d'utiliser de nouveaux modèles GMM à grande marge pour la RAL qui soient une alternative aux modèles GMM génératifs classiques et à l'approche discriminante état de l'art GMM-SVM. Nous appelons ces modèles LM-dGMM pour Large Margin diagonal GMM. Nos modèles reposent sur une récente technique discriminante pour la séparation multi-classes, qui a été appliquée en reconnaissance de la parole. Exploitant les propriétés des systèmes GMM utilisés en RAL, nous présentons dans cette thèse des variantes d'algorithmes d'apprentissage discriminant des GMM minimisant une fonction de perte à grande marge. Des tests effectués sur les tâches de reconnaissance du locuteur de la campagne d'évaluation NIST-SRE 2006 démontrent l'intérêt de ces modèles en reconnaissance.
APA, Harvard, Vancouver, ISO, and other styles
8

Mariéthoz, Johnny. "Algorithmes d'apprentissage discriminants en vérification du locuteur." Lyon 2, 2006. http://theses.univ-lyon2.fr/documents/lyon2/2006/mariethoz_j.

Full text
Abstract:
This thesis addresses text-independent speaker verification from a machine learning point of view. We use the machine learning framework to better define the problem and to develop new unbiased performance measures and statistical tests to compare objectively new approaches. We propose a new interpretation of the state-of-the-art Gaussian Mixture Model based system and show that they are discriminant and equivalent to a mixture of linear classifiers. A general framework for score normalization is also given for both probability and non-probability based models. With this new framework we better show the hypotheses made for the well known Z- and T- score normalization techniques. Several uses of discriminant models are then proposed. In particular, we develop a new sequence kernel for Support Vector Machines that generalizes an other sequence kernel found in the literature. If the latter is limited to a polynomial form the former allows the use of infinite space kernels such as Radial Basis Functions. A variant of this kernel that finds the best match for each frame of the sequence to be compared, actually outperforms the state-of-the-art systems. As our new sequence kernel is computationally costly for long sequences, a clustering technique is proposed for reducing the complexity. We also address in this thesis some problems specific to speaker verification such as the fact that the classes are highly unbalanced. And the use of a specific intra- and inter-class distance distribution is proposed by modifying the kernel in order to assume a Gaussian noise distribution over negative examples. Even if this approach misses some theoretical justification, it gives very good empirical results and opens a new research direction
Dans cette thèse le problème de la vérification du locuteur indépendante du texte est abordée du point de vue de l'apprentissage statistique (machine learning). Les théories développées en apprentissage statistique permettent de mieux définir ce problème, de développer de nouvelles mesures de performance non-biaisées et de proposer de nouveaux tests statistiques afin de comparer objectivement les modèles proposés. Une nouvelle interprétation des modèles de l'état de l'art basée sur des mixtures de gaussiennes (GMM) montre que ces modèles sont en fait discriminants et équivalents à une mixture d'experts linéaires. Un cadre théorique général pour la normalisation des scores est aussi proposé pour des modèles probabilistes et non-probabilistes. Grâce à ce nouveau cadre théorique, les hypothèses faites lors de l'utilisation de la normalisation Z et T (T- and Z-norm) sont mises en évidence. Différents modèles discriminants sont proposés. On présente un nouveau noyau utilisé par des machines à vecteurs de support (SVM) qui permet de traîter des séquences. Ce noyau est en fait la généralisation d'un noyau déjà existant qui présente l'inconvénient d'être limité à une forme polynomiale. La nouvelle approche proposée permet la projection des données dans un espace de dimension infinie, comme c'est le cas, par exemple, avec l'utilisation d'un noyau gaussien. Une variante de ce noyau cherchant le meilleur vecteur acoustique (frame) dans la séquence à comparer, améliore les résultats actuellement connus. Comme cette approche est particulièrement coûteuse pour les séquences longues, un algorithme de regroupement (clustering) est utilisé pour en réduire la complexité. Finalement, cette thèse aborde aussi des problèmes spécifiques de la vé-ri-fi-ca-tion du locuteur, comme le fait que les nombres d'exemples positifs et négatifs sont très déséquilibrés et que la distribution des distances intra et inter classes est spécifique de ce type de problème. Ainsi, le noyau est modifié en ajoutant un bruit gaussien sur chaque exemple négatif. Même si cette approche manque de justification théorique pour l'instant, elle produit de très bons résultats empiriques et ouvre des perspectives intéressantes pour de futures recherches
APA, Harvard, Vancouver, ISO, and other styles
9

Grondin, François. "Reconnaissance de locuteurs pour robot mobile." Mémoire, Université de Sherbrooke, 2012. http://savoirs.usherbrooke.ca/handle/11143/1632.

Full text
Abstract:
L'audition artificielle est de plus en plus utilisée en robotique mobile pour améliorer l'interaction humain-robot. La reconnaissance de la parole occupe présentement une place importante tandis qu'un intérêt particulier se développe pour la reconnaissance de locuteurs. Le système ManyEars permet actuellement à un robot mobile de localiser, suivre et séparer plusieurs sources sonores. Ce système utilise un ensemble de huit microphones qui sont disposés en cube. Ce mémoire porte sur la conception et l'évaluation d'un système de reconnaissance de locuteurs, baptisé WISS (Who IS Speaking), couplé au système ManyEars. Le système de reconnaissance de locuteurs conçu est robuste au bruit ambiant et au changement d'environnement. Une technique de combinaison de modèle parallèle (parallel model combination (PMC)) et des masques sont utilisés pour améliorer le taux d'identification dans un milieu bruité. Un indice de confiance est également introduit pour pondérer les identifications obtenues. La simplicité du système proposé fait en sorte qu'il est possible d'exécuter en temps réel l'algorithme sur un processeur généraliste ( General Purpose Processor (GPP)). Les performances du système sont établies à l'aide de plusieurs scénarios. Dans un premier lieu, des enregistrements sont diffusés dans des haut-parleurs pour un ensemble de vingt locuteurs. Le système est ainsi caractérisé en fonction des positions angulaires et radiales des sources sonores. Le taux de reconnaissance est affecté par la qualité du signal (i.e. diminution du rapport signal sur bruit ( Signal-to-Noise Ratio (SNR))) : il passe de 95.6% à 84.3% en moyenne lorsque le SNR passe d'environ 16 dB à 2 dB lorsque le locuteur se situe à 1.5 mètres des microphones. Par la suite, un scénario dit statique est vérifié à l'aide de quatre locuteurs qui récitent chacun leur tour des phrases à un volume de voix naturel. Finalement, un scénario dynamique dans lequel un groupe de quatre locuteurs ont une conversation naturelle avec des chevauchements entre les segments de paroles est étudié. Le taux de reconnaissance varie entre 74.2% et 100.0% (avec une moyenne de 90.6%) avec le scénario statique, et entre 42.6% et 100.0% avec le scénario dynamique (avec des moyennes de 58.3%, 72.8% et 81.4% pour des segments de 1, 2 et 3 secondes respectivement). Des solutions sont identifiées afin d'améliorer les performances lors de travaux futurs. Au meilleur de notre connaissance, il n'existe aucun système qui effectue une reconnaissance de locuteurs dans un environnement contaminé simultanément par des bruits convolutif et additif. De plus, l'utilisation de masques pour estimer ces bruits est un nouveau concept. Ces masques sont d'ailleurs généralement employés pour la reconnaissance de la parole et leur utilisation dans un contexte de reconnaissance de locuteur est une première. De plus, une caractérisation complète du système qui inclue les SNRs est proposée en fonction de la position du locuteur, ce qui est rarement disponible dans la littérature en audition artificielle pour les robots.
APA, Harvard, Vancouver, ISO, and other styles
10

Bennani, Younès. "Approches connexionnistes pour la reconnaissance automatique du locuteur : modelisation & identification." Paris 11, 1992. http://www.theses.fr/1992PA112006.

Full text
Abstract:
Cette these est consacree a l'etude d'approches connexionnistes en vue de la possibilite d'identification automatique des individus a partir de leur voix. L'identification du locuteur a ete abordee en mode dependant et independant du texte. On elabore progressivement une methodologie adaptee a ce probleme de reconnaissance des formes. L'approche connexionniste modulaire nous a permis d'incorporer des connaissances a priori sur le probleme par decomposition de la tache globale en sous taches faciles a aborder. Cette approche totalement generale permet de traiter un grand nombre de locuteurs, et est transposable a d'autres problemes. L'expose evalue la validation de l'approche connexionniste sur une population de 102 locuteurs extraite de la base internationale darpa-timit. La phase d'apprentissage du systeme demande environ une dizaine de secondes du signal parole et permet une identification en temps reel avec moins d'une seconde d'elocution. Parallelement a la fin de cette etude, une possibilite de cooperation des systemes connexionnistes avec d'autres techniques afin de concevoir des systemes modulaires hybrides est presentee. Ces derniers systemes offrent des alternatives ou des prolongements a l'approche principale developpee. Les resultats obtenus pendant ce travail permettent d'ores et deja de construire un prototype
APA, Harvard, Vancouver, ISO, and other styles
More sources

Books on the topic "Reconnaissance du locuteur"

1

Jean-Pierre, Tubach, Boë Louis-Jean, and Calliope (Association), eds. La Parole et son traitement automatique. Paris: Masson, 1989.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
2

Meuwly, Didier. Reconnaissance de locuteurs en sciences forensiques: L'apport d'une approche automatique. Lausanne: Université de Lausanne, Faculté de droit, Institut de police scientifique et de criminologie, 2001.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
3

La Parole et son traitement automatique. Dunod, 1997.

Find full text
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Reconnaissance du locuteur"

1

BEAUCOUSIN, Virginie. "Apprendre à reconnaître les autres : effet des émotions vocales." In Processus émotionnels en situation d’apprentissage, 189–216. ISTE Group, 2022. http://dx.doi.org/10.51926/iste.9042.ch7.

Full text
Abstract:
Ce chapitre se focalise sur la voix comme porteur d’information concernant l’identité et les émotions du locuteur. Il montre que les émotions vocales sont l’occasion d’apprentissage, car les informations véhiculées par la voix jouent un rôle important dans la mémorisation et la reconnaissance du locuteur. Ce processus, qui peut être altéré, permet des interactions interpersonnelles efficaces. Enfin, il souligne le phénomène facilitateur des émotions sur la reconnaissance d’autrui.
APA, Harvard, Vancouver, ISO, and other styles
2

BERTUCCI, Marie-Madeleine, and Mounia ILLOURMANNE. "Transcrire un corpus audio dans la perspective de la préservation du patrimoine culturel immatériel." In Corpus audiovisuels, 115–24. Editions des archives contemporaines, 2022. http://dx.doi.org/10.17184/eac.5704.

Full text
Abstract:
Résumés Marie-Madeleine Bertucci L’article a pour objet « l’étude de la mise en mots de la mémoire des « Chibanis » du quartier de la Goutte d’or à Paris » à partir d’un corpus d’entretiens biographiques audio. Ces entretiens ont été réalisés par Jean-Marc Bombeau, dans les locaux de la galerie associative l’Échomusée, située rue Cavé dans le XVIIIe arrondissement de Paris, avec un groupe de Chibanis ou anciens du quartier de 2010 à 2012. Cette étude discursive mémorielle est le sujet de la thèse de Mounia Illourmane. Ces entretiens font émerger la mémoire de ces acteurs sociaux en les conduisant à jeter un regard rétrospectif et réflexif sur leur passé, de leur arrivée à Paris dans les années soixante, dans le cadre d’une immigration de travail jusqu’à leur retraite qui prend effet dans la période contemporaine. Ils autorisent l’émergence d’un processus de patrimonialisation de données mémorielles qui constituent le socle d’un patrimoine immatériel. Les entretiens ont visé à la fois le passé et le présent et ont cherché à mettre en lumière, à travers le travail sur la mémoire, le retour rétrospectif sur le passé, l’historicité du présent et les types de liens sociaux tissés à travers l’expérience de l’exil. Au plan théorique, la réflexion s’inscrit dans la perspective des cultural et des subaltern studies pour mettre en évidence le caractère fragmentaire et discontinu de ces récits mémoriels par le biais d’une étude du lexique privilégié par les énonciateurs. Le patrimoine culturel immatériel, porté par la convention de l’UNESCO du 17 octobre 2003, et sa conservation supposent deux types de questionnements. D’une part, il s’agit de concevoir différemment les politiques patrimoniales, en les envisageant du point de vue des détenteurs du patrimoine et non plus seulement du point de vue des experts, d’autre part d’élaborer des modalités de préservation des données autres que celles du patrimoine matériel, ce sur quoi va porter l’article. Mounia Illourmane Ce sujet m’a été proposé par ma directrice de thèse Marie-Madeleine Bertucci. Jean-Marc Bombeau a mis à notre disposition un ensemble de données brutes (séquences vidéo, bandes son et photos), sauvegardées sur un disque dur. Avec ma directrice de recherche, nous avons conçu un outil de classement, d’indexation et d’arborescence des données pour déterminer la nature et la quantité des matériaux à exploiter. À partir d’une démarche muséale et ethnographique, il s'agit de transcrire un corpus audio dans une perspective de conservation d'archives et de valorisation de données peu accessibles matériellement et s’inscrivant dans le cadre du patrimoine culturel immatériel. Néanmoins au cours de cette tâche, sont apparues certaines difficultés d'ordre technique, étant donné que le corpus n'est pas destiné à cet effet, la prise de son est artisanale ce qui a rendu la transcription plus complexe. Face à des locuteurs non natifs avec un accent prononcé, les logiciels de reconnaissance vocale et de transcription automatique sont inadaptés. Par conséquent, le choix des outils s'est porté sur deux logiciels informatiques, « Express Scribe » et « E-Speaking ». Le premier est un logiciel professionnel de lecture audio conçu pour faciliter la transcription des enregistrements audio. Grâce à cet outil on peut contrôler la vitesse de lecture audio ainsi avoir une lecture à vitesse variable. « E-Speaking » est un logiciel de contrôle et de reconnaissance vocale qui a pour fonction la dictée et l'exécution des tâches sur ordinateur avec la voix de l'utilisateur. On l’a utilisé notamment pour accélérer le travail de transcription des bandes son. L'emploi de ces deux outils a permis la transcription en restant le plus fidèlement possible à l'original tout en tenant compte des nombreuses contraintes d'ordre syntaxique, orthographique et phonologique résultant du caractère oral des données.
APA, Harvard, Vancouver, ISO, and other styles
3

Kroubo, Kafé Guy Christian, and Ouattara Bakary. "Parlers urbains et insécurité : l’exemple du nouchi dans le trafic illicite de drogues à Abidjan." In Les parlers urbains africains au prisme du plurilinguisme : description sociolinguistique, 281–303. Observatoire européen du plurilinguisme, 2020. http://dx.doi.org/10.3917/oep.kosso.2020.01.0281.

Full text
Abstract:
Le nouchi, ou mélange de langue, traité d’ “argot abidjanais” au début des années 80 (Kouadio, 1992 :178) s’est imposé progressivement comme style d’expression populaire en Côte d’Ivoire. Dans sa pratique, cette variété est diversement interprétée par les chercheurs. Pour les uns, c’est le signe de l’appropriation réussie du français par les locuteurs ivoiriens (Aboa, 2011 : 53). Pour d’autres, le nouchi est la volonté de reconnaissance, d’identification de certains jeunes (Lafage 2002 ; 35 ; Kouadio, 2008) qui le revendiquent comme moyen d’affirmation de leur esprit créateur et de leur volonté de liberté et d’autonomie (Cissé, 2015). En marge de ces différentes prises de positions théoriques qui rendent compte de sa mutation, le nouchi reste encore attaché à son statut marginal, servant de codes et de tactiques criminelles aux rebuts sociaux et autres déviants pour couvrir leurs activités criminelles, alimentant ainsi l’insécurité urbaine. C’est le cas pour le trafic de drogues. Une criminalité en pleine expansion à Abidjan qui résiste aux politiques et actions de lutte informelles et Etatiques (MDM, 2014 ; RAIDH, 2015 ; DPSD, 2016) et dont les acteurs sont fortement imprégnés de cette technique d’expression. L’objectif de cet article est de montrer l’incidence du nouchi sur la lutte contre le trafic de drogues à Abidjan. Au plan méthodologique, l’étude s’est déroulée à Abidjan dans le quartier d’Adjamé, centre commercial qui regorge des fumoirs et des marchés de drogues et à Yopougon wassakara. Elle a porté sur 60 enquêtés composés de trafiquants de drogues (33), de sujets parlant le nouchi (05), des agents des forces de l’ordre (15), des commerçants de médicaments prohibés, des usagers (07), choisis à partir d’un échantillonnage en boule de neige. Il s’est agi d’identifier les expressions utilisées par les acteurs du trafic de drogues, d’en saisir les sens et d’appréhender leurs rôles dans le développement des trafics. A travers ses codes, expressions et symboles, à la fois variés, diversifiés et polysémiques, le nouchi sert de tactiques criminelle aux délinquants. Il contribue d’une part à dissimuler les activités de vente, tromper la vigilance des acteurs sociaux et réduire les risques d’interpellation et de saisies des drogues. D’autre part, à travers des appellations qui vantent les effets des produits, il favorise l’usage des drogues et l’état de toxicomanie.
APA, Harvard, Vancouver, ISO, and other styles

Conference papers on the topic "Reconnaissance du locuteur"

1

Velho, F., M. Gabrea, and C. S. Gargour. "Reconnaissance Du Locuteur À L'Aide De La Transformée En Ondelettes Continue (TOC)." In 2006 Canadian Conference on Electrical and Computer Engineering. IEEE, 2006. http://dx.doi.org/10.1109/ccece.2006.277599.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Mohammadamini, Mohammad, Driss Matrouf, Sandipana Dowerah, Romain Serizel, Denis Jouvet, and Jean-François Bonastre. "Le comportement des systèmes de reconnaissance du locuteur de l'état de l'art face aux variabilités acoustiques." In XXXIVe Journées d'Études sur la Parole -- JEP 2022. ISCA: ISCA, 2022. http://dx.doi.org/10.21437/jep.2022-26.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography