To see the other types of publications on this topic, follow the link: Reconnaissance du locuteur.

Dissertations / Theses on the topic 'Reconnaissance du locuteur'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Reconnaissance du locuteur.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Ben, Kheder Waad. "Reconnaissance du locuteur en milieux difficiles." Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0221/document.

Full text
Abstract:
Le domaine de la reconnaissance automatique du locuteur (RAL) a vu des avancées considérables dans la dernière décennie permettant d’atteindre des taux d’erreurs très faibles dans des conditions contrôlées. Cependant, l’implémentation de cette technologie dans des applications réelles est entravée par la grande dégradation des performances en présence de nuisances acoustiques en phase d’utilisation. Un grand effort a été investi par la communauté de recherche en RAL dans la conception de techniques de compensation des nuisances acoustiques. Ces techniques opèrent à différents niveaux : signal, paramètres acoustiques, modèles ou scores. Avec le développement du paradigme de "variabilité totale", de nouvelles possibilités peuvent être explorées profitant des propriété statistiques simples de l’espace des i-vecteurs. Notre travail de thèse s’inscrit dans ce cadre et propose des techniques de compensation des nuisances acoustiques qui opèrent directement dans le domaine des i-vecteurs. Ces algorithmes utilisent des relations simples entre les i-vecteurs corrompus et leurs versions propres et font abstraction de l’effet réel des nuisances dans cet espace. Afin de mettre en œuvre cette méthodologie, des exemples de données propres / corrompues sont générés artificiellement et utilisés pour construire des algorithmes de compensation des nuisances acoustiques. Ce procédé permet d’éviter les dérivations qui peuvent être complexes, voire très approximatives. Les techniques développées dans cette thèse se divisent en deux classes : La première classe de techniques se base sur un modèle de distorsion dans le domaine des i-vecteurs. Une relation entre la version propre et la version corrompue d’un i-vecteur est posée et un estimateur permettant de transformer un i-vecteur de test corrompu en sa version propre est construit. La deuxième classe de techniques n’utilise aucun modèle de distorsion dans le domaine des i-vecteurs. Elle permet de tenir compte à la fois de la distribution des i-vecteurs propres, corrompus ainsi que la distribution jointe. Des expériences ont été réalisées sur les données bruitées ainsi que les données de courte durée ; donnés de NIST SRE 2008 bruitées/découpées artificiellement ainsi que les données du challenge SITW bruitées naturellement / de courte durée
Speaker recognition witnessed considerable progress in the last decade, achieving very low error rates in controlled conditions. However, the implementation of this technology in real applications is hampered by the great degradation of performances in presence of acoustic nuisances. A lot of effort has been invested by the research community in the design of nuisance compensation techniques in the past years. These algorithms operate at different levels : signal, acoustic parameters, models or scores. With the development of the "total variability" paradigm, new possibilities can be explored due to the simple statistical properties of the i-vector space. Our work falls within this framework and presents new compensation techniques which operate directly in the i-vector space. These algorithms use simple relationships between corrupted i-vectors and the corresponding clean versions and ignore the real effect of nuisances in this domain. In order to implement this methodology, pairs of clean and corrupted data are artificially generated then used to develop nuisance compensation algorithms. This method avoids making complex derivations and approximations. The techniques developed in this thesis are divided into two classes : The first class of techniques is based on a distortion model in the i-vector space. A relationships between the clean version of an i-vector and its corrupted version is set and an estimator is built to transform a corrupted test i-vector to its clean counterpart. The second class of techniques does not use any distortion model in the i-vectors domain. It takes into account both the distribution of the clean, corrupt i-vectors as well as the joint distribution. Experiments are carried-out on noisy data and short utterances ; artificially corrupted NIST SRE 2008 data and natural SITW (short / noisy segments)
APA, Harvard, Vancouver, ISO, and other styles
2

Besacier, Laurent. "Un modèle parallèle pour la reconnaissance automatique du locuteur." Avignon, 1998. http://www.theses.fr/1998AVIG0119.

Full text
Abstract:
Ce travail concerne l'introduction d'un modèle parallèle pour l'identification automatique du locuteur. Le choix d'une telle approche réside dans l'hypothèse que des reconnaisseurs travaillant indépendamment sur différents sous-ensembles de paramètres acoustiques sont plus robustes qu'un seul reconnaisseur utilisant l'espace acoustique dans sa globalité. Cette robustesse est cependant conditionnée par de nombreux facteurs qui sont étudiés, ici, dans le cas particulier d'un système multibandes. Le choix de l'architecture multibandes est tout d'abord discuté et nous mettons en évidence les bandes de fréquence les plus utiles pour l'identification automatique du locuteur. Cependant, il ne ressort pas de cette étude préliminaire une configuration optimale (taille et nombre de sous-bandes, recouvrement entre les bandes) permettant d'aborder le problème de la fusion des reconnaisseurs avec une architecture fixée une fois pour toutes. Le choix d'une stratégie pour combiner les scores ou les décisions issus de chaque sous-bande fréquentielle est donc abordé sachant que architecture et fusion sont intimement liées. Nous traitons le problème de la recombinaison dans le cadre théorique de la fusion de multiples reconnaisseurs. Les trois aspects, à notre avis essentiels, du processus de fusion sont abordés : homogénéisation des scores à recombiner ; pondération et critères d'apprentissage des poids ; choix de l'opérateur de fusion numérique. Les principaux opérateurs de fusion numérique sont réunis sous un formalisme commun et une étude théorique sur la sensibilité aux erreurs de ces opérateurs est proposée. Enfin, nous abordons le problème de l'accumulation des scores de recombinaison obtenus sur plusieurs segments temporels, permettant de prendre une décision pour la totalité d'un signal de test. Ce problème dépasse le cadre de notre architecture multibandes car il se pose également pour tout système de reconnaissance ou une décision finale doit être prise avec une série de scores de vraisemblance obtenus en ligne. Cette étape d'accumulation peut être traitée de façon similaire à un problème de fusion multi-reconnaisseurs. Ainsi, nous avons envisagé de remplacer la double phase recombinaison / accumulation par un module unique d'accumulation de scores préalablement normalisés, indépendamment du segment temporel ou de la sous-bande fréquentielle dont ils proviennent. A cet effet, une approche conjointe d'élagage temporel et fréquentiel est formalisée puis experimentée. Les résultats expérimentaux montrent que certains opérateurs de fusion permettent d'obtenir des performances équivalentes à une approche conventionnelle sur des signaux de parole propres. Dans le cas de la parole partiellement bruitée, notre approche multibandes se révèle beaucoup plus robuste, quels que soient les opérateurs de fusion utilisés. La procédure d'élagage temps-fréquence conduit quant à elle à une réduction du taux d'erreur significative sur timit et ntimit (jusqu'à 41% de réduction du taux d'erreur d'identification sur timit) pour des durées courtes d'apprentissage et de test
APA, Harvard, Vancouver, ISO, and other styles
3

Sánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur." Paris, ENST, 2005. http://www.theses.fr/2005ENST0032.

Full text
Abstract:
Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré
This thesis is concerned with the statistical modeling of speech signal applied to Speaker Verification (SV) using Bayesian Networks (BNs). The main idea of this work is to use BNs as a mathematical tool to model pertinent speech features keeping its relations. It combines theoretical and experimental work. The difference between systems and humans performance in SV is the quantity of information and the relationships between the sources of information used to make decisions. A single statistical framework that keeps the conditional dependence and independence relations between those variables is difficult to attain. Therefore, the use of BNs as a tool for modeling the available information and their independence and dependence relationships is proposed. The first part of this work reviews the main modules of a SV system, the possible sources of information as well as the basic concepts of graphical models. The second part deals with Modeling. A new approach to the problems associated with the SV systems is proposed. The problem of inference and learning (parameters and structure)in BNs are presented. In order to obtain an adapted structure the relations of conditional independence among the variables are learned directly from the data. These relations are then used in order to build an adapted BN. In particular, a new model adaptation technique for BN has been proposed. This adaptation is based on a measure between Conditional Probability Distributions for discrete variables and on Regression Matrix for continuous variables used to model the relationships. In a large database for the SV task, the results have confirmed the potential of use the BNs approach
APA, Harvard, Vancouver, ISO, and other styles
4

Mami, Yassine. "Reconnaissance de locuteurs par localisation dans un espace de locuteurs de référence." Phd thesis, Télécom ParisTech, 2003. http://tel.archives-ouvertes.fr/tel-00005757.

Full text
Abstract:
Cette thèse s'inscrit dans le domaine de la reconnaissance automatique du locuteur, domaine riche d'applications potentielles allant de la sécurisation d'accès à l'indexation de documents audio. Afin de laisser le champ à un large éventail d'applications, nous nous intéressons à la reconnaissance de locuteur en mode indépendant du texte et dans le cas où nous disposons de très peu de données d'apprentissage. Nous nous intéressons plus particulièrement à la modélisation et à la représentation des locuteurs. Il s'agit d'estimer avec très peu de données un modèle suffisamment robuste du locuteur pour permettre la reconnaissance du locuteur. La modélisation par un mélange de gaussiennes (GMM), en mode indépendant du texte, fournit des bonnes performances et constitue l'état de l'art en la matière. Malheureusement, cette modélisation est peu robuste dans le cas où on ne dispose que de quelques secondes de parole pour apprendre le modèle du locuteur. Pour tenter de remédier à ce problème, une perspective intéressante de modélisation consiste à représenter un nouveau locuteur, non plus de façon absolue, mais relativement à un ensemble de modèles de locuteurs bien appris. Chaque locuteur est représenté par sa localisation dans un espace de locuteurs de référence. C'est cette perspective que nous avons explorée dans cette thèse. Au cours de ce travail, nous avons recherché le meilleur espace de représentation et la meilleure localisation dans cet espace. Nous avons utilisé le regroupement hiérarchique et la sélection d'un sous-ensemble pour construire cet espace. Les locuteurs sont ensuite localisés par la technique des modèles d'ancrage. Il s'agit de calculer un score de vraisemblance par rapport à chaque locuteur de référence. Ainsi, la proximité entre les locuteurs est évaluée par l'application des distances entre leurs vecteurs de coordonnées.
Nous avons proposé ensuite une nouvelle représentation des locuteurs basée sur une distribution de distances. L'idée est de modéliser un locuteur par une distribution sur les distances mesurées dans l'espace des modèles d'ancrage. Cela permet d'appliquer une mesure statistique entre l'occurrence de test et les modèles des locuteurs à reconnaître (au lieu d'une mesure géométrique).
Ainsi, si nous avons approfondi la modélisation d'un locuteur par sa position dans un espace de locuteurs de référence, nous avons également étudié comment cette position pouvait permettre une meilleure estimation du modèle GMM du locuteur, par exemple en fusionnant les modèles de ses plus proches voisins. Finalement, en complément à la modélisation GMM-UBM, nous avons étudié des algorithmes de fusion de décisions avec les différentes approches proposées.
APA, Harvard, Vancouver, ISO, and other styles
5

Preti, Alexandre. "Surveillance de réseaux professionnels de communication par reconnaissance du locuteur." Avignon, 2008. http://www.theses.fr/2008AVIG0160.

Full text
Abstract:
Ce travail de thèse s'intéresse à la reconnaissance automatique du locuteur (RAL) dans les réseaux professionnels de communication (Private Mobile Radio networks : PMR). Plus précisément, nous nous intéressons à la surveillance des utilisateurs en cours de communication pour détecter un changement de locuteur, issu du vol ou du prêt d'un terminal de communication. Les systèmes « état de l'art » de RAL présentent aujourd'hui de très bonnes performances sur des signaux de conversations téléphoniques. Néanmoins, l'application envisagée entraine différentes contraintes liées au fonctionnement du réseau PMR et à l'ergonomie particulière d'une telle application. En effet, la RAL doit être effectuée en continue et les réseaux PMR offrent une qualité du signal de parole plus faible que les réseaux de téléphonie classique. Dans ce travail, nous évaluons l'impact de ces contraintes applicatives sur les performances d'un système de RAL et nous proposons des solutions pour pallier les différents problèmes énoncés. Plus particulièrement, nous nous intéressons à la phase de paramétrisation qui doit être réalisée en ligne et dans l'environnement des réseaux PMR, ainsi qu'à l'adaptation non supervisée des modèles de locuteurs. Cette technique permet d'utiliser des données de test pour améliorer les modèles de locuteur ; elle répond au problème des durées courtes d'apprentissage et permet de mieux modéliser les variabilités intra-locuteur et inter-session
This thesis work deals with automatic speaker recognition for professional telecommunication networks (PMR). More precisely, the targeted application is the online monitoring of communications on this kind of networks. State of the art speaker recognition systems show good performance on telephonic data. Therefore, the targeted application introduces specific constaints. We evaluate the impact of these constraints on a baseline speaker recognition system and propose solutions to limit their influence on recognition error rates. Firstly, we propose an optimised speech parameterization. Some technics are introduced to compensate the effects of noisy environments, low bitrate voice coding and channel transmission variations. Moreover, this parameterization is compliant with the online recognition processing needed by the targeted application. Then, we introduce a new approach for unsupervised speaker model adaptation to reduce the issue of the poor quantity of learning data. Unsupervised adaptation is also a way to reduce the impact of the intra-speaker and inter-session variabilities. We propose a continuous progressive speaker model adaptation able to take into account all the test data withdrawing threshold based data selection
APA, Harvard, Vancouver, ISO, and other styles
6

Jourani, Reda. "Reconnaissance automatique du locuteur par des GMM à grande marge." Phd thesis, Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1668/.

Full text
Abstract:
Depuis plusieurs dizaines d'années, la reconnaissance automatique du locuteur (RAL) fait l'objet de travaux de recherche entrepris par de nombreuses équipes dans le monde. La majorité des systèmes actuels sont basés sur l'utilisation des Modèles de Mélange de lois Gaussiennes (GMM) et/ou des modèles discriminants SVM, i. E. , les machines à vecteurs de support. Nos travaux ont pour objectif général la proposition d'utiliser de nouveaux modèles GMM à grande marge pour la RAL qui soient une alternative aux modèles GMM génératifs classiques et à l'approche discriminante état de l'art GMM-SVM. Nous appelons ces modèles LM-dGMM pour Large Margin diagonal GMM. Nos modèles reposent sur une récente technique discriminante pour la séparation multi-classes, qui a été appliquée en reconnaissance de la parole. Exploitant les propriétés des systèmes GMM utilisés en RAL, nous présentons dans cette thèse des variantes d'algorithmes d'apprentissage discriminant des GMM minimisant une fonction de perte à grande marge. Des tests effectués sur les tâches de reconnaissance du locuteur de la campagne d'évaluation NIST-SRE 2006 démontrent l'intérêt de ces modèles en reconnaissance
Most of state-of-the-art speaker recognition systems are based on Gaussian Mixture Models (GMM), trained using maximum likelihood estimation and maximum a posteriori (MAP) estimation. The generative training of the GMM does not however directly optimize the classification performance. For this reason, discriminative models, e. G. , Support Vector Machines (SVM), have been an interesting alternative since they address directly the classification problem, and they lead to good performances. Recently a new discriminative approach for multiway classification has been proposed, the Large Margin Gaussian mixture models (LM-GMM). As in SVM, the parameters of LM-GMM are trained by solving a convex optimization problem. However they differ from SVM by using ellipsoids to model the classes directly in the input space, instead of half-spaces in an extended high-dimensional space. While LM-GMM have been used in speech recognition, they have not been used in speaker recognition (to the best of our knowledge). In this thesis, we propose simplified, fast and more efficient versions of LM-GMM which exploit the properties and characteristics of speaker recognition applications and systems, the LM-dGMM models. In our LM-dGMM modeling, each class is initially modeled by a GMM trained by MAP adaptation of a Universal Background Model (UBM) or directly initialized by the UBM. The models mean vectors are then re-estimated under some Large Margin constraints. We carried out experiments on full speaker recognition tasks under the NIST-SRE 2006 core condition. The experimental results are very satisfactory and show that our Large Margin modeling approach is very promising
APA, Harvard, Vancouver, ISO, and other styles
7

Jourani, Reda. "Reconnaissance automatique du locuteur par des GMM à grande marge." Phd thesis, Université Paul Sabatier - Toulouse III, 2012. http://tel.archives-ouvertes.fr/tel-00807563.

Full text
Abstract:
Depuis plusieurs dizaines d'années, la reconnaissance automatique du locuteur (RAL) fait l'objet de travaux de recherche entrepris par de nombreuses équipes dans le monde. La majorité des systèmes actuels sont basés sur l'utilisation des Modèles de Mélange de lois Gaussiennes (GMM) et/ou des modèles discriminants SVM, i.e., les machines à vecteurs de support. Nos travaux ont pour objectif général la proposition d'utiliser de nouveaux modèles GMM à grande marge pour la RAL qui soient une alternative aux modèles GMM génératifs classiques et à l'approche discriminante état de l'art GMM-SVM. Nous appelons ces modèles LM-dGMM pour Large Margin diagonal GMM. Nos modèles reposent sur une récente technique discriminante pour la séparation multi-classes, qui a été appliquée en reconnaissance de la parole. Exploitant les propriétés des systèmes GMM utilisés en RAL, nous présentons dans cette thèse des variantes d'algorithmes d'apprentissage discriminant des GMM minimisant une fonction de perte à grande marge. Des tests effectués sur les tâches de reconnaissance du locuteur de la campagne d'évaluation NIST-SRE 2006 démontrent l'intérêt de ces modèles en reconnaissance.
APA, Harvard, Vancouver, ISO, and other styles
8

Mariéthoz, Johnny. "Algorithmes d'apprentissage discriminants en vérification du locuteur." Lyon 2, 2006. http://theses.univ-lyon2.fr/documents/lyon2/2006/mariethoz_j.

Full text
Abstract:
This thesis addresses text-independent speaker verification from a machine learning point of view. We use the machine learning framework to better define the problem and to develop new unbiased performance measures and statistical tests to compare objectively new approaches. We propose a new interpretation of the state-of-the-art Gaussian Mixture Model based system and show that they are discriminant and equivalent to a mixture of linear classifiers. A general framework for score normalization is also given for both probability and non-probability based models. With this new framework we better show the hypotheses made for the well known Z- and T- score normalization techniques. Several uses of discriminant models are then proposed. In particular, we develop a new sequence kernel for Support Vector Machines that generalizes an other sequence kernel found in the literature. If the latter is limited to a polynomial form the former allows the use of infinite space kernels such as Radial Basis Functions. A variant of this kernel that finds the best match for each frame of the sequence to be compared, actually outperforms the state-of-the-art systems. As our new sequence kernel is computationally costly for long sequences, a clustering technique is proposed for reducing the complexity. We also address in this thesis some problems specific to speaker verification such as the fact that the classes are highly unbalanced. And the use of a specific intra- and inter-class distance distribution is proposed by modifying the kernel in order to assume a Gaussian noise distribution over negative examples. Even if this approach misses some theoretical justification, it gives very good empirical results and opens a new research direction
Dans cette thèse le problème de la vérification du locuteur indépendante du texte est abordée du point de vue de l'apprentissage statistique (machine learning). Les théories développées en apprentissage statistique permettent de mieux définir ce problème, de développer de nouvelles mesures de performance non-biaisées et de proposer de nouveaux tests statistiques afin de comparer objectivement les modèles proposés. Une nouvelle interprétation des modèles de l'état de l'art basée sur des mixtures de gaussiennes (GMM) montre que ces modèles sont en fait discriminants et équivalents à une mixture d'experts linéaires. Un cadre théorique général pour la normalisation des scores est aussi proposé pour des modèles probabilistes et non-probabilistes. Grâce à ce nouveau cadre théorique, les hypothèses faites lors de l'utilisation de la normalisation Z et T (T- and Z-norm) sont mises en évidence. Différents modèles discriminants sont proposés. On présente un nouveau noyau utilisé par des machines à vecteurs de support (SVM) qui permet de traîter des séquences. Ce noyau est en fait la généralisation d'un noyau déjà existant qui présente l'inconvénient d'être limité à une forme polynomiale. La nouvelle approche proposée permet la projection des données dans un espace de dimension infinie, comme c'est le cas, par exemple, avec l'utilisation d'un noyau gaussien. Une variante de ce noyau cherchant le meilleur vecteur acoustique (frame) dans la séquence à comparer, améliore les résultats actuellement connus. Comme cette approche est particulièrement coûteuse pour les séquences longues, un algorithme de regroupement (clustering) est utilisé pour en réduire la complexité. Finalement, cette thèse aborde aussi des problèmes spécifiques de la vé-ri-fi-ca-tion du locuteur, comme le fait que les nombres d'exemples positifs et négatifs sont très déséquilibrés et que la distribution des distances intra et inter classes est spécifique de ce type de problème. Ainsi, le noyau est modifié en ajoutant un bruit gaussien sur chaque exemple négatif. Même si cette approche manque de justification théorique pour l'instant, elle produit de très bons résultats empiriques et ouvre des perspectives intéressantes pour de futures recherches
APA, Harvard, Vancouver, ISO, and other styles
9

Grondin, François. "Reconnaissance de locuteurs pour robot mobile." Mémoire, Université de Sherbrooke, 2012. http://savoirs.usherbrooke.ca/handle/11143/1632.

Full text
Abstract:
L'audition artificielle est de plus en plus utilisée en robotique mobile pour améliorer l'interaction humain-robot. La reconnaissance de la parole occupe présentement une place importante tandis qu'un intérêt particulier se développe pour la reconnaissance de locuteurs. Le système ManyEars permet actuellement à un robot mobile de localiser, suivre et séparer plusieurs sources sonores. Ce système utilise un ensemble de huit microphones qui sont disposés en cube. Ce mémoire porte sur la conception et l'évaluation d'un système de reconnaissance de locuteurs, baptisé WISS (Who IS Speaking), couplé au système ManyEars. Le système de reconnaissance de locuteurs conçu est robuste au bruit ambiant et au changement d'environnement. Une technique de combinaison de modèle parallèle (parallel model combination (PMC)) et des masques sont utilisés pour améliorer le taux d'identification dans un milieu bruité. Un indice de confiance est également introduit pour pondérer les identifications obtenues. La simplicité du système proposé fait en sorte qu'il est possible d'exécuter en temps réel l'algorithme sur un processeur généraliste ( General Purpose Processor (GPP)). Les performances du système sont établies à l'aide de plusieurs scénarios. Dans un premier lieu, des enregistrements sont diffusés dans des haut-parleurs pour un ensemble de vingt locuteurs. Le système est ainsi caractérisé en fonction des positions angulaires et radiales des sources sonores. Le taux de reconnaissance est affecté par la qualité du signal (i.e. diminution du rapport signal sur bruit ( Signal-to-Noise Ratio (SNR))) : il passe de 95.6% à 84.3% en moyenne lorsque le SNR passe d'environ 16 dB à 2 dB lorsque le locuteur se situe à 1.5 mètres des microphones. Par la suite, un scénario dit statique est vérifié à l'aide de quatre locuteurs qui récitent chacun leur tour des phrases à un volume de voix naturel. Finalement, un scénario dynamique dans lequel un groupe de quatre locuteurs ont une conversation naturelle avec des chevauchements entre les segments de paroles est étudié. Le taux de reconnaissance varie entre 74.2% et 100.0% (avec une moyenne de 90.6%) avec le scénario statique, et entre 42.6% et 100.0% avec le scénario dynamique (avec des moyennes de 58.3%, 72.8% et 81.4% pour des segments de 1, 2 et 3 secondes respectivement). Des solutions sont identifiées afin d'améliorer les performances lors de travaux futurs. Au meilleur de notre connaissance, il n'existe aucun système qui effectue une reconnaissance de locuteurs dans un environnement contaminé simultanément par des bruits convolutif et additif. De plus, l'utilisation de masques pour estimer ces bruits est un nouveau concept. Ces masques sont d'ailleurs généralement employés pour la reconnaissance de la parole et leur utilisation dans un contexte de reconnaissance de locuteur est une première. De plus, une caractérisation complète du système qui inclue les SNRs est proposée en fonction de la position du locuteur, ce qui est rarement disponible dans la littérature en audition artificielle pour les robots.
APA, Harvard, Vancouver, ISO, and other styles
10

Bennani, Younès. "Approches connexionnistes pour la reconnaissance automatique du locuteur : modelisation & identification." Paris 11, 1992. http://www.theses.fr/1992PA112006.

Full text
Abstract:
Cette these est consacree a l'etude d'approches connexionnistes en vue de la possibilite d'identification automatique des individus a partir de leur voix. L'identification du locuteur a ete abordee en mode dependant et independant du texte. On elabore progressivement une methodologie adaptee a ce probleme de reconnaissance des formes. L'approche connexionniste modulaire nous a permis d'incorporer des connaissances a priori sur le probleme par decomposition de la tache globale en sous taches faciles a aborder. Cette approche totalement generale permet de traiter un grand nombre de locuteurs, et est transposable a d'autres problemes. L'expose evalue la validation de l'approche connexionniste sur une population de 102 locuteurs extraite de la base internationale darpa-timit. La phase d'apprentissage du systeme demande environ une dizaine de secondes du signal parole et permet une identification en temps reel avec moins d'une seconde d'elocution. Parallelement a la fin de cette etude, une possibilite de cooperation des systemes connexionnistes avec d'autres techniques afin de concevoir des systemes modulaires hybrides est presentee. Ces derniers systemes offrent des alternatives ou des prolongements a l'approche principale developpee. Les resultats obtenus pendant ce travail permettent d'ores et deja de construire un prototype
APA, Harvard, Vancouver, ISO, and other styles
11

Jouvet, Denis. "Reconnaissance de mots connectes indépendamment du locuteur par des méthodes statistiques." Paris, ENST, 1988. http://www.theses.fr/1988ENST0006.

Full text
Abstract:
Les caractéristiques principales du système développe sont la représentation de l'ensemble des phrases de l'application par un réseau, obtenu en compilant toutes les connaissances a priori de l'application: syntaxe, descriptions phonétiques, règles phonologiques etc; et l'emploi de densités de probabilité gaussiennes associées aux transitions.
APA, Harvard, Vancouver, ISO, and other styles
12

Jouvet, Denis. "Reconnaissance de mots connectés indépendamment du locuteur par des méthodes statistiques." Paris : École nationale supérieure des télécommunications, 1988. http://catalogue.bnf.fr/ark:/12148/cb34959015q.

Full text
APA, Harvard, Vancouver, ISO, and other styles
13

Bonastre, Jean-François. "Stratégie analytique orientée connaissances pour la caractérisation et l'identification du locuteur." Avignon, 1994. http://www.theses.fr/1994AVIG0107.

Full text
Abstract:
La caracterisation et la reconnaissance automatique du locuteur couvrent un vaste domaine d'applications souvent proches de la reconnaissance de la parole mais parfois sujettes a caution (en particulier, relevant du monde juridique). Dans cet ouvrage, nous nous interessons particulierement a l'identification d'un individu cooperatif a partir d'un echantillon de sa voix, parmi une population reduite et connue du systeme. Pour cela, nous definissons une methodologie analytique orientee connaissances, qui nous permet de definir de maniere explicite des parametres caracteristiques du locuteur a l'aide d'informations expertes. Nous utilisons notre technique pour mettre en evidence l'information specifique du locuteur vehiculee par les spectres a court terme (representatifs des sons du francais) ainsi que l'influence du contexte environnant sur l'apparence spectrale d'un phoneme. Apres avoir montre qu'un faible nombre de phonemes (moins de 10) suffisait pour identifier, au sein d'un ensemble de personnes connues, un individu caracterise par un message vocal, nous avons applique ces techniques dans le cadre d'un systeme automatique de reconnaissance du locuteur. Cette tache a necessite l'ecriture d'un dispositif permettant la decomposition d'un signal en unites phonetiques identifiees. Malgre certaines faiblesses dues au module de localisation des unites, notre demonstrateur s'est montre capable d'identifier automatiquement un locuteur parmi une soixantaine de personnes avec un facteur de securite satisfaisant
APA, Harvard, Vancouver, ISO, and other styles
14

Velho, Filipe. "La reconnaissance du locuteur à l'aide de la transformée en ondelettes continue." Mémoire, École de technologie supérieure, 2006. http://espace.etsmtl.ca/470/1/VELHO_Filipe.pdf.

Full text
Abstract:
Nous présentons ici un système d'identification du locuteur, fonctionnant en mode indépendant du texte, dans un environnement non bruité, combinant la TOC et les MFCC pour l'extraction des vecteurs de caractéristiques, le tout basé sur une modélisation par GMM. Notre système de reconnaissance exploite l'hypothèse selon laquelle les différentes échelles de la TOC peuvent servir à mettre en évidence la variabilité inter-locuteurs d'une population, ceci, en faisant ressortir d'autres caractéristiques qui apparaissent à certaines échelles et qui ne s'expriment pas de la même manière dans le signal de parole d'origine. La méthode pour sélectionner les coefficients de la TOC que nous utiliserons consiste à les sélectionner tous sur une même échelle. Ceci élimine substantiellement la redondance de celle-ci.
APA, Harvard, Vancouver, ISO, and other styles
15

Charbuillet, Christophe. "Algorithmes évolutionnistes appliqués à l'extraction de caractéristiques pour la reconnaissance du locuteur." Paris 6, 2008. http://www.theses.fr/2008PA066564.

Full text
Abstract:
L'étape d'extraction de caractéristiques occupe une place fondamentale dans les systèmes de reconnaissance des formes. Ces travaux de thèse portent sur l’optimisation de ce module de traitement pour la tâche de reconnaissance du locuteur par Algorithmes Evolutionnistes (AEs). Nous avons évalué cette approche pour la tâche de segmentation et le regroupement du locuteur (SRL) ainsi que pour la tâche de vérification automatique du locuteur, dans le cadre des campagnes d'évaluation ESTER 2005 et Nist 2006. Les différentes études réalisées montrent que l'utilisation d'AE pour l'optimisation du module de codage permet d'améliorer les performances des systèmes. De plus ces travaux montrent qu'une amélioration significative des résultats est possible par l'utilisation de deux codeurs complémentaires. Nous avons, dans ce contexte, développé un algorithme évolutionniste permettant d'optimiser la complémentarité des extracteurs de caractéristiques.
APA, Harvard, Vancouver, ISO, and other styles
16

Velho, Filipe. "La reconnaissance du locuteur à l'aide de la transformée en ondelettes continue /." Thèse, Montréal : École de technologie supérieure, 2006. http://wwwlib.umi.com/cr/etsmtl/fullcit?pMR14414.

Full text
Abstract:
Thèse (M. Ing.)--École de technologie supérieure, Montréal, 2006.
"Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie électrique". CaQMUQET Bibliogr.: f. [222]-231. Également disponible en version électronique. CaQMUQET
APA, Harvard, Vancouver, ISO, and other styles
17

Sánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur /." Paris : École nationale supérieure des télécommunications, 2005. http://catalogue.bnf.fr/ark:/12148/cb40208312k.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Bonneau, Hélène. "Quantification vectorielle et adaptation au locuteur." Paris 11, 1987. http://www.theses.fr/1987PA112306.

Full text
Abstract:
La plupart des systèmes de reconnaissance de grands vocabulaires utilisent la Quantification Vectorielle pour réduire la quantité d'informations à traiter. Dans le but de résoudre le principal problème actuellement rencontré par ces systèmes (qui est celui du passage au cas multi-locuteur), ce travail concerne l'étude d'une nouvelle méthode d'adaptation au locuteur, par Quantification Vectorielle (Q. V. ). Dans le premier chapitre nous exposons les principes de base de la Q. V. Nous présentons en particulier les différents algorithmes de classification automatique que nous avons utilisés lors de nos différentes expériences pour la construction des répertoires. L'étude des réalisations en reconnaissance de la parole montre que la Q. V. Est maintenant utilisée par de nombreux systèmes de reconnaissance de grands vocabulaires, pour réduire la quantité de données à traiter. Il existe également des réalisations qui utilisent la Q. V. , non plus simplement comme un outil mais comme méthode de reconnaissance (utilisation de la Q. V. Comme préprocesseur ou Q. V. Multi-section). Le second chapitre est consacré à la comparaison des différentes méthodes d'adaptation au locuteur… Les chapitres suivants concernent les différentes expériences que nous avons effectuées au cours de ce travail. Le chapitre 4 résume l’expérience menée dans le but de tester l’efficacité de la Q. V. Dans le cadre d’un système de reconnaissance globale mono-locuteur. L’expérience en identification du locuteur par Q. V. , décrite dans le chapitre 5, nous a permis de vérifier qu’un répertoire peut être utilisé pour représenter l’espace spectral d’un locuteur. Nous avons également comparé l’efficacité de deux méthodes de classification automatique : la méthode incrémentale et une méthode de nuées dynamique (l’algorithme de SPLIT)… La première partie du chapitre 6 décrit le principe de l’adaptation au locuteur par Q. V… La seconde partie du chapitre 6 décrit les expériences réalisées. Le choix du vocabulaire d’adaptation, qui contient 136 mots, a fait l’objet d’une étude particulière… Cette étude montre également que la Q. V. Représente plus qu’un simple outil pour réduire la quantité de données. Les répertoires qu’elle utilise permettent de caractériser les locuteurs, pour les systèmes de vérification du locuteur. Enfin, son efficacité pour l’adaptation au locuteur, offre aux systèmes de reconnaissance de grands vocabulaires, une solution intéressante au problème de la reconnaissance multi-locuteur.
APA, Harvard, Vancouver, ISO, and other styles
19

Teng, Wen Xuan. "Adaptation rapide au locuteur par sous-espace variable de modèles de référence." Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/teng.pdf.

Full text
Abstract:
This dissertation is dedicated to the adaptation of acoustic models for automatic speech recognition using very little adaptation data (a. K. A rapid adaptation). A common framework, the reference model subspace concept, is established to unify most rapid adaptation techniques in the literature. It helps us to study the limitations of the current techniques and investigate new adaptation algorithms by modifying the parameters of the framework. Random reference model subspace selection experiments reveal the robustness limitation of the techniques which are based on the a priori selection of reference model subspaces. In order to address this problem, we try to make subspaces variable at runtime for different adaptation targets by the a posteriori selection of reference models. This is implemented through a novel adaptation algorithm, reference model interpolation (RMI). The proposed technique is applied in phoneme decoding and LVCSR systems and evaluated with both supervised and unsupervised adaptation tasks. Experiments on three different databases IDIOLOGOS, PAIDIOLOGOS and ESTER show the effectiveness of RMI with utterance by utterance instantaneous adaptation. In addition, the incremental adaptation is also achieved by combining the slow update of reference models with the RMI rapid adaptation
Les travaux présentés dans cette thèse sont consacrés au problème de l’adaptation de modèles acoustiques pour la reconnaissance automatique de la parole en utilisant très peu de données. Nous définissons le concept de sous-espace de modèle de référence afin d’unifier la plupart des techniques d'adaptation rapide proposées dans la littérature dans un formalisme commun. Il nous aide à étudier les limites des techniques actuelles et à explorer de nouveaux algorithmes d'adaptation. Nous avons montré expérimentalement que l'adaptation avec des sous-espaces fixés ne peut pas donner d’améliorations stables pour différentes cibles à adapter (e. G. Locuteurs). Afin de résoudre ce problème, nous avons proposé d'utiliser des sous-espaces variables qui est mis en œuvre par un nouvel algorithme d’adaptation, l’interpolation de modèle de référence (IMR). Cette technique permet la sélection a posteriori de modèles de référence avec différents critères de sélection. La technique proposée est appliquée dans les systèmes de décodage phonétique et de reconnaissance automatique de la parole continue à grand vocabulaire. Des expériences sur trois bases de données, à savoir IDIOLOGOS, PAIDIOLOGOS et ESTER, montrent l'efficacité de la technique IMR avec l'adaptation instantanée. En outre, l'adaptation progressive est également atteinte en combinant la lente mise à jour des modèles de référence avec l’adaptation rapide par IMR
APA, Harvard, Vancouver, ISO, and other styles
20

Lauri, Fabrice. "Adaptation au locuteur de modèles acoustiques markoviens pour la reconnaissance automatique de la parole." Nancy 2, 2004. http://www.theses.fr/2004NAN2A001.

Full text
APA, Harvard, Vancouver, ISO, and other styles
21

Merlin, Teva. "AMIRAL, une plateforme générique pour la reconnaissance automatique du locuteur - de l'authentification à l'indexation." Avignon, 2005. http://www.theses.fr/2004AVIG0136.

Full text
APA, Harvard, Vancouver, ISO, and other styles
22

SU, HUANG-YU. "Reconnaissance acoustico-phonetique en parole continue par quantification vectorielle : adaptation du dictionnaire au locuteur." Rennes 1, 1987. http://www.theses.fr/1987REN10127.

Full text
Abstract:
Introduction sur les differentes utilisations de la quantification vectorielle en parole et application a la reconnaissance statique d'unites phonetiques en parole continue. Partition de l'ensemble d'apprentissage en classes phonetiques et application de l'algorithme de llyod couple a une methode de fragmentation a chacune d'elles pour obtenir des sous-dictionnaires dont l'union forme le dictionnaire. Adaptation du dictionnaire au locuteur dans un systeme de reconnaissance independant du locuteur (algorithme de gradient stochastique, algorithme de lloyd generalise)
APA, Harvard, Vancouver, ISO, and other styles
23

Su, Huan-Yu. "Reconnaissance acoustico-phonétique en parole continue par quantification vectorielle adaptation du dictionnaire au locuteur /." Grenoble 2 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37610109z.

Full text
APA, Harvard, Vancouver, ISO, and other styles
24

Fredouille, Corinne. "Approche statistique pour la reconnaissance automatique du locuteur : informations dynamiques et normalisation bayesienne des vraisemblances." Avignon, 2000. http://www.theses.fr/2000AVIG0126.

Full text
Abstract:
Ce travail s'inscrit dans le cadre de la reconnaissance automatique du locuteur dont l'objectif principal est de reconnaitre une personne par l'analyse de sa voix. Le premier theme aborde dans ce travail concerne l'utilisation d'informations dynamiques, considerees comme une source potentielle d'informations pour caracteriser le locuteur. Les limites des approches proposees dans la litterature pour un tel traitement portent notamment sur l'incapacite de prendre en compte de larges fenetres temporelles necessaires a une exploitation correcte de ce type d'informations. Pour pallier ce probleme, nous proposons une approche dynamique originale qui repose sur la concatenation de trames successives de signal de parole et sur la selection de la part d'information utile specifique du locuteur. Des experiences menees sur deux bases de donnees de qualite differente ont revele l'interet et les limites de notre approche. Le deuxieme volet de cette these s'interesse au processus de decision en verification automatique du locuteur (val). Ce processus, qui permet de decider d'accepter ou de rejeter l'identite d'une personne a l'aide de sa voix, repose sur la comparaison d'une mesure de vraisemblance a un seuil de decision. Nous proposons dans cette these une nouvelle technique de normalisation des mesures de vraisemblances, appelee world+map. L'originalite de cette approche repose sur la projection des mesures de vraisemblance dans un espace probabiliste. Cette projection permet de doter le seuil de decision d'une signification directement interpretable. Par ailleurs, cette propriete de l'approche world+map facilite ostensiblement l'etape de fusion des scores produits par plusieurs reconnaisseurs dans le cadre d'une architecture multi-reconnaisseur
APA, Harvard, Vancouver, ISO, and other styles
25

Bousquet, Pierre-Michel. "Bénéfices et limites des représentations en facteur de variabilité totale pour la reconnaissance du locuteur." Thesis, Avignon, 2014. http://www.theses.fr/2014AVIG0200/document.

Full text
Abstract:
Le domaine de la reconnaissance automatique du locuteur (RAL) recouvre l’ensembledes techniques visant à discriminer des locuteurs à partir de leurs énoncésde voix. Il se classe dans la famille des procédures d’authentification biométrique del’identité. La reconnaissance du locuteur a connu ces dernières années une avancée significativeavec un nouveau concept de représentation de l’énoncé de voix, désignésous le terme de i-vector. Ce type de représentation s’appuie sur le paradigme de modélisationpar mélange de gaussiennes et présente la particularité de se réduire numériquementà un vecteur de dimension faible, au regard des représentations précédentes,et pourtant très discriminant vis à vis du locuteur.Les travaux présentés dans cette thèse s’inscrivent dans ce nouveau contexte. Orientésautour de cette représentation, ils visent à en comprendre et évaluer les hypothèses,les points fondamentaux, le comportement et les limites.Nous avons en premier lieu conduit une analyse statistique sur cette nouvelle représentation.L’étude a porté sur l’effet et l’importance relative des différentes étapes deconstitution et d’exploitation du concept. Cette analyse a permis de mieux comprendreses caractéristiques, mais aussi de faire apparaître des défauts de la représentation quinous ont conduits à mettre en place de nouvelles transformations dans cet espace. L’objectifde ces techniques est de faire converger les données vers des modèles théoriques,à meilleur pouvoir discriminant. Nous recensons et démontrons un certain nombre depropriétés induites par ces transformations, qui justifient leur emploi. En terme de performance,ces techniques réduisent d’un ordre de grandeur de 50% les taux d’erreurdes systèmes basés sur les i-vectors et des postulats gaussiens, permettant notammentd’atteindre par la voie du cadre probabiliste gaussien les meilleurs taux de détectiondans le domaine.Une évaluation générale des composants de la méthode est ensuite détaillée dansce document. Elle met en avant l’importance de certaines étapes, permettant ainsi dedégager, par comparaison à des méthodes alternatives, les approches fondamentalesqui confèrent au concept une valeur de paradigme. Nous montrons la primauté decertaines étapes stratégiques dans la chaîne des traitements, parmi lesquelles les transformationsque nous avons mises en place, et leur relative indépendance aux méthodes et hypothèses adoptées.Des limites de la solution sont mises au jour et exposées dans une étude dite d’anisotropie,qui relativise sa capacité à produire une paramétrisation linéaire globale des variabilitésqui soit optimale.En parallèle de ces investigations, nous avons participé à l’exploration d’un nouveaumodèle alternatif à la solution la plus usuelle de représentation des énoncés devoix. Conçu par J.F. Bonastre, il produit des vecteurs sous forme de clés binaires etfournit les moyens de les comparer, en suivant une voie semi-paramétrique basée surune nouvelle approche de la problématique. Cette exploration a contribué à l’améliorationde ce modèle et à l’ouverture de nouvelles pistes. Elle a été également utile à notreévaluation du concept de i-vector.Les travaux présentés dans ce document contribuent à l’amélioration de ce modèleet à l’ouverture de nouvelles pistes. Ils sont également utiles à notre évaluation duconcept de i-vector.Enfin, quelques aménagements des solutions i-vectors à des cas particuliers ont étémis en place : nous proposons de nouvelles variantes pour gérer la décision sur lesénoncés de courte durée (qui constituent l’un des enjeux actuels du domaine) et sur lesénoncés présentant une divergence a priori (support, durée, langue distincts).L’ensemble de ces travaux vise à mieux circonscrire les pistes de recherche les plusporteuses autour de ce nouveau concept de représentation de la voix humaine
The speaker recognition field covers all the techniques intended to authentify theidentity by using voice utterances. Speaker recognition has experienced in recent yearsa significant step forward with a new concept of representation, referred to as the ivector. This type of representation is based on the Gaussian mixture model paradigmand has the distinguishing feature of being a small size vector compared to previousrepresentations, yet very discriminating towards the speaker.The works presented in this thesis are within that new context. Focused on thisrepresentation, they aim to better understand it and assess its assumptions, highlightits key points, its behaviors and limits.We first carried out a statistical analysis of this new representation. This analysishelped to better understand its characteristics, but also reveal defaults of the representationthat led us to develop new transformations. The goal of these techniques is tomove data towards a theoretical model, having a better accuracy for discrimination.We identify and demonstrate a number of properties of these transformations whichjustify their relevance. In terms of performance, applying these techniques reduce byan order of magnitude of 50% the error rate of systems based on i-vectors and Gaussianassumptions and yield the best detection rate in the field through the Gaussianprobabilistic framework. A complete evaluation of the system components is detailed later in this document.By comparing the fundamental approaches to alternative methods, this evaluationidentifies and highlights the fundamental steps that give the concept a value ofparadigm.We show the primacy of some strategic steps in the process chain, includingour propositions, and their relative independence from methods and assumptions.Limits of the solution are uncovered and exposed in a study of "anisotropy", whichreveals some lack of compliance of i-vector distributions with Gaussian assumptions.Alongside these investigations, we participated in the exploration of a new model,alternative to the most usual statistical representations of utterances, which relies on asemi- parametric representation. Designed by J.F. Bonastre, it produces binary key vectorsand provides the means to compare them. This exploration has contributed to the improvement of this model and opens new gates. It was also helpful to our evaluationof the concept of i -vector.Some adaptations of i-vector approach to special speaker recognition tasks are described: we propose new variants to handle short duration utterances ( which is oneof the current issues in the field ) and to deal with a priori mismatch (for example ofsupport, time or distinct language).We hope that this work will better highlight some of the most promising slopes ofresearch around this new concept of representation for speaker recognition
APA, Harvard, Vancouver, ISO, and other styles
26

Sanchez-Soto, Eduardo. "Réseaux Bayésiens Dynamiques pour la Vérification du Locuteur." Phd thesis, Télécom ParisTech, 2005. http://tel.archives-ouvertes.fr/tel-00011440.

Full text
Abstract:
Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d'approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré.
APA, Harvard, Vancouver, ISO, and other styles
27

Ferràs, Font Marc. "Utilisation des coefficients de régression linéaire par maximum de vraisemblance comme paramètres pour la reconnaissance automatique du locuteur." Phd thesis, Université Paris Sud - Paris XI, 2009. http://tel.archives-ouvertes.fr/tel-00616673.

Full text
Abstract:
The goal of this thesis is to find new and efficient features for speaker recognition. We are mostly concerned with the use of the Maximum-Likelihood Linear Regression (MLLR) family of adaptation techniques as features in speaker recognition systems. MLLR transformcoefficients are able to capture speaker cues after adaptation of a speaker-independent model using speech data. The resulting supervectors are high-dimensional and no underlying model guiding its generation is assumed a priori, becoming suitable for SVM for classification. This thesis brings some contributions to the speaker recognition field by proposing new approaches to feature extraction and studying existing ones via experimentation on large corpora: 1. We propose a compact yet efficient system, MLLR-SVM, which tackles the issues of transcript- and language-dependency of the standard MLLR-SVM approach by using single-class Constrained MLLR (CMLLR) adaptation transforms together with Speaker Adaptive Training (SAT) of a Universal Background Model (UBM). 1- When less data samples than dimensions are available. 2- We propose several alternative representations of CMLLR transformcoefficients based on the singular value and symmetric/skew-symmetric decompositions of transform matrices. 3- We develop a novel framework for feature-level inter-session variability compensation based on compensation of CMLLR transform supervectors via Nuisance Attribute Projection (NAP). 4- We perform a comprehensive experimental study of multi-class (C)MLLR-SVM systems alongmultiple axes including front-end, type of transform, type fmodel,model training and number of transforms. 5- We compare CMLLR and MLLR transform matrices based on an analysis of properties of their singular values. 6- We propose the use of lattice-basedMLLR as away to copewith erroneous transcripts in MLLR-SVMsystems using phonemic acoustic models.
APA, Harvard, Vancouver, ISO, and other styles
28

Bellot, Olivier. "Adaptation au locuteur des modèles acoustiques dans le cadre de la reconnaissance automatique de la parole." Avignon, 2006. http://www.theses.fr/2006AVIG0154.

Full text
Abstract:
Le travail présenté s'inscrit dans le cadre des systèmes de reconnaissance automatique de la parole basés sur l'approche probabiliste. Dans ce cadre, si les conditions acoustiques de test différent de celles d'apprentissage, les performances des systèmes chutent rapidement. Les principales causes de décalage acoustique entre apprentissage et test peuvent être dues à l'environnement, au canal d'enregistrement ou aux caractéristiques propres au locuteur de test. Pour réduire ce décalage, il est souvent nécessaire d'avoir recours à une phase d'adaptation des modèles acoustiques. Les deux méthodes d'adaptation proposées ici ont été testées dans le cadre de l'adaptation au locuteur des modèles acoustiques et évaluées à l'aide du système de reconnaissance SPEERAL, développé au Laboratoire Informatique d'Avignon. Les expériences ont été réalisées sur un ensemble de 299 phrases prononcées par 20 locuteurs (corpus ARC B1 de l'AUPELF). La première méthode permet d'intégrer une partie des données d'apprentissage dans le processus d'adaptation, en sélectionnant au préalable une partie des locuteurs d'apprentissage considérés comme étant les plus proches du locuteur de test; nous proposons deux techniques différentes pour les calculs de distances entre locuteurs. Cette méthode a permis une réduction du taux d'erreur par mot de 15% (gain relatif) par rapport au système initial. La seconde méthode est basée sur un arbre de classification des paramètres du modèle acoustique initial. Nous proposons une nouvelle manière d'adapter l'ensemble des paramètres au moyen de transformations simples estimables quelle que soit la quantité de données d'adaptation disponible. Suivant la configuration du système initial, notre méthode permet une diminution du taux d'erreur mot de 16% par rapport au système initial (gain relatif). Il est important de constater que les gains apportés peuvent être cumulés avec l'adaptation MLLR: le gain relatif par rapport au système initial est alors de 19,5%
The speaker-dependent HMM-based recognizers have lower Word Error Rates (WER) than speaker-independent ones. Nevertheless, in the speaker-dependent case, the requirement of large amount of training data for each test speaker reduces the utility and portability of such systems. The aim of speaker adaptation techniques is to enhance the speaker-independent acoustic models to bring their recognition accuracy as close as possible to the one obtained with speaker-dependent models. In this work, we present two different approaches to increase the robustness of speech regnonizer with respect to the speaker acoustic variabilities. The first one is a method using test and training data for acoustic model adaptation . This method operates in two steps : the first one performs an a priori adaptation using the transcribed training data of the closest training speakers to the test speaker. The second one performs an a posteriori adaptation using the MLLR procedure on the test data. This adaptation strategy was evaluated in a large vocabulary speech recognition task. Our method leads to a relative gain of 15% with respect to the baseline system. The second method presented is based on tree structure. To avoid poor transformation parameters estimation accuracy due to an insufficiency of adaptation data in a node, we propose a new technique based on the maximum a posteriori approach and PDF Gaussians Merging. The basic idea behind this new technique is to estimate an affine transformations which bring the training acoustic models as close as possible to the test acoustic models rather than transformation maximizing the likelihood of the adaptation data. In this manner, even with very small amount of adaptation data, the parameters transformations are accurately estimated for means and variances. This method leads to a relative gain of 16% with respect to the baseline system and a relative gain of 19. 5% combined with the MLLR adaptation
APA, Harvard, Vancouver, ISO, and other styles
29

Senoussaoui, Mohammed. "Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs." Mémoire, École de technologie supérieure, 2014. http://espace.etsmtl.ca/1329/1/SENOUSSAOUI_Mohammed.pdf.

Full text
Abstract:
Les systèmes nec plus ultra de reconnaissance du locuteur adoptent la représentation de la parole dans l’espace des i-vecteurs. Un i-vecteur n’est qu’un simple vecteur de faible dimension (typiquement dans les centaines) représentant une vaste gamme d’information véhiculée par le signal vocal. Bien que les performances de ces systèmes en matière des taux de reconnaissance aient atteint un niveau très avancé, une meilleure exploitation de ces systèmes dans les milieux réels de tous les jours nécessite encore plus d'efforts de la part des chercheurs en la matière. Dans le cadre de cette thèse, notre objectif principal est d'améliorer la robustesse des systèmes de reconnaissance du locuteur opérant dans l’espace des ivecteurs. Dans la première partie de ce travail, nous nous intéressons à la tâche de la vérification du locuteur. Nous nous focalisons plus particulièrement sur la conception d’un système de vérification à la fois indépendant du type du canal de transmission/enregistrement et du genre du locuteur. Dans le contexte des i-vecteurs, les classificateurs génératifs, tels que l’analyse discriminante linéaire probabiliste (PLDA), ont dominé le domaine de la reconnaissance du locuteur. Néanmoins, de simples classificateurs à base de la similarité angulaire du cosinus (SAC) restent concurrentiels. Ainsi, nous avons proposé dans cette partie deux solutions rendant respectivement les systèmes à base des deux classificateurs de l’état de l’art (le PLDA et la SAC) indépendants du type du canal et du genre du locuteur. En effet, nos systèmes conçus de la sorte sont considérés comme les deux premiers systèmes de vérification du locuteur atteignant les résultats de l’état de l’art (environ 2 % d’EER pour la parole téléphonique et 3 % pour la parole microphonique) sans pour autant profiter ni de l’information concernant le type du canal ni de celle concernant le genre du locuteur. Le regroupement en locuteurs est une autre tâche de la reconnaissance du locuteur qui représente notre centre d’intérêt dans la seconde partie de cette thèse. À nouveau, nos recherches seront menées uniquement dans le contexte de la représentation de la parole par des i-vecteurs. À vrai dire, il existe deux types d’applications à base du regroupement en locuteurs, soit, le regroupement en locuteurs des grands corpora des fichiers vocaux (speaker clustering) et la structuration en tours de parole d’un flux audio (speaker diarization). Une nouvelle version de l’algorithme non paramétrique de décalage de la moyenne (Mean Shift, MS) a été proposée afin de faire face au problème du regroupement en locuteurs. Nous avons démontré que les performances de notre nouvelle version de l’algorithme de MS à base de la distance angulaire du cosinus dépassent ceux de la version de base, une fois testés face à la tâche du regroupement en locuteurs. Le même algorithme nous a permis d’obtenir les résultats de l’état de l’art (DER égal à 12,4 %) de la structuration en tours de parole du corpus des données téléphoniques CallHome.
APA, Harvard, Vancouver, ISO, and other styles
30

François, Dominique. "Détection et identification des occlusives et fricatives au sein du système indépendant du locuteur APHODEX." Nancy 1, 1995. http://www.theses.fr/1995NAN10044.

Full text
Abstract:
Les travaux présentés dans cette thèse portent sur le décodage acoustico-phonétique dans un système expert indépendant du locuteur. Ce système, APHODEX, est la réalisation d'une des premières expériences sur la modélisation de la lecture de spectrogramme. Une première évaluation permettait de mettre en évidence les atouts du système ainsi que ses carences. Connaissant les caractéristiques de la parole continue, en particulier la coarticulation, l'architecture et le fonctionnement du moteur d'inférence, de par leur prise en compte dans le raisonnement des contextes gauches et droits du segment de parole à traiter, s'avèrent être un point fort. L'étude des résultats de décodage a montré que les efforts devaient en premier lieu se porter sur les consonnes occlusives et fricatives, les voyelles étant plutôt bien reconnues et le mauvais score des autres consonnes étant pour beaucoup la conséquence d'erreurs durant l'étape de segmentation. Après une étude de la masse de connaissances disponibles, nous retenons celles qui paraissent les mieux adaptées à un traitement automatique. Nous proposons alors des procédures réalisant l'extraction d'indices recensés et d'autres expérimentaux ; puis, avant d'écrire une base de règles, nous présentons une phase de validation statistique des procédures sur un corpus d'étude. Une nouvelle évaluation du système permet alors de mesurer l'amélioration mise en œuvre. Voulant comparer ces résultats déjà positifs à ceux d'une méthode différente, plus proche de la distinction des phonèmes par l'intelligence humaine, nous proposons l'intégration de modèles connexionnistes à l'architecture d'APHODEX. Une discrimination des occlusives sourdes et sonores, puis des fricatives sourdes et sonores par des perceptrons multi-couches est présentée. Les résultats très positifs nous conduisent alors à étudier une possible interaction des deux méthodes inspirées de sciences différentes, la phonétique et la neurobiologie
APA, Harvard, Vancouver, ISO, and other styles
31

Kerkeni, Leila. "Analyse acoustique de la voix pour la détection des émotions du locuteur." Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1003.

Full text
Abstract:
L'objectif de cette thèse est de proposer un système de reconnaissance automatique des émotions (RAE) par analyse de la voix pour une application dans un contexte pédagogique d'orchestration de classe. Ce système s'appuie sur l'extraction de nouvelles caractéristiques, par démodulation en amplitude et en fréquence, de la voix ; considérée comme un signal multi-composantes modulé en amplitude et en fréquence (AM-FM), non-stationnaire et issue d'un système non-linéaire. Cette démodulation est basée sur l’utilisation conjointe de la décomposition en modes empiriques (EMD) et de l’opérateur d’énergie de Teager-Kaiser (TKEO).Dans ce système, le modèle discret (ou catégoriel) a été retenu pour représenter les six émotions de base (la tristesse, la colère, la joie, le dégoût, la peur et la surprise) et l'émotion dite neutre. La reconnaissance automatique a été optimisée par la recherche de la meilleure combinaison de caractéristiques, la sélection des plus pertinentes et par comparaison de différentes approches de classification. Deux bases de données émotionnelles de référence, en allemand et en espagnol, ont servi à entrainer et évaluer ce système. Une nouvelle base de données en Français, plus appropriée pour le contexte pédagogique a été construite, testée et validée
The aim of this thesis is to propose a speech emotion recognition (SER) system for application in classroom. This system has been built up using novel features based on the amplitude and frequency (AM-FM) modulation model of speech signal. This model is based on the joint use of empirical mode decomposition (EMD) and the Teager-Kaiser energy operator (TKEO). In this system, the discrete (or categorical) emotion theory was chosen to represent the six basic emotions (sadness, anger, joy, disgust, fear and surprise) and neutral emotion.Automatic recognition has been optimized by finding the best combination of features, selecting the most relevant ones and comparing different classification approaches. Two reference speech emotional databases, in German and Spanish, were used to train and evaluate this system. A new database in French, more appropriate for the educational context was built, tested andvalidated
APA, Harvard, Vancouver, ISO, and other styles
32

Badri, Nabil. "Utilisation de la transformée de Fourier et de la transformée en ondelettes pour la reconnaissance du locuteur /." Montréal : École de technologie supérieure, 2002. http://wwwlib.umi.com/cr/etsmtl/fullcit?pMQ75964.

Full text
Abstract:
Thèse (M. Ing.)--École de technologie supérieure, Montréal, 2002.
"Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en technologie des systèmes". Bibliogr.: f. [95]-96. Également disponible en version électronique.
APA, Harvard, Vancouver, ISO, and other styles
33

Badri, Nabil. "Utilisation de la transformée de Fourier et de la transformée en ondelettes pour la reconnaissance du locuteur." Mémoire, École de technologie supérieure, 2002. http://espace.etsmtl.ca/792/1/BADRI_Nabil.pdf.

Full text
Abstract:
Ce travail porte sur l'utilisation de la transformée en ondelettes pour la vérification du locuteur en mode de texte dépendant. Nous avons étudié deux approches dans le cadre de ce sujet: (a) La première est basée sur l'utilisation de la méthode MFDWC (Mel Frequency Discrete Wavelet Coefficients) faisant usage des filtres de Daubechies d'ordres fixe, et d'ordres adaptés au sens de certains critères d'entropies. (b) La deuxième approche est basée sur l'utilisation de l'algorithme de sélection de la meilleure base d'ondelettes au sens du critère d'entropie de Shannon non normalisé. Nous avons proposé dans le cadre de cette approche un algorithme de construction du meilleur arbre du locuteur. Nous avons nommé cet algorithme MAL (Meilleur arbre du locuteur). Cette méthode permet de construire une librairie d'arbres admissibles à partir des phrases d'entraînement. Chaque arbre admissible correspond à un locuteur. Nous avons testé les performances de reconnaissance en effectuant des expériences sur (60) locuteurs. Ces derniers sont extraits de la base de données de Yoho. Finalement, les résultats des deux méthodes ont été comparés avec ceux de la méthode MFCC (Mel Frequency Cepstral Coefficient).
APA, Harvard, Vancouver, ISO, and other styles
34

Grenie, Michel. "Nature et hiérarchie d'indices acoustiques indépendants du locuteur : application à la reconnaissance automatique des voyelles du Français." Aix-Marseille 1, 1987. http://www.theses.fr/1987AIX10061.

Full text
Abstract:
Ce travail traite de la reconnaissance multilocuteur des voyelles du francais. Des indices acoustiques independants du locuteur ont ete recherches. Il apparait qu'ils sont insuffisants pour arriver a une reconnaissance fine des voyelles. Plusieurs modeles fondes sur l'analyse de la variabilite sont explores. Ils permettent de conclure que l'invariance du signal n'est ni absolue ni relative mais organisationnelle
This work is about the recognition of spoken french vowels
APA, Harvard, Vancouver, ISO, and other styles
35

Barras, Claude. "Reconnaissance de la parole continue : adaptation au locuteur et controle temporel dans les modeles de markov caches." Paris 6, 1996. http://www.theses.fr/1996PA066019.

Full text
Abstract:
Les systemes les plus performants en reconnaissance de la parole continue exploitent une approche statistique par modeles de markov caches, mais leur qualite reste encore decevante. Nous avons cherche a ameliorer un systeme standard de reconnaissance en etudiant plus particulierement l'adaptation au locuteur et la modelisation de la duree acoustique. Afin d'evaluer la pertinence des traitements proposes, un systeme de reference a ete developpe a partir la plate-forme logicielle htk et teste sur la base de donnees timit par des experiences de decodage acoustico-phonetique. Ce systeme est constitue de modeles phonetiques dependants du contexte, et integre une procedure originale pour un meilleur apprentissage des densites de probabilite. La premiere etude concerne l'adaptation rapide du systeme a un nouveau locuteur par une approche qui generalise l'adaptation classique par multi-modeles. Les locuteurs d'apprentissage sont classes au moyen d'une distance inter-locuteurs utilisee en reconnaissance du locuteur. Pour un locuteur de test donne, les modeles appris sur les classes de locuteurs les plus proches au sens de la distance sont ensuite combines dans un modele unique. La deuxieme etude concerne le controle temporel de l'enchainement des modeles. Une analyse par rupture de modeles detecte des evenements infraphonemiques dans le signal de parole, qui sont exploites au cours du decodage de la parole continue pour modifier les probabilites de transition entre unites phonetiques. Le controle propose apporte une amelioration significative de la reconnaissance lexicale. Ces travaux sont une contribution au developpement d'un systeme de dictee vocale independant du locuteur, ce qui necessite en particulier l'integration d'un veritable modele de langage et l'evaluation sur d'autres bases de donnees
APA, Harvard, Vancouver, ISO, and other styles
36

Jourlin, Pierre. "Approche bimodale du traitement automatique de la parole : application à la reconnaissance du message et du locuteur." Avignon, 1998. http://www.theses.fr/1998AVIG0122.

Full text
Abstract:
Ces travaux constituent une etude sur la possibilite d'integrer les informations visuelles constituees par le mouvement et la forme des levres dans les systemes de traitement automatique de la parole. Les differentes approches et methodes relatives a cette problematique sont abordees d'une facon theorique et experimentale. Une description technique des phenomenes d'asynchronie (ou d'independance temporelle) presents dans cette source d'information bimodale est tout d'abord etablie. Differentes manieres de gerer ces phenomenes dans les systemes de reconnaissance de la parole sont etudiees et comparees. Nous definissons alors une nouvelle approche fondee sur un produit d'automates a transitions valuees. En outre, la combinaison de deux modalites, qui peuvent avoir des niveaux de fiabilite totalement differents, pose un certain nombre de problemes relatifs a la ponderation. Nous etudions donc les divers criteres et methodes permettant de trouver une ponderation optimale. Il est egalement fait etat de differentes experimentations effectuees dans le domaine du traitement de la parole acoustico-labiale. Nos propres experimentations dans le domaine de la reconnaissance de la parole bimodale et dans le projet amibe (finance par le cnrs) sont decrites. Les resultats des nouvelles methodes developpees dans ces travaux sont egalement presentes. Enfin, nous abordons egalement le domaine de la verification d'identite acoustico-labiale. Nous presentons les resultats obtenus par le systeme que avons realise en collaboration avec l'idiap dans le cadre du projet europeen m2vts (programme acts). Ces experimentations furent parmi les toutes premieres realisees dans le domaine de la reconnaissance et verification acoustico-labiale du locuteur
APA, Harvard, Vancouver, ISO, and other styles
37

Grenie, Michel. "Nature et hiérarchie d'indices acoustiques indépendants du locuteur application à la reconnaissance automatique des voyelles du français /." Lille 3 : ANRT, 1988. http://catalogue.bnf.fr/ark:/12148/cb37605583g.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Jousse, Vincent. "Identification nommée du locuteur : exploitation conjointe du signal sonore et de sa transcription." Phd thesis, Université du Maine, 2011. http://tel.archives-ouvertes.fr/tel-00609093.

Full text
Abstract:
Le traitement automatique de la parole est un domaine qui englobe un grand nombre de travaux : de la reconnaissance automatique du locuteur à la détection des entités nommées en passant par la transcription en mots du signal audio. Les techniques de traitement automatique de la parole permettent d'extraire nombre d'informations des documents audio (réunions, émissions, etc.) comme la transcription, certaines annotations (le type d'émission, les lieux cités, etc.) ou encore des informations relatives aux locuteurs (changement de locuteur, genre du locuteur). Toutes ces informations peuvent être exploitées par des techniques d'indexation automatique qui vont permettre d'indexer de grandes collections de documents. Les travaux présentés dans cette thèse s'intéressent à l'indexation automatique de locuteurs dans des documents audio en français. Plus précisément nous cherchons à identifier les différentes interventions d'un locuteur ainsi qu'à les nommer par leur prénom et leur nom. Ce processus est connu sous le nom d'identification nommée du locuteur (INL). La particularité de ces travaux réside dans l'utilisation conjointe du signal audio et de sa transcription en mots pour nommer les locuteurs d'un document. Le prénom et le nom de chacun des locuteurs est extrait du document lui même (de sa transcription enrichie plus exactement), avant d'être affecté à un des locuteurs du document. Nous commençons par rappeler le contexte et les précédents travaux réalisés sur l'INL avant de présenter Milesin, le système développé lors de cette thèse. L'apport de ces travaux réside tout d'abord dans l'utilisation d'un détecteur automatique d'entités nommées (LIA_NE) pour extraire les couples prénom / nom de la transcription. Ensuite, ils s'appuient sur la théorie des fonctions de croyance pour réaliser l'affectation aux locuteurs du document et prennent ainsi en compte les différents conflits qui peuvent apparaître. Pour finir, un algorithme optimal d'affectation est proposé. Ce système obtient un taux d'erreur compris entre 12 et 20 % sur des transcriptions de référence (réalisées manuellement) en fonction du corpus utilisé. Nous présentons ensuite les avancées réalisées et les limites mises en avant par ces travaux. Nous proposons notamment une première étude de l'impact de l'utilisation de transcriptions entièrement automatiques sur Milesin.
APA, Harvard, Vancouver, ISO, and other styles
39

Kharroubi, Jamal. "Etude de techniques de classement "Machines à vecteurs supports" pour la vérification automatique du locuteur." Phd thesis, Télécom ParisTech, 2002. http://pastel.archives-ouvertes.fr/pastel-00001124.

Full text
Abstract:
Les SVM (Support Vector Machines) sont de nouvelles techniques d'apprentissage statistique proposées par V.Vapnik en 1995. Elles permettent d'aborder des problèmes très divers comme le classement, la régression, la fusion, etc... Depuis leur introduction dans le domaine de la Reconnaissance de Formes (RdF), plusieurs travaux ont pu montrer l'efficacité de ces techniques principalement en traitement d'image. L'idée essentielle des SVM consiste à projeter les données de l'espace d'entrée (appartenant à deux classes différentes) non-linéairement séparables dans un espace de plus grande dimension appelé espace de caractéristiques de façon à ce que les données deviennent linéairement séparables. Dans cet espace, la technique de construction de l'hyperplan optimal est utilisée pour calculer la fonction de classement séparant les deux classes. Dans ce travail de thèse, nous avons étudié les SVM comme techniques de classement pour la Vérification Automatique du Locuteur (VAL) en mode dépendant et indépendant du texte. Nous avons également étudié les SVM pour des tâches de fusion en réalisant des expériences concernant deux types de fusion, la fusion de méthodes et la fusion de modes. Dans le cadre du projet PICASSO, nous avons proposé un système de VAL en mode dépendant du texte utilisant les SVM dans une application de mots de passe publics. Dans ce système, une nouvelle modélisation basée sur la transcription phonétique des mots de passe a été proposée pour construire les vecteurs d'entrée pour notre classifieur SVM. En ce qui concerne notre étude des SVM en VAL en mode indépendant du texte, nous avons proposé des systèmes hybrides GMM-SVM. Dans ces systèmes, trois nouvelles représentations de données ont été proposées permettant de réunir l'efficacité des GMM en modélisation et les performances des SVM en décision. Ce travail entre dans le cadre de nos participations aux évaluations internationales NIST. Dans le cadre du projet BIOMET sur l'authentification biométrique mené par le GET (Groupe des Écoles de Télécommunications), nous avons étudié les SVM pour deux tâches de fusion. La première concerne la fusion de méthodes où nous avons fusionné les scores obtenus par les participants à la tâche ``One Speaker Detection'' aux évaluations NIST'2001. La seconde concerne la fusion de modes menée sur les scores obtenus sur les quatre différentes modalités de la base de données M2VTS. Les études que nous avons réalisées représentent une des premières tentatives d'appliquer les SVM dans le domaine de la VAL. Les résultats obtenus montrent que les SVM sont des techniques très efficaces et surtout très prometteuses que ce soit pour le classement ou la fusion.
APA, Harvard, Vancouver, ISO, and other styles
40

Kahn, Juliette. "Parole de locuteur : performance et confiance en identification biométrique vocale." Phd thesis, Université d'Avignon, 2011. http://tel.archives-ouvertes.fr/tel-00995071.

Full text
Abstract:
Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d'autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :- Tous les extraits de parole d'un même locuteur sont-ils équivalents pour le reconnaître ?- Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ? Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d'un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu'ils soient naïfs ou plus expérimentés.Dans ce cadre, nous montrons que ni la (quasi)unanimité des auditeurs ni l'auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.Nous quantifions, dans un second temps, l'influence du choix d'un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bienfondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l'aide d'un taux de variation autour de l'EER moyen, Vr (pour NIST, VrIdento = 1.41 et VrALIZE/SpkDet = 1.47 et pour BREF, Vr = 3.11) selon le choix du fichier d'apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu'il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.Afin d'expliquer l'importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l'effet du facteur Locuteur sur la variance des indices (h2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur : les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.Ce travail constitue un premier pas vers une étude plus précise de ce qu'est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu'il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l'influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu'en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d'information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu'il en est pour d'autres langues
APA, Harvard, Vancouver, ISO, and other styles
41

Wu, Li. "Analyse et reconnaissance de la parole par modèles rétro-autorégressifs et réseaux neuronaux." Nancy 1, 1990. http://www.theses.fr/1990NAN10506.

Full text
Abstract:
L'objectif de ce travail est l'analyse des voyelles nasales du français. Elles sont au nombre de quatre comme dans lent, long, lin et l'un. Après une courte introduction positionnant le problème, le deuxième chapitre expose les modèles AR, MA et ARMA pour l'analyse de parole et propose un algorithme de ARMA sélectif pour s'adapter à la difficulté de reconnaissance des voyelles nasales. Le troisième chapitre décrit une méthode de détection et de suivi de formants. Le quatrième chapitre est une étude des caractéristiques des voyelles nasales du français, ainsi que leur reconnaissance en utilisant notre modèle. Les erreurs de reconnaissance sont analysées et interprétées. Le dernier chapitre donne et compare les résultats de reconnaissance obtenus par programmation dynamique et par un réseau neuronal
APA, Harvard, Vancouver, ISO, and other styles
42

Chetouani, Mohamed. "Codage neuro-prédictif pour l'extraction de caractéristiques de signaux de parole." Paris 6, 2004. http://www.theses.fr/2004PA066528.

Full text
APA, Harvard, Vancouver, ISO, and other styles
43

Louradour, Jérôme. "Noyaux de séquences pour la vérification du locuteur par machines à vecteurs de support." Toulouse 3, 2007. http://www.theses.fr/2007TOU30004.

Full text
Abstract:
La vérification automatique du locuteur (VAL) est une tâche de classification binaire, qui consiste à déterminer si un énoncé de parole a été prononcé ou non par un locuteur cible. Les Machines à Vecteurs de Support (SVMs) sont devenues un outil classique pour ce type de classification. Cette approche discriminante a suscité l’intérêt de nombreuses recherches en reconnaissance des formes, tant pour ses fondements théoriques solides que pour ses bonnes performances empiriques. Mais la mise en oeuvre des SVMs pour la VAL en situation réelle soulevant plusieurs problèmes relatifs aux caractéristiques propres à cette tâche. Il s’agit principalement de la taille élevée des corpus d’apprentissage et de la nature séquentielle des observations à classifier. Cette thèse est consacrée à l’exploration des noyaux de séquences pour la classification SVM du locuteur. Nous commen¸cons par faire un tour d’horizon des méthodes émergentes pour construire des noyaux de séquences. Ensuite nous proposons une nouvelle famille de noyaux en se basant sur une généralisation d’un noyau qui a fait ses preuves en VAL. Nous faisons l’analyse théorique et algorithmique de cette nouvelle famille avant de l’appliquer à la VAL par SVM. Après la mise en oeuvre des systèmes SVMs à base des différents noyaux que nous avons étudiés, nous comparons leurs performances sur le corpus NIST SRE 2005, à partir d’un protocole de développement commun. Enfin, nous introduisons un nouveau concept pour aborder le problème de VAL, dont le principe est de déterminer si deux séquences ont été prononcées par le même locuteur. L’utilisation des SVMs pour exploiter ce concept nous amène à définir une nouvelle catégorie de noyaux : les noyaux entre paires de séquences
This thesis is focused on the application of Support Vector Machines (SVM) to Automatic Text-Independent Speaker Verification. This speech processing task consists in determining whether a speech utterance was pronounced or not by a target speaker, without any constraint on the speech content. In order to apply a kernel method such as SVM to this binary classification of variable-length sequences, an appropriate approach is to use kernels that can handle sequences, and not acoustic vectors within sequences. As explained in the thesis report, both theoretical and practical reasons justify the effort of searching such kernels. The present study concentrates in exploring several aspects of kernels for sequences, and in applying them to a very large database speaker verification problem under realistic recording conditions. After reviewing emergent methods to conceive sequence kernels and presenting them in a unified framework, we propose a new family of such kernels : the Feature Space Normalized Sequence (FSNS) kernels. These kernels are a generalization of the GLDS kernel, which is now well-known for its efficiency in speaker verification. A theoretical and algorithmic study of FSNS kernels is carried out. In particular, several forms are introduced and justified, and a sparse greedy matrix approximation method is used to suggest an efficient and suitable implementation of FSNS kernels for speaker verification. .
APA, Harvard, Vancouver, ISO, and other styles
44

Larcher, Anthony. "Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée." Phd thesis, Université d'Avignon, 2009. http://tel.archives-ouvertes.fr/tel-00453645.

Full text
Abstract:
La vérification automatique du locuteur est une tâche de classification qui vise à confirmer ou infirmer l'identité d'un individu d'après une étude des caractéristiques spécifiques de sa voix. L'intégration de systèmes de vérification du locuteur sur des appareils embarqués impose de respecter deux types de contraintes, liées à cet environnement : - les contraintes matérielles, qui limitent fortement les ressources disponibles en termes de mémoire de stockage et de puissance de calcul disponibles ; - les contraintes ergonomiques, qui limitent la durée et le nombre des sessions d'entraînement ainsi que la durée des sessions de test. En reconnaissance du locuteur, la structure temporelle du signal de parole n'est pas exploitée par les approches état-de-l'art. Nous proposons d'utiliser cette information, à travers l'utilisation de mots de passe personnels, afin de compenser le manque de données d'apprentissage et de test. Une première étude nous a permis d'évaluer l'influence de la dépendance au texte sur l'approche état-de-l'art GMM/UBM (Gaussian Mixture Model/ Universal Background Model). Nous avons montré qu'une contrainte lexicale imposée à cette approche, généralement utilisée pour la reconnaissance du locuteur indépendante du texte, permet de réduire de près de 30% (en relatif) le taux d'erreurs obtenu dans le cas où les imposteurs ne connaissent pas le mot de passe des clients. Dans ce document, nous présentons une architecture acoustique spécifique qui permet d'exploiter à moindre coût la structure temporelle des mots de passe choisis par les clients. Cette architecture hiérarchique à trois niveaux permet une spécialisation progressive des modèles acoustiques. Un modèle générique représente l'ensemble de l'espace acoustique. Chaque locuteur est représenté par une mixture de Gaussiennes qui dérive du modèle du monde générique du premier niveau. Le troisième niveau de notre architecture est formé de modèles de Markov semi-continus (SCHMM), qui permettent de modéliser la structure temporelle des mots de passe tout en intégrant l'information spécifique au locuteur, modélisée par le modèle GMM du deuxième niveau. Chaque état du modèle SCHMM d'un mot de passe est estimé, relativement au modèle indépendant du texte de ce locuteur, par adaptation des paramètres de poids des distributions Gaussiennes de ce GMM. Cette prise en compte de la structure temporelle des mots de passe permet de réduire de 60% le taux d'égales erreurs obtenu lorsque les imposteurs prononcent un énoncé différent du mot de passe des clients. Pour renforcer la modélisation de la structure temporelle des mots de passe, nous proposons d'intégrer une information issue d'un processus externe au sein de notre architecture acoustique hiérarchique. Des points de synchronisation forts, extraits du signal de parole, sont utilisés pour contraindre l'apprentissage des modèles de mots de passe durant la phase d'enrôlement. Les points de synchronisation obtenus lors de la phase de test, selon le même procédé, permettent de contraindre le décodage Viterbi utilisé, afin de faire correspondre la structure de la séquence avec celle du modèle testé. Cette approche a été évaluée sur la base de données audio-vidéo MyIdea grâce à une information issue d'un alignement phonétique. Nous avons montré que l'ajout d'une contrainte de synchronisation au sein de notre approche acoustique permet de dégrader les scores imposteurs et ainsi de diminuer le taux d'égales erreurs de 20% (en relatif) dans le cas où les imposteurs ignorent le mot de passe des clients tout en assurant des performances équivalentes à celles des approches état-de-l'art dans le cas où les imposteurs connaissent les mots de passe. L'usage de la modalité vidéo nous apparaît difficilement conciliable avec la limitation des ressources imposée par le contexte embarqué. Nous avons proposé un traitement simple du flux vidéo, respectant ces contraintes, qui n'a cependant pas permis d'extraire une information pertinente. L'usage d'une modalité supplémentaire permettrait néanmoins d'utiliser les différentes informations structurelles pour déjouer d'éventuelles impostures par play-back. Ce travail ouvre ainsi de nombreuses perspectives, relatives à l'utilisation d'information structurelle dans le cadre de la vérification du locuteur et aux approches de reconnaissance du locuteur assistée par la modalité vidéo
APA, Harvard, Vancouver, ISO, and other styles
45

Ghio, Alain. "Achile : un dispositif de décodage acoustico-phonétique et d'identification lexicale indépendant du locuteur à partir de modules mixtes." Aix-Marseille 3, 1997. https://hal.archives-ouvertes.fr/tel-01663493.

Full text
Abstract:
La reconnaissance de la parole est une activité dont le but est de faire identifier, par des machines, ce qui est dit par une personne. Le processus peut consister à reconnaître des sons (décodage acoustico-phonétique), des mots (identification lexicale) ou des phrases. Un tel système est soit conçu pour un seul utilisateur, soit pour différents locuteurs. Achile est un dispositif de décodage acoustico-phonétique et d'identification lexicale. Il permet la reconnaissance de mots isolés indépendamment du locuteur sans phase d'apprentissage, ni d'adaptation. Notre objectif est d'examiner jusqu'à quel point un modèle à base de connaissances phonétiques est capable de décoder de façon automatique la structure phonique de la parole sans recourir aux méthodes stochastiques. Le dispositif s'inspire, d'un point de vue fonctionnel, du traitement cognitif humain. La tache de reconnaissance est effectuée par répartition du travail et interaction d'une société d'experts. Le signal de parole alimente tout d'abord les analyseurs de bas niveau. Pour cela, est utilisée, entre autre, une analyse spectrale fondée sur modèle auditif qui tient compte de la notion de pondération sonique et de bandes critiques. Les processus de bas-niveau transmettent leurs données à plusieurs modules de décodage fonctionnant en parallèle (segmentation, reconnaissance globale et analytique). Les résultats sont ensuite transmis aux modules de haut-niveau qui agissent en utilisant des connaissances symboliques (représentations phonologiques, accès lexical). Un moteur d'inférences se charge de prendre une décision finale en comparant les données d'un dictionnaire aux données décodées. L'évaluation du dispositif sur un lexique de 500 mots nous permet de quantifier la pertinence des connaissances, des analyses et des algorithmes employés. C'est aussi le moyen de pouvoir faire évoluer le dispositif en apportant des modifications.
APA, Harvard, Vancouver, ISO, and other styles
46

Gorin, Arseniy. "Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0161/document.

Full text
Abstract:
Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit)
This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)
APA, Harvard, Vancouver, ISO, and other styles
47

Lelong, Amelie. "Convergence phonétique en interaction Phonetic convergence in interaction." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00822871.

Full text
Abstract:
Le travail présenté dans cette thèse est basé sur l'étude d'un phénomène appelé convergence phonétique qui postule que deux interlocuteurs en interaction vont avoir tendance à adapter leur façon de parler à leur interlocuteur dans un but communicatif. Nous avons donc mis en place un paradigme appelé " Dominos verbaux " afin de collecter un corpus large pour caractériser ce phénomène, le but final étant de doter un agent conversationnel animé de cette capacité d'adaptation afin d'améliorer la qualité des interactions homme-machine.Nous avons mené différentes études pour étudier le phénomène entre des paires d'inconnus, d'amis de longue date, puis entre des personnes provenant de la même famille. On s'attend à ce que l'amplitude de la convergence soit liée à la distance sociale entre les deux interlocuteurs. On retrouve bien ce résultat. Nous avons ensuite étudié l'impact de la connaissance de la cible linguistique sur l'adaptation. Pour caractériser la convergence phonétique, nous avons développé deux méthodes : la première basée sur une analyse discriminante linéaire entre les coefficients MFCC de chaque locuteur, la seconde utilisant la reconnaissance de parole. La dernière méthode nous permettra par la suite d'étudier le phénomène en condition moins contrôlée.Finalement, nous avons caractérisé la convergence phonétique à l'aide d'une mesure subjective en utilisant un nouveau test de perception basé sur la détection " en ligne " d'un changement de locuteur. Le test a été réalisé à l'aide signaux extraits des interactions mais également avec des signaux obtenus avec une synthèse adaptative basé sur la modélisation HNM. Nous avons obtenus des résultats comparables démontrant ainsi la qualité de notre synthèse adaptative.
APA, Harvard, Vancouver, ISO, and other styles
48

Ezzaidi, Hassan. "Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques /." Thèse, Chicoutimi : Université du Québec à Chicoutimi, 2002. http://theses.uqac.ca.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Tahon, Marie. "Analyse acoustique de la voix émotionnelle de locuteurs lors d'une interaction humain-robot." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00780341.

Full text
Abstract:
Mes travaux de thèse s'intéressent à la voix émotionnelle dans un contexte d'interaction humain-robot. Dans une interaction réaliste, nous définissons au moins quatre grands types de variabilités : l'environnement (salle, microphone); le locuteur, ses caractéristiques physiques (genre, âge, type de voix) et sa personnalité; ses états émotionnels; et enfin le type d'interaction (jeu, situation d'urgence ou de vie quotidienne). A partir de signaux audio collectés dans différentes conditions, nous avons cherché, grâce à des descripteurs acoustiques, à imbriquer la caractérisation d'un locuteur et de son état émotionnel en prenant en compte ces variabilités.Déterminer quels descripteurs sont essentiels et quels sont ceux à éviter est un défi complexe puisqu'il nécessite de travailler sur un grand nombre de variabilités et donc d'avoir à sa disposition des corpus riches et variés. Les principaux résultats portent à la fois sur la collecte et l'annotation de corpus émotionnels réalistes avec des locuteurs variés (enfants, adultes, personnes âgées), dans plusieurs environnements, et sur la robustesse de descripteurs acoustiques suivant ces quatre variabilités. Deux résultats intéressants découlent de cette analyse acoustique: la caractérisation sonore d'un corpus et l'établissement d'une liste "noire" de descripteurs très variables. Les émotions ne sont qu'une partie des indices paralinguistiques supportés par le signal audio, la personnalité et le stress dans la voix ont également été étudiés. Nous avons également mis en oeuvre un module de reconnaissance automatique des émotions et de caractérisation du locuteur qui a été testé au cours d'interactions humain-robot réalistes. Une réflexion éthique a été menée sur ces travaux.
APA, Harvard, Vancouver, ISO, and other styles
50

Lelong, Amélie. "Convergence phonétique en interaction Phonetic convergence in interaction." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENT079/document.

Full text
Abstract:
Le travail présenté dans cette thèse est basé sur l’étude d’un phénomène appelé convergence phonétique qui postule que deux interlocuteurs en interaction vont avoir tendance à adapter leur façon de parler à leur interlocuteur dans un but communicatif. Nous avons donc mis en place un paradigme appelé « Dominos verbaux » afin de collecter un corpus large pour caractériser ce phénomène, le but final étant de doter un agent conversationnel animé de cette capacité d’adaptation afin d’améliorer la qualité des interactions homme-machine.Nous avons mené différentes études pour étudier le phénomène entre des paires d’inconnus, d’amis de longue date, puis entre des personnes provenant de la même famille. On s’attend à ce que l’amplitude de la convergence soit liée à la distance sociale entre les deux interlocuteurs. On retrouve bien ce résultat. Nous avons ensuite étudié l’impact de la connaissance de la cible linguistique sur l’adaptation. Pour caractériser la convergence phonétique, nous avons développé deux méthodes : la première basée sur une analyse discriminante linéaire entre les coefficients MFCC de chaque locuteur, la seconde utilisant la reconnaissance de parole. La dernière méthode nous permettra par la suite d’étudier le phénomène en condition moins contrôlée.Finalement, nous avons caractérisé la convergence phonétique à l’aide d’une mesure subjective en utilisant un nouveau test de perception basé sur la détection « en ligne » d’un changement de locuteur. Le test a été réalisé à l’aide signaux extraits des interactions mais également avec des signaux obtenus avec une synthèse adaptative basé sur la modélisation HNM. Nous avons obtenus des résultats comparables démontrant ainsi la qualité de notre synthèse adaptative
The work presented in this manuscript is based on the study of a phenomenon called phonetic convergence which postulates that two people in interaction will tend to adapt how they talk to their partner in a communicative purpose. We have developed a paradigm called “Verbal Dominoes“ to collect a large corpus to characterize this phenomenon, the ultimate goal being to fill a conversational agent of this adaptability in order to improve the quality of human-machine interactions.We have done several studies to investigate the phenomenon between pairs of unknown people, good friends, and between people coming from the same family. We expect that the amplitude of convergence is proportional to the social distance between the two speakers. We found this result. Then, we have studied the knowledge of the linguistic target impact on adaptation. To characterize the phonetic convergence, we have developed two methods: the first one is based on a linear discriminant analysis between the MFCC coefficients of each speaker and the second one used speech recognition techniques. The last method will allow us to study the phenomenon in less controlled conditions.Finally, we characterized the phonetic convergence with a subjective measurement using a new perceptual test called speaker switching. The test was performed using signals coming from real interactions but also with synthetic data obtained with the harmonic plus
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography