Dissertations / Theses on the topic 'Reconnaissance du locuteur'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Reconnaissance du locuteur.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Ben, Kheder Waad. "Reconnaissance du locuteur en milieux difficiles." Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0221/document.
Full textSpeaker recognition witnessed considerable progress in the last decade, achieving very low error rates in controlled conditions. However, the implementation of this technology in real applications is hampered by the great degradation of performances in presence of acoustic nuisances. A lot of effort has been invested by the research community in the design of nuisance compensation techniques in the past years. These algorithms operate at different levels : signal, acoustic parameters, models or scores. With the development of the "total variability" paradigm, new possibilities can be explored due to the simple statistical properties of the i-vector space. Our work falls within this framework and presents new compensation techniques which operate directly in the i-vector space. These algorithms use simple relationships between corrupted i-vectors and the corresponding clean versions and ignore the real effect of nuisances in this domain. In order to implement this methodology, pairs of clean and corrupted data are artificially generated then used to develop nuisance compensation algorithms. This method avoids making complex derivations and approximations. The techniques developed in this thesis are divided into two classes : The first class of techniques is based on a distortion model in the i-vector space. A relationships between the clean version of an i-vector and its corrupted version is set and an estimator is built to transform a corrupted test i-vector to its clean counterpart. The second class of techniques does not use any distortion model in the i-vectors domain. It takes into account both the distribution of the clean, corrupt i-vectors as well as the joint distribution. Experiments are carried-out on noisy data and short utterances ; artificially corrupted NIST SRE 2008 data and natural SITW (short / noisy segments)
Besacier, Laurent. "Un modèle parallèle pour la reconnaissance automatique du locuteur." Avignon, 1998. http://www.theses.fr/1998AVIG0119.
Full textSánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur." Paris, ENST, 2005. http://www.theses.fr/2005ENST0032.
Full textThis thesis is concerned with the statistical modeling of speech signal applied to Speaker Verification (SV) using Bayesian Networks (BNs). The main idea of this work is to use BNs as a mathematical tool to model pertinent speech features keeping its relations. It combines theoretical and experimental work. The difference between systems and humans performance in SV is the quantity of information and the relationships between the sources of information used to make decisions. A single statistical framework that keeps the conditional dependence and independence relations between those variables is difficult to attain. Therefore, the use of BNs as a tool for modeling the available information and their independence and dependence relationships is proposed. The first part of this work reviews the main modules of a SV system, the possible sources of information as well as the basic concepts of graphical models. The second part deals with Modeling. A new approach to the problems associated with the SV systems is proposed. The problem of inference and learning (parameters and structure)in BNs are presented. In order to obtain an adapted structure the relations of conditional independence among the variables are learned directly from the data. These relations are then used in order to build an adapted BN. In particular, a new model adaptation technique for BN has been proposed. This adaptation is based on a measure between Conditional Probability Distributions for discrete variables and on Regression Matrix for continuous variables used to model the relationships. In a large database for the SV task, the results have confirmed the potential of use the BNs approach
Mami, Yassine. "Reconnaissance de locuteurs par localisation dans un espace de locuteurs de référence." Phd thesis, Télécom ParisTech, 2003. http://tel.archives-ouvertes.fr/tel-00005757.
Full textNous avons proposé ensuite une nouvelle représentation des locuteurs basée sur une distribution de distances. L'idée est de modéliser un locuteur par une distribution sur les distances mesurées dans l'espace des modèles d'ancrage. Cela permet d'appliquer une mesure statistique entre l'occurrence de test et les modèles des locuteurs à reconnaître (au lieu d'une mesure géométrique).
Ainsi, si nous avons approfondi la modélisation d'un locuteur par sa position dans un espace de locuteurs de référence, nous avons également étudié comment cette position pouvait permettre une meilleure estimation du modèle GMM du locuteur, par exemple en fusionnant les modèles de ses plus proches voisins. Finalement, en complément à la modélisation GMM-UBM, nous avons étudié des algorithmes de fusion de décisions avec les différentes approches proposées.
Preti, Alexandre. "Surveillance de réseaux professionnels de communication par reconnaissance du locuteur." Avignon, 2008. http://www.theses.fr/2008AVIG0160.
Full textThis thesis work deals with automatic speaker recognition for professional telecommunication networks (PMR). More precisely, the targeted application is the online monitoring of communications on this kind of networks. State of the art speaker recognition systems show good performance on telephonic data. Therefore, the targeted application introduces specific constaints. We evaluate the impact of these constraints on a baseline speaker recognition system and propose solutions to limit their influence on recognition error rates. Firstly, we propose an optimised speech parameterization. Some technics are introduced to compensate the effects of noisy environments, low bitrate voice coding and channel transmission variations. Moreover, this parameterization is compliant with the online recognition processing needed by the targeted application. Then, we introduce a new approach for unsupervised speaker model adaptation to reduce the issue of the poor quantity of learning data. Unsupervised adaptation is also a way to reduce the impact of the intra-speaker and inter-session variabilities. We propose a continuous progressive speaker model adaptation able to take into account all the test data withdrawing threshold based data selection
Jourani, Reda. "Reconnaissance automatique du locuteur par des GMM à grande marge." Phd thesis, Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1668/.
Full textMost of state-of-the-art speaker recognition systems are based on Gaussian Mixture Models (GMM), trained using maximum likelihood estimation and maximum a posteriori (MAP) estimation. The generative training of the GMM does not however directly optimize the classification performance. For this reason, discriminative models, e. G. , Support Vector Machines (SVM), have been an interesting alternative since they address directly the classification problem, and they lead to good performances. Recently a new discriminative approach for multiway classification has been proposed, the Large Margin Gaussian mixture models (LM-GMM). As in SVM, the parameters of LM-GMM are trained by solving a convex optimization problem. However they differ from SVM by using ellipsoids to model the classes directly in the input space, instead of half-spaces in an extended high-dimensional space. While LM-GMM have been used in speech recognition, they have not been used in speaker recognition (to the best of our knowledge). In this thesis, we propose simplified, fast and more efficient versions of LM-GMM which exploit the properties and characteristics of speaker recognition applications and systems, the LM-dGMM models. In our LM-dGMM modeling, each class is initially modeled by a GMM trained by MAP adaptation of a Universal Background Model (UBM) or directly initialized by the UBM. The models mean vectors are then re-estimated under some Large Margin constraints. We carried out experiments on full speaker recognition tasks under the NIST-SRE 2006 core condition. The experimental results are very satisfactory and show that our Large Margin modeling approach is very promising
Jourani, Reda. "Reconnaissance automatique du locuteur par des GMM à grande marge." Phd thesis, Université Paul Sabatier - Toulouse III, 2012. http://tel.archives-ouvertes.fr/tel-00807563.
Full textMariéthoz, Johnny. "Algorithmes d'apprentissage discriminants en vérification du locuteur." Lyon 2, 2006. http://theses.univ-lyon2.fr/documents/lyon2/2006/mariethoz_j.
Full textDans cette thèse le problème de la vérification du locuteur indépendante du texte est abordée du point de vue de l'apprentissage statistique (machine learning). Les théories développées en apprentissage statistique permettent de mieux définir ce problème, de développer de nouvelles mesures de performance non-biaisées et de proposer de nouveaux tests statistiques afin de comparer objectivement les modèles proposés. Une nouvelle interprétation des modèles de l'état de l'art basée sur des mixtures de gaussiennes (GMM) montre que ces modèles sont en fait discriminants et équivalents à une mixture d'experts linéaires. Un cadre théorique général pour la normalisation des scores est aussi proposé pour des modèles probabilistes et non-probabilistes. Grâce à ce nouveau cadre théorique, les hypothèses faites lors de l'utilisation de la normalisation Z et T (T- and Z-norm) sont mises en évidence. Différents modèles discriminants sont proposés. On présente un nouveau noyau utilisé par des machines à vecteurs de support (SVM) qui permet de traîter des séquences. Ce noyau est en fait la généralisation d'un noyau déjà existant qui présente l'inconvénient d'être limité à une forme polynomiale. La nouvelle approche proposée permet la projection des données dans un espace de dimension infinie, comme c'est le cas, par exemple, avec l'utilisation d'un noyau gaussien. Une variante de ce noyau cherchant le meilleur vecteur acoustique (frame) dans la séquence à comparer, améliore les résultats actuellement connus. Comme cette approche est particulièrement coûteuse pour les séquences longues, un algorithme de regroupement (clustering) est utilisé pour en réduire la complexité. Finalement, cette thèse aborde aussi des problèmes spécifiques de la vé-ri-fi-ca-tion du locuteur, comme le fait que les nombres d'exemples positifs et négatifs sont très déséquilibrés et que la distribution des distances intra et inter classes est spécifique de ce type de problème. Ainsi, le noyau est modifié en ajoutant un bruit gaussien sur chaque exemple négatif. Même si cette approche manque de justification théorique pour l'instant, elle produit de très bons résultats empiriques et ouvre des perspectives intéressantes pour de futures recherches
Grondin, François. "Reconnaissance de locuteurs pour robot mobile." Mémoire, Université de Sherbrooke, 2012. http://savoirs.usherbrooke.ca/handle/11143/1632.
Full textBennani, Younès. "Approches connexionnistes pour la reconnaissance automatique du locuteur : modelisation & identification." Paris 11, 1992. http://www.theses.fr/1992PA112006.
Full textJouvet, Denis. "Reconnaissance de mots connectes indépendamment du locuteur par des méthodes statistiques." Paris, ENST, 1988. http://www.theses.fr/1988ENST0006.
Full textJouvet, Denis. "Reconnaissance de mots connectés indépendamment du locuteur par des méthodes statistiques." Paris : École nationale supérieure des télécommunications, 1988. http://catalogue.bnf.fr/ark:/12148/cb34959015q.
Full textBonastre, Jean-François. "Stratégie analytique orientée connaissances pour la caractérisation et l'identification du locuteur." Avignon, 1994. http://www.theses.fr/1994AVIG0107.
Full textVelho, Filipe. "La reconnaissance du locuteur à l'aide de la transformée en ondelettes continue." Mémoire, École de technologie supérieure, 2006. http://espace.etsmtl.ca/470/1/VELHO_Filipe.pdf.
Full textCharbuillet, Christophe. "Algorithmes évolutionnistes appliqués à l'extraction de caractéristiques pour la reconnaissance du locuteur." Paris 6, 2008. http://www.theses.fr/2008PA066564.
Full textVelho, Filipe. "La reconnaissance du locuteur à l'aide de la transformée en ondelettes continue /." Thèse, Montréal : École de technologie supérieure, 2006. http://wwwlib.umi.com/cr/etsmtl/fullcit?pMR14414.
Full text"Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie électrique". CaQMUQET Bibliogr.: f. [222]-231. Également disponible en version électronique. CaQMUQET
Sánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur /." Paris : École nationale supérieure des télécommunications, 2005. http://catalogue.bnf.fr/ark:/12148/cb40208312k.
Full textBonneau, Hélène. "Quantification vectorielle et adaptation au locuteur." Paris 11, 1987. http://www.theses.fr/1987PA112306.
Full textTeng, Wen Xuan. "Adaptation rapide au locuteur par sous-espace variable de modèles de référence." Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/teng.pdf.
Full textLes travaux présentés dans cette thèse sont consacrés au problème de l’adaptation de modèles acoustiques pour la reconnaissance automatique de la parole en utilisant très peu de données. Nous définissons le concept de sous-espace de modèle de référence afin d’unifier la plupart des techniques d'adaptation rapide proposées dans la littérature dans un formalisme commun. Il nous aide à étudier les limites des techniques actuelles et à explorer de nouveaux algorithmes d'adaptation. Nous avons montré expérimentalement que l'adaptation avec des sous-espaces fixés ne peut pas donner d’améliorations stables pour différentes cibles à adapter (e. G. Locuteurs). Afin de résoudre ce problème, nous avons proposé d'utiliser des sous-espaces variables qui est mis en œuvre par un nouvel algorithme d’adaptation, l’interpolation de modèle de référence (IMR). Cette technique permet la sélection a posteriori de modèles de référence avec différents critères de sélection. La technique proposée est appliquée dans les systèmes de décodage phonétique et de reconnaissance automatique de la parole continue à grand vocabulaire. Des expériences sur trois bases de données, à savoir IDIOLOGOS, PAIDIOLOGOS et ESTER, montrent l'efficacité de la technique IMR avec l'adaptation instantanée. En outre, l'adaptation progressive est également atteinte en combinant la lente mise à jour des modèles de référence avec l’adaptation rapide par IMR
Lauri, Fabrice. "Adaptation au locuteur de modèles acoustiques markoviens pour la reconnaissance automatique de la parole." Nancy 2, 2004. http://www.theses.fr/2004NAN2A001.
Full textMerlin, Teva. "AMIRAL, une plateforme générique pour la reconnaissance automatique du locuteur - de l'authentification à l'indexation." Avignon, 2005. http://www.theses.fr/2004AVIG0136.
Full textSU, HUANG-YU. "Reconnaissance acoustico-phonetique en parole continue par quantification vectorielle : adaptation du dictionnaire au locuteur." Rennes 1, 1987. http://www.theses.fr/1987REN10127.
Full textSu, Huan-Yu. "Reconnaissance acoustico-phonétique en parole continue par quantification vectorielle adaptation du dictionnaire au locuteur /." Grenoble 2 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37610109z.
Full textFredouille, Corinne. "Approche statistique pour la reconnaissance automatique du locuteur : informations dynamiques et normalisation bayesienne des vraisemblances." Avignon, 2000. http://www.theses.fr/2000AVIG0126.
Full textBousquet, Pierre-Michel. "Bénéfices et limites des représentations en facteur de variabilité totale pour la reconnaissance du locuteur." Thesis, Avignon, 2014. http://www.theses.fr/2014AVIG0200/document.
Full textThe speaker recognition field covers all the techniques intended to authentify theidentity by using voice utterances. Speaker recognition has experienced in recent yearsa significant step forward with a new concept of representation, referred to as the ivector. This type of representation is based on the Gaussian mixture model paradigmand has the distinguishing feature of being a small size vector compared to previousrepresentations, yet very discriminating towards the speaker.The works presented in this thesis are within that new context. Focused on thisrepresentation, they aim to better understand it and assess its assumptions, highlightits key points, its behaviors and limits.We first carried out a statistical analysis of this new representation. This analysishelped to better understand its characteristics, but also reveal defaults of the representationthat led us to develop new transformations. The goal of these techniques is tomove data towards a theoretical model, having a better accuracy for discrimination.We identify and demonstrate a number of properties of these transformations whichjustify their relevance. In terms of performance, applying these techniques reduce byan order of magnitude of 50% the error rate of systems based on i-vectors and Gaussianassumptions and yield the best detection rate in the field through the Gaussianprobabilistic framework. A complete evaluation of the system components is detailed later in this document.By comparing the fundamental approaches to alternative methods, this evaluationidentifies and highlights the fundamental steps that give the concept a value ofparadigm.We show the primacy of some strategic steps in the process chain, includingour propositions, and their relative independence from methods and assumptions.Limits of the solution are uncovered and exposed in a study of "anisotropy", whichreveals some lack of compliance of i-vector distributions with Gaussian assumptions.Alongside these investigations, we participated in the exploration of a new model,alternative to the most usual statistical representations of utterances, which relies on asemi- parametric representation. Designed by J.F. Bonastre, it produces binary key vectorsand provides the means to compare them. This exploration has contributed to the improvement of this model and opens new gates. It was also helpful to our evaluationof the concept of i -vector.Some adaptations of i-vector approach to special speaker recognition tasks are described: we propose new variants to handle short duration utterances ( which is oneof the current issues in the field ) and to deal with a priori mismatch (for example ofsupport, time or distinct language).We hope that this work will better highlight some of the most promising slopes ofresearch around this new concept of representation for speaker recognition
Sanchez-Soto, Eduardo. "Réseaux Bayésiens Dynamiques pour la Vérification du Locuteur." Phd thesis, Télécom ParisTech, 2005. http://tel.archives-ouvertes.fr/tel-00011440.
Full textFerràs, Font Marc. "Utilisation des coefficients de régression linéaire par maximum de vraisemblance comme paramètres pour la reconnaissance automatique du locuteur." Phd thesis, Université Paris Sud - Paris XI, 2009. http://tel.archives-ouvertes.fr/tel-00616673.
Full textBellot, Olivier. "Adaptation au locuteur des modèles acoustiques dans le cadre de la reconnaissance automatique de la parole." Avignon, 2006. http://www.theses.fr/2006AVIG0154.
Full textThe speaker-dependent HMM-based recognizers have lower Word Error Rates (WER) than speaker-independent ones. Nevertheless, in the speaker-dependent case, the requirement of large amount of training data for each test speaker reduces the utility and portability of such systems. The aim of speaker adaptation techniques is to enhance the speaker-independent acoustic models to bring their recognition accuracy as close as possible to the one obtained with speaker-dependent models. In this work, we present two different approaches to increase the robustness of speech regnonizer with respect to the speaker acoustic variabilities. The first one is a method using test and training data for acoustic model adaptation . This method operates in two steps : the first one performs an a priori adaptation using the transcribed training data of the closest training speakers to the test speaker. The second one performs an a posteriori adaptation using the MLLR procedure on the test data. This adaptation strategy was evaluated in a large vocabulary speech recognition task. Our method leads to a relative gain of 15% with respect to the baseline system. The second method presented is based on tree structure. To avoid poor transformation parameters estimation accuracy due to an insufficiency of adaptation data in a node, we propose a new technique based on the maximum a posteriori approach and PDF Gaussians Merging. The basic idea behind this new technique is to estimate an affine transformations which bring the training acoustic models as close as possible to the test acoustic models rather than transformation maximizing the likelihood of the adaptation data. In this manner, even with very small amount of adaptation data, the parameters transformations are accurately estimated for means and variances. This method leads to a relative gain of 16% with respect to the baseline system and a relative gain of 19. 5% combined with the MLLR adaptation
Senoussaoui, Mohammed. "Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs." Mémoire, École de technologie supérieure, 2014. http://espace.etsmtl.ca/1329/1/SENOUSSAOUI_Mohammed.pdf.
Full textFrançois, Dominique. "Détection et identification des occlusives et fricatives au sein du système indépendant du locuteur APHODEX." Nancy 1, 1995. http://www.theses.fr/1995NAN10044.
Full textKerkeni, Leila. "Analyse acoustique de la voix pour la détection des émotions du locuteur." Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1003.
Full textThe aim of this thesis is to propose a speech emotion recognition (SER) system for application in classroom. This system has been built up using novel features based on the amplitude and frequency (AM-FM) modulation model of speech signal. This model is based on the joint use of empirical mode decomposition (EMD) and the Teager-Kaiser energy operator (TKEO). In this system, the discrete (or categorical) emotion theory was chosen to represent the six basic emotions (sadness, anger, joy, disgust, fear and surprise) and neutral emotion.Automatic recognition has been optimized by finding the best combination of features, selecting the most relevant ones and comparing different classification approaches. Two reference speech emotional databases, in German and Spanish, were used to train and evaluate this system. A new database in French, more appropriate for the educational context was built, tested andvalidated
Badri, Nabil. "Utilisation de la transformée de Fourier et de la transformée en ondelettes pour la reconnaissance du locuteur /." Montréal : École de technologie supérieure, 2002. http://wwwlib.umi.com/cr/etsmtl/fullcit?pMQ75964.
Full text"Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en technologie des systèmes". Bibliogr.: f. [95]-96. Également disponible en version électronique.
Badri, Nabil. "Utilisation de la transformée de Fourier et de la transformée en ondelettes pour la reconnaissance du locuteur." Mémoire, École de technologie supérieure, 2002. http://espace.etsmtl.ca/792/1/BADRI_Nabil.pdf.
Full textGrenie, Michel. "Nature et hiérarchie d'indices acoustiques indépendants du locuteur : application à la reconnaissance automatique des voyelles du Français." Aix-Marseille 1, 1987. http://www.theses.fr/1987AIX10061.
Full textThis work is about the recognition of spoken french vowels
Barras, Claude. "Reconnaissance de la parole continue : adaptation au locuteur et controle temporel dans les modeles de markov caches." Paris 6, 1996. http://www.theses.fr/1996PA066019.
Full textJourlin, Pierre. "Approche bimodale du traitement automatique de la parole : application à la reconnaissance du message et du locuteur." Avignon, 1998. http://www.theses.fr/1998AVIG0122.
Full textGrenie, Michel. "Nature et hiérarchie d'indices acoustiques indépendants du locuteur application à la reconnaissance automatique des voyelles du français /." Lille 3 : ANRT, 1988. http://catalogue.bnf.fr/ark:/12148/cb37605583g.
Full textJousse, Vincent. "Identification nommée du locuteur : exploitation conjointe du signal sonore et de sa transcription." Phd thesis, Université du Maine, 2011. http://tel.archives-ouvertes.fr/tel-00609093.
Full textKharroubi, Jamal. "Etude de techniques de classement "Machines à vecteurs supports" pour la vérification automatique du locuteur." Phd thesis, Télécom ParisTech, 2002. http://pastel.archives-ouvertes.fr/pastel-00001124.
Full textKahn, Juliette. "Parole de locuteur : performance et confiance en identification biométrique vocale." Phd thesis, Université d'Avignon, 2011. http://tel.archives-ouvertes.fr/tel-00995071.
Full textWu, Li. "Analyse et reconnaissance de la parole par modèles rétro-autorégressifs et réseaux neuronaux." Nancy 1, 1990. http://www.theses.fr/1990NAN10506.
Full textChetouani, Mohamed. "Codage neuro-prédictif pour l'extraction de caractéristiques de signaux de parole." Paris 6, 2004. http://www.theses.fr/2004PA066528.
Full textLouradour, Jérôme. "Noyaux de séquences pour la vérification du locuteur par machines à vecteurs de support." Toulouse 3, 2007. http://www.theses.fr/2007TOU30004.
Full textThis thesis is focused on the application of Support Vector Machines (SVM) to Automatic Text-Independent Speaker Verification. This speech processing task consists in determining whether a speech utterance was pronounced or not by a target speaker, without any constraint on the speech content. In order to apply a kernel method such as SVM to this binary classification of variable-length sequences, an appropriate approach is to use kernels that can handle sequences, and not acoustic vectors within sequences. As explained in the thesis report, both theoretical and practical reasons justify the effort of searching such kernels. The present study concentrates in exploring several aspects of kernels for sequences, and in applying them to a very large database speaker verification problem under realistic recording conditions. After reviewing emergent methods to conceive sequence kernels and presenting them in a unified framework, we propose a new family of such kernels : the Feature Space Normalized Sequence (FSNS) kernels. These kernels are a generalization of the GLDS kernel, which is now well-known for its efficiency in speaker verification. A theoretical and algorithmic study of FSNS kernels is carried out. In particular, several forms are introduced and justified, and a sparse greedy matrix approximation method is used to suggest an efficient and suitable implementation of FSNS kernels for speaker verification. .
Larcher, Anthony. "Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée." Phd thesis, Université d'Avignon, 2009. http://tel.archives-ouvertes.fr/tel-00453645.
Full textGhio, Alain. "Achile : un dispositif de décodage acoustico-phonétique et d'identification lexicale indépendant du locuteur à partir de modules mixtes." Aix-Marseille 3, 1997. https://hal.archives-ouvertes.fr/tel-01663493.
Full textGorin, Arseniy. "Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0161/document.
Full textThis thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)
Lelong, Amelie. "Convergence phonétique en interaction Phonetic convergence in interaction." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00822871.
Full textEzzaidi, Hassan. "Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques /." Thèse, Chicoutimi : Université du Québec à Chicoutimi, 2002. http://theses.uqac.ca.
Full textTahon, Marie. "Analyse acoustique de la voix émotionnelle de locuteurs lors d'une interaction humain-robot." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00780341.
Full textLelong, Amélie. "Convergence phonétique en interaction Phonetic convergence in interaction." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENT079/document.
Full textThe work presented in this manuscript is based on the study of a phenomenon called phonetic convergence which postulates that two people in interaction will tend to adapt how they talk to their partner in a communicative purpose. We have developed a paradigm called “Verbal Dominoes“ to collect a large corpus to characterize this phenomenon, the ultimate goal being to fill a conversational agent of this adaptability in order to improve the quality of human-machine interactions.We have done several studies to investigate the phenomenon between pairs of unknown people, good friends, and between people coming from the same family. We expect that the amplitude of convergence is proportional to the social distance between the two speakers. We found this result. Then, we have studied the knowledge of the linguistic target impact on adaptation. To characterize the phonetic convergence, we have developed two methods: the first one is based on a linear discriminant analysis between the MFCC coefficients of each speaker and the second one used speech recognition techniques. The last method will allow us to study the phenomenon in less controlled conditions.Finally, we characterized the phonetic convergence with a subjective measurement using a new perceptual test called speaker switching. The test was performed using signals coming from real interactions but also with synthetic data obtained with the harmonic plus